WBench는 인터랙티브 비디오 월드 모델 평가를 다중 턴 벤치마크로 재정의한다
Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...
Tag
Multi-turn Evaluation 태그가 붙은 글입니다.
Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...