WBench는 인터랙티브 비디오 월드 모델 평가를 다중 턴 벤치마크로 재정의한다
Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...
Tag
Video Generation 태그가 붙은 글입니다.
Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...
NVIDIA LongLive-2.0은 Balanced SP, NVFP4 학습·추론, KV-cache 양자화, asynchronous VAE decoding을 묶어 긴 비디오 생성의 학습 비용과 실시간 추론 병목을...
ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...