SANA-WM은 1분짜리 월드를 2.6B 모델과 단일 GPU 배포로 끌어내린다
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...
Tag
World Model 태그가 붙은 글입니다.
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...
OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와...