Dynin-Omni는 오토리그레시브 대신 마스크드 디퓨전으로 옴니모달을 한 백본에 밀어 넣는다
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token space 위의 iterative denoising 문제로 다시 정의한다.
Tag
Diffusion 태그가 붙은 글입니다.
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token space 위의 iterative denoising 문제로 다시 정의한다.
Netflix의 VOID는 단순 배경 인페인팅을 넘어서, 사람이 사라지면 기타가 떨어지는 것처럼 제거 대상이 남긴 물리적 상호작용까지 함께 수정하는 interaction-aware video object removal 모델이다.