Lance는 멀티태스크 시너지로 이미지·비디오 이해와 생성을 한 모델에 묶는다
ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...
Tag
Image Generation 태그가 붙은 글입니다.
ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...
SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.
Qwen-Image-2.0은 Qwen3-VL 조건 인코더, MMDiT, 16× VAE, 다단계 데이터 플라이휠을 결합해 1K 토큰 텍스트 지시, 2K 포토리얼리즘, 이미지 편집을 하나의 생성 모델 표면으로 통합하...
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서...