Moebius: 0.22B 인페인팅으로 10B급 모델의 속도 장벽을 흔들다
Moebius는 LλMI 블록과 latent-space distillation으로 226M 파라미터 이미지 인페인팅 모델을 만들고, 10B급 범용 생성 모델 대비 훨씬 낮은 비용의 품질-속도 절충점을 제시한다.
Tag
Knowledge Distillation 태그가 붙은 글입니다.
Moebius는 LλMI 블록과 latent-space distillation으로 226M 파라미터 이미지 인페인팅 모델을 만들고, 10B급 범용 생성 모델 대비 훨씬 낮은 비용의 품질-속도 절충점을 제시한다.
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...