LEAF는 작은 embedding 모델을 teacher와 같은 벡터 공간에 맞춘...
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
Tag
Knowledge Distillation 태그가 붙은 글입니다.
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...