SlimQwen은 거대 MoE를 그냥 자르지 않고, 사전학습 궤적까지 함께 압축...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...
Tag
Qwen3-Next 태그가 붙은 글입니다.
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...