VibeThinker-3B는 3B 모델에 검증 가능한 추론을 압축한다
WeiboAI의 VibeThinker-3B는 Qwen2.5-Coder-3B 위에 Spectrum-to-Signal post-training, 다중 도메인 RL, offline self-distillation, C...
Tag
Reasoning Models 태그가 붙은 글입니다.
WeiboAI의 VibeThinker-3B는 Qwen2.5-Coder-3B 위에 Spectrum-to-Signal post-training, 다중 도메인 RL, offline self-distillation, C...
arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...