Tag

#Reasoning Models

Direct-OPD는 작은 RL teacher의 최종 정책을 모방하지 않고, 사전·사후 체크포인트의 로그비에 남은 policy shift를 큰 student의 온폴리시 학습용 dense reward로 바꿔 wea...

Sangmin Lee2026.07.15

WeiboAI의 VibeThinker-3B는 Qwen2.5-Coder-3B 위에 Spectrum-to-Signal post-training, 다중 도메인 RL, offline self-distillation, C...

Sangmin Lee2026.06.17

arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...

Sangmin Lee2026.05.25

SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...

Sangmin Lee2026.05.20