SU-01은 올림피아드 추론을 SFT·RL·TTS 하나의 레시피로 밀어올린다
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...
Tag
SU-01 태그가 붙은 글입니다.
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...