QUEST는 딥리서치 에이전트를 합성 과제로 훈련한다
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.
Tag
QUEST 태그가 붙은 글입니다.
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.