QUEST는 딥리서치 에이전트를 합성 과제로 훈련한다
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.
Tag
Deep Research 태그가 붙은 글입니다.
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.
DCI는 임베딩 인덱스와 top-k 검색 API를 우회하고, 에이전트가 raw corpus를 grep·bash·read로 직접 탐색하게 만드는 검색 인터페이스 제안이다.
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...