Harness-1은 검색 에이전트 학습을 stateful harness 문제로...
Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.
Tag
Search Agent 태그가 붙은 글입니다.
Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.