Harness-1은 검색 에이전트 학습을 stateful harness 문제로...
Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.
Tag
Agent Harness 태그가 붙은 글입니다.
Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.
arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...
SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
Microsoft Security의 MDASH는 100개 이상의 전문 에이전트, 다중 모델 앙상블, debate·dedup·prove 파이프라인으로 Windows 취약점 16건과 CyberGym 88.45% 성과...
Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...