Self-Harness는 에이전트가 자기 하네스를 직접 고치는 실험이다
arXiv 2606.09498은 고정된 LLM 에이전트가 자신의 실행 trace에서 반복 실패를 채굴하고, bounded harness edit을 제안한 뒤, held-in/held-out regression g...
Tag
Terminal-Bench 태그가 붙은 글입니다.
arXiv 2606.09498은 고정된 LLM 에이전트가 자신의 실행 trace에서 반복 실패를 채굴하고, bounded harness edit을 제안한 뒤, held-in/held-out regression g...
SkillsVote는 100만 규모의 SKILL.md 생태계에서 어떤 스킬을 노출하고, 실행 결과를 어떻게 귀속하며, 어떤 경험만 라이브러리에 반영할지를 하나의 수명주기 문제로 다루는 에이전트 스킬 거버넌스 프레...