Awesome Harness Engineering은 에이전트 신뢰성을 모델 밖에...
walkinglabs의 Awesome Harness Engineering은 컨텍스트·평가·관측성·런타임 제어·안전한 자율성을 하나의 하네스 엔지니어링 문제로 묶어, 장기 실행 AI 에이전트를 더 신뢰할 수 있게...
Tag
Agent Harness 태그가 붙은 글입니다.
walkinglabs의 Awesome Harness Engineering은 컨텍스트·평가·관측성·런타임 제어·안전한 자율성을 하나의 하네스 엔지니어링 문제로 묶어, 장기 실행 AI 에이전트를 더 신뢰할 수 있게...
arXiv 2606.14249는 prompt·tool·memory·control flow를 typed harness primitive로 분리하고, AEGIS trace-driven evolution과 cross-...
arXiv 2606.09498은 고정된 LLM 에이전트가 자신의 실행 trace에서 반복 실패를 채굴하고, bounded harness edit을 제안한 뒤, held-in/held-out regression g...
LazyCodex는 npx 한 줄로 OmO의 planning, skills, hooks, model routing, verified completion을 Codex에 설치하는 얇은 배포층이다. 다만 GitHub...
Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.
arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...
SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
Microsoft Security의 MDASH는 100개 이상의 전문 에이전트, 다중 모델 앙상블, debate·dedup·prove 파이프라인으로 Windows 취약점 16건과 CyberGym 88.45% 성과...
Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...