Tag

#Agent Harness

AIDE²는 ‘더 잘하는 에이전트’보다 ‘더 잘 개선하는 에이전트’를 시험한다

Weco AI의 AIDE² 리포트는 outer loop가 inner research-agent harness를 100회 재작성하고, 고정 비용·비공개 점수·외부 벤치마크로 살아남은 변경만 채택해 인간 수동 튜닝보...

Sangmin Lee2026.07.15

Inference Systems

Hugging Face의 로컬 오픈 모델 입문 영상은 모델보다 실행 스택을 먼저...

Hugging Face 라이브스트림 ‘Welcome to Open Source AI’는 오픈 모델을 로컬에서 쓰는 법을 llama.cpp, GGUF/quant, llama.app, Inference Provide...

Sangmin Lee2026.06.26

Agent Systems

Awesome Harness Engineering은 에이전트 신뢰성을 모델 밖에...

walkinglabs의 Awesome Harness Engineering은 컨텍스트·평가·관측성·런타임 제어·안전한 자율성을 하나의 하네스 엔지니어링 문제로 묶어, 장기 실행 AI 에이전트를 더 신뢰할 수 있게...

Sangmin Lee2026.06.25

Agent Systems

HarnessX는 에이전트 하네스를 조립하고 진화시키는 런타임 foundry다

arXiv 2606.14249는 prompt·tool·memory·control flow를 typed harness primitive로 분리하고, AEGIS trace-driven evolution과 cross-...

Sangmin Lee2026.06.16

Agent Skills & Workflows

Self-Harness는 에이전트가 자기 하네스를 직접 고치는 실험이다

arXiv 2606.09498은 고정된 LLM 에이전트가 자신의 실행 trace에서 반복 실패를 채굴하고, bounded harness edit을 제안한 뒤, held-in/held-out regression g...

Sangmin Lee2026.06.10

Agent Skills & Workflows

LazyCodex는 Codex에 OmO 하네스를 얹는 LazyVim식 배포 레이...

LazyCodex는 npx 한 줄로 OmO의 planning, skills, hooks, model routing, verified completion을 Codex에 설치하는 얇은 배포층이다. 다만 GitHub...

Sangmin Lee2026.06.08

Search & Retrieval

Harness-1은 검색 에이전트 학습을 stateful harness 문제로...

Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.

Sangmin Lee2026.06.04

Agent Systems

Life-Harness는 에이전트 실패를 모델 학습이 아니라 런타임 하네스 적응...

arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...

Sangmin Lee2026.05.25

Agent Skills & Workflows

SmallCode는 작은 로컬 모델의 약점을 하네스 설계로 보정하려는 코딩 에이...

SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...

Sangmin Lee2026.05.21

Agent Systems

Code as Agent Harness는 코드를 에이전트의 출력물이 아니라 실행...

arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...

Sangmin Lee2026.05.20

Safety & Privacy

Microsoft MDASH는 취약점 탐지를 모델 경쟁에서 하네스 경쟁으로 바꾼...

Microsoft Security의 MDASH는 100개 이상의 전문 에이전트, 다중 모델 앙상블, debate·dedup·prove 파이프라인으로 Windows 취약점 16건과 CyberGym 88.45% 성과...

Sangmin Lee2026.05.19

Agent Skills & Workflows

AI Harness는 프롬프트를 더 세게 쓰는 대신 실행 환경을 설계하는 일이다

Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...

Sangmin Lee2026.05.19

Search & Retrieval

Grep이 정말 충분한가: Agentic Search에서 검색보다 하네스가 성능...

arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...

Sangmin Lee2026.05.16