HarnessX는 에이전트 하네스를 조립하고 진화시키는 런타임 foundry다
arXiv 2606.14249는 prompt·tool·memory·control flow를 typed harness primitive로 분리하고, AEGIS trace-driven evolution과 cross-...
Category
에이전트 런타임, 오케스트레이션, 멀티에이전트, 도구 사용, 메모리 구조를 정리합니다.
arXiv 2606.14249는 prompt·tool·memory·control flow를 typed harness primitive로 분리하고, AEGIS trace-driven evolution과 cross-...
arXiv 2606.12674는 MCP-style 툴 사용을 함수 호출 문제가 아니라 실행 가능한 workflow graph를 고치는 문제로 보고, 작은 planner에서 SFT/DPO보다 inference-ti...
Google DeepMind의 arXiv 2606.12683v1은 AGI를 종착점이 아니라 post-AGI 전환의 출발점으로 놓고, ASI로 가는 네 가지 기술 경로와 여섯 가지 병목을 연구 질문으로 정리한다.
TIDE 논문은 proactive agent가 사용자의 명시 요청을 기다리는 대신, 개인 workspace와 software repository 안에 공존하는 여러 숨은 문제를 반복적으로 찾고 근거와 해결 행동까...
Anthropic Institute의 When AI builds itself는 공개 벤치마크와 내부 데이터를 묶어 AI 개발에서 실행 비용은 급격히 낮아지고, 판단·검증·거버넌스가 새로운 병목으로 떠오른다는 점을...
Rafiee와 Sutton의 arXiv 2605.24238은 경험, 행동-지각 불가분성, 자율성, 체화라는 네 개념으로 LLM과 RL 이후의 에이전트 설계를 재해석한다.
MemForest는 장기 실행 LLM 에이전트의 메모리 병목을 retrieval보다 extraction·maintenance write path에서 찾고, canonical fact와 MemTree 계층형 시간...
Macaron-A2UI는 개인 에이전트가 자연어와 A2UI v0.8 기반 선언형 UI 액션을 함께 생성하도록 학습한 모델군과 A2UI-Bench를 공개하며, 텍스트 채팅 이후의 에이전트 인터페이스를 평가 가능한...
arXiv 2605.23218은 Foundation Protocol(FP)을 agent, tool, human, organization을 하나의 entity graph로 묶고 session, event, rece...
HF Papers 2605.28773 / arXiv 논문은 FluxMem을 통해 에이전트 메모리를 semantic·episodic·procedural 노드가 계속 연결·수정·통합되는 heterogeneous gr...
Akshay Pachaar의 LinkedIn 포스트와 Daily Dose of Data Science 인포그래픽을 출발점으로 ReAct, CodeAct, MCP 기반 tool use, self-reflection...
Microsoft Research의 Fara-7B는 스크린샷만 보고 좌표 행동을 예측하는 7B 컴퓨터 사용 에이전트로, FaraGen 합성 궤적과 Critical Point 안전장치를 통해 웹 자동화의 비용·프라...
Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.
arXiv 2604.11465는 Qwen3-8B 하나를 요약기, 메인 에이전트, 독립 교정기라는 세 역할로 반복 호출해 AppWorld pass@1 성능을 FP16 5.4%→8.9%, AWQ 3.0%→5.9%로...
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...
arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
arXiv 2605.14212는 자동 멀티 에이전트 시스템의 병목을 frozen executor ceiling으로 보고, Designer가 태스크별 MAS 스크립트를 만들고 Executor가 이를 실행하는 과정을...
Barry Zhang의 AI Engineer 발표는 Anthropic의 Building Effective Agents 글을 바탕으로, 에이전트를 모든 문제에 붙이는 대신 복잡도·가치·검증 가능성·오류 비용을 따지...
이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...
arXiv 2604.15034는 프롬프트·에이전트·도구·환경·메모리를 버전 관리되는 리소스로 등록하고, 제안·평가·커밋·롤백을 갖춘 AGP/AGS 구조로 자가 진화를 실행 가능한 에이전트 런타임 문제로 옮긴다.
OneManCompany(OMC)는 Talent–Container, Talent Market, E²R tree search로 이기종 에이전트를 고용·조정·리뷰하는 조직 레이어를 제안하고, PRDBench 84.6...
Reinforced Agent 논문은 툴 호출 에이전트의 오류를 사후 복구가 아니라 실행 전 리뷰 문제로 바꾸고, Helpfulness-Harmfulness 지표로 reviewer agent가 실제로 도움이 되는...
AI Engineer 발표에서 Arize의 Sally-Ann DeLucia는 Alyx를 만들며 겪은 context explosion을 바탕으로, 단순 truncation이나 LLM summarization보다 I...
HeavySkill은 멀티에이전트 오케스트레이션의 성능 원천을 외부 시스템 복잡도보다 모델 내부의 heavy thinking 스킬로 재해석하며, 이를 병렬 추론과 순차적 숙의로 분해해 test-time scali...
RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토...
oh-my-codex는 OpenAI Codex CLI를 대체하지 않고 그 위에 팀 실행, worktree 격리, 역할 프롬프트, 워크플로우 스킬, MCP 서버, HUD와 상태 관리까지 얹어 단일 코딩 에이전트를...
ruvnet/ruflo는 Claude Code 위에 swarm coordination, persistent memory, self-learning loop, federation, 32개 플러그인, 300개 수준의...
Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이...