RL Conductor는 7B 모델을 에이전트 오케스트라의 지휘자로 훈련한다
Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.
Tag
Multi-Agent Systems 태그가 붙은 글입니다.
Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.
HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
arXiv 2605.14212는 자동 멀티 에이전트 시스템의 병목을 frozen executor ceiling으로 보고, Designer가 태스크별 MAS 스크립트를 만들고 Executor가 이를 실행하는 과정을...
arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.
이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...
arXiv 2604.15034는 프롬프트·에이전트·도구·환경·메모리를 버전 관리되는 리소스로 등록하고, 제안·평가·커밋·롤백을 갖춘 AGP/AGS 구조로 자가 진화를 실행 가능한 에이전트 런타임 문제로 옮긴다.
OneManCompany(OMC)는 Talent–Container, Talent Market, E²R tree search로 이기종 에이전트를 고용·조정·리뷰하는 조직 레이어를 제안하고, PRDBench 84.6...
RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토...