Code as Agent Harness는 코드를 에이전트의 출력물이 아니라 실행...
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
Blog
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
Nested Learning은 모델 구조와 학습 규칙을 별개의 설계물이 아니라 서로 다른 시간척도의 중첩 최적화·연상기억 문제로 해석하고, Hope와 CMS를 통해 continual learning과 long-c...
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...
Meta의 Code World Model Preparedness Report는 32B 코드 월드 모델 CWM을 공개하기 전에 사이버·생화학·정직성 리스크를 현재 오픈 모델 생태계와 비교해 검증한 사례다.
Microsoft Security의 MDASH는 100개 이상의 전문 에이전트, 다중 모델 앙상블, debate·dedup·prove 파이프라인으로 Windows 취약점 16건과 CyberGym 88.45% 성과...
Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...
arXiv 2605.14212는 자동 멀티 에이전트 시스템의 병목을 frozen executor ceiling으로 보고, Designer가 태스크별 MAS 스크립트를 만들고 Executor가 이를 실행하는 과정을...
Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...
Adrien Grondin의 AI Engineer 발표는 Gemma 4를 iPhone에서 약 40 tok/s로 실행하는 데모를 통해, MLX Swift LM, Hugging Face MLX Community, 4...
Dex Horthy의 AI Engineer 발표는 복잡한 brownfield 코드베이스에서 AI 코딩 에이전트가 실패하는 이유를 모델 지능 부족보다 context window 관리, compaction, spec...
Barry Zhang과 Mahesh Murag의 AI Engineer 발표는 Claude Code와 MCP 이후의 에이전트 병목이 연결성이 아니라 도메인 전문성이라고 보고, SKILL.md·스크립트·참조 파일을...
Barry Zhang의 AI Engineer 발표는 Anthropic의 Building Effective Agents 글을 바탕으로, 에이전트를 모든 문제에 붙이는 대신 복잡도·가치·검증 가능성·오류 비용을 따지...