SkillOpt는 에이전트 스킬을 가중치 없이 학습 가능한 절차로 바꾼다
Microsoft 등이 공개한 SkillOpt는 에이전트의 자연어 skill 문서를 모델 가중치가 아닌 외부 학습 상태로 보고, rollout·reflection·bounded edit·validation gat...
Category
RAG, 에이전트 실행, 워크플로우 자동화를 제품 운영 관점에서 정리합니다.
Microsoft 등이 공개한 SkillOpt는 에이전트의 자연어 skill 문서를 모델 가중치가 아닌 외부 학습 상태로 보고, rollout·reflection·bounded edit·validation gat...
Akshay Pachaar의 LinkedIn 포스트와 Daily Dose of Data Science 인포그래픽을 출발점으로 ReAct, CodeAct, MCP 기반 tool use, self-reflection...
Microsoft Research의 Fara-7B는 스크린샷만 보고 좌표 행동을 예측하는 7B 컴퓨터 사용 에이전트로, FaraGen 합성 궤적과 Critical Point 안전장치를 통해 웹 자동화의 비용·프라...
Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.
arXiv 2604.11465는 Qwen3-8B 하나를 요약기, 메인 에이전트, 독립 교정기라는 세 역할로 반복 호출해 AppWorld pass@1 성능을 FP16 5.4%→8.9%, AWQ 3.0%→5.9%로...
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...
DCI는 임베딩 인덱스와 top-k 검색 API를 우회하고, 에이전트가 raw corpus를 grep·bash·read로 직접 탐색하게 만드는 검색 인터페이스 제안이다.
arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...
arXiv 2605.20176은 임상 에이전트가 미리 큐레이션된 컨텍스트를 읽는 대신 EHR, 웹 지식, 흉부 X-ray 도구를 직접 호출해 근거를 모으는 ClinSeekAgent와 ClinSeek-Bench,...
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...
Stephen Chin의 AI Engineer Europe 발표는 context graph를 단순 검색 보강이 아니라 단기·장기·추론 메모리와 의사결정 trace를 연결하는 에이전트 운영 계층으로 제시한다.
SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...
arXiv 2605.20025는 AutoResearchClaw를 multi-agent debate, self-healing execution, verified result registry, HITL co-pilo...
MMSkills는 SKILL.md 절차에 상태 카드와 시각 keyframe을 결합하고, 런타임에는 branch loading으로 필요한 증거만 검토하게 만드는 시각 에이전트용 멀티모달 스킬 프레임워크다.
SkillsVote는 100만 규모의 SKILL.md 생태계에서 어떤 스킬을 노출하고, 실행 결과를 어떻게 귀속하며, 어떤 경험만 라이브러리에 반영할지를 하나의 수명주기 문제로 다루는 에이전트 스킬 거버넌스 프레...
arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
Microsoft Security의 MDASH는 100개 이상의 전문 에이전트, 다중 모델 앙상블, debate·dedup·prove 파이프라인으로 Windows 취약점 16건과 CyberGym 88.45% 성과...
arXiv 2605.14212는 자동 멀티 에이전트 시스템의 병목을 frozen executor ceiling으로 보고, Designer가 태스크별 MAS 스크립트를 만들고 Executor가 이를 실행하는 과정을...
Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...
Dex Horthy의 AI Engineer 발표는 복잡한 brownfield 코드베이스에서 AI 코딩 에이전트가 실패하는 이유를 모델 지능 부족보다 context window 관리, compaction, spec...
Barry Zhang과 Mahesh Murag의 AI Engineer 발표는 Claude Code와 MCP 이후의 에이전트 병목이 연결성이 아니라 도메인 전문성이라고 보고, SKILL.md·스크립트·참조 파일을...
Barry Zhang의 AI Engineer 발표는 Anthropic의 Building Effective Agents 글을 바탕으로, 에이전트를 모든 문제에 붙이는 대신 복잡도·가치·검증 가능성·오류 비용을 따지...
AI Engineer의 MCP UI 발표는 MCP Apps가 tool result를 단순 텍스트가 아니라 sandboxed iframe, ui:// resource, bidirectional communicati...
Merve Noyan의 AI Engineer 발표는 Hugging Face Hub가 모델 저장소를 넘어, 오픈 모델 탐색·Inference Providers·traces·skills·MCP·Jobs를 묶어 에이전...
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...
arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.
이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...
arXiv 2604.15034는 프롬프트·에이전트·도구·환경·메모리를 버전 관리되는 리소스로 등록하고, 제안·평가·커밋·롤백을 갖춘 AGP/AGS 구조로 자가 진화를 실행 가능한 에이전트 런타임 문제로 옮긴다.
addyosmani/agent-skills는 22개 SKILL.md, 7개 slash command, 3개 전문 persona를 묶어 AI 코딩 에이전트가 spec→plan→build→test→review→shi...
arXiv 2604.26622는 장기 실행 에이전트의 trajectory를 텍스트로 계속 밀어 넣는 대신, multi-resolution 이미지와 Set-of-Mark anchor로 저장하고 필요한 segment...
OneManCompany(OMC)는 Talent–Container, Talent Market, E²R tree search로 이기종 에이전트를 고용·조정·리뷰하는 조직 레이어를 제안하고, PRDBench 84.6...
Reinforced Agent 논문은 툴 호출 에이전트의 오류를 사후 복구가 아니라 실행 전 리뷰 문제로 바꾸고, Helpfulness-Harmfulness 지표로 reviewer agent가 실제로 도움이 되는...
NousResearch의 별도 저장소는 DSPy+GEPA로 Hermes Agent의 SKILL.md, 도구 설명, 시스템 프롬프트를 평가 가능한 변종으로 만들고, 작은 Phase 1 검증을 통해 자동 스킬 개선...
AI Engineer 발표에서 Arize의 Sally-Ann DeLucia는 Alyx를 만들며 겪은 context explosion을 바탕으로, 단순 truncation이나 LLM summarization보다 I...
arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...
OpenAI Ryan Lopopolo의 AI Engineer Europe 발표는 코드 작성이 싸진 뒤의 병목이 인간의 주의, 모델 컨텍스트, 검증 루프가 되며, 엔지니어의 역할이 에이전트가 일하기 좋은 하네스를...
Autonomous Evolution of EDA Tools는 Claude 기반 다중 에이전트가 ABC의 120만 줄 규모 C 코드베이스를 직접 수정하고, 컴파일·CEC·QoR 평가 루프를 통과한 변경만 누적해...
mksglu/context-mode는 MCP 도구 출력, 세션 압축, 상태 복구, 검색 기반 재주입을 하나의 실행 레이어로 묶어 Claude Code·Gemini CLI·Cursor·Copilot·OpenCode...
OpenSearch-VL은 데이터 합성, 시각·검색 도구 환경, fatal-aware GRPO를 하나의 공개 레시피로 묶어 프론티어급 멀티모달 딥서치 에이전트를 재현하려는 시도다.
AI Engineer의 Matt Pocock 워크숍은 AI 코딩의 핵심을 더 긴 프롬프트가 아니라 작은 작업, 공유된 설계 개념, PRD, Kanban, TDD, deep module, 병렬 에이전트 운영으로 재...
AI Engineer 워크숍 영상의 Demand-Driven Context는 엔터프라이즈 에이전트가 실패한 지점을 관찰해 필요한 도메인 지식만 구조화하고, 지식 모놀리스를 agent-ready context bl...
CopilotKit/CopilotKit은 단순 채팅 위젯보다 넓은 문제를 겨냥한다. 사용자-facing UI, Runtime, AG-UI, 에이전트, 도구, MCP 서버를 하나의 상호작용 루프로 묶어 실제 애플리...
bytonylee/future-slide-skill은 참조 슬라이드에서 DESIGN.md를 추출하고, 덱 계획과 페이지별 프롬프트, 순차 이미지 생성을 분리해 GPT 계열 모델의 흔한 슬라이드 생성 실패를 줄이려...
huggingface/ml-intern은 논문 읽기나 코드 생성에 머무는 챗봇이 아니라, Hugging Face Hub·GitHub·로컬 추론 서버·세션 트레이스·승인 흐름을 하나의 작업 루프로 묶으려는 ML 엔...
Nick Nisi와 Zack Proser의 'Skills at Scale'은 코딩 에이전트 활용의 핵심을 더 긴 프롬프트가 아니라, 설명·제약·스크립트·평가 루프를 갖춘 portable skill로 업무 지식을...
Michael Arnaldi의 'Vibe Engineering Effect Apps'는 코딩 에이전트가 낯선 라이브러리를 잘 쓰게 만드는 핵심이 더 긴 프롬프트가 아니라 해당 라이브러리의 실제 저장소와 패턴을 작...
Canner/WrenAI는 LLM이 SQL 문법을 쓰게 만드는 도구보다, 비즈니스 의미를 MDL semantic layer로 고정하고 memory·profile·SDK·skills를 붙여 여러 에이전트가 같은 데...
Auto Research는 specialist agent가 코드 수정, 실험 제출, 외부 evaluator 피드백 반영을 반복하는 closed-loop 연구 하네스를 제안한다. 핵심 산출물은 논문 초안이 아니라...
getdesign.md는 Google Stitch의 DESIGN.md 포맷을 70여 개 브랜드 레퍼런스, 웹 프리뷰, 설치 명령, 저장/북마크 지표, 프라이빗 요청 흐름까지 갖춘 카탈로그로 감싸면서 '디자인 감각...
WithWoz/wozcode-plugin은 Claude Code의 기본 파일 도구를 smart search, batch editing, SQL introspection, subagent delegation으로 대...
Skills-Coach는 LLM 에이전트 스킬을 자동으로 테스트하고, Training-Free GRPO로 문서와 코드를 다듬고, 원본과 최적화본을 비교 평가하는 self-evolving optimizer 프레임워...
Peking University의 SSL 논문은 SKILL.md 중심의 텍스트 스킬을 스케줄링·구조·논리 3계층 표현으로 정규화해, 스킬 검색과 사전 위험 검토를 더 기계 친화적으로 만들 수 있음을 보여준다.
Q00/ouroboros는 막연한 아이디어를 곧바로 코드로 보내지 않고, 소크라테스식 인터뷰·불변 Seed 명세·다단계 평가·진화 루프로 감싸 replayable한 실행 계약으로 바꾸는 specification-...
Ctx2Skill은 복잡한 문맥에서 규칙과 절차를 자연어 스킬로 추출해 언어모델의 context learning을 강화하는 self-play 프레임워크로, 인간 주석과 외부 실행 피드백 없이도 closed-sou...
HeavySkill은 멀티에이전트 오케스트레이션의 성능 원천을 외부 시스템 복잡도보다 모델 내부의 heavy thinking 스킬로 재해석하며, 이를 병렬 추론과 순차적 숙의로 분해해 test-time scali...
RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토...
Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...
Fincept-Corporation/FinceptTerminal은 C++20·Qt6 네이티브 데스크톱 위에 임베디드 Python 분석, 100개 이상 데이터 커넥터, 브로커 연동, AI 에이전트, MCP 도구,...
Lum1104/Understand-Anything은 코드·문서·Karpathy 스타일 위키를 멀티 에이전트 파이프라인으로 분석해 구조 그래프, 도메인 그래프, 검색, 온보딩, diff 영향 분석까지 연결하는 오픈...
seulee26/mckinsey-pptx는 맥킨지 스타일 슬라이드 40종을 Python PPTX 엔진으로 구현하고, 그 위에 Claude Code 플러그인·서브에이전트·슬래시 커맨드를 얹어 사용자의 짧은 브리프를...
SkillsMP는 GitHub 전역에 흩어진 SKILL.md 기반 에이전트 스킬을 수집해 의미 검색, 직군 분류, 카테고리 탐색, API 접근, 설치 가이드까지 한 화면으로 묶어 Claude Code·Codex·...
oh-my-codex는 OpenAI Codex CLI를 대체하지 않고 그 위에 팀 실행, worktree 격리, 역할 프롬프트, 워크플로우 스킬, MCP 서버, HUD와 상태 관리까지 얹어 단일 코딩 에이전트를...
Lazyweb은 방대한 앱 스크린샷 라이브러리와 비교 페이지, 인스퍼레이션 카탈로그, 무료 MCP 엔드포인트, 에이전트용 스킬 배포 경로를 결합해 Claude Code·Codex·Cursor 같은 코딩 에이전트가...
ruvnet/ruflo는 Claude Code 위에 swarm coordination, persistent memory, self-learning loop, federation, 32개 플러그인, 300개 수준의...
rowboatlabs/rowboat는 이메일·캘린더·미팅노트·웹 검색 결과를 로컬 마크다운 볼트와 지식 그래프로 축적한 뒤, 그 위에서 회의 준비, 이메일 초안, 문서 작성, PDF 덱 생성, 라이브 노트 업데이...
unclejobs-ai가 포크한 LLM Wiki gist는 파일 업로드형 RAG 대신, LLM이 원문 소스를 읽고 지속적으로 갱신하는 마크다운 위키를 중간 계층으로 두어 개인·연구·팀 지식을 축적형 자산으로 운영...
nexu-io/open-design은 Claude Design의 artifact-first 디자인 경험을 오픈소스로 재구성하면서, 여러 코딩 에이전트 CLI와 로컬 데몬, 디자인 시스템, 스킬 카탈로그, 샌드박스...
paper2code는 arXiv 논문을 구현할 때 LLM이 빈칸을 자신 있게 메워버리는 문제를 막기 위해, 구현 결과를 citation-anchored code·ambiguity audit·walkthrough...
obra/superpowers는 Claude Code, Codex, Gemini CLI, Cursor 같은 코딩 에이전트에 스킬 라이브러리와 강제 워크플로우를 주입해, 즉흥적인 프롬프트 코딩을 설계-계획-TDD-...
Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이...
Hugging Face Skills는 모델 학습, 데이터셋 탐색, 평가, 로컬 추론 같은 AI 작업 지식을 SKILL.md 기반 패키지로 묶어 Claude Code, Codex, Gemini CLI, Cursor...
RAG가 데모에서 제품으로 넘어가는 순간, 질문은 어떤 검색기가 더 좋은가에서 실패한 추론을 어떻게 발견하고 복구할 것인가로 바뀐다.