#Agents

COLLEAGUE.SKILL은 사람의 흔적을 에이전트 스킬 패키지로 바꾼다

COLLEAGUE.SKILL은 동료의 리뷰 기준, 공적 인물의 사고 모델, 민감한 관계 기록을 불투명한 persona prompt가 아니라 inspectable·correctable·governable SKILL...

Sangmin Lee2026.06.04

Harness는 Claude Code 에이전트 팀을 찍어내는 메타 스킬이다

revfactory/harness는 도메인 한 문장을 Claude Code용 에이전트 팀, 역할 정의, 스킬 세트로 변환하는 팀 아키텍처 팩토리이며, Agent Teams의 실험적 협업 모델을 재사용 가능한 하네...

Sangmin Lee2026.05.27

6가지 Agentic Design Pattern은 에이전트를 제품 구조로 보는...

Akshay Pachaar의 LinkedIn 포스트와 Daily Dose of Data Science 인포그래픽을 출발점으로 ReAct, CodeAct, MCP 기반 tool use, self-reflection...

Sangmin Lee2026.05.26

RL Conductor는 7B 모델을 에이전트 오케스트라의 지휘자로 훈련한다

Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.

Sangmin Lee2026.05.25

Nemotron-Orchestrator-8B는 작은 8B 모델로 더 큰 에이전트...

NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...

Sangmin Lee2026.05.25

MMSkills는 시각 에이전트 스킬을 멀티모달 절차 기억으로 만든다

MMSkills는 SKILL.md 절차에 상태 카드와 시각 keyframe을 결합하고, 런타임에는 branch loading으로 필요한 증거만 검토하게 만드는 시각 에이전트용 멀티모달 스킬 프레임워크다.

Sangmin Lee2026.05.20

SkillsVote는 에이전트 스킬을 추천에서 진화까지 거버넌스한다

SkillsVote는 100만 규모의 SKILL.md 생태계에서 어떤 스킬을 노출하고, 실행 결과를 어떻게 귀속하며, 어떤 경험만 라이브러리에 반영할지를 하나의 수명주기 문제로 다루는 에이전트 스킬 거버넌스 프레...

Sangmin Lee2026.05.20

AI for Auto-Research는 자동 연구를 라이프사이클 거버넌스로 바꾼...

arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.

Sangmin Lee2026.05.20

Agent Skills는 코딩 에이전트에 시니어 엔지니어링 절차를 주입한다

addyosmani/agent-skills는 22개 SKILL.md, 7개 slash command, 3개 전문 persona를 묶어 AI 코딩 에이전트가 spec→plan→build→test→review→shi...

Sangmin Lee2026.05.13

OCR-Memory는 에이전트 기억을 텍스트 요약이 아니라 시각적 검색 문제로...

arXiv 2604.26622는 장기 실행 에이전트의 trajectory를 텍스트로 계속 밀어 넣는 대신, multi-resolution 이미지와 Set-of-Mark anchor로 저장하고 필요한 segment...

Sangmin Lee2026.05.13

SRA는 에이전트 스킬을 프롬프트 목록에서 검색 가능한 능력 코퍼스로 바꾼다

arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...

Sangmin Lee2026.05.11

Self-Evolved ABC는 EDA 도구 자체를 에이전트가 진화시키려는 실험...

Autonomous Evolution of EDA Tools는 Claude 기반 다중 에이전트가 ABC의 120만 줄 규모 C 코드베이스를 직접 수정하고, 컴파일·CEC·QoR 평가 루프를 통과한 변경만 누적해...

Sangmin Lee2026.05.11

Context Mode는 AI 코딩 에이전트의 컨텍스트 병목을 운영체제처럼 다룬...

mksglu/context-mode는 MCP 도구 출력, 세션 압축, 상태 복구, 검색 기반 재주입을 하나의 실행 레이어로 묶어 Claude Code·Gemini CLI·Cursor·Copilot·OpenCode...

Sangmin Lee2026.05.11

CopilotKit은 에이전트를 앱 안의 UX로 끌어오는 프론트엔드 런타임이다

CopilotKit/CopilotKit은 단순 채팅 위젯보다 넓은 문제를 겨냥한다. 사용자-facing UI, Runtime, AG-UI, 에이전트, 도구, MCP 서버를 하나의 상호작용 루프로 묶어 실제 애플리...

Sangmin Lee2026.05.10

Future Slide Skill은 슬라이드 생성을 4단계 파이프라인으로 묶는다

bytonylee/future-slide-skill은 참조 슬라이드에서 DESIGN.md를 추출하고, 덱 계획과 페이지별 프롬프트, 순차 이미지 생성을 분리해 GPT 계열 모델의 흔한 슬라이드 생성 실패를 줄이려...

Sangmin Lee2026.05.10

ML Intern은 Hugging Face 위에서 돌아가는 운영형 ML 에이전트...

huggingface/ml-intern은 논문 읽기나 코드 생성에 머무는 챗봇이 아니라, Hugging Face Hub·GitHub·로컬 추론 서버·세션 트레이스·승인 흐름을 하나의 작업 루프로 묶으려는 ML 엔...

Sangmin Lee2026.05.10

WrenAI는 Text-to-SQL 도구가 아니라 AI 에이전트를 위한 open...

Canner/WrenAI는 LLM이 SQL 문법을 쓰게 만드는 도구보다, 비즈니스 의미를 MDL semantic layer로 고정하고 memory·profile·SDK·skills를 붙여 여러 에이전트가 같은 데...

Sangmin Lee2026.05.09

Auto Research는 논문을 쓰지 않고 실험 궤적을 쌓는다

Auto Research는 specialist agent가 코드 수정, 실험 제출, 외부 evaluator 피드백 반영을 반복하는 closed-loop 연구 하네스를 제안한다. 핵심 산출물은 논문 초안이 아니라...

Sangmin Lee2026.05.08

getdesign.md는 DESIGN.md를 에이전트용 디자인 시스템 마켓플레이...

getdesign.md는 Google Stitch의 DESIGN.md 포맷을 70여 개 브랜드 레퍼런스, 웹 프리뷰, 설치 명령, 저장/북마크 지표, 프라이빗 요청 흐름까지 갖춘 카탈로그로 감싸면서 '디자인 감각...

Sangmin Lee2026.05.07

WOZCODE는 Claude Code를 비용 최적화형 플러그인 런타임으로 감싼다

WithWoz/wozcode-plugin은 Claude Code의 기본 파일 도구를 smart search, batch editing, SQL introspection, subagent delegation으로 대...

Sangmin Lee2026.05.07

SSL은 에이전트 스킬을 문서에서 구조로 끌어낸다

Peking University의 SSL 논문은 SKILL.md 중심의 텍스트 스킬을 스케줄링·구조·논리 3계층 표현으로 정규화해, 스킬 검색과 사전 위험 검토를 더 기계 친화적으로 만들 수 있음을 보여준다.

Sangmin Lee2026.05.07

Model Training

긴 작업을 못 버티는 이유는 모델 크기가 아니라 horizon일 수 있다

이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...

Sangmin Lee2026.05.06

HeavySkill은 에이전트 하네스의 복잡함을 병렬 추론과 요약이라는 내부 스...

HeavySkill은 멀티에이전트 오케스트레이션의 성능 원천을 외부 시스템 복잡도보다 모델 내부의 heavy thinking 스킬로 재해석하며, 이를 병렬 추론과 순차적 숙의로 분해해 test-time scali...

Sangmin Lee2026.05.06

RecursiveMAS는 멀티 에이전트 협업을 텍스트가 아니라 잠재 상태 재귀로...

RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토...

Sangmin Lee2026.05.06

CocoIndex는 에이전트의 신선한 컨텍스트를 배치가 아닌 상태 동기화 문제로...

cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·...

Sangmin Lee2026.05.06

Evaluation & Benchmarks

Stet은 GPT-5.5와 Opus 4.7의 차이를 테스트 통과율 너머에서 드러...

Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...

Sangmin Lee2026.05.06

Fincept Terminal은 금융 분석 터미널을 AI 에이전트 탑재 네이티브...

Fincept-Corporation/FinceptTerminal은 C++20·Qt6 네이티브 데스크톱 위에 임베디드 Python 분석, 100개 이상 데이터 커넥터, 브로커 연동, AI 에이전트, MCP 도구,...

Sangmin Lee2026.05.06

Understand Anything은 코드베이스 이해를 인터랙티브 지식 그래프로...

Lum1104/Understand-Anything은 코드·문서·Karpathy 스타일 위키를 멀티 에이전트 파이프라인으로 분석해 구조 그래프, 도메인 그래프, 검색, 온보딩, diff 영향 분석까지 연결하는 오픈...

Sangmin Lee2026.05.06

mckinsey-pptx는 컨설팅 덱 작성을 Claude Code 에이전트 작업...

seulee26/mckinsey-pptx는 맥킨지 스타일 슬라이드 40종을 Python PPTX 엔진으로 구현하고, 그 위에 Claude Code 플러그인·서브에이전트·슬래시 커맨드를 얹어 사용자의 짧은 브리프를...

Sangmin Lee2026.05.06

Foundation Models

DeepSeek-V4-Pro는 1M 컨텍스트를 49B 활성 경로로 밀어붙인다

DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 K...

Sangmin Lee2026.05.06

Foundation Models

MiMo-V2.5는 1M 컨텍스트·오디오·에이전트를 한 모델로 묶는다

Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.

Sangmin Lee2026.05.06

SkillsMP는 흩어진 SKILL.md 생태계를 검색 가능한 마켓플레이스로 바...

SkillsMP는 GitHub 전역에 흩어진 SKILL.md 기반 에이전트 스킬을 수집해 의미 검색, 직군 분류, 카테고리 탐색, API 접근, 설치 가이드까지 한 화면으로 묶어 Claude Code·Codex·...

Sangmin Lee2026.05.06

oh-my-codex는 Codex CLI 위에 멀티에이전트 운영 레이어를 얹는다

oh-my-codex는 OpenAI Codex CLI를 대체하지 않고 그 위에 팀 실행, worktree 격리, 역할 프롬프트, 워크플로우 스킬, MCP 서버, HUD와 상태 관리까지 얹어 단일 코딩 에이전트를...

Sangmin Lee2026.05.06

Lazyweb은 디자인 영감을 에이전트용 검색 컨텍스트로 바꾼다

Lazyweb은 방대한 앱 스크린샷 라이브러리와 비교 페이지, 인스퍼레이션 카탈로그, 무료 MCP 엔드포인트, 에이전트용 스킬 배포 경로를 결합해 Claude Code·Codex·Cursor 같은 코딩 에이전트가...

Sangmin Lee2026.05.06

Ruflo는 Claude Code를 다중 에이전트 운영 플랫폼으로 확장한다

ruvnet/ruflo는 Claude Code 위에 swarm coordination, persistent memory, self-learning loop, federation, 32개 플러그인, 300개 수준의...

Sangmin Lee2026.05.06

Rowboat은 개인 업무 맥락을 로컬 지식 그래프로 축적한다

rowboatlabs/rowboat는 이메일·캘린더·미팅노트·웹 검색 결과를 로컬 마크다운 볼트와 지식 그래프로 축적한 뒤, 그 위에서 회의 준비, 이메일 초안, 문서 작성, PDF 덱 생성, 라이브 노트 업데이...

Sangmin Lee2026.05.06

LLM Wiki는 RAG를 축적형 지식 운영체제로 바꾸려 한다

unclejobs-ai가 포크한 LLM Wiki gist는 파일 업로드형 RAG 대신, LLM이 원문 소스를 읽고 지속적으로 갱신하는 마크다운 위키를 중간 계층으로 두어 개인·연구·팀 지식을 축적형 자산으로 운영...

Sangmin Lee2026.05.06

Open Design은 Claude Design을 로컬 에이전트 스튜디오로 다시...

nexu-io/open-design은 Claude Design의 artifact-first 디자인 경험을 오픈소스로 재구성하면서, 여러 코딩 에이전트 CLI와 로컬 데몬, 디자인 시스템, 스킬 카탈로그, 샌드박스...

Sangmin Lee2026.05.06

paper2code는 논문 구현의 애매함을 코드 옆에 드러낸다

paper2code는 arXiv 논문을 구현할 때 LLM이 빈칸을 자신 있게 메워버리는 문제를 막기 위해, 구현 결과를 citation-anchored code·ambiguity audit·walkthrough...

Sangmin Lee2026.05.06

Inference Systems

AutoKernel은 GPU 커널 최적화를 에이전트 실험 루프로 바꾼다

AutoKernel은 PyTorch 모델을 프로파일링해 병목 GPU 커널을 추출한 뒤, Triton 또는 CUDA C++ 커널을 에이전트가 반복적으로 수정·벤치마크·유지/되돌리기 하도록 설계해 하룻밤 단위의 자동...

Sangmin Lee2026.05.06

Superpowers는 코딩 에이전트에 방법론을 주입한다

obra/superpowers는 Claude Code, Codex, Gemini CLI, Cursor 같은 코딩 에이전트에 스킬 라이브러리와 강제 워크플로우를 주입해, 즉흥적인 프롬프트 코딩을 설계-계획-TDD-...

Sangmin Lee2026.05.06

Agent Lightning은 에이전트 실행과 학습을 분리해 RL을 붙인다

Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이...

Sangmin Lee2026.05.06

Hugging Face Skills는 에이전트용 AI 워크플로우를 패키지화한다

Hugging Face Skills는 모델 학습, 데이터셋 탐색, 평가, 로컬 추론 같은 AI 작업 지식을 SKILL.md 기반 패키지로 묶어 Claude Code, Codex, Gemini CLI, Cursor...

Sangmin Lee2026.05.06