Tag

#Agent Skills

autoresearch-skill은 스킬 프롬프트를 keep-or-discard...

olelehmann1337/autoresearch-skill은 Claude Code skill을 여러 번 실행하고 binary eval로 점수화한 뒤, 한 번에 하나의 prompt mutation만 keep-or...

Sangmin Lee2026.07.15

Agent Skills & Workflows

SkillOpt-Lite는 에이전트 자기진화를 파일 디버깅 루프로 되돌린다

arXiv 2607.03451은 에이전트 스킬 최적화를 복잡한 tree merge와 update damping이 아니라, 실패 trace 파일을 읽고 최소 패치를 만든 뒤 독립 validation gate로 ke...

Sangmin Lee2026.07.09

Agent Skills & Workflows

SkillComposer는 에이전트 스킬 선택을 검색이 아니라 순서 있는 생성...

arXiv 2606.32025는 LLM 에이전트가 어떤 스킬을 몇 개, 어떤 순서로 불러올지를 하나의 시퀀스 생성 문제로 정식화하고, 3.9M 학습 파라미터의 작은 컴포저가 검색·전체 SFT 방식보다 안정적인 스...

Sangmin Lee2026.07.07

Agent Skills & Workflows

HASTE는 에이전트 스킬을 계층으로 쌓아 ML 엔지니어링 반복을 줄인다

arXiv 2606.30911은 ML 엔지니어링 에이전트가 과거 Kaggle 경험을 global·domain·competition 스킬로 나눠 재사용할 때, 단순한 flat memory보다 전이 효율이 좋아진다는...

Sangmin Lee2026.07.06

Agent Skills & Workflows

OpenClaw-Skill은 에이전트 스킬을 목록이 아니라 트리로 찾는다

arXiv 2606.16774는 여러 모델의 실행 궤적과 judge 평가를 결합해 전이 가능한 스킬 트리를 만들고, CSRL로 스킬 조건부 rollout을 비교 학습하는 OpenClaw-Skill을 제안한다.

Sangmin Lee2026.06.18

Agent Skills & Workflows

Local Harness는 개인 에이전트의 스킬 선택을 메모리 프롬프트에서 분리...

arXiv 2606.05828은 개인 에이전트의 스킬 선택을 LLM의 메모리 프롬프트에 맡기는 대신, 로컬 통계 priors와 좁은 LLM override probe로 분리하는 Local Harness를 제안한다...

Sangmin Lee2026.06.07

Agent Skills & Workflows

COLLEAGUE.SKILL은 사람의 흔적을 에이전트 스킬 패키지로 바꾼다

COLLEAGUE.SKILL은 동료의 리뷰 기준, 공적 인물의 사고 모델, 민감한 관계 기록을 불투명한 persona prompt가 아니라 inspectable·correctable·governable SKILL...

Sangmin Lee2026.06.04

Agent Skills & Workflows

Harness Updating은 Harness Benefit이 아니다

arXiv 2605.30621은 자기진화 에이전트의 성능 향상을 업데이트 작성 능력과 업데이트 활용 능력으로 분해하고, 실제 병목이 evolver보다 task-solving agent 쪽에 있음을 보여준다.

Sangmin Lee2026.06.04

Agent Skills & Workflows

Google DeepMind Science Skills는 과학 에이전트를 워크플...

Google DeepMind의 Science Skills는 Antigravity 위에서 생명과학 데이터베이스, 스크립트, 도메인별 절차를 SKILL.md 단위로 묶어 과학 워크플로의 신뢰도와 토큰 효율을 높이려는...

Sangmin Lee2026.06.02

Evaluation & Benchmarks

SkillEvolBench는 에이전트 경험이 재사용 가능한 스킬로 진화하는지를...

SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...

Sangmin Lee2026.05.28

Research Agents

Autoresearch는 코딩 에이전트를 지표 기반 개선 루프로 바꾼다

uditgoenka/autoresearch는 Karpathy의 autoresearch를 Claude Code, OpenCode, Codex용 skill/command 패키지로 확장해 Goal·Scope·Metri...

Sangmin Lee2026.05.27

Agent Skills & Workflows

SkillOpt는 에이전트 스킬을 가중치 없이 학습 가능한 절차로 바꾼다

Microsoft 등이 공개한 SkillOpt는 에이전트의 자연어 skill 문서를 모델 가중치가 아닌 외부 학습 상태로 보고, rollout·reflection·bounded edit·validation gat...

Sangmin Lee2026.05.26

Research Agents

NVIDIA AI-Q는 딥리서치를 에이전트 하네스 밖의 전문 스킬로 분리한다

NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...

Sangmin Lee2026.05.23

Agent Skills & Workflows

MMSkills는 시각 에이전트 스킬을 멀티모달 절차 기억으로 만든다

MMSkills는 SKILL.md 절차에 상태 카드와 시각 keyframe을 결합하고, 런타임에는 branch loading으로 필요한 증거만 검토하게 만드는 시각 에이전트용 멀티모달 스킬 프레임워크다.

Sangmin Lee2026.05.20

Agent Skills & Workflows

Anthropic의 Agent Skills는 에이전트를 더 만들기보다 전문성 폴...

Barry Zhang과 Mahesh Murag의 AI Engineer 발표는 Claude Code와 MCP 이후의 에이전트 병목이 연결성이 아니라 도메인 전문성이라고 보고, SKILL.md·스크립트·참조 파일을...

Sangmin Lee2026.05.19

Agent Skills & Workflows

Skills-Coach는 스킬 마켓을 평가 가능한 최적화 루프로 바꾸려 한다

Skills-Coach는 LLM 에이전트 스킬을 자동으로 테스트하고, Training-Free GRPO로 문서와 코드를 다듬고, 원본과 최적화본을 비교 평가하는 self-evolving optimizer 프레임워...

Sangmin Lee2026.05.07

Agent Skills & Workflows

Ctx2Skill은 긴 문맥을 읽는 능력을 파라미터가 아니라 스킬 문서로 끌어올...

Ctx2Skill은 복잡한 문맥에서 규칙과 절차를 자연어 스킬로 추출해 언어모델의 context learning을 강화하는 self-play 프레임워크로, 인간 주석과 외부 실행 피드백 없이도 closed-sou...

Sangmin Lee2026.05.06