Local Harness는 개인 에이전트의 스킬 선택을 메모리 프롬프트에서 분리...
arXiv 2606.05828은 개인 에이전트의 스킬 선택을 LLM의 메모리 프롬프트에 맡기는 대신, 로컬 통계 priors와 좁은 LLM override probe로 분리하는 Local Harness를 제안한다...
Tag
Agent Skills 태그가 붙은 글입니다.
arXiv 2606.05828은 개인 에이전트의 스킬 선택을 LLM의 메모리 프롬프트에 맡기는 대신, 로컬 통계 priors와 좁은 LLM override probe로 분리하는 Local Harness를 제안한다...
COLLEAGUE.SKILL은 동료의 리뷰 기준, 공적 인물의 사고 모델, 민감한 관계 기록을 불투명한 persona prompt가 아니라 inspectable·correctable·governable SKILL...
arXiv 2605.30621은 자기진화 에이전트의 성능 향상을 업데이트 작성 능력과 업데이트 활용 능력으로 분해하고, 실제 병목이 evolver보다 task-solving agent 쪽에 있음을 보여준다.
Google DeepMind의 Science Skills는 Antigravity 위에서 생명과학 데이터베이스, 스크립트, 도메인별 절차를 SKILL.md 단위로 묶어 과학 워크플로의 신뢰도와 토큰 효율을 높이려는...
SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...
uditgoenka/autoresearch는 Karpathy의 autoresearch를 Claude Code, OpenCode, Codex용 skill/command 패키지로 확장해 Goal·Scope·Metri...
Microsoft 등이 공개한 SkillOpt는 에이전트의 자연어 skill 문서를 모델 가중치가 아닌 외부 학습 상태로 보고, rollout·reflection·bounded edit·validation gat...
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...
MMSkills는 SKILL.md 절차에 상태 카드와 시각 keyframe을 결합하고, 런타임에는 branch loading으로 필요한 증거만 검토하게 만드는 시각 에이전트용 멀티모달 스킬 프레임워크다.
Barry Zhang과 Mahesh Murag의 AI Engineer 발표는 Claude Code와 MCP 이후의 에이전트 병목이 연결성이 아니라 도메인 전문성이라고 보고, SKILL.md·스크립트·참조 파일을...
Skills-Coach는 LLM 에이전트 스킬을 자동으로 테스트하고, Training-Free GRPO로 문서와 코드를 다듬고, 원본과 최적화본을 비교 평가하는 self-evolving optimizer 프레임워...
Ctx2Skill은 복잡한 문맥에서 규칙과 절차를 자연어 스킬로 추출해 언어모델의 context learning을 강화하는 self-play 프레임워크로, 인간 주석과 외부 실행 피드백 없이도 closed-sou...