Skills-Coach는 스킬 마켓을 평가 가능한 최적화 루프로 바꾸려 한다
Skills-Coach는 LLM 에이전트 스킬을 자동으로 테스트하고, Training-Free GRPO로 문서와 코드를 다듬고, 원본과 최적화본을 비교 평가하는 self-evolving optimizer 프레임워크다. 논문은 48개 Skill-X 벤치마크에서 평균 점수 0.378→0.84, pass rate 33.59%→88.02% 개선을 보고한다.
Tag
ClawHub 태그가 붙은 글입니다.
Skills-Coach는 LLM 에이전트 스킬을 자동으로 테스트하고, Training-Free GRPO로 문서와 코드를 다듬고, 원본과 최적화본을 비교 평가하는 self-evolving optimizer 프레임워크다. 논문은 48개 Skill-X 벤치마크에서 평균 점수 0.378→0.84, pass rate 33.59%→88.02% 개선을 보고한다.