Tag

#Terminal-Bench

OpenThoughts-Agent는 100개 이상의 controlled ablation으로 agentic SFT 데이터 파이프라인을 분해하고, 100K trajectory로 Qwen3-32B를 학습해 공개 에이전...

Sangmin Lee2026.06.24

arXiv 2606.09498은 고정된 LLM 에이전트가 자신의 실행 trace에서 반복 실패를 채굴하고, bounded harness edit을 제안한 뒤, held-in/held-out regression g...

Sangmin Lee2026.06.10

SkillsVote는 100만 규모의 SKILL.md 생태계에서 어떤 스킬을 노출하고, 실행 결과를 어떻게 귀속하며, 어떤 경험만 라이브러리에 반영할지를 하나의 수명주기 문제로 다루는 에이전트 스킬 거버넌스 프레...

Sangmin Lee2026.05.20