CL-Bench는 LLM 에이전트가 정말 경험에서 배우는지 묻는다
CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...
Tag
Agent Evaluation 태그가 붙은 글입니다.
CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
arXiv 2605.30621은 자기진화 에이전트의 성능 향상을 업데이트 작성 능력과 업데이트 활용 능력으로 분해하고, 실제 병목이 evolver보다 task-solving agent 쪽에 있음을 보여준다.
SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...
IBM Research의 Agentic CLEAR는 관측성 로그 위에서 에이전트 실행 trace를 LLM judge로 평가하고, CLEAR 집계로 반복 실패를 node·trace·system 수준의 진단 리포트로...
CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...
Claw-Anything는 수개월치 사용자 활동, 여러 백엔드 서비스, CLI·GUI 기기를 함께 열어 둔 상태에서 always-on 개인 비서가 언제 무엇을 봐야 하고 어디까지 행동해야 하는지를 측정하려는 벤치...
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...
이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...
arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...
Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...