Pare-Bench는 proactive assistant 평가를 능동 사용자 시...
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
Tag
Agent Evaluation 태그가 붙은 글입니다.
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...
이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...
arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...
Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...