Tag

#Agent Evaluation

DocOps는 문서 에이전트를 ‘파일이 열리는가’가 아니라 ‘원본 상태를 보존했...

DocOps는 XLSX·DOCX·PPTX·PDF의 native state를 직접 검사하는 deterministic verifier와 210개 Harbor task로, 문서 에이전트의 장기 상태 추적·의미 검증·비...

Sangmin Lee2026.07.24

Evaluation & Benchmarks

Agentic Abstention은 에이전트에게 ‘언제 멈출지’를 묻는다

Agentic Abstention은 WebShop·Terminal-Bench·AbstentionBench를 28K+ 순차 의사결정 과제로 엮어, LLM 에이전트가 불가능한 요청 앞에서 제때 멈추는지 측정한다.

Sangmin Lee2026.07.01

Evaluation & Benchmarks

NatureBench는 코딩 에이전트의 과학 발견 능력을 SOTA 기준으로 묻는...

NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.

Sangmin Lee2026.06.24

Evaluation & Benchmarks

CL-Bench는 LLM 에이전트가 정말 경험에서 배우는지 묻는다

CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...

Sangmin Lee2026.06.07

Evaluation & Benchmarks

AutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다

AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.

Sangmin Lee2026.06.05

Agent Skills & Workflows

Harness Updating은 Harness Benefit이 아니다

arXiv 2605.30621은 자기진화 에이전트의 성능 향상을 업데이트 작성 능력과 업데이트 활용 능력으로 분해하고, 실제 병목이 evolver보다 task-solving agent 쪽에 있음을 보여준다.

Sangmin Lee2026.06.04

Evaluation & Benchmarks

SkillEvolBench는 에이전트 경험이 재사용 가능한 스킬로 진화하는지를...

SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Agentic CLEAR는 LLM 에이전트 평가를 trace·node·syste...

IBM Research의 Agentic CLEAR는 관측성 로그 위에서 에이전트 실행 trace를 LLM judge로 평가하고, CLEAR 집계로 반복 실패를 node·trace·system 수준의 진단 리포트로...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

CUA-Gym은 컴퓨터 사용 에이전트 RL을 검증 가능한 환경 생성 문제로 바꾼...

CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Claw-Anything는 개인 비서 평가를 ‘항상 켜진 디지털 세계’ 문제로...

Claw-Anything는 수개월치 사용자 활동, 여러 백엔드 서비스, CLI·GUI 기기를 함께 열어 둔 상태에서 always-on 개인 비서가 언제 무엇을 봐야 하고 어디까지 행동해야 하는지를 측정하려는 벤치...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Pare-Bench는 proactive assistant 평가를 능동 사용자 시...

Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...

Sangmin Lee2026.05.25

Evaluation & Benchmarks

HarnessAudit는 에이전트 하네스 안전성을 실행 궤적으로 감사한다

HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...

Sangmin Lee2026.05.20

Agent Systems

멀티 에이전트의 방관자 효과: 협업이 추론 주권을 무너뜨리는 순간

이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...

Sangmin Lee2026.05.14

Agent Skills & Workflows

SRA는 에이전트 스킬을 프롬프트 목록에서 검색 가능한 능력 코퍼스로 바꾼다

arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...

Sangmin Lee2026.05.11

Evaluation & Benchmarks

DELEGATE-52는 LLM이 위임된 문서 작업에서 얼마나 조용히 망가지는지...

Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...

Sangmin Lee2026.05.10

Evaluation & Benchmarks

DeepEval은 LLM 평가를 pytest식 테스트·트레이싱·합성 데이터까지...

confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...

Sangmin Lee2026.05.06