Evaluation & Benchmarks

Rubric4Setwise는 ‘관련 문서’를 고르는 대신 ‘좋은 문서 묶음’을...

SetwiseEvalKit은 relevance·authenticity·quality부터 complementarity·redundancy·conflict, completeness·density·reachabilit...

Sangmin Lee2026.07.25

Evaluation & Benchmarks

DocOps는 문서 에이전트를 ‘파일이 열리는가’가 아니라 ‘원본 상태를 보존했...

DocOps는 XLSX·DOCX·PPTX·PDF의 native state를 직접 검사하는 deterministic verifier와 210개 Harbor task로, 문서 에이전트의 장기 상태 추적·의미 검증·비...

Sangmin Lee2026.07.24

Evaluation & Benchmarks

TimeLens2는 비디오 temporal grounding을 ‘근거 구간 집합...

TimeLens2는 long video의 단일·반복·질문형·egocentric 근거 구간을 하나의 generative interface로 찾고, 검증된 93K supervision과 temporal Wassers...

Sangmin Lee2026.07.24

Evaluation & Benchmarks

PROBE는 환각 탐지를 한 번의 판정이 아니라 검증 과정으로 평가한다

ACL 2026 Findings의 PROBE는 LLM 환각 탐지를 claim decomposition, evidence finding, evidence evaluation, hallucination localiz...

Sangmin Lee2026.07.05

Evaluation & Benchmarks

Agentic Abstention은 에이전트에게 ‘언제 멈출지’를 묻는다

Agentic Abstention은 WebShop·Terminal-Bench·AbstentionBench를 28K+ 순차 의사결정 과제로 엮어, LLM 에이전트가 불가능한 요청 앞에서 제때 멈추는지 측정한다.

Sangmin Lee2026.07.01

Evaluation & Benchmarks

Video-MME-Logical은 비디오 모델의 시간-논리 추론을 분해해서 본다

Video-MME-Logical은 25개 절차 생성 과제와 중간 상태 진단으로 MLLM이 프레임을 보는 것을 넘어 시간에 따라 상태를 유지·갱신·조합하는지 평가한다.

Sangmin Lee2026.06.30

Evaluation & Benchmarks

NatureBench는 코딩 에이전트의 과학 발견 능력을 SOTA 기준으로 묻는...

NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.

Sangmin Lee2026.06.24

Evaluation & Benchmarks

공통 UI 컴포넌트 테스트 여정: 스냅샷에서 시각적 회귀까지

if(kakao)2020 발표 ‘UI 테스트를 위한 여정’을 바탕으로, 카카오의 사내 어드민 UI 컴포넌트가 Storybook 스냅샷 테스트에서 시각적 회귀 테스트와 Jenkins 기반 PR 자동화로 확장된 과정...

Sangmin Lee2026.06.10

Evaluation & Benchmarks

CL-Bench는 LLM 에이전트가 정말 경험에서 배우는지 묻는다

CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...

Sangmin Lee2026.06.07

Evaluation & Benchmarks

AutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다

AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.

Sangmin Lee2026.06.05

Evaluation & Benchmarks

KOLongDoc는 한국어 장문 문서 VLM을 멀티홉 QA로 압박한다

KOLongDoc는 100개 한국어 장문 문서와 200개 멀티홉 QA로, VLM이 긴 공공문서를 이미지와 텍스트 입력 양쪽에서 얼마나 끝까지 읽고 추론하는지 평가하려는 벤치마크다.

Sangmin Lee2026.06.05

Evaluation & Benchmarks

SpatialBench는 공간 파운데이션 모델이 진짜 올라운더인지 묻는다

SpatialBench는 19개 데이터셋, 546개 장면, 41개 모델 변형, 6개 패러다임을 하나의 deterministic multi-density 프로토콜로 묶어 공간 파운데이션 모델의 범용성을 검증하는 벤...

Sangmin Lee2026.05.29

Evaluation & Benchmarks

SkillEvolBench는 에이전트 경험이 재사용 가능한 스킬로 진화하는지를...

SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

WBench는 인터랙티브 비디오 월드 모델 평가를 다중 턴 벤치마크로 재정의한다

Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Agentic CLEAR는 LLM 에이전트 평가를 trace·node·syste...

IBM Research의 Agentic CLEAR는 관측성 로그 위에서 에이전트 실행 trace를 LLM judge로 평가하고, CLEAR 집계로 반복 실패를 node·trace·system 수준의 진단 리포트로...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

CUA-Gym은 컴퓨터 사용 에이전트 RL을 검증 가능한 환경 생성 문제로 바꾼...

CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Claw-Anything는 개인 비서 평가를 ‘항상 켜진 디지털 세계’ 문제로...

Claw-Anything는 수개월치 사용자 활동, 여러 백엔드 서비스, CLI·GUI 기기를 함께 열어 둔 상태에서 always-on 개인 비서가 언제 무엇을 봐야 하고 어디까지 행동해야 하는지를 측정하려는 벤치...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Pare-Bench는 proactive assistant 평가를 능동 사용자 시...

Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...

Sangmin Lee2026.05.25

Evaluation & Benchmarks

HarnessAudit는 에이전트 하네스 안전성을 실행 궤적으로 감사한다

HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...

Sangmin Lee2026.05.20

Evaluation & Benchmarks

DELEGATE-52는 LLM이 위임된 문서 작업에서 얼마나 조용히 망가지는지...

Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...

Sangmin Lee2026.05.10

Evaluation & Benchmarks

TabEmbed는 표형 임베딩을 벤치마크와 contrastive matching...

TabEmbed는 TabBench를 통해 표형 임베딩을 classification과 retrieval의 공통 표현 문제로 재정의하고, language-to-row contrastive learning으로 범용 t...

Sangmin Lee2026.05.08

Evaluation & Benchmarks

OmniShotCut은 샷 경계 검출을 컷 포인트 찾기에서 관계 예측과 벤치마크...

OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...

Sangmin Lee2026.05.06

Evaluation & Benchmarks

DeepEval은 LLM 평가를 pytest식 테스트·트레이싱·합성 데이터까지...

confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...

Sangmin Lee2026.05.06

Evaluation & Benchmarks

Stet은 GPT-5.5와 Opus 4.7의 차이를 테스트 통과율 너머에서 드러...

Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...

Sangmin Lee2026.05.06

Evaluation & Benchmarks

OpenCompass는 LLM 평가를 실행 엔진·벤치마크 카탈로그·리더보드로 묶...

open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평...

Sangmin Lee2026.05.06