Tag

#Benchmark

Rubric4Setwise는 ‘관련 문서’를 고르는 대신 ‘좋은 문서 묶음’을...

SetwiseEvalKit은 relevance·authenticity·quality부터 complementarity·redundancy·conflict, completeness·density·reachabilit...

Sangmin Lee2026.07.25

Evaluation & Benchmarks

DocOps는 문서 에이전트를 ‘파일이 열리는가’가 아니라 ‘원본 상태를 보존했...

DocOps는 XLSX·DOCX·PPTX·PDF의 native state를 직접 검사하는 deterministic verifier와 210개 Harbor task로, 문서 에이전트의 장기 상태 추적·의미 검증·비...

Sangmin Lee2026.07.24

Video Generation

KeyFrame-Compass는 ‘키프레임을 지켰는가’를 비디오 생성의 독립 평...

KeyFrame-Compass는 386개 기본 샘플과 키프레임 실행·전체 비디오 품질을 분리한 진단 지표로, 멀티 키프레임 비디오 생성이 자연스러움과 제어 충실도 사이에서 어떤 trade-off를 보이는지 측정하...

Sangmin Lee2026.07.20

Evaluation & Benchmarks

Video-MME-Logical은 비디오 모델의 시간-논리 추론을 분해해서 본다

Video-MME-Logical은 25개 절차 생성 과제와 중간 상태 진단으로 MLLM이 프레임을 보는 것을 넘어 시간에 따라 상태를 유지·갱신·조합하는지 평가한다.

Sangmin Lee2026.06.30

Evaluation & Benchmarks

CL-Bench는 LLM 에이전트가 정말 경험에서 배우는지 묻는다

CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...

Sangmin Lee2026.06.07

Evaluation & Benchmarks

AutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다

AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.

Sangmin Lee2026.06.05

Agent Systems

Macaron-A2UI는 개인 에이전트의 응답을 ‘대화+실행 가능한 UI’로 확...

Macaron-A2UI는 개인 에이전트가 자연어와 A2UI v0.8 기반 선언형 UI 액션을 함께 생성하도록 학습한 모델군과 A2UI-Bench를 공개하며, 텍스트 채팅 이후의 에이전트 인터페이스를 평가 가능한...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

SkillEvolBench는 에이전트 경험이 재사용 가능한 스킬로 진화하는지를...

SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...

Sangmin Lee2026.05.28

Agent Skills & Workflows

SmallCode는 작은 로컬 모델의 약점을 하네스 설계로 보정하려는 코딩 에이...

SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...

Sangmin Lee2026.05.21

Evaluation & Benchmarks

TabEmbed는 표형 임베딩을 벤치마크와 contrastive matching...

TabEmbed는 TabBench를 통해 표형 임베딩을 classification과 retrieval의 공통 표현 문제로 재정의하고, language-to-row contrastive learning으로 범용 t...

Sangmin Lee2026.05.08

Evaluation & Benchmarks

OmniShotCut은 샷 경계 검출을 컷 포인트 찾기에서 관계 예측과 벤치마크...

OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...

Sangmin Lee2026.05.06

Evaluation & Benchmarks

Stet은 GPT-5.5와 Opus 4.7의 차이를 테스트 통과율 너머에서 드러...

Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...

Sangmin Lee2026.05.06

Evaluation & Benchmarks

OpenCompass는 LLM 평가를 실행 엔진·벤치마크 카탈로그·리더보드로 묶...

open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평...

Sangmin Lee2026.05.06

Document Intelligence

문서 AI 벤치마크는 왜 단일 정확도로 설명되지 않는가

문서 복원 품질은 OCR 텍스트 정확도와 테이블 구조 품질이 함께 움직일 때 비로소 사용자 체감 품질에 가까워진다.

Sangmin Lee2026.04.28