공통 UI 컴포넌트 테스트 여정: 스냅샷에서 시각적 회귀까지
if(kakao)2020 발표 ‘UI 테스트를 위한 여정’을 바탕으로, 카카오의 사내 어드민 UI 컴포넌트가 Storybook 스냅샷 테스트에서 시각적 회귀 테스트와 Jenkins 기반 PR 자동화로 확장된 과정...
Category
LLM·VLM 평가 프레임워크, 벤치마크, 리더보드, 측정 기준을 정리합니다.
if(kakao)2020 발표 ‘UI 테스트를 위한 여정’을 바탕으로, 카카오의 사내 어드민 UI 컴포넌트가 Storybook 스냅샷 테스트에서 시각적 회귀 테스트와 Jenkins 기반 PR 자동화로 확장된 과정...
CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
KOLongDoc는 100개 한국어 장문 문서와 200개 멀티홉 QA로, VLM이 긴 공공문서를 이미지와 텍스트 입력 양쪽에서 얼마나 끝까지 읽고 추론하는지 평가하려는 벤치마크다.
SpatialBench는 19개 데이터셋, 546개 장면, 41개 모델 변형, 6개 패러다임을 하나의 deterministic multi-density 프로토콜로 묶어 공간 파운데이션 모델의 범용성을 검증하는 벤...
SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...
Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...
IBM Research의 Agentic CLEAR는 관측성 로그 위에서 에이전트 실행 trace를 LLM judge로 평가하고, CLEAR 집계로 반복 실패를 node·trace·system 수준의 진단 리포트로...
CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...
Claw-Anything는 수개월치 사용자 활동, 여러 백엔드 서비스, CLI·GUI 기기를 함께 열어 둔 상태에서 always-on 개인 비서가 언제 무엇을 봐야 하고 어디까지 행동해야 하는지를 측정하려는 벤치...
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...
Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...
TabEmbed는 TabBench를 통해 표형 임베딩을 classification과 retrieval의 공통 표현 문제로 재정의하고, language-to-row contrastive learning으로 범용 t...
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...
Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...
open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평...