CL-Bench는 LLM 에이전트가 정말 경험에서 배우는지 묻는다
CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...
Tag
Benchmark 태그가 붙은 글입니다.
CL-Bench는 여섯 개의 expert-validated stateful environment에서 LLM agent가 과거 interaction을 재사용해 성능 gain을 만드는지 평가하는 continual l...
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
Macaron-A2UI는 개인 에이전트가 자연어와 A2UI v0.8 기반 선언형 UI 액션을 함께 생성하도록 학습한 모델군과 A2UI-Bench를 공개하며, 텍스트 채팅 이후의 에이전트 인터페이스를 평가 가능한...
SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...
SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...
TabEmbed는 TabBench를 통해 표형 임베딩을 classification과 retrieval의 공통 표현 문제로 재정의하고, language-to-row contrastive learning으로 범용 t...
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...
Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...
open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평...
문서 복원 품질은 OCR 텍스트 정확도와 테이블 구조 품질이 함께 움직일 때 비로소 사용자 체감 품질에 가까워진다.