Pare-Bench는 proactive assistant 평가를 능동 사용자 시...
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
Category
LLM·VLM 평가 프레임워크, 벤치마크, 리더보드, 측정 기준을 정리합니다.
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
HarnessAudit는 최종 답변이 아니라 tool, resource, information-flow가 지나간 전체 trajectory를 감사해 에이전트 하네스의 안전 경계를 평가하는 benchmark와 실행...
Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...
TabEmbed는 TabBench를 통해 표형 임베딩을 classification과 retrieval의 공통 표현 문제로 재정의하고, language-to-row contrastive learning으로 범용 t...
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...
open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평...