DeepEval은 LLM 평가를 pytest식 테스트·트레이싱·합성 데이터까지 확장한다
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.
Tag
LLM Evaluation 태그가 붙은 글입니다.
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.
open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평가를 반복 가능한 운영 파이프라인으로 바꾸려는 오픈소스 플랫폼이다.