DeepEval은 LLM 평가를 pytest식 테스트·트레이싱·합성 데이터까지 확장한다
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.
Tag
Agent Evaluation 태그가 붙은 글입니다.
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.