DeepEval은 LLM 평가를 pytest식 테스트·트레이싱·합성 데이터까지 확장한다
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.
Tag
RAG 태그가 붙은 글입니다.
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.
cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·PDF·Slack 같은 소스를 항상 최신 컨텍스트로 유지하려는 엔진이다.
unclejobs-ai가 포크한 LLM Wiki gist는 파일 업로드형 RAG 대신, LLM이 원문 소스를 읽고 지속적으로 갱신하는 마크다운 위키를 중간 계층으로 두어 개인·연구·팀 지식을 축적형 자산으로 운영하자는 패턴을 제안한다.
RAG가 데모에서 제품으로 넘어가는 순간, 질문은 어떤 검색기가 더 좋은가에서 실패한 추론을 어떻게 발견하고 복구할 것인가로 바뀐다.