RAG 청킹 최적화는 검색 단위를 설계하는 일이다
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
Tag
RAG 태그가 붙은 글입니다.
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
fastembed-rs는 ONNX Runtime, Hugging Face tokenizers, 선택적 Candle 백엔드를 묶어 텍스트·희소·이미지 임베딩과 reranking을 Rust 애플리케이션 안에서 실행하...
Akshay Pachaar의 LinkedIn 포스트와 Daily Dose of Data Science 인포그래픽을 출발점으로 ReAct, CodeAct, MCP 기반 tool use, self-reflection...
Victoria Slocum의 HNSW 설명 포스트를 출발점으로, 벡터 DB가 brute-force 검색 대신 계층적 근접 그래프를 쓰는 이유와 M·ef·distance 튜닝의 실무적 의미를 정리한다.
ZeroEntropy의 Models 문서는 zembed-1 임베딩, zerank 계열 reranker, zsearch 검색 엔진, API 요금·rate limit·배포 옵션을 하나의 검색 품질 스택으로 보여 준다...
NuExtract3는 구조화 추출과 문서-to-Markdown OCR을 하나의 4B VLM으로 묶고, reasoning을 필요할 때만 켜는 방식으로 문서 AI 파이프라인의 비용·품질 균형점을 다시 설계한다.
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...
arXiv 2604.15771의 Skill-RAG는 hidden-state prober로 검색 실패 상태를 감지하고, query rewriting·question decomposition·evidence focu...
arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...
AI Engineer 워크숍 영상의 Demand-Driven Context는 엔터프라이즈 에이전트가 실패한 지점을 관찰해 필요한 도메인 지식만 구조화하고, 지식 모놀리스를 agent-ready context bl...
VectifyAI/PageIndex는 긴 문서를 청킹해 벡터 DB에 넣는 전통적 RAG 대신, 계층적 문서 인덱스와 LLM 추론으로 관련 섹션을 좁혀 가는 vectorless retrieval 프레임을 제안한다.
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...
cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·...
unclejobs-ai가 포크한 LLM Wiki gist는 파일 업로드형 RAG 대신, LLM이 원문 소스를 읽고 지속적으로 갱신하는 마크다운 위키를 중간 계층으로 두어 개인·연구·팀 지식을 축적형 자산으로 운영...
RAG가 데모에서 제품으로 넘어가는 순간, 질문은 어떤 검색기가 더 좋은가에서 실패한 추론을 어떻게 발견하고 복구할 것인가로 바뀐다.