RAG 청킹 최적화는 검색 단위를 설계하는 일이다
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
Category
RAG, agentic search, embedding, reranking, indexing, context graph를 다룹니다.
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
fastembed-rs는 ONNX Runtime, Hugging Face tokenizers, 선택적 Candle 백엔드를 묶어 텍스트·희소·이미지 임베딩과 reranking을 Rust 애플리케이션 안에서 실행하...
Victoria Slocum의 HNSW 설명 포스트를 출발점으로, 벡터 DB가 brute-force 검색 대신 계층적 근접 그래프를 쓰는 이유와 M·ef·distance 튜닝의 실무적 의미를 정리한다.
sigridjineth/ctxl-rerank-v2-1b-seq-cls는 Contextual AI Reranker v2 1B의 마지막 토큰 vocab_id=0 logit을 단일 SequenceClassificati...
arXiv 2510.13406은 서로 다른 embedding 모델이 pairwise dot product 구조를 비슷하게 보존한다면 직교 Procrustes 변환만으로 같은 검색·추천·멀티모달 파이프라인 안에서...
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
ZeroEntropy의 Models 문서는 zembed-1 임베딩, zerank 계열 reranker, zsearch 검색 엔진, API 요금·rate limit·배포 옵션을 하나의 검색 품질 스택으로 보여 준다...
DCI는 임베딩 인덱스와 top-k 검색 API를 우회하고, 에이전트가 raw corpus를 grep·bash·read로 직접 탐색하게 만드는 검색 인터페이스 제안이다.
Stephen Chin의 AI Engineer Europe 발표는 context graph를 단순 검색 보강이 아니라 단기·장기·추론 메모리와 의사결정 trace를 연결하는 에이전트 운영 계층으로 제시한다.
Hugging Face의 ettin-reranker-v1 계열은 Ettin ModernBERT encoder 위에 17M~1B CrossEncoder를 학습해, 공개 데이터·증류 레시피·MTEB/NanoBEIR·...
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...
jina-embeddings-v5-omni는 Jina v5 Text의 벡터 geometry를 보존하면서 이미지·비디오·오디오 타워를 frozen projector로 붙여, 기존 텍스트 인덱스를 멀티모달 검색 su...
arXiv 2604.26622는 장기 실행 에이전트의 trajectory를 텍스트로 계속 밀어 넣는 대신, multi-resolution 이미지와 Set-of-Mark anchor로 저장하고 필요한 segment...
arXiv 2604.15771의 Skill-RAG는 hidden-state prober로 검색 실패 상태를 감지하고, query rewriting·question decomposition·evidence focu...
AI Engineer 워크숍 영상의 Demand-Driven Context는 엔터프라이즈 에이전트가 실패한 지점을 관찰해 필요한 도메인 지식만 구조화하고, 지식 모놀리스를 agent-ready context bl...
VectifyAI/PageIndex는 긴 문서를 청킹해 벡터 DB에 넣는 전통적 RAG 대신, 계층적 문서 인덱스와 LLM 추론으로 관련 섹션을 좁혀 가는 vectorless retrieval 프레임을 제안한다.
cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·...
unclejobs-ai가 포크한 LLM Wiki gist는 파일 업로드형 RAG 대신, LLM이 원문 소스를 읽고 지속적으로 갱신하는 마크다운 위키를 중간 계층으로 두어 개인·연구·팀 지식을 축적형 자산으로 운영...
RAG가 데모에서 제품으로 넘어가는 순간, 질문은 어떤 검색기가 더 좋은가에서 실패한 추론을 어떻게 발견하고 복구할 것인가로 바뀐다.