RAG 청킹 최적화는 검색 단위를 설계하는 일이다
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
Tag
Retrieval 태그가 붙은 글입니다.
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
sigridjineth/ctxl-rerank-v2-1b-seq-cls는 Contextual AI Reranker v2 1B의 마지막 토큰 vocab_id=0 logit을 단일 SequenceClassificati...
arXiv 2510.13406은 서로 다른 embedding 모델이 pairwise dot product 구조를 비슷하게 보존한다면 직교 Procrustes 변환만으로 같은 검색·추천·멀티모달 파이프라인 안에서...
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
ZeroEntropy의 Models 문서는 zembed-1 임베딩, zerank 계열 reranker, zsearch 검색 엔진, API 요금·rate limit·배포 옵션을 하나의 검색 품질 스택으로 보여 준다...
DCI는 임베딩 인덱스와 top-k 검색 API를 우회하고, 에이전트가 raw corpus를 grep·bash·read로 직접 탐색하게 만드는 검색 인터페이스 제안이다.
Hugging Face의 ettin-reranker-v1 계열은 Ettin ModernBERT encoder 위에 17M~1B CrossEncoder를 학습해, 공개 데이터·증류 레시피·MTEB/NanoBEIR·...
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...
jina-embeddings-v5-omni는 Jina v5 Text의 벡터 geometry를 보존하면서 이미지·비디오·오디오 타워를 frozen projector로 붙여, 기존 텍스트 인덱스를 멀티모달 검색 su...
arXiv 2604.15771의 Skill-RAG는 hidden-state prober로 검색 실패 상태를 감지하고, query rewriting·question decomposition·evidence focu...
VectifyAI/PageIndex는 긴 문서를 청킹해 벡터 DB에 넣는 전통적 RAG 대신, 계층적 문서 인덱스와 LLM 추론으로 관련 섹션을 좁혀 가는 vectorless retrieval 프레임을 제안한다.