RAG 청킹 최적화는 검색 단위를 설계하는 일이다
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
Category
합성 데이터, 데이터 준비, 검증 파이프라인을 시스템 관점에서 기록합니다.
요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.
fastembed-rs는 ONNX Runtime, Hugging Face tokenizers, 선택적 Candle 백엔드를 묶어 텍스트·희소·이미지 임베딩과 reranking을 Rust 애플리케이션 안에서 실행하...
Victoria Slocum의 HNSW 설명 포스트를 출발점으로, 벡터 DB가 brute-force 검색 대신 계층적 근접 그래프를 쓰는 이유와 M·ef·distance 튜닝의 실무적 의미를 정리한다.
sigridjineth/ctxl-rerank-v2-1b-seq-cls는 Contextual AI Reranker v2 1B의 마지막 토큰 vocab_id=0 logit을 단일 SequenceClassificati...
arXiv 2510.13406은 서로 다른 embedding 모델이 pairwise dot product 구조를 비슷하게 보존한다면 직교 Procrustes 변환만으로 같은 검색·추천·멀티모달 파이프라인 안에서...
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
ZeroEntropy의 Models 문서는 zembed-1 임베딩, zerank 계열 reranker, zsearch 검색 엔진, API 요금·rate limit·배포 옵션을 하나의 검색 품질 스택으로 보여 준다...
Hugging Face의 ettin-reranker-v1 계열은 Ettin ModernBERT encoder 위에 17M~1B CrossEncoder를 학습해, 공개 데이터·증류 레시피·MTEB/NanoBEIR·...
Meta FAIR의 Autodata는 Self-Instruct식 단발 생성이 아니라, 약한 모델과 강한 모델의 성능 격차를 직접 최적화하는 에이전트형 데이터 과학자 루프로 합성 데이터 품질을 끌어올린다.
arXiv 2604.15771의 Skill-RAG는 hidden-state prober로 검색 실패 상태를 감지하고, query rewriting·question decomposition·evidence focu...
VectifyAI/PageIndex는 긴 문서를 청킹해 벡터 DB에 넣는 전통적 RAG 대신, 계층적 문서 인덱스와 LLM 추론으로 관련 섹션을 좁혀 가는 vectorless retrieval 프레임을 제안한다.
Argilla는 단순 주석 UI가 아니라 Python SDK, self-hosted 서버, 협업용 데이터셋 스키마를 결합해 human feedback 루프를 운영 가능한 데이터 워크벤치로 바꾼다.
Distilabel의 Tutorials 섹션은 synthetic data framework를 단순 SDK가 아니라 ORPO·DPO·retrieval·judge·structured generation 실험을 바로...
cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·...
데이터 중심 AI 시대에는 좋은 모델보다 좋은 데이터 파이프라인이 더 큰 차이를 만든다. DataFlow는 생성, 평가, 필터링, 정제를 하나의 실행 가능한 시스템으로 묶는다.
합성 데이터의 품질은 더 좋은 프롬프트 한 줄보다 컬럼 간 상관관계, 검증, 반복 가능한 생성 파이프라인에서 결정된다.