AGPL-3.0 / commercial
PyMuPDF4LLM은 PDF를 RAG용 Markdown·JSON으로 바꾸는 가벼운 P...
PyMuPDF4LLM은 PyMuPDF 위에서 PDF와 문서를 Markdown, JSON, plain text로 변환해 RAG·임베딩·LLM ingest 파이프라인의 첫 단계를 빠르게 만드는 Python 라이브러리다.
- 한 줄의 `pymupdf4llm.to_markdown()` 호출로 PDF를 LLM prompt, vector store, chunker에 넣기 쉬운 Markdown으...
- Markdown뿐 아니라 JSON과 plain text를 지원하고, `page_chunks=True`로 페이지별 metadata가 붙은 chunk를 바로 만들 수 있...
- multi-column layout, table, image reference, header/footer 처리, 선택적 OCR, LlamaIndex·LangChain...
- Python 3.10 이상에서 `pip install pymupdf4llm`로 설치하며 PyMuPDF와 pymupdf-layout을 함께 맞춰 설치한다.
- 라이선스는 AGPL-3.0 또는 Artifex commercial license 구조라 proprietary RAG 제품에 넣기 전 라이선스 검토가 필요하다.
pymupdf/pymupdf4llmSource