microsoft/markitdown은 PDF, Office 문서, HTML, 이미지, 오디오, YouTube URL 등을 Markdown으로 변환해 검색·요약·RAG 전처리에 넣기 쉽게 만드는 MIT 라이선스 Python...
- PDF, PowerPoint, Word, Excel, 이미지 EXIF/OCR, 오디오 transcription, HTML, CSV/JSON/XML, ZIP, YouT...
- 기본은 로컬 변환이고, Azure Document Intelligence·Azure Content Understanding·LLM Vision 기반 OCR plugi...
- CLI는 `markitdown input.pdf -o output.md`, Python API는 `MarkItDown().convert(...)`처럼 단순해서 bat...
- PyPI `markitdown` 최신 버전은 0.1.6이고 GitHub release/tag도 v0.1.6까지 공개되어 있지만, classifier는 Beta라 장기...
- `convert()`는 local path, URL, file/data URI를 모두 다룰 수 있으므로 서버 환경에서는 `convert_local()`, `conve...
safishamsi/graphify는 Claude Code, Codex, Hermes, Cursor, Gemini CLI 같은 AI 코딩 어시스턴트에서 프로젝트 폴더를 graph.html, GRAPH_REPORT.md, g...
- `uv tool install graphifyy && graphify install`로 설치하는 Python 3.10+ CLI이며, PyPI 패키지명은 `graphi...
- `/graphify .` 한 번으로 `graph.html`, `GRAPH_REPORT.md`, `graph.json`을 만들고, 이후 에이전트가 raw grep보다...
- 코드는 tree-sitter AST로 로컬 추출하고, 문서·PDF·이미지 등 의미 추출은 사용 중인 AI assistant/model API를 통과할 수 있어 데이터...
- Claude Code, Codex, OpenCode, Cursor, Gemini CLI, GitHub Copilot CLI, VS Code Copilot Chat,...
- MCP stdio server, query/path/explain 명령, call-flow HTML, wiki/Obsidian/GraphML/Neo4j export까...
Open source Python library
AGPL-3.0 / commercialPyMuPDF4LLM은 PyMuPDF 위에서 PDF와 문서를 Markdown, JSON, plain text로 변환해 RAG·임베딩·LLM ingest 파이프라인의 첫 단계를 빠르게 만드는 Python 라이브러리다.
- 한 줄의 `pymupdf4llm.to_markdown()` 호출로 PDF를 LLM prompt, vector store, chunker에 넣기 쉬운 Markdown으...
- Markdown뿐 아니라 JSON과 plain text를 지원하고, `page_chunks=True`로 페이지별 metadata가 붙은 chunk를 바로 만들 수 있...
- multi-column layout, table, image reference, header/footer 처리, 선택적 OCR, LlamaIndex·LangChain...
- Python 3.10 이상에서 `pip install pymupdf4llm`로 설치하며 PyMuPDF와 pymupdf-layout을 함께 맞춰 설치한다.
- 라이선스는 AGPL-3.0 또는 Artifex commercial license 구조라 proprietary RAG 제품에 넣기 전 라이선스 검토가 필요하다.