MIT
MarkItDown은 문서·Office·웹 자료를 LLM 친화적 Markdown으로 바...
microsoft/markitdown은 PDF, Office 문서, HTML, 이미지, 오디오, YouTube URL 등을 Markdown으로 변환해 검색·요약·RAG 전처리에 넣기 쉽게 만드는 MIT 라이선스 Python...
- PDF, PowerPoint, Word, Excel, 이미지 EXIF/OCR, 오디오 transcription, HTML, CSV/JSON/XML, ZIP, YouT...
- 기본은 로컬 변환이고, Azure Document Intelligence·Azure Content Understanding·LLM Vision 기반 OCR plugi...
- CLI는 `markitdown input.pdf -o output.md`, Python API는 `MarkItDown().convert(...)`처럼 단순해서 bat...
- PyPI `markitdown` 최신 버전은 0.1.6이고 GitHub release/tag도 v0.1.6까지 공개되어 있지만, classifier는 Beta라 장기...
- `convert()`는 local path, URL, file/data URI를 모두 다룰 수 있으므로 서버 환경에서는 `convert_local()`, `conve...
microsoft/markitdownSource