Tips

#RAG

RAG 태그가 붙은 응용프로그램 팁입니다.

3 tips tagged #RAG, 1-3 showing
1 / 1
Open source beta
MIT

MarkItDown은 문서·Office·웹 자료를 LLM 친화적 Markdown으로 바...

microsoft/markitdown은 PDF, Office 문서, HTML, 이미지, 오디오, YouTube URL 등을 Markdown으로 변환해 검색·요약·RAG 전처리에 넣기 쉽게 만드는 MIT 라이선스 Python...

  • PDF, PowerPoint, Word, Excel, 이미지 EXIF/OCR, 오디오 transcription, HTML, CSV/JSON/XML, ZIP, YouT...
  • 기본은 로컬 변환이고, Azure Document Intelligence·Azure Content Understanding·LLM Vision 기반 OCR plugi...
  • CLI는 `markitdown input.pdf -o output.md`, Python API는 `MarkItDown().convert(...)`처럼 단순해서 bat...
  • PyPI `markitdown` 최신 버전은 0.1.6이고 GitHub release/tag도 v0.1.6까지 공개되어 있지만, classifier는 Beta라 장기...
  • `convert()`는 local path, URL, file/data URI를 모두 다룰 수 있으므로 서버 환경에서는 `convert_local()`, `conve...
microsoft/markitdownSource
Open source
MIT

Graphify는 AI 코딩 에이전트에게 프로젝트 지도를 만들어주는 지식 그래프 CLI...

safishamsi/graphify는 Claude Code, Codex, Hermes, Cursor, Gemini CLI 같은 AI 코딩 어시스턴트에서 프로젝트 폴더를 graph.html, GRAPH_REPORT.md, g...

  • `uv tool install graphifyy && graphify install`로 설치하는 Python 3.10+ CLI이며, PyPI 패키지명은 `graphi...
  • `/graphify .` 한 번으로 `graph.html`, `GRAPH_REPORT.md`, `graph.json`을 만들고, 이후 에이전트가 raw grep보다...
  • 코드는 tree-sitter AST로 로컬 추출하고, 문서·PDF·이미지 등 의미 추출은 사용 중인 AI assistant/model API를 통과할 수 있어 데이터...
  • Claude Code, Codex, OpenCode, Cursor, Gemini CLI, GitHub Copilot CLI, VS Code Copilot Chat,...
  • MCP stdio server, query/path/explain 명령, call-flow HTML, wiki/Obsidian/GraphML/Neo4j export까...
safishamsi/graphifySource
Open source Python library
AGPL-3.0 / commercial

PyMuPDF4LLM은 PDF를 RAG용 Markdown·JSON으로 바꾸는 가벼운 P...

PyMuPDF4LLM은 PyMuPDF 위에서 PDF와 문서를 Markdown, JSON, plain text로 변환해 RAG·임베딩·LLM ingest 파이프라인의 첫 단계를 빠르게 만드는 Python 라이브러리다.

  • 한 줄의 `pymupdf4llm.to_markdown()` 호출로 PDF를 LLM prompt, vector store, chunker에 넣기 쉬운 Markdown으...
  • Markdown뿐 아니라 JSON과 plain text를 지원하고, `page_chunks=True`로 페이지별 metadata가 붙은 chunk를 바로 만들 수 있...
  • multi-column layout, table, image reference, header/footer 처리, 선택적 OCR, LlamaIndex·LangChain...
  • Python 3.10 이상에서 `pip install pymupdf4llm`로 설치하며 PyMuPDF와 pymupdf-layout을 함께 맞춰 설치한다.
  • 라이선스는 AGPL-3.0 또는 Artifex commercial license 구조라 proprietary RAG 제품에 넣기 전 라이선스 검토가 필요하다.
pymupdf/pymupdf4llmSource