Apache-2.0
LiteParse는 로컬에서 빠르게 PDF를 텍스트·좌표로 바꾸는 경량 문서 파서다
run-llama/liteparse는 PDF·Office·이미지를 로컬에서 파싱해 텍스트, JSON bounding box, 페이지 스크린샷을 내보내는 Rust 기반 문서 파서/CLI입니다.
- PDFium 기반 Rust core로 PDF 텍스트를 빠르게 뽑고, 선택적으로 Tesseract 또는 HTTP OCR 서버 결과를 병합합니다.
- npm, pip, cargo 설치 경로가 모두 같은 `lit` CLI를 제공하며, Node.js/TypeScript·Python·Rust·Browser WASM 바인...
- 텍스트뿐 아니라 JSON bounding box와 페이지 스크린샷을 내보내므로 RAG 근거 표시, visual citation, 에이전트 문서 읽기에 맞습니다.
- Office 문서와 이미지는 LibreOffice/ImageMagick 변환 의존성이 필요하고, WASM 빌드는 브라우저 제약 때문에 기능 범위가 다릅니다.
- 로컬 우선 도구지만 untrusted upload 서비스로 감싸면 파일 검증, sandbox, timeout, resource limit을 별도로 설계해야 합니다.
run-llama/liteparseSource