Tips

#Document Parsing

Document Parsing 태그가 붙은 응용프로그램 팁입니다.

1 tips tagged #Document Parsing, 1-1 showing
1 / 1
Open source beta
Apache-2.0

LiteParse는 로컬에서 빠르게 PDF를 텍스트·좌표로 바꾸는 경량 문서 파서다

run-llama/liteparse는 PDF·Office·이미지를 로컬에서 파싱해 텍스트, JSON bounding box, 페이지 스크린샷을 내보내는 Rust 기반 문서 파서/CLI입니다.

  • PDFium 기반 Rust core로 PDF 텍스트를 빠르게 뽑고, 선택적으로 Tesseract 또는 HTTP OCR 서버 결과를 병합합니다.
  • npm, pip, cargo 설치 경로가 모두 같은 `lit` CLI를 제공하며, Node.js/TypeScript·Python·Rust·Browser WASM 바인...
  • 텍스트뿐 아니라 JSON bounding box와 페이지 스크린샷을 내보내므로 RAG 근거 표시, visual citation, 에이전트 문서 읽기에 맞습니다.
  • Office 문서와 이미지는 LibreOffice/ImageMagick 변환 의존성이 필요하고, WASM 빌드는 브라우저 제약 때문에 기능 범위가 다릅니다.
  • 로컬 우선 도구지만 untrusted upload 서비스로 감싸면 파일 검증, sandbox, timeout, resource limit을 별도로 설계해야 합니다.
run-llama/liteparseSource