Tips

#OCR

OCR 태그가 붙은 응용프로그램 팁입니다.

3 tips tagged #OCR, 1-3 showing
1 / 1
Open source notebook
LGPL-3.0

Unsloth DeepSeek-OCR Colab은 3B OCR VLM을 내 문서 언어에...

Unsloth의 DeepSeek-OCR 3B Colab은 Google Colab GPU에서 DeepSeek-OCR을 불러와 Persian OCR 데이터로 baseline inference, LoRA fine-tuning,...

  • `unslothai/notebooks`의 `Deepseek_OCR_(3B).ipynb`는 README의 OCR Notebooks 표에서 Deepseek OCR 3B...
  • 노트북은 `unsloth/DeepSeek-OCR`을 `snapshot_download`로 내려받고 `FastVisionModel.from_pretrained(...,...
  • 예제 데이터는 Persian OCR용 `hezarai/parsynth-ocr-200k`이며, notebook code는 baseline에는 `train[:2000]`...
  • sample 하나에서는 baseline CER 23%에서 60-step LoRA 후 6%로 좋아지는 예시를 보여주고, Unsloth 문서는 200-sample Per...
  • 저장 경로는 LoRA adapter local/Hub 저장과 merged 16bit export 중심이며, DeepSeek-OCR 자체 inference는 Trans...
  • OCR 문서는 개인정보·계약서·스캔 원본이 섞이기 쉬우므로 Colab/Hugging Face Hub 업로드, `trust_remote_code`, dataset li...
unslothai/notebooksSource
Open source Python library
AGPL-3.0 / commercial

PyMuPDF4LLM은 PDF를 RAG용 Markdown·JSON으로 바꾸는 가벼운 P...

PyMuPDF4LLM은 PyMuPDF 위에서 PDF와 문서를 Markdown, JSON, plain text로 변환해 RAG·임베딩·LLM ingest 파이프라인의 첫 단계를 빠르게 만드는 Python 라이브러리다.

  • 한 줄의 `pymupdf4llm.to_markdown()` 호출로 PDF를 LLM prompt, vector store, chunker에 넣기 쉬운 Markdown으...
  • Markdown뿐 아니라 JSON과 plain text를 지원하고, `page_chunks=True`로 페이지별 metadata가 붙은 chunk를 바로 만들 수 있...
  • multi-column layout, table, image reference, header/footer 처리, 선택적 OCR, LlamaIndex·LangChain...
  • Python 3.10 이상에서 `pip install pymupdf4llm`로 설치하며 PyMuPDF와 pymupdf-layout을 함께 맞춰 설치한다.
  • 라이선스는 AGPL-3.0 또는 Artifex commercial license 구조라 proprietary RAG 제품에 넣기 전 라이선스 검토가 필요하다.
pymupdf/pymupdf4llmSource
Source available desktop app
Business Source License 1.1

Anything(Docufinder)는 HWP·PDF·Office 문서 내용을 로컬에서...

Anything은 HWP/HWPX, Office, PDF, 이미지 OCR까지 로컬에서 인덱싱하고, 선택적으로 Gemini 기반 문서 질의응답을 붙일 수 있는 Tauri 데스크톱 문서 검색 앱이다.

  • 파일명이 아니라 문서 본문으로 HWP/HWPX, Office, PDF, 이미지 OCR 결과를 검색하는 로컬 데스크톱 앱이다.
  • SQLite FTS5, usearch 벡터 인덱스, KoSimCSE ONNX, PaddleOCR ONNX를 조합해 키워드·파일명·시맨틱·하이브리드 검색 모드를 제공한...
  • Gemini API 키를 넣으면 인덱싱된 문서를 근거로 자연어 질의응답과 온라인 요약을 사용할 수 있지만, AI를 끄면 검색·임베딩·OCR은 로컬 중심으로 동작한다.
  • 최신 Release는 Windows x64 설치 파일과 macOS Apple Silicon DMG를 제공하며, macOS는 수동 업데이트와 ad-hoc 서명 cave...
  • BSL 1.1 라이선스라 비프로덕션 사용은 열려 있지만 프로덕션·상용 사용은 별도 라이선스 확인이 필요하다.
chrisryugj/DocufinderSource