Document Intelligence

Baidu의 Unlimited-OCR은 DeepSeek-OCR의 압축 encoder 위에 Reference Sliding Window Attention을 얹어, 수십 페이지 문서 파싱을 한 번의 디코딩 흐름으로...

Sangmin Lee2026.06.23

arXiv 2606.13108과 PaddleOCR v3.7.0 릴리스, Hugging Face 배포를 함께 읽어 1.5M~34.5M급 PP-OCRv6이 왜 OCR 전용 모델의 효율과 신뢰성을 다시 전면에 세우는지...

Sangmin Lee2026.06.15

PaddleOCR-VL-1.6 Hugging Face 모델 카드와 기술보고서를 함께 읽어, 0.9B 문서 파싱 VLM이 under-optimized region data engine과 CPT-SFT-RL 후학습으...

Sangmin Lee2026.06.04

Frederik vom Lehn의 DeepSeek-OCR fully visualised와 DeepSeek 공식 논문·GitHub·Hugging Face 자료를 함께 읽어, Gundam 모드, SAM/CNN/CLI...

Sangmin Lee2026.05.25

Mistral OCR 3는 OCR을 단순 텍스트 인식이 아니라 Markdown, HTML table, structured annotation, Document AI Playground까지 이어지는 문서 구조 복원...

Sangmin Lee2026.05.25

NuExtract3는 구조화 추출과 문서-to-Markdown OCR을 하나의 4B VLM으로 묶고, reasoning을 필요할 때만 켜는 방식으로 문서 AI 파이프라인의 비용·품질 균형점을 다시 설계한다.

Sangmin Lee2026.05.20

OCR4all은 초기 근대 인쇄물처럼 표준 OCR이 자주 무너지는 문서를 대상으로, 전처리·레이아웃 분할·라인 분할·인식·교정·도메인별 모델 학습을 하나의 웹 UI에 묶어 비전문가도 고품질 OCR 파이프라인을 운...

Sangmin Lee2026.05.06

문서 복원 품질은 OCR 텍스트 정확도와 테이블 구조 품질이 함께 움직일 때 비로소 사용자 체감 품질에 가까워진다.

Sangmin Lee2026.04.28