DeepSeek-OCR 시각화는 OCR 모델을 압축 아키텍처로 읽게 만든다
Frederik vom Lehn의 DeepSeek-OCR fully visualised와 DeepSeek 공식 논문·GitHub·Hugging Face 자료를 함께 읽어, Gundam 모드, SAM/CNN/CLI...
Tag
Document Intelligence 태그가 붙은 글입니다.
Frederik vom Lehn의 DeepSeek-OCR fully visualised와 DeepSeek 공식 논문·GitHub·Hugging Face 자료를 함께 읽어, Gundam 모드, SAM/CNN/CLI...
Mistral OCR 3는 OCR을 단순 텍스트 인식이 아니라 Markdown, HTML table, structured annotation, Document AI Playground까지 이어지는 문서 구조 복원...
NuExtract3는 구조화 추출과 문서-to-Markdown OCR을 하나의 4B VLM으로 묶고, reasoning을 필요할 때만 켜는 방식으로 문서 AI 파이프라인의 비용·품질 균형점을 다시 설계한다.
OCR4all은 초기 근대 인쇄물처럼 표준 OCR이 자주 무너지는 문서를 대상으로, 전처리·레이아웃 분할·라인 분할·인식·교정·도메인별 모델 학습을 하나의 웹 UI에 묶어 비전문가도 고품질 OCR 파이프라인을 운...