PP-OCRv6은 OCR을 거대 VLM 호출이 아니라 전문 파이프라인 문제로 되...
arXiv 2606.13108과 PaddleOCR v3.7.0 릴리스, Hugging Face 배포를 함께 읽어 1.5M~34.5M급 PP-OCRv6이 왜 OCR 전용 모델의 효율과 신뢰성을 다시 전면에 세우는지...
Tag
Vision-Language Models 태그가 붙은 글입니다.
arXiv 2606.13108과 PaddleOCR v3.7.0 릴리스, Hugging Face 배포를 함께 읽어 1.5M~34.5M급 PP-OCRv6이 왜 OCR 전용 모델의 효율과 신뢰성을 다시 전면에 세우는지...
Liquid AI의 LFM2.5-VL-450M-Extract는 450M급 비전-언어 모델을 범용 VQA가 아니라 YAML 스키마 입력과 strict JSON 출력에 맞춘 task-specific Nano로 패키징...
PaddleOCR-VL-1.6 Hugging Face 모델 카드와 기술보고서를 함께 읽어, 0.9B 문서 파싱 VLM이 under-optimized region data engine과 CPT-SFT-RL 후학습으...
Baidu의 ERNIE-4.5-VL-28B-A3B-Thinking은 28B급 총 파라미터와 3B 활성 파라미터를 갖는 공개 VLM으로, 이미지·비디오 reasoning, grounding, tool call, 1...
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...