Tag

#Vision-Language Models

Visual Contrastive Self-Distillation(VCSD)은 EMA teacher가 원본 이미지와 content-erased control에서 낸 token distribution의 차이를 이용...

Sangmin Lee2026.07.25

ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...

Sangmin Lee2026.06.28

arXiv 2606.13108과 PaddleOCR v3.7.0 릴리스, Hugging Face 배포를 함께 읽어 1.5M~34.5M급 PP-OCRv6이 왜 OCR 전용 모델의 효율과 신뢰성을 다시 전면에 세우는지...

Sangmin Lee2026.06.15

Liquid AI의 LFM2.5-VL-450M-Extract는 450M급 비전-언어 모델을 범용 VQA가 아니라 YAML 스키마 입력과 strict JSON 출력에 맞춘 task-specific Nano로 패키징...

Sangmin Lee2026.06.07

PaddleOCR-VL-1.6 Hugging Face 모델 카드와 기술보고서를 함께 읽어, 0.9B 문서 파싱 VLM이 under-optimized region data engine과 CPT-SFT-RL 후학습으...

Sangmin Lee2026.06.04

Baidu의 ERNIE-4.5-VL-28B-A3B-Thinking은 28B급 총 파라미터와 3B 활성 파라미터를 갖는 공개 VLM으로, 이미지·비디오 reasoning, grounding, tool call, 1...

Sangmin Lee2026.05.26

SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...

Sangmin Lee2026.05.25

MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...

Sangmin Lee2026.05.12