Tag

#Visual Tokenization

ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...

Sangmin Lee2026.06.28