ViQ는 이미지도 텍스트처럼 ‘토큰화’하려는 시도다
ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...
Tag
Visual Tokenization 태그가 붙은 글입니다.
ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...