ViQ는 이미지도 텍스트처럼 ‘토큰화’하려는 시도다
ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...
Tag
ViQ 태그가 붙은 글입니다.
ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...