SVP는 VLM 정렬을 더 많은 라벨이 아니라 grounding feedback...
Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...
Tag
Self-Training 태그가 붙은 글입니다.
Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...