LocateAnything는 박스를 토큰이 아니라 원자 단위로 디코딩한다
NVIDIA LocateAnything-3B는 시각 grounding과 detection에서 좌표를 토큰별로 순차 생성하던 병목을 Parallel Box Decoding으로 바꿔, 박스·포인트를 하나의 기하 단위...
Tag
Visual Grounding 태그가 붙은 글입니다.
NVIDIA LocateAnything-3B는 시각 grounding과 detection에서 좌표를 토큰별로 순차 생성하던 병목을 Parallel Box Decoding으로 바꿔, 박스·포인트를 하나의 기하 단위...