X2SAM은 이미지용 SAM을 비디오용 대화형 분할 모델로 확장하는 가장 직접적인 경로다
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD 벤치마크를 새로 제안하며 비디오 visual grounding 성능에서 강한 수치를 보여준다.
Tag
X2SAM 태그가 붙은 글입니다.
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD 벤치마크를 새로 제안하며 비디오 visual grounding 성능에서 강한 수치를 보여준다.