X2SAM은 이미지용 SAM을 비디오용 대화형 분할 모델로 확장하는 가장 직접적...
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...
Tag
Computer Vision 태그가 붙은 글입니다.
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...
Netflix의 VOID는 단순 배경 인페인팅을 넘어서, 사람이 사라지면 기타가 떨어지는 것처럼 제거 대상이 남긴 물리적 상호작용까지 함께 수정하는 interaction-aware video object remo...