ReRe는 공간 추론을 한 번 더 보게 만든다: egocentric video에...
ICML 2026 논문 Reason, Then Re-reason은 egocentric video 하나만 보고 답을 확정하는 대신, 먼저 가설을 만들고 VGGT 기반 Geometry-to-Video가 만든 allo...
Tag
Multimodal LLM 태그가 붙은 글입니다.
ICML 2026 논문 Reason, Then Re-reason은 egocentric video 하나만 보고 답을 확정하는 대신, 먼저 가설을 만들고 VGGT 기반 Geometry-to-Video가 만든 allo...
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...