Tag

#Multimodal LLM

ICML 2026 논문 Reason, Then Re-reason은 egocentric video 하나만 보고 답을 확정하는 대신, 먼저 가설을 만들고 VGGT 기반 Geometry-to-Video가 만든 allo...

Sangmin Lee2026.06.12

X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...

Sangmin Lee2026.05.07