ReRe는 공간 추론을 한 번 더 보게 만든다: egocentric video에...
ICML 2026 논문 Reason, Then Re-reason은 egocentric video 하나만 보고 답을 확정하는 대신, 먼저 가설을 만들고 VGGT 기반 Geometry-to-Video가 만든 allo...
Tag
Video Understanding 태그가 붙은 글입니다.
ICML 2026 논문 Reason, Then Re-reason은 egocentric video 하나만 보고 답을 확정하는 대신, 먼저 가설을 만들고 VGGT 기반 Geometry-to-Video가 만든 allo...
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...