왜 비전도 결국 Transformer로 수렴했는가
Isaac Robinson의 짧은 발표는 CNN에서 ViT, Swin, ConvNeXt, Hiera, DINOv3, SAM3, RF-DETR로 이어지는 흐름을 따라가며, 비전에서 Transformer가 늦게 이겼...
Tag
SAM 태그가 붙은 글입니다.
Isaac Robinson의 짧은 발표는 CNN에서 ViT, Swin, ConvNeXt, Hiera, DINOv3, SAM3, RF-DETR로 이어지는 흐름을 따라가며, 비전에서 Transformer가 늦게 이겼...
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...