PerceptionDLM은 여러 이미지 영역을 한 번에 설명하는 디퓨전 VLM이...
PerceptionDLM은 오토리그레시브 방식으로 영역을 하나씩 캡션하는 병목을 피하기 위해, 여러 region mask의 설명을 한 번의 디퓨전 디노이징 과정에서 병렬 생성하도록 설계한 8B급 멀티모달 diff...
Tag
Region Captioning 태그가 붙은 글입니다.
PerceptionDLM은 오토리그레시브 방식으로 영역을 하나씩 캡션하는 병목을 피하기 위해, 여러 region mask의 설명을 한 번의 디퓨전 디노이징 과정에서 병렬 생성하도록 설계한 8B급 멀티모달 diff...