Nemotron-Labs-Diffusion은 AR·Diffusion·Self-S...
NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...
Tag
VLM 태그가 붙은 글입니다.
NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...
NuExtract3는 구조화 추출과 문서-to-Markdown OCR을 하나의 4B VLM으로 묶고, reasoning을 필요할 때만 켜는 방식으로 문서 AI 파이프라인의 비용·품질 균형점을 다시 설계한다.
MMProLong은 Qwen2.5-VL-7B를 32K에서 128K로 확장하며, long-document VQA 합성·pool-native 길이 분포·8:2 추출/추론 혼합이 긴 멀티모달 컨텍스트 일반화에 더 중요...
Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...
OSCAR는 더 강한 VLM의 오프라인 정답을 흉내 내는 대신, 모델 자신의 판별 능력과 MCTS 탐색을 이용해 온라인 preference 데이터를 만들고 DPO로 갱신함으로써 시각 환각을 줄이는 정렬 프레임을...
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...
Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻...
POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 pre...