Tag

#Qwen3-VL

ShutterMuse는 사후 크롭이 아니라 촬영 중 구도 결정, 프레이밍 보정, 피사체 포즈 추천을 함께 다루기 위해 CaptureGuide-Bench와 130K 규모 CaptureGuide-Dataset을 제안...

Sangmin Lee2026.06.26

OpenSearch-VL은 데이터 합성, 시각·검색 도구 환경, fatal-aware GRPO를 하나의 공개 레시피로 묶어 프론티어급 멀티모달 딥서치 에이전트를 재현하려는 시도다.

Sangmin Lee2026.05.11

PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...

Sangmin Lee2026.05.06

Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻...

Sangmin Lee2026.05.06