RF-DETR는 비전 Transformer를 실시간 객체검출기로 다시 조립한다
RF-DETR 논문은 DINOv2 기반 DETR에 weight-sharing NAS를 결합해 COCO와 RF100-VL에서 실시간 detection·segmentation의 accuracy-latency Pare...
Category
새로운 기반모델, 멀티모달 모델, MoE, 비전 백본처럼 모델 자체의 설계와 포지셔닝을 정리합니다.
RF-DETR 논문은 DINOv2 기반 DETR에 weight-sharing NAS를 결합해 COCO와 RF100-VL에서 실시간 detection·segmentation의 accuracy-latency Pare...
Baidu의 ERNIE-4.5-VL-28B-A3B-Thinking은 28B급 총 파라미터와 3B 활성 파라미터를 갖는 공개 VLM으로, 이미지·비디오 reasoning, grounding, tool call, 1...
LFM2 Technical Report는 게이트드 짧은 합성곱과 소수의 GQA 블록을 결합한 하이브리드 백본, 32K 컨텍스트, VL·Audio·ColBERT 변형, 엣지 런타임 패키징을 한 묶음으로 공개한 Li...
Nature 논문으로 정식화된 TabPFN은 1억 개 안팎의 synthetic tabular task로 transformer를 사전학습해, 작은 표형 데이터셋에서 학습·튜닝 루프를 한 번의 in-context p...
NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...
Hy-MT2는 1.8B·7B·30B-A3B 번역 모델, IFMTBench, FP8/GGUF 양자화 변형을 함께 공개하며 번역 전용 post-training과 1.25-bit 압축을 결합한 텐센트 Hunyuan의...
Qwen3.7-Max는 코딩 에이전트, MCP 기반 업무 자동화, 장시간 자율 실행, cross-harness 일반화를 전면에 내세운 Qwen의 최신 독점형 agent foundation model이다.
ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...
SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.
Qwen-Image-2.0은 Qwen3-VL 조건 인코더, MMDiT, 16× VAE, 다단계 데이터 플라이휠을 결합해 1K 토큰 텍스트 지시, 2K 포토리얼리즘, 이미지 편집을 하나의 생성 모델 표면으로 통합하...
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...
jina-embeddings-v5-omni는 Jina v5 Text의 벡터 geometry를 보존하면서 이미지·비디오·오디오 타워를 frozen projector로 붙여, 기존 텍스트 인덱스를 멀티모달 검색 su...
NVIDIA Nemotron 3 Super는 120B 총 파라미터·12B 활성 파라미터의 Hybrid Mamba-Attention LatentMoE 모델 위에 NVFP4 pretraining, MTP 기반 nat...
MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서...
Kronos는 OHLCVA 캔들 데이터를 계층적 토큰으로 양자화하고 12B개 K-line 기록 위에서 디코더 전용 Transformer를 사전학습해 예측·변동성·합성 데이터·투자 시뮬레이션을 하나의 금융 시계열...
Isaac Robinson의 짧은 발표는 CNN에서 ViT, Swin, ConvNeXt, Hiera, DINOv3, SAM3, RF-DETR로 이어지는 흐름을 따라가며, 비전에서 Transformer가 늦게 이겼...
Zyphra의 ZAYA1-8B는 약 0.7B 활성·8B급 총 파라미터의 reasoning MoE 위에 CCA, MLP router, learned residual scaling, Markovian RSA를 결합해...
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...
OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와...
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token sp...
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SA...
EXAONE 4.5 33B는 31.7B 언어모델과 1.29B 비전 인코더를 결합한 LG AI Research의 첫 오픈 웨이트 VLM으로, 256K 컨텍스트와 문서 이해 중심 데이터 전략을 앞세워 범용 벤치마크보...
Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로...
Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를...
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 K...
Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.