Qwable-v1은 Qwen3.6 위에 Claude식 도구 사용을 얹은 코딩 에...
Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...
Category
기반모델, 멀티모달 모델, MoE, 비전 백본, 모델 아키텍처 포지셔닝을 정리합니다.
Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...
FLARE는 Qwen3.5 계열 하이브리드 어텐션 체크포인트를 약 10B 토큰 전이 학습으로 변환해, 한 체크포인트에서 AR 검증식 디코딩과 디퓨전 병렬 디노이징을 함께 지원하려는 dLLM 변환 프레임워크다.
Robust-U1은 손상된 이미지를 텍스트로 설명하는 대신 MLLM이 직접 복원하고, 복원본과 손상본을 함께 추론에 넣어 real-world corruption robustness를 끌어올린 ICML 2026 논...
Moonshot AI의 Kimi K2.7 Code는 1T total/32B active MoE 구조를 유지하면서 장기 코딩 에이전트, preserved thinking, 멀티모달 API, self-host 배포...
Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...
Liquid AI의 LFM2.5-VL-450M-Extract는 450M급 비전-언어 모델을 범용 VQA가 아니라 YAML 스키마 입력과 strict JSON 출력에 맞춘 task-specific Nano로 패키징...
NVIDIA OmniDreams는 Cosmos 기반 2B급 action-conditioned world model을 AlpaSim·Alpamayo·FlashDreams와 묶어, 정책 행동에 반응하는 704×128...
Microsoft AI가 Build 2026에서 공개한 7종 MAI 모델은 단일 SOTA 발표보다, 깨끗한 데이터·자체 인프라·제품 통합·Frontier Tuning을 묶은 반복 개선 시스템 선언에 가깝다.
Google의 Gemma 4 12B Unified는 11.95B dense 모델에서 별도 비전·오디오 인코더를 제거하고 raw patch와 waveform을 LLM backbone에 직접 투입해, 노트북급 로컬...
NVIDIA LocateAnything-3B는 시각 grounding과 detection에서 좌표를 토큰별로 순차 생성하던 병목을 Parallel Box Decoding으로 바꿔, 박스·포인트를 하나의 기하 단위...
Liquid AI의 LFM2.5-8B-A1B는 8.3B total / 1.5B active MoE를 128K 컨텍스트, 38T 토큰 학습, 확장된 토크나이저, reasoning-only 후처리와 엣지 런타임 패키...
RF-DETR 논문은 DINOv2 기반 DETR에 weight-sharing NAS를 결합해 COCO와 RF100-VL에서 실시간 detection·segmentation의 accuracy-latency Pare...
Baidu의 ERNIE-4.5-VL-28B-A3B-Thinking은 28B급 총 파라미터와 3B 활성 파라미터를 갖는 공개 VLM으로, 이미지·비디오 reasoning, grounding, tool call, 1...
LFM2 Technical Report는 게이트드 짧은 합성곱과 소수의 GQA 블록을 결합한 하이브리드 백본, 32K 컨텍스트, VL·Audio·ColBERT 변형, 엣지 런타임 패키징을 한 묶음으로 공개한 Li...
Nature 논문으로 정식화된 TabPFN은 1억 개 안팎의 synthetic tabular task로 transformer를 사전학습해, 작은 표형 데이터셋에서 학습·튜닝 루프를 한 번의 in-context p...
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...
Hy-MT2는 1.8B·7B·30B-A3B 번역 모델, IFMTBench, FP8/GGUF 양자화 변형을 함께 공개하며 번역 전용 post-training과 1.25-bit 압축을 결합한 텐센트 Hunyuan의...
Qwen3.7-Max는 코딩 에이전트, MCP 기반 업무 자동화, 장시간 자율 실행, cross-harness 일반화를 전면에 내세운 Qwen의 최신 독점형 agent foundation model이다.
ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...
SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.
Qwen-Image-2.0은 Qwen3-VL 조건 인코더, MMDiT, 16× VAE, 다단계 데이터 플라이휠을 결합해 1K 토큰 텍스트 지시, 2K 포토리얼리즘, 이미지 편집을 하나의 생성 모델 표면으로 통합하...
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...
NVIDIA Nemotron 3 Super는 120B 총 파라미터·12B 활성 파라미터의 Hybrid Mamba-Attention LatentMoE 모델 위에 NVFP4 pretraining, MTP 기반 nat...
MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서...
Kronos는 OHLCVA 캔들 데이터를 계층적 토큰으로 양자화하고 12B개 K-line 기록 위에서 디코더 전용 Transformer를 사전학습해 예측·변동성·합성 데이터·투자 시뮬레이션을 하나의 금융 시계열...
Isaac Robinson의 짧은 발표는 CNN에서 ViT, Swin, ConvNeXt, Hiera, DINOv3, SAM3, RF-DETR로 이어지는 흐름을 따라가며, 비전에서 Transformer가 늦게 이겼...
Zyphra의 ZAYA1-8B는 약 0.7B 활성·8B급 총 파라미터의 reasoning MoE 위에 CCA, MLP router, learned residual scaling, Markovian RSA를 결합해...
X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...
OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와...
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token sp...
EXAONE 4.5 33B는 31.7B 언어모델과 1.29B 비전 인코더를 결합한 LG AI Research의 첫 오픈 웨이트 VLM으로, 256K 컨텍스트와 문서 이해 중심 데이터 전략을 앞세워 범용 벤치마크보...
Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로...
Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를...
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 K...
Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...