Foundation Models

Kimi K3는 2.8T·1M context를 ‘오픈 웨이트 이전’ API ag...

Moonshot AI의 Kimi K3는 2.8T MoE, 1M context, native vision을 내세운 Kimi의 새 flagship이다. API·Kimi Code·Kimi Work에는 이미 들어왔지만,...

Sangmin Lee2026.07.17

Foundation Models

Instok3D는 3D 장면을 프리미티브가 아니라 객체 토큰으로 본다

arXiv 2606.29513은 unposed multi-view 이미지에서 장면을 dense Gaussian 집합이 아니라 instance token과 anchor token으로 구성된 객체 중심 3D toke...

Sangmin Lee2026.07.07

Foundation Models

AMVL은 멀티모달 추론을 텍스트 CoT가 아니라 연속 latent로 보게 한다

AMVL은 목표 답을 보는 posterior와 추론 때 쓰는 prior 사이의 answer leakage를 forward/reverse KL로 보정해, Qwen2.5-VL-7B 기반 멀티모달 추론에서 BLINK...

Sangmin Lee2026.07.03

Foundation Models

Orca는 다음 토큰이 아니라 다음 ‘세계 상태’를 예측하려 한다

BAAI의 Orca는 Next-State Prediction을 중심에 놓고 세계 잠재공간을 학습한 뒤, frozen backbone 위의 텍스트·이미지·행동 readout으로 그 표현이 실제로 쓸모 있는지 검증한...

Sangmin Lee2026.07.02

Foundation Models

ViQ는 이미지도 텍스트처럼 ‘토큰화’하려는 시도다

ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...

Sangmin Lee2026.06.28

Foundation Models

ShutterMuse는 사진 촬영 순간의 구도와 포즈를 같이 안내하는 MLLM이...

ShutterMuse는 사후 크롭이 아니라 촬영 중 구도 결정, 프레이밍 보정, 피사체 포즈 추천을 함께 다루기 위해 CaptureGuide-Bench와 130K 규모 CaptureGuide-Dataset을 제안...

Sangmin Lee2026.06.26

Foundation Models

PerceptionDLM은 여러 이미지 영역을 한 번에 설명하는 디퓨전 VLM이...

PerceptionDLM은 오토리그레시브 방식으로 영역을 하나씩 캡션하는 병목을 피하기 위해, 여러 region mask의 설명을 한 번의 디퓨전 디노이징 과정에서 병렬 생성하도록 설계한 8B급 멀티모달 diff...

Sangmin Lee2026.06.23

Foundation Models

Moebius: 0.22B 인페인팅으로 10B급 모델의 속도 장벽을 흔들다

Moebius는 LλMI 블록과 latent-space distillation으로 226M 파라미터 이미지 인페인팅 모델을 만들고, 10B급 범용 생성 모델 대비 훨씬 낮은 비용의 품질-속도 절충점을 제시한다.

Sangmin Lee2026.06.20

Foundation Models

Transformer의 문제는 컨텍스트 길이가 아니라 상태 추적의 위상일 수 있...

Google DeepMind의 arXiv 2604.17121은 feedforward Transformer가 긴 문맥 검색에는 강하지만, 시간에 따라 변하는 belief state를 반복 갱신하는 상태 추적에는 구...

Sangmin Lee2026.06.18

Foundation Models

GLM-5.2는 1M 컨텍스트를 코딩 에이전트의 운영 문제로 끌고 온다

Z.AI의 GLM-5.2는 753B MoE, 1M-token context, IndexShare sparse attention, 개선된 MTP, slime RL 인프라, anti-hack guardrail을 묶어...

Sangmin Lee2026.06.18

Foundation Models

Qwable-v1은 Qwen3.6 위에 Claude식 도구 사용을 얹은 코딩 에...

Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...

Sangmin Lee2026.06.16

Foundation Models

FLARE는 하이브리드 어텐션 AR 모델을 디퓨전 LLM으로 바꾼다

FLARE는 Qwen3.5 계열 하이브리드 어텐션 체크포인트를 약 10B 토큰 전이 학습으로 변환해, 한 체크포인트에서 AR 검증식 디코딩과 디퓨전 병렬 디노이징을 함께 지원하려는 dLLM 변환 프레임워크다.

Sangmin Lee2026.06.16

Foundation Models

Robust-U1은 MLLM robustness를 이미지 복원 문제로 바꾼다

Robust-U1은 손상된 이미지를 텍스트로 설명하는 대신 MLLM이 직접 복원하고, 복원본과 손상본을 함께 추론에 넣어 real-world corruption robustness를 끌어올린 ICML 2026 논...

Sangmin Lee2026.06.15

Foundation Models

Kimi K2.7 Code는 1T MoE를 코딩 에이전트용으로 더 날카롭게 만든...

Moonshot AI의 Kimi K2.7 Code는 1T total/32B active MoE 구조를 유지하면서 장기 코딩 에이전트, preserved thinking, 멀티모달 API, self-host 배포...

Sangmin Lee2026.06.14

Foundation Models

Keye-VL-2.0은 긴 비디오를 256K 컨텍스트 문제로 다시 쓴다

Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...

Sangmin Lee2026.06.11

Foundation Models

LFM2.5-VL-450M-Extract는 작은 VLM을 이미지→JSON 추출기...

Liquid AI의 LFM2.5-VL-450M-Extract는 450M급 비전-언어 모델을 범용 VQA가 아니라 YAML 스키마 입력과 strict JSON 출력에 맞춘 task-specific Nano로 패키징...

Sangmin Lee2026.06.07

Foundation Models

OmniDreams는 자율주행 시뮬레이션을 녹화 재생이 아니라 실시간 생성 월드...

NVIDIA OmniDreams는 Cosmos 기반 2B급 action-conditioned world model을 AlpaSim·Alpamayo·FlashDreams와 묶어, 정책 행동에 반응하는 704×128...

Sangmin Lee2026.06.06

Foundation Models

Microsoft AI의 MAI 모델 패밀리는 모델 출시를 힐 클라이밍 시스템으...

Microsoft AI가 Build 2026에서 공개한 7종 MAI 모델은 단일 SOTA 발표보다, 깨끗한 데이터·자체 인프라·제품 통합·Frontier Tuning을 묶은 반복 개선 시스템 선언에 가깝다.

Sangmin Lee2026.06.05

Foundation Models

Gemma 4 12B는 인코더 없는 멀티모달을 로컬 에이전트 모델로 밀어 넣는다

Google의 Gemma 4 12B Unified는 11.95B dense 모델에서 별도 비전·오디오 인코더를 제거하고 raw patch와 waveform을 LLM backbone에 직접 투입해, 노트북급 로컬...

Sangmin Lee2026.06.04

Foundation Models

LocateAnything는 박스를 토큰이 아니라 원자 단위로 디코딩한다

NVIDIA LocateAnything-3B는 시각 grounding과 detection에서 좌표를 토큰별로 순차 생성하던 병목을 Parallel Box Decoding으로 바꿔, 박스·포인트를 하나의 기하 단위...

Sangmin Lee2026.05.29

Foundation Models

LFM2.5-8B-A1B는 온디바이스 에이전트를 위한 MoE를 128K reas...

Liquid AI의 LFM2.5-8B-A1B는 8.3B total / 1.5B active MoE를 128K 컨텍스트, 38T 토큰 학습, 확장된 토크나이저, reasoning-only 후처리와 엣지 런타임 패키...

Sangmin Lee2026.05.29

Foundation Models

RF-DETR는 비전 Transformer를 실시간 객체검출기로 다시 조립한다

RF-DETR 논문은 DINOv2 기반 DETR에 weight-sharing NAS를 결합해 COCO와 RF100-VL에서 실시간 detection·segmentation의 accuracy-latency Pare...

Sangmin Lee2026.05.26

Foundation Models

ERNIE-4.5-VL-Thinking은 3B 활성 MoE로 멀티모달 추론을 가...

Baidu의 ERNIE-4.5-VL-28B-A3B-Thinking은 28B급 총 파라미터와 3B 활성 파라미터를 갖는 공개 VLM으로, 이미지·비디오 reasoning, grounding, tool call, 1...

Sangmin Lee2026.05.26

Foundation Models

LFM2는 파운데이션 모델을 엣지 지연·메모리 문제로 다시 설계한다

LFM2 Technical Report는 게이트드 짧은 합성곱과 소수의 GQA 블록을 결합한 하이브리드 백본, 32K 컨텍스트, VL·Audio·ColBERT 변형, 엣지 런타임 패키징을 한 묶음으로 공개한 Li...

Sangmin Lee2026.05.25

Foundation Models

TabPFN은 작은 표형 데이터에서 학습 알고리즘 자체를 foundation m...

Nature 논문으로 정식화된 TabPFN은 1억 개 안팎의 synthetic tabular task로 transformer를 사전학습해, 작은 표형 데이터셋에서 학습·튜닝 루프를 한 번의 in-context p...

Sangmin Lee2026.05.25

Foundation Models

LLM은 깊이를 효율적으로 쓰지 못하고 있을 수 있다

NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...

Sangmin Lee2026.05.25

Foundation Models

Nemotron-Labs-Diffusion은 AR·Diffusion·Self-S...

NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...

Sangmin Lee2026.05.24

Foundation Models

Hy-MT2는 번역 모델을 온디바이스까지 밀어 넣는 텐센트의 새 공개 모델 패키...

Hy-MT2는 1.8B·7B·30B-A3B 번역 모델, IFMTBench, FP8/GGUF 양자화 변형을 함께 공개하며 번역 전용 post-training과 1.25-bit 압축을 결합한 텐센트 Hunyuan의...

Sangmin Lee2026.05.21

Foundation Models

Qwen3.7-Max는 에이전트 시대의 파운데이션 모델을 정면으로 겨냥한다

Qwen3.7-Max는 코딩 에이전트, MCP 기반 업무 자동화, 장시간 자율 실행, cross-harness 일반화를 전면에 내세운 Qwen의 최신 독점형 agent foundation model이다.

Sangmin Lee2026.05.21

Foundation Models

Lance는 멀티태스크 시너지로 이미지·비디오 이해와 생성을 한 모델에 묶는다

ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...

Sangmin Lee2026.05.20

Foundation Models

SenseNova-U1은 픽셀과 단어를 같은 기판에서 이해하고 생성한다

SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.

Sangmin Lee2026.05.19

Foundation Models

Qwen-Image-2.0은 이미지 생성과 편집을 하나의 텍스트 중심 모델로 묶...

Qwen-Image-2.0은 Qwen3-VL 조건 인코더, MMDiT, 16× VAE, 다단계 데이터 플라이휠을 결합해 1K 토큰 텍스트 지시, 2K 포토리얼리즘, 이미지 편집을 하나의 생성 모델 표면으로 통합하...

Sangmin Lee2026.05.18

Foundation Models

SANA-WM은 1분짜리 월드를 2.6B 모델과 단일 GPU 배포로 끌어내린다

SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...

Sangmin Lee2026.05.18

Foundation Models

Nemotron 3 Super는 12B 활성 MoE를 Blackwell 추론 스...

NVIDIA Nemotron 3 Super는 120B 총 파라미터·12B 활성 파라미터의 Hybrid Mamba-Attention LatentMoE 모델 위에 NVFP4 pretraining, MTP 기반 nat...

Sangmin Lee2026.05.13

Foundation Models

MiniCPM-V 4.6은 1.3B 멀티모달 모델을 휴대폰 배포 기준으로 다시...

MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...

Sangmin Lee2026.05.12

Foundation Models

Tuna-2는 비전 인코더를 버리고 픽셀 임베딩으로 통합 멀티모달을 다시 설계한...

Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서...

Sangmin Lee2026.05.11

Foundation Models

Kronos는 금융 K-line을 언어처럼 토큰화해 시계열 파운데이션 모델로 만...

Kronos는 OHLCVA 캔들 데이터를 계층적 토큰으로 양자화하고 12B개 K-line 기록 위에서 디코더 전용 Transformer를 사전학습해 예측·변동성·합성 데이터·투자 시뮬레이션을 하나의 금융 시계열...

Sangmin Lee2026.05.11

Foundation Models

왜 비전도 결국 Transformer로 수렴했는가

Isaac Robinson의 짧은 발표는 CNN에서 ViT, Swin, ConvNeXt, Hiera, DINOv3, SAM3, RF-DETR로 이어지는 흐름을 따라가며, 비전에서 Transformer가 늦게 이겼...

Sangmin Lee2026.05.09

Foundation Models

ZAYA1-8B는 AMD에서 학습한 초소형 활성 reasoning MoE를 te...

Zyphra의 ZAYA1-8B는 약 0.7B 활성·8B급 총 파라미터의 reasoning MoE 위에 CCA, MLP router, learned residual scaling, Markovian RSA를 결합해...

Sangmin Lee2026.05.08

Foundation Models

X2SAM은 이미지용 SAM을 비디오용 대화형 분할 모델로 확장하는 가장 직접적...

X2SAM은 텍스트 프롬프트와 시각 프롬프트를 하나의 인터페이스로 묶고, Mask Memory와 joint training으로 이미지와 비디오 전반의 segmentation을 통합한 MLLM이다. 특히 V-VGD...

Sangmin Lee2026.05.07

Foundation Models

OneVL은 자율주행 CoT를 텍스트가 아니라 세계모델 latent로 압축한다

OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와...

Sangmin Lee2026.05.06

Foundation Models

Dynin-Omni는 오토리그레시브 대신 마스크드 디퓨전으로 옴니모달을 한 백본...

Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token sp...

Sangmin Lee2026.05.06

Foundation Models

EXAONE 4.5 33B는 LG가 산업형 오픈 비전언어모델을 어떻게 포지셔닝하...

EXAONE 4.5 33B는 31.7B 언어모델과 1.29B 비전 인코더를 결합한 LG AI Research의 첫 오픈 웨이트 VLM으로, 256K 컨텍스트와 문서 이해 중심 데이터 전략을 앞세워 범용 벤치마크보...

Sangmin Lee2026.05.06

Foundation Models

Qwen3.6-35B-A3B는 3B 활성 파라미터로 에이전트 코딩 성능을 밀어...

Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로...

Sangmin Lee2026.05.06

Foundation Models

Mistral Medium 3.5는 추론·코딩·에이전트 실행을 한 모델로 묶으려...

Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를...

Sangmin Lee2026.05.06

Foundation Models

DeepSeek-V4-Pro는 1M 컨텍스트를 49B 활성 경로로 밀어붙인다

DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 K...

Sangmin Lee2026.05.06

Foundation Models

MiMo-V2.5는 1M 컨텍스트·오디오·에이전트를 한 모델로 묶는다

Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.

Sangmin Lee2026.05.06

Foundation Models

이 리포트는 LLM 핵심 설계를 Architecture·RoPE·Attentio...

Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...

Sangmin Lee2026.05.06