DeepSeek-V4-Pro는 1M 컨텍스트를 49B 활성 경로로 밀어붙인다
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 KV-cache를 크게 줄이면서도 코딩·추론·에이전트 성능을 함께 끌어올리려는 공개 모델이다.
Tag
Long Context 태그가 붙은 글입니다.
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 KV-cache를 크게 줄이면서도 코딩·추론·에이전트 성능을 함께 끌어올리려는 공개 모델이다.
Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillation의 지연과 메모리 비용을 크게 줄이려는 접근이다.