DeepSeek-V4-Pro는 1M 컨텍스트를 49B 활성 경로로 밀어붙인다
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 KV-cache를 크게 줄이면서도 코딩·추론·에이전트 성능을 함께 끌어올리려는 공개 모델이다.
Tag
DeepSeek 태그가 붙은 글입니다.
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 KV-cache를 크게 줄이면서도 코딩·추론·에이전트 성능을 함께 끌어올리려는 공개 모델이다.