GLM-5.2는 1M 컨텍스트를 코딩 에이전트의 운영 문제로 끌고 온다
Z.AI의 GLM-5.2는 753B MoE, 1M-token context, IndexShare sparse attention, 개선된 MTP, slime RL 인프라, anti-hack guardrail을 묶어...
Tag
Sparse Attention 태그가 붙은 글입니다.
Z.AI의 GLM-5.2는 753B MoE, 1M-token context, IndexShare sparse attention, 개선된 MTP, slime RL 인프라, anti-hack guardrail을 묶어...
MiniMax Sparse Attention은 GQA 위에 경량 Index Branch를 붙여 GQA 그룹별 Top-k KV 블록만 정확 어텐션하고, 1M 컨텍스트에서 어텐션 compute와 wall-clock...
Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...
MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...
rasbt/LLMs-from-scratch의 ch04/09_dsa는 DeepSeek-V3.2의 DeepSeek Sparse Attention을 작은 GPT 코드로 재구성해, long-context attentio...