Keye-VL-2.0은 긴 비디오를 256K 컨텍스트 문제로 다시 쓴다
Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...
Tag
Sparse Attention 태그가 붙은 글입니다.
Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...
MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...
rasbt/LLMs-from-scratch의 ch04/09_dsa는 DeepSeek-V3.2의 DeepSeek Sparse Attention을 작은 GPT 코드로 재구성해, long-context attentio...