MiniMax Sparse Attention은 100만 토큰 어텐션을 블록 선택...
MiniMax Sparse Attention은 GQA 위에 경량 Index Branch를 붙여 GQA 그룹별 Top-k KV 블록만 정확 어텐션하고, 1M 컨텍스트에서 어텐션 compute와 wall-clock...
Tag
MiniMax Sparse Attention 태그가 붙은 글입니다.
MiniMax Sparse Attention은 GQA 위에 경량 Index Branch를 붙여 GQA 그룹별 Top-k KV 블록만 정확 어텐션하고, 1M 컨텍스트에서 어텐션 compute와 wall-clock...