Tag

#Inference Systems

MrFlow는 flow-matching 이미지 생성 모델에서 저해상도 샘플링, 픽셀 공간 업스케일, 약한 노이즈 주입, 고해상도 1-step refinement를 묶어 학습 없이 8–10× 추론 가속을 노리는 s...

Sangmin Lee2026.07.04

MiniMax Sparse Attention은 GQA 위에 경량 Index Branch를 붙여 GQA 그룹별 Top-k KV 블록만 정확 어텐션하고, 1M 컨텍스트에서 어텐션 compute와 wall-clock...

Sangmin Lee2026.06.18

ThriftAttention은 Blackwell FP4 어텐션의 장기 컨텍스트 품질 저하를 전체 고정밀 계산이 아니라 중요한 query-key block만 FP16으로 승격하는 선택적 혼합정밀 방식으로 줄이려는...

Sangmin Lee2026.05.29

NVIDIA LongLive-2.0은 Balanced SP, NVFP4 학습·추론, KV-cache 양자화, asynchronous VAE decoding을 묶어 긴 비디오 생성의 학습 비용과 실시간 추론 병목을...

Sangmin Lee2026.05.20