Tag

#Training Systems

NVIDIA의 CuTe DSL 기반 MoE 융합 MLP 커널은 GEMM, GLU activation, quantization, transpose를 한 커널 경로로 묶고 tokens-per-expert 정보를 GP...

Sangmin Lee2026.06.18

NVIDIA의 JAX/MaxText NVFP4 글은 Blackwell GB200·GB300에서 MLP GEMM을 4비트 NVFP4로 낮추되 RHT, 2D weight scaling, stochastic round...

Sangmin Lee2026.06.10

NVIDIA LongLive-2.0은 Balanced SP, NVFP4 학습·추론, KV-cache 양자화, asynchronous VAE decoding을 묶어 긴 비디오 생성의 학습 비용과 실시간 추론 병목을...

Sangmin Lee2026.05.20

Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...

Sangmin Lee2026.05.11