NVIDIA CuTe DSL 융합 커널은 MoE 학습의 CPU·메모리 병목을 지...
NVIDIA의 CuTe DSL 기반 MoE 융합 MLP 커널은 GEMM, GLU activation, quantization, transpose를 한 커널 경로로 묶고 tokens-per-expert 정보를 GP...
Tag
Training Systems 태그가 붙은 글입니다.
NVIDIA의 CuTe DSL 기반 MoE 융합 MLP 커널은 GEMM, GLU activation, quantization, transpose를 한 커널 경로로 묶고 tokens-per-expert 정보를 GP...
NVIDIA의 JAX/MaxText NVFP4 글은 Blackwell GB200·GB300에서 MLP GEMM을 4비트 NVFP4로 낮추되 RHT, 2D weight scaling, stochastic round...
NVIDIA LongLive-2.0은 Balanced SP, NVFP4 학습·추론, KV-cache 양자화, asynchronous VAE decoding을 묶어 긴 비디오 생성의 학습 비용과 실시간 추론 병목을...
Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...