NVIDIA CuTe DSL 융합 커널은 MoE 학습의 CPU·메모리 병목을 지...
NVIDIA의 CuTe DSL 기반 MoE 융합 MLP 커널은 GEMM, GLU activation, quantization, transpose를 한 커널 경로로 묶고 tokens-per-expert 정보를 GP...
Tag
CUDA Graphs 태그가 붙은 글입니다.
NVIDIA의 CuTe DSL 기반 MoE 융합 MLP 커널은 GEMM, GLU activation, quantization, transpose를 한 커널 경로로 묶고 tokens-per-expert 정보를 GP...