Unsloth와 NVIDIA의 협업은 LLM 학습 병목을 커널 밖에서 줄인다
Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...
Tag
CUDA 태그가 붙은 글입니다.
Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...
AutoKernel은 PyTorch 모델을 프로파일링해 병목 GPU 커널을 추출한 뒤, Triton 또는 CUDA C++ 커널을 에이전트가 반복적으로 수정·벤치마크·유지/되돌리기 하도록 설계해 하룻밤 단위의 자동...