SGLang Waterfill·LPLB는 MoE 서빙의 느린 rank를 disp...
LMSYS의 Waterfill·LPLB 글은 SGLang/DeepEP MoE inference에서 shared expert와 redundant expert replica를 runtime에 재배치해 EP rank...
Tag
Expert Parallelism 태그가 붙은 글입니다.
LMSYS의 Waterfill·LPLB 글은 SGLang/DeepEP MoE inference에서 shared expert와 redundant expert replica를 runtime에 재배치해 EP rank...