UniPool은 MoE expert를 레이어별 자산이 아니라 전역 풀로 바꾼다
UniPool은 MoE에서 레이어마다 따로 들고 있던 expert 집합을 전역 공유 풀로 바꾸고, pool-level balancing과 NormRouter를 더해 깊이에 비례하던 expert 파라미터 증가를 느슨하게 만든다.
Tag
Sparse Models 태그가 붙은 글입니다.
UniPool은 MoE에서 레이어마다 따로 들고 있던 expert 집합을 전역 공유 풀로 바꾸고, pool-level balancing과 NormRouter를 더해 깊이에 비례하던 expert 파라미터 증가를 느슨하게 만든다.