ZAYA1-8B는 AMD에서 학습한 초소형 활성 reasoning MoE를 test-time compute 시대로 밀어 붙인다
Zyphra의 ZAYA1-8B는 약 0.7B 활성·8B급 총 파라미터의 reasoning MoE 위에 CCA, MLP router, learned residual scaling, Markovian RSA를 결합해 작은 활성 계산량으로 수학·코딩 추론 성능을 끌어올리려는 오픈 웨이트 모델 릴리스다.
Tag
Zyphra 태그가 붙은 글입니다.
Zyphra의 ZAYA1-8B는 약 0.7B 활성·8B급 총 파라미터의 reasoning MoE 위에 CCA, MLP router, learned residual scaling, Markovian RSA를 결합해 작은 활성 계산량으로 수학·코딩 추론 성능을 끌어올리려는 오픈 웨이트 모델 릴리스다.