이 리포트는 LLM 핵심 설계를 Architecture·RoPE·Attentio...
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...
Tag
FlashAttention 태그가 붙은 글입니다.
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...