LLM은 깊이를 효율적으로 쓰지 못하고 있을 수 있다
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
Tag
Mechanistic Interpretability 태그가 붙은 글입니다.
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SA...