Qwen-Scope는 SAE를 해석 도구에서 개발 인터페이스로 밀어 올린다
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SAE를 사후 해석 기법이 아니라 재사용 가능한 개발 인터페이스로 재정의하려는 시도다.
Tag
Qwen 태그가 붙은 글입니다.
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SAE를 사후 해석 기법이 아니라 재사용 가능한 개발 인터페이스로 재정의하려는 시도다.
Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로 실전형 코딩 에이전트 성능을 노리는 Qwen의 공개 모델이다.
Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추론 성능을 단 13개 파라미터와 26바이트만으로 크게 끌어올릴 수 있음을 보여준다.