Qwable-v1은 Qwen3.6 위에 Claude식 도구 사용을 얹은 코딩 에...
Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...
Tag
Open Weights 태그가 붙은 글입니다.
Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...
Moonshot AI의 Kimi K2.7 Code는 1T total/32B active MoE 구조를 유지하면서 장기 코딩 에이전트, preserved thinking, 멀티모달 API, self-host 배포...
Meta의 Code World Model Preparedness Report는 32B 코드 월드 모델 CWM을 공개하기 전에 사이버·생화학·정직성 리스크를 현재 오픈 모델 생태계와 비교해 검증한 사례다.
Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...
Zyphra의 ZAYA1-8B는 약 0.7B 활성·8B급 총 파라미터의 reasoning MoE 위에 CCA, MLP router, learned residual scaling, Markovian RSA를 결합해...
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SA...
EXAONE 4.5 33B는 31.7B 언어모델과 1.29B 비전 인코더를 결합한 LG AI Research의 첫 오픈 웨이트 VLM으로, 256K 컨텍스트와 문서 이해 중심 데이터 전략을 앞세워 범용 벤치마크보...
Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로...
Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를...