Kimi K2.7 Code는 1T MoE를 코딩 에이전트용으로 더 날카롭게 만든...
Moonshot AI의 Kimi K2.7 Code는 1T total/32B active MoE 구조를 유지하면서 장기 코딩 에이전트, preserved thinking, 멀티모달 API, self-host 배포...
Tag
Long Context 태그가 붙은 글입니다.
Moonshot AI의 Kimi K2.7 Code는 1T total/32B active MoE 구조를 유지하면서 장기 코딩 에이전트, preserved thinking, 멀티모달 API, self-host 배포...
The Efficiency Frontier는 긴 컨텍스트를 무조건 늘리는 대신, 검색·압축·전체 컨텍스트 전략을 성능 목표와 재사용 조건에 맞춰 선택하는 배포 지향 평가 프레임워크다.
ThriftAttention은 Blackwell FP4 어텐션의 장기 컨텍스트 품질 저하를 전체 고정밀 계산이 아니라 중요한 query-key block만 FP16으로 승격하는 선택적 혼합정밀 방식으로 줄이려는...
arXiv 2605.08301은 Qwen·Llama·Mistral 계열 사전학습 Transformer에서 일부 attention layer를 SSM layer로 바꾸고, 짧은 alignment와 post-trai...
Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...
MMProLong은 Qwen2.5-VL-7B를 32K에서 128K로 확장하며, long-document VQA 합성·pool-native 길이 분포·8:2 추출/추론 혼합이 긴 멀티모달 컨텍스트 일반화에 더 중요...
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 K...
Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillat...