MiniCPM4는 온디바이스 LLM을 모델·데이터·추론 스택 전체로 줄인다
MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...
Tag
Quantization 태그가 붙은 글입니다.
MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...
MobileMoE는 0.3–0.9B 활성 파라미터의 MoE를 온디바이스 메모리·연산 제약에 맞춰 설계하고, INT4 QAT와 ExecuTorch 커스텀 커널로 실제 스마트폰에서 dense MobileLLM-Pro...
Hy-MT2는 1.8B·7B·30B-A3B 번역 모델, IFMTBench, FP8/GGUF 양자화 변형을 함께 공개하며 번역 전용 post-training과 1.25-bit 압축을 결합한 텐센트 Hunyuan의...
NVIDIA Nemotron 3 Super는 120B 총 파라미터·12B 활성 파라미터의 Hybrid Mamba-Attention LatentMoE 모델 위에 NVFP4 pretraining, MTP 기반 nat...
Jiunsong의 SuperGemma4-26B-Uncensored-Fast v2는 Google Gemma 4 26B IT를 MLX 4bit 형식으로 재가공해, Apple Silicon 로컬 환경에서 속도와 실사용...