Tag

#On-device AI

Gemini Nano의 Frozen MTP는 Pixel 온디바이스 추론을 별도...

Google Research의 Frozen Multi-Token Prediction은 이미 배포된 Gemini Nano v3의 backbone을 고정한 채 MTP head만 붙여 Pixel 9·10의 온디바이스...

Sangmin Lee2026.06.28

Inference Systems

Efficient Reasoning on the Edge는 온디바이스 추론을 L...

Qualcomm AI Research의 Efficient Reasoning on the Edge는 Qwen2.5-7B에 LoRA reasoning adapter, budget forcing, switcher, 병...

Sangmin Lee2026.06.14

Inference Systems

MiniCPM4는 온디바이스 LLM을 모델·데이터·추론 스택 전체로 줄인다

MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...

Sangmin Lee2026.06.04

Foundation Models

Gemma 4 12B는 인코더 없는 멀티모달을 로컬 에이전트 모델로 밀어 넣는다

Google의 Gemma 4 12B Unified는 11.95B dense 모델에서 별도 비전·오디오 인코더를 제거하고 raw patch와 waveform을 LLM backbone에 직접 투입해, 노트북급 로컬...

Sangmin Lee2026.06.04

Foundation Models

LFM2.5-8B-A1B는 온디바이스 에이전트를 위한 MoE를 128K reas...

Liquid AI의 LFM2.5-8B-A1B는 8.3B total / 1.5B active MoE를 128K 컨텍스트, 38T 토큰 학습, 확장된 토크나이저, reasoning-only 후처리와 엣지 런타임 패키...

Sangmin Lee2026.05.29

Inference Systems

MobileMoE는 MoE를 스마트폰 지연·메모리 문제로 다시 설계한다

MobileMoE는 0.3–0.9B 활성 파라미터의 MoE를 온디바이스 메모리·연산 제약에 맞춰 설계하고, INT4 QAT와 ExecuTorch 커스텀 커널로 실제 스마트폰에서 dense MobileLLM-Pro...

Sangmin Lee2026.05.27

Agent Systems

Fara-7B는 컴퓨터 사용 에이전트를 온디바이스 7B 문제로 바꾼다

Microsoft Research의 Fara-7B는 스크린샷만 보고 좌표 행동을 예측하는 7B 컴퓨터 사용 에이전트로, FaraGen 합성 궤적과 Critical Point 안전장치를 통해 웹 자동화의 비용·프라...

Sangmin Lee2026.05.26

Inference Systems

Unsloth는 QAT와 ExecuTorch로 Qwen3를 스마트폰 안으로 밀어...

Unsloth의 phone deployment 가이드는 Qwen3-0.6B를 QAT로 파인튜닝하고 TorchAO/ExecuTorch로 .pte 모델을 내보낸 뒤, Pixel 8과 iPhone 계열 기기에서 로컬...

Sangmin Lee2026.05.25

Foundation Models

LFM2는 파운데이션 모델을 엣지 지연·메모리 문제로 다시 설계한다

LFM2 Technical Report는 게이트드 짧은 합성곱과 소수의 GQA 블록을 결합한 하이브리드 백본, 32K 컨텍스트, VL·Audio·ColBERT 변형, 엣지 런타임 패키징을 한 묶음으로 공개한 Li...

Sangmin Lee2026.05.25

Foundation Models

Hy-MT2는 번역 모델을 온디바이스까지 밀어 넣는 텐센트의 새 공개 모델 패키...

Hy-MT2는 1.8B·7B·30B-A3B 번역 모델, IFMTBench, FP8/GGUF 양자화 변형을 함께 공개하며 번역 전용 post-training과 1.25-bit 압축을 결합한 텐센트 Hunyuan의...

Sangmin Lee2026.05.21

AI Products & Strategy

Apple Intelligence 접근성 업데이트는 AI를 운영체제의 보조 레이...

Apple의 2026년 접근성 업데이트는 생성형 AI를 별도 챗봇이 아니라 VoiceOver, Magnifier, Voice Control, Accessibility Reader, 자막, Vision Pro 입력...

Sangmin Lee2026.05.20

Inference Systems

MLX와 Locally AI는 iPhone을 작은 로컬 LLM 런타임으로 바꾸고...

Adrien Grondin의 AI Engineer 발표는 Gemma 4를 iPhone에서 약 40 tok/s로 실행하는 데모를 통해, MLX Swift LM, Hugging Face MLX Community, 4...

Sangmin Lee2026.05.19

Foundation Models

MiniCPM-V 4.6은 1.3B 멀티모달 모델을 휴대폰 배포 기준으로 다시...

MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...

Sangmin Lee2026.05.12