Inference Systems

서빙, speculative decoding, pruning, GPU 커널, 로컬 런타임처럼 모델 실행 시스템을 다룹니다.

ThriftAttention은 긴 컨텍스트 FP4 어텐션을 선택적 혼합정밀로 보...

ThriftAttention은 Blackwell FP4 어텐션의 장기 컨텍스트 품질 저하를 전체 고정밀 계산이 아니라 중요한 query-key block만 FP16으로 승격하는 선택적 혼합정밀 방식으로 줄이려는...

Sangmin Lee2026.05.29

Inference Systems

QueST는 사용자 질문 하나로 테스트 시점 LoRA 적응을 만든다

QueST는 입력 질문에서 관련 문제-해설 쌍을 생성하고, 이를 이용해 추론 직전에 LoRA로 모델을 가볍게 적응시키는 query-conditioned test-time self-training 방법이다.

Sangmin Lee2026.05.28

Inference Systems

MobileMoE는 MoE를 스마트폰 지연·메모리 문제로 다시 설계한다

MobileMoE는 0.3–0.9B 활성 파라미터의 MoE를 온디바이스 메모리·연산 제약에 맞춰 설계하고, INT4 QAT와 ExecuTorch 커스텀 커널로 실제 스마트폰에서 dense MobileLLM-Pro...

Sangmin Lee2026.05.27

Inference Systems

DeepConf는 확신도로 LLM 병렬 추론의 낭비를 줄인다

DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...

Sangmin Lee2026.05.26

Inference Systems

Unsloth는 QAT와 ExecuTorch로 Qwen3를 스마트폰 안으로 밀어...

Unsloth의 phone deployment 가이드는 Qwen3-0.6B를 QAT로 파인튜닝하고 TorchAO/ExecuTorch로 .pte 모델을 내보낸 뒤, Pixel 8과 iPhone 계열 기기에서 로컬...

Sangmin Lee2026.05.25

Inference Systems

LLMs-from-scratch의 DSA 예제는 DeepSeek식 sparse...

rasbt/LLMs-from-scratch의 ch04/09_dsa는 DeepSeek-V3.2의 DeepSeek Sparse Attention을 작은 GPT 코드로 재구성해, long-context attentio...

Sangmin Lee2026.05.25

Inference Systems

최근 LLM 아키텍처는 파라미터보다 KV 캐시와 잔차 경로를 다시 설계한다

Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...

Sangmin Lee2026.05.19

Inference Systems

MLX와 Locally AI는 iPhone을 작은 로컬 LLM 런타임으로 바꾸고...

Adrien Grondin의 AI Engineer 발표는 Gemma 4를 iPhone에서 약 40 tok/s로 실행하는 데모를 통해, MLX Swift LM, Hugging Face MLX Community, 4...

Sangmin Lee2026.05.19

Inference Systems

OptiLLM은 추론 시간 최적화를 OpenAI 호환 프록시로 묶는다

OptiLLM은 Best-of-N, MoA, MCTS, CePO, MARS 같은 inference-time 기법을 OpenAI 호환 프록시 뒤에 묶어, 모델 재학습 없이 더 많은 추론 계산으로 정확도와 운영 유연...

Sangmin Lee2026.05.16

Inference Systems

LiteVLA-H는 드론 VLA를 20Hz 액션 루프와 6Hz 의미 루프로 나눈...

LiteVLA-H는 Jetson AGX Orin 위의 256M VLA에서 pre-fill이 액션 지연의 대부분을 차지한다는 관찰을 바탕으로, 빠른 외부 guidance 루프와 느린 semantic percepti...

Sangmin Lee2026.05.12

Inference Systems

Gemma 4 MTP는 speculative decoding을 제품형 추론 가속...

Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...

Sangmin Lee2026.05.06

Inference Systems

SuperGemma4는 Apple Silicon에서 Gemma 4를 더 빠르고...

Jiunsong의 SuperGemma4-26B-Uncensored-Fast v2는 Google Gemma 4 26B IT를 MLX 4bit 형식으로 재가공해, Apple Silicon 로컬 환경에서 속도와 실사용...

Sangmin Lee2026.05.06

Inference Systems

AutoKernel은 GPU 커널 최적화를 에이전트 실험 루프로 바꾼다

AutoKernel은 PyTorch 모델을 프로파일링해 병목 GPU 커널을 추출한 뒤, Triton 또는 CUDA C++ 커널을 에이전트가 반복적으로 수정·벤치마크·유지/되돌리기 하도록 설계해 하룻밤 단위의 자동...

Sangmin Lee2026.05.06

Inference Systems

POP은 prefill만 가지치기해 LLM 추론을 가속한다

POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 pre...

Sangmin Lee2026.05.06