Tag

#Speculative Decoding

DeepSeek의 DeepSpec은 DSpark·DFlash·Eagle3 초안 모델을 데이터 준비, 학습, 평가까지 묶어 공개하며, 추측 디코딩을 단순 런타임 옵션이 아니라 재학습 가능한 서빙 스택으로 보여준다.

Sangmin Lee2026.07.04

Google Research의 Frozen Multi-Token Prediction은 이미 배포된 Gemini Nano v3의 backbone을 고정한 채 MTP head만 붙여 Pixel 9·10의 온디바이스...

Sangmin Lee2026.06.28

FLARE는 Qwen3.5 계열 하이브리드 어텐션 체크포인트를 약 10B 토큰 전이 학습으로 변환해, 한 체크포인트에서 AR 검증식 디코딩과 디퓨전 병렬 디노이징을 함께 지원하려는 dLLM 변환 프레임워크다.

Sangmin Lee2026.06.16

Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...

Sangmin Lee2026.05.06