Gemma 4 MTP는 speculative decoding을 제품형 추론 가속...
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...
Tag
Gemma 태그가 붙은 글입니다.
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...
Jiunsong의 SuperGemma4-26B-Uncensored-Fast v2는 Google Gemma 4 26B IT를 MLX 4bit 형식으로 재가공해, Apple Silicon 로컬 환경에서 속도와 실사용...
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillat...
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.