DeepConf는 확신도로 LLM 병렬 추론의 낭비를 줄인다
DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...
Tag
Inference Optimization 태그가 붙은 글입니다.
DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...
LiteVLA-H는 Jetson AGX Orin 위의 256M VLA에서 pre-fill이 액션 지연의 대부분을 차지한다는 관찰을 바탕으로, 빠른 외부 guidance 루프와 느린 semantic percepti...
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...
POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 pre...