FLARE는 하이브리드 어텐션 AR 모델을 디퓨전 LLM으로 바꾼다
FLARE는 Qwen3.5 계열 하이브리드 어텐션 체크포인트를 약 10B 토큰 전이 학습으로 변환해, 한 체크포인트에서 AR 검증식 디코딩과 디퓨전 병렬 디노이징을 함께 지원하려는 dLLM 변환 프레임워크다.
Tag
Speculative Decoding 태그가 붙은 글입니다.
FLARE는 Qwen3.5 계열 하이브리드 어텐션 체크포인트를 약 10B 토큰 전이 학습으로 변환해, 한 체크포인트에서 AR 검증식 디코딩과 디퓨전 병렬 디노이징을 함께 지원하려는 dLLM 변환 프레임워크다.
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...