ThriftAttention은 긴 컨텍스트 FP4 어텐션을 선택적 혼합정밀로 보...
ThriftAttention은 Blackwell FP4 어텐션의 장기 컨텍스트 품질 저하를 전체 고정밀 계산이 아니라 중요한 query-key block만 FP16으로 승격하는 선택적 혼합정밀 방식으로 줄이려는...
Tag
Inference Systems 태그가 붙은 글입니다.
ThriftAttention은 Blackwell FP4 어텐션의 장기 컨텍스트 품질 저하를 전체 고정밀 계산이 아니라 중요한 query-key block만 FP16으로 승격하는 선택적 혼합정밀 방식으로 줄이려는...
NVIDIA LongLive-2.0은 Balanced SP, NVFP4 학습·추론, KV-cache 양자화, asynchronous VAE decoding을 묶어 긴 비디오 생성의 학습 비용과 실시간 추론 병목을...