Keye-VL-2.0은 긴 비디오를 256K 컨텍스트 문제로 다시 쓴다
Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...
Tag
Keye-VL 태그가 붙은 글입니다.
Kwai Keye-VL-2.0-30B-A3B는 30B MoE에 3B active parameter, GQA용 DeepSeek Sparse Attention, Cross-Modal MOPD를 결합해 장시간 비디오...