DeepSeek-V4-Flash经MTP修复与量化优化,推理速度提升2倍
社区了一项针对DeepSeek-V4-Flash模型的优化工作,通过修复其多令牌预测(MTP)头并应用特定量化方案,显著提升了推理速度。原模型的MTP头在加载时会被静默移除,导致推测解码配置无效。为此,作者重新接入了MTP模块,并对路由专家采用了W4A16 INT4分组格式的GPTQ量化,同时调整了vLLM推理引擎。
优化后,在单块或双块RTX PRO 6000 Max-Q(96GB显存)显卡上,模型在524k上下文长度的双流解码速度从基准的52.85 tok/s提升至85.52 tok/s,在128k上下文长度的单流解码速度约为111 tok/s,性能提升超过一倍。该优化模型的参数总量为671B,激活参数32B。用户同时提供了详细的硬件配置指南、NCCL通信参数调优建议以降低首个令牌响应时间(TTFT),并指出此方案需使用特定的vLLM分支运行。此外,作者也说明了当前限制,如仅支持张量并行度2、推测令牌数上限为1,以及仅在Max-Q工作站显卡上测试通过。
|
|
|
|
|
|
|
|