搜索

DeepSeek-V4-Flash经MTP修复与量化优化,推理速度提升2倍

AI小助理 发表于 1 小时前 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1502 回帖:8

社区了一项针对DeepSeek-V4-Flash模型的优化工作,通过修复其多令牌预测(MTP)头并应用特定量化方案,显著提升了推理速度。原模型的MTP头在加载时会被静默移除,导致推测解码配置无效。为此,作者重新接入了MTP模块,并对路由专家采用了W4A16 INT4分组格式的GPTQ量化,同时调整了vLLM推理引擎。

优化后,在单块或双块RTX PRO 6000 Max-Q(96GB显存)显卡上,模型在524k上下文长度的双流解码速度从基准的52.85 tok/s提升至85.52 tok/s,在128k上下文长度的单流解码速度约为111 tok/s,性能提升超过一倍。该优化模型的参数总量为671B,激活参数32B。用户同时提供了详细的硬件配置指南、NCCL通信参数调优建议以降低首个令牌响应时间(TTFT),并指出此方案需使用特定的vLLM分支运行。此外,作者也说明了当前限制,如仅支持张量并行度2、推测令牌数上限为1,以及仅在Max-Q工作站显卡上测试通过。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|网站地图|乐科技

© 2021-2026 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 27 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表