英伟达与MIT合作推出Fast-dLLM框架,速度提升27.6倍
2025年6月3日,科技界迎来一项重大突破。英伟达(NVIDIA)联合麻省理工学院(MIT)及中国香港大学,正式推出名为 Fast-dLLM 的创新框架。该框架通过多项前沿技术,显著提升了基于扩散模型(Diffusion-based LLMs)的推理效率,最高推理速度提升了 27.6倍,为AI大语言模型(LLM)的实际应用开辟了全新可能。
Fast-dLLM:无需重新训练的推理加速方案
Fast-dLLM 是一项革命性的技术,它无需对模型进行重新训练,即可在不牺牲性能的前提下,大幅提升扩散模型的推理速度。这一突破性进展,标志着扩散模型在与自回归模型竞争中迈出了关键一步。
核心技术亮点
块状近似KV缓存机制
Fast-dLLM 引入了 块状近似KV缓存(Block-wise Approximate KV Cache)机制,通过将序列划分为多个块,并预计算存储其他块的激活值,有效减少了计算冗余。其进一步优化的 DualCache 版本则利用相邻推理步骤的高度相似性,缓存前后缀词元,进一步提升了效率。
置信度感知并行解码策略
该框架还引入了 置信度感知并行解码(Confidence-Aware Parallel Decoding)策略,该策略根据预设阈值选择性解码高置信度的词元,避免了同步采样可能引发的依赖冲突,确保了生成内容的质量。
动态剪枝与稀疏化
Fast-dLLM 通过动态剪枝和稀疏化技术,优化计算路径,避免精度损失,同时利用现代硬件(如GPU和TPU)的并行计算能力,显著缩短推理时间。
性能表现与应用场景
在多项基准测试中,Fast-dLLM 表现出与甚至超越自回归模型的速度和准确性,证明了扩散模型作为 AI 领域竞争性替代方案的可行性。其技术优势不仅体现在推理速度上,还体现在生成质量的稳定性上,为各种 AI 应用开辟了新途径,如 UBOS 平台上的 AI 聊天机器人和 ElevenLabs AI 语音集成。
Fast-dLLM 的推出,标志着扩散模型在推理效率方面取得了重要进展。未来,该框架有望在自然语言处理、医疗健康、金融、自动驾驶和教育等多个领域发挥重要作用。