告别逐字生成:vLLM 原生支持扩散大模型,如何重塑推理范式
原文: DiffusionGemma: The First Diffusion LLM (dLLM) Natively Supported in vLLM
vLLM 首次原生支持离散扩散语言模型,通过画布去噪与并行块生成,用算力换带宽,有望打破自回归延迟瓶颈。
- 离散扩散语言模型打破逐词生成范式,采用固定长度画布进行并行迭代去噪。
- vLLM 借助 ModelState 抽象与双向注意力机制,实现高效批处理与前缀缓存无缝兼容。
- 熵限去噪策略动态锁定高置信度词元,以额外计算换取显存带宽,显著优化低并发延迟。
- 编码器与解码器双模式共享权重,在保持标准自回归兼容性的同时开启并行推理新路径。
起因:当“挤牙膏”式的文本生成撞上带宽墙
长期以来,我们习惯了大模型像老式打字机一样逐字输出。但随着模型参数膨胀,GPU 的显存带宽成了真正的瓶颈:计算单元经常处于空闲状态,苦苦等待数据搬运。就在业界还在死磕量化、分页注意力等优化手段时,vLLM 团队联合 Google DeepMind 宣布原生支持 DiffusionGemma。这不仅是主流推理引擎首次拥抱离散扩散语言模型,更暗示了一种全新的生成范式正在从实验室走向生产环境。
拆解:不逐字输出,改“打草稿”
传统的自回归架构是严格的串行流水线,生成第 N 个词必须等待前序词落盘。DiffusionGemma 的思路截然不同:它把文本生成看作在画布上作画。模型一次性初始化包含 256 个词元的随机画布,通过多轮迭代进行去噪修正。核心在于它巧妙地交换了计算压力与显存带宽压力。与其让 GPU 频繁读取 KV Cache 等待结果,不如一次性喂入大量数据,让计算单元全速运转。这在低 Batch Size 场景下是降维打击,因为此时算力过剩,带宽才是短板。
工程适配上,vLLM 的设计非常优雅。模型复用同一套权重,但切换两种模式:预填充和提交阶段走编码器模式,使用标准因果注意力写入 KV Cache,这让 vLLM 经典的前缀缓存功能得以无缝继承;中间的修正阶段走解码器模式,开启全向双向注意力,使画布内所有位置能同时互相参考。配合熵限去噪策略,模型越确定的位置越先锁定,不确定的留到下一轮继续猜测,整个画布就像显影照片般逐渐清晰,最后整块提交并开启下一块。
趋势洞察:并行化正在重塑生成式 AI 的底层逻辑
这件事揭示了一个深层趋势:大模型推理架构正从绝对串行走向块级并行。过去我们认为文本必须严格按顺序生成,但扩散模型证明,只要上下文锚点足够,局部并行修正完全可行。随着算力持续暴涨而内存带宽增长放缓,用算力换延迟将成为推理引擎的标准优化路径。
反常识与实用建议
很多人误以为扩散架构只适用于图像生成,但离散扩散语言模型正在证明其在序列建模上的硬实力。对开发者而言,这意味着技术选型逻辑需要更新:如果你在做实时语音交互、低延迟 API 或边缘部署,这种块级并行架构的响应速度将极具优势;但如果是高吞吐量的离线批处理,传统自回归模型的生态与吞吐效率依然更成熟。vLLM 的这次支持相当于给业界发放了并行推理的入场券。未来我们或许会看到更多混合架构:关键逻辑路径串行保底,非关键区块并行加速。生成式 AI 的推理优化,终于跳出了单纯压榨缓存的内卷,开始重新思考如何生成本身。
原文地址: DiffusionGemma: The First Diffusion LLM (dLLM) Natively Supported in vLLM
分析由 BitByAI 生成 · 阅读原文