告别逐字生成：vLLM 原生支持扩散大模型，如何重塑推理范式

原文: DiffusionGemma: The First Diffusion LLM (dLLM) Natively Supported in vLLM

vLLM 首次原生支持离散扩散语言模型，通过画布去噪与并行块生成，用算力换带宽，有望打破自回归延迟瓶颈。

大语言模型推理加速离散扩散模型服务引擎显存带宽优化

核心要点

离散扩散语言模型打破逐词生成范式，采用固定长度画布进行并行迭代去噪。
vLLM 借助 ModelState 抽象与双向注意力机制，实现高效批处理与前缀缓存无缝兼容。
熵限去噪策略动态锁定高置信度词元，以额外计算换取显存带宽，显著优化低并发延迟。
编码器与解码器双模式共享权重，在保持标准自回归兼容性的同时开启并行推理新路径。

深度解读

起因：当“挤牙膏”式的文本生成撞上带宽墙

长期以来，我们习惯了大模型像老式打字机一样逐字输出。但随着模型参数膨胀，GPU 的显存带宽成了真正的瓶颈：计算单元经常处于空闲状态，苦苦等待数据搬运。就在业界还在死磕量化、分页注意力等优化手段时，vLLM 团队联合 Google DeepMind 宣布原生支持 DiffusionGemma。这不仅是主流推理引擎首次拥抱离散扩散语言模型，更暗示了一种全新的生成范式正在从实验室走向生产环境。

拆解：不逐字输出，改“打草稿”

传统的自回归架构是严格的串行流水线，生成第 N 个词必须等待前序词落盘。DiffusionGemma 的思路截然不同：它把文本生成看作在画布上作画。模型一次性初始化包含 256 个词元的随机画布，通过多轮迭代进行去噪修正。核心在于它巧妙地交换了计算压力与显存带宽压力。与其让 GPU 频繁读取 KV Cache 等待结果，不如一次性喂入大量数据，让计算单元全速运转。这在低 Batch Size 场景下是降维打击，因为此时算力过剩，带宽才是短板。

工程适配上，vLLM 的设计非常优雅。模型复用同一套权重，但切换两种模式：预填充和提交阶段走编码器模式，使用标准因果注意力写入 KV Cache，这让 vLLM 经典的前缀缓存功能得以无缝继承；中间的修正阶段走解码器模式，开启全向双向注意力，使画布内所有位置能同时互相参考。配合熵限去噪策略，模型越确定的位置越先锁定，不确定的留到下一轮继续猜测，整个画布就像显影照片般逐渐清晰，最后整块提交并开启下一块。

趋势洞察：并行化正在重塑生成式 AI 的底层逻辑

这件事揭示了一个深层趋势：大模型推理架构正从绝对串行走向块级并行。过去我们认为文本必须严格按顺序生成，但扩散模型证明，只要上下文锚点足够，局部并行修正完全可行。随着算力持续暴涨而内存带宽增长放缓，用算力换延迟将成为推理引擎的标准优化路径。

反常识与实用建议

很多人误以为扩散架构只适用于图像生成，但离散扩散语言模型正在证明其在序列建模上的硬实力。对开发者而言，这意味着技术选型逻辑需要更新：如果你在做实时语音交互、低延迟 API 或边缘部署，这种块级并行架构的响应速度将极具优势；但如果是高吞吐量的离线批处理，传统自回归模型的生态与吞吐效率依然更成熟。vLLM 的这次支持相当于给业界发放了并行推理的入场券。未来我们或许会看到更多混合架构：关键逻辑路径串行保底，非关键区块并行加速。生成式 AI 的推理优化，终于跳出了单纯压榨缓存的内卷，开始重新思考如何生成本身。

原文地址: DiffusionGemma: The First Diffusion LLM (dLLM) Natively Supported in vLLM

分析由 BitByAI 生成 · 阅读原文

原文来自 vLLM Blog · 由 BitByAI 自动解读