vLLM 推出 DFlash 算法：单次前向传播生成草稿，让推测解码更快更省

原文: Speculators v0.5.0: DFlash Support and Online Training

vLLM 的推测解码训练框架 Speculators v0.5.0 引入了 DFlash 算法，它通过单次前向传播生成草稿令牌，显著降低了推理延迟，并统一了在线与离线训练流程。

推测解码推理优化 vLLM 算法开发者工具训练框架

核心要点

引入 DFlash 算法，通过块扩散（block diffusion）单次前向生成多个草稿令牌，颠覆了传统自回归生成方式。
DFlash 使用非因果注意力模式，允许块内令牌互相“看见”，这与 Eagle 3 等模型的因果注意力有本质区别。
训练时采用“锚点”策略，随机选择关键位置生成预测块，解决了长序列下注意力掩码过大的问题。
统一了在线和隐藏状态提取系统，消除了对 vLLM 内部 API 的直接依赖，使训练更稳定、更易维护。

深度解读

这件事为什么重要？

在 AI 推理加速的竞赛中，“推测解码”是一项关键技术。它让一个小而快的“草稿模型”先猜出一串答案，再让大而准的“验证模型”一次性检查，从而用更少的步骤生成同样高质量的文本。vLLM 项目发布的 Speculators v0.5.0，正是为训练这类高效草稿模型提供了强大工具。这次更新的核心亮点是引入了 DFlash 算法，它改变了草稿生成的基本逻辑，对追求低延迟、高吞吐的推理服务有直接价值。

核心拆解：DFlash 到底改变了什么？

传统方法（如 Eagle 3）生成草稿是自回归的：生成第一个词，用第一个词生成第二个词，再生成第三个词... 这需要多次串行的前向传播，存在固有的延迟。DFlash 的思路完全不同，它借鉴了“扩散模型”的思想，采用块扩散。

你可以这样理解：DFlash 不再一个词一个词地“说”，而是像打字员看一句打一句——它一次性“看”到当前的上下文，然后直接“打出”一整块（比如8个）未来的词。这得益于它使用的非因果注意力：在预测的块内部，每个词都能看到同块内其他词的信息，从而实现更连贯、更准确的并行预测。这种单次前向传播的特性，是降低延迟的关键，尤其在生成较长草稿序列时优势更明显。

技术挑战与巧妙解决

但这里有个工程难题：如果对长文本中的每一个位置都尝试预测一个未来的块，需要构建的注意力掩码会变得极其庞大，训练时显存和计算成本会爆炸。Speculators 的解决方案非常聪明：锚点策略。它不是在每个位置都“开工”，而是随机选择序列中一些对训练损失有贡献的关键位置作为“锚点”，只在这些锚点上附加预测块。这样，无论序列多长，需要同时处理的预测块数量是固定的，让训练能够高效地扩展到长上下文场景。

对开发者的实用价值

对于正在构建或优化推理服务的团队，这次更新提供了几个直接价值：

更低的推理延迟：Gemma 4 DFlash 的实测数据显示，它在推理和代码生成任务上表现优异，结合 FP8 量化验证器，能实现比独立量化模型更低的词间延迟。这意味着用户体验更快、成本可能更低。
更简洁的训练流程：v0.5.0 统一了在线训练（边推理边学）和离线训练（预先生成数据）的代码路径，并且深度整合了 vLLM 原生的隐藏状态提取系统。这解耦了训练框架与 vLLM 的内部 API。过去，vLLM API 更新频繁，训练代码需要手动同步，现在这个痛点被极大缓解，工具链更稳定、更易维护。
开箱即用的部署：训练好的 DFlash 模型与 vLLM 的服务基础设施无缝集成。只需在配置文件中声明 speculators_config，就可以用简单的 vllm serve 命令启动服务，降低了工程落地门槛。

揭示的趋势与反常识点

这件事揭示了一个更深层的趋势：推理优化正在从“单点技巧”走向“系统化协同设计”。DFlash 不仅是一个新算法，它的训练（锚点策略）、注意力设计（非因果）、与推理引擎（vLLM）的深度集成，是一个完整的系统工程。它告诉我们，未来的推理加速，比拼的不仅是算法创意，更是算法、训练框架、服务引擎三者协同的深度。

一个可能被忽略的反常识点是：“更快的草稿”不一定来自“更深的思考”。DFlash 通过改变生成范式（并行块生成）而非单纯增加草稿模型参数来提升效率。这提醒我们，在 AI 系统优化中，改变信息流动和处理的方式，有时比堆叠算力更有效。

总之，Speculators v0.5.0 不是一次小版本迭代，它为推测解码领域带来了有竞争力的新算法和更健壮的工程实践。对于关注推理成本与性能的从业者，这是一个值得深入了解和评估的技术进展。

原文地址: Speculators v0.5.0: DFlash Support and Online Training

分析由 BitByAI 生成 · 阅读原文

原文来自 vLLM Blog · 由 BitByAI 自动解读