告别逐字预测：DiffusionGemma 如何用扩散架构重塑文本生成

原文: DiffusionGemma

Google 开源 DiffusionGemma，首次将扩散架构应用于文本生成，推理速度突破 500 token/秒，为高吞吐场景提供新范式。

文本生成架构扩散模型大语言模型开源生态推理加速开发者工具

核心要点

扩散架构替代自回归，实现并行生成突破速度瓶颈
开源 Apache 2 协议，降低企业部署与微调门槛
实测 500+ token/秒，在长文本与批量任务中优势显著
NVIDIA 免费托管 API，加速开发者生态验证

深度解读

起因：去年五月，Google 悄悄放出一个实验性的 Gemini 扩散模型，当时测试跑出了 857 token/秒的惊人速度，但随后便杳无音信。就在社区以为这只是个内部玩具时，今年六月它带着 Apache 2.0 开源协议正式回归，命名为 DiffusionGemma。知名技术博主 Simon Willison 用 NVIDIA 免费提供的 API 实测，4.4 秒稳定吐出 2409 个 token，速度稳在 500 以上。为什么现在值得深入聊？因为整个文本生成领域正死死卡在“自回归逐字预测”的物理墙上，而扩散架构可能是第一把真正能撬开高吞吐场景的钥匙。

拆解：传统大语言模型像老式打字机，必须从左到右一个字一个字猜，猜完前一个才能算下一个，这种串行机制天生限制了并发效率。DiffusionGemma 换了底层逻辑，它更像图像处理里的“内容识别填充”。你给一段提示词，模型先在随机噪声中构建整段文本的模糊轮廓，然后通过多步去噪，一次性把整段话“洗”清晰。虽然去噪需要迭代，但每一步都在并行计算所有 token，彻底斩断了自回归的串行依赖。加上模型采用 26B 总参数、4B 激活参数的混合专家设计，在消费级显卡或云端推理节点上都能轻松跑满内存带宽，实测速度并非营销噱头，而是实打实的架构红利。

趋势洞察：这揭示了一个更深层的产业趋势——大模型的生成范式正在从单一自回归走向混合与场景分化。过去几年，行业默认“大模型等于自回归”，但扩散模型在图像、音频领域的成功早已证明，并行生成在速度与可控性上具备碾压潜力。DiffusionGemma 的开源，标志着 Google 正将这条技术路线从实验室推向工程落地。未来我们极可能看到“自回归负责复杂逻辑推理，扩散负责高速内容填充”的混合架构，或者针对代码补全、实时翻译、批量摘要等场景的专用扩散变体。

实用价值：对一线开发者和架构师而言，这意味着什么？第一，如果你负责高并发的文本服务，DiffusionGemma 的吞吐优势可以直接砍掉 30% 到 50% 的 GPU 算力成本。第二，Apache 2.0 协议几乎消除了企业合规顾虑，可以放心嵌入内部工作流。第三，NVIDIA 提供免费 NIM 托管，你可以零成本跑通概念验证。建议先用短文本、高重复度的任务做压测，逐步观察长上下文连贯性，找到速度与质量的平衡点。

反常识/意外：大多数人可能忽略了一个关键细节：扩散模型长期被诟病“牺牲逻辑换速度”，尤其在需要强推理链的任务上表现疲软。但 DiffusionGemma 的实际输出显示，它在指令遵循和细节还原上已经具备商用水准。这其实戳破了一个行业迷思——我们太执着于“通用全能”，却忘了“垂直场景的速度即正义”。当 AI 应用从技术尝鲜走向规模化部署，延迟和成本才是决定生死的硬指标。它或许不会取代顶级模型做深度思考，但极有可能成为下一代 AI 基础设施里的高速数据管道。

原文地址: DiffusionGemma

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读