← 返回首页 — Simon Willison — 进阶
模型公司 · 深度解读 · IMPACT 8/10

告别逐字预测:DiffusionGemma 如何用扩散架构重塑文本生成

原文: DiffusionGemma

Google 开源 DiffusionGemma,首次将扩散架构应用于文本生成,推理速度突破 500 token/秒,为高吞吐场景提供新范式。

核心要点
  • 扩散架构替代自回归,实现并行生成突破速度瓶颈
  • 开源 Apache 2 协议,降低企业部署与微调门槛
  • 实测 500+ token/秒,在长文本与批量任务中优势显著
  • NVIDIA 免费托管 API,加速开发者生态验证
深度解读

起因:去年五月,Google 悄悄放出一个实验性的 Gemini 扩散模型,当时测试跑出了 857 token/秒的惊人速度,但随后便杳无音信。就在社区以为这只是个内部玩具时,今年六月它带着 Apache 2.0 开源协议正式回归,命名为 DiffusionGemma。知名技术博主 Simon Willison 用 NVIDIA 免费提供的 API 实测,4.4 秒稳定吐出 2409 个 token,速度稳在 500 以上。为什么现在值得深入聊?因为整个文本生成领域正死死卡在“自回归逐字预测”的物理墙上,而扩散架构可能是第一把真正能撬开高吞吐场景的钥匙。

拆解:传统大语言模型像老式打字机,必须从左到右一个字一个字猜,猜完前一个才能算下一个,这种串行机制天生限制了并发效率。DiffusionGemma 换了底层逻辑,它更像图像处理里的“内容识别填充”。你给一段提示词,模型先在随机噪声中构建整段文本的模糊轮廓,然后通过多步去噪,一次性把整段话“洗”清晰。虽然去噪需要迭代,但每一步都在并行计算所有 token,彻底斩断了自回归的串行依赖。加上模型采用 26B 总参数、4B 激活参数的混合专家设计,在消费级显卡或云端推理节点上都能轻松跑满内存带宽,实测速度并非营销噱头,而是实打实的架构红利。

趋势洞察:这揭示了一个更深层的产业趋势——大模型的生成范式正在从单一自回归走向混合与场景分化。过去几年,行业默认“大模型等于自回归”,但扩散模型在图像、音频领域的成功早已证明,并行生成在速度与可控性上具备碾压潜力。DiffusionGemma 的开源,标志着 Google 正将这条技术路线从实验室推向工程落地。未来我们极可能看到“自回归负责复杂逻辑推理,扩散负责高速内容填充”的混合架构,或者针对代码补全、实时翻译、批量摘要等场景的专用扩散变体。

实用价值:对一线开发者和架构师而言,这意味着什么?第一,如果你负责高并发的文本服务,DiffusionGemma 的吞吐优势可以直接砍掉 30% 到 50% 的 GPU 算力成本。第二,Apache 2.0 协议几乎消除了企业合规顾虑,可以放心嵌入内部工作流。第三,NVIDIA 提供免费 NIM 托管,你可以零成本跑通概念验证。建议先用短文本、高重复度的任务做压测,逐步观察长上下文连贯性,找到速度与质量的平衡点。

反常识/意外:大多数人可能忽略了一个关键细节:扩散模型长期被诟病“牺牲逻辑换速度”,尤其在需要强推理链的任务上表现疲软。但 DiffusionGemma 的实际输出显示,它在指令遵循和细节还原上已经具备商用水准。这其实戳破了一个行业迷思——我们太执着于“通用全能”,却忘了“垂直场景的速度即正义”。当 AI 应用从技术尝鲜走向规模化部署,延迟和成本才是决定生死的硬指标。它或许不会取代顶级模型做深度思考,但极有可能成为下一代 AI 基础设施里的高速数据管道。


原文地址: DiffusionGemma

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读