开源推理引擎vLLM登顶性能榜首：它如何击败所有闭源方案？

原文: vLLM Tops the Artificial Analysis Leaderboard

开源推理引擎vLLM在多个前沿开源大模型的部署性能上击败了所有闭源竞品，其核心优化技术（如算子融合）已公开，揭示了开源在AI推理领域的巨大潜力。

AI推理大语言模型开源项目性能优化开发者工具

核心要点

vLLM在DeepSeek V3.2、Qwen 3.5 397B等模型的推理性能上排名第一，吞吐量最高达闭源方案的4倍以上。
性能突破的关键是“算子融合”等优化技术，将数十个GPU内核启动合并为几个，大幅降低了开销。
所有优化代码都已开源或正在合并到主线，打破了“最佳推理性能需要私有技术栈”的行业假设。
vLLM的成功证明，针对特定模型架构（如MoE、线性注意力）进行深度定制优化，是提升推理效率的核心。

深度解读

起因：一个颠覆行业假设的测试结果

最近，第三方评测机构Artificial Analysis发布了一项基准测试，结果让很多人大吃一惊：在DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B这三个前沿开源大模型的部署上，性能排名第一的竟然都是基于开源推理引擎vLLM的方案。在DeepSeek V3.2上，其每用户输出吞吐量达到了230 TPS，是其他多数服务商的4倍以上。在Qwen 3.5 397B上，它在所有12家提供商中排名第一，对万token提示的首token响应时间（TTFT）低于1秒。

这件事之所以重要，是因为它直接挑战了AI生产环境中一个根深蒂固的假设：要获得顶尖的推理性能，必须依赖闭源的、私有的技术栈。但这次，在同样的NVIDIA Blackwell Ultra硬件上，一个社区构建的开源引擎跑赢了所有对手。更关键的是，背后的优化技术并没有锁在私有代码库里，而是全部公开或即将合并到vLLM主线。

拆解：性能飞跃的“三板斧”

vLLM团队并没有使用什么魔法，他们的工作核心是针对不同模型的“瓶颈”进行精准的“外科手术式”优化。我们可以通俗地理解为三个关键动作：

算子融合（Kernel Fusion）——解决“启动开销”问题：这是最核心的技术。想象一下，GPU处理一个任务就像工厂流水线。传统方式下，像“归一化”、“旋转位置编码”这些小操作，每个都是一道独立的工序，工人（GPU）每做一道工序都要停下来领一次新任务单（内核启动），这个“领单子”的时间（固定开销）在小批量处理时甚至比干活时间还长。vLLM的优化，就是把这些小工序打包成几个大的“组合工序”。比如对DeepSeek V3.2，他们将每层原本约33次内核启动，减少到了约10次。仅此一项，在批量大小为1时就带来了1.28倍的提速。这就像把流水线上几十个短工位合并成几个长工位，大大减少了等待和调度时间。
定制化“草稿模型”——提升“投机解码”效率：对于MiniMax-M2.5，他们采用了投机解码技术（先快速猜几个词，再让主模型验证）。关键在于，他们用开源的TorchSpec框架，基于vLLM实时生成的隐藏状态，专门为MiniMax-M2.5训练了一个高度定制的“草稿模型”。这就像为一位特定作家训练了一个特别懂他思维和用词习惯的速记员，猜词准确率（接受率）极高，从而整体加速。
模型架构级优化——深入“骨髓”的调优：他们对模型的注意力机制和归一化路径进行了深度定制。例如，针对Qwen 3.5的线性注意力路径，以及MiniMax-M2.5非标准的注意力归一化方式（其中Q和K的方差需要在张量并行规约后计算），都编写了专门的融合内核。这已经不是通用优化，而是深入到模型架构“骨髓”里的调优。

趋势洞察：开源正在定义AI推理的“工业标准”

vLLM的这次登顶，揭示了一个比性能数字更深层的趋势：AI推理的“工业标准”正在由开源社区定义，而非由闭源巨头垄断。

过去，大家可能认为闭源公司有更多资源做底层优化，能榨干硬件性能。但vLLM证明，一个活跃的、工程能力极强的开源社区，同样能做到，甚至做得更好。因为它的优化是透明的、可复现的、可被整个生态共享的。文中提到，为DeepSeek V3.2做的优化，已经直接构成了支持下一代DeepSeek V4的基础。这种“一次优化，多代受益”的生态效应，是闭源私有方案难以比拟的。

实用价值：对开发者和团队意味着什么？

重新评估技术选型：如果你的团队正在部署大模型服务，尤其是使用开源模型，vLLM应该成为你推理引擎的首选评估对象。它证明了开源方案完全有能力提供顶级的生产级性能，你可能不再需要为所谓的“闭源优化”支付高昂的许可费用或被锁定在特定云厂商。
关注“算子融合”等底层技术：对于有技术追求的工程师，理解算子融合、CUDA图、投机解码等原理变得更有价值。vLLM的成功表明，未来的性能竞争将越来越多地发生在这些底层优化层面。
拥抱开源生态的“杠杆效应”：选择像vLLM这样活跃的开源项目，意味着你的系统性能可以随着社区的快速迭代而自动提升。当社区为某个新模型（如Qwen 3.5）做完优化，你几乎可以零成本地获得这些增益。

反常识/意外

一个可能被忽略的点是：最极致的性能，往往来自于“不通用”的深度定制。 vLLM没有试图做一个“万能”的推理引擎。相反，它的胜利来自于为DeepSeek、MiniMax、Qwen这些架构各异的模型，分别打造“专用”的优化钥匙。这提醒我们，在AI Infra领域，通用性和极致性能之间常常存在权衡。真正的竞争力，可能在于能否为最主流、最重要的模型架构，提供最深入的“贴身”优化。

原文地址: vLLM Tops the Artificial Analysis Leaderboard

分析由 BitByAI 生成 · 阅读原文

原文来自 vLLM Blog · 由 BitByAI 自动解读