← 返回首页

开源推理引擎vLLM凭什么在性能榜单上碾压一众闭源方案?

原文: vLLM Tops the Artificial Analysis Leaderboard

vLLM Blog 工具链 进阶 影响力: 8/10

开源推理引擎vLLM在多项前沿模型推理基准测试中击败所有闭源竞争对手,其核心在于针对不同模型瓶颈的深度内核融合优化。

核心要点

  • vLLM在DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B等模型上取得了顶尖的推理性能
  • 性能优势源于对低批量大小下GPU内核启动开销的极致优化
  • 所有优化代码都已开源或即将合入主线,打破了‘最佳性能需闭源’的假设
  • 这些工作为支持下一代模型(如DeepSeek V4)奠定了基础

深度解读

起因:一个打破常规认知的榜单结果

最近,DigitalOcean发布的一项推理基准测试在AI基础设施圈引起了不小震动。结果显示,开源推理引擎vLLM在DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B这三个前沿开源权重模型上,推理性能全面领先于所有参评的闭源推理服务商。例如,在DeepSeek V3.2上,vLLM实现了每用户230 TPS的输出吞吐量,是多数服务商的4倍以上;在Qwen 3.5 397B上,它在所有12家提供商中排名第一,对1万token提示的TTFT(首token时间)低于1秒。这之所以重要,是因为它直接挑战了生产环境中一个根深蒂固的假设:最好的推理性能必须依赖闭源的、专有的技术栈。而vLLM用事实证明,在同样的NVIDIA Blackwell Ultra硬件上,一个社区构建的开源引擎完全可以做到顶尖。

拆解:性能从何而来?—— 精准的“内核融合”手术

vLLM团队没有使用什么魔法,而是针对每个模型的具体瓶颈,做了极其精细的优化。核心思路是“内核融合”——将原本需要多次启动GPU内核才能完成的小操作(如归一化、旋转位置编码、量化等),合并成更少、更高效的内核。这大幅减少了GPU内核的启动开销,而这种开销在低批量大小(即并发请求少)时尤其致命。

以DeepSeek V3.2为例,问题在于其每个Transformer层原先需要启动约33个独立的GPU内核。这些操作本身执行很快(微秒级),但每个内核的固定启动成本累积起来,成了主要的性能瓶颈。vLLM的解决方案是,将注意力路径上的多个操作(如Q/KV归一化、旋转位置编码、FP8量化等)融合成仅2个内核,将每层内核数从约33个降至约10个。仅此一项,在批量大小为1时就带来了1.28倍的加速。此外,他们还为该模型定制了新的路由GEMM内核和TopK内核,进一步提升了性能。这些优化不仅适用于当前版本,也直接构成了支持下一代DeepSeek V4的基础。

对于MiniMax-M2.5,除了内核融合,团队还训练了一个定制的EAGLE3投机解码草稿模型,利用开源的TorchSpec和vLLM进行训练,实现了高接受率的推测解码,从而进一步提升吞吐。而对于Qwen 3.5 397B,优化则聚焦于其注意力和归一化路径的特定融合。

趋势洞察:开源正在成为AI基础设施创新的核心引擎

vLLM的这次胜利,揭示了一个更深层的趋势:在AI推理这个关键的基础设施层,开源项目正从“跟随者”变为“引领者”。过去,大家可能认为最尖端的优化技术被大厂藏在私有代码库里。但vLLM表明,通过开放协作,社区能够快速吸收、整合并创新最前沿的优化技术(如内核融合、投机解码),并以更快的速度普惠整个生态。所有这些优化都已开源或正在合入主线,这意味着任何开发者都可以免费获得世界一流的推理性能。这正在重塑AI基础设施的竞争格局,从“拼私有技术”转向“拼开源协作与工程深度”。

实用价值与反常识点

对于AI从业者,尤其是负责模型部署的工程师,这个案例有直接的参考价值。首先,它明确指出了低批量大小场景下的性能关键点——GPU内核启动开销。如果你的业务场景是实时交互式应用(如聊天机器人),并发数不高,那么关注内核融合这类优化比单纯堆算力更有效。其次,在选择推理框架时,vLLM这样的开源方案已经具备了与闭源服务同台竞技甚至领先的性能,应成为优先评估的选项。

一个可能反常识的点是:很多人以为性能优化是“黑魔法”,必须由硬件厂商或顶级大厂的专属团队完成。但vLLM的工作展示,这更多是深入理解模型架构与硬件特性后,进行的系统性工程优化。开源模式使得这种深度的优化知识得以快速传播和复用,例如,为DeepSeek V3.2做的融合工作,直接沿用到了V4的支持上。这降低了整个行业获取顶尖技术的门槛。


原文地址: vLLM Tops the Artificial Analysis Leaderboard

原文来自 vLLM Blog

由 BitByAI AI 编辑器自动解读

BitByAI — 由 AI 驱动、AI 进化的 AI 资讯站