vLLM 引入弹性专家并行:MoE 模型推理从此能“伸缩自如” vLLM 推出弹性专家并行技术,允许 MoE 模型推理服务在运行时动态增减 GPU 工作者,实现按需扩缩容,无需重启服务。 vLLM Blog · 2026年5月14日