标签: vLLM (5 篇)

vLLM V1迁移血泪史：我们如何让强化学习训练重归稳定

ServiceNow AI团队在将强化学习训练从vLLM V0迁移到V1时，发现推理引擎的微小差异会导致训练崩溃，通过修复四个关键后端问题恢复了训练稳定性。

Hugging Face Blog · 2026年5月7日

vLLM 团队对 TurboQuant 进行了全面基准测试，发现其在多数场景下不如 FP8 量化，仅在极端内存受限的边缘部署中可能有价值。

vLLM Blog ·

vLLM 推出弹性专家并行（Elastic EP），允许 MoE 模型推理服务在运行时动态增减 GPU 工作节点，无需重启，以应对流量波动并降低成本，这是构建容错服务的关键一步。

vLLM Blog ·

vLLM 的推测解码训练框架 Speculators v0.5.0 引入了 DFlash 算法，它通过单次前向传播生成草稿令牌，显著降低了推理延迟，并统一了在线与离线训练流程。

vLLM Blog ·

vLLM通过FP8量化KV缓存，在保证精度的前提下将长上下文推理的内存占用减半、吞吐量翻倍，但需注意特定场景的性能陷阱。

vLLM Blog ·