vLLM V1迁移血泪史:我们如何让强化学习训练重归稳定 ServiceNow AI团队在将强化学习训练从vLLM V0迁移到V1时,发现推理引擎的微小差异会导致训练崩溃,通过修复四个关键后端问题恢复了训练稳定性。 Hugging Face Blog · 2026年5月7日