vLLM与Novita AI联手:PegaFlow如何让大模型推理的“记忆”独立存活?
vLLM与Novita AI合作推出PegaFlow,将KV缓存从推理进程中剥离为独立服务,通过三级缓存架构,实现了启动速度翻倍和吞吐量大幅提升。
vLLM Blog · 2026年5月18日
vLLM与Novita AI合作推出PegaFlow,将KV缓存从推理进程中剥离为独立服务,通过三级缓存架构,实现了启动速度翻倍和吞吐量大幅提升。
ServiceNow AI团队在将强化学习训练从vLLM V0迁移到V1时,发现推理引擎的微小差异会导致训练崩溃,通过修复四个关键后端问题恢复了训练稳定性。
vLLM 团队实测发现,FP8 KV-cache 量化在特定条件下能大幅降低显存占用和解码成本,但在某些模型和场景下存在严重精度和性能问题,需谨慎使用。