vLLM与Novita AI联手:PegaFlow如何让大模型推理的“记忆”独立存活? vLLM与Novita AI合作推出PegaFlow,将KV缓存从推理进程中剥离为独立服务,通过三级缓存架构,实现了启动速度翻倍和吞吐量大幅提升。 vLLM Blog · 2026年5月18日