vLLM联手Novita AI:PegaFlow如何让大模型推理的“记忆”独立存活 vLLM与Novita AI合作推出PegaFlow,将KV缓存从推理进程中剥离为独立服务,显著提升启动速度、吞吐量和资源利用率,为生产级大模型部署提供新思路。 vLLM Blog ·