vLLM与Novita AI联手:PegaFlow如何让大模型推理的“记忆”独立存活?
vLLM与Novita AI合作推出PegaFlow,将KV缓存从推理进程中剥离为独立服务,通过三级缓存架构,实现了启动速度翻倍和吞吐量大幅提升。
vLLM Blog · 2026年5月18日
vLLM与Novita AI合作推出PegaFlow,将KV缓存从推理进程中剥离为独立服务,通过三级缓存架构,实现了启动速度翻倍和吞吐量大幅提升。
开源推理引擎vLLM在多项前沿模型推理基准测试中击败所有闭源竞争对手,其核心在于针对不同模型瓶颈的深度内核融合优化。