TurboQuant 深度评测:当 KV-cache 压得太狠,模型还扛得住吗?
vLLM 团队对 TurboQuant 进行了大规模基准测试,发现其极低比特压缩虽能节省显存,但会显著牺牲推理速度和准确性,而 FP8 量化仍是当前最佳平衡点。
vLLM Blog · 2026年5月11日
vLLM 团队对 TurboQuant 进行了大规模基准测试,发现其极低比特压缩虽能节省显存,但会显著牺牲推理速度和准确性,而 FP8 量化仍是当前最佳平衡点。
vLLM 团队实测发现,FP8 KV-cache 量化在特定条件下能大幅降低显存占用和解码成本,但在某些模型和场景下存在严重精度和性能问题,需谨慎使用。