TurboQuant 深度评测:当 KV-cache 压得太狠,模型还扛得住吗? vLLM 团队对 TurboQuant 进行了大规模基准测试,发现其极低比特压缩虽能节省显存,但会显著牺牲推理速度和准确性,而 FP8 量化仍是当前最佳平衡点。 vLLM Blog · 2026年5月11日