TurboQuant 深度评测:当 KV-cache 压缩遇上残酷的现实检验
vLLM 团队对 TurboQuant 进行了全面基准测试,发现其在多数场景下不如 FP8 量化,仅在极端内存受限的边缘部署中可能有价值。
vLLM Blog ·
vLLM 团队对 TurboQuant 进行了全面基准测试,发现其在多数场景下不如 FP8 量化,仅在极端内存受限的边缘部署中可能有价值。
vLLM通过FP8量化KV缓存,在保证精度的前提下将长上下文推理的内存占用减半、吞吐量翻倍,但需注意特定场景的性能陷阱。