← 返回首页

标签: 量化技术 (2 篇)

TurboQuant 深度评测：当 KV-cache 压缩遇上残酷的现实检验

vLLM 团队对 TurboQuant 进行了全面基准测试，发现其在多数场景下不如 FP8 量化，仅在极端内存受限的边缘部署中可能有价值。

vLLM Blog ·

FP8量化拯救长上下文推理：vLLM如何用一半内存跑出双倍吞吐？

vLLM通过FP8量化KV缓存，在保证精度的前提下将长上下文推理的内存占用减半、吞吐量翻倍，但需注意特定场景的性能陷阱。

vLLM Blog ·