FP8量化拯救长上下文推理:vLLM如何用一半内存跑出双倍吞吐? vLLM通过FP8量化KV缓存,在保证精度的前提下将长上下文推理的内存占用减半、吞吐量翻倍,但需注意特定场景的性能陷阱。 vLLM Blog ·