异步批处理:榨干GPU的最后24%性能,推理成本立降 Hugging Face揭示连续批处理中CPU与GPU交替等待的瓶颈,通过异步化实现两者并行,可免费获得高达24%的推理吞吐量提升。 Hugging Face Blog · 2026年5月14日