vLLM 推出 DFlash 算法:单次前向传播生成草稿,让推测解码更快更省 vLLM 的推测解码训练框架 Speculators v0.5.0 引入了 DFlash 算法,它通过单次前向传播生成草稿令牌,显著降低了推理延迟,并统一了在线与离线训练流程。 vLLM Blog ·