EAGLE 3.1:当投机解码不再“脆弱”,大模型推理加速的鲁棒性革命
EAGLE 3.1 通过引入 FC 归一化和 post-norm 设计,解决了投机解码在长上下文、不同聊天模板下的性能衰减问题,将长上下文场景的接受长度提升了一倍,显著增强了推理加速的鲁棒性和实用性。
vLLM Blog ·
EAGLE 3.1 通过引入 FC 归一化和 post-norm 设计,解决了投机解码在长上下文、不同聊天模板下的性能衰减问题,将长上下文场景的接受长度提升了一倍,显著增强了推理加速的鲁棒性和实用性。