EAGLE 3.1:当投机解码不再“脆弱”,大模型推理加速的鲁棒性革命
EAGLE 3.1 通过引入 FC 归一化和 post-norm 设计,解决了投机解码在长上下文、不同聊天模板下的性能衰减问题,将长上下文场景的接受长度提升了一倍,显著增强了推理加速的鲁棒性和实用性。
vLLM Blog ·
EAGLE 3.1 通过引入 FC 归一化和 post-norm 设计,解决了投机解码在长上下文、不同聊天模板下的性能衰减问题,将长上下文场景的接受长度提升了一倍,显著增强了推理加速的鲁棒性和实用性。
Meta提出“索引即模型”新范式,将推荐系统所有检索功能整合进单一神经网络,实现吞吐量提升23.7倍和成本效率提升20.9倍。