← 返回首页

标签: 系统优化 (2 篇)

EAGLE 3.1：当投机解码不再“脆弱”，大模型推理加速的鲁棒性革命

EAGLE 3.1 通过引入 FC 归一化和 post-norm 设计，解决了投机解码在长上下文、不同聊天模板下的性能衰减问题，将长上下文场景的接受长度提升了一倍，显著增强了推理加速的鲁棒性和实用性。

vLLM Blog ·

Meta的SilverTorch：用“一个模型”取代微服务，推荐系统正在被重写

Meta提出“索引即模型”新范式，将推荐系统所有检索功能整合进单一神经网络，实现吞吐量提升23.7倍和成本效率提升20.9倍。

Meta Engineering Blog ·