模型量化 — 标签

vLLM 首日接入 TML Inkling：千亿参数多模态模型的推理实战与性能优化

vLLM 首日支持 TML Inkling 模型，在 4 张 GB200 上实现 380 tok/s 推理速度，完整支持 1M 上下文、多模态输入及多项架构优化。

vLLM Blog · 2026年7月15日