你的AI代理总在换模型？vLLM发现79%的切换根本不该发生

原文: Session-Aware Agentic Routing: Continuity-Aware Model Selection for Long-Horizon LLM Agents

vLLM Semantic Router推出SAAR机制，证明长程AI代理中79%的模型切换会破坏会话连续性，安全路由需要"记忆"而非只看单条消息。

大语言模型推理优化 AI代理模型路由 vLLM 基础设施

核心要点

单条消息路由在代理场景中失效：'continue''fix it'等短指令脱离会话轨迹毫无意义
SAAR引入路由器级会话记忆，识别工具循环、非可移植状态等'硬锁定'场景
前缀缓存感知定价：切换模型的成本不只是token费用，还包括热缓存失效
21600次确定性测试验证：减少79.29%切换，消除3836次不安全切换，降本78.71%
从'选哪个模型'到'现在能不能换'：路由问题的范式升级

深度解读

你以为路由是个简单问题，其实它正在重新定义自己

在AI基础设施的叙事里，"路由"从来不是主角。它躲在负载均衡后面，躲在模型网关里面，像个尽职的交通警察：看看这条消息长什么样，把它分到合适的模型去。便宜的小模型处理简单问题，昂贵的大模型留给复杂任务——这套逻辑听起来天经地义，直到agent出现。

vLLM Semantic Router团队这篇博客的核心发现，可以用一句话概括：单条消息的最优决策，往往是整个会话的最优灾难。

从"这条消息该去哪"到"这个会话能不能动"

想象一个编程agent的典型工作流：用户说"重构这个模块并跑测试"，模型生成工具调用，工具返回结果，用户补一句"修复失败的那个case"，然后可能idle几小时后回来发一个"继续"。

传统prompt router看到的是五段独立的文本。它可能觉得"工具返回结果"那段很短，扔给小模型划算；看到"继续"两个字，重新走一遍选型逻辑；甚至因为当前消息短，就放弃一个已经预热了十几轮的前缀缓存，把请求转给另一个后端。

每一种"优化"都是灾难。工具结果发给没发起调用的模型，continuation ID指向不存在的物理后端，热缓存被 cold start 取代——这些不是bug，是架构层面的认知盲区。

SAAR的解法很直接：让路由器拥有会话记忆。 不是把记忆丢给模型本身，而是路由器自己维护session state。它要知道这个会话现在卡在工具循环里，还是卡在非可移植的provider状态里，或者前缀缓存的"沉没成本"已经高到不值得切换。

一个反直觉的成本公式

大多数人算模型切换成本，只看token价格差。SAAR团队引入了一个更系统的视角：prefix-cache-aware switch pricing。前缀缓存不是锦上添花，在长程agent里它是命根子。一个跑了20轮的coding session，前19轮的KV cache就是第20轮"fix it"能秒回的前提。切换模型意味着这一切归零，而传统路由完全看不到这笔账。

测试数据很硬：21600轮确定性测试，切换减少79.29%，3836次不安全切换被拦截，估算的物理模型成本降了78.71%。更关键的是2896次真实AMD ROCm请求，会话连续性零违规。这不是实验室玩具，是生产环境的硬指标。

这揭示了一个深层趋势：基础设施正在"agent化"

SAAR的野心不止于一个功能。它标志着AI基础设施的设计单元正在从"请求"（request）转向"会话"（session）。这个转变和当年从"进程"到"线程"、从"无状态HTTP"到"WebSocket长连接"一样根本。

当agent成为主要交互形态，整个栈都要重新思考：负载均衡器要懂session affinity，缓存层要懂trajectory locality，甚至计费模型可能要从"按token"转向"按session时长"。vLLM Semantic Router从prompt routing到session routing的演进，是这个大趋势的缩影。

对你意味着什么

如果你在做agent网关、模型调度或者任何多模型编排系统，现在就该问自己三个问题：

第一，你的路由决策有没有session上下文？还是每次都在"猜"这条消息的意图？

第二，你有没有把"不能切换"当作一类显式状态来管理，而不是靠事后报错？

第三，你的成本模型里，有没有计入缓存失效和状态迁移的隐性代价？

SAAR不是唯一答案，但它定义了问题的新边界。未来半年，我们会看到更多"session-aware"的基础设施组件出现——这不是跟风，是agent时代的基础设施必然。

最后一点意外

这篇博客最容易被忽略的细节：作者列表里有AMD，且测试大量基于ROCm。这意味着session-aware routing不只是vLLM的社区实验，而是芯片厂商也在押注的方向。当AMD开始关心"agent会话怎么在GPU集群里流动"，这件事的产业信号已经足够明确了。

原文地址: Session-Aware Agentic Routing: Continuity-Aware Model Selection for Long-Horizon LLM Agents

分析由 BitByAI 生成 · 阅读原文

原文来自 vLLM Blog · 由 BitByAI 自动解读