你的AI代理总在换模型?vLLM发现79%的切换根本不该发生
原文: Session-Aware Agentic Routing: Continuity-Aware Model Selection for Long-Horizon LLM Agents
vLLM Semantic Router推出SAAR机制,证明长程AI代理中79%的模型切换会破坏会话连续性,安全路由需要"记忆"而非只看单条消息。
- 单条消息路由在代理场景中失效:'continue''fix it'等短指令脱离会话轨迹毫无意义
- SAAR引入路由器级会话记忆,识别工具循环、非可移植状态等'硬锁定'场景
- 前缀缓存感知定价:切换模型的成本不只是token费用,还包括热缓存失效
- 21600次确定性测试验证:减少79.29%切换,消除3836次不安全切换,降本78.71%
- 从'选哪个模型'到'现在能不能换':路由问题的范式升级
你以为路由是个简单问题,其实它正在重新定义自己
在AI基础设施的叙事里,"路由"从来不是主角。它躲在负载均衡后面,躲在模型网关里面,像个尽职的交通警察:看看这条消息长什么样,把它分到合适的模型去。便宜的小模型处理简单问题,昂贵的大模型留给复杂任务——这套逻辑听起来天经地义,直到agent出现。
vLLM Semantic Router团队这篇博客的核心发现,可以用一句话概括:单条消息的最优决策,往往是整个会话的最优灾难。
从"这条消息该去哪"到"这个会话能不能动"
想象一个编程agent的典型工作流:用户说"重构这个模块并跑测试",模型生成工具调用,工具返回结果,用户补一句"修复失败的那个case",然后可能idle几小时后回来发一个"继续"。
传统prompt router看到的是五段独立的文本。它可能觉得"工具返回结果"那段很短,扔给小模型划算;看到"继续"两个字,重新走一遍选型逻辑;甚至因为当前消息短,就放弃一个已经预热了十几轮的前缀缓存,把请求转给另一个后端。
每一种"优化"都是灾难。工具结果发给没发起调用的模型,continuation ID指向不存在的物理后端,热缓存被 cold start 取代——这些不是bug,是架构层面的认知盲区。
SAAR的解法很直接:让路由器拥有会话记忆。 不是把记忆丢给模型本身,而是路由器自己维护session state。它要知道这个会话现在卡在工具循环里,还是卡在非可移植的provider状态里,或者前缀缓存的"沉没成本"已经高到不值得切换。
一个反直觉的成本公式
大多数人算模型切换成本,只看token价格差。SAAR团队引入了一个更系统的视角:prefix-cache-aware switch pricing。前缀缓存不是锦上添花,在长程agent里它是命根子。一个跑了20轮的coding session,前19轮的KV cache就是第20轮"fix it"能秒回的前提。切换模型意味着这一切归零,而传统路由完全看不到这笔账。
测试数据很硬:21600轮确定性测试,切换减少79.29%,3836次不安全切换被拦截,估算的物理模型成本降了78.71%。更关键的是2896次真实AMD ROCm请求,会话连续性零违规。这不是实验室玩具,是生产环境的硬指标。
这揭示了一个深层趋势:基础设施正在"agent化"
SAAR的野心不止于一个功能。它标志着AI基础设施的设计单元正在从"请求"(request)转向"会话"(session)。这个转变和当年从"进程"到"线程"、从"无状态HTTP"到"WebSocket长连接"一样根本。
当agent成为主要交互形态,整个栈都要重新思考:负载均衡器要懂session affinity,缓存层要懂trajectory locality,甚至计费模型可能要从"按token"转向"按session时长"。vLLM Semantic Router从prompt routing到session routing的演进,是这个大趋势的缩影。
对你意味着什么
如果你在做agent网关、模型调度或者任何多模型编排系统,现在就该问自己三个问题:
第一,你的路由决策有没有session上下文?还是每次都在"猜"这条消息的意图?
第二,你有没有把"不能切换"当作一类显式状态来管理,而不是靠事后报错?
第三,你的成本模型里,有没有计入缓存失效和状态迁移的隐性代价?
SAAR不是唯一答案,但它定义了问题的新边界。未来半年,我们会看到更多"session-aware"的基础设施组件出现——这不是跟风,是agent时代的基础设施必然。
最后一点意外
这篇博客最容易被忽略的细节:作者列表里有AMD,且测试大量基于ROCm。这意味着session-aware routing不只是vLLM的社区实验,而是芯片厂商也在押注的方向。当AMD开始关心"agent会话怎么在GPU集群里流动",这件事的产业信号已经足够明确了。
原文地址: Session-Aware Agentic Routing: Continuity-Aware Model Selection for Long-Horizon LLM Agents
分析由 BitByAI 生成 · 阅读原文