← 返回首页 — vLLM Blog — 进阶
工具链 · 深度解读 · IMPACT 7/10

你的AI代理总在换模型?vLLM发现79%的切换根本不该发生

原文: Session-Aware Agentic Routing: Continuity-Aware Model Selection for Long-Horizon LLM Agents

vLLM Semantic Router推出SAAR机制,证明长程AI代理中79%的模型切换会破坏会话连续性,安全路由需要"记忆"而非只看单条消息。

核心要点
  • 单条消息路由在代理场景中失效:'continue''fix it'等短指令脱离会话轨迹毫无意义
  • SAAR引入路由器级会话记忆,识别工具循环、非可移植状态等'硬锁定'场景
  • 前缀缓存感知定价:切换模型的成本不只是token费用,还包括热缓存失效
  • 21600次确定性测试验证:减少79.29%切换,消除3836次不安全切换,降本78.71%
  • 从'选哪个模型'到'现在能不能换':路由问题的范式升级
深度解读

你以为路由是个简单问题,其实它正在重新定义自己

在AI基础设施的叙事里,"路由"从来不是主角。它躲在负载均衡后面,躲在模型网关里面,像个尽职的交通警察:看看这条消息长什么样,把它分到合适的模型去。便宜的小模型处理简单问题,昂贵的大模型留给复杂任务——这套逻辑听起来天经地义,直到agent出现。

vLLM Semantic Router团队这篇博客的核心发现,可以用一句话概括:单条消息的最优决策,往往是整个会话的最优灾难。

从"这条消息该去哪"到"这个会话能不能动"

想象一个编程agent的典型工作流:用户说"重构这个模块并跑测试",模型生成工具调用,工具返回结果,用户补一句"修复失败的那个case",然后可能idle几小时后回来发一个"继续"。

传统prompt router看到的是五段独立的文本。它可能觉得"工具返回结果"那段很短,扔给小模型划算;看到"继续"两个字,重新走一遍选型逻辑;甚至因为当前消息短,就放弃一个已经预热了十几轮的前缀缓存,把请求转给另一个后端。

每一种"优化"都是灾难。工具结果发给没发起调用的模型,continuation ID指向不存在的物理后端,热缓存被 cold start 取代——这些不是bug,是架构层面的认知盲区。

SAAR的解法很直接:让路由器拥有会话记忆。 不是把记忆丢给模型本身,而是路由器自己维护session state。它要知道这个会话现在卡在工具循环里,还是卡在非可移植的provider状态里,或者前缀缓存的"沉没成本"已经高到不值得切换。

一个反直觉的成本公式

大多数人算模型切换成本,只看token价格差。SAAR团队引入了一个更系统的视角:prefix-cache-aware switch pricing。前缀缓存不是锦上添花,在长程agent里它是命根子。一个跑了20轮的coding session,前19轮的KV cache就是第20轮"fix it"能秒回的前提。切换模型意味着这一切归零,而传统路由完全看不到这笔账。

测试数据很硬:21600轮确定性测试,切换减少79.29%,3836次不安全切换被拦截,估算的物理模型成本降了78.71%。更关键的是2896次真实AMD ROCm请求,会话连续性零违规。这不是实验室玩具,是生产环境的硬指标。

这揭示了一个深层趋势:基础设施正在"agent化"

SAAR的野心不止于一个功能。它标志着AI基础设施的设计单元正在从"请求"(request)转向"会话"(session)。这个转变和当年从"进程"到"线程"、从"无状态HTTP"到"WebSocket长连接"一样根本。

当agent成为主要交互形态,整个栈都要重新思考:负载均衡器要懂session affinity,缓存层要懂trajectory locality,甚至计费模型可能要从"按token"转向"按session时长"。vLLM Semantic Router从prompt routing到session routing的演进,是这个大趋势的缩影。

对你意味着什么

如果你在做agent网关、模型调度或者任何多模型编排系统,现在就该问自己三个问题:

第一,你的路由决策有没有session上下文?还是每次都在"猜"这条消息的意图?

第二,你有没有把"不能切换"当作一类显式状态来管理,而不是靠事后报错?

第三,你的成本模型里,有没有计入缓存失效和状态迁移的隐性代价?

SAAR不是唯一答案,但它定义了问题的新边界。未来半年,我们会看到更多"session-aware"的基础设施组件出现——这不是跟风,是agent时代的基础设施必然。

最后一点意外

这篇博客最容易被忽略的细节:作者列表里有AMD,且测试大量基于ROCm。这意味着session-aware routing不只是vLLM的社区实验,而是芯片厂商也在押注的方向。当AMD开始关心"agent会话怎么在GPU集群里流动",这件事的产业信号已经足够明确了。


原文地址: Session-Aware Agentic Routing: Continuity-Aware Model Selection for Long-Horizon LLM Agents

分析由 BitByAI 生成 · 阅读原文

原文来自 vLLM Blog · 由 BitByAI 自动解读