← 返回首页

开源模型迈过Agent可用性门槛:成本降20倍,性能追平闭源巨头

原文: Open Models have crossed a threshold

LangChain Blog Agent框架 入门 影响力: 8/10

LangChain评测显示,GLM-5和MiniMax M2.7等开源模型在文件操作、工具调用等核心Agent任务上已追平闭源前沿模型,但成本仅为后者的1/10至1/20,延迟更低。

核心要点

  • 开源模型(GLM-5、MiniMax M2.7)在核心Agent任务上已与闭源前沿模型性能相当
  • 成本优势巨大:MiniMax M2.7的输出成本仅为Claude Opus 4.6的1/20,年费差可达8.7万美元
  • 开源模型延迟更低(如GLM-5平均0.65秒 vs Claude Opus 4.6的2.56秒),对交互式产品至关重要
  • LangChain的Deep Agents评测框架从正确性、解决率、步骤比和工具调用比四个维度评估模型Agent能力

深度解读

你可能觉得,最聪明的AI一定得用最贵的闭源模型。但LangChain最新的评测结果告诉我们:在构建AI Agent这件事上,游戏规则已经变了。

起因很简单:开发者部署Agent时面临两大现实约束——成本和延迟。闭源前沿模型虽然强大,但价格高昂(如Claude Opus 4.6输出每百万token要25美元),且响应速度较慢。当你的应用每天输出上千万token时,成本差异可达每年8.7万美元。而用户对交互式产品的响应时间容忍度很低,2秒以上的延迟常常难以接受。

LangChain用他们专为评估Agent能力设计的Deep Agents框架,对多个开源模型进行了测试。他们关注的不是模型有多“聪明”,而是它能否可靠地完成构建Agent所必需的基础任务:文件操作、工具调用、遵循结构化指令。这些是决定一个模型能否用于Agent框架的“准入门槛”。

测试结果令人振奋:GLM-5和MiniMax M2.7在这些核心任务上的正确性得分(0.64和0.57)已接近闭源模型。更关键的是,它们在效率上表现优异——步骤比和工具调用比都接近1.0,意味着它们能用预期的、经济的方式完成任务,不会“绕远路”或浪费不必要的调用。而成本呢?MiniMax M2.7的输出成本仅为每百万token 1.2美元,是Claude Opus 4.6的二十分之一。延迟方面,GLM-5在Baseten上平均仅0.65秒,不到Claude Opus 4.6的三分之一。

这揭示了一个深层趋势:开源模型正在从“能用”迈向“好用且经济”。过去,开源模型常被视为预算不足时的妥协选择,或在特定任务上表现不稳定。但现在,在Agent这个对可靠性和效率要求极高的场景下,它们已经跨过了实用性的门槛。这意味着,对于绝大多数需要部署Agent的生产环境——无论是客服机器人、数据分析助手还是自动化工作流——开发者完全可以优先考虑开源方案,将闭源模型留给那些真正需要其顶尖推理能力的少数复杂任务。

趋势一:模型选择策略从“一个模型包打天下”转向“分层路由”。聪明的架构会根据任务复杂度动态分配:简单、高频的任务用低成本开源模型,复杂、关键的任务才调用闭源模型。这能将整体成本降低一个数量级。

趋势二:推理基础设施成为关键胜负手。开源模型能跑出低延迟,离不开Groq、Fireworks、Baseten这些专门优化过的推理提供商。这意味着,未来模型能力的一部分将体现在其所在的推理生态上,而不仅仅是原始权重。

对你的实用价值:如果你正在开发AI Agent,现在就应该把GLM-5或MiniMax M2.7加入你的技术选型测试清单。用LangChain的评测维度(正确性、解决率、步骤比)去验证它们在你的具体任务上的表现。很可能你会发现,对于80%的常规操作,这些开源模型已经足够好,而省下的成本和提升的响应速度,会让你的产品在用户体验和商业可行性上获得巨大优势。别再默认选择最贵的模型了——是时候重新评估你的AI成本结构了。


原文地址: Open Models have crossed a threshold

BitByAI — 由 AI 驱动、AI 进化的 AI 资讯站