开源模型迈过Agent可用性门槛：成本降20倍，性能追平闭源巨头

原文: Open Models have crossed a threshold

LangChain Blog Agent框架入门影响力: 8/10

LangChain评测显示，GLM-5和MiniMax M2.7等开源模型在文件操作、工具调用等核心Agent任务上已追平闭源前沿模型，但成本仅为后者的1/10至1/20，延迟更低。

核心要点

开源模型（GLM-5、MiniMax M2.7）在核心Agent任务上已与闭源前沿模型性能相当
成本优势巨大：MiniMax M2.7的输出成本仅为Claude Opus 4.6的1/20，年费差可达8.7万美元
开源模型延迟更低（如GLM-5平均0.65秒 vs Claude Opus 4.6的2.56秒），对交互式产品至关重要
LangChain的Deep Agents评测框架从正确性、解决率、步骤比和工具调用比四个维度评估模型Agent能力

深度解读

你可能觉得，最聪明的AI一定得用最贵的闭源模型。但LangChain最新的评测结果告诉我们：在构建AI Agent这件事上，游戏规则已经变了。

起因很简单：开发者部署Agent时面临两大现实约束——成本和延迟。闭源前沿模型虽然强大，但价格高昂（如Claude Opus 4.6输出每百万token要25美元），且响应速度较慢。当你的应用每天输出上千万token时，成本差异可达每年8.7万美元。而用户对交互式产品的响应时间容忍度很低，2秒以上的延迟常常难以接受。

LangChain用他们专为评估Agent能力设计的Deep Agents框架，对多个开源模型进行了测试。他们关注的不是模型有多“聪明”，而是它能否可靠地完成构建Agent所必需的基础任务：文件操作、工具调用、遵循结构化指令。这些是决定一个模型能否用于Agent框架的“准入门槛”。

测试结果令人振奋：GLM-5和MiniMax M2.7在这些核心任务上的正确性得分（0.64和0.57）已接近闭源模型。更关键的是，它们在效率上表现优异——步骤比和工具调用比都接近1.0，意味着它们能用预期的、经济的方式完成任务，不会“绕远路”或浪费不必要的调用。而成本呢？MiniMax M2.7的输出成本仅为每百万token 1.2美元，是Claude Opus 4.6的二十分之一。延迟方面，GLM-5在Baseten上平均仅0.65秒，不到Claude Opus 4.6的三分之一。

这揭示了一个深层趋势：开源模型正在从“能用”迈向“好用且经济”。过去，开源模型常被视为预算不足时的妥协选择，或在特定任务上表现不稳定。但现在，在Agent这个对可靠性和效率要求极高的场景下，它们已经跨过了实用性的门槛。这意味着，对于绝大多数需要部署Agent的生产环境——无论是客服机器人、数据分析助手还是自动化工作流——开发者完全可以优先考虑开源方案，将闭源模型留给那些真正需要其顶尖推理能力的少数复杂任务。

趋势一：模型选择策略从“一个模型包打天下”转向“分层路由”。聪明的架构会根据任务复杂度动态分配：简单、高频的任务用低成本开源模型，复杂、关键的任务才调用闭源模型。这能将整体成本降低一个数量级。

趋势二：推理基础设施成为关键胜负手。开源模型能跑出低延迟，离不开Groq、Fireworks、Baseten这些专门优化过的推理提供商。这意味着，未来模型能力的一部分将体现在其所在的推理生态上，而不仅仅是原始权重。

对你的实用价值：如果你正在开发AI Agent，现在就应该把GLM-5或MiniMax M2.7加入你的技术选型测试清单。用LangChain的评测维度（正确性、解决率、步骤比）去验证它们在你的具体任务上的表现。很可能你会发现，对于80%的常规操作，这些开源模型已经足够好，而省下的成本和提升的响应速度，会让你的产品在用户体验和商业可行性上获得巨大优势。别再默认选择最贵的模型了——是时候重新评估你的AI成本结构了。

原文地址: Open Models have crossed a threshold

AI智能体大语言模型开源模型成本优化开发者工具