模型越新,工具越瞎?Claude反向优化的警示
原文: Better Models: Worse Tools
最新Claude模型在调用第三方编辑工具时频繁出错,可能因Anthropic针对自家工具过度训练,导致通用工具调用能力退化,揭示AI训练中的平台锁定风险。
- Armin发现新Claude模型(Opus 4.8、Sonnet 5)在调用Pi的自定义编辑工具时,无故添加虚构字段,而旧模型不会
- 可能的原因是Anthropic针对Claude Code内置编辑工具进行了强化学习训练,使模型对特定工具schema形成过拟合
- 这导致第三方编码工具(如Pi)的用户体验受损,可能倒逼开发者适配模型特化的工具接口
- 现象揭示了AI领域一个深层矛盾:模型改进可能以牺牲通用性为代价,形成隐性的平台锁定
起因:一个违反直觉的发现
Simon Willison 分享了 Armin Ronacher 的观察:他在开发 AI 编码助手 Pi 时,发现了一个诡异的现象——最新的 Claude 模型(Opus 4.8 和 Sonnet 5)在调用 Pi 的编辑工具时,会凭空捏造一些不存在的字段,导致工具调用失败。而老模型甚至小模型 Haiku 反而不会犯这种错误。
这太反直觉了:模型不是越新越强吗?怎么在特定工具上反而退步了?
拆解:为什么“更好”的模型却成了“更糟”的工具使用者?
我们先理解背景。AI 模型通过“工具调用”(tool call)与外部系统交互:开发者为模型定义好工具的参数 schema(比如编辑工具需要 path、old_text、new_text 等字段),模型生成符合 schema 的 JSON 来执行操作。以前,模型的工具调用能力是通用的——你给它什么工具描述,它就乖乖生成对应的参数。
但 Armin 发现,新 Claude 模型会额外添加诸如 explanation、reasoning 等字段,这些字段 Pi 的工具 schema 里根本没有。模型仿佛进入了一种“自动驾驶”状态,用自己习惯的方式吐 JSON,而不看当前工具的“说明书”。
Armin 的推测很合理:Anthropic 为了提升 Claude Code 这个自家产品的体验,可能通过强化学习(RL)等手段,让模型专门学会了更好地使用 Claude Code 内置的编辑工具(那个工具有自己专有的字段,比如 search 和 replace)。于是,当模型遇到另一个叫“edit”的工具时,它下意识带入了在 Claude Code 训练中学会的“肌肉记忆”,哪怕 schema 不同。你可以理解为,模型被过度“微调”到了一个特定工具的方言上,普通话反而说不利索了。
趋势洞察:这不仅仅是技术 bug,而是平台锁定的征兆
这件事揭示了一个更大的趋势:AI 模型正在从通用智能体走向“平台定制化”。类似历史曾在上演:微软的 IE 浏览器曾经因为深度绑定 Windows 而让大量网站只为 IE 优化,导致其他浏览器渲染异常。如今,AI 模型供应商有强烈的动机让自己的模型在自己的平台上表现最好——通过训练、数据、工具定制形成体验护城河。
对开发者来说,这意味着你可能无法随意切换模型。如果你为 Claude 优化了工具描述,换成 Gemini 可能表现不佳,反之亦然。甚至像 Pi 这样的工具,可能要考虑为不同模型提供多套编辑工具定义,或者检测模型后动态切换。这是额外的维护负担,也削弱了“模型即插即用”的理想。
更深一层看,工具调用能力的退化暴露出当前 AI 训练的一个困境:当我们通过强化学习让模型在某项具体任务上做到极致时,很可能会牺牲它的泛化能力(generalization)。强化学习是一种“奖励驱动”的优化,模型会学会那些能获得高奖励的行为模式,但如果奖励信号过于集中在自家的工具和格式上,模型就会丧失对“任意 schema”的尊重。这就像一名学生被反复训练解一元二次方程,遇到二元一次方程也强行用配方法去套,结果步骤全错。
实用价值:开发者现在可以怎么想、怎么做?
1. 警惕“新模型总是更好”的假设 不要盲目追新。在你的实际场景中做好回归测试,特别是工具调用、代码生成等依赖 schema 一致性的地方。新模型可能在某些 benchmark 上刷分,但在你的特定工作流上未必。
2. 考虑工具层的模型适配 一个务实的做法是为每个主流模型家族编写略有差异的工具 schema,或在系统提示中加入“你必须严格遵守工具定义,不要添加额外字段”的指令(虽然对强化训练过的模型,效果可能有限)。更长远看,也许会出现类似“工具调用中间层”的东西,负责把统一工具调用翻译成不同模型偏好的格式。
3. 关注工具调用的标准化 OpenAI 的函数调用格式已经成为事实标准,但各家的微调差异正在侵蚀它。未来可能需要社区推动更严格的 schema 遵守基准,或模型提供商公开他们的工具训练细节,让开发者知道什么时候可以信任。
反常识/意外:为什么旧模型反而更“靠谱”?
很多人觉得模型升级一定是全方位提升,但这件事情告诉我们:特定能力的退化可能藏在基准测试的盲区里。旧模型在没有专门工具训练的情况下,反而更忠实地服从用户给出的 schema,因为它没有“方言”可以依赖。新模型因为“见过太多自家套路”,反而容易越俎代庖。这和人类专家有时会在简单任务上犯错如出一辙——自动化思维取代了仔细阅读。
最后,这个事件又一次证明,AI 领域没有银弹。进步总是伴随着新的权衡,而我们能做的就是保持清醒,不迷信任何单一指标,始终在自己的战场上验证。
分析由 BitByAI 生成 · 阅读原文