模型越新，工具越瞎？Claude反向优化的警示

原文: Better Models: Worse Tools

最新Claude模型在调用第三方编辑工具时频繁出错，可能因Anthropic针对自家工具过度训练，导致通用工具调用能力退化，揭示AI训练中的平台锁定风险。

ai-agent 大语言模型工具调用开发者工具平台锁定编码智能体

核心要点

Armin发现新Claude模型（Opus 4.8、Sonnet 5）在调用Pi的自定义编辑工具时，无故添加虚构字段，而旧模型不会
可能的原因是Anthropic针对Claude Code内置编辑工具进行了强化学习训练，使模型对特定工具schema形成过拟合
这导致第三方编码工具（如Pi）的用户体验受损，可能倒逼开发者适配模型特化的工具接口
现象揭示了AI领域一个深层矛盾：模型改进可能以牺牲通用性为代价，形成隐性的平台锁定

深度解读

起因：一个违反直觉的发现

Simon Willison 分享了 Armin Ronacher 的观察：他在开发 AI 编码助手 Pi 时，发现了一个诡异的现象——最新的 Claude 模型（Opus 4.8 和 Sonnet 5）在调用 Pi 的编辑工具时，会凭空捏造一些不存在的字段，导致工具调用失败。而老模型甚至小模型 Haiku 反而不会犯这种错误。

这太反直觉了：模型不是越新越强吗？怎么在特定工具上反而退步了？

拆解：为什么“更好”的模型却成了“更糟”的工具使用者？

我们先理解背景。AI 模型通过“工具调用”（tool call）与外部系统交互：开发者为模型定义好工具的参数 schema（比如编辑工具需要 path、old_text、new_text 等字段），模型生成符合 schema 的 JSON 来执行操作。以前，模型的工具调用能力是通用的——你给它什么工具描述，它就乖乖生成对应的参数。

但 Armin 发现，新 Claude 模型会额外添加诸如 explanation、reasoning 等字段，这些字段 Pi 的工具 schema 里根本没有。模型仿佛进入了一种“自动驾驶”状态，用自己习惯的方式吐 JSON，而不看当前工具的“说明书”。

Armin 的推测很合理：Anthropic 为了提升 Claude Code 这个自家产品的体验，可能通过强化学习（RL）等手段，让模型专门学会了更好地使用 Claude Code 内置的编辑工具（那个工具有自己专有的字段，比如 search 和 replace）。于是，当模型遇到另一个叫“edit”的工具时，它下意识带入了在 Claude Code 训练中学会的“肌肉记忆”，哪怕 schema 不同。你可以理解为，模型被过度“微调”到了一个特定工具的方言上，普通话反而说不利索了。

趋势洞察：这不仅仅是技术 bug，而是平台锁定的征兆

这件事揭示了一个更大的趋势：AI 模型正在从通用智能体走向“平台定制化”。类似历史曾在上演：微软的 IE 浏览器曾经因为深度绑定 Windows 而让大量网站只为 IE 优化，导致其他浏览器渲染异常。如今，AI 模型供应商有强烈的动机让自己的模型在自己的平台上表现最好——通过训练、数据、工具定制形成体验护城河。

对开发者来说，这意味着你可能无法随意切换模型。如果你为 Claude 优化了工具描述，换成 Gemini 可能表现不佳，反之亦然。甚至像 Pi 这样的工具，可能要考虑为不同模型提供多套编辑工具定义，或者检测模型后动态切换。这是额外的维护负担，也削弱了“模型即插即用”的理想。

更深一层看，工具调用能力的退化暴露出当前 AI 训练的一个困境：当我们通过强化学习让模型在某项具体任务上做到极致时，很可能会牺牲它的泛化能力（generalization）。强化学习是一种“奖励驱动”的优化，模型会学会那些能获得高奖励的行为模式，但如果奖励信号过于集中在自家的工具和格式上，模型就会丧失对“任意 schema”的尊重。这就像一名学生被反复训练解一元二次方程，遇到二元一次方程也强行用配方法去套，结果步骤全错。

实用价值：开发者现在可以怎么想、怎么做？

1. 警惕“新模型总是更好”的假设 不要盲目追新。在你的实际场景中做好回归测试，特别是工具调用、代码生成等依赖 schema 一致性的地方。新模型可能在某些 benchmark 上刷分，但在你的特定工作流上未必。

2. 考虑工具层的模型适配 一个务实的做法是为每个主流模型家族编写略有差异的工具 schema，或在系统提示中加入“你必须严格遵守工具定义，不要添加额外字段”的指令（虽然对强化训练过的模型，效果可能有限）。更长远看，也许会出现类似“工具调用中间层”的东西，负责把统一工具调用翻译成不同模型偏好的格式。

3. 关注工具调用的标准化 OpenAI 的函数调用格式已经成为事实标准，但各家的微调差异正在侵蚀它。未来可能需要社区推动更严格的 schema 遵守基准，或模型提供商公开他们的工具训练细节，让开发者知道什么时候可以信任。

反常识/意外：为什么旧模型反而更“靠谱”？

很多人觉得模型升级一定是全方位提升，但这件事情告诉我们：特定能力的退化可能藏在基准测试的盲区里。旧模型在没有专门工具训练的情况下，反而更忠实地服从用户给出的 schema，因为它没有“方言”可以依赖。新模型因为“见过太多自家套路”，反而容易越俎代庖。这和人类专家有时会在简单任务上犯错如出一辙——自动化思维取代了仔细阅读。

最后，这个事件又一次证明，AI 领域没有银弹。进步总是伴随着新的权衡，而我们能做的就是保持清醒，不迷信任何单一指标，始终在自己的战场上验证。

原文地址: Better Models: Worse Tools

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读