← 返回首页

Claude Code翻车真相:为什么你的AI助手突然“失忆”了?

原文: An update on recent Claude Code quality reports

Simon Willison 行业观点 进阶 影响力: 7/10

过去两个月Claude Code质量下降的罪魁祸首并非模型退化,而是三个harness层bug,其中“会话状态清理”故障暴露了AI Agent工程中被忽视的复杂性。

核心要点

  • Anthropic官方确认:Claude Code近期质量下降源于三个harness(控制层)bug,而非模型本身能力退化
  • 最致命的bug是会话状态管理失误:本应在空闲1小时后清理旧思考以加速重连,却因代码错误在每次交互时重复清理,导致AI“健忘”
  • 这揭示了Agent工程的核心难点:围绕大模型的“脚手架”系统(上下文管理、状态维护、工具编排)比模型本身更容易引入难以察觉的系统性故障
  • 长时会话(long-lived session)是Agent产品的高频场景,但工程实现往往假设短期交互,这种错配是Agent可靠性的隐形杀手
  • 调试Agent系统需要区分“模型不确定性”与“工程确定性bug”,后者往往伪装成前者,导致错误归因

深度解读

过去两个月,Claude Code的用户社区里充斥着一种不安的抱怨:这个曾经的“编程神器”似乎变笨了,开始重复自己说过的话,忘记之前的上下文,给出质量明显下滑的建议。很多人怀疑是Anthropic偷偷更换了模型版本,或者Claude 3.7 Sonnet本身出现了退化。

真相出人意料:模型是无辜的,问题出在“马具”上。

Anthropic发布的事后分析揭示,三个独立的harness(控制层/ harness指驱动模型的那整套软件系统)bug才是罪魁祸首。其中最讽刺的一个bug完美诠释了现代AI工程的复杂性:工程团队为了优化性能,在3月26日上线了一个功能——当会话闲置超过1小时后,自动清理AI的“旧思考”以减少重新连接时的延迟。这听起来很合理,但代码里藏着魔鬼:清理逻辑被错误地设置成了每次对话都执行,而非仅执行一次。

结果就是,那些像Simon Willison这样习惯让Claude Code会话跑上几天甚至几周的重度用户(他承认自己有11个后台会话,还刚关闭了几十个),遭遇了一个诡异的体验:AI表现得像个健忘症患者,不断重复刚刚讨论过的内容,仿佛患上了数字版阿尔茨海默症。用户以为是模型变蠢了,实际上是系统的“记忆清除”程序在疯狂地按下删除键。

这揭示了一个被低估的趋势:Agent时代,工程复杂性正在从“模型层”向“编排层”转移。

我们习惯将AI产品的质量问题归因于大模型本身——参数不够、训练数据污染、对齐过度。但Claude Code这次事件表明,真正棘手的工程挑战往往藏在harness层:如何管理长达数天的上下文窗口?如何在工具调用失败时优雅降级?如何平衡状态持久化与内存占用?这些问题没有Transformer架构那么性感,但它们决定了Agent产品是否可用。

特别是长时会话(long-lived session)这个场景,暴露了当前Agent架构的深层假设冲突。产品设计者想象用户像使用ChatGPT那样每次开启新对话,但实际的高频用户行为更接近IDE——他们希望会话永远保持打开,随时恢复工作状态。当工程优化(清理闲置会话以节省资源)遇上真实用户行为(永不关闭的持久会话),就会产生这种隐蔽却致命的系统性故障。

对开发者的实用启示是什么?

如果你正在构建Agent系统,这件事提供了三个关键教训:

第一,建立“分层调试”思维。当你看到AI表现异常时,先别急着调整prompt或更换模型,先检查harness层:上下文真的传进去了吗?历史消息有没有被意外截断?工具返回的结果是否被错误解析?Claude Code的bug提醒我们,确定性代码的错误可以完美地伪装成模型的不确定性。

第二,警惕“状态管理”的边界情况。Agent系统的状态管理比传统软件复杂一个数量级,因为它涉及概率性输出的累积效应。任何清理、缓存、截断逻辑都需要考虑极端场景:如果用户一周后回来呢?如果会话有1000轮对话呢?如果中间经历了系统升级呢?

第三,监控需要覆盖“认知一致性”。传统的软件监控看的是错误率和延迟,但Agent需要额外的维度:上下文连贯性、重复率、知识衰减度。Anthropic花了两个月才确认并定位这个问题,说明现有的监控体系对这类“软性故障”并不敏感。

大多数人没注意到的角度:我们总在讨论“模型智能”的提升,但这次事件提醒我们——Agent产品的瓶颈已经从“不够聪明”转向“不够可靠”。在未来的AI工程领域,最稀缺的可能是那些既懂概率模型又懂确定性系统工程的“双语工程师”。毕竟,用户不会关心bug是在transformer层还是if-else层,他们只会觉得“AI又抽风了”。而这,恰恰是harness工程师的责任。


原文地址: An update on recent Claude Code quality reports

BitByAI — 由 AI 驱动、AI 进化的 AI 资讯站