← 返回首页

五分钟看懂大模型六个月:一场由鹈鹕和自行车引发的军备竞赛

原文: The last six months in LLMs in five minutes

Simon Willison 行业观点 入门 影响力: 8/10

Simon Willison 用“鹈鹕骑自行车”测试,生动复盘了过去六个月大模型领域“最佳模型”王座在三大厂商间五次易主的激烈竞争,揭示了行业进入快速迭代的军备竞赛新阶段。

核心要点

  • 2025年11月是LLM发展的关键拐点,尤其在编程领域
  • “最佳模型”的称号在Anthropic、OpenAI和Google之间五次易主
  • 作者用“鹈鹕骑自行车”SVG生成作为模型能力的趣味压力测试
  • 模型能力的快速提升使得基准测试和“最佳”定义变得短暂易逝
  • 行业已进入以月甚至周为单位的快速迭代军备竞赛阶段

深度解读

起因:为什么这五分钟值得听?

在AI领域,信息过载是常态。当Simon Willison——这位以务实和洞察力著称的开发者兼博主——决定在PyCon US 2026上用五分钟总结过去六个月的大模型发展时,他实际上做了一件极具价值的事:为狂热的军备竞赛绘制了一张清晰的快照。这不仅仅是新闻摘要,而是一位资深观察者对行业脉搏的精准把握。他选择的时间窗口(2025年11月至今)恰好捕捉到了一个关键的“拐点”,使得这次分享成为理解当前AI格局的绝佳入口。

拆解:鹈鹕、自行车与王座更迭

Willison没有罗列枯燥的参数或跑分,而是延续了他著名的“鹈鹕骑自行车”测试。这个测试的精妙之处在于:鹈鹕和自行车都很难画,而且鹈鹕根本不可能骑自行车——这是一个荒谬的任务,确保没有AI厂商会专门针对它进行训练,因此能更纯粹地考验模型的泛化理解和生成能力。

通过展示不同模型(Claude Sonnet 4.5、GPT-5.1、Gemini 3等)生成的鹈鹕SVG,他生动地揭示了核心现象:“最佳模型”的宝座在短短六个月内,在Anthropic、OpenAI和Google三大巨头之间五次易主。这不再是某家公司的持续领先,而是你追我赶、轮流坐庄的激烈竞争。每一次王座更迭,都意味着模型在代码生成、逻辑推理或指令遵循等关键能力上取得了肉眼可见的进步。

趋势洞察:从“发布周期”到“军备竞赛”

这件事揭示了一个深层趋势:前沿大模型的竞争已从“研发突破”进入“工程化快速迭代”的军备竞赛阶段。过去,重大模型发布是以年为单位的大事件。而现在,竞争节奏被压缩到以月甚至以周为单位。2025年11月之所以成为“拐点”,正是因为这种高频的、针对性的模型更新(如OpenAI的Codex Max针对编程优化)成为常态。

这种竞赛的本质是:能力基准正在变得“短暂易逝”。今天让你惊叹的模型能力,可能下个月就被对手超越。这对开发者和企业的启示是:不要过度依附于某一个模型的“当前最强”标签,因为这个标签的保鲜期极短。行业的关注点正从“谁是第一”转向“谁能最快地将最新能力转化为稳定、可用的生产力”。

实用价值:开发者该如何应对?

首先,建立模型无关的抽象层比以往任何时候都更重要。你的应用架构应该能轻松切换底层模型,以便在新一轮能力升级时快速受益。其次,关注特定领域的进步。Willison特别指出编程是此次拐点的关键战场。如果你是开发者,应该深入体验各家最新的代码模型(如Claude Opus、GPT-5.1 Codex Max),它们可能已经能解决你半年前认为不可能的任务。最后,采用像“鹈鹕骑自行车”这样的趣味测试,可以帮助你和团队直观地、非技术性地理解不同模型的“风格”和能力边界,这比单纯看跑分更有体感。

反常识与意外

一个可能被忽略的角度是:这种高速竞争可能导致“最佳”定义的失效。当模型能力在伯仲之间快速交替时,“最佳”越来越取决于具体的任务、提示词甚至用户的主观偏好(Willison称之为“vibes”)。这意味着,对于大多数应用而言,追求绝对的“最强模型”可能是一个伪命题,稳定性、成本、速度以及与自身工作流的契合度,其重要性正在快速上升。这场竞赛没有永远的赢家,只有不断移动的终点线。


原文地址: The last six months in LLMs in five minutes

BitByAI — 由 AI 驱动、AI 进化的 AI 资讯站