五分钟看懂大模型六个月:一场由鹈鹕和自行车引发的军备竞赛
Simon Willison 用“鹈鹕骑自行车”测试,生动复盘了过去六个月大模型领域“最佳模型”王座在三大厂商间五次易主的激烈竞争,揭示了行业进入快速迭代的军备竞赛新阶段。
Simon Willison · 2026年5月19日
Simon Willison 用“鹈鹕骑自行车”测试,生动复盘了过去六个月大模型领域“最佳模型”王座在三大厂商间五次易主的激烈竞争,揭示了行业进入快速迭代的军备竞赛新阶段。
Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7,发现小模型在创意SVG生成上意外胜出,揭示了开源模型在特定任务上的惊人潜力。
Anthropic发布Claude Opus 4.8,核心突破在于显著提升了Agent任务的可靠性、判断力和长时工作一致性,标志着AI从“能用”向“可托付”的实用化迈进。