标签: 模型评测 (3 篇)

五分钟看懂大模型六个月：一场由鹈鹕和自行车引发的军备竞赛

Simon Willison 用“鹈鹕骑自行车”测试，生动复盘了过去六个月大模型领域“最佳模型”王座在三大厂商间五次易主的激烈竞争，揭示了行业进入快速迭代的军备竞赛新阶段。

Simon Willison · 2026年5月19日

Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7，发现小模型在创意SVG生成上意外胜出，揭示了开源模型在特定任务上的惊人潜力。

Simon Willison · 2026年4月17日

Anthropic发布Claude Opus 4.8，核心突破在于显著提升了Agent任务的可靠性、判断力和长时工作一致性，标志着AI从“能用”向“可托付”的实用化迈进。

Anthropic News ·