当本地小模型画鹈鹕赢了云端巨兽：一个荒诞测试揭示的AI新现实

原文: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7，发现小模型在创意SVG生成上意外胜出，揭示了开源模型在特定任务上的惊人潜力。

大语言模型开源模型模型评测开发者工具创意生成

核心要点

Simon Willison 的‘鹈鹕骑自行车’是一个流行但非正式的AI模型视觉理解与生成能力测试。
在本地 MacBook 上运行的、仅20.9GB的量化版 Qwen3.6-35B-A3B 模型，在生成鹈鹕骑自行车的SVG图像上，表现优于 Anthropic 最新的云端大模型 Claude Opus 4.7。
在后续的‘火烈鸟骑独轮车’测试中，Qwen 模型再次展现了更强的创意和细节（如添加墨镜、领结），而 Opus 的输出则相对呆板。
这一结果挑战了‘模型越大、云端越强’的固有认知，凸显了开源、可本地化部署的模型在特定创意任务上的竞争力。

深度解读

起因：一个“不正经”测试为何再次引发关注？

Simon Willison 的“鹈鹕骑自行车”测试在AI圈内已成为一个梗，它用一个看似简单却考验空间理解和细节生成能力的SVG任务，来快速检验模型的“常识”和创意。今天，他同时拿到了阿里最新开源的 Qwen3.6-35B-A3B 模型和 Anthropic 旗舰模型 Claude Opus 4.7 的输出。结果出人意料：在他的 MacBook Pro M5 上，通过 LM Studio 本地运行的、体积仅 20.9GB 的量化版 Qwen 模型，画出的鹈鹕自行车结构正确、天空有云、鹈鹕的喉囊特征明显，甚至还带点蠢萌的注释。而 Opus 4.7 生成的图像，自行车架形状完全错误，天空没有云，鹈鹕的喉囊也不够突出。即便 Opus 开启了“最大思考”模式，第二次尝试依然败北。这立刻引出了一个尖锐的问题：一个可以塞进你笔记本电脑的开源模型，凭什么在创意任务上打败了云端最顶尖的闭源模型之一？

拆解：这不是模型大小的竞赛，而是任务适配的胜利

首先，我们需要破除一个迷思：AI模型的能力并非简单的“参数规模越大越好”。Claude Opus 4.7 无疑是一个在复杂推理、长文本理解和指令遵循上极为强大的通用模型。但“鹈鹕骑自行车”测试，本质上是一个高度特化的视觉概念到结构化图形（SVG）的生成任务。它不需要模型拥有渊博的世界知识或进行多步逻辑推理，而是需要模型：1）准确理解“鹈鹕”、“自行车”等视觉概念的典型特征；2）将这些特征转化为 SVG 代码中的路径、形状和属性。Qwen3.6-35B-A3B 虽然总参数量（35B）远小于 Opus（推测为数千亿级），但其采用了 MoE（混合专家）架构，激活参数仅 3B。这意味着在推理时，它更像一个高效的“专项小组”，而非一个需要协调庞大内部系统的“巨型委员会”。在“鹈鹕”和后续“火烈骑独轮车”这类具体、有明确视觉范式的任务上，这个“专项小组”可能因为训练数据更聚焦、架构更高效，反而产出了更稳定、更具创意的结果。Opus 的失误，恰恰暴露了超大通用模型在应对某些“小”任务时可能存在的“钝感”。

趋势洞察：开源模型正在“定义”自己的优势战场

这件事揭示了一个更深层的趋势：AI的竞争正在从“参数霸权”转向“场景效能”。过去，我们默认最强大的AI一定在云端，由巨头垄断。但 Qwen3.6 这样的模型表明，开源社区通过架构创新（如MoE）和精细的量化技术，已经能让一个性能足够好、且能保护数据隐私的模型，在普通用户的消费级硬件上流畅运行。当这个本地模型在某个具体任务（如生成特定风格的SVG、编写特定格式的代码、处理本地文档）上表现得比云端巨头更好或更可靠时，用户和开发者的选择逻辑就会改变。云端模型提供的是“全能但通用”的能力，而本地/开源模型可以追求“专精且可控”的体验。未来，我们可能会看到更多“小而美”的模型，在细分领域击败“大而全”的巨头，就像专业单反相机的某个功能被手机摄像头超越一样。

实用价值与反常识角度

对于开发者和产品构建者而言，这个案例的实用价值在于：不要盲目迷信最大的模型。在你的产品中，如果某个核心功能（比如内容审核、特定格式生成、简单问答）是高度重复和定义明确的，那么尝试用一个更小、更快、可本地部署的开源模型来替代昂贵的云端API调用，可能在成本、延迟和隐私上获得巨大收益。你需要像Simon一样，为自己产品中的关键任务设计一个“鹈鹕测试”，去实际评估不同模型在“你的场景”下的真实表现。

一个大多数人可能没注意到的反常识角度是：模型“笨”一点有时反而是优势。像 Opus 这样的超大模型，经过了极其复杂的对齐和安全训练，其内部可能形成了某种“思维定势”，在生成一些看似荒诞或天马行空的内容时（比如给鹈鹕画上蠢萌的喉囊），反而会因为“过度思考”而趋于保守和正确，丢失了那种 raw 的创意。而较小的模型，约束更少，有时能产出更有趣、更出人意料的结果。这提示我们，在评估模型时，除了准确性，“创意熵值”或“意外性”也可能成为一个新的重要维度。

原文地址: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读