当本地小模型画鹈鹕赢了云端巨兽:一个荒诞测试揭示的AI新现实
原文: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7
Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7,发现小模型在创意SVG生成上意外胜出,揭示了开源模型在特定任务上的惊人潜力。
核心要点
- Simon Willison 的‘鹈鹕骑自行车’是一个流行但非正式的AI模型视觉理解与生成能力测试。
- 在本地 MacBook 上运行的、仅20.9GB的量化版 Qwen3.6-35B-A3B 模型,在生成鹈鹕骑自行车的SVG图像上,表现优于 Anthropic 最新的云端大模型 Claude Opus 4.7。
- 在后续的‘火烈鸟骑独轮车’测试中,Qwen 模型再次展现了更强的创意和细节(如添加墨镜、领结),而 Opus 的输出则相对呆板。
- 这一结果挑战了‘模型越大、云端越强’的固有认知,凸显了开源、可本地化部署的模型在特定创意任务上的竞争力。
深度解读
起因:一个“不正经”测试为何再次引发关注?
Simon Willison 的“鹈鹕骑自行车”测试在AI圈内已成为一个梗,它用一个看似简单却考验空间理解和细节生成能力的SVG任务,来快速检验模型的“常识”和创意。今天,他同时拿到了阿里最新开源的 Qwen3.6-35B-A3B 模型和 Anthropic 旗舰模型 Claude Opus 4.7 的输出。结果出人意料:在他的 MacBook Pro M5 上,通过 LM Studio 本地运行的、体积仅 20.9GB 的量化版 Qwen 模型,画出的鹈鹕自行车结构正确、天空有云、鹈鹕的喉囊特征明显,甚至还带点蠢萌的注释。而 Opus 4.7 生成的图像,自行车架形状完全错误,天空没有云,鹈鹕的喉囊也不够突出。即便 Opus 开启了“最大思考”模式,第二次尝试依然败北。这立刻引出了一个尖锐的问题:一个可以塞进你笔记本电脑的开源模型,凭什么在创意任务上打败了云端最顶尖的闭源模型之一?
拆解:这不是模型大小的竞赛,而是任务适配的胜利
首先,我们需要破除一个迷思:AI模型的能力并非简单的“参数规模越大越好”。Claude Opus 4.7 无疑是一个在复杂推理、长文本理解和指令遵循上极为强大的通用模型。但“鹈鹕骑自行车”测试,本质上是一个高度特化的视觉概念到结构化图形(SVG)的生成任务。它不需要模型拥有渊博的世界知识或进行多步逻辑推理,而是需要模型:1)准确理解“鹈鹕”、“自行车”等视觉概念的典型特征;2)将这些特征转化为 SVG 代码中的路径、形状和属性。Qwen3.6-35B-A3B 虽然总参数量(35B)远小于 Opus(推测为数千亿级),但其采用了 MoE(混合专家)架构,激活参数仅 3B。这意味着在推理时,它更像一个高效的“专项小组”,而非一个需要协调庞大内部系统的“巨型委员会”。在“鹈鹕”和后续“火烈骑独轮车”这类具体、有明确视觉范式的任务上,这个“专项小组”可能因为训练数据更聚焦、架构更高效,反而产出了更稳定、更具创意的结果。Opus 的失误,恰恰暴露了超大通用模型在应对某些“小”任务时可能存在的“钝感”。
趋势洞察:开源模型正在“定义”自己的优势战场
这件事揭示了一个更深层的趋势:AI的竞争正在从“参数霸权”转向“场景效能”。过去,我们默认最强大的AI一定在云端,由巨头垄断。但 Qwen3.6 这样的模型表明,开源社区通过架构创新(如MoE)和精细的量化技术,已经能让一个性能足够好、且能保护数据隐私的模型,在普通用户的消费级硬件上流畅运行。当这个本地模型在某个具体任务(如生成特定风格的SVG、编写特定格式的代码、处理本地文档)上表现得比云端巨头更好或更可靠时,用户和开发者的选择逻辑就会改变。云端模型提供的是“全能但通用”的能力,而本地/开源模型可以追求“专精且可控”的体验。未来,我们可能会看到更多“小而美”的模型,在细分领域击败“大而全”的巨头,就像专业单反相机的某个功能被手机摄像头超越一样。
实用价值与反常识角度
对于开发者和产品构建者而言,这个案例的实用价值在于:不要盲目迷信最大的模型。在你的产品中,如果某个核心功能(比如内容审核、特定格式生成、简单问答)是高度重复和定义明确的,那么尝试用一个更小、更快、可本地部署的开源模型来替代昂贵的云端API调用,可能在成本、延迟和隐私上获得巨大收益。你需要像Simon一样,为自己产品中的关键任务设计一个“鹈鹕测试”,去实际评估不同模型在“你的场景”下的真实表现。
一个大多数人可能没注意到的反常识角度是:模型“笨”一点有时反而是优势。像 Opus 这样的超大模型,经过了极其复杂的对齐和安全训练,其内部可能形成了某种“思维定势”,在生成一些看似荒诞或天马行空的内容时(比如给鹈鹕画上蠢萌的喉囊),反而会因为“过度思考”而趋于保守和正确,丢失了那种 raw 的创意。而较小的模型,约束更少,有时能产出更有趣、更出人意料的结果。这提示我们,在评估模型时,除了准确性,“创意熵值”或“意外性”也可能成为一个新的重要维度。
原文地址: Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7