Claude Sonnet 5 的定价魔术:性能更优,但你的账单可能涨了30%
原文: What's new in Claude Sonnet 5
Sonnet 5 性能接近 Opus 4.8 且标价不变,但新分词器使英文 token 膨胀 30%,且采样参数被取消、思考模式默认开启,开发者需仔细算账。
- 温度、top_p 等采样参数不再支持,模型输出随机性由系统内部管理,开发者失去精细控制。
- 新分词器让英文输入 token 量增加约 30%,标价不变导致实际成本上涨,但中文 token 数几乎不变。
- adaptive thinking 默认开启,会消耗昂贵的输出 token,简单任务记得手动关闭以省钱。
- 性能红利真实存在:接近 Opus 4.8 的能力,对于复杂任务性价比依然很高,但需根据实际用量模式评估。
每次大模型更新,Simon Willison 的第一反应不是看新闻通稿,而是直奔开发者文档里那篇“What’s new”。这次 Claude Sonnet 5 发布,他在文档里翻出几个不太显眼却可能刺痛钱包的变化。表面看,Anthropic 交了一份不错的答卷:性能接近 Opus 4.8,价格却和 Sonnet 4.6 持平,还给了限时折扣。但细节里藏着魔鬼。
采样参数的消失:模型更“听话”,但你更被动 Sonnet 5 不再支持 temperature、top_p、top_k 这些控制回答随机性的参数。过去,你可以针对不同任务调节温度:代码生成要低温度确保准确,写诗要高一点增加创造性。现在这些开关被撤走,模型自己决定什么时候严肃、什么时候跳跃。Anthropic 可能自信内部机制已更优,但对开发者而言,这相当于失去了一套精调旋钮。如果你原来的应用严重依赖某组参数设置,升级到 Sonnet 5 前恐怕需要重新回归测试,看看模型自动判断是否符合预期。
同样的价格,更高的账单——分词器的“惊喜” 文档里一句轻描淡写的备注:“同样的输入文本在新分词器下大约产生 30% 更多 token”。Simon 立刻用他的 token 计数工具做了实验,结果耐人寻味:英文《世界人权宣言》从 4.6 版的 2,356 tokens 跳到 3,341 tokens,膨胀比 1.42 倍;西班牙语从 3,572 到 4,747,1.33 倍;而中文几乎纹丝不动(3334→3360,1.01 倍)。这揭示了一个残酷事实:对于英文内容为主的用户,虽然每百万 token 单价没变,但处理同样的文本,产生的 token 数多了 30%,账单自然就多了 30%。有意思的是,中文用户这次是幸运的——新分词器对中文的编码效率几乎没有损失,你甚至可以用低于 Opus 的单价享受到接近 Opus 4.8 的性能。这种由于技术实现导致的语言级差异,提醒我们评估模型升级时不能只看公告价格。
默认“思考”模式:为你多花一笔输出费
Sonnet 5 默认打开了 adaptive thinking,模型在回答前会进行内部推理,提升复杂任务的品质。但这部分推理过程也算输出 token,而输出 token 比输入 token 贵得多(15 美元/百万 token vs 3 美元)。如果你的场景是简单问答、摘要或翻译,默认开启思考不仅没必要,还在暗中提升成本。好在这个开关可以手动关闭("thinking": {type: "disabled"}),但很多人可能会忽略,直到月底账单出来才恍然大悟。
趋势:模型商品化下的隐形收费艺术 这件事背后是大模型竞争进入新阶段的缩影。厂商不再单纯拼榜单分数,而是用各种工程手段控制推理成本,但这些降本不一定全传递给用户。换分词器本是为了提升模型效率(或许能加快生成速度、降低 GPU 消耗),但多出来的 token 由用户买单。类似的,默认开启高级功能(如 thinking)也是一种常见的“体验升舱”策略——先让你用上更好的服务,再让你为这种更好付费。倒不是说这种操作不诚实,而是提醒开发者:每一次模型切换,都不只是换个 API endpoint 那么简单,必须用你自己的数据重新测算。
你现在该做什么? 如果你正打算接入 Sonnet 5,立刻做三件事:第一,拿你家应用的典型输入跑一下 token 数对比,算清实际成本;第二,根据场景决定是否禁用 adaptive thinking,别为用不上的思考付费;第三,检查去掉采样参数后模型的回答风格是否依然满足业务需求,必要时通过 prompt 调整来补偿。对于中文用户,这次升级可以说是一次“性价比偷袭”——几乎原价体验 Opus 级智能,但也要留心输出端可能存在的额外消耗。
分析由 BitByAI 生成 · 阅读原文