Claude Sonnet 5 的定价魔术：性能更优，但你的账单可能涨了30%

原文: What's new in Claude Sonnet 5

Sonnet 5 性能接近 Opus 4.8 且标价不变，但新分词器使英文 token 膨胀 30%，且采样参数被取消、思考模式默认开启，开发者需仔细算账。

Claude API 变化成本优化大语言模型开发者工具分词器

核心要点

温度、top_p 等采样参数不再支持，模型输出随机性由系统内部管理，开发者失去精细控制。
新分词器让英文输入 token 量增加约 30%，标价不变导致实际成本上涨，但中文 token 数几乎不变。
adaptive thinking 默认开启，会消耗昂贵的输出 token，简单任务记得手动关闭以省钱。
性能红利真实存在：接近 Opus 4.8 的能力，对于复杂任务性价比依然很高，但需根据实际用量模式评估。

深度解读

每次大模型更新，Simon Willison 的第一反应不是看新闻通稿，而是直奔开发者文档里那篇“What’s new”。这次 Claude Sonnet 5 发布，他在文档里翻出几个不太显眼却可能刺痛钱包的变化。表面看，Anthropic 交了一份不错的答卷：性能接近 Opus 4.8，价格却和 Sonnet 4.6 持平，还给了限时折扣。但细节里藏着魔鬼。

采样参数的消失：模型更“听话”，但你更被动 Sonnet 5 不再支持 temperature、top_p、top_k 这些控制回答随机性的参数。过去，你可以针对不同任务调节温度：代码生成要低温度确保准确，写诗要高一点增加创造性。现在这些开关被撤走，模型自己决定什么时候严肃、什么时候跳跃。Anthropic 可能自信内部机制已更优，但对开发者而言，这相当于失去了一套精调旋钮。如果你原来的应用严重依赖某组参数设置，升级到 Sonnet 5 前恐怕需要重新回归测试，看看模型自动判断是否符合预期。

同样的价格，更高的账单——分词器的“惊喜” 文档里一句轻描淡写的备注：“同样的输入文本在新分词器下大约产生 30% 更多 token”。Simon 立刻用他的 token 计数工具做了实验，结果耐人寻味：英文《世界人权宣言》从 4.6 版的 2,356 tokens 跳到 3,341 tokens，膨胀比 1.42 倍；西班牙语从 3,572 到 4,747，1.33 倍；而中文几乎纹丝不动（3334→3360，1.01 倍）。这揭示了一个残酷事实：对于英文内容为主的用户，虽然每百万 token 单价没变，但处理同样的文本，产生的 token 数多了 30%，账单自然就多了 30%。有意思的是，中文用户这次是幸运的——新分词器对中文的编码效率几乎没有损失，你甚至可以用低于 Opus 的单价享受到接近 Opus 4.8 的性能。这种由于技术实现导致的语言级差异，提醒我们评估模型升级时不能只看公告价格。

默认“思考”模式：为你多花一笔输出费 Sonnet 5 默认打开了 adaptive thinking，模型在回答前会进行内部推理，提升复杂任务的品质。但这部分推理过程也算输出 token，而输出 token 比输入 token 贵得多（15 美元/百万 token vs 3 美元）。如果你的场景是简单问答、摘要或翻译，默认开启思考不仅没必要，还在暗中提升成本。好在这个开关可以手动关闭（"thinking": {type: "disabled"}），但很多人可能会忽略，直到月底账单出来才恍然大悟。

趋势：模型商品化下的隐形收费艺术 这件事背后是大模型竞争进入新阶段的缩影。厂商不再单纯拼榜单分数，而是用各种工程手段控制推理成本，但这些降本不一定全传递给用户。换分词器本是为了提升模型效率（或许能加快生成速度、降低 GPU 消耗），但多出来的 token 由用户买单。类似的，默认开启高级功能（如 thinking）也是一种常见的“体验升舱”策略——先让你用上更好的服务，再让你为这种更好付费。倒不是说这种操作不诚实，而是提醒开发者：每一次模型切换，都不只是换个 API endpoint 那么简单，必须用你自己的数据重新测算。

你现在该做什么？ 如果你正打算接入 Sonnet 5，立刻做三件事：第一，拿你家应用的典型输入跑一下 token 数对比，算清实际成本；第二，根据场景决定是否禁用 adaptive thinking，别为用不上的思考付费；第三，检查去掉采样参数后模型的回答风格是否依然满足业务需求，必要时通过 prompt 调整来补偿。对于中文用户，这次升级可以说是一次“性价比偷袭”——几乎原价体验 Opus 级智能，但也要留心输出端可能存在的额外消耗。

原文地址: What's new in Claude Sonnet 5

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读