← 返回首页 — Simon Willison — 进阶
行业观点 · 深度解读 · IMPACT 8/10

Simon Willison 评 WWDC 2026:Siri AI 从“画饼”到“务实”的关键转变

原文: Siri AI at WWDC 2026: Apple's Pragmatic Pivot with Gemini, Vision LLMs, and Developer Openness

苹果 2026 WWDC 发布的新 Siri AI 通过引入 Gemini 模型、视觉 LLM 和 Core AI 框架,转向更务实的落地策略,但 Simon Willison 仍持“眼见为实”的观望态度。

核心要点
  • 苹果放弃纯自研路线,为 Siri AI 引入定制 Gemini 模型,并通过 PCC 在自研芯片和 Google Cloud 上运行。
  • 新 Siri AI 利用视觉 LLM 直接读取屏幕信息,无需应用单独适配,降低了生态整合门槛。
  • 苹果推出 Core AI 库并兼容 PyTorch,让开发者能更充分地利用苹果硬件进行 AI 模型推理和训练。
  • 在隐私与性能的权衡下,PCC 首次扩展到第三方云(Google Cloud + NVIDIA GPU),但仍保留严格的安全架构和可审计性。
深度解读

起因:从“苹果智能”到“苹果务实” Simon Willison 是出了名的苹果 AI 批评者。2024 年 WWDC 上那些惊艳的 Apple Intelligence 演示后来大多跳票,让他对今年的发布天然抱有怀疑。但这次,他的语气明显缓和了——新 Siri AI 至少“技术上看起来可行”。

这种转变背后是一个更深层的故事:苹果正在从追求完美自研和端侧处理的理想主义,转向更务实的工程落地。而这一切,都浓缩在三个关键变化里。

拆解:三大技术转变如何让 Siri 更像真的

1. 模型策略:放下身段,牵手 Gemini 过去苹果在 AI 上一直强调自研模型和隐私保护,但这次 Siri AI 直接引入了定制的 Gemini 模型。为什么是 Gemini?很可能因为它在多模态推理和工具使用(agentic tool-use)上已经相当成熟,而这正是 Siri 需要的能力——理解屏幕上的航班信息、帮你预订餐厅、跨应用完成任务。

更微妙的是,这些 Gemini 模型不仅跑在苹果自研芯片上,还通过 Private Cloud Compute 跑在 Google Cloud 的 NVIDIA GPU 上。苹果的官方博客解释得很清楚:对于最复杂的任务,与 Google 和 NVIDIA 合作扩展 PCC 基础设施,同时保持苹果级别的安全架构。这意味着苹果开始在“隐私”和“能力”之间做更现实的取舍。

2. 交互革命:视觉 LLM 绕过应用适配的死结 Siri 一直以来的尴尬在于:每个应用都需要开发者主动适配才能被 Siri 调用。这次苹果用了一个巧妙的解法——让 Siri 直接“看”屏幕。

通过视觉语言模型,Siri 能实时提取屏幕上的文本、按钮甚至图像信息,理解上下文,然后模拟操作。这彻底绕过了苦等开发者集成的死结。如果这个能力顺利落地,它将像三十年前的图形界面一样,重新定义人机交互的边界。

3. 开发生态:Core AI 终于向 PyTorch 低头 苹果在机器学习框架上一直特立独行(Core ML),但这次推出的 Core AI 库直接桥接了 PyTorch,允许开发者把训练好的模型轻松部署到苹果硬件上。这对开发者意味着什么?你可以在强大的 Mac 集群上微调模型,然后用 Core AI 在 iPhone 上高效推理,甚至利用苹果的统一内存架构跑大模型。

这不仅是工具链的补强,更是苹果在 AI 开发者争夺战中的一次重要转身。

趋势洞察:AI 落地的“操作系统级战争” 这次 WWDC 揭示了一个更大的趋势:AI 的竞争正在从模型能力转向系统整合。谁能把 AI 无缝嵌入操作系统,降低开发者和用户的使用门槛,谁就能掌握下一代的入口。

视觉 LLM 正在成为这种系统级 AI 的“眼睛”,而云端混合架构则解决了性能和隐私的矛盾。苹果虽然入场稍慢,但这次它拿出了一套既务实又不失自身优势的方案。

实用价值:现在该关注什么?

  • 如果你是 Apple 生态开发者:尽快熟悉 Core AI 和 PyTorch 的桥接,这可能会改变你部署端侧 AI 的方式。关注视觉 LLM 的交互范式,它可能让你的应用以一种全新的方式被发现和使用。
  • 如果你是 AI 产品经理或创业者:学习苹果如何在隐私和云服务间设计平衡架构,PCC 的扩展思路值得借鉴。另外,视觉理解 + 屏幕操纵将催生一批“自动化助手”类的创新应用。
  • 如果你是普通用户:对于新 Siri 的“智能”保持理性期待,但可以开始尝试把复杂任务交给它。毕竟,能用眼睛看屏幕的 AI,和以前只能听你说话的 AI,已经不是同一个物种了。

反常识:苹果“打脸”背后的战略清醒 很多人会认为苹果用 Gemini、上 Google Cloud 是向竞争对手低头。但其实,这恰恰展现了苹果在 AI 上难得的清醒:不再为了“封闭”而牺牲能力,不再为了“完美隐私”而让产品跳票。

真正意外的或许是:苹果允许 NVIDIA GPU 和 Google Cloud 进入自己最核心的安全域(PCC),却依然声称能保证用户隐私。这背后的技术架构(如独立命名空间、短生命周期、可审计二进制)值得所有做隐私计算的人研究。

Simon 说“眼见为实”,这确实也是我们应有的态度。但至少这一次,苹果拿出的不再是 PPT,而是一套可验证的工程方案。剩下的,就看开发者测试版的表现了。


原文地址: Siri AI at WWDC 2026: Apple's Pragmatic Pivot with Gemini, Vision LLMs, and Developer Openness

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读