从指令执行者到推理伙伴：SIMA 2如何用Gemini重塑游戏AI

原文: SIMA 2: An agent that plays, reasons, and learns with you

DeepMind发布的SIMA 2将Gemini的推理能力融入3D游戏AI，使其从执行简单指令进化为能理解目标、进行对话和自我提升的智能伙伴。

核心要点

SIMA 2的核心升级是集成了Gemini模型，使其具备了深度推理能力，能理解用户高层目标并规划执行。
它不再仅仅是‘按指令行事’，而是能解释自己的意图、回答问题，实现了与玩家的协作式互动。
在未见过的新游戏中，SIMA 2展现出远超前代的泛化能力，能成功完成复杂任务。
这项研究被视为通往通用人工智能（AGI）和机器人技术的关键一步，验证了大模型在具身智能中的巨大潜力。

深度解读

起因：为什么SIMA 2值得你关注？ 去年，DeepMind的SIMA向我们展示了AI在多个3D游戏世界中执行‘向左转’、‘爬梯子’等基础指令的能力，这已是了不起的进步。但今天发布的SIMA 2，意义远不止一次版本迭代。它标志着AI在虚拟世界中的角色，正从一个被动的‘工具’，转变为一个主动的‘伙伴’。这背后，是Gemini大模型带来的根本性能力跃迁，直接指向了AI领域最激动人心的长期目标之一：通用人工智能（AGI）。

拆解：从‘手’到‘脑’的进化 理解SIMA 2的关键，在于看清它与上一代的本质区别。SIMA 1好比一个严格按照菜谱操作的厨房机器人，你告诉它‘切土豆’，它就执行切土豆的动作。而SIMA 2，更像一个理解你‘今晚想做顿健康晚餐’意图的厨师助手。它能根据这个高层目标，自己推理出需要准备哪些食材、采用什么烹饪方法，并和你讨论步骤。具体来说，SIMA 2的‘大脑’被植入了Gemini模型。这赋予了它三项核心新能力：

目标推理：它能理解‘找到一个安全的地方过夜’这类抽象指令，并分解为探索环境、评估风险、寻找资源等一系列子任务。
对话与解释：它能像伙伴一样回答你的问题，比如‘你为什么往那个方向走？’，并解释自己当前的行动计划。这不再是单向指令，而是双向协作。
泛化与学习：在训练阶段，它结合了人类示范视频和Gemini生成的标签。这使得它在面对从未见过的游戏（如ASKA）时，也能运用推理能力完成任务，泛化能力显著增强。

趋势洞察：大模型正在成为AI的‘常识引擎’ SIMA 2揭示了一个深层趋势：大语言模型（LLM）正在从处理文本的‘语言专家’，进化为理解并交互于物理（及虚拟）世界的‘常识引擎’。过去，让AI在复杂3D环境中行动，需要大量针对特定环境的规则和训练。而SIMA 2证明，一个强大的、预训练好的推理核心（如Gemini），可以被‘装进’一个具身智能体中，让它利用从海量互联网数据中学到的世界知识、逻辑和因果关系，来理解和驾驭全新的、动态的环境。这大大降低了开发能在多样化场景中工作的通用AI代理的门槛。

实用价值与反常识洞察 对开发者和技术从业者而言，SIMA 2的启示是：未来的AI应用，可能不再是孤立的模型调用，而是‘大模型大脑’+‘具身执行器’的组合。无论是游戏NPC、机器人助手还是自动驾驶系统，其智能上限很可能由其核心推理模型的能力决定。一个反常识的点是，SIMA 2的成功并非依赖于对游戏内部数据的深度访问，它像人一样通过‘看’屏幕和‘操作’键鼠来交互。这说明，强大的通用视觉-语言-行动模型，有可能通过模仿人类最自然的交互方式，来学会操控我们为自身设计的各种工具和界面。

结语 SIMA 2不仅仅是一个更会打游戏的AI。它是大模型赋能具身智能的一次里程碑式演示。它告诉我们，当AI拥有了‘思考’的能力后，它在虚拟乃至物理世界中的行动将变得多么富有目的性、适应性和协作性。这不仅是游戏的未来，更是人机交互的未来。

原文地址: SIMA 2: An agent that plays, reasons, and learns with you

分析由 BitByAI 生成 · 阅读原文

原文来自 Google DeepMind Blog · 由 BitByAI 自动解读