AI 教育的硬核实验：为什么“不直接给答案”的模型反而效果最好？

原文: Gemini’s guided learning: results from a randomized controlled trial in Sierra Leone and beyond

DeepMind 通过严谨随机对照试验验证：刻意保留认知摩擦、采用苏格拉底式提问的 AI 辅导，能在八周内带来相当于一点七年的学习进度，揭示了 AI 从“替代工具”向“认知外骨骼”的范式转移。

核心要点

预注册随机对照试验验证 AI 教学有效性：数学成绩提升零点二五八个标准差
苏格拉底式对齐策略：百分之七十六的回复为引导提问，仅百分之二直接给答案
破解教育科技百分之五使用率魔咒：主动使用率高达百分之六十九
产品范式转移：AI 的核心竞争力从“全自动代劳”转向“制造认知摩擦”

深度解读

起因：AI 教育的信任危机与一场硬核的实地实验 过去两年，人工智能进入教育领域一直面临两个核心痛点：一是效果缺乏严谨的实证数据支撑，二是道德焦虑。业界普遍担心生成式模型会沦为学生的学术捷径，直接剥夺深度思考的机会。谷歌深度思维团队这次没有发布参数炫技的论文，而是联合塞拉利昂教育部，完成了一项预注册的随机对照试验。该实验覆盖一千七百多名初中生，历时八周，分析超过十一点三万次真实交互数据，正面回答了行业最关心的问题：当人工智能被刻意设计成不直接给答案时，它到底能产生多大价值？

拆解：不是答题机，而是懂得留白的苏格拉底陪练 这项试验的核心产品逻辑叫引导式学习。它没有将底层模型包装成更强的搜题工具，而是基于教育心理学进行了底层对齐。数据揭示了一个反直觉的现象：在海量对话中，超过九成的时间都在构建概念理解。更关键的是模型的行为控制：系统在四分之三的回复中采用脚手架式提问，直接给出答案的比例被严格压制在百分之二。这种刻意制造认知摩擦的设计，成功把认知重活交还给了学生。结果非常直观：实验组数学成绩显著提升，折算下来相当于在两个月内完成了一年半左右的常规学习进度。

趋势洞察：产品范式正在从替代走向认知增强 很多人以为人工智能的终局是全自动代劳，但这篇报告揭示了一个更深层的趋势：未来高价值产品的核心竞争力，不是多快好省地输出结果，而是多精准地控制输出边界。在软件工程、代码审查、企业内训等领域，我们正在经历同样的范式转移。直接吐出一段完美代码或一份完整报告，往往会让使用者陷入能力退化的陷阱。真正优秀的系统架构，应该像这次的实验模型一样，懂得通过多轮追问和分步拆解，成为用户的思维外骨骼。这要求工程师在提示词设计和反馈优化上，从盲目服从指令转向启发式引导。

实用价值与反常识：破解低活跃率魔咒的秘密 教育科技圈长期存在一个著名的低活跃率魔咒，绝大多数自愿使用的工具留存率极低。但这次试验中，目标使用率达成率接近七成，且学生主动提问中技能构建型占比大幅飙升。这打破了工具必然导致用户被动的刻板印象。背后的产品逻辑对互联网从业者极具参考价值：高留存不靠功能堆砌，而靠人机协同的闭环工作流。人工智能没有把教师踢出局，反而让教师从讲台上的播音员变成了课堂里的教练。对于企业内部的工具落地，同样的逻辑完全适用：不要给员工一个黑盒生成器，而是设计一个能辅助他们建立专业心智模型的智能协作者。这份数据用科学实验证明，有节制的模型比全能的模型，更能激发长期价值。

原文地址: Gemini’s guided learning: results from a randomized controlled trial in Sierra Leone and beyond

分析由 BitByAI 生成 · 阅读原文

原文来自 Google DeepMind Blog · 由 BitByAI 自动解读