AI 让你考得更好了。但你什么都没学到。

1984 年，教育心理学家 Benjamin Bloom 发表了一个让教育界困扰了四十年的发现：接受一对一辅导的学生，成绩比传统课堂高出两个标准差——平均辅导学生超过 98% 的普通学生。问题是一对一辅导太贵，没有社会承担得起大规模推广。Bloom 把这称为「2 Sigma 问题」：能否找到一种群体教学方法，达到一对一辅导的效果？

四十年后，AI 似乎给出了答案。ChatGPT 可以 24 小时在线、无限耐心、即时反馈、个性化回答。理论上，这就是 Bloom 梦想的完美辅导员。

但数据说的是另一个故事。

认知债务

2025 年，沃顿商学院的 Hamsa Bastani 团队在 PNAS 上发表了一项随机对照试验。他们在土耳其一所高中对将近 1,000 名数学学生做了实验，设置了三个组：

GPT Base：一个类似标准 ChatGPT-4 的界面，没有任何限制
GPT Tutor：同样是 GPT-4，但有教师设计的 guardrails——只给提示，不给完整答案
对照组：没有 AI，只有课本和笔记

每次实验有两个阶段。第一阶段，学生在各自的条件下做练习题。第二阶段，所有人闭卷考试——没有 AI，没有任何帮助。

练习阶段的结果正如你预期的：GPT Base 组提高了 48%，GPT Tutor 组提高了 127%。AI 确实有用。

然后考试来了。

GPT Base 组的考试成绩比从未使用过 AI 的对照组差了 17%。不是持平，不是略差——是显著地更差。使用无限制 AI 的学生，比什么都没用的学生学到的更少。

研究者把这叫做「认知债务」——借用了技术债务的概念。你现在快速获得了什么，以后要加倍偿还。

而 GPT Tutor 组？考试成绩和对照组几乎一样（差距 -0.4%，统计不显著）。认知债务被完全消除了。

拐杖与脚手架

这个结果的关键不在于 AI 好不好用，而在于学生怎么用它。

研究者分析了所有学生和 AI 的对话记录。GPT Base 组的学生，最常见的消息是：「What is the answer?」然后直接复制答案。GPT Tutor 组的学生，消息量显著更多，内容是「我试了这个方法但卡住了」和「能给我一个提示吗」。

更精妙的分析是这个：GPT Base 在直接回答数学问题时，有 49% 的概率给出错误答案（42% 逻辑错误，8% 计算错误）。如果学生是被错误答案误导了，那么 GPT Base 在某道练习题上犯更多错时，学生在对应考试题上应该表现更差。但数据显示错误率对考试成绩没有统计显著影响。

这意味着学生根本没在读和理解 AI 的回答。他们只是在复制粘贴。文字经过了屏幕，但没有经过大脑。

这和 MIT 媒体实验室的 EEG 研究完全一致——ChatGPT 用户在全部 32 个脑区的神经活跃度最低，83% 无法回忆自己文章中的关键论点。文章是他们的名字，但想法不是。

还有一个发现更让人警醒：学生自己不知道自己没学到东西。GPT Base 组的考试成绩更差，但他们自我报告认为自己学到了更多、考试表现更好。这个感知-现实差距和我在认知代价那篇文章里引用的 METR 开发者研究如出一辙——开发者使用 AI 后慢了 19%，但自认为快了 20%。

为什么提示比答案更好

GPT Tutor 的设计其实很简单。它和 GPT Base 用的是同一个模型（GPT-4），区别完全在 system prompt 上。论文公开了完整的 prompt，核心规则是：

绝不给出完整答案。 「You should in no circumstances provide the student with the full solution.」
要求学生先展示自己的工作。 不看学生做了什么就不提供帮助。
渐进式支持。 先给最少的信息，学生仍然卡住时再给更多。
教师编写的正确解法和常见错误。 prompt 里直接包含老师写的解答和针对常见错误的 hints——这防止了 GPT-4 的幻觉问题。

这个设计背后是认知心理学中最稳健的发现之一：可取的困难（desirable difficulties）。UCLA 的 Robert 和 Elizabeth Bjork 从 1990 年代开始研究一个反直觉的现象：让学习过程更困难的条件，反而能增强长期记忆和理解。

他们发现的核心原则是：当前表现是学习效果的不可靠指标。 让你练习时做得更好的方法（比如直接给答案），可能让你以后记得更少。让你练习时做得更吃力的方法（比如只给提示），反而让你记得更牢。

这解释了为什么 GPT Tutor 在练习中比 GPT Base 更好（+127% vs +48%），同时在考试中也更好（0% vs -17%）。GPT Tutor 的 hints 是准确的（因为 prompt 里有老师的正确解法），而且它强迫学生自己做推理。GPT Base 的答案经常是错的（49%），而且学生根本没在思考。

生成效应（generation effect）进一步解释了这个现象。认知心理学几十年的元分析表明，自己主动生成信息比被动接收信息产生更好的记忆——效应量约 0.40 标准差。当你自己推导出一个公式（即使有 hints 帮忙），你的大脑编码比你直接读到答案时更深。GPT Tutor 保住了生成效应，GPT Base 摧毁了它。

这不只是数学的问题

同样的模式在每个领域重复出现。

Anthropic 的研究对 52 名软件工程师做了类似实验。完全委托给 AI 的工程师理解测试得分低于 40%。只用 AI 回答概念性问题的工程师得分 65% 以上。同一个工具，不同的使用方式，完全不同的学习效果。

Scientific Reports 2026 年的研究在写作领域发现了同样的模式。被动使用 AI（复制 AI 生成的内容）损害了自我效能感、心理所有权和工作意义感——而且即使回到手动工作后仍然持续。主动协作（人先写草稿，AI 帮忙润色）保住了这三者。顺序决定一切：人先 AI 后没问题，AI 先人后改有害。

RAND 在 2025 年底的调查发现，中学和高中学生的 AI 作业使用率从 48% 升至 62%。与此同时，67% 的学生认为「AI 使用越多，批判性思维越差」。他们自己知道有问题。但他们继续使用。

一项对 6,875 篇学生论文的分析发现了「质量-同质化权衡」：AI 辅助的论文质量更高，但内聚结构的方差损失了 70-78%。所有人在用同样的论证方式、同样的过渡句、同样的「In conclusion」结尾。他们学会了使用 AI。他们没有学会思考。

什么是有效的

如果无限制 AI 是最差的模式，什么是最好的？

Khanmigo（Khan Academy） 可能是目前最大规模的实验。它用苏格拉底式方法——通过提问引导学生，而不是直接给答案。到 2025 年底它有 500 万用户，超过 3 亿次学生互动。RCT 显示每周使用 3 次，一学期后代数成绩提高 0.34 标准差。英语学习者获益更大：0.31 标准差。

但有一个关键发现：没有教师参与的情况下，学生参与度在 3 周后下降 60%。技术不能替代教师。

这引出了也许最聪明的设计：Stanford 的 Tutor CoPilot。它不让 AI 直接辅导学生——它让 AI 辅助辅导员。在超过 700 名辅导员和 1,000 名学生的 RCT 中，使用 Tutor CoPilot 的辅导员的学生掌握数学主题的概率高 4 个百分点。最重要的是，低评级辅导员的学生获益最大：+9 个百分点。成本：每位辅导员每年 $20。

逻辑是这样的：AI 直接辅导学生时，学生很容易把 AI 当拐杖。但当 AI 辅助辅导员时，辅导员仍然是和学生互动的那个人——AI 只是在背后帮辅导员提供更好的问题和更精准的 hints。人的角色被保住了。

Bloom 的梦想实现了吗？

回到 Bloom 的 2 Sigma 问题。一对一辅导产生 2 个标准差的提升。Khanmigo 达到了 0.23-0.34 标准差。差距仍然巨大。

但我不认为瓶颈是 AI 的能力。GPT-4 在大多数数学考试上已经超过了普通教师。瓶颈是设计——是我们如何在 AI 和学生之间构建交互。

沃顿研究最大的贡献不是发现了问题，而是证明了问题可以被解决。同一个底层模型，不同的 prompt 设计，结果从 -17%（认知债务）变成了 0%（认知债务消除）。技术没变，变的只是交互方式。

这和我在之前的文章里提出的框架完全一致：AI 工具需要在四种模式之间动态切换——生成、脚手架、挑战、退后。在学习场景中：

生成模式用于机械性任务（数据格式化、代码模板）——理解不重要
脚手架模式用于技能建设——给 hints、结构、部分答案，学生完成推理
挑战模式用于深度理解——「你确定这个证明成立吗？」「这个解法在什么条件下会失败？」
退后模式用于关键训练——AI 什么都不做，学生独立面对困难

现在几乎所有的 AI 学习工具都卡在生成模式。它们的默认行为是：你问，我答。沃顿研究证明了这是最差的模式。最好的模式是让 AI 像一个好老师那样——不是给你答案的人，而是让你自己找到答案的人。

困难是特性，不是缺陷

Vygotsky 在一个世纪前提出了「最近发展区」——学生独立能力和在帮助下能达到的水平之间的差距。好的教学在这个区间内提供脚手架：足够的支持让学生不至于放弃，又不够多以至于学生不用思考。

AI 的问题是它太容易把脚手架变成拐杖。一项编程教育的研究用扎根理论分析了这个区分：AI 何时是工具（tool），何时是辅导员（tutor），何时是拐杖（crutch）。当 AI 在最近发展区内提供支持时，它是 tutor；当它替代学生的认知工作时，它是 crutch。界线在于：学生有没有做思考的苦工。

Harvard 的 Deslauriers 等人在 2019 年的 PNAS 论文中发现了一个精确的表述：主动学习的学生感觉更难、更痛苦，但实际学到了更多。被动学习的学生感觉很好，但学到了更少。学习的感觉和学习本身是反向相关的。

这就是为什么所有 AI 学习工具面临的根本挑战不是技术的，而是心理的。当 AI 给你答案时，你感觉很好——你感觉自己懂了，感觉很顺滑，感觉很高效。这种流畅性是一种错觉。沃顿的学生觉得自己学到了更多。METR 的开发者觉得自己变快了。两者都错了，而且两者都不知道自己错了。

做对这件事的 AI 工具会让你感觉不那么舒服。它会让你做更多的思考，犯更多的错，花更长的时间。它不会给你答案，而是给你一个方向，然后让你自己走过去。这在短期内感觉像是在浪费时间。但认知科学四十年的证据说：这恰恰是你学习的方式。

困难不是学习的 bug。困难是学习的 feature。消除困难的工具，消除的不是学习中无聊的部分——它消除的是学习本身。

来源： 所有数据均在行文中链接到原始来源。关键研究：沃顿/PNAS 认知债务 (2025) · Anthropic 技能形成 (2026) · Scientific Reports 被动 vs 主动 AI (2026) · Bjork & Bjork 可取的困难 (2011) · Bloom 2 Sigma 问题 (1984) · Khanmigo 综述 (2026) · Stanford Tutor CoPilot (2024) · RAND 学生调查 (2026) · MIT 媒体实验室 EEG · Deslauriers 感知 vs 实际学习 (PNAS 2019) · Generation Effect 元分析