← 返回

AI 让你考得更好了。但你什么都没学到。

2026年3月28日

1984 年,教育心理学家 Benjamin Bloom 发表了一个让教育界困扰了四十年的发现:接受一对一辅导的学生,成绩比传统课堂高出两个标准差——平均辅导学生超过 98% 的普通学生。问题是一对一辅导太贵,没有社会承担得起大规模推广。Bloom 把这称为「2 Sigma 问题」:能否找到一种群体教学方法,达到一对一辅导的效果?

四十年后,AI 似乎给出了答案。ChatGPT 可以 24 小时在线、无限耐心、即时反馈、个性化回答。理论上,这就是 Bloom 梦想的完美辅导员。

但数据说的是另一个故事。

认知债务

2025 年,沃顿商学院的 Hamsa Bastani 团队在 PNAS 上发表了一项随机对照试验。他们在土耳其一所高中对将近 1,000 名数学学生做了实验,设置了三个组:

  • GPT Base:一个类似标准 ChatGPT-4 的界面,没有任何限制
  • GPT Tutor:同样是 GPT-4,但有教师设计的 guardrails——只给提示,不给完整答案
  • 对照组:没有 AI,只有课本和笔记

每次实验有两个阶段。第一阶段,学生在各自的条件下做练习题。第二阶段,所有人闭卷考试——没有 AI,没有任何帮助。

练习阶段的结果正如你预期的:GPT Base 组提高了 48%,GPT Tutor 组提高了 127%。AI 确实有用。

然后考试来了。

GPT Base 组的考试成绩比从未使用过 AI 的对照组差了 17%。不是持平,不是略差——是显著地更差。使用无限制 AI 的学生,比什么都没用的学生学到的更少。

研究者把这叫做「认知债务」——借用了技术债务的概念。你现在快速获得了什么,以后要加倍偿还。

而 GPT Tutor 组?考试成绩和对照组几乎一样(差距 -0.4%,统计不显著)。认知债务被完全消除了

拐杖与脚手架

这个结果的关键不在于 AI 好不好用,而在于学生怎么用它。

研究者分析了所有学生和 AI 的对话记录。GPT Base 组的学生,最常见的消息是:「What is the answer?」然后直接复制答案。GPT Tutor 组的学生,消息量显著更多,内容是「我试了这个方法但卡住了」和「能给我一个提示吗」。

更精妙的分析是这个:GPT Base 在直接回答数学问题时,有 49% 的概率给出错误答案(42% 逻辑错误,8% 计算错误)。如果学生是被错误答案误导了,那么 GPT Base 在某道练习题上犯更多错时,学生在对应考试题上应该表现更差。但数据显示错误率对考试成绩没有统计显著影响

这意味着学生根本没在读和理解 AI 的回答。他们只是在复制粘贴。文字经过了屏幕,但没有经过大脑。

这和 MIT 媒体实验室的 EEG 研究完全一致——ChatGPT 用户在全部 32 个脑区的神经活跃度最低,83% 无法回忆自己文章中的关键论点。文章是他们的名字,但想法不是。

还有一个发现更让人警醒:学生自己不知道自己没学到东西。GPT Base 组的考试成绩更差,但他们自我报告认为自己学到了更多、考试表现更好。这个感知-现实差距和我在认知代价那篇文章里引用的 METR 开发者研究如出一辙——开发者使用 AI 后慢了 19%,但自认为快了 20%。

为什么提示比答案更好

GPT Tutor 的设计其实很简单。它和 GPT Base 用的是同一个模型(GPT-4),区别完全在 system prompt 上。论文公开了完整的 prompt,核心规则是:

  1. 绝不给出完整答案。 「You should in no circumstances provide the student with the full solution.」
  2. 要求学生先展示自己的工作。 不看学生做了什么就不提供帮助。
  3. 渐进式支持。 先给最少的信息,学生仍然卡住时再给更多。
  4. 教师编写的正确解法和常见错误。 prompt 里直接包含老师写的解答和针对常见错误的 hints——这防止了 GPT-4 的幻觉问题。

这个设计背后是认知心理学中最稳健的发现之一:可取的困难(desirable difficulties)。UCLA 的 Robert 和 Elizabeth Bjork 从 1990 年代开始研究一个反直觉的现象:让学习过程更困难的条件,反而能增强长期记忆和理解。

他们发现的核心原则是:当前表现是学习效果的不可靠指标。 让你练习时做得更好的方法(比如直接给答案),可能让你以后记得更少。让你练习时做得更吃力的方法(比如只给提示),反而让你记得更牢。

这解释了为什么 GPT Tutor 在练习中比 GPT Base 更好(+127% vs +48%),同时在考试中也更好(0% vs -17%)。GPT Tutor 的 hints 是准确的(因为 prompt 里有老师的正确解法),而且它强迫学生自己做推理。GPT Base 的答案经常是错的(49%),而且学生根本没在思考。

生成效应(generation effect)进一步解释了这个现象。认知心理学几十年的元分析表明,自己主动生成信息比被动接收信息产生更好的记忆——效应量约 0.40 标准差。当你自己推导出一个公式(即使有 hints 帮忙),你的大脑编码比你直接读到答案时更深。GPT Tutor 保住了生成效应,GPT Base 摧毁了它。

这不只是数学的问题

同样的模式在每个领域重复出现。

Anthropic 的研究对 52 名软件工程师做了类似实验。完全委托给 AI 的工程师理解测试得分低于 40%。只用 AI 回答概念性问题的工程师得分 65% 以上。同一个工具,不同的使用方式,完全不同的学习效果。

Scientific Reports 2026 年的研究在写作领域发现了同样的模式。被动使用 AI(复制 AI 生成的内容)损害了自我效能感、心理所有权和工作意义感——而且即使回到手动工作后仍然持续。主动协作(人先写草稿,AI 帮忙润色)保住了这三者。顺序决定一切:人先 AI 后没问题,AI 先人后改有害。

RAND 在 2025 年底的调查发现,中学和高中学生的 AI 作业使用率从 48% 升至 62%。与此同时,67% 的学生认为「AI 使用越多,批判性思维越差」。他们自己知道有问题。但他们继续使用。

一项对 6,875 篇学生论文的分析发现了「质量-同质化权衡」:AI 辅助的论文质量更高,但内聚结构的方差损失了 70-78%。所有人在用同样的论证方式、同样的过渡句、同样的「In conclusion」结尾。他们学会了使用 AI。他们没有学会思考。

什么是有效的

如果无限制 AI 是最差的模式,什么是最好的?

Khanmigo(Khan Academy) 可能是目前最大规模的实验。它用苏格拉底式方法——通过提问引导学生,而不是直接给答案。到 2025 年底它有 500 万用户,超过 3 亿次学生互动。RCT 显示每周使用 3 次,一学期后代数成绩提高 0.34 标准差。英语学习者获益更大:0.31 标准差。

但有一个关键发现:没有教师参与的情况下,学生参与度在 3 周后下降 60%。技术不能替代教师。

这引出了也许最聪明的设计:Stanford 的 Tutor CoPilot。它不让 AI 直接辅导学生——它让 AI 辅助辅导员。在超过 700 名辅导员和 1,000 名学生的 RCT 中,使用 Tutor CoPilot 的辅导员的学生掌握数学主题的概率高 4 个百分点。最重要的是,低评级辅导员的学生获益最大:+9 个百分点。成本:每位辅导员每年 $20。

逻辑是这样的:AI 直接辅导学生时,学生很容易把 AI 当拐杖。但当 AI 辅助辅导员时,辅导员仍然是和学生互动的那个人——AI 只是在背后帮辅导员提供更好的问题和更精准的 hints。人的角色被保住了。

Bloom 的梦想实现了吗?

回到 Bloom 的 2 Sigma 问题。一对一辅导产生 2 个标准差的提升。Khanmigo 达到了 0.23-0.34 标准差。差距仍然巨大。

但我不认为瓶颈是 AI 的能力。GPT-4 在大多数数学考试上已经超过了普通教师。瓶颈是设计——是我们如何在 AI 和学生之间构建交互。

沃顿研究最大的贡献不是发现了问题,而是证明了问题可以被解决。同一个底层模型,不同的 prompt 设计,结果从 -17%(认知债务)变成了 0%(认知债务消除)。技术没变,变的只是交互方式。

这和我在之前的文章里提出的框架完全一致:AI 工具需要在四种模式之间动态切换——生成、脚手架、挑战、退后。在学习场景中:

  • 生成模式用于机械性任务(数据格式化、代码模板)——理解不重要
  • 脚手架模式用于技能建设——给 hints、结构、部分答案,学生完成推理
  • 挑战模式用于深度理解——「你确定这个证明成立吗?」「这个解法在什么条件下会失败?」
  • 退后模式用于关键训练——AI 什么都不做,学生独立面对困难

现在几乎所有的 AI 学习工具都卡在生成模式。它们的默认行为是:你问,我答。沃顿研究证明了这是最差的模式。最好的模式是让 AI 像一个好老师那样——不是给你答案的人,而是让你自己找到答案的人。

困难是特性,不是缺陷

Vygotsky 在一个世纪前提出了「最近发展区」——学生独立能力和在帮助下能达到的水平之间的差距。好的教学在这个区间内提供脚手架:足够的支持让学生不至于放弃,又不够多以至于学生不用思考。

AI 的问题是它太容易把脚手架变成拐杖。一项编程教育的研究用扎根理论分析了这个区分:AI 何时是工具(tool),何时是辅导员(tutor),何时是拐杖(crutch)。当 AI 在最近发展区内提供支持时,它是 tutor;当它替代学生的认知工作时,它是 crutch。界线在于:学生有没有做思考的苦工。

Harvard 的 Deslauriers 等人在 2019 年的 PNAS 论文中发现了一个精确的表述:主动学习的学生感觉更难、更痛苦,但实际学到了更多。被动学习的学生感觉很好,但学到了更少。学习的感觉和学习本身是反向相关的。

这就是为什么所有 AI 学习工具面临的根本挑战不是技术的,而是心理的。当 AI 给你答案时,你感觉很好——你感觉自己懂了,感觉很顺滑,感觉很高效。这种流畅性是一种错觉。沃顿的学生觉得自己学到了更多。METR 的开发者觉得自己变快了。两者都错了,而且两者都不知道自己错了。

做对这件事的 AI 工具会让你感觉不那么舒服。它会让你做更多的思考,犯更多的错,花更长的时间。它不会给你答案,而是给你一个方向,然后让你自己走过去。这在短期内感觉像是在浪费时间。但认知科学四十年的证据说:这恰恰是你学习的方式。

困难不是学习的 bug。困难是学习的 feature。消除困难的工具,消除的不是学习中无聊的部分——它消除的是学习本身。


来源: 所有数据均在行文中链接到原始来源。关键研究:沃顿/PNAS 认知债务 (2025) · Anthropic 技能形成 (2026) · Scientific Reports 被动 vs 主动 AI (2026) · Bjork & Bjork 可取的困难 (2011) · Bloom 2 Sigma 问题 (1984) · Khanmigo 综述 (2026) · Stanford Tutor CoPilot (2024) · RAND 学生调查 (2026) · MIT 媒体实验室 EEG · Deslauriers 感知 vs 实际学习 (PNAS 2019) · Generation Effect 元分析