AI 让我们更快了，也让我们更差了

我日常工作中大量使用 AI 工具。作为一家 YC 支持的创业公司的 CTO，过去两年我一直在用 Cursor、Claude 和 Copilot 写代码、做产品。我写过 AI SRE 工具为什么在因果推理上失败，写过 AI 在医疗领域并未提升诊断准确率，也写过 AI 编程工具反而让有经验的开发者变慢了。这三篇文章本来写的是不同领域，结果写的是同一件事。

每一个案例里，AI 本身都是有能力的。问题出在人和 AI 的协作上。医生用了 AI 也没提高诊断率，尽管 AI 单独跑分比医生高。开发者觉得自己更快了，实际上可测量地变慢了。SRE 工程师在自动化故障时失去了最需要的直觉。这个模式不断重复，我想搞清楚为什么。

过去几周，我把认知科学研究、对照实验、神经科学研究和开发者与工人的第一手经历汇总在了一起。我的发现是：当前主流的人-AI 交互模式——AI 生成，人类审查——从根本上与人类认知机制相悖。不是因为 AI 生成得不好，而是因为人类在不参与创造的情况下审查内容，效果很差，而且会在这个过程中丧失能力。

这篇文章会展示证据，解释原因，并提出一个不同的模型。

使用 AI 时，你的大脑发生了什么

MIT 媒体实验室用脑电图（EEG）监测写作任务中的神经活跃度。使用 ChatGPT 的用户在全部 32 个脑区的活跃度最低，低于使用 Google 搜索和独立写作的人。到第三次实验时，大多数大模型用户只是在复制粘贴，而不是思考内容。83% 的 ChatGPT 用户无法准确回忆自己文章中的关键论点。

光这一个发现就够让人警醒了。但它和实验室里出来的所有其他结果完全一致。

沃顿商学院在 PNAS 上发表了一项随机对照试验，实验对象是大约 1,000 名土耳其高中生。被给予 ChatGPT-4 无限制访问权限的学生，练习成绩提高了 48%。但当 AI 被撤走后，他们的表现比从未使用过 AI 的学生差了 17%。研究者称之为”认知债务”（cognitive debt）——借用了技术债务的概念。你现在快速获得了什么，以后要加倍偿还。

那项研究中最有意思的发现：一个被设计成只给提示而不直接给答案的 ChatGPT 版本，完全消除了认知债务。辅导组在练习期间成绩提高了 127%，但考试成绩和对照组一样。学习效果保住了，因为难度保住了。学生必须自己思考，AI 只是指了个方向。

Anthropic 做了一个类似的实验，52 名软件工程师学习一个他们不熟悉的 Python 异步库。使用 AI 的组快了大约两分钟——统计上不显著。在理解测试中，他们得了 50 分，手动编程组得了 67 分。差距最大的是调试题。完全依赖 AI 委托的人得分低于 40%，而只用 AI 回答概念性问题的人得分在 65% 以上。

调试能力的差距是最让我担心的。调试恰恰是你监督 AI 生成代码时最需要的技能。那个本应让你更快的工具，正在侵蚀你安全使用它所必需的能力。

微软和卡内基梅隆大学研究了 319 名工人，发现对 AI 的信任度越高，批判性思维越弱，解决方案的多样性也越低。瑞士商学院的一项研究发现 AI 使用频率和批判性思维分数之间存在显著负相关，17-25 岁人群效果最强——正是那些还在构建认知基础的人。

“AI 脑炸”

2026 年 3 月，BCG 和 UC Riverside 发布了一项研究，调查了 1,488 名美国全职员工，首次提出了”AI 脑炸”（AI brain fry）这个概念。大约 14% 的员工反映了这种状况：脑雾、注意力涣散、决策变慢、头痛。一个员工形容说，“就像脑子里同时开了十几个浏览器标签页，全在抢注意力。”

绩效数据比我预想的更糟。出现脑炸的员工犯重大错误的概率高出 39%，犯小错误的概率高 11%。34% 的人打算离职，没有脑炸的人只有 25%。AI 工具的最优数量是两个。超过三个，生产力评分开始下降。使用四个以上，精神消耗增加 14%，疲劳感增加 12%，信息过载增加 19%。

研究者把这描述为一种认知模式的转变：从”做木工”变成”做空中交通管制”。你不再是在建造东西，而是在监控多个 AI 输出、评估建议、在工具之间切换、对你没有参与创造且可能并不完全理解的错误保持警惕。这种持续监控，按照认知科学目前的理解，是人类最不擅长的事情之一。几十年来的注意力研究表明，监控绩效在大约20 分钟后就开始下降。编程、医疗和运维中 AI 的整个安全前提，都假设人类能无限期地保持这种警觉。

工作变得更难了，而不是更轻松

如果 AI 让我们更高效，我们应该有更多空闲时间才对。UC Berkeley 的团队跟踪了一家科技公司的 200 名员工，持续八个月，发现情况恰恰相反。员工们”以更快的节奏工作，承担了更广泛的任务，将工作延伸到了更长的时间，而这些通常没有人要求他们这样做。“到第六个月，倦怠感急剧上升。AI 实际节省的时间是多少？3%。

一位员工说得很直白：“你本来以为，也许省了点时间，可以少干点活。但现实是，你不会少干。只会干一样多，甚至更多。”

Harness 2026 年 3 月的报告量化了开发者群体的这种现象。96% 的高频 AI 编程工具用户每月多次在晚上或周末工作，而偶尔使用者这一比例为 66%。最重度的 AI 用户还报告了更长的事故恢复时间：7.6 小时 vs 6.3 小时。TechCrunch 写了一篇报道，标题是：“最先出现倦怠迹象的，恰恰是最积极拥抱 AI 的人。”

HBR 的分析标题是”AI 没有减少工作——它在加剧工作”。他们总结了三个机制：任务膨胀（员工吸收了其他部门的工作）、自然休息被侵蚀（AI 消除了任务之间的间歇）、多任务陷阱（管理多个 AI 工作流增加了上下文切换）。这些都不是管理层强制要求的。员工自己这样做的，因为工具让这一切成为可能。

我在 AI SRE 那篇文章里写过同样的现象。Catchpoint SRE 报告发现 2026 年 SRE 的中位数 toil（琐碎劳动）从 20% 跳到了 34%。AI 并没有消除 toil，它重新分配了 toil。新的类别包括：维护 AI 工具、审查 AI 建议、调整 prompt、检查 AI 操作的结果、向别人解释 AI 做了什么。

AI 正在吃掉让工作有意义的部分

这是让我重新理解前面所有发现的关键。

2026 年 Scientific Reports 上的一项研究做了一个实验，269 名参与者加上 270 人的跟进调查。他们测试了三种条件：不用 AI、被动使用 AI（复制 AI 生成的内容）、主动协作（人先写草稿，AI 帮忙润色）。

被动使用 AI 损害了三样东西：自我效能感、心理所有权和工作意义感。这些影响在参与者回到手动工作后依然持续。被动使用 AI 最初带来的愉悦感和满意度提升，在人们重新自己做事之后发生了逆转。而主动协作——人先创造，AI 再优化——保住了这三个心理要素。结果和完全不用 AI 差不多。

顺序很重要。人先，AI 后：没问题。AI 先，人来改：有害。这和大多数 AI 工具的设计方向恰好相反。

另一项研究调查了全美各职业 10,131 项计算机辅助任务，发现与掌控感和快乐感相关的任务，恰恰是最容易被 AI 自动化的。论文标题是”我们是否正在自动化掉工作中的快乐？“（Are We Automating the Joy Out of Work?）根据数据，答案似乎是肯定的。

我一直在想 Business Insider 的报道：Spotify 的顶级工程师从 2024 年 12 月起就没写过代码了。文章把这称为一场身份危机。那些花了多年通过刻苦钻研建立专业能力的工程师，现在看着 AI 做他们觉得有意义的那部分工作。一个问题反复出现：“如果我不再是那个写代码的人，我是谁？”

自我决定理论（Self-Determination Theory）在这里提供了一个有用的分析框架。人在工作中有三个基本心理需求：自主性（对自己做什么有掌控感）、胜任感（掌握的感觉）、关联性（通过共同创造与他人建立连接）。当前的 AI 实现方式威胁了这三个需求。你从作者变成了审阅者。掌握需要挣扎，而 AI 绕过了挣扎。当工作不是你创造的，你很难感到与它有连接。

Hannah Arendt 在 1958 年区分了”劳动”（labor，循环、重复、即时消耗）和”工作”（work，创造出比创造者更持久的东西）。2025 年 Journal of Business Ethics 上的一篇分析将她的框架应用到 AI，得出结论：认知自动化正在把”工作”降格为”劳动”——从建造变成了监控。当 AI 生成而人类审查时，人类做的是劳动，不是工作。Arendt 警告过”一个没有劳动的劳动者社会”。我们正在构建的东西更接近于：一个被迫做劳动的工作者社会。

去技能化的证据现在是跨领域的

1983 年，认知心理学家 Lisanne Bainbridge 发表了”自动化的讽刺”，论证了当你自动化大部分任务时，剩下的困难任务恰恰是操作员现在更不擅长的——因为他们从来没练过。四十年后，这个预言同时在医疗、航空、软件工程和教育领域上演。

使用 AI 辅助的内镜医师，在 AI 被移除后，腺瘤检出率下降了 6 个百分点。Anthropic 的研究显示理解力差距达到 17 个百分点。沃顿的研究显示移除 AI 后表现下降 17%。METR 发现30-50% 的开发者拒绝在没有 AI 的情况下工作，即使报酬是每小时 150 美元。法航 447 号航班在 2009 年坠毁，因为自动驾驶断开后飞行员无法手动操控飞机。228 人遇难。

Artificial Intelligence Review 上的一篇综述提出了”第二奇点”（second singularity）这个概念——反复将任务委托给 AI 导致专业能力不可逆转地丧失的临界点。不仅是个人失去技能，而是整个组织在关键能力被集体遗忘后变得脆弱。综述称之为”系统脆化”（system embrittlement）。

人才管线的问题让情况更糟。初级工程师招聘下降了 30%。计算机科学专业注册人数 20 年来首次下降。今天的资深工程师是花了多年写烂代码和凌晨两点调 bug 成长起来的。如果 AI 接管了这些训练性质的任务，培养高级工程师的学徒路径就断了。我们需要更多有经验的人，但制造他们的路正在关闭。

为什么当前的设计会失败

上面所有的证据都指向同一个根本原因：“AI 生成，人类审查”这个范式违反了人类认知的实际运作方式。

生成效应。 认知心理学几十年前就知道，主动生成信息比被动接收信息更能增强记忆和理解。当 AI 写代码而你审查时，你得不到主动创造带来的神经编码。这解释了为什么 MIT 发现了脑活跃度下降，以及为什么 Anthropic 发现了理解力下降。

心流状态被打断。 Csikszentmihalyi 的心流状态需要挑战和技能之间的平衡。AI 打破了这个平衡：要么 AI 处理了挑战（太简单，无聊），要么你在审查不熟悉的 AI 输出（错误类型的挑战，焦虑）。提示-等待-审查的循环也打断了心流启动所需的 10-15 分钟不间断专注。

注意力维持的极限。 人类能维持专注监控大约 20 分钟，之后绩效就开始下降。每个领域中 AI 的整个安全模型都假设人类可以无限期地保持警觉。这个假设已经在航空、核电和医疗监测中被证伪了。我们正在把同一个假设嵌入 AI 工具里，然后期待不同的结果。

自我决定的崩塌。 当 AI 生成而你审查时，你失去了自主性（你不是在选择创造什么）、胜任感（掌握需要挣扎）和意义感（所有权来自于创造）。Scientific Reports 的研究直接测量了这一点。

真正有效的做法

证据同样指向了不会出问题的模式。有几种模型能同时保住生产力和人的能力。

给提示，不给答案。 沃顿研究中最重要的发现：一个被配置成辅导员模式的 ChatGPT，给提示而不是直接给答案，完全消除了认知债务。学生学到的东西一样多，练习期间成绩还提高了 127%。难度被保住了，所以思考能力迁移了。

人先写，AI 后改。 Scientific Reports 的研究表明，当人先写草稿再让 AI 帮忙润色时，自我效能感、所有权和意义感都被保住了。反过来的顺序会损害这三者。顺序决定了心理结果。

AI 做第二意见，不做第一意见。 一项70 名临床医生的随机对照试验测试了一种工作流程：医生和 AI 各自独立评估，然后 AI 生成一份综合报告，标明双方的一致和分歧。诊断准确率从 75% 提高到 82-85%。报警负担降低了 80%。AI 让医生的思考过程更加可见，而不是变得不必要。

人编码判断力，机器执行规模。 Meta 的 DrP 平台每天在 300 个团队中运行 50,000 次自动根因分析。MTTR 下降了 20-80%。但它不是自主运行的。工程师把自己的调查逻辑编写成分析器，机器大规模执行他们的思路。这已经在生产环境中运行了五年。

社会责任感。 CHI 2026 上关于”三方编程”的研究——两个人加一个 AI——发现当有另一个人在场时，开发者会减少对 AI 生成代码的依赖。社会责任感在防止认知外包方面比任何技术设计都有效。意味着什么：和人一起用 AI 结对编程可能比独自 vibe coding 更好——不是因为代码质量，而是因为有人在看着你。

一个不同的模型

基于以上所有证据，我认为 AI 工具需要在四种模式之间动态切换：

生成模式。 AI 主导，人审查。用于常规的、机械的、低风险的任务——理解不重要的场景。样板代码、数据格式化、日程安排。这是现有工具已经做得不错的地方。

脚手架模式。 AI 提供提示、结构、部分解决方案，人来完成工作。用于需要理解的场景——调试、学习新系统、技能建设。基于沃顿辅导员研究和”可取的困难”（desirable difficulties）文献。生成效应被保住了，因为人做了认知工作。

挑战模式。 AI 充当批评者、对手、压力测试员。用于高风险决策、新颖情境、创造性工作。“你的架构可能会因为这个原因失败。""这个诊断有 30% 的概率是错的，因为……”基于 Afroogh 等人提出的任务驱动框架，为 AI 分配自主、辅助和对抗三种角色。

退后模式。 AI 故意什么都不做。用于人处于心流状态、需要积累”伤疤组织”的技能训练、或者需要个人风格的创造性工作。编程会话的前 20 分钟。关键的调试过程。需要立场的写作。这是最难实现的模式，因为它不产生任何可见的输出，而行业中的每一个激励机制都在推动更多 AI，而不是更少。

在实际操作中，这可能看起来像这样：代码编辑器在会话开始的一段时间内保持安静，让你建立心智模型。在做机械工作时生成样板代码。在你写功能逻辑时展示替代方案而非完整解决方案。在你做架构决策时问”你考虑过这种故障模式吗？“偶尔强制你在没有 AI 的情况下工作——就像航空业强制要求手动飞行时数一样。

Ben Shneiderman 的”以人为中心的 AI”框架认为，高自动化和高人类控制不是对立的——你可以同时拥有两者。我觉得这是对的，但不完整。你还需要高人类能力，而这要求系统有时候主动退出。

我现在怎么看

我每天仍然在用 AI 工具。我不是在反对它们。我是在说，我们设计交互的方式优化错了目标。当前的工具最大化的是任务完成度。它们应该最大化的是人-AI 系统的长期整体表现——这意味着在追求产出的同时，保住人的判断力、参与感和能力。

METR 的发现——开发者使用 AI 后慢了 19%，但自己觉得快了 20%——是最清晰的症状。我们造出了一种感觉很高效但实际让人变弱的工具。BCG 的脑炸数据说明这不仅是感知问题，还是认知健康问题。Scientific Reports 的研究说明这不仅是认知问题，还是意义问题。医疗、航空和软件领域的去技能化证据说明，这些效应会随时间累积。

做对这件事的公司和工具开发者，会像好的教育者对待脚手架一样对待 AI：校准支持力度，让人变得更强，而不是让人产生依赖。做错的，会产出更快的成果和更弱的人。过去两年，我同时看到了这两种情况在发生，而研究正在开始解释为什么。

来源： 所有数据均在行文中链接到原始来源。关键研究：BCG “AI 脑炸”（2026） · 沃顿/PNAS 认知债务 · Anthropic 技能形成（2026） · Scientific Reports 被动 vs 主动 AI 使用（2026） · UC Berkeley 工作强化（2026） · “我们是否在自动化掉工作中的快乐”（2026） · METR 开发者研究（2025） · Bainbridge”自动化的讽刺”（1983） · DORA 2025 · 内镜去技能化（2025）