← 返回

AI 让我们更快了,也让我们更差了

2026年3月28日

我日常工作中大量使用 AI 工具。作为一家 YC 支持的创业公司的 CTO,过去两年我一直在用 Cursor、Claude 和 Copilot 写代码、做产品。我写过 AI SRE 工具为什么在因果推理上失败,写过 AI 在医疗领域并未提升诊断准确率,也写过 AI 编程工具反而让有经验的开发者变慢了。这三篇文章本来写的是不同领域,结果写的是同一件事。

每一个案例里,AI 本身都是有能力的。问题出在人和 AI 的协作上。医生用了 AI 也没提高诊断率,尽管 AI 单独跑分比医生高。开发者觉得自己更快了,实际上可测量地变慢了。SRE 工程师在自动化故障时失去了最需要的直觉。这个模式不断重复,我想搞清楚为什么。

过去几周,我把认知科学研究、对照实验、神经科学研究和开发者与工人的第一手经历汇总在了一起。我的发现是:当前主流的人-AI 交互模式——AI 生成,人类审查——从根本上与人类认知机制相悖。不是因为 AI 生成得不好,而是因为人类在不参与创造的情况下审查内容,效果很差,而且会在这个过程中丧失能力。

这篇文章会展示证据,解释原因,并提出一个不同的模型。

使用 AI 时,你的大脑发生了什么

MIT 媒体实验室用脑电图(EEG)监测写作任务中的神经活跃度。使用 ChatGPT 的用户在全部 32 个脑区的活跃度最低,低于使用 Google 搜索和独立写作的人。到第三次实验时,大多数大模型用户只是在复制粘贴,而不是思考内容。83% 的 ChatGPT 用户无法准确回忆自己文章中的关键论点。

光这一个发现就够让人警醒了。但它和实验室里出来的所有其他结果完全一致。

沃顿商学院在 PNAS 上发表了一项随机对照试验,实验对象是大约 1,000 名土耳其高中生。被给予 ChatGPT-4 无限制访问权限的学生,练习成绩提高了 48%。但当 AI 被撤走后,他们的表现比从未使用过 AI 的学生差了 17%。研究者称之为”认知债务”(cognitive debt)——借用了技术债务的概念。你现在快速获得了什么,以后要加倍偿还。

那项研究中最有意思的发现:一个被设计成只给提示而不直接给答案的 ChatGPT 版本,完全消除了认知债务。辅导组在练习期间成绩提高了 127%,但考试成绩和对照组一样。学习效果保住了,因为难度保住了。学生必须自己思考,AI 只是指了个方向。

Anthropic 做了一个类似的实验,52 名软件工程师学习一个他们不熟悉的 Python 异步库。使用 AI 的组快了大约两分钟——统计上不显著。在理解测试中,他们得了 50 分,手动编程组得了 67 分。差距最大的是调试题。完全依赖 AI 委托的人得分低于 40%,而只用 AI 回答概念性问题的人得分在 65% 以上。

调试能力的差距是最让我担心的。调试恰恰是你监督 AI 生成代码时最需要的技能。那个本应让你更快的工具,正在侵蚀你安全使用它所必需的能力。

微软和卡内基梅隆大学研究了 319 名工人,发现对 AI 的信任度越高,批判性思维越弱,解决方案的多样性也越低。瑞士商学院的一项研究发现 AI 使用频率和批判性思维分数之间存在显著负相关,17-25 岁人群效果最强——正是那些还在构建认知基础的人。

“AI 脑炸”

2026 年 3 月,BCG 和 UC Riverside 发布了一项研究,调查了 1,488 名美国全职员工,首次提出了”AI 脑炸”(AI brain fry)这个概念。大约 14% 的员工反映了这种状况:脑雾、注意力涣散、决策变慢、头痛。一个员工形容说,“就像脑子里同时开了十几个浏览器标签页,全在抢注意力。”

绩效数据比我预想的更糟。出现脑炸的员工犯重大错误的概率高出 39%,犯小错误的概率高 11%。34% 的人打算离职,没有脑炸的人只有 25%。AI 工具的最优数量是两个。超过三个,生产力评分开始下降。使用四个以上,精神消耗增加 14%,疲劳感增加 12%,信息过载增加 19%。

研究者把这描述为一种认知模式的转变:从”做木工”变成”做空中交通管制”。你不再是在建造东西,而是在监控多个 AI 输出、评估建议、在工具之间切换、对你没有参与创造且可能并不完全理解的错误保持警惕。这种持续监控,按照认知科学目前的理解,是人类最不擅长的事情之一。几十年来的注意力研究表明,监控绩效在大约20 分钟后就开始下降。编程、医疗和运维中 AI 的整个安全前提,都假设人类能无限期地保持这种警觉。

工作变得更难了,而不是更轻松

如果 AI 让我们更高效,我们应该有更多空闲时间才对。UC Berkeley 的团队跟踪了一家科技公司的 200 名员工,持续八个月,发现情况恰恰相反。员工们”以更快的节奏工作,承担了更广泛的任务,将工作延伸到了更长的时间,而这些通常没有人要求他们这样做。“到第六个月,倦怠感急剧上升。AI 实际节省的时间是多少?3%。

一位员工说得很直白:“你本来以为,也许省了点时间,可以少干点活。但现实是,你不会少干。只会干一样多,甚至更多。”

Harness 2026 年 3 月的报告量化了开发者群体的这种现象。96% 的高频 AI 编程工具用户每月多次在晚上或周末工作,而偶尔使用者这一比例为 66%。最重度的 AI 用户还报告了更长的事故恢复时间:7.6 小时 vs 6.3 小时。TechCrunch 写了一篇报道,标题是:“最先出现倦怠迹象的,恰恰是最积极拥抱 AI 的人。”

HBR 的分析标题是”AI 没有减少工作——它在加剧工作”。他们总结了三个机制:任务膨胀(员工吸收了其他部门的工作)、自然休息被侵蚀(AI 消除了任务之间的间歇)、多任务陷阱(管理多个 AI 工作流增加了上下文切换)。这些都不是管理层强制要求的。员工自己这样做的,因为工具让这一切成为可能。

我在 AI SRE 那篇文章里写过同样的现象。Catchpoint SRE 报告发现 2026 年 SRE 的中位数 toil(琐碎劳动)从 20% 跳到了 34%。AI 并没有消除 toil,它重新分配了 toil。新的类别包括:维护 AI 工具、审查 AI 建议、调整 prompt、检查 AI 操作的结果、向别人解释 AI 做了什么。

AI 正在吃掉让工作有意义的部分

这是让我重新理解前面所有发现的关键。

2026 年 Scientific Reports 上的一项研究做了一个实验,269 名参与者加上 270 人的跟进调查。他们测试了三种条件:不用 AI、被动使用 AI(复制 AI 生成的内容)、主动协作(人先写草稿,AI 帮忙润色)。

被动使用 AI 损害了三样东西:自我效能感、心理所有权和工作意义感。这些影响在参与者回到手动工作后依然持续。被动使用 AI 最初带来的愉悦感和满意度提升,在人们重新自己做事之后发生了逆转。而主动协作——人先创造,AI 再优化——保住了这三个心理要素。结果和完全不用 AI 差不多。

顺序很重要。人先,AI 后:没问题。AI 先,人来改:有害。这和大多数 AI 工具的设计方向恰好相反。

另一项研究调查了全美各职业 10,131 项计算机辅助任务,发现与掌控感和快乐感相关的任务,恰恰是最容易被 AI 自动化的。论文标题是”我们是否正在自动化掉工作中的快乐?“(Are We Automating the Joy Out of Work?)根据数据,答案似乎是肯定的。

我一直在想 Business Insider 的报道:Spotify 的顶级工程师从 2024 年 12 月起就没写过代码了。文章把这称为一场身份危机。那些花了多年通过刻苦钻研建立专业能力的工程师,现在看着 AI 做他们觉得有意义的那部分工作。一个问题反复出现:“如果我不再是那个写代码的人,我是谁?”

自我决定理论(Self-Determination Theory)在这里提供了一个有用的分析框架。人在工作中有三个基本心理需求:自主性(对自己做什么有掌控感)、胜任感(掌握的感觉)、关联性(通过共同创造与他人建立连接)。当前的 AI 实现方式威胁了这三个需求。你从作者变成了审阅者。掌握需要挣扎,而 AI 绕过了挣扎。当工作不是你创造的,你很难感到与它有连接。

Hannah Arendt 在 1958 年区分了”劳动”(labor,循环、重复、即时消耗)和”工作”(work,创造出比创造者更持久的东西)。2025 年 Journal of Business Ethics 上的一篇分析将她的框架应用到 AI,得出结论:认知自动化正在把”工作”降格为”劳动”——从建造变成了监控。当 AI 生成而人类审查时,人类做的是劳动,不是工作。Arendt 警告过”一个没有劳动的劳动者社会”。我们正在构建的东西更接近于:一个被迫做劳动的工作者社会。

去技能化的证据现在是跨领域的

1983 年,认知心理学家 Lisanne Bainbridge 发表了”自动化的讽刺”,论证了当你自动化大部分任务时,剩下的困难任务恰恰是操作员现在更不擅长的——因为他们从来没练过。四十年后,这个预言同时在医疗、航空、软件工程和教育领域上演。

使用 AI 辅助的内镜医师,在 AI 被移除后,腺瘤检出率下降了 6 个百分点。Anthropic 的研究显示理解力差距达到 17 个百分点。沃顿的研究显示移除 AI 后表现下降 17%。METR 发现30-50% 的开发者拒绝在没有 AI 的情况下工作,即使报酬是每小时 150 美元。法航 447 号航班在 2009 年坠毁,因为自动驾驶断开后飞行员无法手动操控飞机。228 人遇难。

Artificial Intelligence Review 上的一篇综述提出了”第二奇点”(second singularity)这个概念——反复将任务委托给 AI 导致专业能力不可逆转地丧失的临界点。不仅是个人失去技能,而是整个组织在关键能力被集体遗忘后变得脆弱。综述称之为”系统脆化”(system embrittlement)。

人才管线的问题让情况更糟。初级工程师招聘下降了 30%。计算机科学专业注册人数 20 年来首次下降。今天的资深工程师是花了多年写烂代码和凌晨两点调 bug 成长起来的。如果 AI 接管了这些训练性质的任务,培养高级工程师的学徒路径就断了。我们需要更多有经验的人,但制造他们的路正在关闭。

为什么当前的设计会失败

上面所有的证据都指向同一个根本原因:“AI 生成,人类审查”这个范式违反了人类认知的实际运作方式。

生成效应。 认知心理学几十年前就知道,主动生成信息比被动接收信息更能增强记忆和理解。当 AI 写代码而你审查时,你得不到主动创造带来的神经编码。这解释了为什么 MIT 发现了脑活跃度下降,以及为什么 Anthropic 发现了理解力下降。

心流状态被打断。 Csikszentmihalyi 的心流状态需要挑战和技能之间的平衡。AI 打破了这个平衡:要么 AI 处理了挑战(太简单,无聊),要么你在审查不熟悉的 AI 输出(错误类型的挑战,焦虑)。提示-等待-审查的循环也打断了心流启动所需的 10-15 分钟不间断专注。

注意力维持的极限。 人类能维持专注监控大约 20 分钟,之后绩效就开始下降。每个领域中 AI 的整个安全模型都假设人类可以无限期地保持警觉。这个假设已经在航空、核电和医疗监测中被证伪了。我们正在把同一个假设嵌入 AI 工具里,然后期待不同的结果。

自我决定的崩塌。 当 AI 生成而你审查时,你失去了自主性(你不是在选择创造什么)、胜任感(掌握需要挣扎)和意义感(所有权来自于创造)。Scientific Reports 的研究直接测量了这一点。

真正有效的做法

证据同样指向了不会出问题的模式。有几种模型能同时保住生产力和人的能力。

给提示,不给答案。 沃顿研究中最重要的发现:一个被配置成辅导员模式的 ChatGPT,给提示而不是直接给答案,完全消除了认知债务。学生学到的东西一样多,练习期间成绩还提高了 127%。难度被保住了,所以思考能力迁移了。

人先写,AI 后改。 Scientific Reports 的研究表明,当人先写草稿再让 AI 帮忙润色时,自我效能感、所有权和意义感都被保住了。反过来的顺序会损害这三者。顺序决定了心理结果。

AI 做第二意见,不做第一意见。 一项70 名临床医生的随机对照试验测试了一种工作流程:医生和 AI 各自独立评估,然后 AI 生成一份综合报告,标明双方的一致和分歧。诊断准确率从 75% 提高到 82-85%。报警负担降低了 80%。AI 让医生的思考过程更加可见,而不是变得不必要。

人编码判断力,机器执行规模。 Meta 的 DrP 平台每天在 300 个团队中运行 50,000 次自动根因分析。MTTR 下降了 20-80%。但它不是自主运行的。工程师把自己的调查逻辑编写成分析器,机器大规模执行他们的思路。这已经在生产环境中运行了五年。

社会责任感。 CHI 2026 上关于”三方编程”的研究——两个人加一个 AI——发现当有另一个人在场时,开发者会减少对 AI 生成代码的依赖。社会责任感在防止认知外包方面比任何技术设计都有效。意味着什么:和人一起用 AI 结对编程可能比独自 vibe coding 更好——不是因为代码质量,而是因为有人在看着你。

一个不同的模型

基于以上所有证据,我认为 AI 工具需要在四种模式之间动态切换:

生成模式。 AI 主导,人审查。用于常规的、机械的、低风险的任务——理解不重要的场景。样板代码、数据格式化、日程安排。这是现有工具已经做得不错的地方。

脚手架模式。 AI 提供提示、结构、部分解决方案,人来完成工作。用于需要理解的场景——调试、学习新系统、技能建设。基于沃顿辅导员研究和”可取的困难”(desirable difficulties)文献。生成效应被保住了,因为人做了认知工作。

挑战模式。 AI 充当批评者、对手、压力测试员。用于高风险决策、新颖情境、创造性工作。“你的架构可能会因为这个原因失败。""这个诊断有 30% 的概率是错的,因为……”基于 Afroogh 等人提出的任务驱动框架,为 AI 分配自主、辅助和对抗三种角色。

退后模式。 AI 故意什么都不做。用于人处于心流状态、需要积累”伤疤组织”的技能训练、或者需要个人风格的创造性工作。编程会话的前 20 分钟。关键的调试过程。需要立场的写作。这是最难实现的模式,因为它不产生任何可见的输出,而行业中的每一个激励机制都在推动更多 AI,而不是更少。

在实际操作中,这可能看起来像这样:代码编辑器在会话开始的一段时间内保持安静,让你建立心智模型。在做机械工作时生成样板代码。在你写功能逻辑时展示替代方案而非完整解决方案。在你做架构决策时问”你考虑过这种故障模式吗?“偶尔强制你在没有 AI 的情况下工作——就像航空业强制要求手动飞行时数一样。

Ben Shneiderman 的”以人为中心的 AI”框架认为,高自动化和高人类控制不是对立的——你可以同时拥有两者。我觉得这是对的,但不完整。你还需要高人类能力,而这要求系统有时候主动退出。

我现在怎么看

我每天仍然在用 AI 工具。我不是在反对它们。我是在说,我们设计交互的方式优化错了目标。当前的工具最大化的是任务完成度。它们应该最大化的是人-AI 系统的长期整体表现——这意味着在追求产出的同时,保住人的判断力、参与感和能力。

METR 的发现——开发者使用 AI 后慢了 19%,但自己觉得快了 20%——是最清晰的症状。我们造出了一种感觉很高效但实际让人变弱的工具。BCG 的脑炸数据说明这不仅是感知问题,还是认知健康问题。Scientific Reports 的研究说明这不仅是认知问题,还是意义问题。医疗、航空和软件领域的去技能化证据说明,这些效应会随时间累积。

做对这件事的公司和工具开发者,会像好的教育者对待脚手架一样对待 AI:校准支持力度,让人变得更强,而不是让人产生依赖。做错的,会产出更快的成果和更弱的人。过去两年,我同时看到了这两种情况在发生,而研究正在开始解释为什么。


来源: 所有数据均在行文中链接到原始来源。关键研究:BCG “AI 脑炸”(2026) · 沃顿/PNAS 认知债务 · Anthropic 技能形成(2026) · Scientific Reports 被动 vs 主动 AI 使用(2026) · UC Berkeley 工作强化(2026) · “我们是否在自动化掉工作中的快乐”(2026) · METR 开发者研究(2025) · Bainbridge”自动化的讽刺”(1983) · DORA 2025 · 内镜去技能化(2025)