这是几条研究线索汇合的文章。
在上一篇中,我计算了AI生成代码比人类便宜53,000倍——但加上人类验证输出和修复错误的成本后,真实优势缩小到1-5倍。这个模式在八个行业中都成立。验证成本是约束瓶颈。
这引出一个设计问题:验证成本是AI固有的,还是我们把AI交给人的方式造成的?如果不同的交互设计能把验证和错误成本削减一半,真实经济优势将从1-5倍跳到10-20倍。这不是用户体验改进,这是改变每一次AI部署数学的商业案例。
与此同时,AI如何影响使用者的证据正在汇聚。在编码、医疗、写作和教育中,同一种交互模式——AI生成、人审查——一致地降低了人的技能、满意度和判断力。
问题是:有没有一种设计能同时解决两个问题——更好的经济效益和更好的人类结果?研究表明有,但有条件。
同样的五个失败,每个领域
我写过AI在编码、医疗、SRE、写作和教育中的应用。每篇文章关于不同领域,每篇都浮现了相同的五个模式。
“两头不讨好”陷阱。 人不够信任AI所以AI对的时候不跟,又够信任AI所以AI错的时候不查。医生不会基于AI输入改变诊断,但使用AI后他们的独立诊断能力下降了。开发者只有29%信任AI,但30-50%拒绝在没有AI的情况下工作。
感知-现实偏差。 用户一致地认为 AI 帮助比实际更大。METR 发现感知和实际速度之间有 39 个百分点的差距。DORA 发现 80% 的开发者认为 AI 提高了生产力而交付稳定性在下降。BCG 发现出现 AI 脑炸(brain fry) 的工人不知道自己有多受损。
技能退化螺旋。 AI处理常规任务→人类练习减少→AI失败时人类无法接管。Bainbridge 1983年的自动化讽刺。内镜医生使用AI辅助后检测癌症的能力变差。NASA发现飞行员的认知判断技能在自动化下退化——而这恰好是系统故障时最需要的技能。
复杂度超过理解能力。 AI让产出变便宜所以我们产出更多。但维护这些系统的人的理解没有同步增长。MTTR自2021年以来每年恶化——从47%的组织需要超过一小时恢复到82%。
持续监控的不可能性。 AI在每个领域的安全论证都假设人会仔细审查每一个输出。认知科学几十年来知道持续监控能力在约20分钟后退化。这个假设在航空、核电和医疗监控中已经失败了。
为什么”AI生成→人审查”和认知冲突
这五个失败追溯到同一个根因:主流交互范式和人类认知的实际运作方式冲突。四个成熟的原理解释了原因。
生成效应。 主动产出信息比被动审查产生更强的记忆和理解。这已被复制几十年。AI写、你审查,跳过了创造带来的神经编码。MIT的EEG研究发现ChatGPT用户在全部32个测量区域的大脑参与度最低,83%回忆不起自己AI辅助论文的要点。
心流破坏。 Csikszentmihalyi的心流需要挑战和技能的平衡。AI压垮了这个平衡——要么AI处理了挑战(太简单→无聊),要么你审查陌生的AI输出(错误类型的挑战→焦虑和上下文切换)。BCG描述这个转变为从”木工”到”空中交通管制”——从建造变成了监控。
自主性崩溃。 Ryan和Deci的自我决定理论识别三个基本需求:自主性、胜任感、归属感。2026年研究测量了不同AI模式下这三者的变化。AI生成→人编辑:自我效能、归属感、意义感全部下降——效果在回到手工工作后持续。最初的满意度提升逆转了。
警觉性限制。 持续监控你没创造的输出是人类最弱的认知能力之一。约20分钟后性能退化。AI的安全论证假设无限警觉。这个假设在每个测试过它的行业中都被证伪了。
更好设计的经济论点
这些认知失败有直接的经济后果:它们膨胀了验证和错误成本,而这正是把AI的原始优势从53,000倍压缩到1-5倍的东西。
“AI生成→人审查”中审查者没写代码,缺乏上下文。GitClear发现AI采用增加了91%的代码审查时间。CodeRabbit发现AI PR接受率32.7%(人类84.4%),等待时间4.6倍。
替代方案:人做设计决策、写逻辑。AI做机械实现。人审查的是自己的逻辑被AI实现的结果。验证成本降低因为审查者有上下文。
2026年经济学论文:AI准确率成本是凸的。完全自动化很少是成本最小化的。“部分自动化作为成本最小化均衡出现在大多数情况下。“
新证据:改变图景的五项研究
沃顿 ChatGPT(N=1,000,PNAS)。 同一 AI,不同设计。不限制使用→考试差 17%。苏格拉底式模式→练习提升 127%,考试与对照组持平。
Scientific Reports被动vs主动(N=269, RCT, 2026)。 被动使用降低自我效能、归属感、意义感——回到手工工作后持续。主动协作保持三项指标。同样的产出效率,相反的心理结果。
Anthropic AI 熟练度指数(数百万次交互)。 「增强型」用户熟练度相关行为多 2 倍,质疑 AI 推理的可能性高 5.6 倍。直接生成输出让用户更不批判;迭代改进则让用户更批判。
DORA 心流—价值悖论(2024)。 AI既增加心流,又降低工作价值感。「浅层心流」——没有意义的沉浸。
沃顿象棋。 系统调节→64% 提升。用户自选→30%。用户无法自我调节 AI 使用。系统必须强制加入阻力。
效率和快乐矛盾吗?
这是我最初以为有简单答案的问题。没有。
约10项研究同时测量了两个维度。结果分三类:
兼容的(4–5 项)。 Noy & Zhang(Science,N=444):写作快 40%、质量升 18%、满意度上升。Brynjolfsson(NBER,N=5,179):客服 +14%、留存上升。P&G(N=776):产出匹配团队、正面情绪增加。共同特征:AI 是增强工具,人保留了自主性。
矛盾的(3-4项)。 Nature Scientific Reports (N=3,562):当前任务表现提升,但回到独立工作时内在动机下降。MIT认知债务 (N=54):用户感觉更锐利而EEG显示最低参与度。沃顿PNAS (N=1,000):练习+48%但考试-17%。模式:短期效率掩盖长期能力侵蚀。
取决于设计的(2项)。 Scientific Reports被动vs主动 (N=269):同样的效率,相反的心理结果取决于交互模式。最重要的发现:矛盾不是AI固有的,是设计选择的产物。
诚实的综合: AI 可以同时提升效率和快乐——但只在交互设计保留人类自主性、认知参与和技能建设时。最大化短期效率(最小化人的工作量)会系统性地破坏长期满意度和能力。
三个调节条件:
时间尺度。 短期通常兼容——AI 感觉有帮助且产出更快。长期则出现张力——动机侵蚀、技能萎缩。
技能水平。 新手两个维度一起提升:AI当导师,学习本身带来满足(Brynjolfsson:新手+34%)。专家更难:效率提升小(METR:有经验开发者-19%),AI可能威胁定义专家身份的胜任感。
任务类型。 去除无聊→兼容。去除判断→矛盾(人从做决定中获得意义,即使决定很难)。
证据说什么有效
五种交互模式一致优于”AI生成→人审查”。共同特征:人做认知工作。
给提示不给答案。 沃顿 PNAS。ITS 元分析(144 项研究):脚手架效应 d = 0.46。
人先 AI 后。 Scientific Reports 直接测试。放射诊断人先读工作流(85.0%)优于 AI 先读(80.8%)。
AI执行人的判断。 Meta DrP:50,000次自动分析/天。MTTR降20-80%。工程师写逻辑,AI执行。五年生产验证。
内置阻力。 沃顿象棋:系统调节 64% vs 按需 30%。学生知道过度使用有害但无法自我调节。
社会问责。 CHI 2026三方编程:有另一个人在场时开发者减少AI依赖。社会责任比技术设计更有效地阻止认知外包。
验证成本连接点
“AI生成→人审查”中验证昂贵因为审查者缺乏上下文。交互式推理界面(N=125)减少10.5%验证时间、提高12.1pp错误检测率。
但更根本的修复是改变谁做推理。“人做判断→AI实现”中,人审查自己决策的实现。认知架构变了,验证负担降了。
两个问题——膨胀的验证成本和退化的人类能力——源于同一根因:把判断交给AI,把检查留给人。修一个就修了两个。
但——这是我之前版本太干净的地方——「两个都修」是有条件的。在机械任务加时间压力下,生成模式确实更高效,而用它的人类成本低(没有有意义的东西可以失去)。答案不是「永远脚手架」,而是「知道哪个模式适合哪种情况」。
四种模式
生成(Generate)。 AI 主导,人审查。常规、机械、低风险。当前默认——应该是少数。
脚手架(Scaffold)。 AI 提供提示、结构、部分方案。人完成。理解重要的任何任务。
挑战(Challenge)。 AI 作为对手、批评者。高风险决策、新情况、创造性工作。
退后(Step Back)。 AI 故意不做。心流中、建技能时、需要个人声音时。
什么时候用哪个:依赖上下文的框架
没有一个模式永远对。正确模式取决于四个变量:任务类型(机械/创造/判断/学习)、技能水平(新手/中级/专家)、时间压力(低/高/危机)、后果严重性。
| 情况 | 模式 | 为什么 | 权衡 |
|---|---|---|---|
| 专家 + 机械 + 任何压力 | 生成 | 专家验证快,任务常规 | 效率最高,无技能损失 |
| 新手 + 任何 + 低压力 | 脚手架 | 最佳学习机会 | 效率中等,学习最大化 |
| 新手 + 机械 + 高压力 | 生成(现在),之后学习 | 必须交付,之后安排学习 | 接受短期技能缺口 |
| 任何人 + 判断 + 高后果 | 挑战 | AI 压测人的推理 | 效率中等,错误率最低 |
| 任何人 + 学习任务 | 脚手架或退后 | 永远不要生成用于学习——沃顿 −17% | 接受更慢的产出 |
| 危机 + 已知问题有操作手册 | 生成(执行操作手册) | Meta DrP:已编码逻辑自动执行 | 仅限预编码的已知问题 |
| 危机 + 新问题 | 脚手架 | AI 快速收集数据,人做所有决定 | 风险最高时判断必须在人 |
关键洞见:时间压力改变谁做机械工作,永远不改变谁做判断。 即使截止日期到了,人做决定、AI 加速实现。唯一例外是有经测试的操作手册的已知问题。
新手需要更多脚手架(AI 当教师)。专家需要更多挑战(AI 当对手)。不区分用户的系统对所有人次优。
每种模式的效率-快乐权衡
| 模式 | 短期效率 | 长期效率 | 短期快乐 | 长期快乐 | 技能 |
|---|---|---|---|---|---|
| 生成 | 最高 | 下降(技能侵蚀→验证差→错误增加) | 中(新鲜感)→低 | 低(自我效能下降) | 下降 |
| 脚手架 | 高 | 稳定/上升 | 高(成就感) | 高(胜任感维持) | 保持/增长 |
| 挑战 | 中 | 上升 | 中(有挑战,可能挫折) | 高(成长感) | 增长 |
| 退后 | 最低 | 上升 | 因人而异 | 高(自信、自主) | 最高增长 |
如果只看短期效率,生成模式赢。如果看效率×快乐×技能的长期综合值,脚手架赢。行业在优化第一列。证据表明后面的列更重要。
尚不存在的实验
没有单一研究测试了完整框架。
四个实验组: (1) 无 AI。(2) AI 生成→人审查。(3) AI 做机械→人做判断。(4) AI 挑战推理→实现人的决策。
参与者: 60–100 名专业开发者。真实任务从样板代码到调试生产环境 race condition。
同时测量: 生成成本、验证成本、错误率、总经济成本、2周后技能保留、自我效能、感知vs实际生产力、满意度。
如果假设正确,实验组 3 总成本低于实验组 2(验证和错误成本降低)且技能保留和满意度更好。如果假设错误——这同样重要。
当前状态——公司基于直觉做价值万亿的交互设计选择——才是需要改变的。
我们真正在优化什么
当前AI工具优化任务完成速度。“输出产生了吗?”
更好的问题:“人-AI系统在随时间变强吗?”
经济和人的论点汇合——但有条件。它们在交互设计保留人类自主性和认知参与时汇合;在短期效率优先于长期能力时分歧。取决于任务类型、技能水平、时间压力和后果严重性。
这不是「做 X 两者都提升」的简单故事。而是:存在一个两者都提升的设计空间,证据大致告诉我们那个空间在哪,每个主要 AI 产品的默认设计不在里面,而且正确的设计取决于情境——一刀切的工具无法捕捉。
建造能适应情境的 AI 工具——对样板代码用生成、对判断用脚手架、对高风险决策用挑战、对学习用退后——比建只做一件事的工具更难。这也是证据支持的唯一能同时产生经济价值和人类价值的方法。
参考资料