人与AI的协作模型探讨

这是几条研究线索汇合的文章。

在上一篇中，我计算了AI生成代码比人类便宜53,000倍——但加上人类验证输出和修复错误的成本后，真实优势缩小到1-5倍。这个模式在八个行业中都成立。验证成本是约束瓶颈。

这引出一个设计问题：验证成本是AI固有的，还是我们把AI交给人的方式造成的？如果不同的交互设计能把验证和错误成本削减一半，真实经济优势将从1-5倍跳到10-20倍。这不是用户体验改进，这是改变每一次AI部署数学的商业案例。

与此同时，AI如何影响使用者的证据正在汇聚。在编码、医疗、写作和教育中，同一种交互模式——AI生成、人审查——一致地降低了人的技能、满意度和判断力。

问题是：有没有一种设计能同时解决两个问题——更好的经济效益和更好的人类结果？研究表明有，但有条件。

同样的五个失败，每个领域

我写过AI在编码、医疗、SRE、写作和教育中的应用。每篇文章关于不同领域，每篇都浮现了相同的五个模式。

“两头不讨好”陷阱。 人不够信任AI所以AI对的时候不跟，又够信任AI所以AI错的时候不查。医生不会基于AI输入改变诊断，但使用AI后他们的独立诊断能力下降了。开发者只有29%信任AI，但30-50%拒绝在没有AI的情况下工作。

感知-现实偏差。 用户一致地认为AI帮助比实际更大。METR发现感知和实际速度之间有39个百分点的差距。DORA发现80%的开发者认为AI提高了生产力而交付稳定性在下降。BCG发现AI脑疲劳的工人不知道自己有多受损。

技能退化螺旋。 AI处理常规任务→人类练习减少→AI失败时人类无法接管。Bainbridge 1983年的自动化讽刺。内镜医生使用AI辅助后检测癌症的能力变差。NASA发现飞行员的认知判断技能在自动化下退化——而这恰好是系统故障时最需要的技能。

复杂度超过理解能力。 AI让产出变便宜所以我们产出更多。但维护这些系统的人的理解没有同步增长。MTTR自2021年以来每年恶化——从47%的组织需要超过一小时恢复到82%。

持续监控的不可能性。 AI在每个领域的安全论证都假设人会仔细审查每一个输出。认知科学几十年来知道持续监控能力在约20分钟后退化。这个假设在航空、核电和医疗监控中已经失败了。

为什么”AI生成→人审查”和认知冲突

这五个失败追溯到同一个根因：主流交互范式和人类认知的实际运作方式冲突。四个成熟的原理解释了原因。

生成效应。 主动产出信息比被动审查产生更强的记忆和理解。这已被复制几十年。AI写、你审查，跳过了创造带来的神经编码。MIT的EEG研究发现ChatGPT用户在全部32个测量区域的大脑参与度最低，83%回忆不起自己AI辅助论文的要点。

心流破坏。 Csikszentmihalyi的心流需要挑战和技能的平衡。AI压垮了这个平衡——要么AI处理了挑战（太简单→无聊），要么你审查陌生的AI输出（错误类型的挑战→焦虑和上下文切换）。BCG描述这个转变为从”木工”到”空中交通管制”——从建造变成了监控。

自主性崩溃。 Ryan和Deci的自我决定理论识别三个基本需求：自主性、胜任感、归属感。2026年研究测量了不同AI模式下这三者的变化。AI生成→人编辑：自我效能、归属感、意义感全部下降——效果在回到手工工作后持续。最初的满意度提升逆转了。

警觉性限制。 持续监控你没创造的输出是人类最弱的认知能力之一。约20分钟后性能退化。AI的安全论证假设无限警觉。这个假设在每个测试过它的行业中都被证伪了。

更好设计的经济论点

这些认知失败有直接的经济后果：它们膨胀了验证和错误成本，而这正是把AI的原始优势从53,000倍压缩到1-5倍的东西。

“AI生成→人审查”中审查者没写代码，缺乏上下文。GitClear发现AI采用增加了91%的代码审查时间。CodeRabbit发现AI PR接受率32.7%（人类84.4%），等待时间4.6倍。

替代方案：人做设计决策、写逻辑。AI做机械实现。人审查的是自己的逻辑被AI实现的结果。验证成本降低因为审查者有上下文。

2026年经济学论文：AI准确率成本是凸的。完全自动化很少是成本最小化的。“部分自动化作为成本最小化均衡出现在大多数情况下。“

新证据：改变图景的五项研究

沃顿ChatGPT（N=1,000, PNAS）。 同一AI，不同设计。不限制使用→考试差17%。Socratic模式→练习提升127%，考试和对照组一样。

Scientific Reports被动vs主动（N=269, RCT, 2026）。 被动使用降低自我效能、归属感、意义感——回到手工工作后持续。主动协作保持三项指标。同样的产出效率，相反的心理结果。

Anthropic AI Fluency Index（数百万交互）。 “增强型”用户2倍fluency行为，5.6倍更可能质疑AI推理。生成输出让用户更不批判。迭代改进让用户更批判。

DORA心流-价值悖论（2024）。 AI增加心流AND降低工作价值感。“浅层心流”——没有意义的沉浸。

沃顿象棋。 系统调节→64%提升。用户自选→30%。用户无法自我调节AI使用。系统必须强制friction。

效率和快乐矛盾吗？

这是我最初以为有简单答案的问题。没有。

约10项研究同时测量了两个维度。结果分三类：

兼容的（4-5项）。 Noy & Zhang (Science, N=444)：写作快40%+质量升18%+满意度上升。Brynjolfsson (NBER, N=5,179)：客服+14%+留存上升。P&G (N=776)：产出匹配团队+正面情绪。共同特征：AI是augmentation，人保留了agency。

矛盾的（3-4项）。 Nature Scientific Reports (N=3,562)：当前任务表现提升，但回到独立工作时内在动机下降。MIT认知债务 (N=54)：用户感觉更锐利而EEG显示最低参与度。沃顿PNAS (N=1,000)：练习+48%但考试-17%。模式：短期效率掩盖长期能力侵蚀。

取决于设计的（2项）。 Scientific Reports被动vs主动 (N=269)：同样的效率，相反的心理结果取决于交互模式。最重要的发现：矛盾不是AI固有的，是设计选择的产物。

诚实的综合： AI可以同时提升效率和快乐——但只在交互设计保留人类agency、认知参与和技能建设时。最大化短期效率（最小化人的工作量）系统性地破坏长期满意度和能力。

三个调节条件：

时间尺度。 短期通常兼容——AI感觉有帮助且产出更快。长期出现tension——动机侵蚀、技能萎缩。

技能水平。 新手两个维度一起提升：AI当导师，学习本身带来满足（Brynjolfsson：新手+34%）。专家更难：效率提升小（METR：有经验开发者-19%），AI可能威胁定义专家身份的胜任感。

任务类型。 去除无聊→兼容。去除判断→矛盾（人从做决定中获得意义，即使决定很难）。

证据说什么有效

五种交互模式一致优于”AI生成→人审查”。共同特征：人做认知工作。

给提示不给答案。 沃顿PNAS。ITS元分析（144项研究）：scaffolding效应d = 0.46。

人先AI后。 Scientific Reports直接测试。放射诊断人先读workflow（85.0%）优于AI先读（80.8%）。

AI执行人的判断。 Meta DrP：50,000次自动分析/天。MTTR降20-80%。工程师写逻辑，AI执行。五年生产验证。

内置friction。 沃顿象棋：系统调节64% vs 按需30%。学生知道过度使用有害但无法自我调节。

社会问责。 CHI 2026三方编程：有另一个人在场时开发者减少AI依赖。社会责任比技术设计更有效地阻止认知外包。

验证成本连接点

“AI生成→人审查”中验证昂贵因为审查者缺乏上下文。交互式推理界面（N=125）减少10.5%验证时间、提高12.1pp错误检测率。

但更根本的修复是改变谁做推理。“人做判断→AI实现”中，人审查自己决策的实现。认知架构变了，验证负担降了。

两个问题——膨胀的验证成本和退化的人类能力——源于同一根因：把判断交给AI，把检查留给人。修一个就修了两个。

但——这是我之前版本太干净的地方——“两个都修”是有条件的。在机械任务+时间压力下，Generate模式确实更高效，而用它的人类成本低（没有有意义的东西可以失去）。答案不是”永远Scaffold”，而是”知道哪个模式适合哪个情况”。

四种模式

Generate。 AI主导，人审查。常规、机械、低风险。当前默认——应该是少数。

Scaffold。 AI提供提示、结构、部分方案。人完成。理解重要的任何任务。

Challenge。 AI作为对手、批评者。高风险决策、新情况、创造性工作。

Step Back。 AI故意不做。心流中、建技能时、需要个人声音时。

什么时候用哪个：依赖上下文的框架

没有一个模式永远对。正确模式取决于四个变量：任务类型（机械/创造/判断/学习）、技能水平（新手/中级/专家）、时间压力（低/高/危机）、后果严重性。

情况	模式	为什么	权衡
专家 + 机械 + 任何压力	Generate	专家验证快，任务常规	效率最高，无技能损失
新手 + 任何 + 低压力	Scaffold	最佳学习机会	效率中等，学习最大化
新手 + 机械 + 高压力	Generate现在，之后学习	必须交付，之后安排学习	接受短期技能缺口
任何人 + 判断 + 高后果	Challenge	AI压测人的推理	效率中等，错误率最低
任何人 + 学习任务	Scaffold或Step Back	永远不要Generate用于学习——沃顿-17%	接受更慢的产出
危机 + 已知问题有playbook	Generate（执行playbook）	Meta DrP：已编码逻辑自动执行	仅限预编码的已知问题
危机 + 新问题	Scaffold	AI快速收集数据，人做所有决定	风险最高时判断必须在人

关键洞见：时间压力改变谁做机械工作。永远不改变谁做判断。 即使deadline到了，人做决定、AI加速实现。唯一例外是有测试过的playbook的已知问题。

新手需要更多Scaffold（AI当教师）。专家需要更多Challenge（AI当对手）。不区分用户的系统对所有人次优。

每种模式的效率-快乐权衡

模式	短期效率	长期效率	短期快乐	长期快乐	技能
Generate	最高	下降（技能侵蚀→验证差→错误增加）	中（新鲜感）→低	低（自我效能下降）	下降
Scaffold	高	稳定/上升	高（成就感）	高（胜任感维持）	保持/增长
Challenge	中	上升	中（有挑战，可能挫折）	高（成长感）	增长
Step Back	最低	上升	因人而异	高（自信、自主）	最高增长

如果只看短期效率，Generate赢。如果看效率×快乐×技能的长期综合值，Scaffold赢。行业在优化第一列。证据表明后面的列更重要。

尚不存在的实验

没有单一研究测试了完整框架。

四个arms： (1)无AI。(2)AI生成→人审查。(3)AI做机械→人做判断。(4)AI挑战推理→实现人的决策。

参与者： 60-100专业开发者。真实任务从boilerplate到debug生产race condition。

同时测量： 生成成本、验证成本、错误率、总经济成本、2周后技能保留、自我效能、感知vs实际生产力、满意度。

如果假设正确，Arm 3总成本低于Arm 2（验证和错误成本降低）且技能保留和满意度更好。如果假设错误——这同样重要。

当前状态——公司基于直觉做价值万亿的交互设计选择——才是需要改变的。

我们真正在优化什么

当前AI工具优化任务完成速度。“输出产生了吗？”

更好的问题：“人-AI系统在随时间变强吗？”

经济和人的论点汇合——但有条件。它们在交互设计保留人类agency和认知参与时汇合。在短期效率优先于长期能力时分歧。取决于任务类型、技能水平、时间压力和后果严重性。

这不是”做X两者都提升”的简单故事。而是：存在一个两者都提升的设计空间，证据大致告诉我们那个空间在哪，每个主要AI产品的默认设计不在里面，而且正确的设计取决于context——一刀切的工具无法捕捉。

建造能适应context的AI工具——对boilerplate用Generate，对判断用Scaffold，对高风险决策用Challenge，对学习用Step Back——比建只做一件事的工具更难。这也是证据支持的唯一能同时产生经济价值和人类价值的方法。

参考资料

HCI主研究笔记 — 2,200+行证据
AI真实经济影响 — 8个领域验证成本计算
HCI交互设计证据