← 返回

人与AI的协作模型探讨

2026年1月20日

这是几条研究线索汇合的文章。

上一篇中,我计算了AI生成代码比人类便宜53,000倍——但加上人类验证输出和修复错误的成本后,真实优势缩小到1-5倍。这个模式在八个行业中都成立。验证成本是约束瓶颈。

这引出一个设计问题:验证成本是AI固有的,还是我们把AI交给人的方式造成的?如果不同的交互设计能把验证和错误成本削减一半,真实经济优势将从1-5倍跳到10-20倍。这不是用户体验改进,这是改变每一次AI部署数学的商业案例。

与此同时,AI如何影响使用者的证据正在汇聚。在编码医疗写作教育中,同一种交互模式——AI生成、人审查——一致地降低了人的技能、满意度和判断力。

问题是:有没有一种设计能同时解决两个问题——更好的经济效益和更好的人类结果?研究表明有,但有条件。


同样的五个失败,每个领域

我写过AI在编码、医疗、SRE、写作和教育中的应用。每篇文章关于不同领域,每篇都浮现了相同的五个模式。

“两头不讨好”陷阱。 人不够信任AI所以AI对的时候不跟,又够信任AI所以AI错的时候不查。医生不会基于AI输入改变诊断,但使用AI后他们的独立诊断能力下降了。开发者只有29%信任AI,但30-50%拒绝在没有AI的情况下工作

感知-现实偏差。 用户一致地认为AI帮助比实际更大。METR发现感知和实际速度之间有39个百分点的差距。DORA发现80%的开发者认为AI提高了生产力而交付稳定性在下降。BCG发现AI脑疲劳的工人不知道自己有多受损。

技能退化螺旋。 AI处理常规任务→人类练习减少→AI失败时人类无法接管。Bainbridge 1983年的自动化讽刺。内镜医生使用AI辅助后检测癌症的能力变差NASA发现飞行员的认知判断技能在自动化下退化——而这恰好是系统故障时最需要的技能。

复杂度超过理解能力。 AI让产出变便宜所以我们产出更多。但维护这些系统的人的理解没有同步增长。MTTR自2021年以来每年恶化——从47%的组织需要超过一小时恢复到82%。

持续监控的不可能性。 AI在每个领域的安全论证都假设人会仔细审查每一个输出。认知科学几十年来知道持续监控能力在约20分钟后退化。这个假设在航空、核电和医疗监控中已经失败了。


为什么”AI生成→人审查”和认知冲突

这五个失败追溯到同一个根因:主流交互范式和人类认知的实际运作方式冲突。四个成熟的原理解释了原因。

生成效应。 主动产出信息比被动审查产生更强的记忆和理解。这已被复制几十年。AI写、你审查,跳过了创造带来的神经编码。MIT的EEG研究发现ChatGPT用户在全部32个测量区域的大脑参与度最低,83%回忆不起自己AI辅助论文的要点。

心流破坏。 Csikszentmihalyi的心流需要挑战和技能的平衡。AI压垮了这个平衡——要么AI处理了挑战(太简单→无聊),要么你审查陌生的AI输出(错误类型的挑战→焦虑和上下文切换)。BCG描述这个转变为从”木工”到”空中交通管制”——从建造变成了监控。

自主性崩溃。 Ryan和Deci的自我决定理论识别三个基本需求:自主性、胜任感、归属感。2026年研究测量了不同AI模式下这三者的变化。AI生成→人编辑:自我效能、归属感、意义感全部下降——效果在回到手工工作后持续。最初的满意度提升逆转了。

警觉性限制。 持续监控你没创造的输出是人类最弱的认知能力之一。约20分钟后性能退化。AI的安全论证假设无限警觉。这个假设在每个测试过它的行业中都被证伪了。


更好设计的经济论点

这些认知失败有直接的经济后果:它们膨胀了验证和错误成本,而这正是把AI的原始优势从53,000倍压缩到1-5倍的东西。

“AI生成→人审查”中审查者没写代码,缺乏上下文。GitClear发现AI采用增加了91%的代码审查时间。CodeRabbit发现AI PR接受率32.7%(人类84.4%),等待时间4.6倍。

替代方案:人做设计决策、写逻辑。AI做机械实现。人审查的是自己的逻辑被AI实现的结果。验证成本降低因为审查者有上下文。

2026年经济学论文:AI准确率成本是凸的。完全自动化很少是成本最小化的。“部分自动化作为成本最小化均衡出现在大多数情况下。“


新证据:改变图景的五项研究

沃顿ChatGPT(N=1,000, PNAS)。 同一AI,不同设计。不限制使用→考试差17%。Socratic模式→练习提升127%,考试和对照组一样。

Scientific Reports被动vs主动(N=269, RCT, 2026)。 被动使用降低自我效能、归属感、意义感——回到手工工作后持续。主动协作保持三项指标。同样的产出效率,相反的心理结果。

Anthropic AI Fluency Index(数百万交互)。 “增强型”用户2倍fluency行为,5.6倍更可能质疑AI推理。生成输出让用户更不批判。迭代改进让用户更批判。

DORA心流-价值悖论(2024)。 AI增加心流AND降低工作价值感。“浅层心流”——没有意义的沉浸。

沃顿象棋。 系统调节→64%提升。用户自选→30%。用户无法自我调节AI使用。系统必须强制friction。


效率和快乐矛盾吗?

这是我最初以为有简单答案的问题。没有。

约10项研究同时测量了两个维度。结果分三类:

兼容的(4-5项)。 Noy & Zhang (Science, N=444):写作快40%+质量升18%+满意度上升。Brynjolfsson (NBER, N=5,179):客服+14%+留存上升。P&G (N=776):产出匹配团队+正面情绪。共同特征:AI是augmentation,人保留了agency。

矛盾的(3-4项)。 Nature Scientific Reports (N=3,562):当前任务表现提升,但回到独立工作时内在动机下降。MIT认知债务 (N=54):用户感觉更锐利而EEG显示最低参与度。沃顿PNAS (N=1,000):练习+48%但考试-17%。模式:短期效率掩盖长期能力侵蚀。

取决于设计的(2项)。 Scientific Reports被动vs主动 (N=269):同样的效率,相反的心理结果取决于交互模式。最重要的发现:矛盾不是AI固有的,是设计选择的产物。

诚实的综合: AI可以同时提升效率和快乐——但只在交互设计保留人类agency、认知参与和技能建设时。最大化短期效率(最小化人的工作量)系统性地破坏长期满意度和能力。

三个调节条件:

时间尺度。 短期通常兼容——AI感觉有帮助且产出更快。长期出现tension——动机侵蚀、技能萎缩。

技能水平。 新手两个维度一起提升:AI当导师,学习本身带来满足(Brynjolfsson:新手+34%)。专家更难:效率提升小(METR:有经验开发者-19%),AI可能威胁定义专家身份的胜任感。

任务类型。 去除无聊→兼容。去除判断→矛盾(人从做决定中获得意义,即使决定很难)。


证据说什么有效

五种交互模式一致优于”AI生成→人审查”。共同特征:人做认知工作。

给提示不给答案。 沃顿PNAS。ITS元分析(144项研究):scaffolding效应d = 0.46。

人先AI后。 Scientific Reports直接测试。放射诊断人先读workflow(85.0%)优于AI先读(80.8%)。

AI执行人的判断。 Meta DrP:50,000次自动分析/天。MTTR降20-80%。工程师写逻辑,AI执行。五年生产验证。

内置friction。 沃顿象棋:系统调节64% vs 按需30%。学生知道过度使用有害但无法自我调节

社会问责。 CHI 2026三方编程:有另一个人在场时开发者减少AI依赖。社会责任比技术设计更有效地阻止认知外包。


验证成本连接点

“AI生成→人审查”中验证昂贵因为审查者缺乏上下文。交互式推理界面(N=125)减少10.5%验证时间、提高12.1pp错误检测率。

但更根本的修复是改变谁做推理。“人做判断→AI实现”中,人审查自己决策的实现。认知架构变了,验证负担降了。

两个问题——膨胀的验证成本和退化的人类能力——源于同一根因:把判断交给AI,把检查留给人。修一个就修了两个。

但——这是我之前版本太干净的地方——“两个都修”是有条件的。在机械任务+时间压力下,Generate模式确实更高效,而用它的人类成本低(没有有意义的东西可以失去)。答案不是”永远Scaffold”,而是”知道哪个模式适合哪个情况”。


四种模式

Generate。 AI主导,人审查。常规、机械、低风险。当前默认——应该是少数。

Scaffold。 AI提供提示、结构、部分方案。人完成。理解重要的任何任务。

Challenge。 AI作为对手、批评者。高风险决策、新情况、创造性工作。

Step Back。 AI故意不做。心流中、建技能时、需要个人声音时。


什么时候用哪个:依赖上下文的框架

没有一个模式永远对。正确模式取决于四个变量:任务类型(机械/创造/判断/学习)、技能水平(新手/中级/专家)、时间压力(低/高/危机)、后果严重性

情况模式为什么权衡
专家 + 机械 + 任何压力Generate专家验证快,任务常规效率最高,无技能损失
新手 + 任何 + 低压力Scaffold最佳学习机会效率中等,学习最大化
新手 + 机械 + 高压力Generate现在,之后学习必须交付,之后安排学习接受短期技能缺口
任何人 + 判断 + 高后果ChallengeAI压测人的推理效率中等,错误率最低
任何人 + 学习任务Scaffold或Step Back永远不要Generate用于学习——沃顿-17%接受更慢的产出
危机 + 已知问题有playbookGenerate(执行playbook)Meta DrP:已编码逻辑自动执行仅限预编码的已知问题
危机 + 新问题ScaffoldAI快速收集数据,人做所有决定风险最高时判断必须在人

关键洞见:时间压力改变谁做机械工作。永远不改变谁做判断。 即使deadline到了,人做决定、AI加速实现。唯一例外是有测试过的playbook的已知问题。

新手需要更多Scaffold(AI当教师)。专家需要更多Challenge(AI当对手)。不区分用户的系统对所有人次优。


每种模式的效率-快乐权衡

模式短期效率长期效率短期快乐长期快乐技能
Generate最高下降(技能侵蚀→验证差→错误增加)中(新鲜感)→低低(自我效能下降)下降
Scaffold稳定/上升高(成就感)高(胜任感维持)保持/增长
Challenge上升中(有挑战,可能挫折)高(成长感)增长
Step Back最低上升因人而异高(自信、自主)最高增长

如果只看短期效率,Generate赢。如果看效率×快乐×技能的长期综合值,Scaffold赢。行业在优化第一列。证据表明后面的列更重要。


尚不存在的实验

没有单一研究测试了完整框架。

四个arms: (1)无AI。(2)AI生成→人审查。(3)AI做机械→人做判断。(4)AI挑战推理→实现人的决策。

参与者: 60-100专业开发者。真实任务从boilerplate到debug生产race condition。

同时测量: 生成成本、验证成本、错误率、总经济成本、2周后技能保留、自我效能、感知vs实际生产力、满意度。

如果假设正确,Arm 3总成本低于Arm 2(验证和错误成本降低)且技能保留和满意度更好。如果假设错误——这同样重要。

当前状态——公司基于直觉做价值万亿的交互设计选择——才是需要改变的。


我们真正在优化什么

当前AI工具优化任务完成速度。“输出产生了吗?”

更好的问题:“人-AI系统在随时间变强吗?”

经济和人的论点汇合——但有条件。它们在交互设计保留人类agency和认知参与时汇合。在短期效率优先于长期能力时分歧。取决于任务类型、技能水平、时间压力和后果严重性。

这不是”做X两者都提升”的简单故事。而是:存在一个两者都提升的设计空间,证据大致告诉我们那个空间在哪,每个主要AI产品的默认设计不在里面,而且正确的设计取决于context——一刀切的工具无法捕捉。

建造能适应context的AI工具——对boilerplate用Generate,对判断用Scaffold,对高风险决策用Challenge,对学习用Step Back——比建只做一件事的工具更难。这也是证据支持的唯一能同时产生经济价值和人类价值的方法。


参考资料