← 返回

人与AI的协作模型探讨

2026年1月20日

这是几条研究线索汇合的文章。

上一篇中,我计算了AI生成代码比人类便宜53,000倍——但加上人类验证输出和修复错误的成本后,真实优势缩小到1-5倍。这个模式在八个行业中都成立。验证成本是约束瓶颈。

这引出一个设计问题:验证成本是AI固有的,还是我们把AI交给人的方式造成的?如果不同的交互设计能把验证和错误成本削减一半,真实经济优势将从1-5倍跳到10-20倍。这不是用户体验改进,这是改变每一次AI部署数学的商业案例。

与此同时,AI如何影响使用者的证据正在汇聚。在编码医疗写作教育中,同一种交互模式——AI生成、人审查——一致地降低了人的技能、满意度和判断力。

问题是:有没有一种设计能同时解决两个问题——更好的经济效益和更好的人类结果?研究表明有,但有条件。


同样的五个失败,每个领域

我写过AI在编码、医疗、SRE、写作和教育中的应用。每篇文章关于不同领域,每篇都浮现了相同的五个模式。

“两头不讨好”陷阱。 人不够信任AI所以AI对的时候不跟,又够信任AI所以AI错的时候不查。医生不会基于AI输入改变诊断,但使用AI后他们的独立诊断能力下降了。开发者只有29%信任AI,但30-50%拒绝在没有AI的情况下工作

感知-现实偏差。 用户一致地认为 AI 帮助比实际更大。METR 发现感知和实际速度之间有 39 个百分点的差距。DORA 发现 80% 的开发者认为 AI 提高了生产力而交付稳定性在下降。BCG 发现出现 AI 脑炸(brain fry) 的工人不知道自己有多受损。

技能退化螺旋。 AI处理常规任务→人类练习减少→AI失败时人类无法接管。Bainbridge 1983年的自动化讽刺。内镜医生使用AI辅助后检测癌症的能力变差NASA发现飞行员的认知判断技能在自动化下退化——而这恰好是系统故障时最需要的技能。

复杂度超过理解能力。 AI让产出变便宜所以我们产出更多。但维护这些系统的人的理解没有同步增长。MTTR自2021年以来每年恶化——从47%的组织需要超过一小时恢复到82%。

持续监控的不可能性。 AI在每个领域的安全论证都假设人会仔细审查每一个输出。认知科学几十年来知道持续监控能力在约20分钟后退化。这个假设在航空、核电和医疗监控中已经失败了。


为什么”AI生成→人审查”和认知冲突

这五个失败追溯到同一个根因:主流交互范式和人类认知的实际运作方式冲突。四个成熟的原理解释了原因。

生成效应。 主动产出信息比被动审查产生更强的记忆和理解。这已被复制几十年。AI写、你审查,跳过了创造带来的神经编码。MIT的EEG研究发现ChatGPT用户在全部32个测量区域的大脑参与度最低,83%回忆不起自己AI辅助论文的要点。

心流破坏。 Csikszentmihalyi的心流需要挑战和技能的平衡。AI压垮了这个平衡——要么AI处理了挑战(太简单→无聊),要么你审查陌生的AI输出(错误类型的挑战→焦虑和上下文切换)。BCG描述这个转变为从”木工”到”空中交通管制”——从建造变成了监控。

自主性崩溃。 Ryan和Deci的自我决定理论识别三个基本需求:自主性、胜任感、归属感。2026年研究测量了不同AI模式下这三者的变化。AI生成→人编辑:自我效能、归属感、意义感全部下降——效果在回到手工工作后持续。最初的满意度提升逆转了。

警觉性限制。 持续监控你没创造的输出是人类最弱的认知能力之一。约20分钟后性能退化。AI的安全论证假设无限警觉。这个假设在每个测试过它的行业中都被证伪了。


更好设计的经济论点

这些认知失败有直接的经济后果:它们膨胀了验证和错误成本,而这正是把AI的原始优势从53,000倍压缩到1-5倍的东西。

“AI生成→人审查”中审查者没写代码,缺乏上下文。GitClear发现AI采用增加了91%的代码审查时间。CodeRabbit发现AI PR接受率32.7%(人类84.4%),等待时间4.6倍。

替代方案:人做设计决策、写逻辑。AI做机械实现。人审查的是自己的逻辑被AI实现的结果。验证成本降低因为审查者有上下文。

2026年经济学论文:AI准确率成本是凸的。完全自动化很少是成本最小化的。“部分自动化作为成本最小化均衡出现在大多数情况下。“


新证据:改变图景的五项研究

沃顿 ChatGPT(N=1,000,PNAS)。 同一 AI,不同设计。不限制使用→考试差 17%。苏格拉底式模式→练习提升 127%,考试与对照组持平。

Scientific Reports被动vs主动(N=269, RCT, 2026)。 被动使用降低自我效能、归属感、意义感——回到手工工作后持续。主动协作保持三项指标。同样的产出效率,相反的心理结果。

Anthropic AI 熟练度指数(数百万次交互)。 「增强型」用户熟练度相关行为多 2 倍,质疑 AI 推理的可能性高 5.6 倍。直接生成输出让用户更不批判;迭代改进则让用户更批判。

DORA 心流—价值悖论(2024)。 AI既增加心流,又降低工作价值感。「浅层心流」——没有意义的沉浸。

沃顿象棋。 系统调节→64% 提升。用户自选→30%。用户无法自我调节 AI 使用。系统必须强制加入阻力。


效率和快乐矛盾吗?

这是我最初以为有简单答案的问题。没有。

约10项研究同时测量了两个维度。结果分三类:

兼容的(4–5 项)。 Noy & Zhang(Science,N=444):写作快 40%、质量升 18%、满意度上升。Brynjolfsson(NBER,N=5,179):客服 +14%、留存上升。P&G(N=776):产出匹配团队、正面情绪增加。共同特征:AI 是增强工具,人保留了自主性。

矛盾的(3-4项)。 Nature Scientific Reports (N=3,562):当前任务表现提升,但回到独立工作时内在动机下降。MIT认知债务 (N=54):用户感觉更锐利而EEG显示最低参与度。沃顿PNAS (N=1,000):练习+48%但考试-17%。模式:短期效率掩盖长期能力侵蚀。

取决于设计的(2项)。 Scientific Reports被动vs主动 (N=269):同样的效率,相反的心理结果取决于交互模式。最重要的发现:矛盾不是AI固有的,是设计选择的产物。

诚实的综合: AI 可以同时提升效率和快乐——但只在交互设计保留人类自主性、认知参与和技能建设时。最大化短期效率(最小化人的工作量)会系统性地破坏长期满意度和能力。

三个调节条件:

时间尺度。 短期通常兼容——AI 感觉有帮助且产出更快。长期则出现张力——动机侵蚀、技能萎缩。

技能水平。 新手两个维度一起提升:AI当导师,学习本身带来满足(Brynjolfsson:新手+34%)。专家更难:效率提升小(METR:有经验开发者-19%),AI可能威胁定义专家身份的胜任感。

任务类型。 去除无聊→兼容。去除判断→矛盾(人从做决定中获得意义,即使决定很难)。


证据说什么有效

五种交互模式一致优于”AI生成→人审查”。共同特征:人做认知工作。

给提示不给答案。 沃顿 PNAS。ITS 元分析(144 项研究):脚手架效应 d = 0.46。

人先 AI 后。 Scientific Reports 直接测试。放射诊断人先读工作流(85.0%)优于 AI 先读(80.8%)。

AI执行人的判断。 Meta DrP:50,000次自动分析/天。MTTR降20-80%。工程师写逻辑,AI执行。五年生产验证。

内置阻力。 沃顿象棋:系统调节 64% vs 按需 30%。学生知道过度使用有害但无法自我调节

社会问责。 CHI 2026三方编程:有另一个人在场时开发者减少AI依赖。社会责任比技术设计更有效地阻止认知外包。


验证成本连接点

“AI生成→人审查”中验证昂贵因为审查者缺乏上下文。交互式推理界面(N=125)减少10.5%验证时间、提高12.1pp错误检测率。

但更根本的修复是改变谁做推理。“人做判断→AI实现”中,人审查自己决策的实现。认知架构变了,验证负担降了。

两个问题——膨胀的验证成本和退化的人类能力——源于同一根因:把判断交给AI,把检查留给人。修一个就修了两个。

但——这是我之前版本太干净的地方——「两个都修」是有条件的。在机械任务加时间压力下,生成模式确实更高效,而用它的人类成本低(没有有意义的东西可以失去)。答案不是「永远脚手架」,而是「知道哪个模式适合哪种情况」。


四种模式

生成(Generate)。 AI 主导,人审查。常规、机械、低风险。当前默认——应该是少数。

脚手架(Scaffold)。 AI 提供提示、结构、部分方案。人完成。理解重要的任何任务。

挑战(Challenge)。 AI 作为对手、批评者。高风险决策、新情况、创造性工作。

退后(Step Back)。 AI 故意不做。心流中、建技能时、需要个人声音时。


什么时候用哪个:依赖上下文的框架

没有一个模式永远对。正确模式取决于四个变量:任务类型(机械/创造/判断/学习)、技能水平(新手/中级/专家)、时间压力(低/高/危机)、后果严重性

情况模式为什么权衡
专家 + 机械 + 任何压力生成专家验证快,任务常规效率最高,无技能损失
新手 + 任何 + 低压力脚手架最佳学习机会效率中等,学习最大化
新手 + 机械 + 高压力生成(现在),之后学习必须交付,之后安排学习接受短期技能缺口
任何人 + 判断 + 高后果挑战AI 压测人的推理效率中等,错误率最低
任何人 + 学习任务脚手架或退后永远不要生成用于学习——沃顿 −17%接受更慢的产出
危机 + 已知问题有操作手册生成(执行操作手册)Meta DrP:已编码逻辑自动执行仅限预编码的已知问题
危机 + 新问题脚手架AI 快速收集数据,人做所有决定风险最高时判断必须在人

关键洞见:时间压力改变谁做机械工作,永远不改变谁做判断。 即使截止日期到了,人做决定、AI 加速实现。唯一例外是有经测试的操作手册的已知问题。

新手需要更多脚手架(AI 当教师)。专家需要更多挑战(AI 当对手)。不区分用户的系统对所有人次优。


每种模式的效率-快乐权衡

模式短期效率长期效率短期快乐长期快乐技能
生成最高下降(技能侵蚀→验证差→错误增加)中(新鲜感)→低低(自我效能下降)下降
脚手架稳定/上升高(成就感)高(胜任感维持)保持/增长
挑战上升中(有挑战,可能挫折)高(成长感)增长
退后最低上升因人而异高(自信、自主)最高增长

如果只看短期效率,生成模式赢。如果看效率×快乐×技能的长期综合值,脚手架赢。行业在优化第一列。证据表明后面的列更重要。


尚不存在的实验

没有单一研究测试了完整框架。

四个实验组: (1) 无 AI。(2) AI 生成→人审查。(3) AI 做机械→人做判断。(4) AI 挑战推理→实现人的决策。

参与者: 60–100 名专业开发者。真实任务从样板代码到调试生产环境 race condition。

同时测量: 生成成本、验证成本、错误率、总经济成本、2周后技能保留、自我效能、感知vs实际生产力、满意度。

如果假设正确,实验组 3 总成本低于实验组 2(验证和错误成本降低)且技能保留和满意度更好。如果假设错误——这同样重要。

当前状态——公司基于直觉做价值万亿的交互设计选择——才是需要改变的。


我们真正在优化什么

当前AI工具优化任务完成速度。“输出产生了吗?”

更好的问题:“人-AI系统在随时间变强吗?”

经济和人的论点汇合——但有条件。它们在交互设计保留人类自主性和认知参与时汇合;在短期效率优先于长期能力时分歧。取决于任务类型、技能水平、时间压力和后果严重性。

这不是「做 X 两者都提升」的简单故事。而是:存在一个两者都提升的设计空间,证据大致告诉我们那个空间在哪,每个主要 AI 产品的默认设计不在里面,而且正确的设计取决于情境——一刀切的工具无法捕捉。

建造能适应情境的 AI 工具——对样板代码用生成、对判断用脚手架、对高风险决策用挑战、对学习用退后——比建只做一件事的工具更难。这也是证据支持的唯一能同时产生经济价值和人类价值的方法。


参考资料