← 返回

AI比人便宜53,000倍。直到你算上真实成本。

2026年4月2日

McKinsey说AI会产生$3-5万亿价值。高盛说全球GDP的7%。Acemoglu说十年0.55%的TFP增长。严肃研究者之间的差距大约6倍。这些数字没有一个来自AI执行实际任务的实际成本。它们是自上而下的估算:“AI可能影响Y%的工作中的X%任务,乘以Z万亿美元工资。“模型的输入是对AI能力的主观判断,不是AI经济学的测量。

这篇文章试图做测量。每个领域的问题很简单:人完成一个特定任务花多少钱,AI完成同一任务花多少钱,以及——大多数分析跳过的部分——验证AI做对了花多少钱,修复做错的花多少钱。


模型

AI替代人类工作的经济学归结为一个公式:

真实AI成本 = 生成成本 + 验证成本 + 错误成本 × 错误率

生成成本是AI收你的钱——API费用、算力、基础设施。这是公司宣传的数字。每年下降约10倍

验证成本是人类检查AI是否做对的费用。这是没有人宣传的数字。它没有在下降,因为它受制于人类的认知带宽。

错误成本是AI做错了而没人发现时你付的代价。在代码里是生产事故。在医疗里是误诊。在法律里是合同没表达你以为它表达的意思。

大多数AI成本比较只报告生成成本。这就像通过只看标价来比较汽车价格,忽略保险、维修、油费和事故成本。


软件开发:数据最充分的案例

人的成本。 美国高级软件工程师基础工资中位数$145,000。加上福利、税、设备、办公、管理和摊销的招聘培训成本,全包年成本$230,000-260,000

但并非所有时间都在产出。Microsoft/DX研究发现工程师每天实际编码时间只有52分钟——11%的工作日。按更宽松的定义(含设计、debug),深度工作时间约4.2小时/天

→ 52分钟/天 × 250天 = 217小时/年 → 每小时实际编码成本$1,198 → 假设50行有效代码/小时 → 每行代码$5-24

AI的生成成本。 Claude Sonnet 4.6:$3/$15每百万token。每行代码约10 output tokens + 100 context tokens → 每行$0.00045

比率:53,000倍更便宜。这是上头条的数字。

验证成本。 有人必须审查AI代码。GitClear 2025分析2.11亿行代码发现高AI采用团队review时间增加91%CodeRabbit的470个PR分析:AI PR接受率32.7%(人类84.4%),等待时间长4.6倍。

估算:review一个AI PR ~57分钟 × $248/小时 ÷ 200行/PR → 每行验证成本$1.18

错误成本。 AI代码缺陷率是人类的1.7倍。额外的0.7 bug/KLOC × $5,000/生产bug → 每行错误成本约$3.50

真实比较:

组成人类(每行)AI+人类审查(每行)
生成$5-24$0.00045
验证(含在内)$1.18
错误成本$5$8.50
合计$10-29$9.68

AI大约等价或便宜3倍。不是53,000倍。甚至不是10倍。个位数。

这解释了METR的发现:有经验开发者在熟悉的代码库上用AI反而慢19%。解释了DORA 2025发现AI采用和发布速度正相关但和稳定性负相关。原始速度是真的。吃掉速度的成本也是真的。大多数组织测量前者而忽略后者。

这里有一个人机交互的维度值得注意:验证负担落在最有经验、最昂贵的人身上。AI生成,senior审查。这把高级工程工作从创造变成了检查——这个转变对技能发展、工作满意度和长期人才管线都有影响。我会在另一篇关于人-AI交互设计的文章中讨论这个问题。


同样的计算,再做六个领域

客服 — $5-15/工单 vs $0.50-2.37/工单

人: 美国客服agent全包年成本$60,000-80,000,每天处理50-80工单,培训4-10周,年流失率30-45%。每工单成本$5-15

AI: 每工单$0.50-2.37,响应3秒内。自主解决率:40%均值(Gartner),Intercom Fin达66%

原始倍数: 3-30x。同理心得分降至60-75%

Klarna的教训。 部署AI客服:230万对话/月,替代700 agent,$60M节省。然后CEO承认”成本在评估中权重太大”。重复联系率飙升25%。H1 2025亏损$152M(H1 2024 $31M)——恶化近5倍。正在重新招人。生成成本省了$60M,但错误成本(未解决的问题→重复联系→客户流失)更大。

真实优势: 简单工单~2-5x。复杂/情感问题为负。

法律文档审查 — $5-25/份 vs $0.11-0.50/份

人: 律师助理$26-28/小时,律师计费$300-600/小时。尽调6-8周。召回率60-75%。合同初稿可靠性56.7%,最好的律师70%

AI: 每份$0.11-0.50。尽调4小时内。召回率90%+。合同可靠性73.3%(Gemini 2.5 Pro)——超过最好的人类律师。

这是唯一一个AI在可测量指标上超过人类的领域。

但: 69.7%的AI法律输出需要编辑/返工。专业法律AI标记83%的高风险输出,通用AI只标记55%。人类律师?标记了0%——没有提出任何风险警告。AI和人类的弱点互补而非重叠。

真实优势: 文档审查~3-10x。AI医疗事故案例法尚未建立——当它出现时,责任框架将重塑经济学。

翻译 — $120-250/千字 vs $0.0005-0.007/千字

人: 专业翻译$120-250/千字2,000-2,500字/天。质量4.6/5.0。

AI(纯): $0.0005-0.007/千字。质量:人类的93%。原始倍数:18,000x-500,000x。所有领域中最大的差距。

但没有人在严肃工作中用纯AI翻译。 行业标准是MTPE(机器翻译后编辑):$40-80/千字,质量~98%+。MTPE采用率从2022年26%增长到2024年46%

真实优势: MTPE vs 纯人类 ~2-6x。500,000倍的原始优势在加上人类验证层后压缩到个位数。法律/医疗翻译中纯AI不可用。

内容创作 — $250-880/篇 vs $0.001-0.50/篇

人: 自由撰稿$250-399/1500字。含隐性成本$300-880

AI(纯): $0.001-0.50/篇。原始倍数:500x-250,000x。

但质量调整后翻转。 人类内容产生5.44倍更多流量。Meta广告测试中人类文案68%的时间赢在转化率(虽然点击率几乎一样)。混合方案(~$12-18/千字)在8个质量指标中7个胜出

真实优势: 混合~5-15x。但如果按”每次转化成本”而非”每篇文章成本”衡量,优势进一步缩小。你选择什么指标决定了答案。

数据分析 — $34-50/小时 vs 秒级计算

人: 数据分析师$70,000-105,000/年$34-50/小时

AI: 秒级处理。数学准确率94.4%。NL-to-SQL最好85-95%,复杂查询60-70%。可自动化30-40%的分析师任务

分界线异常清晰。 AI做:SQL查询、数据清理、标准可视化、报告摘要、异常检测。人做:战略分析、伦理审查、因果推理、利益相关方沟通。

真实优势: 可自动化的30-40%任务上100x+。其余60-70%上AI是加速工具而非替代。分析师从查询和清理中解放,更多时间用于解释和沟通。这是好是坏取决于分析师觉得哪部分有意义——这个问题留给人-AI交互设计的讨论。

会计 — $15-40/发票 vs $2-5/发票

人: 簿记员$17-26/小时。手工AP处理$15-40/发票。数据录入错误率1-4%,簿记特定18%65%的审计发现差异44%的小企业因簿记错误被罚款

AI: $2-5/发票。OCR 95-99%。数据录入错误率0.01-0.04%——机械准确性上比人类好100倍。

但: 最好的AI会计系统(GPT-5.4)在101个真实任务上只达77.3%准确率33%+的复杂真实会计任务AI做不了。77.3%意味着大约每4个任务错1个——在一个错误会级联传导的领域。

真实优势: 机械性高量任务~2-5x。复杂判断任务不可靠。

放射诊断 — $12-99/检查 vs ???

人: 放射科医生$370,000-550,000+/年~50项检查/天,训练13+年。X光$12,CT $40,MRI $60,PET/CT $99

AI: 1,104个FDA批准的放射AI设备无可靠的每检查成本数据——供应商定价不透明。常规筛查AI与放射科医生相当或略优。难病例RadLE基准:AI最佳模型(GPT-5)30%,放射科医生83%。1,879项研究中仅21项(1.1%)量化了经济结果。

真实优势: 无法从现有数据计算。这是炒作(“AI将取代放射科医生”)和证据(1.1%的研究衡量经济结果,难病例AI得30%)之间差距最大的领域。


在所有八个领域都成立的

“容易80%/困难20%“分裂是普遍的。 AI在常规任务上达到85-95%。复杂判断任务降到30-77%。这不是”当前模型会改进”的问题——它反映了模式匹配(AI擅长)和不确定性下的情境判断(AI不擅长)之间的结构性差异。

混合到处胜出。 翻译MTPE、混合内容创作、AI辅助法律审查、AI增强放射诊断——AI处理量和一致性,人处理例外和判断。这是数据中最强的实证发现,对AI工具应该怎么设计有直接启示。

只优化生成成本会反噬。 Klarna是典型案例,但模式到处出现:AI代码快速发布但生产中出错。AI翻译看起来正确但遗漏法律细微差别。AI会计处理发票但每4个复杂任务错1个。生成成本总是最可见的数字。验证和错误成本总是最重要的数字。


Jevons数字

AI推理成本2023-2026年下降约1,000倍。同期企业GenAI支出增长320%,从2024年$115亿到2025年$370亿。

这意味着总token消耗增长约3,200倍。单位成本降1,000倍,总支出涨3倍。Jevons1865年就观察到了:效率提升不减少消耗,而是增加消耗——因为更便宜的投入解锁了之前不经济的用途。

任务级的1-5倍成本优势可能不会转化为功能层面的总支出减少。代码变便宜了,组织就写更多代码。客服变便宜了,公司就服务以前不服务的场景。翻译变便宜了,内容就被翻译成之前不值得翻译的语言。

这是好事(更多软件、更多服务、更多可及性)还是坏事(更多复杂性、更多维护负担、更多质量问题),取决于你在测量什么。GitHub报告 PR合并量年增23%,新iOS应用增50%。DORA报告平均恢复时间自2021年以来每年恶化。两者同时为真。


这意味着什么

第一性原理计算表明,加上验证和错误成本后,AI在大多数知识工作中的真实经济优势在1-5倍范围内——远低于100x-100,000x的原始生成优势,远高于零,且高度依赖于人机交互的设计方式。

AI优势最清楚的领域:验证成本低且错误后果小的(格式化、非关键内容翻译、初稿生成、常规数据处理)。优势缩小或消失的领域:验证成本高且错误后果大的(医疗诊断、法律判断、软件架构决策、战略分析)。

两个推论:

对”AI将替代X百万工作”的预测: 任务级经济学表明全面替代仅在大部分任务属于”容易80%“类别且错误后果低的角色中是理性的。对需要”困难20%“判断的角色,AI是生产力工具而非替代品——且生产力提升是温和的(1-5x),不是变革性的(100x+)。

对AI工具设计: 验证成本是约束瓶颈。它把AI的53,000倍原始优势压缩到1-5倍真实优势。任何减少人类验证需求的AI改进——更好的可靠性、更好的不确定性校准(知道自己什么时候错了)、更好的推理解释——比原始速度或能力的提升有更大的经济影响。这是一个设计洞见,和经济洞见一样重要,它对AI工具应该怎么构建和评估有直接启示。但那是一个关于人-AI交互的对话,值得单独讨论。


参考资料

本分析的数据来源: