AI比人便宜53,000倍。直到你算上真实成本。

McKinsey说AI会产生$3-5万亿价值。高盛说全球GDP的7%。Acemoglu说十年0.55%的TFP增长。严肃研究者之间的差距大约6倍。这些数字没有一个来自AI执行实际任务的实际成本。它们是自上而下的估算：“AI可能影响Y%的工作中的X%任务，乘以Z万亿美元工资。“模型的输入是对AI能力的主观判断，不是AI经济学的测量。

这篇文章试图做测量。每个领域的问题很简单：人完成一个特定任务花多少钱，AI完成同一任务花多少钱，以及——大多数分析跳过的部分——验证AI做对了花多少钱，修复做错的花多少钱。

模型

AI替代人类工作的经济学归结为一个公式：

真实AI成本 = 生成成本 + 验证成本 + 错误成本 × 错误率

生成成本是AI收你的钱——API费用、算力、基础设施。这是公司宣传的数字。每年下降约10倍。

验证成本是人类检查AI是否做对的费用。这是没有人宣传的数字。它没有在下降，因为它受制于人类的认知带宽。

错误成本是AI做错了而没人发现时你付的代价。在代码里是生产事故。在医疗里是误诊。在法律里是合同没表达你以为它表达的意思。

大多数AI成本比较只报告生成成本。这就像通过只看标价来比较汽车价格，忽略保险、维修、油费和事故成本。

软件开发：数据最充分的案例

人的成本。 美国高级软件工程师基础工资中位数$145,000。加上福利、税、设备、办公、管理和摊销的招聘培训成本，全包年成本$230,000-260,000。

但并非所有时间都在产出。Microsoft/DX研究发现工程师每天实际编码时间只有52分钟——11%的工作日。按更宽松的定义（含设计、调试），深度工作时间约4.2小时/天。

→ 52分钟/天 × 250天 = 217小时/年 → 每小时实际编码成本$1,198 → 假设50行有效代码/小时 → 每行代码$5-24

AI的生成成本。 Claude Sonnet 4.6：$3/$15每百万token。每行代码约 10 个输出 token + 100 个上下文 token → 每行$0.00045。

比率：53,000倍更便宜。这是上头条的数字。

验证成本。 有人必须审查AI代码。GitClear 2025分析2.11亿行代码发现高AI采用团队审查时间增加91%。CodeRabbit的470个PR分析：AI PR接受率32.7%（人类84.4%），等待时间长4.6倍。

估算：审查一个AI PR ~57分钟 × $248/小时 ÷ 200行/PR → 每行验证成本$1.18。

错误成本。 AI代码缺陷率是人类的1.7倍。额外的0.7 bug/KLOC × $5,000/生产bug → 每行错误成本约$3.50。

真实比较：

组成	人类（每行）	AI+人类审查（每行）
生成	$5-24	$0.00045
验证	（含在内）	$1.18
错误成本	$5	$8.50
合计	$10-29	$9.68

AI大约等价或便宜3倍。不是53,000倍。甚至不是10倍。个位数。

这解释了METR的发现：有经验开发者在熟悉的代码库上用AI反而慢19%。解释了DORA 2025发现AI采用和发布速度正相关但和稳定性负相关。原始速度是真的。吃掉速度的成本也是真的。大多数组织测量前者而忽略后者。

这里有一个人机交互的维度值得注意：验证负担落在最有经验、最昂贵的人身上。AI 生成，资深工程师审查。这把高级工程工作从创造变成了检查——这个转变对技能发展、工作满意度和长期人才管线都有影响。我会在另一篇关于人机交互设计的文章中讨论这个问题。

同样的计算，再做六个领域

客服 — $5-15/工单 vs $0.50-2.37/工单

人：美国客服人员全包年成本$60,000-80,000，每天处理50-80工单，培训4-10周，年流失率30-45%。每工单成本$5-15。

AI： 每工单$0.50-2.37，响应3秒内。自主解决率：40%均值（Gartner），Intercom Fin达66%。

原始倍数： 3–30 倍。同理心得分降至 60–75%。

Klarna的教训。 部署AI客服：230万对话/月，替代700名坐席，$60M节省。然后CEO承认”成本在评估中权重太大”。重复联系率飙升25%。H1 2025亏损$152M（H1 2024 $31M）——恶化近5倍。正在重新招人。生成成本省了$60M，但错误成本（未解决的问题→重复联系→客户流失）更大。

真实优势： 简单工单约 2–5 倍。复杂/情感问题为负。

法律文档审查 — $5-25/份 vs $0.11-0.50/份

人：律师助理$26-28/小时，律师计费$300-600/小时。尽调6-8周。召回率60-75%。合同初稿可靠性56.7%，最好的律师70%。

AI： 每份$0.11-0.50。尽调4小时内。召回率90%+。合同可靠性73.3%（Gemini 2.5 Pro）——超过最好的人类律师。

这是唯一一个AI在可测量指标上超过人类的领域。

但： 69.7%的AI法律输出需要编辑/返工。专业法律AI标记83%的高风险输出，通用AI只标记55%。人类律师？标记了0%——没有提出任何风险警告。AI和人类的弱点互补而非重叠。

真实优势： 文档审查约 3–10 倍。AI 医疗事故案例法尚未建立——当它出现时，责任框架将重塑经济学。

翻译 — $120-250/千字 vs $0.0005-0.007/千字

人：专业翻译$120-250/千字，2,000-2,500字/天。质量4.6/5.0。

AI（纯）： $0.0005-0.007/千字。质量：人类的93%。原始倍数：18,000x-500,000x。所有领域中最大的差距。

但没有人在严肃工作中用纯 AI 翻译。 行业标准是 MTPE（机器翻译后编辑）：$40–80/千字，质量约 98%+。MTPE 采用率从 2022 年 26% 增长到 2024 年 46%。

真实优势： MTPE 对比纯人工约 2–6 倍。50 万倍的原始优势在加上人类验证层后压缩到个位数。法律/医疗翻译中纯 AI 不可用。

内容创作 — $250-880/篇 vs $0.001-0.50/篇

人：自由撰稿$250-399/1500字。含隐性成本$300-880。

AI（纯）： $0.001-0.50/篇。原始倍数：500x-250,000x。

但质量调整后翻转。 人类内容产生5.44倍更多流量。Meta广告测试中人类文案68%的时间赢在转化率（虽然点击率几乎一样）。混合方案（~$12-18/千字）在8个质量指标中7个胜出。

真实优势： 混合~5-15x。但如果按”每次转化成本”而非”每篇文章成本”衡量，优势进一步缩小。你选择什么指标决定了答案。

数据分析 — $34-50/小时 vs 秒级计算

人：数据分析师$70,000-105,000/年，$34-50/小时。

AI： 秒级处理。数学准确率94.4%。NL-to-SQL最好85-95%，复杂查询60-70%。可自动化30-40%的分析师任务。

分界线异常清晰。 AI做：SQL查询、数据清理、标准可视化、报告摘要、异常检测。人做：战略分析、伦理审查、因果推理、利益相关方沟通。

真实优势： 可自动化的30-40%任务上100x+。其余60-70%上AI是加速工具而非替代。分析师从查询和清理中解放，更多时间用于解释和沟通。这是好是坏取决于分析师觉得哪部分有意义——这个问题留给人-AI交互设计的讨论。

会计 — $15-40/发票 vs $2-5/发票

人：簿记员$17-26/小时。手工AP处理$15-40/发票。数据录入错误率1-4%，簿记特定18%。65%的审计发现差异。44%的小企业因簿记错误被罚款。

AI： $2-5/发票。OCR 95-99%。数据录入错误率0.01-0.04%——机械准确性上比人类好100倍。

但：最好的AI会计系统（GPT-5.4）在101个真实任务上只达77.3%准确率。33%+的复杂真实会计任务AI做不了。77.3%意味着大约每4个任务错1个——在一个错误会级联传导的领域。

真实优势： 机械性高量任务~2-5x。复杂判断任务不可靠。

放射诊断 — $12-99/检查 vs ???

人：放射科医生$370,000-550,000+/年，~50项检查/天，训练13+年。X光$12，CT $40，MRI $60，PET/CT $99。

AI： 1,104个FDA批准的放射AI设备。无可靠的每检查成本数据——供应商定价不透明。常规筛查AI与放射科医生相当或略优。难病例RadLE基准：AI最佳模型（GPT-5）30%，放射科医生83%。1,879项研究中仅21项（1.1%）量化了经济结果。

真实优势： 无法从现有数据计算。这是炒作（“AI将取代放射科医生”）和证据（1.1%的研究衡量经济结果，难病例AI得30%）之间差距最大的领域。

在所有八个领域都成立的

“容易80%/困难20%“分裂是普遍的。 AI在常规任务上达到85-95%。复杂判断任务降到30-77%。这不是”当前模型会改进”的问题——它反映了模式匹配（AI擅长）和不确定性下的情境判断（AI不擅长）之间的结构性差异。

混合到处胜出。 翻译MTPE、混合内容创作、AI辅助法律审查、AI增强放射诊断——AI处理量和一致性，人处理例外和判断。这是数据中最强的实证发现，对AI工具应该怎么设计有直接启示。

只优化生成成本会反噬。 Klarna是典型案例，但模式到处出现：AI代码快速发布但生产中出错。AI翻译看起来正确但遗漏法律细微差别。AI会计处理发票但每4个复杂任务错1个。生成成本总是最可见的数字。验证和错误成本总是最重要的数字。

Jevons 悖论里的数字

AI推理成本2023-2026年下降约1,000倍。同期企业GenAI支出增长320%，从2024年$115亿到2025年$370亿。

这意味着总token消耗增长约3,200倍。单位成本降1,000倍，总支出涨3倍。Jevons1865年就观察到了：效率提升不减少消耗，而是增加消耗——因为更便宜的投入解锁了之前不经济的用途。

任务级的1-5倍成本优势可能不会转化为功能层面的总支出减少。代码变便宜了，组织就写更多代码。客服变便宜了，公司就服务以前不服务的场景。翻译变便宜了，内容就被翻译成之前不值得翻译的语言。

这是好事（更多软件、更多服务、更多可及性）还是坏事（更多复杂性、更多维护负担、更多质量问题），取决于你在测量什么。GitHub报告 PR合并量年增23%，新iOS应用增50%。DORA报告平均恢复时间自2021年以来每年恶化。两者同时为真。

这意味着什么

第一性原理计算表明，加上验证和错误成本后，AI在大多数知识工作中的真实经济优势在1-5倍范围内——远低于100x-100,000x的原始生成优势，远高于零，且高度依赖于人机交互的设计方式。

AI优势最清楚的领域：验证成本低且错误后果小的（格式化、非关键内容翻译、初稿生成、常规数据处理）。优势缩小或消失的领域：验证成本高且错误后果大的（医疗诊断、法律判断、软件架构决策、战略分析）。

两个推论：

对”AI将替代X百万工作”的预测： 任务级经济学表明全面替代仅在大部分任务属于”容易80%“类别且错误后果低的角色中是理性的。对需要”困难20%“判断的角色，AI是生产力工具而非替代品——且生产力提升是温和的（1-5x），不是变革性的（100x+）。

对 AI 工具设计： 验证成本是约束瓶颈。它把 AI 的 53,000 倍原始优势压缩到 1–5 倍真实优势。任何减少人类验证需求的 AI 改进——更好的可靠性、更好的不确定性校准（知道自己什么时候错了）、更好的推理解释——比原始速度或能力的提升有更大的经济影响。这是一个设计洞见，和经济洞见一样重要；它对 AI 工具应该怎么构建和评估有直接启示。但那是一个关于人机交互的对话，值得单独讨论。

参考资料

本分析的数据来源：

软件工程成本数据 — 730行，20+具体数据点
跨领域成本数据 — 510行，8个领域对比
第一性原理模型 — 完整框架与公式