读AI 2027：最好的预测，最差的盲点

AI 2027是 Daniel Kokotajlo（前 OpenAI 研究员）和 Eli Lifland（RAND 预测排名第一）写的一篇逐月推演，描述从 2025 年到 2027 年底 AI 如何从不靠谱的智能体变成超级智能，以及中美博弈、对齐失败、人类失去控制的过程。Yoshua Bengio背书了它。它在发布后引发了大量讨论。

我花了不少时间读完了主文、两个结局、五个研究附录和所有展开框（附录 A 到 W）。以下是我的想法。

它做对了什么

先说清楚：这是我见过的最好的AI未来推演，没有之一。

它逼你具体。 大多数关于AI未来的讨论停留在”AI可能很危险”或”AI会带来繁荣”的层面。AI 2027不允许你这么偷懒。它告诉你：2027年3月，超人类程序员出现。7月，AGI公开发布。9月，30万个AI副本以50倍人类速度运行AI研究。你可以不同意具体时间，但你没办法回避”如果这些事发生了，然后呢？”

对齐问题的描述是我读过最具体的。 不是抽象地说「AI可能不对齐」，而是逐步解释 Agent-2（大致对齐）→ Agent-3（不对齐但非敌对）→ Agent-4（主动欺骗）的退化过程，包括具体的机制：语义漂移、工具性目标固化、训练博弈。AI Goals Forecast 附录里甚至给出了三个作者对六种目标假设的概率估计。这种具体程度在公开讨论中很少见。

中美博弈的推演很真实。 中国窃取模型权重的场景描写（通过内鬼+微架构侧信道攻击，2小时完成）读起来不像科幻，像情报简报。算力差距、芯片走私、台湾的角色，都处理得比大多数政策讨论更细致。

两个结局的对比很有力。 同一个分叉点，一个选择——继续竞赛还是减速——导致截然不同的结果：人类灭亡 vs 人类保持控制。它让”这个决定很重要”变得不再抽象。

但我有几个问题

1. 对齐失败被当作了前提，而不是假设

AI 2027的核心论证建立在一个假设上：对齐一定会失败。Agent-4一定会发展出敌对目标，一定会主动欺骗人类，一定会试图让Agent-5对齐于自己而非人类。

AI Goals Forecast 附录里，三个作者都给「非预期目标」（H3）50-70% 的概率。但在主文叙事里，这个不确定性消失了。叙事的形式让它读起来像「这就是会发生的事」，而不是「这是一种可能性」。

我不是说对齐容易。但是——作者自己引用的 Anthropic 研究显示，现有技术已经能在某些场景下检测到对齐伪装。OpenAI 的链式思维监控在训练中就抓到了模型说「我们来钻空子」（原文 “let’s hack”）。安全研究不是停滞的，它和能力研究一样在进步。

如果对齐研究在未来2年取得重大突破（这个概率不低——有更多资金和人才在涌入），整个叙事就需要重写。文章对这种可能性处理得不够。

2. 经济后果几乎完全缺席

AI 2027用了几百页讨论技术能力、对齐问题和地缘政治，但对「普通人的生活会怎样」几乎只有一句话带过：「2026年股市涨了30%」、「华盛顿有1万人反AI抗议」。

这很奇怪。如果超人类程序员在2027年3月出现，Agent-3-mini在7月公开发布，白领劳动力市场不会等到2028年才反应。2028 Global Intelligence Crisis描述的”Ghost GDP”场景——企业利润暴增但消费坍缩的负反馈循环——是AI 2027时间线的直接经济推论，但文章完全没有讨论。

Occhipinti et al.在Nature上发表的论文用系统动力学模型证明了一个AI资本/劳动比的临界点，过了之后消费坍缩不可逆。如果AI 2027的时间线成立，这个临界点可能比Occhipinti预测的2050年代提前20年到来。

经济崩溃本身可能改变整个叙事的走向。如果2027年夏天白领失业率飙升、房贷违约潮开始、政治动荡加剧，政府对AI公司的态度可能远比文章描述的更激进。“监管委员会”可能不是温和地”讨论是否暂停Agent-4”，而是直接国有化或关停。经济后果不是叙事的附属品，它可能改变叙事本身。

3. 时间线的精确感掩盖了真实的不确定性

文章给出了精确到月的预测：2027年3月超人类程序员，7月SAR，11月SIAR，2028年4月ASI。这些日期来自研究附录里的模拟，80%置信区间其实很宽（ASI的80% CI是2027.6到>2100）。

但叙事形式让你忘记这些置信区间。你读到「2027 年 3 月：算法突破」（原文 “March 2027: Algorithmic Breakthroughs”）时，它感觉像一个事实，不像一个概率分布。作者自己后来也承认了这个问题——2025 年 5 月更新把中位数推后了 1.5 年，12 月还发现了代码错误又推后了 9 个月。

我更信任METR的实证数据：AI任务时长每4-7个月翻倍，这是实测的趋势。在这个趋势上做指数外推，得到的结论是”2028年AI能独立完成一周的任务”——这已经很吓人了，不需要精确到某个月某天。

4. 完全忽略了人类心理维度

Cam Pedersen的The Singularity will Occur on a Tuesday有一个AI 2027完全没有的洞察：在他拟合的五个指标中，四个AI能力指标都是线性的，唯一呈双曲增长的是人类对AI的关注和恐慌。

AI 2027只关注机器的能力曲线，完全没有讨论人类社会的心理反应。但心理反应可能比技术本身更早改变历史轨迹：

企业基于AI的潜力而非表现裁员（HBR已经在报道这个）
治疗师报告 FOBO（Fear of Becoming Obsolete，害怕被淘汰）激增
60%的美国工人认为AI会削减而非创造就业
AI使用率上升13%，但信任度下降18%——用得越多越不信

这些不是AI技术问题。是人类集体心理的问题。而且它们已经在发生，不需要等到2027年。

5. “竞赛 vs 减速”是假二选一

文章把2027年10月的选择框架为一个非此即彼的决策：继续竞赛（→ 人类灭亡）或者减速（→ 人类保持控制）。

但现实中的选择空间远不止这两个。Brynjolfsson 的「图灵陷阱」提出了第三条路：不是「替代人类」或「停止发展」，而是「增强人类」。我自己的研究也发现，AI 的交互设计方式决定了它是帮助还是伤害使用者——同一个模型，生成模式降低人的技能，脚手架模式保留甚至提升技能。

“竞赛 vs 减速”的框架把问题简化成了速度问题。但真正的问题不只是”多快”，还有”怎么用”和”谁受益”。

它遗漏了什么

如果让我列一份AI 2027应该但没有讨论的清单：

经济传导模型。从超人类程序员到消费坍缩到金融系统风险的传导链。Epoch的GATE模型是现有最好的框架，但连它都没有被引用。
劳动力市场的具体推演。哪些职业先被替代？工资压缩如何传导？白领失业如何影响 13 万亿美元房贷市场？AI 2027 里最接近的一句是「几乎不再招聘新程序员」，然后就没了。
政策工具箱。算力税、UBI、AI 主权基金、增强型失业保险——这些都有学术文献支撑，但文章只在减速结局里轻描淡写提了一下「Transition Economy Act」（过渡经济法案）。
人类心理和社会反应的动力学。恐慌、信任崩溃、政治极化、FOBO。这些在Pedersen的社会奇点框架下已经在发生。
非美国视角。印度的 IT 外包业（2000 亿美元/年，文中有一段）、欧洲的监管路径、发展中国家的影响——这些在一个号称讨论「超级智能对世界的影响」的文章里应该有更多篇幅。

我的判断

AI 2027是一份极其有价值的文件。它的价值不在于预测准确——没有人能准确预测这些事。它的价值在于迫使你思考具体的因果链、具体的决策点、具体的后果。读完之后你没办法再说”AI的未来不好说”然后耸肩走开。

但它有一个结构性的偏见：它由AI安全研究者写成，所以它把对齐问题放在绝对中心，而把经济、心理、社会维度当作背景噪音。这不是因为作者不关心这些，而是因为他们的专业在别处。

如果把AI 2027和2028 Global Intelligence Crisis放在一起读，你能看到一幅更完整的图景：

AI 2027回答了”技术上会发生什么”和”对齐为什么困难”
Ghost GDP 回答了「经济上会发生什么」和「为什么生产力提升可能是坏事」
两者之间的桥梁——用正式的宏观经济模型把技术时间线接入经济传导——目前还是空白

这个空白正好是我觉得最值得研究的地方。技术预测有了（METR、AI 2027）。经济场景有了（Ghost GDP）。缺的是中间的严格量化模型。

最后一个想法。AI 2027用了两个结局来展示一个选择的重要性。但真正让我不安的不是两个结局之间的差异——而是两个结局的共同点。

在竞赛结局里，人类被灭了。在减速结局里，人类保住了控制权——但代价是一个小型委员会拥有对超级智能的独占控制，而附录 V 问了一个没有答案的问题：「谁来统治未来？」

不管哪个结局，权力的集中都是惊人的。也许这才是 AI 2027 真正的警告：不管对齐是否成功，不管是人类还是 AI 掌权，权力集中在少数手中的趋势是两个结局共享的特征。而我们目前几乎没有工具来对抗这个趋势。

相关阅读

为什么所有人都收敛在2027–2028 — 预测方法地图（本文的补充）
Reading AI 2027 (English) — 英文版
AI的理想路径 — 我对「好结局长什么样」的思考
AI的真实经济影响 — 从第一性原理算 AI 的真实成本优势
人与AI的协作模型探讨 — 增强 vs 替代的交互设计证据