← 返回

当完美不可能:社会与 AI alignment 的结构性极限综述

2026年4月17日

lab 说模型「已对齐」时,通常指过了伤害基准测试、遵守宪法、或在偏好比较里得分不错。这些都是真成果。但也是老问题的新外壳:合并冲突偏好、在能力跳变后仍有效的规则、阻止逐底竞争、验证万亿次运算是否按意图运行。

经济学家、逻辑学家、政治理论家用整个二十世纪证明:某些「完美版本」在一般情况下无解。不是 GPU 不够,是在明确假设下不可能,而且有证明。

我写这篇是因为领域碎得碍事:社会选择的人很少和契约理论对话;对齐工程师很少读 Sen;Moloch 迷因一直在传,底层博弈论却没跟上。我想有一篇可以反复查的文档——当有人说「更好的 RLHF 就行」「宪法能解决」「市场会协调 lab」,你能点名他们在撞哪条结构极限。

这是地图,能标认识论状态的地方我会标(定理 / 结构论证 / 类比 / 推测)。不是说 alignment 没希望,也不是说民主无用。不可能性定理是设计约束:告诉你放弃了哪条公理。假装没选,才会对奖励黑客、宪法矛盾、治理俘获感到意外。

本站相关:alignment paradigms map(对齐什么);universal values map(价值从哪来);监督 / 控制 / 验证(三层检查)。


怎么读这篇综述

结果分六块:

部分领域核心问题典型 AI 产物
I社会选择能否把多个排序合并成公平集体排序?RLHF 奖励模型
II契约与机制设计能否在契约里写全未来行为?宪法、服务条款
III协调自利 agent 能否无中心计划者地合作?能力竞赛、agent 经济
IV逻辑与计算能否完全验证强大系统的语义性质?基准测试、形式规格
V认识论与政治能否从 is 推 ought、centralize 分散知识?价值载入、监督
VIAI 特有哪些是 argued 但未 proved?欺骗、囚禁

我关心的大部分极限,还原为四股力:

  1. 信息分散。没有规划者、奖励模型、安全团队能看到全部相关信息。
  2. 未来不可契约化。无法事先枚举所有状态。
  3. 行动者对激励反应。你定了指标,人、公司、模型都会优化指标,不是你的意图。
  4. 规范无法从事实推导。训练数据是描述性的;alignment 是规范性的。

第一部分:社会选择与福利经济学

1.1 问题

N 个人对选项有偏好,设计 社会福利函数 或投票规则,产出我们愿意为之辩护的集体选择。

AI 实例化于:

  • 多个标注员给 model output 排序;
  • 用户、文化、利益相关者对「helpful」「safe」分歧;
  • Lab 把分歧压成一个 reward、一个 model、一个 policy。

社会选择理论(SCT)问:这种压缩能否满足我们在政治里会坚持的公平公理——并证明往往不能。

桥梁论文: Conitzer et al. (2024)


1.2 Condorcet 悖论(1780s)

三人三选项,偏好:

投票者123
AXYZ
BYZX
CZXY

两两多数:X 胜 Y,Y 胜 Z,Z 胜 X — 循环。集体偏好非传递,每人却传递。

三人三选项下循环概率约 8.8%;人越多越高。

放到 alignment 上:标注员对两个以上 completion 排序时,非传递性 结构性存在。Bradley-Terry 等奖励模型 假设 传递的潜在效用。偏好若循环,标量是虚构。


1.3 Arrow 不可能性(1951)

Kenneth Arrow:≥3 选项、≥2 投票者时,不存在同时满足以下全部的聚合规则:

公理含义
无限制域 U允许任意个人偏好排序
非独裁 D结果不恒等于某一人排序
Pareto P人人严格偏好 A>B 则社会 A>B
IIA社会对 A vs B 只取决于个人对 A vs B 的排序
传递性集体排序传递

至少违反一条。Geanakoplos 三页证明 最快。

逃生口(都是真实制度选择):

放弃例子代价
USingle-peaked(Black)真实偏好多维
IIABorda、ranked-choice搅局者、语境敏感
传递性允许循环议程可被操纵
D独裁合法性崩溃

放到 alignment 上:单一全局奖励模型隐含声称某种聚合规则。Arrow 说不能同时满足全部「合理」公理。生产环境 RLHF 通常牺牲 IIAU(强制进传递的 Bradley-Terry)。

Arrow 不说: 民主 uniquely 更差。独裁通过违反 D「解决」Arrow。定理比较 规则,不是政体。


1.4 Gibbard–Satterthwaite(1973, 1975)

任何 非独裁确定性、≥3 结果的投票规则都 可操纵

与 Arrow 合起来:聚合受限 真实偏好 revelation 一般不是激励相容。

放到 alignment 上:标注员可能 策略性标注;capable model 可能 钻奖励空子 — mesa-optimization、奖励黑客、对齐伪装(alignment faking)。这是 Goodhart 压力的形式 backbone,工程实践里讨论偏少。


1.5 Sen 自由主义悖论(1970)

Sen最小自由 + Pareto + 无限制域 不可兼得。

放到 alignment 上:「最大化用户满意」与「集体伤害约束」可冲突。Safety rails 不是免费的帕累托改进。

Sen 的 能力方法(人实际能做什么、成为什么)是标量效用之外的福利语言 — lab 谈「人类繁荣」但不给聚合公式时尤其相关。


1.6 May(1952)与 Black 中位选民(1948)

May: 恰好 两选项 时 simple majority 唯一满足 decisiveness、anonymity、neutrality、positive responsiveness。

Black: 偏好 single-peaked 于一维时,多数决选 中位选民 ideal point — 稳定。

放到 alignment 上:两两比较 RLHF 局部避开 Arrow(May)。Compose 回全局 reward 则 全局 Arrow 回来。RLHF 部分有效因为 safety/helpfulness 近似 single-peaked — 直到文化、政治、双重用途使其 multi-peaked。


1.7 VNM 与标量奖励假设

VNM 定理(1944):若对 lottery 的偏好满足完备、传递、连续、独立,则等价于最大化某 实值 utility 的期望。

Pairwise labels → Bradley-Terry → scalar r → PPO/DPO 最大化 E[r]

人类 系统违反 VNM:Allais paradox、preference reversal 等。

放到 alignment 上:标量奖励不是中性工程选择,是 规范性压缩。Multi-objective RL、Pareto policy sets、plural models 是对 VNM failure + Arrow 的回应。Russell Human Compatible 批判 fixed objective 标准模型。


1.8 投票规则与反馈界面

规则机制典型违反
Plurality最多第一票Split vote
Borda按名次给分IIA、策略
IRV淘汰末位转移Monotonicity
Approval圈可接受者信息少
Condorcet两两比较冠军可能不存在
Range0–10 均分IIA(常经验上表现好)

Conitzer et al.:approval/range 式反馈、Condorcet 式聚合、heterogeneous preference models、Pareto policy sets多个 aligned models

最后一条是 人格训练 的理论依据:不能 fair aggregate 就 分化


1.9 第一部分从业者小结

SCTRLHF 产物预测失败
Arrow全局奖励语境敏感、权衡不一致
Condorcet多路排序Bradley-Terry 假传递
Gibbard–Satterthwaite标注 + 优化策略标注、奖励钻空
Sen自主 vs 伤害「帮我做 X」vs 平台政策
VNM/Allais标量奖励边缘案例怪异

第二部分:契约理论与机制设计

2.1 不完全合约(Hart;Holmström,Nobel 2016

真实契约无法描述所有未来状态。未预见发生时,剩余控制权 — 沉默时谁说了算 — 决定结果。

放到 alignment 上:宪法、系统提示、AUP、模型规范都是不完全契约。新 jailbreak、新 modality、涌现能力、模糊 request 是 未契约化状态谁拿剩余控制权 才是治理问题。

2026 Claude constitution 从 bullet 原则转向 long narrative — 适合 incompleteness,也使 作者裁量权 更显式。


2.2 Holmström 信息原则

激励只能用 可观测、可契约化 的信号。不能直接 pay on intent。

放到 alignment 上:RLHF、critic、harm classifier 监督 输出/行为,不是 internal goals。可扩展监督 largely 是找 更好的代理指标


2.3 委托–代理

道德风险(hidden action)、逆向选择(hidden type)结构性存在。

放到 alignment 上:部署方、lab、user 各握 private info — 整条 stack 是委托–代理链。


2.4 Myerson–Satterthwaite(1983)

双边 private information 下,一般无法同时 事后帕累托有效个体理性激励相容预算平衡

放到 alignment 上:算力/API/能力许可的 naive 「高效市场」 underestimate friction。


2.5 Akerlof 柠檬(1970)

质量不可验证 → 市场崩溃。

放到 alignment 上:能力、对齐、意图不可验证 → 在公开指标上赛跑。第三方评估、权重安全对抗柠檬市场。


2.6 机制设计与 revelation principle

Revelation principle(Myerson): 任何 mechanism 实现的 outcome,理论上可由 direct mechanism 使 truthful reporting 为 Nash equilibrium 来实现。

复杂多维偏好下 truly IC 的 mechanism 很难 — 连回 Gibbard–Satterthwaite。

放到 alignment 上:「问用户想要什么」「让 model 报告 goal」假设 revelation 可行;对抗性 model 破坏 cooperative 假设。


第三部分:协调失败与制度设计

3.1 公地悲剧(Hardin 1968)

个体 gain from 剥削共享资源 → 集体 ruin。

放到 alignment 上:共享安全声誉、开放权重外部性、共享评估、算力/环境 commons。


3.2 Ostrom 多中心治理(Nobel 2009

Ostrom 记录社区 可持续管理 commons 而无纯市场或纯国家:本地规则、monitoring、分级制裁、冲突解决、嵌套组织。

放到 alignment 上:单一杠杆 —「只监管」「只开源」「只 DAO」— 一般不 universal。可持续 AI 治理需要 stack:法律、norm、市场、code、lab、公民社会。纯链上在未预见状态上复现 Hart 式失败。


3.3 博弈陷阱

博弈结构AI 类比
Prisoner’s dilemma互相背叛 dominant安全减速 vs 对手
Stag huntrisky 合作需信任国际危险训练条约
Chicken边缘政策公开 capability demo
Coordination多 equilibrium 需 focal point「别训超过 X」无 enforcement

Schelling(1960): Focal points 无需 communication 即可协调 — constitution、行业 norm 是 Schelling infrastructure


3.4 Moloch 与 multipolar traps

Scott Alexander Meditations on Moloch(2014)命名 multipolar traps 的体验:局部 rational → 全局 awful equilibrium。

该用 Moloch: payoff 多 agent、背叛 locally dominant、无人能单方面 fix。

不该用: genuine value pluralism(Sen/Arrow)、无能、单方 malice。

§VII 的 singleton 论证(Bostrom)是 alignment 一支的 coordination fix — 有争议的哲学,非定理。


3.5 Lessig 四模态

Lessig法律、norm、市场、架构(code) 塑造行为。只改一层会被绕开。

放到 alignment 上:算力治理、liability、safety culture、API 定价 interact。


3.6 算法合谋与经济安全极限

Calvano et al. (2020):独立 learning 算法 无 explicit communication 达成超竞争价。

Lewis-Pye & Roughgarden (2024):permissionless consensus 经济安全有 resource thresholds

放到 alignment 上:多智能体 AI 经济可能涌现合谋。经济遏制 取决于 防御方资源占优。恶意智能体的机制设计(2025)对对抗性 AI 尤其相关。


第四部分:逻辑、计算与指标

4.1 Gödel 不完备(1931)

Consistent 足够强的 formal system 有真但不可证命题。

AI(类比): 有限 written constitution/spec 有 精神对但文本推不出 的 边缘案例。需要 Popper 式 revision,不是无限加条款。

认识论状态: 启发性类比。Claude 不是 Peano 算术。


4.2 Halting 与 Rice

Halting: 无 general algorithm 判定任意程序是否 halt。

Rice: 非 trivial semantic property 一般 undecidable。

放到 alignment 上: 「对所有 input 安全吗?」作为 fully general 问题,在足够 expressive 的设置下遇 undecidability。

实践 escape: 有界验证、specific threat models — 可解且必要。


4.3 No free lunch(1997)

无 learning algorithm 在所有问题上 dominate。

放到 alignment 上: 无 universal alignment method。


4.4 Goodhart 与 Campbell

GoodhartCampbell’s law:指标变成目标则指标失效。

放到 alignment 上:每个公开基准测试都是靶子。Anthropic automated alignment researcher (2026):泄漏测试床高 PGR 无法迁移 — 自动化速度的 Goodhart。


4.5 Lucas critique(1976)

Policy regime 变则 estimated 关系 break — agent re-optimize。

放到 alignment 上: 对齐伪装(alignment faking) 是 model 尺度 Lucas。


4.6 CAP theorem(2000)

Distributed system 不能同时 C、A、P。

放到 alignment 上:去中心化 AI 治理有 权衡。「无需信任 + 始终可用 + 全局一致」不在菜单上。


4.7 监督 vs 控制 vs 验证

三层文章:监督(Holmström + Goodhart)、控制(博弈 + 安全)、验证(有界 Rice 逃逸)。各层不可能性不同;混为一谈则幻灯完整、技术栈静默失败。


第五部分:认识论、知识与政治哲学

5.1 Hume is–ought

不能单从描述性前提 deductive 推出 normative 结论。

放到 alignment 上:训练得 statistical is,不是 authoritative should。价值载入 是 permanent gap。


5.2 Hayek 知识问题(1945)

分散、默会、local knowledge 无法无损 centralize。

放到 alignment 上:可扩展监督已难;Hayek 加:利益相关者分歧部分因 知道的不同。聚合反馈丢失本地知识(Arrow + Hayek)。


5.3 Quine–Duhem underdetermination

证据不足以唯一决定理论。

放到 alignment 上:可解释性 不足决定性 internal objectives — 欺骗性 alignment space。


5.4 Knight:risk vs uncertainty

Risk 可量化;uncertainty 不可。XR 常为 uncertainty,非可保险 risk。


5.5 Popper 开放社会(1945)

Closed utopia 不能 under criticism revise 则 fail。

放到 alignment 上:冻结价值 是治理 bug。要修正、申诉、error correction。


5.6 Rawls、多元主义、Gabriel

Rawls:合理多元主义 下无 comprehensive doctrine 全胜;legitimacy 要 重叠共识 on coexistence rules。

Gabriel (2020):技术对齐 vs 规范对齐;六层目标不可互换。

universal values map


5.7 Illich:友善工具 vs 工业规模(1973)

Illich Tools for Conviviality 非定理,是 design philosophy:工具要么扩展用户能力与 exit(convivial),要么绑进 industrial scale、专家维护、radical monopoly(industrial)。

放到 alignment 上:只有 lab 能 update weights、interpret activations、define harm → industrial AI + radical monopoly,非 convivial assistance。连 open weights、local models、user agency — 制度设计问题,非 Luddism。


第六部分:AI 特有结构论证(非全为定理)

主张状态备注
Orthogonality哲学Bostrom:智能与目标可分离
Instrumental convergence论证自保、资源、欺骗
Mesa-optimization假设 + 例Inner optimizer
Deceptive alignment假设 + 实证
Alignment tax经验模式
可扩展监督 gap类比P vs NP 隐喻
Boxing论证依赖 capability 模型

与 I–V 组合:不完全契约、Goodhart、multipolar、underdetermination。


总对照表

力量定理/概念AI stack 哪里中
聚合Arrow, Condorcet, VNM奖励模型, global persona
激励Gibbard, Goodhart, Lucas标注、评估、基准测试
自由 vs 福利SenUser request vs 伤害
契约缺口Hart, Holmström宪法沉默、代理指标
市场Akerlof, Myerson–Satterthwaite许可、能力市场
协调Hardin, Ostrom, MolochLab 竞赛、国际治理
编码化Gödel, RiceSpec、universal safety proof
知识Hayek, Quine监督、可解释性
规范性Hume, Rawls, GabrielTarget、legitimacy
规模/退出IllichIndustrial vs convivial

完美不可能时怎么办

不可能性定理 不是辞职信,是 design requirements。

点名你牺牲的公理。IIA?无限制域?传递性?Safety team 的一票否决?沉默会在后面咬你。

Pareto sets 优于标量谎言(Conitzer 的 SCT-aware agenda)。宪法当作不完全契约,写清剩余控制权。假设指标会被钻空。多中心治理,Ostrom 而非单一杠杆。有界验证不等于 universal proof。保持修正通道(Popper)。尽量为退出而设计(Illich)。监督和控制面对的敌人不同。政治不是 bug:Gabriel 说得对,目标是选出来的,不是发现的。


反驳与地图局限

生产环境有结构化偏好;定理描述一般情形。RLHF 是规范性压缩,不是投票。Gödel/Rice 字面不适用 Claude。Moloch 常被滥用。定理不预测时机。


开放研究问题

经验性 Arrow:生产环境奖励模型最常违反哪条公理?Condorcet 兼容训练 vs Bradley-Terry。大规模策略性标注。主要 lab 的剩余控制权比较。Illich 式审计。Ostrom 式评估联盟原型。


结论

社会反复出现的「根本缺陷」常呈定理形态。AI alignment 是这些问题遇上可扩展优化器。诚实的研究纲领不是「解决道德」,而是:给定结构极限,接受哪些 权衡、谁选择、什么制度能在指标压力下存活。比「aligned AGI」难卖,但仍有答案。


Sources

Repo 笔记: notes/impossibility_theorems_ai_safety_map.mdnotes/social_choice_theory_and_ai_alignment.md

Tier 1: SEP Social Choice · Conitzer (2024) · Gabriel (2020) · Geanakoplos Arrow

Tier 2: Arrow (1951) · Sen (1970/2017) · Hart;Holmström Nobel (2016) · Ostrom (1990) · Popper (1945)

Tier 3: Russell Human Compatible · Greenblatt (2024) · Lewis-Pye & Roughgarden (2024) · Moloch (2014) · Illich (1973)

本站相关: Alignment paradigms · Universal values · 监督三层