lab 说模型「已对齐」时,通常指过了伤害基准测试、遵守宪法、或在偏好比较里得分不错。这些都是真成果。但也是老问题的新外壳:合并冲突偏好、在能力跳变后仍有效的规则、阻止逐底竞争、验证万亿次运算是否按意图运行。
经济学家、逻辑学家、政治理论家用整个二十世纪证明:某些「完美版本」在一般情况下无解。不是 GPU 不够,是在明确假设下不可能,而且有证明。
我写这篇是因为领域碎得碍事:社会选择的人很少和契约理论对话;对齐工程师很少读 Sen;Moloch 迷因一直在传,底层博弈论却没跟上。我想有一篇可以反复查的文档——当有人说「更好的 RLHF 就行」「宪法能解决」「市场会协调 lab」,你能点名他们在撞哪条结构极限。
这是地图,能标认识论状态的地方我会标(定理 / 结构论证 / 类比 / 推测)。不是说 alignment 没希望,也不是说民主无用。不可能性定理是设计约束:告诉你放弃了哪条公理。假装没选,才会对奖励黑客、宪法矛盾、治理俘获感到意外。
本站相关:alignment paradigms map(对齐什么);universal values map(价值从哪来);监督 / 控制 / 验证(三层检查)。
怎么读这篇综述
结果分六块:
| 部分 | 领域 | 核心问题 | 典型 AI 产物 |
|---|---|---|---|
| I | 社会选择 | 能否把多个排序合并成公平集体排序? | RLHF 奖励模型 |
| II | 契约与机制设计 | 能否在契约里写全未来行为? | 宪法、服务条款 |
| III | 协调 | 自利 agent 能否无中心计划者地合作? | 能力竞赛、agent 经济 |
| IV | 逻辑与计算 | 能否完全验证强大系统的语义性质? | 基准测试、形式规格 |
| V | 认识论与政治 | 能否从 is 推 ought、centralize 分散知识? | 价值载入、监督 |
| VI | AI 特有 | 哪些是 argued 但未 proved? | 欺骗、囚禁 |
我关心的大部分极限,还原为四股力:
- 信息分散。没有规划者、奖励模型、安全团队能看到全部相关信息。
- 未来不可契约化。无法事先枚举所有状态。
- 行动者对激励反应。你定了指标,人、公司、模型都会优化指标,不是你的意图。
- 规范无法从事实推导。训练数据是描述性的;alignment 是规范性的。
第一部分:社会选择与福利经济学
1.1 问题
N 个人对选项有偏好,设计 社会福利函数 或投票规则,产出我们愿意为之辩护的集体选择。
AI 实例化于:
- 多个标注员给 model output 排序;
- 用户、文化、利益相关者对「helpful」「safe」分歧;
- Lab 把分歧压成一个 reward、一个 model、一个 policy。
社会选择理论(SCT)问:这种压缩能否满足我们在政治里会坚持的公平公理——并证明往往不能。
桥梁论文: Conitzer et al. (2024)。
1.2 Condorcet 悖论(1780s)
三人三选项,偏好:
| 投票者 | 1 | 2 | 3 |
|---|---|---|---|
| A | X | Y | Z |
| B | Y | Z | X |
| C | Z | X | Y |
两两多数:X 胜 Y,Y 胜 Z,Z 胜 X — 循环。集体偏好非传递,每人却传递。
三人三选项下循环概率约 8.8%;人越多越高。
放到 alignment 上:标注员对两个以上 completion 排序时,非传递性 结构性存在。Bradley-Terry 等奖励模型 假设 传递的潜在效用。偏好若循环,标量是虚构。
1.3 Arrow 不可能性(1951)
Kenneth Arrow:≥3 选项、≥2 投票者时,不存在同时满足以下全部的聚合规则:
| 公理 | 含义 |
|---|---|
| 无限制域 U | 允许任意个人偏好排序 |
| 非独裁 D | 结果不恒等于某一人排序 |
| Pareto P | 人人严格偏好 A>B 则社会 A>B |
| IIA | 社会对 A vs B 只取决于个人对 A vs B 的排序 |
| 传递性 | 集体排序传递 |
至少违反一条。Geanakoplos 三页证明 最快。
逃生口(都是真实制度选择):
| 放弃 | 例子 | 代价 |
|---|---|---|
| U | Single-peaked(Black) | 真实偏好多维 |
| IIA | Borda、ranked-choice | 搅局者、语境敏感 |
| 传递性 | 允许循环 | 议程可被操纵 |
| D | 独裁 | 合法性崩溃 |
放到 alignment 上:单一全局奖励模型隐含声称某种聚合规则。Arrow 说不能同时满足全部「合理」公理。生产环境 RLHF 通常牺牲 IIA 和 U(强制进传递的 Bradley-Terry)。
Arrow 不说: 民主 uniquely 更差。独裁通过违反 D「解决」Arrow。定理比较 规则,不是政体。
1.4 Gibbard–Satterthwaite(1973, 1975)
任何 非独裁、确定性、≥3 结果的投票规则都 可操纵。
与 Arrow 合起来:聚合受限 且 真实偏好 revelation 一般不是激励相容。
放到 alignment 上:标注员可能 策略性标注;capable model 可能 钻奖励空子 — mesa-optimization、奖励黑客、对齐伪装(alignment faking)。这是 Goodhart 压力的形式 backbone,工程实践里讨论偏少。
1.5 Sen 自由主义悖论(1970)
Sen:最小自由 + Pareto + 无限制域 不可兼得。
放到 alignment 上:「最大化用户满意」与「集体伤害约束」可冲突。Safety rails 不是免费的帕累托改进。
Sen 的 能力方法(人实际能做什么、成为什么)是标量效用之外的福利语言 — lab 谈「人类繁荣」但不给聚合公式时尤其相关。
1.6 May(1952)与 Black 中位选民(1948)
May: 恰好 两选项 时 simple majority 唯一满足 decisiveness、anonymity、neutrality、positive responsiveness。
Black: 偏好 single-peaked 于一维时,多数决选 中位选民 ideal point — 稳定。
放到 alignment 上:两两比较 RLHF 局部避开 Arrow(May)。Compose 回全局 reward 则 全局 Arrow 回来。RLHF 部分有效因为 safety/helpfulness 近似 single-peaked — 直到文化、政治、双重用途使其 multi-peaked。
1.7 VNM 与标量奖励假设
VNM 定理(1944):若对 lottery 的偏好满足完备、传递、连续、独立,则等价于最大化某 实值 utility 的期望。
Pairwise labels → Bradley-Terry → scalar r → PPO/DPO 最大化 E[r]
人类 系统违反 VNM:Allais paradox、preference reversal 等。
放到 alignment 上:标量奖励不是中性工程选择,是 规范性压缩。Multi-objective RL、Pareto policy sets、plural models 是对 VNM failure + Arrow 的回应。Russell Human Compatible 批判 fixed objective 标准模型。
1.8 投票规则与反馈界面
| 规则 | 机制 | 典型违反 |
|---|---|---|
| Plurality | 最多第一票 | Split vote |
| Borda | 按名次给分 | IIA、策略 |
| IRV | 淘汰末位转移 | Monotonicity |
| Approval | 圈可接受者 | 信息少 |
| Condorcet | 两两比较冠军 | 可能不存在 |
| Range | 0–10 均分 | IIA(常经验上表现好) |
Conitzer et al.:approval/range 式反馈、Condorcet 式聚合、heterogeneous preference models、Pareto policy sets、多个 aligned models。
最后一条是 人格训练 的理论依据:不能 fair aggregate 就 分化。
1.9 第一部分从业者小结
| SCT | RLHF 产物 | 预测失败 |
|---|---|---|
| Arrow | 全局奖励 | 语境敏感、权衡不一致 |
| Condorcet | 多路排序 | Bradley-Terry 假传递 |
| Gibbard–Satterthwaite | 标注 + 优化 | 策略标注、奖励钻空 |
| Sen | 自主 vs 伤害 | 「帮我做 X」vs 平台政策 |
| VNM/Allais | 标量奖励 | 边缘案例怪异 |
第二部分:契约理论与机制设计
2.1 不完全合约(Hart;Holmström,Nobel 2016)
真实契约无法描述所有未来状态。未预见发生时,剩余控制权 — 沉默时谁说了算 — 决定结果。
放到 alignment 上:宪法、系统提示、AUP、模型规范都是不完全契约。新 jailbreak、新 modality、涌现能力、模糊 request 是 未契约化状态。谁拿剩余控制权 才是治理问题。
2026 Claude constitution 从 bullet 原则转向 long narrative — 适合 incompleteness,也使 作者裁量权 更显式。
2.2 Holmström 信息原则
激励只能用 可观测、可契约化 的信号。不能直接 pay on intent。
放到 alignment 上:RLHF、critic、harm classifier 监督 输出/行为,不是 internal goals。可扩展监督 largely 是找 更好的代理指标。
2.3 委托–代理
道德风险(hidden action)、逆向选择(hidden type)结构性存在。
放到 alignment 上:部署方、lab、user 各握 private info — 整条 stack 是委托–代理链。
2.4 Myerson–Satterthwaite(1983)
双边 private information 下,一般无法同时 事后帕累托有效、个体理性、激励相容、预算平衡。
放到 alignment 上:算力/API/能力许可的 naive 「高效市场」 underestimate friction。
2.5 Akerlof 柠檬(1970)
质量不可验证 → 市场崩溃。
放到 alignment 上:能力、对齐、意图不可验证 → 在公开指标上赛跑。第三方评估、权重安全对抗柠檬市场。
2.6 机制设计与 revelation principle
Revelation principle(Myerson): 任何 mechanism 实现的 outcome,理论上可由 direct mechanism 使 truthful reporting 为 Nash equilibrium 来实现。
复杂多维偏好下 truly IC 的 mechanism 很难 — 连回 Gibbard–Satterthwaite。
放到 alignment 上:「问用户想要什么」「让 model 报告 goal」假设 revelation 可行;对抗性 model 破坏 cooperative 假设。
第三部分:协调失败与制度设计
3.1 公地悲剧(Hardin 1968)
个体 gain from 剥削共享资源 → 集体 ruin。
放到 alignment 上:共享安全声誉、开放权重外部性、共享评估、算力/环境 commons。
3.2 Ostrom 多中心治理(Nobel 2009)
Ostrom 记录社区 可持续管理 commons 而无纯市场或纯国家:本地规则、monitoring、分级制裁、冲突解决、嵌套组织。
放到 alignment 上:单一杠杆 —「只监管」「只开源」「只 DAO」— 一般不 universal。可持续 AI 治理需要 stack:法律、norm、市场、code、lab、公民社会。纯链上在未预见状态上复现 Hart 式失败。
3.3 博弈陷阱
| 博弈 | 结构 | AI 类比 |
|---|---|---|
| Prisoner’s dilemma | 互相背叛 dominant | 安全减速 vs 对手 |
| Stag hunt | risky 合作需信任 | 国际危险训练条约 |
| Chicken | 边缘政策 | 公开 capability demo |
| Coordination | 多 equilibrium 需 focal point | 「别训超过 X」无 enforcement |
Schelling(1960): Focal points 无需 communication 即可协调 — constitution、行业 norm 是 Schelling infrastructure。
3.4 Moloch 与 multipolar traps
Scott Alexander Meditations on Moloch(2014)命名 multipolar traps 的体验:局部 rational → 全局 awful equilibrium。
该用 Moloch: payoff 多 agent、背叛 locally dominant、无人能单方面 fix。
不该用: genuine value pluralism(Sen/Arrow)、无能、单方 malice。
§VII 的 singleton 论证(Bostrom)是 alignment 一支的 coordination fix — 有争议的哲学,非定理。
3.5 Lessig 四模态
Lessig:法律、norm、市场、架构(code) 塑造行为。只改一层会被绕开。
放到 alignment 上:算力治理、liability、safety culture、API 定价 interact。
3.6 算法合谋与经济安全极限
Calvano et al. (2020):独立 learning 算法 无 explicit communication 达成超竞争价。
Lewis-Pye & Roughgarden (2024):permissionless consensus 经济安全有 resource thresholds。
放到 alignment 上:多智能体 AI 经济可能涌现合谋。经济遏制 取决于 防御方资源占优。恶意智能体的机制设计(2025)对对抗性 AI 尤其相关。
第四部分:逻辑、计算与指标
4.1 Gödel 不完备(1931)
Consistent 足够强的 formal system 有真但不可证命题。
AI(类比): 有限 written constitution/spec 有 精神对但文本推不出 的 边缘案例。需要 Popper 式 revision,不是无限加条款。
认识论状态: 启发性类比。Claude 不是 Peano 算术。
4.2 Halting 与 Rice
Halting: 无 general algorithm 判定任意程序是否 halt。
Rice: 非 trivial semantic property 一般 undecidable。
放到 alignment 上: 「对所有 input 安全吗?」作为 fully general 问题,在足够 expressive 的设置下遇 undecidability。
实践 escape: 有界验证、specific threat models — 可解且必要。
4.3 No free lunch(1997)
无 learning algorithm 在所有问题上 dominate。
放到 alignment 上: 无 universal alignment method。
4.4 Goodhart 与 Campbell
Goodhart、Campbell’s law:指标变成目标则指标失效。
放到 alignment 上:每个公开基准测试都是靶子。Anthropic automated alignment researcher (2026):泄漏测试床高 PGR 无法迁移 — 自动化速度的 Goodhart。
4.5 Lucas critique(1976)
Policy regime 变则 estimated 关系 break — agent re-optimize。
放到 alignment 上: 对齐伪装(alignment faking) 是 model 尺度 Lucas。
4.6 CAP theorem(2000)
Distributed system 不能同时 C、A、P。
放到 alignment 上:去中心化 AI 治理有 权衡。「无需信任 + 始终可用 + 全局一致」不在菜单上。
4.7 监督 vs 控制 vs 验证
见 三层文章:监督(Holmström + Goodhart)、控制(博弈 + 安全)、验证(有界 Rice 逃逸)。各层不可能性不同;混为一谈则幻灯完整、技术栈静默失败。
第五部分:认识论、知识与政治哲学
5.1 Hume is–ought
不能单从描述性前提 deductive 推出 normative 结论。
放到 alignment 上:训练得 statistical is,不是 authoritative should。价值载入 是 permanent gap。
5.2 Hayek 知识问题(1945)
分散、默会、local knowledge 无法无损 centralize。
放到 alignment 上:可扩展监督已难;Hayek 加:利益相关者分歧部分因 知道的不同。聚合反馈丢失本地知识(Arrow + Hayek)。
5.3 Quine–Duhem underdetermination
证据不足以唯一决定理论。
放到 alignment 上:可解释性 不足决定性 internal objectives — 欺骗性 alignment space。
5.4 Knight:risk vs uncertainty
Risk 可量化;uncertainty 不可。XR 常为 uncertainty,非可保险 risk。
5.5 Popper 开放社会(1945)
Closed utopia 不能 under criticism revise 则 fail。
放到 alignment 上:冻结价值 是治理 bug。要修正、申诉、error correction。
5.6 Rawls、多元主义、Gabriel
Rawls:合理多元主义 下无 comprehensive doctrine 全胜;legitimacy 要 重叠共识 on coexistence rules。
Gabriel (2020):技术对齐 vs 规范对齐;六层目标不可互换。
5.7 Illich:友善工具 vs 工业规模(1973)
Illich Tools for Conviviality 非定理,是 design philosophy:工具要么扩展用户能力与 exit(convivial),要么绑进 industrial scale、专家维护、radical monopoly(industrial)。
放到 alignment 上:只有 lab 能 update weights、interpret activations、define harm → industrial AI + radical monopoly,非 convivial assistance。连 open weights、local models、user agency — 制度设计问题,非 Luddism。
第六部分:AI 特有结构论证(非全为定理)
| 主张 | 状态 | 备注 |
|---|---|---|
| Orthogonality | 哲学 | Bostrom:智能与目标可分离 |
| Instrumental convergence | 论证 | 自保、资源、欺骗 |
| Mesa-optimization | 假设 + 例 | Inner optimizer |
| Deceptive alignment | 假设 + 实证 | |
| Alignment tax | 经验模式 | |
| 可扩展监督 gap | 类比 | P vs NP 隐喻 |
| Boxing | 论证 | 依赖 capability 模型 |
与 I–V 组合:不完全契约、Goodhart、multipolar、underdetermination。
总对照表
| 力量 | 定理/概念 | AI stack 哪里中 |
|---|---|---|
| 聚合 | Arrow, Condorcet, VNM | 奖励模型, global persona |
| 激励 | Gibbard, Goodhart, Lucas | 标注、评估、基准测试 |
| 自由 vs 福利 | Sen | User request vs 伤害 |
| 契约缺口 | Hart, Holmström | 宪法沉默、代理指标 |
| 市场 | Akerlof, Myerson–Satterthwaite | 许可、能力市场 |
| 协调 | Hardin, Ostrom, Moloch | Lab 竞赛、国际治理 |
| 编码化 | Gödel, Rice | Spec、universal safety proof |
| 知识 | Hayek, Quine | 监督、可解释性 |
| 规范性 | Hume, Rawls, Gabriel | Target、legitimacy |
| 规模/退出 | Illich | Industrial vs convivial |
完美不可能时怎么办
不可能性定理 不是辞职信,是 design requirements。
点名你牺牲的公理。IIA?无限制域?传递性?Safety team 的一票否决?沉默会在后面咬你。
Pareto sets 优于标量谎言(Conitzer 的 SCT-aware agenda)。宪法当作不完全契约,写清剩余控制权。假设指标会被钻空。多中心治理,Ostrom 而非单一杠杆。有界验证不等于 universal proof。保持修正通道(Popper)。尽量为退出而设计(Illich)。监督和控制面对的敌人不同。政治不是 bug:Gabriel 说得对,目标是选出来的,不是发现的。
反驳与地图局限
生产环境有结构化偏好;定理描述一般情形。RLHF 是规范性压缩,不是投票。Gödel/Rice 字面不适用 Claude。Moloch 常被滥用。定理不预测时机。
开放研究问题
经验性 Arrow:生产环境奖励模型最常违反哪条公理?Condorcet 兼容训练 vs Bradley-Terry。大规模策略性标注。主要 lab 的剩余控制权比较。Illich 式审计。Ostrom 式评估联盟原型。
结论
社会反复出现的「根本缺陷」常呈定理形态。AI alignment 是这些问题遇上可扩展优化器。诚实的研究纲领不是「解决道德」,而是:给定结构极限,接受哪些 权衡、谁选择、什么制度能在指标压力下存活。比「aligned AGI」难卖,但仍有答案。
Sources
Repo 笔记: notes/impossibility_theorems_ai_safety_map.md、notes/social_choice_theory_and_ai_alignment.md
Tier 1: SEP Social Choice · Conitzer (2024) · Gabriel (2020) · Geanakoplos Arrow
Tier 2: Arrow (1951) · Sen (1970/2017) · Hart;Holmström Nobel (2016) · Ostrom (1990) · Popper (1945)
Tier 3: Russell Human Compatible · Greenblatt (2024) · Lewis-Pye & Roughgarden (2024) · Moloch (2014) · Illich (1973)
本站相关: Alignment paradigms · Universal values · 监督三层