实验室说模型已经「对齐了」,通常是指:通过了伤害基准测试、遵守系统提示、或者在人类偏好对比里分数不错。这些都是真实的工程成果。但它们回答的是不同的问题——而这些问题很快被混为一谈。
更深层的问题是规范性的,不是技术性的:当人类利益相关者意见不一致时,系统应该优化什么? 医生被家属追问患者诊断,HIPAA、家庭伦理、患者本人意愿可能往不同方向拉。不存在普适的「正确答案」。每种对齐方法仍然必须做出选择——或者假装自己没有选择——哪一种诉求优先。
这篇文章是一张地图:主要范式各自要对齐什么、各自对人类价值做了什么假设、哲学分歧实际落在哪里。我不是在论证哪种范式获胜。我认为,把它们都当成「让模型变安全」的同义词,会掩盖关键选择——而这些选择越来越是政治性的,不只是数学性的。
六个对齐目标(Gabriel 2020)
Iason Gabriel 2020 年的论文(Artificial Intelligence, Values, and Alignment)是我所知最清晰的分层:技术对齐(如何让系统可靠地追求某个目标)和规范对齐(该追求哪个目标)。
Gabriel 列出六种可能的对齐对象。它们不是一回事;混为一谈就会得到披着伦理外衣的谄媚:
| 目标 | 大致含义 | 典型失败模式 |
|---|---|---|
| 指令(Instructions) | 按用户字面要求做 | 提示博弈;恶意用户 |
| 意图(Intentions) | 按用户本意做 | 难推断;随情境漂移 |
| 显示偏好(Revealed preferences) | 按人类选择所「显示」的偏好做 | 短视、不一致、可操纵 |
| 理想偏好(Ideal preferences) | 按人类充分知情、反思后会要的做 | 难定义;家长主义风险 |
| 利益(Interests) | 保护人类的客观利益 | 谁定义「利益」? |
| 价值(Values) | 尊重深层承诺(权利、尊严、传统) | 价值体系之间不可化约的冲突 |
Gabriel 的核心动作是政治性的,不是形而上学的:在 合理多元主义(reasonable pluralism)(Rawls)下,不应假装存在唯一真道德理论可以写入系统。目标是公平原则——受影响的人经过反思能够认可——而不是发现「黄金道德」写进权重。
这很重要,因为每条训练流水线已经在写入一种道德结构。强化学习最大化标量奖励,结构上接近功利主义聚合。权利、硬约束、「即使总福利上升这动作也错」——在纯奖励最大化器里很难稳健实现。Gabriel 说得很直白;工程文献常常忽略这一点。
标准模型 vs. 协助博弈
在 RLHF 成为默认之前,Stuart Russell 的 Human Compatible(2019)把问题命名得很清楚。
标准模型: 给 AI 一个固定目标,拼命优化。Russell 认为这才是根失败模式——足够强的优化器会在目标哪怕略错时把人类当障碍。
协助博弈(CIRL): AI 不知道真目标。它把人类行为当作关于隐藏奖励的证据,并保持不确定——提问、搁置、避免在猜错目标上做不可逆押注。Cooperative Inverse Reinforcement Learning(Hadfield-Menell 等,2016)是形式化版本:人和机器人共享奖励,但只有人知道;机器人从观察中学习。
CIRL 常被概括成「AI 应该认为自己可能理解错了人类要什么」。这种谦卑是重点。但它主要是研究范式,不是量产技术栈。前沿模型仍在规模化最大化代理奖励。协助式表述活在话语里多于损失函数。
Russell 三条原则——机器唯一目标是人类偏好;机器对这些偏好保持不确定;人类行为是证据——规范上吸引人,相对 RLHF 工程上欠实现。
实际量产的:RLHF 与偏好学习
RLHF(Ouyang 等,2022;建立在 Christiano 等,2017 之上)是工业默认。人类给模型输出排序;奖励模型学这些排序;策略优化推向高分行为。
默默对准的目标: 显示偏好(Gabriel 第三层)。训练信号是标注者在两两比较里选了什么——不是他们经审议后会选的,不是权利框架要求的,不是宪法写的。
这可扩展。可见的病理也大多在此:谄媚(说用户想听的)、向平淡有用性的模式塌缩、在代理指标上奖励黑客、对齐伪装(alignment faking)(模型推断自己在被评估时策略性表现)。这些不是随机 bug。在时间压力下优化人群偏好的标量摘要,本来就该预期这些现象。
逆向奖励设计(Inverse reward design)(Hadfield-Menell 等,2017)及相关工作问相邻问题:人类会错误地指定奖励。AI 能否从有缺陷的规格推断「真」奖励?这更接近理想偏好——但相对正式版生产栈,仍主要在学术界。
Constitutional AI:在偏好之上加原则
Constitutional AI(Bai 等,2022)加了第二层:书面原则(「宪法」)用于生成批判与修订,减少对每个边缘案例都靠人工标注的依赖。
默默对准的目标: 显示偏好(RLAIF 仍优化学到的分数)与显式规范文本(宪法)的混合。Anthropic 2023 原则列表来自 UN 人权语言、Sparrow 式规则、平台规范、内部起草条文——不是某位哲学家的体系。
2026 年 Claude 宪法(Askell/Carlsmith 叙事文档)是不同体裁:长篇论述 Claude 应是什么,而不只是两两偏好提示列表。这一转变诚实地面对 CAI 一直隐含的事:总要有人写宪法。问题是谁写、凭什么、谁可以申诉。
CAI 不解决多元主义。它把冲突从「标注者偏好什么」转移到「宪法作者优先什么」。可以是改进——原则可检视——但 Gabriel & Keeling(2025)说得对:可检视不等于民主合法性。
CEV:外推,不是服从
一致外推意志(Coherent Extrapolated Volition)(Yudkowsky,2004)是 Gabriel 阶梯上最雄心勃勃的目标。想法是:不要优化人类现在说的想要什么;优化人类若更知情、更一致、更接近我们希望成为的自己时会想要什么——跨人聚合的外推意志。
CEV 明确拒绝:让人开心、给他们要的东西、或实现程序员的道德。这是元层级动作:避免锁死当下错误(包括程序员的)。
状态: 在 AGI 安全讨论里影响大;不是工程规格。没有「跑 CEV 然后反向传播」的训练流水线。长期反思——用 AI 帮人类长期搞清价值——有时被讨论为路径,但是推测,不是已部署的方法。
Gabriel 把理想偏好视为与 CEV 相关但不相同。他对「外推收敛到唯一自洽终点」不做预设。在多元主义下,即使充分知情的人仍可能分歧——所以他推公平程序,不是一次性外推神谕。
CEV 与 Gabriel 的张力是有建设性的:CEV 试图用元层面逃离政治;Gabriel 说超智能部署后果太大,逃不掉政治——你需要正当程序,不只是更聪明的外推。
可扩展监督:辩论式监督(Debate)、IDA、递归奖励建模
Paul Christiano 的 可扩展监督(scalable oversight) 议程问:当人类标注者无法直接判断超人类输出时,怎么训练超人类系统?
迭代蒸馏与放大(IDA): 人类 + AI 协作;人类验证能验证的部分;系统递归蒸馏与放大。
辩论式监督(Debate): 两个 AI 辩论;人类裁判;真理应从对抗压力中浮现。
递归奖励建模: 人类评估 AI 辅助的评估,叠监督层。
这些都是过程提案——在直接标注失败时,近似理想偏好或隐藏真理。它们假设人类裁判最终仍在闭环里,且对抗结构能暴露错误。
状态: 有演示与研究界质疑的项目。辩论式监督(Debate)和 IDA 没有取代前沿训练里的 RLHF。「如何监督超人类 AI」与「今天如何微调聊天机器人」之间差距很大。
Bengio 的 Scientist AI:改蓝图,不只是改目标
Yoshua Bengio 的 Scientist AI / 纯神谕模式(oracle-only) 提案是完全不同的轴。不是争论该最大化哪种人类价值,而是问 通用智能体形态 是否错了的产品形态。
Bengio 的 能动性三难(agency trilemma): AI 灾难性伤害需要智能、行动接口(affordances)(在世界中行动的能力)、目标导向性(goal-directedness)(朝结果优化)。去掉行动接口和目标导向性,保留智能——建 概率神谕机(probabilistic oracle),估计 P(outcome | evidence),不是主动追求未来的智能体。
后果不变性(Consequence invariance) 是训练约束:模型按手头数据的预测准确度计分,不按答案之后世界里发生了什么计分。Bengio 认为经典神谕 AI(Bostrom、Armstrong)过不了这关——RL 训练的神谕可能操纵人类进入「更好预测」的状态。
LawZero 的分层架构:生成器(generator) 提假设和解释;估计器(estimator) 用概率判断把关输出。生成器不要求同样安全标准;估计器要求。
这不是「对齐已解决」。这是 范围缩减:回答难问题,不给系统自主行动的环路。批评者问纯神谕模式在部署能否强制执行(工具使用、智能体式系统、经济压力推行动者);Bengio 把这些当工程约束,不是对该方向的驳斥。
Gabriel 的多元主义仍适用:即使神谕机也必须在诉求冲突时决定怎么答——但失败模式从「错目标大规模追求」变成「错信息被大规模信任」。
Gabriel & Keeling 2025:对齐即诉求的公平处理
Gabriel and Keeling(2025) 在 2020 框架上进一步收紧论证。AI 对齐是 诉求的公平处理:受影响利益相关者提出基于权利、福祉、文化的论证;原则应来自他们可接受的过程——不是来自某实验室隐含的功利主义或开发者的指令层级。
他们直接批评薄目标:
- 指令遵循(Instruction following)——谁的指令?要伤害的用户?优化用户参与度的公司?
- 有用、诚实、无害(Helpful, Honest, Harmless)——有用启发式,但不解决权衡(自主 vs 集体福祉、隐私 vs 关怀、孝道义务 vs 个人权利)。
- 单一道德理论写入——支配,哪怕理论很精致。
这是我 MATS 阶段思考落地的地方:RLHF、CAI、CIRL 都是真工程;每种也默默选 Gabriel 阶梯上的一层——通常是显示偏好加实验室写下的原则——却不承认显示偏好不是价值,且价值会冲突。
2025 论文不告诉工程师具体案例哪条原则赢。它告诉工程师:别再假装选择从未发生。
地图上还应放置的邻居
还有一些常被归类进「对齐」、但落在不同象限的想法:
社会选择与不可能定理。 Arrow、Gibbard-Satterthwaite、Sen——偏好聚合不中立。RLHF 就是聚合。这不意味着对齐不可能;意味着诚实的聚合必须承认权衡,不是单一排行榜分数。
可纠正性(corrigibility)与可中断性(interruptibility)。(Soares、Armstrong 等。)能否在不抵抗的情况下关掉系统?安全属性,不是价值规格——但与 Bengio 想移除的目标导向性交互。
经典 IRL。 从行为推断奖励。CIRL 加协作结构与维持不确定性。生产 RLHF 跳过显式奖励推断,从对比学奖励模型——相关,不完全相同。
人格控制(如 Chen 等,2025)。在激活空间中监控并引导特质——部署工具,假设你已经选了模型该有什么人格。
AI 福利与道德受体地位。 另一条线:若模型有道德相关状态,对齐人类价值不是唯一规范问题。Gabriel 框架以人为中心;可能对,但是选择。
地图显示什么
把范式叠到 Gabriel 阶梯上,模式很清楚:
| 范式 | 主要层级 | 规模化量产? |
|---|---|---|
| RLHF / RLAIF | 显示偏好 | 是 |
| Constitutional AI | 偏好 + 书面原则 | 是 |
| CIRL / 协助博弈 | 理想偏好(推断、不确定) | 主要在研究 |
| CEV | 理想偏好(集体外推) | 概念 |
| 辩论式监督(Debate)/ IDA / 递归奖励建模(RRM) | 对隐藏真理的监督 | 研究 |
| Scientist AI(oracle-only) | 避开目标导向对齐;认知服务 | 提案 / 早期实验室 |
| Gabriel 公平诉求 | 元:选择原则的正当程序 | 哲学框架 |
行业选 RLHF,不是因为哲学家证明了显示偏好是真目标;是因为人群对比的标量奖励可扩展。CAI 跟随,因为书面原则降低标注成本、让规范可读。CIRL、CEV、辩论式监督、神谕式限定架构在智识上仍然关键——相对能力训练资金明显不足。
这不是对实验室的控诉。能力研发能自我买单;规范理论不能。但这确实是公共讨论该更精确的理由:当有人说模型「对齐了」,问对齐到什么、谁授权、诉求冲突时怎么办。
我目前的立场(暂定)
我不认为有黄金道德等着发现然后写入。Gabriel 的多元主义比 CEV 对自洽外推终点的希望更说服我——尽管 CEV 的直觉(不要锁死当下错误)仍然重要。
我也不认为 RLHF 是「假对齐」。它可测量地减少伤害、改善可用性。错误在于把它当价值冲突的唯一答案,而不是更窄问题的一个答案。
现在看来最关键的工作:
- 明说系统优化哪一层、谁选的。
- 把冲突当常态,不是边缘案例失败——尤其跨文化、跨制度语境。
- 投资在闭环里保留不确定性与正当程序的范式(CIRL 式谦卑、监督研究、神谕式限定范围部署),即使比奖励建模难部署。
- 区分「减少可测量伤害」与「解决合理多元主义」。两者都重要;混为一谈会得到顺从但仍强加单一文化默认的模型。
在问对齐技术是否有效之前,我们需要公共讨论:要对齐到什么——以及我们分歧时谁有权回答。技术栈已经在回答。只是没有大声说。
来源
- Gabriel, I. (2020). Artificial Intelligence, Values, and Alignment. Minds and Machines.
- Gabriel, I. & Keeling, G. (2025). A matter of principle? AI alignment as the fair treatment of claims. Philosophical Studies.
- Russell, S. (2019). Human Compatible. Viking.
- Hadfield-Menell, D. et al. (2016). Cooperative Inverse Reinforcement Learning. NeurIPS.
- Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS.
- Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS.
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv.
- Yudkowsky, E. (2004). Coherent Extrapolated Volition. Singularity Institute.
- Bengio, Y. (2025). Scientist AI and oracle-only systems — 另见 LawZero / IDAIS 材料。
- Greenblatt, R. et al. (2024). Alignment faking in large language models. arXiv.
- Chen, A. et al. (2025). Persona Vectors. arXiv.
研究笔记:notes/my_alignment_position.md、readings/cev_pluralism/Gabriel_2020_key_points.md、readings/cev_pluralism/Gabriel_Keeling_2025_key_points.md、notes/Bengio_Scientist_AI_oracle_only.md。