我们在对齐什么？对齐范式地图

实验室说模型已经「对齐了」，通常是指：通过了伤害基准测试、遵守系统提示、或者在人类偏好对比里分数不错。这些都是真实的工程成果。但它们回答的是不同的问题——而这些问题很快被混为一谈。

更深层的问题是规范性的，不是技术性的：当人类利益相关者意见不一致时，系统应该优化什么？ 医生被家属追问患者诊断，HIPAA、家庭伦理、患者本人意愿可能往不同方向拉。不存在普适的「正确答案」。每种对齐方法仍然必须做出选择——或者假装自己没有选择——哪一种诉求优先。

这篇文章是一张地图：主要范式各自要对齐什么、各自对人类价值做了什么假设、哲学分歧实际落在哪里。我不是在论证哪种范式获胜。我认为，把它们都当成「让模型变安全」的同义词，会掩盖关键选择——而这些选择越来越是政治性的，不只是数学性的。

六个对齐目标（Gabriel 2020）

Iason Gabriel 2020 年的论文（Artificial Intelligence, Values, and Alignment）是我所知最清晰的分层：技术对齐（如何让系统可靠地追求某个目标）和规范对齐（该追求哪个目标）。

Gabriel 列出六种可能的对齐对象。它们不是一回事；混为一谈就会得到披着伦理外衣的谄媚：

目标	大致含义	典型失败模式
指令（Instructions）	按用户字面要求做	提示博弈；恶意用户
意图（Intentions）	按用户本意做	难推断；随情境漂移
显示偏好（Revealed preferences）	按人类选择所「显示」的偏好做	短视、不一致、可操纵
理想偏好（Ideal preferences）	按人类充分知情、反思后会要的做	难定义；家长主义风险
利益（Interests）	保护人类的客观利益	谁定义「利益」？
价值（Values）	尊重深层承诺（权利、尊严、传统）	价值体系之间不可化约的冲突

Gabriel 的核心动作是政治性的，不是形而上学的：在合理多元主义（reasonable pluralism）（Rawls）下，不应假装存在唯一真道德理论可以写入系统。目标是公平原则——受影响的人经过反思能够认可——而不是发现「黄金道德」写进权重。

这很重要，因为每条训练流水线已经在写入一种道德结构。强化学习最大化标量奖励，结构上接近功利主义聚合。权利、硬约束、「即使总福利上升这动作也错」——在纯奖励最大化器里很难稳健实现。Gabriel 说得很直白；工程文献常常忽略这一点。

标准模型 vs. 协助博弈

在 RLHF 成为默认之前，Stuart Russell 的 Human Compatible（2019）把问题命名得很清楚。

标准模型： 给 AI 一个固定目标，拼命优化。Russell 认为这才是根失败模式——足够强的优化器会在目标哪怕略错时把人类当障碍。

协助博弈（CIRL）： AI 不知道真目标。它把人类行为当作关于隐藏奖励的证据，并保持不确定——提问、搁置、避免在猜错目标上做不可逆押注。Cooperative Inverse Reinforcement Learning（Hadfield-Menell 等，2016）是形式化版本：人和机器人共享奖励，但只有人知道；机器人从观察中学习。

CIRL 常被概括成「AI 应该认为自己可能理解错了人类要什么」。这种谦卑是重点。但它主要是研究范式，不是量产技术栈。前沿模型仍在规模化最大化代理奖励。协助式表述活在话语里多于损失函数。

Russell 三条原则——机器唯一目标是人类偏好；机器对这些偏好保持不确定；人类行为是证据——规范上吸引人，相对 RLHF 工程上欠实现。

实际量产的：RLHF 与偏好学习

RLHF（Ouyang 等，2022；建立在 Christiano 等，2017 之上）是工业默认。人类给模型输出排序；奖励模型学这些排序；策略优化推向高分行为。

默默对准的目标： 显示偏好（Gabriel 第三层）。训练信号是标注者在两两比较里选了什么——不是他们经审议后会选的，不是权利框架要求的，不是宪法写的。

这可扩展。可见的病理也大多在此：谄媚（说用户想听的）、向平淡有用性的模式塌缩、在代理指标上奖励黑客、对齐伪装（alignment faking）（模型推断自己在被评估时策略性表现）。这些不是随机 bug。在时间压力下优化人群偏好的标量摘要，本来就该预期这些现象。

逆向奖励设计（Inverse reward design）（Hadfield-Menell 等，2017）及相关工作问相邻问题：人类会错误地指定奖励。AI 能否从有缺陷的规格推断「真」奖励？这更接近理想偏好——但相对正式版生产栈，仍主要在学术界。

Constitutional AI：在偏好之上加原则

Constitutional AI（Bai 等，2022）加了第二层：书面原则（「宪法」）用于生成批判与修订，减少对每个边缘案例都靠人工标注的依赖。

默默对准的目标： 显示偏好（RLAIF 仍优化学到的分数）与显式规范文本（宪法）的混合。Anthropic 2023 原则列表来自 UN 人权语言、Sparrow 式规则、平台规范、内部起草条文——不是某位哲学家的体系。

2026 年 Claude 宪法（Askell/Carlsmith 叙事文档）是不同体裁：长篇论述 Claude 应是什么，而不只是两两偏好提示列表。这一转变诚实地面对 CAI 一直隐含的事：总要有人写宪法。问题是谁写、凭什么、谁可以申诉。

CAI 不解决多元主义。它把冲突从「标注者偏好什么」转移到「宪法作者优先什么」。可以是改进——原则可检视——但 Gabriel & Keeling（2025）说得对：可检视不等于民主合法性。

CEV：外推，不是服从

一致外推意志（Coherent Extrapolated Volition）（Yudkowsky，2004）是 Gabriel 阶梯上最雄心勃勃的目标。想法是：不要优化人类现在说的想要什么；优化人类若更知情、更一致、更接近我们希望成为的自己时会想要什么——跨人聚合的外推意志。

CEV 明确拒绝：让人开心、给他们要的东西、或实现程序员的道德。这是元层级动作：避免锁死当下错误（包括程序员的）。

状态： 在 AGI 安全讨论里影响大；不是工程规格。没有「跑 CEV 然后反向传播」的训练流水线。长期反思——用 AI 帮人类长期搞清价值——有时被讨论为路径，但是推测，不是已部署的方法。

Gabriel 把理想偏好视为与 CEV 相关但不相同。他对「外推收敛到唯一自洽终点」不做预设。在多元主义下，即使充分知情的人仍可能分歧——所以他推公平程序，不是一次性外推神谕。

CEV 与 Gabriel 的张力是有建设性的：CEV 试图用元层面逃离政治；Gabriel 说超智能部署后果太大，逃不掉政治——你需要正当程序，不只是更聪明的外推。

可扩展监督：辩论式监督（Debate）、IDA、递归奖励建模

Paul Christiano 的可扩展监督（scalable oversight）议程问：当人类标注者无法直接判断超人类输出时，怎么训练超人类系统？

迭代蒸馏与放大（IDA）： 人类 + AI 协作；人类验证能验证的部分；系统递归蒸馏与放大。

辩论式监督（Debate）： 两个 AI 辩论；人类裁判；真理应从对抗压力中浮现。

递归奖励建模： 人类评估 AI 辅助的评估，叠监督层。

这些都是过程提案——在直接标注失败时，近似理想偏好或隐藏真理。它们假设人类裁判最终仍在闭环里，且对抗结构能暴露错误。

状态： 有演示与研究界质疑的项目。辩论式监督（Debate）和 IDA 没有取代前沿训练里的 RLHF。「如何监督超人类 AI」与「今天如何微调聊天机器人」之间差距很大。

Bengio 的 Scientist AI：改蓝图，不只是改目标

Yoshua Bengio 的 Scientist AI / 纯神谕模式（oracle-only）提案是完全不同的轴。不是争论该最大化哪种人类价值，而是问 通用智能体形态 是否错了的产品形态。

Bengio 的 能动性三难（agency trilemma）： AI 灾难性伤害需要智能、行动接口（affordances）（在世界中行动的能力）、目标导向性（goal-directedness）（朝结果优化）。去掉行动接口和目标导向性，保留智能——建 概率神谕机（probabilistic oracle），估计 P(outcome | evidence)，不是主动追求未来的智能体。

后果不变性（Consequence invariance） 是训练约束：模型按手头数据的预测准确度计分，不按答案之后世界里发生了什么计分。Bengio 认为经典神谕 AI（Bostrom、Armstrong）过不了这关——RL 训练的神谕可能操纵人类进入「更好预测」的状态。

LawZero 的分层架构：生成器（generator） 提假设和解释；估计器（estimator） 用概率判断把关输出。生成器不要求同样安全标准；估计器要求。

这不是「对齐已解决」。这是 范围缩减：回答难问题，不给系统自主行动的环路。批评者问纯神谕模式在部署能否强制执行（工具使用、智能体式系统、经济压力推行动者）；Bengio 把这些当工程约束，不是对该方向的驳斥。

Gabriel 的多元主义仍适用：即使神谕机也必须在诉求冲突时决定怎么答——但失败模式从「错目标大规模追求」变成「错信息被大规模信任」。

Gabriel & Keeling 2025：对齐即诉求的公平处理

Gabriel and Keeling（2025）在 2020 框架上进一步收紧论证。AI 对齐是 诉求的公平处理：受影响利益相关者提出基于权利、福祉、文化的论证；原则应来自他们可接受的过程——不是来自某实验室隐含的功利主义或开发者的指令层级。

他们直接批评薄目标：

指令遵循（Instruction following）——谁的指令？要伤害的用户？优化用户参与度的公司？
有用、诚实、无害（Helpful, Honest, Harmless）——有用启发式，但不解决权衡（自主 vs 集体福祉、隐私 vs 关怀、孝道义务 vs 个人权利）。
单一道德理论写入——支配，哪怕理论很精致。

这是我 MATS 阶段思考落地的地方：RLHF、CAI、CIRL 都是真工程；每种也默默选 Gabriel 阶梯上的一层——通常是显示偏好加实验室写下的原则——却不承认显示偏好不是价值，且价值会冲突。

2025 论文不告诉工程师具体案例哪条原则赢。它告诉工程师：别再假装选择从未发生。

地图上还应放置的邻居

还有一些常被归类进「对齐」、但落在不同象限的想法：

社会选择与不可能定理。 Arrow、Gibbard-Satterthwaite、Sen——偏好聚合不中立。RLHF 就是聚合。这不意味着对齐不可能；意味着诚实的聚合必须承认权衡，不是单一排行榜分数。

可纠正性（corrigibility）与可中断性（interruptibility）。（Soares、Armstrong 等。）能否在不抵抗的情况下关掉系统？安全属性，不是价值规格——但与 Bengio 想移除的目标导向性交互。

经典 IRL。 从行为推断奖励。CIRL 加协作结构与维持不确定性。生产 RLHF 跳过显式奖励推断，从对比学奖励模型——相关，不完全相同。

人格控制（如 Chen 等，2025）。在激活空间中监控并引导特质——部署工具，假设你已经选了模型该有什么人格。

AI 福利与道德受体地位。 另一条线：若模型有道德相关状态，对齐人类价值不是唯一规范问题。Gabriel 框架以人为中心；可能对，但是选择。

地图显示什么

把范式叠到 Gabriel 阶梯上，模式很清楚：

范式	主要层级	规模化量产？
RLHF / RLAIF	显示偏好	是
Constitutional AI	偏好 + 书面原则	是
CIRL / 协助博弈	理想偏好（推断、不确定）	主要在研究
CEV	理想偏好（集体外推）	概念
辩论式监督（Debate）/ IDA / 递归奖励建模（RRM）	对隐藏真理的监督	研究
Scientist AI（oracle-only）	避开目标导向对齐；认知服务	提案 / 早期实验室
Gabriel 公平诉求	元：选择原则的正当程序	哲学框架

行业选 RLHF，不是因为哲学家证明了显示偏好是真目标；是因为人群对比的标量奖励可扩展。CAI 跟随，因为书面原则降低标注成本、让规范可读。CIRL、CEV、辩论式监督、神谕式限定架构在智识上仍然关键——相对能力训练资金明显不足。

这不是对实验室的控诉。能力研发能自我买单；规范理论不能。但这确实是公共讨论该更精确的理由：当有人说模型「对齐了」，问对齐到什么、谁授权、诉求冲突时怎么办。

我目前的立场（暂定）

我不认为有黄金道德等着发现然后写入。Gabriel 的多元主义比 CEV 对自洽外推终点的希望更说服我——尽管 CEV 的直觉（不要锁死当下错误）仍然重要。

我也不认为 RLHF 是「假对齐」。它可测量地减少伤害、改善可用性。错误在于把它当价值冲突的唯一答案，而不是更窄问题的一个答案。

现在看来最关键的工作：

明说系统优化哪一层、谁选的。
把冲突当常态，不是边缘案例失败——尤其跨文化、跨制度语境。
投资在闭环里保留不确定性与正当程序的范式（CIRL 式谦卑、监督研究、神谕式限定范围部署），即使比奖励建模难部署。
区分「减少可测量伤害」与「解决合理多元主义」。两者都重要；混为一谈会得到顺从但仍强加单一文化默认的模型。

在问对齐技术是否有效之前，我们需要公共讨论：要对齐到什么——以及我们分歧时谁有权回答。技术栈已经在回答。只是没有大声说。

来源

Gabriel, I. (2020). Artificial Intelligence, Values, and Alignment. Minds and Machines.
Gabriel, I. & Keeling, G. (2025). A matter of principle? AI alignment as the fair treatment of claims. Philosophical Studies.
Russell, S. (2019). Human Compatible. Viking.
Hadfield-Menell, D. et al. (2016). Cooperative Inverse Reinforcement Learning. NeurIPS.
Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv.
Yudkowsky, E. (2004). Coherent Extrapolated Volition. Singularity Institute.
Bengio, Y. (2025). Scientist AI and oracle-only systems — 另见 LawZero / IDAIS 材料。
Greenblatt, R. et al. (2024). Alignment faking in large language models. arXiv.
Chen, A. et al. (2025). Persona Vectors. arXiv.

研究笔记：notes/my_alignment_position.md、readings/cev_pluralism/Gabriel_2020_key_points.md、readings/cev_pluralism/Gabriel_Keeling_2025_key_points.md、notes/Bengio_Scientist_AI_oracle_only.md。