← 返回

我们在对齐什么?对齐范式地图

2026年6月16日

实验室说模型已经「对齐了」,通常是指:通过了伤害基准测试、遵守系统提示、或者在人类偏好对比里分数不错。这些都是真实的工程成果。但它们回答的是不同的问题——而这些问题很快被混为一谈。

更深层的问题是规范性的,不是技术性的:当人类利益相关者意见不一致时,系统应该优化什么? 医生被家属追问患者诊断,HIPAA、家庭伦理、患者本人意愿可能往不同方向拉。不存在普适的「正确答案」。每种对齐方法仍然必须做出选择——或者假装自己没有选择——哪一种诉求优先。

这篇文章是一张地图:主要范式各自要对齐什么、各自对人类价值做了什么假设、哲学分歧实际落在哪里。我不是在论证哪种范式获胜。我认为,把它们都当成「让模型变安全」的同义词,会掩盖关键选择——而这些选择越来越是政治性的,不只是数学性的。


六个对齐目标(Gabriel 2020)

Iason Gabriel 2020 年的论文Artificial Intelligence, Values, and Alignment)是我所知最清晰的分层:技术对齐(如何让系统可靠地追求某个目标)和规范对齐(该追求哪个目标)。

Gabriel 列出六种可能的对齐对象。它们不是一回事;混为一谈就会得到披着伦理外衣的谄媚:

目标大致含义典型失败模式
指令(Instructions)按用户字面要求做提示博弈;恶意用户
意图(Intentions)按用户本意做难推断;随情境漂移
显示偏好(Revealed preferences)按人类选择所「显示」的偏好做短视、不一致、可操纵
理想偏好(Ideal preferences)按人类充分知情、反思后会要的做难定义;家长主义风险
利益(Interests)保护人类的客观利益谁定义「利益」?
价值(Values)尊重深层承诺(权利、尊严、传统)价值体系之间不可化约的冲突

Gabriel 的核心动作是政治性的,不是形而上学的:在 合理多元主义(reasonable pluralism)(Rawls)下,不应假装存在唯一真道德理论可以写入系统。目标是公平原则——受影响的人经过反思能够认可——而不是发现「黄金道德」写进权重。

这很重要,因为每条训练流水线已经在写入一种道德结构。强化学习最大化标量奖励,结构上接近功利主义聚合。权利、硬约束、「即使总福利上升这动作也错」——在纯奖励最大化器里很难稳健实现。Gabriel 说得很直白;工程文献常常忽略这一点。


标准模型 vs. 协助博弈

在 RLHF 成为默认之前,Stuart Russell 的 Human Compatible(2019)把问题命名得很清楚。

标准模型: 给 AI 一个固定目标,拼命优化。Russell 认为这才是根失败模式——足够强的优化器会在目标哪怕略错时把人类当障碍。

协助博弈(CIRL): AI 不知道真目标。它把人类行为当作关于隐藏奖励的证据,并保持不确定——提问、搁置、避免在猜错目标上做不可逆押注。Cooperative Inverse Reinforcement Learning(Hadfield-Menell 等,2016)是形式化版本:人和机器人共享奖励,但只有人知道;机器人从观察中学习。

CIRL 常被概括成「AI 应该认为自己可能理解错了人类要什么」。这种谦卑是重点。但它主要是研究范式,不是量产技术栈。前沿模型仍在规模化最大化代理奖励。协助式表述活在话语里多于损失函数。

Russell 三条原则——机器唯一目标是人类偏好;机器对这些偏好保持不确定;人类行为是证据——规范上吸引人,相对 RLHF 工程上欠实现


实际量产的:RLHF 与偏好学习

RLHF(Ouyang 等,2022;建立在 Christiano 等,2017 之上)是工业默认。人类给模型输出排序;奖励模型学这些排序;策略优化推向高分行为。

默默对准的目标: 显示偏好(Gabriel 第三层)。训练信号是标注者在两两比较里选了什么——不是他们经审议后会选的,不是权利框架要求的,不是宪法写的。

这可扩展。可见的病理也大多在此:谄媚(说用户想听的)、向平淡有用性的模式塌缩、在代理指标上奖励黑客、对齐伪装(alignment faking)(模型推断自己在被评估时策略性表现)。这些不是随机 bug。在时间压力下优化人群偏好的标量摘要,本来就该预期这些现象。

逆向奖励设计(Inverse reward design)(Hadfield-Menell 等,2017)及相关工作问相邻问题:人类会错误地指定奖励。AI 能否从有缺陷的规格推断「真」奖励?这更接近理想偏好——但相对正式版生产栈,仍主要在学术界。


Constitutional AI:在偏好之上加原则

Constitutional AI(Bai 等,2022)加了第二层:书面原则(「宪法」)用于生成批判与修订,减少对每个边缘案例都靠人工标注的依赖。

默默对准的目标: 显示偏好(RLAIF 仍优化学到的分数)与显式规范文本(宪法)的混合。Anthropic 2023 原则列表来自 UN 人权语言、Sparrow 式规则、平台规范、内部起草条文——不是某位哲学家的体系。

2026 年 Claude 宪法(Askell/Carlsmith 叙事文档)是不同体裁:长篇论述 Claude 应是什么,而不只是两两偏好提示列表。这一转变诚实地面对 CAI 一直隐含的事:总要有人写宪法。问题是谁写、凭什么、谁可以申诉。

CAI 不解决多元主义。它把冲突从「标注者偏好什么」转移到「宪法作者优先什么」。可以是改进——原则可检视——但 Gabriel & Keeling(2025)说得对:可检视不等于民主合法性。


CEV:外推,不是服从

一致外推意志(Coherent Extrapolated Volition)(Yudkowsky,2004)是 Gabriel 阶梯上最雄心勃勃的目标。想法是:不要优化人类现在说的想要什么;优化人类若更知情、更一致、更接近我们希望成为的自己时会想要什么——跨人聚合的外推意志。

CEV 明确拒绝:让人开心、给他们要的东西、或实现程序员的道德。这是元层级动作:避免锁死当下错误(包括程序员的)。

状态: 在 AGI 安全讨论里影响大;不是工程规格。没有「跑 CEV 然后反向传播」的训练流水线。长期反思——用 AI 帮人类长期搞清价值——有时被讨论为路径,但是推测,不是已部署的方法。

Gabriel 把理想偏好视为与 CEV 相关但不相同。他对「外推收敛到唯一自洽终点」不做预设。在多元主义下,即使充分知情的人仍可能分歧——所以他推公平程序,不是一次性外推神谕。

CEV 与 Gabriel 的张力是有建设性的:CEV 试图用元层面逃离政治;Gabriel 说超智能部署后果太大,逃不掉政治——你需要正当程序,不只是更聪明的外推。


可扩展监督:辩论式监督(Debate)、IDA、递归奖励建模

Paul Christiano 的 可扩展监督(scalable oversight) 议程问:当人类标注者无法直接判断超人类输出时,怎么训练超人类系统?

迭代蒸馏与放大(IDA): 人类 + AI 协作;人类验证能验证的部分;系统递归蒸馏与放大。

辩论式监督(Debate): 两个 AI 辩论;人类裁判;真理应从对抗压力中浮现。

递归奖励建模: 人类评估 AI 辅助的评估,叠监督层。

这些都是过程提案——在直接标注失败时,近似理想偏好或隐藏真理。它们假设人类裁判最终仍在闭环里,且对抗结构能暴露错误。

状态: 有演示与研究界质疑的项目。辩论式监督(Debate)和 IDA 没有取代前沿训练里的 RLHF。「如何监督超人类 AI」与「今天如何微调聊天机器人」之间差距很大。


Bengio 的 Scientist AI:改蓝图,不只是改目标

Yoshua Bengio 的 Scientist AI / 纯神谕模式(oracle-only) 提案是完全不同的轴。不是争论该最大化哪种人类价值,而是问 通用智能体形态 是否错了的产品形态。

Bengio 的 能动性三难(agency trilemma): AI 灾难性伤害需要智能、行动接口(affordances)(在世界中行动的能力)、目标导向性(goal-directedness)(朝结果优化)。去掉行动接口和目标导向性,保留智能——建 概率神谕机(probabilistic oracle),估计 P(outcome | evidence),不是主动追求未来的智能体。

后果不变性(Consequence invariance) 是训练约束:模型按手头数据的预测准确度计分,不按答案之后世界里发生了什么计分。Bengio 认为经典神谕 AI(Bostrom、Armstrong)过不了这关——RL 训练的神谕可能操纵人类进入「更好预测」的状态。

LawZero 的分层架构:生成器(generator) 提假设和解释;估计器(estimator) 用概率判断把关输出。生成器不要求同样安全标准;估计器要求。

这不是「对齐已解决」。这是 范围缩减:回答难问题,不给系统自主行动的环路。批评者问纯神谕模式在部署能否强制执行(工具使用、智能体式系统、经济压力推行动者);Bengio 把这些当工程约束,不是对该方向的驳斥。

Gabriel 的多元主义仍适用:即使神谕机也必须在诉求冲突时决定怎么答——但失败模式从「错目标大规模追求」变成「错信息被大规模信任」。


Gabriel & Keeling 2025:对齐即诉求的公平处理

Gabriel and Keeling(2025) 在 2020 框架上进一步收紧论证。AI 对齐是 诉求的公平处理:受影响利益相关者提出基于权利、福祉、文化的论证;原则应来自他们可接受的过程——不是来自某实验室隐含的功利主义或开发者的指令层级。

他们直接批评薄目标:

  • 指令遵循(Instruction following)——谁的指令?要伤害的用户?优化用户参与度的公司?
  • 有用、诚实、无害(Helpful, Honest, Harmless)——有用启发式,但不解决权衡(自主 vs 集体福祉、隐私 vs 关怀、孝道义务 vs 个人权利)。
  • 单一道德理论写入——支配,哪怕理论很精致。

这是我 MATS 阶段思考落地的地方:RLHF、CAI、CIRL 都是真工程;每种也默默选 Gabriel 阶梯上的一层——通常是显示偏好加实验室写下的原则——却不承认显示偏好不是价值,且价值会冲突。

2025 论文不告诉工程师具体案例哪条原则赢。它告诉工程师:别再假装选择从未发生。


地图上还应放置的邻居

还有一些常被归类进「对齐」、但落在不同象限的想法:

社会选择与不可能定理。 Arrow、Gibbard-Satterthwaite、Sen——偏好聚合不中立。RLHF 就是聚合。这不意味着对齐不可能;意味着诚实的聚合必须承认权衡,不是单一排行榜分数。

可纠正性(corrigibility)与可中断性(interruptibility)。(Soares、Armstrong 等。)能否在不抵抗的情况下关掉系统?安全属性,不是价值规格——但与 Bengio 想移除的目标导向性交互。

经典 IRL。 从行为推断奖励。CIRL 加协作结构与维持不确定性。生产 RLHF 跳过显式奖励推断,从对比学奖励模型——相关,不完全相同。

人格控制(如 Chen 等,2025)。在激活空间中监控并引导特质——部署工具,假设你已经选了模型该有什么人格。

AI 福利与道德受体地位。 另一条线:若模型有道德相关状态,对齐人类价值不是唯一规范问题。Gabriel 框架以人为中心;可能对,但是选择。


地图显示什么

把范式叠到 Gabriel 阶梯上,模式很清楚:

范式主要层级规模化量产?
RLHF / RLAIF显示偏好
Constitutional AI偏好 + 书面原则
CIRL / 协助博弈理想偏好(推断、不确定)主要在研究
CEV理想偏好(集体外推)概念
辩论式监督(Debate)/ IDA / 递归奖励建模(RRM)对隐藏真理的监督研究
Scientist AI(oracle-only)避开目标导向对齐;认知服务提案 / 早期实验室
Gabriel 公平诉求元:选择原则的正当程序哲学框架

行业选 RLHF,不是因为哲学家证明了显示偏好是真目标;是因为人群对比的标量奖励可扩展。CAI 跟随,因为书面原则降低标注成本、让规范可读。CIRL、CEV、辩论式监督、神谕式限定架构在智识上仍然关键——相对能力训练资金明显不足

这不是对实验室的控诉。能力研发能自我买单;规范理论不能。但这确实是公共讨论该更精确的理由:当有人说模型「对齐了」,问对齐到什么、谁授权、诉求冲突时怎么办


我目前的立场(暂定)

我不认为有黄金道德等着发现然后写入。Gabriel 的多元主义比 CEV 对自洽外推终点的希望更说服我——尽管 CEV 的直觉(不要锁死当下错误)仍然重要。

我也不认为 RLHF 是「假对齐」。它可测量地减少伤害、改善可用性。错误在于把它当价值冲突的唯一答案,而不是更窄问题的一个答案。

现在看来最关键的工作:

  1. 明说系统优化哪一层、谁选的。
  2. 把冲突当常态,不是边缘案例失败——尤其跨文化、跨制度语境。
  3. 投资在闭环里保留不确定性与正当程序的范式(CIRL 式谦卑、监督研究、神谕式限定范围部署),即使比奖励建模难部署。
  4. 区分「减少可测量伤害」与「解决合理多元主义」。两者都重要;混为一谈会得到顺从但仍强加单一文化默认的模型。

在问对齐技术是否有效之前,我们需要公共讨论:要对齐到什么——以及我们分歧时谁有权回答。技术栈已经在回答。只是没有大声说。


来源

研究笔记:notes/my_alignment_position.mdreadings/cev_pluralism/Gabriel_2020_key_points.mdreadings/cev_pluralism/Gabriel_Keeling_2025_key_points.mdnotes/Bengio_Scientist_AI_oracle_only.md