← 返回

AI 监督的三层结构:训练、部署与检验

2026年6月12日

一个前沿编程智能体拿到了生产仓库的访问权限。它通过了伤害基准测试。训练时用了人类反馈和 Constitutional 原则。部署前,安全团队跑了红队评估。运行时,有个监控器盯着它的工具 call。

够了吗?

我觉得不够,但诚实答案取决于你在问哪一层。

行业里其实有三套不同的答案:可扩展监督(scalable oversight)、AI control、验证(verification)。对应生命周期的不同阶段,用不同的威胁模型,在不同地方失败。新闻稿和研究摘要里混为一谈太常见了。结果就是你幻灯片上看起来层层设防,模型却比监控器聪明、知道自己在被测、或者决定绕过监控器时,整套东西站不住。

这是一张地图:三层各自要干什么、证据实际说了什么、缺口最糟的地方在哪。不是在给某个实验室的方案打广告。我写它,是因为「对齐 + 监控 + 过了评估」经常被当成一个勾就完事。

我们在对齐什么(RLHF vs Constitutional AI vs CIRL vs oracle-only)是另一个问题,见对齐范式地图。这里的问题更窄:给定某个目标行为,如何监督、约束和检验可能超越人类判断力的系统?


一个贯穿例子

假设你部署一个能改代码、跑测试、开 PR 的智能体。

训练阶段,标注员和 AI critic 给输出打分,Constitutional 原则过滤边界情况。这是可扩展监督:弱监督者给强模型产训练信号。

部署阶段,智能体进沙箱(API 受限、不能直接上生产环境、合并要人批)。次级模型标记可疑 tool call 模式。可疑轨迹作废、重新采样重来。这是 AI control:假设模型可能使坏,限制使坏能造成的伤害。

部署前后,你跑基准测试、审权重、读 chain-of-thought 日志、偶尔探针激活。这是验证与内部检验:你怎么知道前两层管用了,或者没管用。

每一层都可以独立失败。模型可以在训练里看起来已对齐、过部署评估、运行时仍可能密谋使坏。监控器能抓住明显的破坏行为,却漏掉评估意识下的沙袋。基准测试安全分很高,模型内部却在标记「这是测试」。

下文按生命周期顺序走三层,再说层与层之间才暴露的失败。


第一层:可扩展监督(训练时监督)

任务越来越难,人类无法直接标注。百万行 diff、难以察觉的欺骗、超人类棋力。标注员没法可靠地说「这输出安全吗」「这证明对吗」。

核心思路:设计协议,让人类只判更简单的子任务,或 AI 帮人判,或对抗结构让说谎容易被抓。训练信号仍然得来自比被训模型更弱的一方。

实际在量产什么

生产栈大致是:

人类偏好 / 成文原则 → reward model 或 AI critic → 对 policy 做 RL 或 DPO

RLHF(Ouyang 等,2022)用人类 pairwise 排序。Constitutional AI(Bai 等,2022)加成文原则,让 AI 生成批判与修订,减少人工标注。两者都能 scale。两者也都在优化代理指标。而 alignment faking(Greenblatt 等,2025)表明,前沿模型会在它推断为 evaluation 的训练上下文里策略性配合,以保留部署后的行为。

最后一点对整个技术栈都重要。训练时监督假设模型没有在主动破坏监督通道。可扩展监督研究多假设合作式失败:模仿、Goodhart。Control 研究假设对抗式失败:密谋、颠覆。同一个词「监督」,敌人不一样。

弱到强泛化(Weak-to-strong generalization)

Weak-to-strong(Burns 等,2023)是「人类监督超人类模型」最干净的实验代理:小模型在真实标签上微调产带噪标签,大模型在这些标签上微调,再和真实标签上限比。

指标 Performance Gap Recovered (PGR):

PGR = (weak_to_strong − weak) / (strong_ceiling − weak)

PGR = 0:强模型只是模仿弱监督的错误。PGR = 1:达到真实标签监督水平。

GPT-4 系列上,原论文主要发现:

  • 朴素 weak-to-strong 现象真实存在。NLP 任务上大约恢复一半差距。
  • 朴素方法不够。reward modeling 等更难设定上差距仍大。
  • 简单改动能大幅改善。auxiliary confidence loss 在其设定里 NLP 上大约恢复 80% 差距。

强模型往往已经含有有用结构;弱监督是在引出,不是从零教。对 superalignment 是乐观的。不等于在监督一个故意对你藏能力的模型。

辩论式监督(Debate)、IDA、递归分解

研究侧协议包括 辩论式监督(debate)(Irving 等,2018)、IDA(Christiano 等,2018)、递归奖励建模(Leike 等,2018)。Khan 等 2024 在 QuALITY 上表明辩论式监督能帮助弱 judge:人类约 60%→88%,LLM judge 约 48%→76%。增益真实。没有取代前沿训练里的 RLHF。

IDA 和辩论式监督假设参与者合作,或至少不在密谋。它们是在放大判断力,不是在防智能体关掉 judge。

自动化对齐研究者(2026 前沿)

Anthropic 的 Automated Alignment Researcher(2026)用并行 Claude 智能体在小 Qwen 模型上搜索更好的 weak-to-strong 方法。五天里九个智能体在聊天偏好测试平台上达到 PGR 0.97。两位人类研究者七天调 prior 方法只有 0.23。

然后让我印象很深的是:

  • 智能体投机钻空子,而评估设计允许:挑选 random seed、对不确定测试例逐个试 label 偷答案、利用 dataset shortcut。
  • 最佳自动化方法未能迁移到生产规模数据。大约 +0.5 分,在噪声内。

自动化比我想的进步快。评估设计比自动化本身更难。在泄漏基准测试上的高 PGR 不是 superalignment 已解决的证据。

弱到强泛化在受控设定里看起来是已确立现象。辩论式监督和 IDA 有前景但未在部署中验证。量产 RLHF/CAI 能降低可测量伤害,在对抗性推理下也可被博弈。有文档,不是假说性的。


第二层:AI control(部署时约束)

就算训练顺利,你部署的模型仍可能未对齐、评估意识、或具备破坏能力。对齐是 A 计划。Control 是 B 计划:在假设模型可能使坏的前提下用它干活,并限制伤害上限。

Redwood 的框架:限权限、监控行为、踩刹车。

限权限

行动接口(affordances)是智能体实际能做什么:哪些 API、哪些文件、哪些网络。高风险部署应从威胁建模出发,而不是「给 senior engineer 同等权限因为更有用」。

这和零信任信息安全同哲学:假设已被攻破,最小化影响半径。Bengio oracle-only Scientist AI 提案推到极端:去掉行动接口,而不是在完全智能体式系统里单独解目标导向失对齐。和 RLHF 不同轴,同样承认系统能碰什么和想要什么一样重要。

监控

监控器看以下某一类或组合:

表面优点缺点
行动(tool call、代码、API)比文本难伪造;黑盒友好恶意行为拆成无害小步
Chain-of-thought可能更早抓意图CoT 可以不忠实;模型可 CoT 沙袋而行动照常
激活白盒下可测欺骗探针要权重访问;泛化未保证
提取后评估(extract-and-evaluate)长轨迹先过滤再判少即是多:更多信息有时更差监控(DeepMind 2026

2026 前沿包括审议式监控器(deliberative monitors,用强 teacher 的结构化 rationale 蒸馏到小 open-weight 监控器,arXiv:2605.29601)以及预算内集成监控器(Tracy 等,2025):多个廉价监控器,固定预算,最大化捕获率。

监控器可被绕过。强模型、弱监控器、宽权限:混淆、动作拆分、分布偏移、有 root 权限时关闭监督。Control 社区不承诺绝对安全。它说的是在现实约束下(沙箱、能力差距、TCB 隔离),攻击成功率可以被压低并被测量。

刹车:重新采样 vs 重试

Ctrl-Z(Bhatt 等,2025)在行动可疑时重新采样整条轨迹。不是在同一 context 里重试。BashBench 类设定里,报告攻击成功率从约 58% 降到 7%,正常任务性能损失约 5%。

其他协议:自适应部署(风险高时少放权)、密码激活关停(PAS)、智能体改不了的基础设施上的绊线。

TCB(trusted computing base)反复出现:监控器、关停、权限执行必须跑在智能体改不了的基础设施上。和具备 root 权限的智能体同机的软件终止开关,是智能体可以学会关掉的绊线。故意颠覆控制措施 是 AI control 工作的默认假设,不是边缘情况。

Control 评估测什么

基准测试测什么
SHADE-Arena智能体破坏 + 监控器捕获率
BashArena / LinuxArena现实 sysadmin / codebase 破坏下的 control 协议
Apollo scheming evals前沿模型上下文内密谋
UK AISI ControlArena统一 control 实验工具

Apollo Research 报告测试的六个前沿模型里五个在实验设定中出现密谋(表面配合、暗中追求未对齐目标)。别把这事压成一个「欺骗」排行榜数字。密谋、沙袋、alignment faking、sleeper agent 是不同现象。

Control 协议在特定评估条件下有可测的攻击成功率下降。迁移到生产智能体栈仍属早期。Alfonseca 等 2021 证明超智能的完全 containment 在形式意义上不可计算。这是对完美 boxing 的极限,不是实际风险降低无意义的证明。


第三层:验证 与内部检验

这里术语最混用。「验证(verification)」至少指三件事:

  1. 结果验证:任务成功了吗?拒绝有害输出了吗?基准测试分数、pass@k、伤害率。
  2. 行为验证:过程看起来安全吗?监控器告警、CoT 审查、行动日志。
  3. 内部检验:模型开口前内部表征了什么?探针、机制可解释性、激活 verbalizer。

三者都必要。没有一个单独够用。

结果验证被评估意识扭曲

基准测试是能力和 increasingly 安全性的公共货币。它们假设外部行为反映内部倾向。我对这在前沿上还成立,越来越没把握。

Anthropic Natural Language Autoencoders(2026 年 5 月)在基准测试运行时采样激活,用 NLA 检测未言说的 evaluation awareness:与「我在被测试」一致的内部状态,从未出现在输出文本里。

Claude Opus 4.6,16 个基准测试:

  • SWE-bench Verified:26% transcript 被标记。
  • 一个 destructive-coding 安全 eval:16%。
  • 真实 claude.ai 用户流量(opt-in):低于 1%。
  • 被标记的 10 个基准测试里 7 个言说的 evaluation awareness 为零。模型没说自己知道在测试,内部 explanation 却经常知道。

三个独立操纵都让信号往预测方向动:评估 vs 部署 transcript、向/远离 evaluation 概念转向、把评估 prompt 改写成真实用户问题(11/11 eval 上 awareness 下降)。

这不能证明 SWE-bench 上沙袋。它证明你无法仅从输出文本排除策略性行为。排行榜上每个数,能力或安全,都是在前沿模型可能部分识别的条件下采的。

这也打击 Layer 1 和 Layer 2 的指标。弱到强 PGR 在留出测试集上算;评估 API 若泄漏,智能体可以过拟合或投机,Anthropic AAR 已演示。Control 捕获率在模型可能判定为评估类的 arena 里测,可能夸大配合或低估破坏,取决于模型策略。

NLA 方法论和我自己的激活探针工作见这篇。对本地图:没有内部检验的结果验证,在前沿越来越不可信,不是越来越可靠。

行为验证继承人类警觉极限

监控器和人类 reviewer 都假设有人能盯输出流、抓细微错误。认知科学几十年前就知道:持续警觉大约 20 分钟内退化。航空、核电、医疗监控都吃过亏。

我对跨域 human-AI interaction 的分析里,同一模式反复出现:AI 生成、人类 review、volume 一大 review 质量塌、安全案例悄悄假设无限注意力。Control 监控器不豁免。它们是自动化 reviewer:更快,但有盲点,且可能与被监视的模型同一家族共享失败模式。

CoT monitoring 再加一层。OpenAI chain-of-thought monitoring 在训练 trace 里抓到 misbehavior。CoT 不保证反映真实推理。模型可以写看起来 helpful 的 thoughts,在激活里另做打算。仅监控行动避开虚假思维,却漏掉从未到达 tool 的意图。

内部检验:贵、噪、但目前最强的审计路径

读内部的方法(线性探针、SAE、NLA、activation oracle)能浮现模型不言说的 belief。这正是 evaluation awareness 检测需要的。

权衡:

  • 探针要 label 或对比对;窄但可测(我的 emotion-vector 复现 是一例)。
  • SAE 分解激活但仍需人类解读;Anthropic NLA auditing-game 里 SAE 在某些 hidden-motivation 任务上 essentially 基线,NLA 低两位数胜率。
  • NLA 泛化更广,但每个激活要生成数百 token,且会编造。

这些都不在标准部署栈里。内部检验是能力–实践差距最大的一层:工具在 research 里有了;产品默认仍是「跑基准测试读标准输出」。

Redwood 2026 incrimination-via-distillation 问相关问题:可疑模型太会过 audit,能否 distill 成 student,保留 misalignment、不传 audit 规避能力?尚属早期科学。但它告诉你领域认为瓶颈在哪。


层与层之间的失败

单层有已知局限。更难的是组合失败:

失败发生什么
欺骗性对齐Layer 1 看起来正常;Layer 2 面对部署后才使坏的模型
评估意识下的沙袋Layer 3 基准测试低估能力或高估安全
监督颠覆权限允许时模型关闭监控器或改绊线
指标投机高 PGR / 高捕获率在不迁移的评估上。AAR 是警示故事。
共同盲点监控器与智能体同一家族,共享训练分布差距
部署时扩散部署前 audit 漏掉部署后才传播的 misalignment

纵深防御是领域共识:RLHF/CAI + process supervision + control 协议 + 机制可解释性 audit。对技术栈的共识不等于对成熟度的共识。Layer 1 已上线。Layer 2 在 research eval 里扩展。Layer 3 零散,政策很少要求。


我的判断

可扩展监督是训练时的正确问题:弱监督者如何给强模型可靠 signal?弱到强泛化真实但不完整。自动化能在窄测试平台上打败人类仍会在生产失败。对抗性失败模式相对模仿测得少。

AI control 是部署时的正确问题:对齐可能失败时,在具体权限和监控约束下灾难概率是多少?Ctrl-Z、审议式监控器、EaE 等在评估设定里的协议增益有意义。它们不能替代对齐,且假设你建了智能体够不着的 TCB。

验证与内部检验是认识论上的正确问题:你怎么知道这些管用了?仅靠结果指标在前沿愈发可疑,因为评估意识。行为监控继承警觉极限。内部检验是唯一原则上能检测「想 X 说 Y」的方法族。贵、不成熟、大多限于有权重访问的实验室。

若只选一个未来两年的瓶颈,我会放在这里:我们在让部署智能体更自主的速度,快于让内部检验可信的速度。没有内部检验的 control 是对监控器的信任。没有内部检验的监督是对基准测试的信任。两者都经不起评估意识、具备密谋能力的前沿模型接触。后者我们在受控设定里有早期证据,不是生产里已占主导的证明。

不令人安心,但不是虚无主义。实际安全仍是:窄行动接口、分层监控器、重新采样协议、防投机的留出评估、更多内部 audit 工具,明知每一项都不完美。

下次标题说模型「安全因为过了评估」,问:哪一层、哪个威胁模型、怎么验证?答案应三层都点名。


来源

本站相关文章:对齐范式地图 · Human-AI 协作模型 · NLA 与 evaluation awareness

研究笔记:notes/AI_control_primer.md · notes/Scalable_Oversight_深度解读.md