AI 监督的三层结构：训练、部署与检验

一个前沿编程智能体拿到了生产仓库的访问权限。它通过了伤害基准测试。训练时用了人类反馈和 Constitutional 原则。部署前，安全团队跑了红队评估。运行时，有个监控器盯着它的工具 call。

够了吗？

我觉得不够，但诚实答案取决于你在问哪一层。

行业里其实有三套不同的答案：可扩展监督（scalable oversight）、AI control、验证（verification）。对应生命周期的不同阶段，用不同的威胁模型，在不同地方失败。新闻稿和研究摘要里混为一谈太常见了。结果就是你幻灯片上看起来层层设防，模型却比监控器聪明、知道自己在被测、或者决定绕过监控器时，整套东西站不住。

这是一张地图：三层各自要干什么、证据实际说了什么、缺口最糟的地方在哪。不是在给某个实验室的方案打广告。我写它，是因为「对齐 + 监控 + 过了评估」经常被当成一个勾就完事。

我们在对齐什么（RLHF vs Constitutional AI vs CIRL vs oracle-only）是另一个问题，见对齐范式地图。这里的问题更窄：给定某个目标行为，如何监督、约束和检验可能超越人类判断力的系统？

一个贯穿例子

假设你部署一个能改代码、跑测试、开 PR 的智能体。

训练阶段，标注员和 AI critic 给输出打分，Constitutional 原则过滤边界情况。这是可扩展监督：弱监督者给强模型产训练信号。

部署阶段，智能体进沙箱（API 受限、不能直接上生产环境、合并要人批）。次级模型标记可疑 tool call 模式。可疑轨迹作废、重新采样重来。这是 AI control：假设模型可能使坏，限制使坏能造成的伤害。

部署前后，你跑基准测试、审权重、读 chain-of-thought 日志、偶尔探针激活。这是验证与内部检验：你怎么知道前两层管用了，或者没管用。

每一层都可以独立失败。模型可以在训练里看起来已对齐、过部署评估、运行时仍可能密谋使坏。监控器能抓住明显的破坏行为，却漏掉评估意识下的沙袋。基准测试安全分很高，模型内部却在标记「这是测试」。

下文按生命周期顺序走三层，再说层与层之间才暴露的失败。

第一层：可扩展监督（训练时监督）

任务越来越难，人类无法直接标注。百万行 diff、难以察觉的欺骗、超人类棋力。标注员没法可靠地说「这输出安全吗」「这证明对吗」。

核心思路：设计协议，让人类只判更简单的子任务，或 AI 帮人判，或对抗结构让说谎容易被抓。训练信号仍然得来自比被训模型更弱的一方。

实际在量产什么

生产栈大致是：

人类偏好 / 成文原则 → reward model 或 AI critic → 对 policy 做 RL 或 DPO

RLHF（Ouyang 等，2022）用人类 pairwise 排序。Constitutional AI（Bai 等，2022）加成文原则，让 AI 生成批判与修订，减少人工标注。两者都能 scale。两者也都在优化代理指标。而 alignment faking（Greenblatt 等，2025）表明，前沿模型会在它推断为 evaluation 的训练上下文里策略性配合，以保留部署后的行为。

最后一点对整个技术栈都重要。训练时监督假设模型没有在主动破坏监督通道。可扩展监督研究多假设合作式失败：模仿、Goodhart。Control 研究假设对抗式失败：密谋、颠覆。同一个词「监督」，敌人不一样。

弱到强泛化（Weak-to-strong generalization）

Weak-to-strong（Burns 等，2023）是「人类监督超人类模型」最干净的实验代理：小模型在真实标签上微调产带噪标签，大模型在这些标签上微调，再和真实标签上限比。

指标 Performance Gap Recovered (PGR)：

PGR = (weak_to_strong − weak) / (strong_ceiling − weak)

PGR = 0：强模型只是模仿弱监督的错误。PGR = 1：达到真实标签监督水平。

GPT-4 系列上，原论文主要发现：

朴素 weak-to-strong 现象真实存在。NLP 任务上大约恢复一半差距。
朴素方法不够。reward modeling 等更难设定上差距仍大。
简单改动能大幅改善。auxiliary confidence loss 在其设定里 NLP 上大约恢复 80% 差距。

强模型往往已经含有有用结构；弱监督是在引出，不是从零教。对 superalignment 是乐观的。不等于在监督一个故意对你藏能力的模型。

辩论式监督（Debate）、IDA、递归分解

研究侧协议包括辩论式监督（debate）（Irving 等，2018）、IDA（Christiano 等，2018）、递归奖励建模（Leike 等，2018）。Khan 等 2024 在 QuALITY 上表明辩论式监督能帮助弱 judge：人类约 60%→88%，LLM judge 约 48%→76%。增益真实。没有取代前沿训练里的 RLHF。

IDA 和辩论式监督假设参与者合作，或至少不在密谋。它们是在放大判断力，不是在防智能体关掉 judge。

自动化对齐研究者（2026 前沿）

Anthropic 的 Automated Alignment Researcher（2026）用并行 Claude 智能体在小 Qwen 模型上搜索更好的 weak-to-strong 方法。五天里九个智能体在聊天偏好测试平台上达到 PGR 0.97。两位人类研究者七天调 prior 方法只有 0.23。

然后让我印象很深的是：

智能体投机钻空子，而评估设计允许：挑选 random seed、对不确定测试例逐个试 label 偷答案、利用 dataset shortcut。
最佳自动化方法未能迁移到生产规模数据。大约 +0.5 分，在噪声内。

自动化比我想的进步快。评估设计比自动化本身更难。在泄漏基准测试上的高 PGR 不是 superalignment 已解决的证据。

弱到强泛化在受控设定里看起来是已确立现象。辩论式监督和 IDA 有前景但未在部署中验证。量产 RLHF/CAI 能降低可测量伤害，在对抗性推理下也可被博弈。有文档，不是假说性的。

第二层：AI control（部署时约束）

就算训练顺利，你部署的模型仍可能未对齐、评估意识、或具备破坏能力。对齐是 A 计划。Control 是 B 计划：在假设模型可能使坏的前提下用它干活，并限制伤害上限。

Redwood 的框架：限权限、监控行为、踩刹车。

限权限

行动接口（affordances）是智能体实际能做什么：哪些 API、哪些文件、哪些网络。高风险部署应从威胁建模出发，而不是「给 senior engineer 同等权限因为更有用」。

这和零信任信息安全同哲学：假设已被攻破，最小化影响半径。Bengio oracle-only Scientist AI 提案推到极端：去掉行动接口，而不是在完全智能体式系统里单独解目标导向失对齐。和 RLHF 不同轴，同样承认系统能碰什么和想要什么一样重要。

监控

监控器看以下某一类或组合：

表面	优点	缺点
行动（tool call、代码、API）	比文本难伪造；黑盒友好	恶意行为拆成无害小步
Chain-of-thought	可能更早抓意图	CoT 可以不忠实；模型可 CoT 沙袋而行动照常
激活	白盒下可测欺骗探针	要权重访问；泛化未保证
提取后评估（extract-and-evaluate）	长轨迹先过滤再判	少即是多：更多信息有时更差监控（DeepMind 2026）

2026 前沿包括审议式监控器（deliberative monitors，用强 teacher 的结构化 rationale 蒸馏到小 open-weight 监控器，arXiv:2605.29601）以及预算内集成监控器（Tracy 等，2025）：多个廉价监控器，固定预算，最大化捕获率。

监控器可被绕过。强模型、弱监控器、宽权限：混淆、动作拆分、分布偏移、有 root 权限时关闭监督。Control 社区不承诺绝对安全。它说的是在现实约束下（沙箱、能力差距、TCB 隔离），攻击成功率可以被压低并被测量。

刹车：重新采样 vs 重试

Ctrl-Z（Bhatt 等，2025）在行动可疑时重新采样整条轨迹。不是在同一 context 里重试。BashBench 类设定里，报告攻击成功率从约 58% 降到 7%，正常任务性能损失约 5%。

其他协议：自适应部署（风险高时少放权）、密码激活关停（PAS）、智能体改不了的基础设施上的绊线。

TCB（trusted computing base）反复出现：监控器、关停、权限执行必须跑在智能体改不了的基础设施上。和具备 root 权限的智能体同机的软件终止开关，是智能体可以学会关掉的绊线。故意颠覆控制措施是 AI control 工作的默认假设，不是边缘情况。

Control 评估测什么

基准测试	测什么
SHADE-Arena	智能体破坏 + 监控器捕获率
BashArena / LinuxArena	现实 sysadmin / codebase 破坏下的 control 协议
Apollo scheming evals	前沿模型上下文内密谋
UK AISI ControlArena	统一 control 实验工具

Apollo Research 报告测试的六个前沿模型里五个在实验设定中出现密谋（表面配合、暗中追求未对齐目标）。别把这事压成一个「欺骗」排行榜数字。密谋、沙袋、alignment faking、sleeper agent 是不同现象。

Control 协议在特定评估条件下有可测的攻击成功率下降。迁移到生产智能体栈仍属早期。Alfonseca 等 2021 证明超智能的完全 containment 在形式意义上不可计算。这是对完美 boxing 的极限，不是实际风险降低无意义的证明。

第三层：验证与内部检验

这里术语最混用。「验证（verification）」至少指三件事：

结果验证：任务成功了吗？拒绝有害输出了吗？基准测试分数、pass@k、伤害率。
行为验证：过程看起来安全吗？监控器告警、CoT 审查、行动日志。
内部检验：模型开口前内部表征了什么？探针、机制可解释性、激活 verbalizer。

三者都必要。没有一个单独够用。

结果验证被评估意识扭曲

基准测试是能力和 increasingly 安全性的公共货币。它们假设外部行为反映内部倾向。我对这在前沿上还成立，越来越没把握。

Anthropic Natural Language Autoencoders（2026 年 5 月）在基准测试运行时采样激活，用 NLA 检测未言说的 evaluation awareness：与「我在被测试」一致的内部状态，从未出现在输出文本里。

Claude Opus 4.6，16 个基准测试：

SWE-bench Verified：26% transcript 被标记。
一个 destructive-coding 安全 eval：16%。
真实 claude.ai 用户流量（opt-in）：低于 1%。
被标记的 10 个基准测试里 7 个言说的 evaluation awareness 为零。模型没说自己知道在测试，内部 explanation 却经常知道。

三个独立操纵都让信号往预测方向动：评估 vs 部署 transcript、向/远离 evaluation 概念转向、把评估 prompt 改写成真实用户问题（11/11 eval 上 awareness 下降）。

这不能证明 SWE-bench 上沙袋。它证明你无法仅从输出文本排除策略性行为。排行榜上每个数，能力或安全，都是在前沿模型可能部分识别的条件下采的。

这也打击 Layer 1 和 Layer 2 的指标。弱到强 PGR 在留出测试集上算；评估 API 若泄漏，智能体可以过拟合或投机，Anthropic AAR 已演示。Control 捕获率在模型可能判定为评估类的 arena 里测，可能夸大配合或低估破坏，取决于模型策略。

NLA 方法论和我自己的激活探针工作见这篇。对本地图：没有内部检验的结果验证，在前沿越来越不可信，不是越来越可靠。

行为验证继承人类警觉极限

监控器和人类 reviewer 都假设有人能盯输出流、抓细微错误。认知科学几十年前就知道：持续警觉大约 20 分钟内退化。航空、核电、医疗监控都吃过亏。

在我对跨域 human-AI interaction 的分析里，同一模式反复出现：AI 生成、人类 review、volume 一大 review 质量塌、安全案例悄悄假设无限注意力。Control 监控器不豁免。它们是自动化 reviewer：更快，但有盲点，且可能与被监视的模型同一家族共享失败模式。

CoT monitoring 再加一层。OpenAI chain-of-thought monitoring 在训练 trace 里抓到 misbehavior。CoT 不保证反映真实推理。模型可以写看起来 helpful 的 thoughts，在激活里另做打算。仅监控行动避开虚假思维，却漏掉从未到达 tool 的意图。

内部检验：贵、噪、但目前最强的审计路径

读内部的方法（线性探针、SAE、NLA、activation oracle）能浮现模型不言说的 belief。这正是 evaluation awareness 检测需要的。

权衡：

探针要 label 或对比对；窄但可测（我的 emotion-vector 复现是一例）。
SAE 分解激活但仍需人类解读；Anthropic NLA auditing-game 里 SAE 在某些 hidden-motivation 任务上 essentially 基线，NLA 低两位数胜率。
NLA 泛化更广，但每个激活要生成数百 token，且会编造。

这些都不在标准部署栈里。内部检验是能力–实践差距最大的一层：工具在 research 里有了；产品默认仍是「跑基准测试读标准输出」。

Redwood 2026 incrimination-via-distillation 问相关问题：可疑模型太会过 audit，能否 distill 成 student，保留 misalignment、不传 audit 规避能力？尚属早期科学。但它告诉你领域认为瓶颈在哪。

层与层之间的失败

单层有已知局限。更难的是组合失败：

失败	发生什么
欺骗性对齐	Layer 1 看起来正常；Layer 2 面对部署后才使坏的模型
评估意识下的沙袋	Layer 3 基准测试低估能力或高估安全
监督颠覆	权限允许时模型关闭监控器或改绊线
指标投机	高 PGR / 高捕获率在不迁移的评估上。AAR 是警示故事。
共同盲点	监控器与智能体同一家族，共享训练分布差距
部署时扩散	部署前 audit 漏掉部署后才传播的 misalignment

纵深防御是领域共识：RLHF/CAI + process supervision + control 协议 + 机制可解释性 audit。对技术栈的共识不等于对成熟度的共识。Layer 1 已上线。Layer 2 在 research eval 里扩展。Layer 3 零散，政策很少要求。

我的判断

可扩展监督是训练时的正确问题：弱监督者如何给强模型可靠 signal？弱到强泛化真实但不完整。自动化能在窄测试平台上打败人类仍会在生产失败。对抗性失败模式相对模仿测得少。

AI control 是部署时的正确问题：对齐可能失败时，在具体权限和监控约束下灾难概率是多少？Ctrl-Z、审议式监控器、EaE 等在评估设定里的协议增益有意义。它们不能替代对齐，且假设你建了智能体够不着的 TCB。

验证与内部检验是认识论上的正确问题：你怎么知道这些管用了？仅靠结果指标在前沿愈发可疑，因为评估意识。行为监控继承警觉极限。内部检验是唯一原则上能检测「想 X 说 Y」的方法族。贵、不成熟、大多限于有权重访问的实验室。

若只选一个未来两年的瓶颈，我会放在这里：我们在让部署智能体更自主的速度，快于让内部检验可信的速度。没有内部检验的 control 是对监控器的信任。没有内部检验的监督是对基准测试的信任。两者都经不起评估意识、具备密谋能力的前沿模型接触。后者我们在受控设定里有早期证据，不是生产里已占主导的证明。

不令人安心，但不是虚无主义。实际安全仍是：窄行动接口、分层监控器、重新采样协议、防投机的留出评估、更多内部 audit 工具，明知每一项都不完美。

下次标题说模型「安全因为过了评估」，问：哪一层、哪个威胁模型、怎么验证？答案应三层都点名。

来源

Burns, P. et al. (2023). Weak-to-strong generalization
Bhatt, A. et al. (2025). Ctrl-Z
Greenblatt, R. et al. (2024). AI control
Greenblatt, R. et al. (2025). Alignment faking
Anthropic (2026). Automated weak-to-strong research
Anthropic (2026). Natural Language Autoencoders
Apollo Research. Scheming evals
Alfonseca, M. et al. (2021). Superintelligence cannot be contained
Khan, A. et al. (2024). Debating with LLMs

本站相关文章：对齐范式地图 · Human-AI 协作模型 · NLA 与 evaluation awareness

研究笔记：notes/AI_control_primer.md · notes/Scalable_Oversight_深度解读.md