← 返回

机制可解释性工具地图:观察、干预、验证

2026年5月29日

我花了几周把机制可解释性(mechanistic interpretability)的主流工具过了一遍:对比向量与转向、线性探针、稀疏自编码器、Neuronpedia、Natural Language Autoencoder。它们都很直观。直观到有点可疑——同样的残差流钩子、同样的逐层扫描、同样的问题:这个激活在干什么?——只是答案的形式不同。

这种直觉是对的。这些方法不是彼此无关的发明。它们是同一张因果图上的不同边:解码内部状态 → 干预检验因果 → 验证故事是否站得住。 看清这个结构之后,缩写堆砌就不那么吓人了。

同时也会明白,为什么你会觉得「好像没有更聪明的新方法了」。微观发明期——logit lens、induction head、第一批 SAE——基本过去了。2026 的前沿不是第 7 种探针,而是多方法收敛诚实的失败模式、以及接到安全决策的闭环。这篇文章是按「每个工具实际在回答什么问题」组织的地图。

机制可解释性在部署监督里处于哪一层,见AI 监督的三层结构。本站一条具体研究线——监督版 emotion vector vs Anthropic NLA——见 NLA 与 emotion vectors


从问题出发,不是从缩写出发

大部分混淆来自把「机制可解释性」当成一种技术。至少有三类:

阶段问题跳过会怎样
观察 / 解码能否读出内部状态?把相关当机制
干预改变该状态是否因果地改变行为?得到不能迁移的漂亮热力图
验证解释能否扛住留出任务、消融、对抗检查?停留在 IOI 式轶事,进不了测量科学

你听说过的每种方法都落在某一类(有时两类)。读 ≠ 干预 ≠ 补丁 ≠ 特征。 一个概念可能在第 8 层线性解码最强、第 14 层转向最有效、对回路而言只有某个从没探针过的 attention head 才承载关键作用。把这些曲线压成「第 12 层 = 情绪」——那是可解释性圈在骗你。


观察:读残差流

这些方法从激活产出解释。单独任何一个都不证明因果。

对比向量与线性探针

最简单的读法:收集概念正/负例的激活,减均值,得到方向。Representation Engineering (RepE)(Zou et al., 2023)把它形式化为监控 + 控制。Linear Artificial Tomography (LAT) 把同一方向扫过每一层。

线性探针 / 逻辑回归问更窄的问题:概念 C 在第 L 层是否线性可解码? 便宜、可扩展,刺激若共享表层特征则极易自欺。

这是我 在 Llama 1B 上复现 Anthropic emotion vectors 用的谱系:监督对比对、逐层向量、logit lens 读输出、推理时转向。有效。但也主要抓 情绪分类(标签形信号),多于 情感接收——Whether, Not Which(2026)在无关键词刺激上记录的可分离现象。

Logit lens 与 tuned lens

把隐藏状态投影过 unembedding,看 top token。快速健全性检查:这个方向像「fear」还是「Paris」?Tuned lens 学逐层修正,因为原始 unembedding 只是粗近似。有用,非因果。

稀疏自编码器(SAE)与 crosscoder

Superposition(Elhage/Olah)解释为何单个 neuron 多义:模型在 (d) 维里塞进远超 (d) 个概念。SAE 训稀疏字典,把激活分解成 特征——希望是单义单元。

Anthropic Scaling Monosemanticity(2024)在 Claude 3 Sonnet 规模上展示:安全相关特征(欺骗、谄媚)、多步推理特征、可人工命名的语义。Crosscoders2024)把多层 encode 进同一套特征,再 decode 回各层,纵向追踪同一概念。

Neuronpedia 是社区浏览 SAE / NLA 特征的界面——不是方法,是生态实际在用的检视层。

SAE 是手工对比向量的主无监督替代。代价:字典不唯一、低重建误差 ≠ 机制忠实度Olah 2025 toy model)、语义上像特征的单元可能在做记忆。

Natural Language Autoencoder(NLA)

Anthropic NLA(2026)把激活压成 ≤500 token 自然语言,再从文本重建激活。训练只优化重建 MSE;可读性来自瓶颈。

NLA 与对比向量在监督谱系上相反:无标签、算力贵、噪声大、会编造——但能浮现 模型表征了但没说出口的东西,包括 SWE-bench 类任务上的 evaluation awareness——输出监控抓不到。与我的 emotion-vector 工作的连接见 此文

2025–2026 相近路线:activation oracleintrospection adapter(Lindsey et al.)——同一赌注:往流水线里插人类可读解释,接受忠实度代价。

Persona vector 等监督方向

Chen et al., 2025 提取 persona vector——与未对齐 persona(谄媚、幻觉压力等)相关的方向,用对比数据与因果检验。与 RepE 同观察→干预环,目标概念与安全框架不同。


干预:检验「读到的」是否因果

观察说有东西。干预问它是否在干活

激活转向(Activation steering,ActAdd、RepE control)

推理时在残差流上加 (\alpha v)。行为可预测地变 → 弱因果证据。开放模型上便宜;副作用常见,偏离目标的损害常被少报。

我的 Qwen RFA jailbreak 实验 在同一几何上:Arditi et al. 显示许多 chat 模型的 refusal 由单一方向介导;abliterate 即去掉 refusal。机制可解释性没制造漏洞——它揭示了安全机制有多浅。

激活补丁与 attribution patching

Activation patching 是黄金标准:干净 / 损坏输入,在损坏前向中交换某一组件激活,看任务指标是否恢复。因果,算力代价极高。

Attribution patching (AtP)Nanda)用梯度近似补丁——2 次前向 + 1 次反向,一次给所有组件打分。AtP*Syed et al., 2024)修 softmax saturation 等已知失败模式。仍是近似;top 候选应用真补丁验证。

自动化回路发现

回路(circuit) 是模型计算的子图:完备(complete)(消融 → 行为塌)且 忠实(faithful)(消融外部 → 行为不变)。IOI circuitWang et al., 2022)——GPT-2 small 上的 indirect object identification——是经典手画例子。

ACDCConmy et al., 2023)从输出向输入贪心删边。EAP / EAP-IGBhaskar et al., 2024Hanna et al., 2024)用 attribution patching 与 integrated gradients 给边打分。Hanna 的核心警告:与手画回路高重叠 ≠ 忠实度。

回路工作是从「第 14 层重要」升级到「这个 head、这条 MLP 边重要」。超过几 B 参数要按预算规划。

权重编辑(ROME 及后续)

ROMEMeng et al., 2022)定位 mid-layer MLP 中的 factual association,做 rank-one 权重编辑。激活方法问模型此刻在做什么;ROME 问事实在权重哪里。不同本体——对不同概念类型都偏 middle-layer。


验证:什么算「足够真」的解释?

领域成熟的动作是基准测试与显式忠实度标准——不是更炫的仪表盘。

RAVEL 与解耦

RAVEL(Huang et al., ACL 2024)测方法能否定位并解耦实体属性(城市→大陆、人→职业),用 causal interchange:换表征,看目标属性是否孤立变化。分布式方法胜过单 neuron 叙事。现也进 SAEBench、MIB 等套件。

CausalGym 与语言学因果

CausalGym(Arora et al., 2024)扩展 SyntaxGym:可解释性方法能否在 minimal pair 上因果影响语言学行为?DAS 常赢——作者讨论的过拟合注意事项要读。

忠实度、完备性与开放问题

Sharkey et al. Open Problems in Mechanistic Interpretability(2025)是领域清单:分解理论、自动化、验证协议、监控、双重用途、治理。若只读一份元文档,读这个。

回路工作的操作定义到处适用:

  • 忠实度(Faithfulness): 干预解释之外的一切 → 行为不应变
  • 完备性(Completeness): 干预解释之内的一切 → 行为应塌

大多数发表的「回路」和「特征」两者都不完全满足。报清你测了哪一个。

可证明保证(早期)

Zhang et al., 2026 把回路发现接到神经网络验证(α-β-CROWN)。对前沿模型今天偏理想化,但设了认识论标杆:证明内部解释,而不只是图解。


2026 的「SOTA」指什么

若你在等 radically new 的原语,可能找错层了。我理解的活跃前沿:

  1. 规模化特征字典 — SAE → transcoder → crosscoder,与转向 / 补丁对齐
  2. 带诚实指标的自动化回路 — ACDC/EAP-IG + 忠实度,不只重叠
  3. 用于监控的无监督 verbalization — NLA、activation oracle、eval-awareness 检测
  4. 跨深度的概念现象学 — RepE LAT、emotion layer、读 vs 干预分离
  5. 安全导向流水线 — 定位 → 破坏 → 加固(Actionable MI survey;本站 RFA entanglement
  6. 测量科学 — RAVEL、CausalGym、SAEBench、Sharkey open problems

我认为最站得住的合成配方——也是我在做的——是 三角互证:对同一概念,看对比向量、探针、(可选)SAE 近邻、转向效应、(可选)NLA 解码在深度与行为上是否定性一致。不一致往往比一致更值得写。


本地图刻意没覆盖的

  • 黑盒可解释性 — 不同威胁模型
  • o 类模型的 CoT / reasoning token 内部 — 工具相同,访问更难,几何不同
  • 训练动力学grokking、progress measures)——机制如何涌现,不只收敛后在哪
  • 完整工具清单 — TransformerLens、pyvene、nnsight、SAELens 等是基础设施,不是理论

另外:机制可解释性有双重用途Arditi refusal direction 是干净的公开例子。答案不是「藏工具」——是别把安全建成单一可消融的方向


我自己的下注

我不声称统一的层级理论。我在开放模型上做 多方法概念地图:emotion 等族系的读/干预深度剖面、与 NLA 解码的 RSA 对照、不只是向量 cosine 的行为评估。若听起来像重组 2019–2024 的原语——正是。这种重组,加上显式局限,是领域说想要的下一步。

若你刚入门:在小开放模型上各选一种 观察 和一种 干预,跑同一概念,画它们分歧处。一张图比学第四个缩写教得多。


来源与延伸阅读

本地研究笔记:notes/mech_interp_topics/00_INDEX.mdreadings/mech_interp_paper_inventory.mdnotes/safety_mech_interp_literature.md

Survey:Sharkey et al., 2025Actionable MI, 2026。Anthropic Transformer Circuits:transformer-circuits.pub

本站相关:Llama 1B emotion vectors · RFA jailbreak / entanglement · AI 监督三层