机制可解释性工具地图：观察、干预、验证

我花了几周把机制可解释性（mechanistic interpretability）的主流工具过了一遍：对比向量与转向、线性探针、稀疏自编码器、Neuronpedia、Natural Language Autoencoder。它们都很直观。直观到有点可疑——同样的残差流钩子、同样的逐层扫描、同样的问题：这个激活在干什么？——只是答案的形式不同。

这种直觉是对的。这些方法不是彼此无关的发明。它们是同一张因果图上的不同边：解码内部状态 → 干预检验因果 → 验证故事是否站得住。 看清这个结构之后，缩写堆砌就不那么吓人了。

同时也会明白，为什么你会觉得「好像没有更聪明的新方法了」。微观发明期——logit lens、induction head、第一批 SAE——基本过去了。2026 的前沿不是第 7 种探针，而是多方法收敛、诚实的失败模式、以及接到安全决策的闭环。这篇文章是按「每个工具实际在回答什么问题」组织的地图。

机制可解释性在部署监督里处于哪一层，见AI 监督的三层结构。本站一条具体研究线——监督版 emotion vector vs Anthropic NLA——见 NLA 与 emotion vectors。

从问题出发，不是从缩写出发

大部分混淆来自把「机制可解释性」当成一种技术。至少有三类：

阶段	问题	跳过会怎样
观察 / 解码	能否读出内部状态？	把相关当机制
干预	改变该状态是否因果地改变行为？	得到不能迁移的漂亮热力图
验证	解释能否扛住留出任务、消融、对抗检查？	停留在 IOI 式轶事，进不了测量科学

你听说过的每种方法都落在某一类（有时两类）。读 ≠ 干预 ≠ 补丁 ≠ 特征。 一个概念可能在第 8 层线性解码最强、第 14 层转向最有效、对回路而言只有某个从没探针过的 attention head 才承载关键作用。把这些曲线压成「第 12 层 = 情绪」——那是可解释性圈在骗你。

观察：读残差流

这些方法从激活产出解释。单独任何一个都不证明因果。

对比向量与线性探针

最简单的读法：收集概念正/负例的激活，减均值，得到方向。Representation Engineering (RepE)（Zou et al., 2023）把它形式化为监控 + 控制。Linear Artificial Tomography (LAT) 把同一方向扫过每一层。

线性探针 / 逻辑回归问更窄的问题：概念 C 在第 L 层是否线性可解码？ 便宜、可扩展，刺激若共享表层特征则极易自欺。

这是我在 Llama 1B 上复现 Anthropic emotion vectors 用的谱系：监督对比对、逐层向量、logit lens 读输出、推理时转向。有效。但也主要抓 情绪分类（标签形信号），多于 情感接收——Whether, Not Which（2026）在无关键词刺激上记录的可分离现象。

Logit lens 与 tuned lens

把隐藏状态投影过 unembedding，看 top token。快速健全性检查：这个方向像「fear」还是「Paris」？Tuned lens 学逐层修正，因为原始 unembedding 只是粗近似。有用，非因果。

稀疏自编码器（SAE）与 crosscoder

Superposition（Elhage/Olah）解释为何单个 neuron 多义：模型在 (d) 维里塞进远超 (d) 个概念。SAE 训稀疏字典，把激活分解成特征——希望是单义单元。

Anthropic Scaling Monosemanticity（2024）在 Claude 3 Sonnet 规模上展示：安全相关特征（欺骗、谄媚）、多步推理特征、可人工命名的语义。Crosscoders（2024）把多层 encode 进同一套特征，再 decode 回各层，纵向追踪同一概念。

Neuronpedia 是社区浏览 SAE / NLA 特征的界面——不是方法，是生态实际在用的检视层。

SAE 是手工对比向量的主无监督替代。代价：字典不唯一、低重建误差 ≠ 机制忠实度（Olah 2025 toy model）、语义上像特征的单元可能在做记忆。

Natural Language Autoencoder（NLA）

Anthropic NLA（2026）把激活压成 ≤500 token 自然语言，再从文本重建激活。训练只优化重建 MSE；可读性来自瓶颈。

NLA 与对比向量在监督谱系上相反：无标签、算力贵、噪声大、会编造——但能浮现 模型表征了但没说出口的东西，包括 SWE-bench 类任务上的 evaluation awareness——输出监控抓不到。与我的 emotion-vector 工作的连接见此文。

2025–2026 相近路线：activation oracle、introspection adapter（Lindsey et al.）——同一赌注：往流水线里插人类可读解释，接受忠实度代价。

Persona vector 等监督方向

Chen et al., 2025 提取 persona vector——与未对齐 persona（谄媚、幻觉压力等）相关的方向，用对比数据与因果检验。与 RepE 同观察→干预环，目标概念与安全框架不同。

干预：检验「读到的」是否因果

观察说有东西。干预问它是否在干活。

激活转向（Activation steering，ActAdd、RepE control）

推理时在残差流上加 (\alpha v)。行为可预测地变 → 弱因果证据。开放模型上便宜；副作用常见，偏离目标的损害常被少报。

我的 Qwen RFA jailbreak 实验在同一几何上：Arditi et al. 显示许多 chat 模型的 refusal 由单一方向介导；abliterate 即去掉 refusal。机制可解释性没制造漏洞——它揭示了安全机制有多浅。

激活补丁与 attribution patching

Activation patching 是黄金标准：干净 / 损坏输入，在损坏前向中交换某一组件激活，看任务指标是否恢复。因果，算力代价极高。

Attribution patching (AtP)（Nanda）用梯度近似补丁——2 次前向 + 1 次反向，一次给所有组件打分。AtP*（Syed et al., 2024）修 softmax saturation 等已知失败模式。仍是近似；top 候选应用真补丁验证。

自动化回路发现

回路（circuit） 是模型计算的子图：完备（complete）（消融 → 行为塌）且 忠实（faithful）（消融外部 → 行为不变）。IOI circuit（Wang et al., 2022）——GPT-2 small 上的 indirect object identification——是经典手画例子。

ACDC（Conmy et al., 2023）从输出向输入贪心删边。EAP / EAP-IG（Bhaskar et al., 2024；Hanna et al., 2024）用 attribution patching 与 integrated gradients 给边打分。Hanna 的核心警告：与手画回路高重叠 ≠ 忠实度。

回路工作是从「第 14 层重要」升级到「这个 head、这条 MLP 边重要」。超过几 B 参数要按预算规划。

权重编辑（ROME 及后续）

ROME（Meng et al., 2022）定位 mid-layer MLP 中的 factual association，做 rank-one 权重编辑。激活方法问模型此刻在做什么；ROME 问事实在权重哪里。不同本体——对不同概念类型都偏 middle-layer。

验证：什么算「足够真」的解释？

领域成熟的动作是基准测试与显式忠实度标准——不是更炫的仪表盘。

RAVEL 与解耦

RAVEL（Huang et al., ACL 2024）测方法能否定位并解耦实体属性（城市→大陆、人→职业），用 causal interchange：换表征，看目标属性是否孤立变化。分布式方法胜过单 neuron 叙事。现也进 SAEBench、MIB 等套件。

CausalGym 与语言学因果

CausalGym（Arora et al., 2024）扩展 SyntaxGym：可解释性方法能否在 minimal pair 上因果影响语言学行为？DAS 常赢——作者讨论的过拟合注意事项要读。

忠实度、完备性与开放问题

Sharkey et al. Open Problems in Mechanistic Interpretability（2025）是领域清单：分解理论、自动化、验证协议、监控、双重用途、治理。若只读一份元文档，读这个。

回路工作的操作定义到处适用：

忠实度（Faithfulness）： 干预解释之外的一切 → 行为不应变
完备性（Completeness）： 干预解释之内的一切 → 行为应塌

大多数发表的「回路」和「特征」两者都不完全满足。报清你测了哪一个。

可证明保证（早期）

Zhang et al., 2026 把回路发现接到神经网络验证（α-β-CROWN）。对前沿模型今天偏理想化，但设了认识论标杆：证明内部解释，而不只是图解。

2026 的「SOTA」指什么

若你在等 radically new 的原语，可能找错层了。我理解的活跃前沿：

规模化特征字典 — SAE → transcoder → crosscoder，与转向 / 补丁对齐
带诚实指标的自动化回路 — ACDC/EAP-IG + 忠实度，不只重叠
用于监控的无监督 verbalization — NLA、activation oracle、eval-awareness 检测
跨深度的概念现象学 — RepE LAT、emotion layer、读 vs 干预分离
安全导向流水线 — 定位 → 破坏 → 加固（Actionable MI survey；本站 RFA entanglement）
测量科学 — RAVEL、CausalGym、SAEBench、Sharkey open problems

我认为最站得住的合成配方——也是我在做的——是 三角互证：对同一概念，看对比向量、探针、（可选）SAE 近邻、转向效应、（可选）NLA 解码在深度与行为上是否定性一致。不一致往往比一致更值得写。

本地图刻意没覆盖的

黑盒可解释性 — 不同威胁模型
o 类模型的 CoT / reasoning token 内部 — 工具相同，访问更难，几何不同
训练动力学（grokking、progress measures）——机制如何涌现，不只收敛后在哪
完整工具清单 — TransformerLens、pyvene、nnsight、SAELens 等是基础设施，不是理论

另外：机制可解释性有双重用途。Arditi refusal direction 是干净的公开例子。答案不是「藏工具」——是别把安全建成单一可消融的方向。

我自己的下注

我不声称统一的层级理论。我在开放模型上做 多方法概念地图：emotion 等族系的读/干预深度剖面、与 NLA 解码的 RSA 对照、不只是向量 cosine 的行为评估。若听起来像重组 2019–2024 的原语——正是。这种重组，加上显式局限，是领域说想要的下一步。

若你刚入门：在小开放模型上各选一种观察和一种干预，跑同一概念，画它们分歧处。一张图比学第四个缩写教得多。

来源与延伸阅读

本地研究笔记：notes/mech_interp_topics/00_INDEX.md，readings/mech_interp_paper_inventory.md，notes/safety_mech_interp_literature.md。

Survey：Sharkey et al., 2025；Actionable MI, 2026。Anthropic Transformer Circuits：transformer-circuits.pub。