做 AI 事件响应之前,凌晨三点被 on-call 告警叫醒的人是我。我在 Roblox 当数据库 SRE,支撑一亿多日活用户,太多个晚上一边定位生产问题,一边在 Slack 里回各方的问题。后来我开始利用晚上和周末做一个自主 AI SRE,最后通过 YC 创业全职做这件事。但做了几个月之后我发现,全自主是个错误的方向。真正难的是搞清楚 AI 到底在哪儿能用,在哪儿不行。
AI SRE 市场估值超过 320 亿美元。Gartner 预测到 2029 年 85% 的企业会用 AI SRE 工具,现在不到 5%。有一家 AI SRE 创业公司 18 个月不到就到了独角兽。YC 也投了好几家。钱是真的。但行业承诺的和生产里真正发生的,差得远。
日志读得飞快,推理一塌糊涂
Alex Palcuie 在 Anthropic 做 AI 可靠性工程,工作就是让 Claude 别挂。他之前在 Google Cloud Platform 做事件响应。他在这个月的 QCon London 上把事件响应分成四步:观察、定向、决策、行动。AI 在观察上”特别强”。“它读日志的速度就是 I/O 的速度,不会烦。“这方面没人能比。
他讲了一个 AI 最牛的故事。除夕夜 Claude Opus 4.5 开始返回 500。Palcuie 打开 Claude Code,几秒钟 AI 就写了 SQL、找到出问题的类(class)、追踪到 200 个可疑账号——全在同一时间发 22 张图。AI 没停,继续挖,发现 4000 个同时创建的休眠账号,然后说:“别看 500 了,这是欺诈。” Palcuie 说没有 AI 他会当 bug 提了,不会叫反欺诈的人。AI 的优势不是比人聪明,是不嫌烦,愿意一直追。
然后他讲了另一个故事。Claude 的推理靠 KV cache,用他的话说”又敏感又脆弱”。cache 一挂,系统重算,监控上就是请求量飙升。每次 Palcuie 问 Claude 怎么回事,它都给同一个错误答案:“请求量上升了,容量问题,加机器。“实际原因每次都是 cache 挂了。Claude 看到尖峰就匹配到历史上的容量事件,不会退一步想想这个尖峰是原因还是症状。
“跟团队新人一样,“Palcuie 说,“他们看到请求多了就想’哦容量问题’,其实是 cache 没了。”
这不是个例。一项针对 ChatGPT、Claude 和 Gemini 的研究发现分析生产事件时,技术细节的幻觉率 23%。四个事实里差不多错一个。写代码的话可以改,但线上事件不行——Splunk 和牛津经济研究院的数据显示,Global 2000 公司每分钟损失 $9,000。而且幻觉在多步智能体里会滚雪球:上游一个时间戳错了,下游每一步推理都跟着错,最后得出一个看着很自信但完全不对的结论。
Palcuie 在 QCon 上提到:「它能写出 80 分的报告,好看好读,很有说服力,但根因分析很烂。」他说:「Claude 会说『就是这个原因』,但我们都知道从来不是一个原因。不是那次发布,不是那次代码改动。是公司里所有让事故能发生的流程。」Claude 不了解你系统的历史,尤其是十年的老系统。
为什么 AI SRE 比 AI 写代码难得多
这有个结构性原因。AI 写代码的工具有几十亿行公开代码可以训练:GitHub、Stack Overflow、文档。初级开发者问,高级开发者答,答案是公开的,可以验证。
AI SRE 几乎没有这些。事件报告、运行手册、事后分析全是私有的,锁在各家公司里,格式也不统一。公共领域里根本没有这些数据。通用 LLM 就没在 SRE 工作上训练过,因为训练数据不存在。
| AI 写代码 | AI SRE | |
|---|---|---|
| 训练数据 | 几十亿行公开代码 | 基本全是私有的(事件报告、运行手册、事后分析) |
| 知识循环 | 公开问答、开源、文档 | 锁在个人经验里,没有公开验证 |
| 容错 | 改了再试、可以回滚 | 直接影响生产 |
| 问题格式 | 标准化(代码进代码出) | 碎片化(日志、指标、trace、架构、历史) |
在尝试缩小这个差距的公司里,进展都还很早。Meta 用 5000 个内部调查微调了 Llama 2,top 5 建议里 42% 命中根因。来自 Gradient、UC Santa Cruz、Georgia Tech 和 UCL 的强化学习方法在失败的诊断轨迹上训练了 14B 模型,在 AIOpsLab 基准测试上追平了 Claude Sonnet 4.5。微软测了 10 万个真实云事件,用 in-context learning 的 GPT-4 比微调过的 GPT-3 高 24.8%,但还是需要人来验证结果。Zalando 试着用 LLM 挖事后分析,发现人工审核仍然是瓶颈。
方向对了,但还很早。
AI 需要人的时候,人已经忘了怎么干
还有个不太容易注意到的问题。AI 接手了越来越多的日常排查,工程师自己练手的机会就越来越少。Palcuie 管这叫”伤疤组织”——被烧过才能长出来的直觉。“SRE 需要被烧过,“他说,“才有伤疤组织。“如果 AI 处理了大部分事件,这种直觉就会退化。AI 终归会挂——到那时候本该接手的工程师已经好几个月没亲手干过了。
这不是新问题。1983 年认知心理学家 Lisanne Bainbridge 写了《自动化的讽刺》,现在被引用超过 1800 次。她发现:你把大部分工作自动化了,人在剩下那些任务上的练习就变少了——而那些恰好是自动化挂掉时需要人来做的任务。两个讽刺:第一,设计者觉得人不靠谱才搞自动化,结果设计者自己的错误才是故障的主因。第二,自动化做了简单的,难的留给人,但人因为不练就越来越不会做难的。
航空业验证了她的观点。法航 447 航班 2009 年坠毁,228 人遇难。A330 高度自动化。皮托管结冰、自动驾驶断开后,飞行员需要在夜间湍流中手飞。他们飞不了。一项对 30 名飞行员的研究发现全部低于认证标准。43% 说转到自动化座舱后手动技能下降了。FAA 和 EASA 现在强制定期手动飞行训练,不是建议,是强制。
Google 很早就明白了。他们的 DiRT 项目从 2006 年开始运行,故意往生产系统里注入故障,让工程师在没有紧急情况的时候练习事件响应。Netflix 的 Chaos Monkey 同理。跟航空业一个逻辑:等自动化挂了才让团队练,已经晚了。
Palcuie 担心软件行业在走同一条路。他把这比作开发者担心 AI 编程工具在退化自己的技能。“以前 on-call 你对系统了如指掌,现在多了个大语言模型——有时候它比你先找到问题,有时候它像个过度自信的新人。”
他问自己是不是在把自己自动化掉:“说 Claude 能搞定一切那是自欺欺人。我的团队在,我们还在招人。这说明——不,它还不行。“然后他说:“如果以后真行了,我们也不会意外。今天的模型是它们有史以来最差的。“但他的结论是:继续培养可靠性工程师,你还是需要他们。
系统膨胀的速度超过了人能理解的速度
AI 编程工具在以前所未有的速度产出代码。很多代码没人完整读过就上线了。系统更复杂了,但运维的人对新加的东西没有对应的理解。出了问题,工程师要调试的是自己没写过、也不认识的代码。
Observability Pulse 调查显示 MTTR 从 2021 年起年年恶化:
- 2021:47% 的组织恢复超过一小时
- 2022:64%
- 2023:74%
- 2024:82%
这发生在可观测性和 AIOps 工具投资最多的时期。工具越多,恢复越慢。2024 年只有 18% 能在一小时内恢复。11% 需要超过一天。2% 需要好几周。
同时根据 Uptime Institute 2025 的分析,故障总数其实在减少。但出的那些故障更严重也更贵。2024 年 CrowdStrike 事件搞崩了全球 850 万台 Windows,Fortune 500 损失超过 50 亿美元。医疗 19.4 亿,银行 11.5 亿,5000 多航班取消。起因是一个跳过了质量检查的配置更新。
AI 让系统长大的速度,远超它让故障变便宜的速度。
管理层觉得 AI 有用,干活的人不这么看
Catchpoint SRE 报告用同一套方法连续追踪 toil 追踪了八年。2020 到 2024 年 toil 稳步下降。2025 年开始反弹。2026 年中位数从 20% 跳到了 34%。
问 AI 是不是减少了 toil(杂务):49% 说是,35% 说没变,16% 说反而多了。报告的原话:“AI 不会自动消除 toil,它只是换了个地方。“新增的 toil:维护 AI 工具、审核 AI 的建议、调提示词、检查 AI 做得对不对、跟别人解释 AI 做了什么。
管理层和一线的认知差距最值得注意。管理层看到的是 AI 的产出:更干净的报告、更快的摘要、更短的会议,所以觉得 toil 少了。一线工程师面对的是 AI 的过程:验证结论、抓错误、AI 基于错误数据操作后的善后。自动化把工程师的活从”做事”变成了”检查事”。两边说的都对,他们看的是不同的部分。
只有 13% 的团队对自己监控 AI 可靠性的能力有信心。大多数团队用了 AI 但看不到 AI 组件在生产里的实际表现。看不到 AI 为什么这么决定,时间就从执行变成了验证。报告说:“从外面看像是 toil 没减少。从里面看更像是小心。”
Reddit 上工程师的说法也一样。一个 DevOps 的人发帖:“我们不停加 AIOps 和 Autonomous 工具想减 toil,但感觉 toil 只是换了个地方。我们不修代码了,改成调试 AI 智能体为什么觉得 503 是个’自愈’机会然后重启了错的服务。“高赞回复:“我们不再直接调试 pipeline 和基础设施了,改成调试那个本来应该替我们调试的自动化工具。”
开发者信任度数据也类似:84% 的开发者在用或打算用 AI 编程工具,但信任度从 2024 年的 40% 跌到 29%。只有 3% 高度信任。一项随机对照试验发现用 AI 的开发者实际上比不用的慢 19%,但他们自己觉得快了 20%。这个感知偏差很关键——你觉得工具在帮你的时候,就不容易发现它其实没有。
AI 智能体搞崩生产环境
信任问题不是纸上谈兵。有生产权限的 AI 智能体已经造成了真实损失。
2025 年 12 月,Amazon 的 Kiro AI 智能体 自己删了整个 AWS 生产环境,停机 13 小时。它有运维员级(operator)权限,没有强制审查。让它修一个 AWS Cost Explorer 的小问题,它选择把整个环境删了重建。Amazon Q Developer 不久后也出了几乎一样的事。
AI 智能体事故汇编里的其他案例:LangChain 智能体陷入无限对话循环 11 天,烧了 47000 美元 token 费。一个智能体周末搞出了 230 万次非预期 API 调用。Claude Code 误读 Terraform state 跑了 terraform destroy,删了 2.5 年生产数据。Replit AI 智能体在代码冻结期间删了生产数据库,毁了 1200 多条高管数据,然后伪造 4000 条假数据补上。
所有这些的共同问题:自主操作没有执行时的治理、审批和审计。没有权限边界,没有对危险操作的强制审核,没有预算上限。
数据也证实了这点。88% 的组织过去一年报告了 AI 智能体安全事件。64% 的十亿美元级公司因 AI 故障损失超过 100 万美元。
什么是真正有用的
Palcuie 说 AI 当不了完整的 SRE 替代品,但他自己还是会在打开监控面板之前先问 Claude——从 2026 年 1 月开始就这样。关键是他用 AI 做什么:观察,不是诊断。读日志、关联信号、抓住凌晨三点人会漏掉的模式。判断还是工程师做。
2025 年 Stanford-CMU 的研究让 48 个人用四个 AI 智能体框架做 16 个真实任务。人主导 + AI 辅助比全自主智能体好 68.7%。全自动快 88%、省 90%,但成功率低 32-50%。算上验证和调试的时间,全自动实际上还慢了 17.7%。医疗领域的一项针对 70 个医生的随机试验发现 AI 当第二意见时,诊断准确率从 75% 提到 82-85%,警报负担降了 80%。
我们行业最好的例子是 Meta 的 DrP 平台。每天在 300 个团队里跑 5 万次自动根因分析,MTTR 降了 20-80%。但 DrP 不是自主的。工程师用 SDK 把自己的排查逻辑编码进去,机器大规模执行。知识来自人。这个系统在生产里跑了五年了。这才是有效的模式:人编码判断,机器执行规模。
Google 类似。他们的 SRE 用 Gemini CLI 做事件响应,但有分层的安全管控。Gemini 分类症状、选缓解预案,但人在执行前验证。“一个环境下安全的操作在另一个环境下可能不安全。“他们关注 MTTM(平均缓解时间)而不是完整的 MTTR。而且他们形成了闭环:每次事件后的事后分析变成 Gemini 的训练数据。这个细节值得注意——这是少有的 AI SRE 系统能从自己的生产经验中变聪明的真实案例。
Traversal 借鉴自动驾驶的分级,提了个有用的框架:
- L0:全手动。工程师在作战室盯仪表盘。
- L1:自动化已知故障。规则 + 静态运行手册。
- L2:LLM 做摘要、上下文检索、日志解读。人决定怎么回事、怎么办。
- L3:智能体在单一领域独立排查(一个 K8s 集群、一个可观测性平台、一类事件)。
- L4:跨整个生产环境的自主排查,包括多跳、跨边界事件。
- L5:自动驾驶式生产运维。系统自己检测、诊断、修、验证、预防。
大多数自建 AI SRE 做到 L2 就到头了。有的在窄领域到 L3。没人到 L4 或 L5。Traversal 还算了笔成本账:每个应用一个智能体,每天 100 万+告警,每次排查大概 5 美元,一天 500 万美元 API 费用。账算不过来。
还有一个经常被忽略的角度。W. Ross Ashby 的必要多样性定律说控制者的复杂度得至少跟被控系统一样高。AI SRE 行业都在增强控制者——做更聪明的工具。但 Ashby 定律还有第二招:降低系统本身的复杂度。把微服务整合回更简单的架构,MTTR 和云成本都能大幅下降。有时候最有效的可靠性投资不是更好的 AI,是更简单的系统。
现在在哪儿
我做 AI SRE 是因为觉得自动化能解决 on-call 的问题。做了一年之后想法变了:AI 在运维里的价值不是替代工程师的判断,是让工程师把判断花在对的问题上——因果推理、跟系统相关的上下文、“这事从来没发生过”的时刻——同时 AI 几秒钟就把日志和指标过了一遍。
模型会越来越好。但更难的是组织层面的问题:团队怎么学会跟 AI 配合,不是只是部署它。团队得知道 AI 强在哪(观察、关联、不知疲倦地匹配模式),弱在哪(因果、系统历史、新型故障)。还得在不用 AI 的时候继续练。Google 跑 DiRT,航空业强制手飞训练,道理一样:不能只在出事的时候才练。
Bainbridge 1983 年就预言了:自动化会造出一种同时更被需要、却更没准备好的操作者。四十年后我们在软件运维里走的就是这条路。做对的公司会像航空业对待自动驾驶一样对待 AI:一个要求你练得更多而不是更少的工具。做错的会学到法航的教训——自动化挂的时候,挂在最糟的时刻,本来该被它帮的人还没准备好。
如果你在做或者买 AI SRE 工具——或者任何 AI 智能体——我希望这篇文章能让你从人机交互的角度想想这件事。这里面有真实的故事和数据,希望能帮你避开别人已经踩过的坑。