← 返回

AI 科学发现全景图

2026年6月26日

2025 年 11 月,Nature 发了一篇新闻报道 AI-Newton:北大团队做的系统,给定几十个经典力学实验的带噪声模拟数据,重新发现了质量、动能等概念,以及牛顿第二定律、能量守恒等定律。标题框架——AI 重发现物理学——大体准确。但它处在一个拥挤的领域里:同样的说法也被用在 AlphaFold、Sakana 的 AI Scientist、Google 的 AlphaEvolve,以及十几篇符号回归论文上。这些系统做的不是同一种工作。

这篇文章是一张地图。不是突破时间线,不是预测 AI 何时拿诺贝尔奖。问题更窄:当有人说 AI 在科学上「发现」了什么,它实际产出的是哪类对象——你怎么验证?

答案重要,因为不同路线的验证负担可以差一个数量级。通过组合学检验的 cap set 构造,和一篇关于 nanoGPT 变体的研讨会论文,不是同一种认识论对象;两者也都不同于从位置轨迹里重发现 (F = ma)。


你在尝试发现什么?

从产出类型出发,不从机构出发。

产出类型人类可读?可证伪?例子
结构或性质预测部分实验验证AlphaFold, GNoME
隐式动力学模型PINN, Hamiltonian NN
单条显式方程SINDy, PySR, AI Feynman
概念 + 通用定律AI Physicist, AI-Newton
方程 + 形式证明AI-Descartes, AI-Hilbert
程序或算法读代码跑评估器FunSearch, AlphaEvolve
完整科研产物同行评审AI Scientist, Kosmos

公众讨论里大部分困惑,来自把表格第 3 行和第 7 行当成同一种成就。它们不是。


路线 1:符号回归——恢复公式

问题: 给定数据 ((x, y)) 或轨迹,找一条简短的数学表达式拟合。

谱系: Schmidt & Lipson 的 「蒸馏自由形式自然定律」(2009)→ SINDy(固定函数库上的稀疏回归)→ AI Feynman(Udrescu & Tegmark,2020)→ 现代 PySR

AI Feynman 是地标。它组合神经网络平滑、对称性与量纲分析、把复杂表达式递归分解成子问题、再对子问题做符号回归。以 Feynman 讲义公式为基准测试,恢复了 100 个方程。AI Feynman 2.0 加入模块化图结构,处理更乱的多变量情形。

它实际证明了什么: 数据足够干净、单个系统定义清楚时,可以在公式空间里高效搜索,恢复已知物理。这是真的。但也是 逐问题 的:一个数据集通常产出一条方程,不是可复用的理论库。

LLM-SR(2024)往同一方向推:LLM 以程序形式提议方程结构,数据反馈剪掉坏候选。产出类型相同,搜索先验更好。

局限: 没有概念层(系统不会发明「质量」这种抽象量)。没有跨实验知识库。变量、噪声或系统复杂度一上来,搜索就爆炸。


路线 2:结构化神经网络——把物理烘焙进架构

PINNKarniadakis 等,Nature Reviews Physics 2021)在 loss 里惩罚 PDE 残差。哈密顿拉格朗日神经网络Greydanus 等,2019Cranmer 等,2020)学 (H(q,p)) 或 (L(q,\dot{q})),从结构导出动力学。

它们实际证明了什么: 如果你已经知道支配物理规律的形式(某类 PDE、哈密顿结构),神经网络比普通 MLP 拟合轨迹更省样本,外推也稍好。

它们不是什么: 定律发现。物理形式你得事先知道。产出通常是高维函数,不是黑板上写的 (E = \frac{1}{2}mv^2 + \frac{1}{2}kx^2)。

这些是仿真和反演的工程工具。重要,但是和 AI-Newton 不同的问题。


路线 3:概念与知识库——把多组实验压缩成定律

AI-Newton 在这条线上,有直接前身。

AI Physicist(Wu & Tegmark,arXiv:1810.10525,2019)提出「理论中枢」:划分环境、学专用理论、统一它们、把复杂拟合压缩成简单符号公式。在混合引力、电磁、碰撞的 2D 玩具物理世界上工作。

AI-NewtonFang 等,arXiv:2504.01538,2025)把野心放大。Rust 写的 物理 DSL 编码概念和定律。Python 工作流每轮四步:选实验和概念(带推荐引擎)、通过符号回归和 似然推理 发现定律(数据要求时在已有通用定律上加新项)、微分代数化简、把成功的特定定律升格为通用定律写入知识库。输入可观测量是球的位置这类东西——没有质量、能量、力的标签。

46 个经典力学实验(加噪声)上,系统恢复大约 90 个概念、50 条通用定律,包括能量守恒和牛顿第二定律。

它实际证明了什么: 符号回归的瓶颈不只是搜索——是表征。人类物理学家不是孤立地拟合每个实验。他们建立概念、推导通用定律、再把定律用到新系统。AI-Newton 是我见过的第一个把这种架构显式编码、并在非平凡实验套件上跑通的系统。

诚实的局限: 只有经典力学。模拟数据。管线部分依赖商业软件 Maple。还没有向量微积分。「无先验物理知识」指的是没有标注的质量或能量——不是零归纳偏置(DSL 仍然编码了什么叫合法表达式)。这些是概念验证阶段的约束,不是反驳,但限制了标题能外推多远。


路线 4:数据 + 背景理论——带证明的发现

AI-DescartesCornelio 等,Nature Communications 2023)把实验数据和背景知识结合起来发现定律。

AI-HilbertCory-Wright 等,Nature Communications 2024)更进一步:给定多项式公理和带噪声数据,用混合整数和半定规划搜索新多项式定律,并产出 Positivstellensatz 证书——与背景理论一致性的机器可检验证明。

和 AI-Newton 的对比: AI-Newton 试图从原始可观测量里长出概念。AI-Hilbert 和 AI-Descartes 假设你已有形式化理论体,问什么新定律同时与理论和数据一致。没那么浪漫,往往更严格。证明证书是纯 LLM 管线很难伪造的东西。

局限: 多项式设定。你得有值得用的公理。扩展到乱糟糟的真实实验还是开放问题。


路线 5:程序进化——用评估器搜索代码空间

DeepMind 这条线的顺序很有说明性:

  • AlphaTensor(2022):矩阵乘法算法
  • AlphaDev(2023):CPU 汇编优化
  • FunSearch(Romera-Paredes 等,Nature 2024):LLM 提议程序,评估器打分,基于岛屿种群的进化循环保留好的
  • AlphaEvolve(2025):同一范式做到代码库规模,用 Gemini;4×4 矩阵乘 48 次标量乘法;数据中心调度收益

FunSearch 实际证明了什么: 这是我所知的、LLM 管线产出真正新科学知识的最清晰例子。FunSearch 找到了改进已知渐近界的 cap set 构造——数学家独立验证过。LLM 不是以可检索的形式从训练数据里「知道」答案;评估器筛掉了数百万错误程序。

AlphaEvolve 加了什么: 整段程序,不是单个函数。基础设施和算法,不是物理定律。

硬条件: 快速、客观的 评估器。没有评估器,循环转不起来。这和软件工程是同一个结构事实:生成便宜,验证是瓶颈(我在劳动经济学那篇里写过)。这里对科学是关键的,不只是对经济。

FunSearch 部分开源。AlphaEvolve 的智能体没有;OpenEvolve 是社区对范式的复现。


路线 6:端到端科研智能体——自动化论文,不一定是洞见

AI Scientist(Lu 等,arXiv:2408.06292Nature 2026)跑 ML 研究闭环:想研究点子、搜文献、写实验代码、分析、写 LaTeX、自动审稿。AI Scientist-v2arXiv:2504.08066)去掉人类模板,用智能体树搜索,产出了第一篇完全由 AI 撰写、通过 ICLR 研讨会同行评审的论文。

Kosmos(Edison Scientific,2025)是另一回事:闭源、商业、面向生物和化学。典型一次运行大约 12 小时,读约 1,500 篇论文,写数万行分析代码,输出带引用的研究报告。

它们实际证明了什么: 科研工作流的自主执行——尤其在计算机模拟 ML 里实验就是便宜脚本的地方。这是劳动自动化结果。本身不意味着系统发现了新的自然定律。研讨会接收是流程质量的有意义门槛。但不是「经独立实验验证的新物理原理」那种门槛。

范式是 LLM 编排:读、写代码、写文。AI-Newton 的范式是符号知识累积。拿「谁发现了更多科学」来比,是范畴错误。


路线 7:领域专用预测——最大真实影响已经在这里

AlphaFoldJumper 等,Nature 2021)预测蛋白质结构。GNoME(Google DeepMind,Nature 2023)搜索稳定晶体,标出数十万种候选,其中数百种后来在实验室合成。

这些系统不产出 (F = ma)。它们产出实验者可测试的结构或材料候选。对很多领域,进步长这样——不是重发现教科书方程,而是收窄原本不可行的搜索空间。

认识论对象是带实验跟进路径的预测,不是定律。


各条路线如何关联

flowchart LR
  DATA["数据 / 基准测试 / 文献"]
  DATA --> SR["符号回归<br/>AI Feynman, PySR"]
  DATA --> KB["概念知识库<br/>AI-Newton"]
  DATA --> PROOF["理论 + 证明<br/>AI-Hilbert"]
  DATA --> CODE["程序搜索<br/>FunSearch → AlphaEvolve"]
  DATA --> AGENT["科研智能体<br/>AI Scientist, Kosmos"]
  DATA --> DOMAIN["领域模型<br/>AlphaFold, GNoME"]

  SR -->|"单条方程"| OUT1["可读公式"]
  KB -->|"通用 → 具体"| OUT2["定律库"]
  PROOF -->|"证书"| OUT3["可证明公式"]
  CODE -->|"通过评估器"| OUT4["算法 / 构造"]
  AGENT -->|"同行评审"| OUT5["论文 / 报告"]
  DOMAIN -->|"实验验证"| OUT6["结构 / 材料"]

Tegmark 谱系: AI Feynman(单公式)→ AI Physicist(理论中枢)→ 概念上邻近 AI-Newton(形式化知识库),尽管后者在北大独立发展。

DeepMind 谱系: AlphaTensor → AlphaDev → FunSearch → AlphaEvolve。同一套评估器驱动搜索 DNA;领域不同。

Cornelio 谱系: AI-Descartes → AI-Hilbert。数据 + 逻辑 + 优化。

Sakana 谱系: AI Scientist(论文)和 Darwin Gödel Machine(自修改代码)共享智能体编程栈,目标不同。


哪些线更有前景?

「前景」取决于你优化什么。没有单一赢家。

如果你关心未来几年内可验证的新知识

带评估器的程序进化(FunSearch → AlphaEvolve) 有最强的存在证明。Cap set 不是训练数据的复现。它被检验过。这个范式能泛化到任何你能写评分器的领域:组合数学、算法、内核优化、材料模拟的一部分。天花板由评估器质量决定,不由 LLM 文笔决定。

这条线不如「AI 重发现牛顿」上镜,但我会押注它在规模上产出可重复、可检验的发现

如果你关心最深层的「理解自然」

概念与知识库系统(AI Physicist → AI-Newton) 在结构上最接近物理学实际怎么运作:发明量、陈述通用原理、推导系统专用预测。如果它能扩展到经典力学玩具世界之外——乱数据、DSL 不能手设计的领域——这是产出教科书式知识的那条路。

风险是工程地狱:Maple 依赖、定制 DSL、时代控制启发式。回报是复利——每发现一条通用定律,下一个实验的搜索空间就缩小。AI-Newton 的渐进式推进(先简单概念再复杂)不是噱头;是控制组合爆炸的办法。

AI-Hilbert 式的带证明发现 在已有形式背景理论的子域很有前景——化学片段、控制论、任何可多项式化的东西。证明证书解决 LLM 智能体的一个真问题:自信地说错话。不如 AI-Newton 的野心通用,但在适用处更可信。

如果你关心对当下科研实践的社会影响

领域专用基础模型(AlphaFold 谱系、材料 GNoME、蛋白质与基因组 LM)已经在改变实验室怎么工作。它们不解决「自动化理论形成」,但解决科学家真正失眠的问题。

科研智能体(AI Scientist、Kosmos)作为研究劳动压缩很有前景——文献综合、分析代码、草稿写作——尤其在数据丰富的计算领域。我不会把它和理论发现混为一谈,也不会轻率否定。一次 12 小时的 Kosmos 运行帮团队省下六周探索性分析,经济上意义重大,哪怕它生成的每个假说都是错的。

什么看起来像平台期

纯符号回归(AI Feynman、PySR 单打)已经成熟。它会留作更大系统的组件——包括 AI-Newton 的定律发现步骤——但「SR 但更大」大概不是下一跳。动作移到了包裹 SR 的东西:概念库、评估器、智能体、证明。

PINN / HNN 对仿真仍然有用。它们不在走向自主理论形成的轨迹上。


我的综合判断

三条押注,直说。

押注 1(近期,认识论): 以评估器为地的程序搜索,是通往人类可验证、不必信任模型文字表述的结果最可靠的路。FunSearch 在数学里证明了。AlphaEvolve 往工程推。预期这个模式会先在材料、化学、算法设计里开花,早于产出新守恒律。

押注 2(中期,科学): AI-Newton 架构——概念、通用定律、似然扩展——是物理学式发现的正确形状,尽管当前实现还是概念验证。开放问题是扩展 DSL、处理真实噪声和真实实验、接入 LLM 而不牺牲可证伪性。混合体似乎很可能:LLM 提议概念候选,符号机械验证并存储。

押注 3(实际影响): 改变日常实验室工作的科学,会继续来自领域专用模型和智能体工作流,而不是任何单一的「从零发现定律」系统。AlphaFold 对生物学的贡献超过任何一篇符号回归论文。Kosmos 式智能体可能对探索性分析做同样的事——如果产出始终拴在证据上。

不会押注的:端到端论文工厂取代人类判断「什么值得做实验」。研讨会接收是自动化的里程碑。不是科学方法的终点。

这个领域不是一场比赛。是好几场不同的比赛,终点不同,裁判不同。先选你在乎的产出类型,再选路线。其余是命名问题。


资料与延伸阅读