AI 科学发现全景图

2025 年 11 月，Nature 发了一篇新闻报道 AI-Newton：北大团队做的系统，给定几十个经典力学实验的带噪声模拟数据，重新发现了质量、动能等概念，以及牛顿第二定律、能量守恒等定律。标题框架——AI 重发现物理学——大体准确。但它处在一个拥挤的领域里：同样的说法也被用在 AlphaFold、Sakana 的 AI Scientist、Google 的 AlphaEvolve，以及十几篇符号回归论文上。这些系统做的不是同一种工作。

这篇文章是一张地图。不是突破时间线，不是预测 AI 何时拿诺贝尔奖。问题更窄：当有人说 AI 在科学上「发现」了什么，它实际产出的是哪类对象——你怎么验证？

答案重要，因为不同路线的验证负担可以差一个数量级。通过组合学检验的 cap set 构造，和一篇关于 nanoGPT 变体的研讨会论文，不是同一种认识论对象；两者也都不同于从位置轨迹里重发现 (F = ma)。

你在尝试发现什么？

从产出类型出发，不从机构出发。

产出类型	人类可读？	可证伪？	例子
结构或性质预测	部分	实验验证	AlphaFold, GNoME
隐式动力学模型	否	难	PINN, Hamiltonian NN
单条显式方程	是	是	SINDy, PySR, AI Feynman
概念 + 通用定律	是	是	AI Physicist, AI-Newton
方程 + 形式证明	是	是	AI-Descartes, AI-Hilbert
程序或算法	读代码	跑评估器	FunSearch, AlphaEvolve
完整科研产物	是	同行评审	AI Scientist, Kosmos

公众讨论里大部分困惑，来自把表格第 3 行和第 7 行当成同一种成就。它们不是。

路线 1：符号回归——恢复公式

问题： 给定数据 ((x, y)) 或轨迹，找一条简短的数学表达式拟合。

谱系： Schmidt & Lipson 的「蒸馏自由形式自然定律」（2009）→ SINDy（固定函数库上的稀疏回归）→ AI Feynman（Udrescu & Tegmark，2020）→ 现代 PySR。

AI Feynman 是地标。它组合神经网络平滑、对称性与量纲分析、把复杂表达式递归分解成子问题、再对子问题做符号回归。以 Feynman 讲义公式为基准测试，恢复了 100 个方程。AI Feynman 2.0 加入模块化图结构，处理更乱的多变量情形。

它实际证明了什么： 数据足够干净、单个系统定义清楚时，可以在公式空间里高效搜索，恢复已知物理。这是真的。但也是 逐问题 的：一个数据集通常产出一条方程，不是可复用的理论库。

LLM-SR（2024）往同一方向推：LLM 以程序形式提议方程结构，数据反馈剪掉坏候选。产出类型相同，搜索先验更好。

局限： 没有概念层（系统不会发明「质量」这种抽象量）。没有跨实验知识库。变量、噪声或系统复杂度一上来，搜索就爆炸。

路线 2：结构化神经网络——把物理烘焙进架构

PINN（Karniadakis 等，Nature Reviews Physics 2021）在 loss 里惩罚 PDE 残差。哈密顿和拉格朗日神经网络（Greydanus 等，2019；Cranmer 等，2020）学 (H(q,p)) 或 (L(q,\dot{q}))，从结构导出动力学。

它们实际证明了什么： 如果你已经知道支配物理规律的形式（某类 PDE、哈密顿结构），神经网络比普通 MLP 拟合轨迹更省样本，外推也稍好。

它们不是什么： 定律发现。物理形式你得事先知道。产出通常是高维函数，不是黑板上写的 (E = \frac{1}{2}mv^2 + \frac{1}{2}kx^2)。

这些是仿真和反演的工程工具。重要，但是和 AI-Newton 不同的问题。

路线 3：概念与知识库——把多组实验压缩成定律

AI-Newton 在这条线上，有直接前身。

AI Physicist（Wu & Tegmark，arXiv:1810.10525，2019）提出「理论中枢」：划分环境、学专用理论、统一它们、把复杂拟合压缩成简单符号公式。在混合引力、电磁、碰撞的 2D 玩具物理世界上工作。

AI-Newton（Fang 等，arXiv:2504.01538，2025）把野心放大。Rust 写的 物理 DSL 编码概念和定律。Python 工作流每轮四步：选实验和概念（带推荐引擎）、通过符号回归和 似然推理 发现定律（数据要求时在已有通用定律上加新项）、微分代数化简、把成功的特定定律升格为通用定律写入知识库。输入可观测量是球的位置这类东西——没有质量、能量、力的标签。

在 46 个经典力学实验（加噪声）上，系统恢复大约 90 个概念、50 条通用定律，包括能量守恒和牛顿第二定律。

它实际证明了什么： 符号回归的瓶颈不只是搜索——是表征。人类物理学家不是孤立地拟合每个实验。他们建立概念、推导通用定律、再把定律用到新系统。AI-Newton 是我见过的第一个把这种架构显式编码、并在非平凡实验套件上跑通的系统。

诚实的局限： 只有经典力学。模拟数据。管线部分依赖商业软件 Maple。还没有向量微积分。「无先验物理知识」指的是没有标注的质量或能量——不是零归纳偏置（DSL 仍然编码了什么叫合法表达式）。这些是概念验证阶段的约束，不是反驳，但限制了标题能外推多远。

路线 4：数据 + 背景理论——带证明的发现

AI-Descartes（Cornelio 等，Nature Communications 2023）把实验数据和背景知识结合起来发现定律。

AI-Hilbert（Cory-Wright 等，Nature Communications 2024）更进一步：给定多项式公理和带噪声数据，用混合整数和半定规划搜索新多项式定律，并产出 Positivstellensatz 证书——与背景理论一致性的机器可检验证明。

和 AI-Newton 的对比： AI-Newton 试图从原始可观测量里长出概念。AI-Hilbert 和 AI-Descartes 假设你已有形式化理论体，问什么新定律同时与理论和数据一致。没那么浪漫，往往更严格。证明证书是纯 LLM 管线很难伪造的东西。

局限： 多项式设定。你得有值得用的公理。扩展到乱糟糟的真实实验还是开放问题。

路线 5：程序进化——用评估器搜索代码空间

DeepMind 这条线的顺序很有说明性：

AlphaTensor（2022）：矩阵乘法算法
AlphaDev（2023）：CPU 汇编优化
FunSearch（Romera-Paredes 等，Nature 2024）：LLM 提议程序，评估器打分，基于岛屿种群的进化循环保留好的
AlphaEvolve（2025）：同一范式做到代码库规模，用 Gemini；4×4 矩阵乘 48 次标量乘法；数据中心调度收益

FunSearch 实际证明了什么： 这是我所知的、LLM 管线产出真正新科学知识的最清晰例子。FunSearch 找到了改进已知渐近界的 cap set 构造——数学家独立验证过。LLM 不是以可检索的形式从训练数据里「知道」答案；评估器筛掉了数百万错误程序。

AlphaEvolve 加了什么： 整段程序，不是单个函数。基础设施和算法，不是物理定律。

硬条件： 快速、客观的 评估器。没有评估器，循环转不起来。这和软件工程是同一个结构事实：生成便宜，验证是瓶颈（我在劳动经济学那篇里写过）。这里对科学是关键的，不只是对经济。

FunSearch 部分开源。AlphaEvolve 的智能体没有；OpenEvolve 是社区对范式的复现。

路线 6：端到端科研智能体——自动化论文，不一定是洞见

AI Scientist（Lu 等，arXiv:2408.06292；Nature 2026）跑 ML 研究闭环：想研究点子、搜文献、写实验代码、分析、写 LaTeX、自动审稿。AI Scientist-v2（arXiv:2504.08066）去掉人类模板，用智能体树搜索，产出了第一篇完全由 AI 撰写、通过 ICLR 研讨会同行评审的论文。

Kosmos（Edison Scientific，2025）是另一回事：闭源、商业、面向生物和化学。典型一次运行大约 12 小时，读约 1,500 篇论文，写数万行分析代码，输出带引用的研究报告。

它们实际证明了什么： 科研工作流的自主执行——尤其在计算机模拟 ML 里实验就是便宜脚本的地方。这是劳动自动化结果。本身不意味着系统发现了新的自然定律。研讨会接收是流程质量的有意义门槛。但不是「经独立实验验证的新物理原理」那种门槛。

范式是 LLM 编排：读、写代码、写文。AI-Newton 的范式是符号知识累积。拿「谁发现了更多科学」来比，是范畴错误。

路线 7：领域专用预测——最大真实影响已经在这里

AlphaFold（Jumper 等，Nature 2021）预测蛋白质结构。GNoME（Google DeepMind，Nature 2023）搜索稳定晶体，标出数十万种候选，其中数百种后来在实验室合成。

这些系统不产出 (F = ma)。它们产出实验者可测试的结构或材料候选。对很多领域，进步长这样——不是重发现教科书方程，而是收窄原本不可行的搜索空间。

认识论对象是带实验跟进路径的预测，不是定律。

各条路线如何关联

flowchart LR
  DATA["数据 / 基准测试 / 文献"]
  DATA --> SR["符号回归<br/>AI Feynman, PySR"]
  DATA --> KB["概念知识库<br/>AI-Newton"]
  DATA --> PROOF["理论 + 证明<br/>AI-Hilbert"]
  DATA --> CODE["程序搜索<br/>FunSearch → AlphaEvolve"]
  DATA --> AGENT["科研智能体<br/>AI Scientist, Kosmos"]
  DATA --> DOMAIN["领域模型<br/>AlphaFold, GNoME"]

  SR -->|"单条方程"| OUT1["可读公式"]
  KB -->|"通用 → 具体"| OUT2["定律库"]
  PROOF -->|"证书"| OUT3["可证明公式"]
  CODE -->|"通过评估器"| OUT4["算法 / 构造"]
  AGENT -->|"同行评审"| OUT5["论文 / 报告"]
  DOMAIN -->|"实验验证"| OUT6["结构 / 材料"]

Tegmark 谱系： AI Feynman（单公式）→ AI Physicist（理论中枢）→ 概念上邻近 AI-Newton（形式化知识库），尽管后者在北大独立发展。

DeepMind 谱系： AlphaTensor → AlphaDev → FunSearch → AlphaEvolve。同一套评估器驱动搜索 DNA；领域不同。

Cornelio 谱系： AI-Descartes → AI-Hilbert。数据 + 逻辑 + 优化。

Sakana 谱系： AI Scientist（论文）和 Darwin Gödel Machine（自修改代码）共享智能体编程栈，目标不同。

哪些线更有前景？

「前景」取决于你优化什么。没有单一赢家。

如果你关心未来几年内可验证的新知识

带评估器的程序进化（FunSearch → AlphaEvolve） 有最强的存在证明。Cap set 不是训练数据的复现。它被检验过。这个范式能泛化到任何你能写评分器的领域：组合数学、算法、内核优化、材料模拟的一部分。天花板由评估器质量决定，不由 LLM 文笔决定。

这条线不如「AI 重发现牛顿」上镜，但我会押注它在规模上产出可重复、可检验的发现。

如果你关心最深层的「理解自然」

概念与知识库系统（AI Physicist → AI-Newton） 在结构上最接近物理学实际怎么运作：发明量、陈述通用原理、推导系统专用预测。如果它能扩展到经典力学玩具世界之外——乱数据、DSL 不能手设计的领域——这是产出教科书式知识的那条路。

风险是工程地狱：Maple 依赖、定制 DSL、时代控制启发式。回报是复利——每发现一条通用定律，下一个实验的搜索空间就缩小。AI-Newton 的渐进式推进（先简单概念再复杂）不是噱头；是控制组合爆炸的办法。

AI-Hilbert 式的带证明发现 在已有形式背景理论的子域很有前景——化学片段、控制论、任何可多项式化的东西。证明证书解决 LLM 智能体的一个真问题：自信地说错话。不如 AI-Newton 的野心通用，但在适用处更可信。

如果你关心对当下科研实践的社会影响

领域专用基础模型（AlphaFold 谱系、材料 GNoME、蛋白质与基因组 LM）已经在改变实验室怎么工作。它们不解决「自动化理论形成」，但解决科学家真正失眠的问题。

科研智能体（AI Scientist、Kosmos）作为研究劳动压缩很有前景——文献综合、分析代码、草稿写作——尤其在数据丰富的计算领域。我不会把它和理论发现混为一谈，也不会轻率否定。一次 12 小时的 Kosmos 运行帮团队省下六周探索性分析，经济上意义重大，哪怕它生成的每个假说都是错的。

什么看起来像平台期

纯符号回归（AI Feynman、PySR 单打）已经成熟。它会留作更大系统的组件——包括 AI-Newton 的定律发现步骤——但「SR 但更大」大概不是下一跳。动作移到了包裹 SR 的东西：概念库、评估器、智能体、证明。

PINN / HNN 对仿真仍然有用。它们不在走向自主理论形成的轨迹上。

我的综合判断

三条押注，直说。

押注 1（近期，认识论）： 以评估器为地的程序搜索，是通往人类可验证、不必信任模型文字表述的新结果最可靠的路。FunSearch 在数学里证明了。AlphaEvolve 往工程推。预期这个模式会先在材料、化学、算法设计里开花，早于产出新守恒律。

押注 2（中期，科学）： AI-Newton 架构——概念、通用定律、似然扩展——是物理学式发现的正确形状，尽管当前实现还是概念验证。开放问题是扩展 DSL、处理真实噪声和真实实验、接入 LLM 而不牺牲可证伪性。混合体似乎很可能：LLM 提议概念候选，符号机械验证并存储。

押注 3（实际影响）： 改变日常实验室工作的科学，会继续来自领域专用模型和智能体工作流，而不是任何单一的「从零发现定律」系统。AlphaFold 对生物学的贡献超过任何一篇符号回归论文。Kosmos 式智能体可能对探索性分析做同样的事——如果产出始终拴在证据上。

我不会押注的：端到端论文工厂取代人类判断「什么值得做实验」。研讨会接收是自动化的里程碑。不是科学方法的终点。

这个领域不是一场比赛。是好几场不同的比赛，终点不同，裁判不同。先选你在乎的产出类型，再选路线。其余是命名问题。

资料与延伸阅读

研究笔记：notes/AI_physics_discovery_methods_primer.md、notes/AI_Newton_2025_深度解读.md
本地 PDF 库：readings/ai_physics_discovery/（18 篇）
综述：Agentic Science survey (arXiv:2508.14111)；EXHYTE framework
关键论文：AI Feynman · AI-Newton · AI-Hilbert · FunSearch · AlphaEvolve · AI Scientist v2 · AI Scientist Nature 2026