2025 年 11 月,Nature 发了一篇新闻报道 AI-Newton:北大团队做的系统,给定几十个经典力学实验的带噪声模拟数据,重新发现了质量、动能等概念,以及牛顿第二定律、能量守恒等定律。标题框架——AI 重发现物理学——大体准确。但它处在一个拥挤的领域里:同样的说法也被用在 AlphaFold、Sakana 的 AI Scientist、Google 的 AlphaEvolve,以及十几篇符号回归论文上。这些系统做的不是同一种工作。
这篇文章是一张地图。不是突破时间线,不是预测 AI 何时拿诺贝尔奖。问题更窄:当有人说 AI 在科学上「发现」了什么,它实际产出的是哪类对象——你怎么验证?
答案重要,因为不同路线的验证负担可以差一个数量级。通过组合学检验的 cap set 构造,和一篇关于 nanoGPT 变体的研讨会论文,不是同一种认识论对象;两者也都不同于从位置轨迹里重发现 (F = ma)。
你在尝试发现什么?
从产出类型出发,不从机构出发。
| 产出类型 | 人类可读? | 可证伪? | 例子 |
|---|---|---|---|
| 结构或性质预测 | 部分 | 实验验证 | AlphaFold, GNoME |
| 隐式动力学模型 | 否 | 难 | PINN, Hamiltonian NN |
| 单条显式方程 | 是 | 是 | SINDy, PySR, AI Feynman |
| 概念 + 通用定律 | 是 | 是 | AI Physicist, AI-Newton |
| 方程 + 形式证明 | 是 | 是 | AI-Descartes, AI-Hilbert |
| 程序或算法 | 读代码 | 跑评估器 | FunSearch, AlphaEvolve |
| 完整科研产物 | 是 | 同行评审 | AI Scientist, Kosmos |
公众讨论里大部分困惑,来自把表格第 3 行和第 7 行当成同一种成就。它们不是。
路线 1:符号回归——恢复公式
问题: 给定数据 ((x, y)) 或轨迹,找一条简短的数学表达式拟合。
谱系: Schmidt & Lipson 的 「蒸馏自由形式自然定律」(2009)→ SINDy(固定函数库上的稀疏回归)→ AI Feynman(Udrescu & Tegmark,2020)→ 现代 PySR。
AI Feynman 是地标。它组合神经网络平滑、对称性与量纲分析、把复杂表达式递归分解成子问题、再对子问题做符号回归。以 Feynman 讲义公式为基准测试,恢复了 100 个方程。AI Feynman 2.0 加入模块化图结构,处理更乱的多变量情形。
它实际证明了什么: 数据足够干净、单个系统定义清楚时,可以在公式空间里高效搜索,恢复已知物理。这是真的。但也是 逐问题 的:一个数据集通常产出一条方程,不是可复用的理论库。
LLM-SR(2024)往同一方向推:LLM 以程序形式提议方程结构,数据反馈剪掉坏候选。产出类型相同,搜索先验更好。
局限: 没有概念层(系统不会发明「质量」这种抽象量)。没有跨实验知识库。变量、噪声或系统复杂度一上来,搜索就爆炸。
路线 2:结构化神经网络——把物理烘焙进架构
PINN(Karniadakis 等,Nature Reviews Physics 2021)在 loss 里惩罚 PDE 残差。哈密顿和拉格朗日神经网络(Greydanus 等,2019;Cranmer 等,2020)学 (H(q,p)) 或 (L(q,\dot{q})),从结构导出动力学。
它们实际证明了什么: 如果你已经知道支配物理规律的形式(某类 PDE、哈密顿结构),神经网络比普通 MLP 拟合轨迹更省样本,外推也稍好。
它们不是什么: 定律发现。物理形式你得事先知道。产出通常是高维函数,不是黑板上写的 (E = \frac{1}{2}mv^2 + \frac{1}{2}kx^2)。
这些是仿真和反演的工程工具。重要,但是和 AI-Newton 不同的问题。
路线 3:概念与知识库——把多组实验压缩成定律
AI-Newton 在这条线上,有直接前身。
AI Physicist(Wu & Tegmark,arXiv:1810.10525,2019)提出「理论中枢」:划分环境、学专用理论、统一它们、把复杂拟合压缩成简单符号公式。在混合引力、电磁、碰撞的 2D 玩具物理世界上工作。
AI-Newton(Fang 等,arXiv:2504.01538,2025)把野心放大。Rust 写的 物理 DSL 编码概念和定律。Python 工作流每轮四步:选实验和概念(带推荐引擎)、通过符号回归和 似然推理 发现定律(数据要求时在已有通用定律上加新项)、微分代数化简、把成功的特定定律升格为通用定律写入知识库。输入可观测量是球的位置这类东西——没有质量、能量、力的标签。
在 46 个经典力学实验(加噪声)上,系统恢复大约 90 个概念、50 条通用定律,包括能量守恒和牛顿第二定律。
它实际证明了什么: 符号回归的瓶颈不只是搜索——是表征。人类物理学家不是孤立地拟合每个实验。他们建立概念、推导通用定律、再把定律用到新系统。AI-Newton 是我见过的第一个把这种架构显式编码、并在非平凡实验套件上跑通的系统。
诚实的局限: 只有经典力学。模拟数据。管线部分依赖商业软件 Maple。还没有向量微积分。「无先验物理知识」指的是没有标注的质量或能量——不是零归纳偏置(DSL 仍然编码了什么叫合法表达式)。这些是概念验证阶段的约束,不是反驳,但限制了标题能外推多远。
路线 4:数据 + 背景理论——带证明的发现
AI-Descartes(Cornelio 等,Nature Communications 2023)把实验数据和背景知识结合起来发现定律。
AI-Hilbert(Cory-Wright 等,Nature Communications 2024)更进一步:给定多项式公理和带噪声数据,用混合整数和半定规划搜索新多项式定律,并产出 Positivstellensatz 证书——与背景理论一致性的机器可检验证明。
和 AI-Newton 的对比: AI-Newton 试图从原始可观测量里长出概念。AI-Hilbert 和 AI-Descartes 假设你已有形式化理论体,问什么新定律同时与理论和数据一致。没那么浪漫,往往更严格。证明证书是纯 LLM 管线很难伪造的东西。
局限: 多项式设定。你得有值得用的公理。扩展到乱糟糟的真实实验还是开放问题。
路线 5:程序进化——用评估器搜索代码空间
DeepMind 这条线的顺序很有说明性:
- AlphaTensor(2022):矩阵乘法算法
- AlphaDev(2023):CPU 汇编优化
- FunSearch(Romera-Paredes 等,Nature 2024):LLM 提议程序,评估器打分,基于岛屿种群的进化循环保留好的
- AlphaEvolve(2025):同一范式做到代码库规模,用 Gemini;4×4 矩阵乘 48 次标量乘法;数据中心调度收益
FunSearch 实际证明了什么: 这是我所知的、LLM 管线产出真正新科学知识的最清晰例子。FunSearch 找到了改进已知渐近界的 cap set 构造——数学家独立验证过。LLM 不是以可检索的形式从训练数据里「知道」答案;评估器筛掉了数百万错误程序。
AlphaEvolve 加了什么: 整段程序,不是单个函数。基础设施和算法,不是物理定律。
硬条件: 快速、客观的 评估器。没有评估器,循环转不起来。这和软件工程是同一个结构事实:生成便宜,验证是瓶颈(我在劳动经济学那篇里写过)。这里对科学是关键的,不只是对经济。
FunSearch 部分开源。AlphaEvolve 的智能体没有;OpenEvolve 是社区对范式的复现。
路线 6:端到端科研智能体——自动化论文,不一定是洞见
AI Scientist(Lu 等,arXiv:2408.06292;Nature 2026)跑 ML 研究闭环:想研究点子、搜文献、写实验代码、分析、写 LaTeX、自动审稿。AI Scientist-v2(arXiv:2504.08066)去掉人类模板,用智能体树搜索,产出了第一篇完全由 AI 撰写、通过 ICLR 研讨会同行评审的论文。
Kosmos(Edison Scientific,2025)是另一回事:闭源、商业、面向生物和化学。典型一次运行大约 12 小时,读约 1,500 篇论文,写数万行分析代码,输出带引用的研究报告。
它们实际证明了什么: 科研工作流的自主执行——尤其在计算机模拟 ML 里实验就是便宜脚本的地方。这是劳动自动化结果。本身不意味着系统发现了新的自然定律。研讨会接收是流程质量的有意义门槛。但不是「经独立实验验证的新物理原理」那种门槛。
范式是 LLM 编排:读、写代码、写文。AI-Newton 的范式是符号知识累积。拿「谁发现了更多科学」来比,是范畴错误。
路线 7:领域专用预测——最大真实影响已经在这里
AlphaFold(Jumper 等,Nature 2021)预测蛋白质结构。GNoME(Google DeepMind,Nature 2023)搜索稳定晶体,标出数十万种候选,其中数百种后来在实验室合成。
这些系统不产出 (F = ma)。它们产出实验者可测试的结构或材料候选。对很多领域,进步长这样——不是重发现教科书方程,而是收窄原本不可行的搜索空间。
认识论对象是带实验跟进路径的预测,不是定律。
各条路线如何关联
flowchart LR DATA["数据 / 基准测试 / 文献"] DATA --> SR["符号回归<br/>AI Feynman, PySR"] DATA --> KB["概念知识库<br/>AI-Newton"] DATA --> PROOF["理论 + 证明<br/>AI-Hilbert"] DATA --> CODE["程序搜索<br/>FunSearch → AlphaEvolve"] DATA --> AGENT["科研智能体<br/>AI Scientist, Kosmos"] DATA --> DOMAIN["领域模型<br/>AlphaFold, GNoME"] SR -->|"单条方程"| OUT1["可读公式"] KB -->|"通用 → 具体"| OUT2["定律库"] PROOF -->|"证书"| OUT3["可证明公式"] CODE -->|"通过评估器"| OUT4["算法 / 构造"] AGENT -->|"同行评审"| OUT5["论文 / 报告"] DOMAIN -->|"实验验证"| OUT6["结构 / 材料"]
Tegmark 谱系: AI Feynman(单公式)→ AI Physicist(理论中枢)→ 概念上邻近 AI-Newton(形式化知识库),尽管后者在北大独立发展。
DeepMind 谱系: AlphaTensor → AlphaDev → FunSearch → AlphaEvolve。同一套评估器驱动搜索 DNA;领域不同。
Cornelio 谱系: AI-Descartes → AI-Hilbert。数据 + 逻辑 + 优化。
Sakana 谱系: AI Scientist(论文)和 Darwin Gödel Machine(自修改代码)共享智能体编程栈,目标不同。
哪些线更有前景?
「前景」取决于你优化什么。没有单一赢家。
如果你关心未来几年内可验证的新知识
带评估器的程序进化(FunSearch → AlphaEvolve) 有最强的存在证明。Cap set 不是训练数据的复现。它被检验过。这个范式能泛化到任何你能写评分器的领域:组合数学、算法、内核优化、材料模拟的一部分。天花板由评估器质量决定,不由 LLM 文笔决定。
这条线不如「AI 重发现牛顿」上镜,但我会押注它在规模上产出可重复、可检验的发现。
如果你关心最深层的「理解自然」
概念与知识库系统(AI Physicist → AI-Newton) 在结构上最接近物理学实际怎么运作:发明量、陈述通用原理、推导系统专用预测。如果它能扩展到经典力学玩具世界之外——乱数据、DSL 不能手设计的领域——这是产出教科书式知识的那条路。
风险是工程地狱:Maple 依赖、定制 DSL、时代控制启发式。回报是复利——每发现一条通用定律,下一个实验的搜索空间就缩小。AI-Newton 的渐进式推进(先简单概念再复杂)不是噱头;是控制组合爆炸的办法。
AI-Hilbert 式的带证明发现 在已有形式背景理论的子域很有前景——化学片段、控制论、任何可多项式化的东西。证明证书解决 LLM 智能体的一个真问题:自信地说错话。不如 AI-Newton 的野心通用,但在适用处更可信。
如果你关心对当下科研实践的社会影响
领域专用基础模型(AlphaFold 谱系、材料 GNoME、蛋白质与基因组 LM)已经在改变实验室怎么工作。它们不解决「自动化理论形成」,但解决科学家真正失眠的问题。
科研智能体(AI Scientist、Kosmos)作为研究劳动压缩很有前景——文献综合、分析代码、草稿写作——尤其在数据丰富的计算领域。我不会把它和理论发现混为一谈,也不会轻率否定。一次 12 小时的 Kosmos 运行帮团队省下六周探索性分析,经济上意义重大,哪怕它生成的每个假说都是错的。
什么看起来像平台期
纯符号回归(AI Feynman、PySR 单打)已经成熟。它会留作更大系统的组件——包括 AI-Newton 的定律发现步骤——但「SR 但更大」大概不是下一跳。动作移到了包裹 SR 的东西:概念库、评估器、智能体、证明。
PINN / HNN 对仿真仍然有用。它们不在走向自主理论形成的轨迹上。
我的综合判断
三条押注,直说。
押注 1(近期,认识论): 以评估器为地的程序搜索,是通往人类可验证、不必信任模型文字表述的新结果最可靠的路。FunSearch 在数学里证明了。AlphaEvolve 往工程推。预期这个模式会先在材料、化学、算法设计里开花,早于产出新守恒律。
押注 2(中期,科学): AI-Newton 架构——概念、通用定律、似然扩展——是物理学式发现的正确形状,尽管当前实现还是概念验证。开放问题是扩展 DSL、处理真实噪声和真实实验、接入 LLM 而不牺牲可证伪性。混合体似乎很可能:LLM 提议概念候选,符号机械验证并存储。
押注 3(实际影响): 改变日常实验室工作的科学,会继续来自领域专用模型和智能体工作流,而不是任何单一的「从零发现定律」系统。AlphaFold 对生物学的贡献超过任何一篇符号回归论文。Kosmos 式智能体可能对探索性分析做同样的事——如果产出始终拴在证据上。
我不会押注的:端到端论文工厂取代人类判断「什么值得做实验」。研讨会接收是自动化的里程碑。不是科学方法的终点。
这个领域不是一场比赛。是好几场不同的比赛,终点不同,裁判不同。先选你在乎的产出类型,再选路线。其余是命名问题。
资料与延伸阅读
- 研究笔记:
notes/AI_physics_discovery_methods_primer.md、notes/AI_Newton_2025_深度解读.md - 本地 PDF 库:
readings/ai_physics_discovery/(18 篇) - 综述:Agentic Science survey (arXiv:2508.14111);EXHYTE framework
- 关键论文:AI Feynman · AI-Newton · AI-Hilbert · FunSearch · AlphaEvolve · AI Scientist v2 · AI Scientist Nature 2026