距离“数字科学家”还有多远？从“死记硬背”到“逻辑博弈”

2026-03-10 10:31

在实验室的幽暗灯光下，科学家常年与实验数据和复杂的理论公式博弈。而如今，一个全新的“协作者”出现在了实验台上。大语言模型（LLMs）已经展示了书写论文、总结文献、甚至是构思复杂实验流程的惊人能力。然而，当一个AI系统提出一种新的催化剂分子，或是预测了一种全新的蛋白质结构时，我们如何确定它是真的通过“理解”科学......

距离“数字科学家”还有多远？从“死记硬背”到“逻辑博弈”

本文来自微信公众号：深究科学，编译：潘展，作者：深究科学

在实验室的幽暗灯光下，科学家常年与实验数据和复杂的理论公式博弈。而如今，一个全新的“协作者”出现在了实验台上。大语言模型（LLMs）已经展示了书写论文、总结文献、甚至是构思复杂实验流程的惊人能力。

然而，当一个AI系统提出一种新的催化剂分子，或是预测了一种全新的蛋白质结构时，我们如何确定它是真的通过“理解”科学原理得出的结论，还是仅仅在进行一场精密的统计游戏？

近日，《科学》杂志探讨了这一核心议题：我们究竟该如何衡量人工智能是否聪明到足以从事科学研究？

从“死记硬背”到“逻辑博弈”

在过去几年中，AI模型在各类学术基准测试中表现出了近乎狂飙的性能。无论是MMLU（大规模多任务语言理解）还是其他通用学科测试，AI的得分屡创新高。然而，这引发了研究界深层的担忧：这些测试是否正在失效？

前沿LLMs在流行基准和HLE上的性能，图源：HLE

AI模型在训练阶段几乎“阅读”了互联网上公开的所有科学论文、教科书和在线习题集，许多基准测试题本质上已经成为了模型的“考前背诵材料”。由于目前的AI模型在训练阶段几乎“阅读”了互联网上公开的所有科学论文、教科书和在线习题集，许多基准测试题本质上已经成为了模型的“考前背诵材料”。

当模型面对一道复杂的物理竞赛题时，它给出的正确答案可能并非基于对物理定律的深刻推演，而是基于海量训练数据中的相似模式匹配。也由此，这种“记忆力驱动的智能”在科学研究中是危险的，科学家将它称之为“数据污染”——科学的本质在于探索未知，而记忆只能复述已知。

为了甄别真正的科学智能，研究人员开始设计那些“无法通过互联网搜索找到答案”的极端考题。其中，生物、化学、物理领域的GPQA（研究生级别谷歌验证问答集）成为衡量这一能力的标杆。

各流行模型GPQA分数排行榜，图片来源Frontier

GPQA的独特之处在于其极高的门槛。即使是相关学科的专家，在拥有无限互联网访问权限的情况下，回答这些问题的正确率也仅在65%至70%之间。如果一个非相关领域的博士去参加测试，正确率往往会大幅跌落。

当新一代AI模型（如OpenAI o1系列）在GPQA-Diamond测试中取得超过80%的正确率时，科研界感受到了震动。

他们认为，这不再是简单的记忆检索，而是模型展现出了某种形式的“科学推演能力”——它能够处理多步骤的逻辑链条，在信息不足的情况下进行严谨的外推。

从“结果导向”转向“过程审计”

在科学发现中，结论的正确性固然重要，但推导过程的严谨性往往决定了研究的价值。最新的评估框架开始引入“过程监督”。

FrontierScience奥林匹克与科学研究上各模型准确率，图源：OpenAI

这不仅仅是检查AI最后的答案是否正确，而是要求模型展示其思维路径，如在评估一个AI是否具备合成复杂有机分子的能力时，评估者不再只看最终产量，而是逐一审查AI的每一步操作逻辑：它是否考虑了反应环境的温度与压力？是否识别并避开了可能发生的副反应？在实验失败时，它能否根据异常数据进行正确的归因分析？

这种方法有力地剔除了“逻辑幻觉”。许多模型在测试中能够写出优美的科研术语，但在严密的逻辑审查下，其推导链条往往存在致命的科学漏洞。

从“实战测试”到回归科学的本质

衡量AI性能的最终战场是真实的实验室。目前，最前沿的评估方式被称为“闭环自动化发现”。

在这种模式下，AI被直接连接到自动化的化学合成实验室或计算平台。研究人员只给出一个宏大的目标，如“寻找一种能更高效固碳的纳米材料”。AI必须在海量假设中筛选最优路线，指导机器人进行实验，并根据实验回传的实时数据，动态调整自己的假设。

当实验数据与初始理论冲突时，AI能否迅速识别出是模型偏差还是实验误差的反思能力，成为衡量其是否“聪明”的黄金标准。那些能够通过少量实验修正自身知识结构、进而逼近真理的AI，才被认为具备了真正的科学直觉。

然而，即便是最先进的AI，在科学领域的表现依然面临界限。我们衡量AI，并非为了证明它能取代科学家，而是为了确立一种全新的协作范式。

科学研究不仅需要逻辑推演，还需要那种打破范式的“直觉”。目前，AI擅长在既定的科学空间内进行海量的、高维度的搜索与优化，但在提出颠覆性的科学假说、或在模糊的交叉学科边缘进行原创性飞跃方面，人类科学家依然掌握着主导权。

我们距离创造出一个能够独立从事科学研究的“数字科学家”还有多远？《科学》这篇文章的结论或许可以给予我们启发：这取决于我们的评估体系演进得有多快。

当我们不再仅仅以“考试成绩”来衡量模型，而是以“逻辑严谨度”、“实验修正能力”和“跨学科泛化能力”为坐标系时，我们不仅在筛选更好的工具，更是在重新定义科学本身。

在这个人机共进的时代，衡量AI的过程，本质上也是人类在不断审视自身如何理解自然界的过程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science预印本

。

THE END

免责声明：本文版权归原作者所有；旨在传递信息，不代表鲸媒智集的观点和立场。

相关阅读

350位CEO：有关AI的三重真相和投资逻辑

分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO，针对有关于AI的支出（CapEx）等关键问题做了调研，得出了一份非常具备参考性，同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下：68%的CEO计划在2026年…

2025年12月19日 14:43
MIT仅录取2人，斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

早申放榜只是美本申请的开端，数据显示，ED录取率通常只有20%左右，有超过70%的申请者最终都是在RD阶段竞争。所以即使在早申里没有获得理想的结果，也不意味着申请就结束了。

2025年12月19日 14:37
AI时代最重要的技能

如果说这辈子最需要掌握的技能是啥，我觉得有俩：1、搜索能力；2、输出能力。这里说的“搜索”当然跟之前搜索引擎时代不太一样了，不过逻辑是相同的，都是从浩如烟海的网络信息里查找自己需要的。大家应该注意到了，自从大模型出现后，信…

2025年12月17日 16:37

栏目精选

深度

350位CEO：有关AI的三重真相和投资逻辑

分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO，针对有关于AI的支出（CapEx）等关键问题做了调研，得出了一份非常具备参考性，同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下：68%的CEO计划在2026年…

2025年12月19日 14:43 独特视角创新科技资讯商业评论

距离“数字科学家”还有多远？从“死记硬背”到“逻辑博弈”

距离“数字科学家”还有多远？从“死记硬背”到“逻辑博弈”

350位CEO：有关AI的三重真相和投资逻辑

MIT仅录取2人，斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

AI时代最重要的技能

栏目精选

350位CEO：有关AI的三重真相和投资逻辑