A new golden age of discovery Seizing the AI for Science opportunity
Authors: Conor Griffin | Don Wallace | Juan Mateos-Garcia | Hanna Schieve | Pushmeet Kohli
原文地址

Introduction
世界各地的实验室正在酝酿一场悄然的革命,科学家对人工智能的使用呈指数级增长。三分之一的博士后现在使用大型语言模型来帮助进行文献综述,编码和编辑。10月,AlphaFold 2系统的创造者Demis Hassabis和John Jumper因使用人工智能预测蛋白质结构而获得诺贝尔化学奖,与科学家大卫贝克一起设计新蛋白质。社会将很快开始更直接地感受到这些好处,在人工智能的帮助下设计的药物和材料目前正在开发中。
在这篇文章中,我们将介绍人工智能如何改变科学学科,从基因组学到计算机科学再到天气预报。一些科学家正在训练他们自己的人工智能模型,而另一些科学家正在微调现有的人工智能模型,或者使用这些模型的预测来加速他们的研究。科学家们正在使用人工智能作为一种科学工具来帮助解决重要的问题,例如设计与疾病靶点更紧密结合的蛋白质,但也在逐渐改变科学本身的实践方式。
科学家拥抱人工智能的背后越来越迫切。近几十年来,科学家们不断取得重大进展,从Covid-19疫苗到可再生能源。但是,要实现这些突破,并将其转化为下游应用,需要越来越多的研究人员。因此,尽管科学劳动力在过去半个世纪中显著增长,仅在美国就增长了7倍多,但我们预期的社会进步已经放缓。例如,世界许多地方生产力增长持续放缓,损害了公共服务的质量。实现2030年可持续发展目标的进展正在停滞,这些目标涵盖了健康,环境等方面的最大挑战。
特别是,今天希望取得突破的科学家越来越多地遇到与规模和复杂性有关的挑战,从他们需要掌握的不断增长的文献基础到他们想要进行的越来越复杂的实验。现代深度学习方法特别适合这些规模和复杂性挑战,可以压缩未来科学进步所需的时间。例如,在结构生物学中,确定蛋白质结构的单一X射线晶体学实验可能需要数年的工作,成本约为10万美元,具体取决于蛋白质。AlphaFold蛋白质结构数据库现在免费提供2亿个预测蛋白质结构的即时访问。
人工智能对科学的潜在好处并没有得到保证。很大一部分科学家已经使用基于法学硕士的工具来协助完成日常任务,例如编码和编辑,但使用以人工智能为中心的研究方法的科学家比例要低得多,尽管增长迅速。在匆忙使用人工智能的过程中,一些早期的科学用例产生了令人质疑的影响。政策制定者可以帮助加速人工智能的使用,并将其引导到影响力更大的领域。美国能源部、欧盟委员会、英国皇家学会和美国国家科学院等机构最近都认识到了人工智能对科学的重要性。但还没有一个国家制定全面的战略来实现这一目标。
我们希望我们的文章能够为这样的战略提供信息。它针对那些制定和影响科学政策和资助决定的人。我们首先确定了在科学中使用人工智能越来越迫切的5个机会,并研究了在这些领域取得突破所需的主要因素。然后,我们探讨了在科学中使用人工智能最常被引用的风险,例如科学创造力和可靠性,并认为人工智能最终可以在每个领域获得净收益。最后,我们提出了四个公共政策理念,以帮助迎来人工智能科学的新黄金时代。
在这篇文章中,我们从我们自己的AI for Science项目的专家以及外部专家的二十多次采访中汲取了见解。这篇文章自然反映了我们作为私营部门实验室的Vantage,但我们相信我们提出的案例与整个科学相关。我们希望读者能够通过分享他们对科学机会,成分,风险和政策想法最重要的人工智能的看法来做出回应。
目录
A. The opportunities
科学家的目标是理解,预测和影响自然和社会世界的运作方式,激发和满足好奇心,并解决社会面临的重要问题。技术和方法,如显微镜、X射线衍射和统计学,既是科学的产物,也是科学的推动者。在过去的世纪里,科学家们越来越多地依靠这些仪器来进行实验和推进理论。计算工具和大规模数据分析变得尤为重要,从希格斯玻色子的发现到人类基因组的绘制,一切都成为可能。从一个角度来看,科学家越来越多地使用人工智能是这一长期趋势的逻辑延伸。但它也可能预示着更深刻的东西–科学能力极限的不连续飞跃。
我们没有列出所有可能使用人工智能的领域,而是强调了我们认为必须使用人工智能的五个机会。这些机会适用于各个学科,并解决了与规模和复杂性相关的特定瓶颈,科学家在科学过程的不同阶段越来越多地面临这些瓶颈,从产生强大的新颖假设到与世界分享他们的工作。

1. Knowledge
Transform how scientists digest and communicate knowledge 改变科学家消化和交流知识的方式
为了做出新的发现,科学家需要掌握一个预先存在的知识体系,这个体系将继续呈指数级增长,并变得更加专业化。这种“知识负担”有助于解释为什么做出变革性发现的科学家年龄越来越大,跨学科,并且位于精英大学,以及为什么个人或小团队撰写的论文比例正在下降,尽管小团队通常更适合推进颠覆性科学思想。在分享他们的研究成果方面,已经有了一些受欢迎的创新,比如预印本服务器和代码库,但大多数科学家仍然在密集的、充满术语的、只有英文的论文中分享他们的发现。这可能会阻碍而不是激发对科学家工作的兴趣,包括政策制定者,企业和公众。
科学家们已经在使用LLM和基于LLM的早期科学助理来帮助应对这些挑战,例如通过综合文献中最相关的见解。在早期的演示中,我们的科学团队使用我们的Gemini LLM在一天之内从20万篇论文的最相关子集中找到,提取和填充特定数据。即将到来的创新,例如对更多科学数据的LLM进行微调,以及在长上下文窗口和引文使用方面的进步,将稳步提高这些能力。当我们在下面展开时,这些机会并非没有风险。但它们提供了一个窗口,从根本上重新思考某些科学任务,例如在一个科学家可以使用LLM来帮助批评它,为不同受众定制其影响,或将其转换为“交互式论文”或音频指南的世界中,“阅读”或“撰写”科学论文意味着什么。
2. Data
Generate, extract, and annotate large scientific datasets 生成、提取和注释大型科学数据集
尽管关于数据丰富时代的流行说法,但从土壤、深海和大气到非正规经济,大多数自然和社会世界长期缺乏科学数据。AI可以以不同的方式提供帮助。它可以使现有的数据收集更加准确,例如通过减少DNA测序、检测样本中的细胞类型或捕获动物声音时可能发生的噪音和错误。科学家还可以利用LLM不断增长的跨图像,视频和音频操作的能力,提取隐藏在科学出版物,档案和教学视频等不太明显的资源中的非结构化科学数据,并将其转换为结构化数据集。
人工智能还可以帮助科学家使用所需的支持信息来注释科学数据。例如,至少三分之一的微生物蛋白质没有可靠地注释它们被认为执行的功能的细节。2022年,我们的研究人员使用人工智能预测蛋白质的功能,在UniProt、Pfam和InterPro数据库中引入了新条目。
人工智能模型一旦得到验证,也可以作为合成科学数据的新来源。例如,我们的AlphaProteo蛋白质设计模型是在AlphaFold 2中超过1亿个AI生成的蛋白质结构上训练的,沿着来自蛋白质数据库的实验结构。这些人工智能机会可以补充并增加其他急需的科学数据生成工作的回报,例如数字化档案,或资助新的数据捕获技术和方法,例如单细胞基因组学正在进行的工作,以前所未有的细节创建强大的单个细胞数据集。
3. Experiments
Simulate, accelerate and inform complex experiments 模拟、加速复杂实验并为之提供信息
许多科学实验是昂贵、复杂和缓慢的。有些根本没有发生,因为研究人员无法获得他们所需要的设施、参与者或投入。核聚变就是一个很好的例子。它承诺提供一种几乎无限的、零排放的能源,并能够实现能源密集型创新的规模化,如海水淡化。为了实现核聚变,科学家需要创造和控制等离子体–物质的第四种基本状态。然而,所需设施的建造非常复杂。ITER的原型托卡马克反应堆于2013年开始建造,但等离子体实验最早要到21世纪30年代中期才能开始,尽管其他人希望在更短的时间内建造更小的反应堆。
人工智能可以帮助模拟聚变实验,并更有效地利用后续实验时间。一种方法是在物理系统的模拟上运行强化学习代理。在2019年至2021年期间,我们的研究人员与瑞士联邦理工学院洛桑合作,演示了如何在托卡马克反应堆的模拟中使用RL来控制等离子体的形状。这些方法可以扩展到其他实验设施,如粒子加速器,望远镜阵列或引力波探测器。
使用人工智能来模拟实验在不同学科之间看起来会有很大的不同,但一个共同点是,模拟通常会为物理实验提供信息和指导,而不是取代它们。例如,平均每个人的DNA中有超过9,000个错义变体或单字母替换。大多数这些遗传变异是良性的,但有些可能会破坏蛋白质执行的功能,导致罕见的遗传疾病,如囊性纤维化以及常见的疾病,如癌症。测试这些变体效果的物理实验通常仅限于单一蛋白质。我们的AlphaMissense模型将7100万个潜在的人类错误变体中的89%分类为可能有害或良性,使科学家能够将他们的物理实验集中在最有可能导致疾病的因素上。

4. Models
Model complex systems and how their components interact 对复杂系统及其组件如何交互进行建模
在1960年的一篇论文中,诺贝尔物理学奖得主尤金·维格纳(Eugene Wigner)对数学方程在模拟重要自然现象(如行星运动)时的“不合理有效性”进行了抨击。然而,在过去的半个世纪里,依赖于方程组或其他确定性假设的模型一直在努力捕捉生物学、经济学、天气学和其他领域系统的全部复杂性。这反映了构成这些系统的相互作用部分的绝对数量,以及它们的活力和潜在的紧急,随机或混乱行为。对这些系统进行建模的挑战阻碍了科学家预测或控制其行为的能力,包括在冲击或干预期间,如温度上升,新药或税收变化。
人工智能可以通过获取更多关于这些复杂系统的数据,并在这些数据中学习更强大的模式和知识,来更准确地对这些复杂系统进行建模。例如,现代天气预报是科学和工程的胜利。对于政府和工业界来说,它为从可再生能源规划到飓风和洪水的准备工作提供了一切信息。对于公众来说,天气是Google搜索中最受欢迎的非品牌查询。传统的数字预测方法基于仔细定义的物理方程,这些方程提供了对大气复杂动态的非常有用但不完美的近似。它们运行起来也是计算上昂贵的。2023年,我们发布了一个深度学习系统,可以提前10天预测天气状况,在准确性和预测速度上优于传统模型。随着我们在下面的扩展,使用人工智能来预测天气变量也有助于缓解和应对气候变化。例如,当飞行员飞过潮湿地区时,可能会导致冷凝尾迹,从而导致航空业的全球变暖影响。谷歌科学家最近使用人工智能来预测潮湿地区何时何地可能出现,以帮助飞行员避免飞越它们。
在许多情况下,人工智能将丰富复杂系统建模的传统方法,而不是取代它们。例如,基于代理的建模模拟个体参与者(如公司和消费者)之间的交互,以了解这些交互如何影响更大更复杂的系统,如经济。传统的方法要求科学家事先指定这些计算代理应该如何行为。我们的研究团队最近概述了科学家如何使用LLM来创建更灵活的生成代理,这些代理可以进行通信和采取行动,例如搜索信息或进行购买,同时还可以推理和记住这些行动。科学家们还可以使用强化学习来研究这些代理如何在更动态的模拟中学习和适应他们的行为,例如应对新能源价格或流行病应对政策的引入。
5. Solutions
Identify novel solutions to problems with large search spaces 为具有大搜索空间的问题确定新颖的解决方案
许多重要的科学问题都伴随着实际上难以理解的潜在解决方案。例如,生物学家和化学家的目标是确定分子(如蛋白质)的结构,特征和功能。这项工作的一个目标是帮助设计这些分子的新版本,作为抗体药物,塑料降解酶或新材料。然而,要设计一种小分子药物,科学家们面临着1060多种可能的选择。要设计一种含有400个标准氨基酸的蛋白质,他们面临20400种选择。这些大型搜索空间不仅限于分子,而且对于许多科学问题都很常见,例如找到数学问题的最佳证明,计算机科学任务的最有效算法或计算机芯片的最佳架构。
传统上,科学家依靠直觉、试错、迭代或蛮力计算的某种组合来找到最佳分子、证据或算法。然而,这些方法难以利用潜在解决方案的巨大空间,留下更好的未被发现。人工智能可以开辟这些搜索空间的新部分,同时也可以更快地找到最有可能可行和有用的解决方案-这是一种微妙的平衡行为。例如,在7月,我们的AlphaProof和AlphaGeometry 2系统正确地解决了精英高中竞赛国际数学奥林匹克的六个问题中的四个。该系统利用我们的Gemini LLM架构为给定的数学问题生成大量新颖的想法和潜在的解决方案,并将其与基于数学逻辑的系统相结合,这些系统可以迭代地朝着最有可能正确的候选解决方案工作。
AI scientists or AI-empowered scientists? 人工智能科学家还是人工智能授权的科学家?
人工智能在科学中的应用越来越多,早期人工智能科学助理的出现,引发了人们对人工智能能力发展的速度和程度以及这对人类科学家意味着什么的疑问。目前基于LLM的AI科学助理对相对狭窄的任务范围做出相对较小的贡献,例如支持文献综述。有一些合理的短期情景,他们在这些任务中变得更好,并且能够更有影响力,例如帮助产生强有力的假设,或帮助预测实验结果。然而,目前的系统仍然在与人类科学家完成这些任务所依赖的更深层次的创造力和推理作斗争。目前正在努力提高这些人工智能功能,例如将LLM与逻辑推理引擎相结合,就像我们的AlphaProof和AlphaGeometry 2示例一样,但还需要进一步的突破。加速或自动化实验的能力对于那些需要在湿实验室中进行复杂操作、与人类参与者互动或漫长过程(如监测疾病进展)的实验来说也将更加困难。尽管如此,其中一些领域的工作正在进行中,例如新型实验室机器人和自动化实验室。
即使人工智能系统的能力有所提高,最大的边际效益也将来自于将它们部署在发挥其相对优势的用例中-例如从大型数据集中快速提取信息的能力-并且有助于解决科学进步的真正瓶颈,例如上面概述的五个机会,而不是自动化人类科学家已经做得很好的任务。随着人工智能使科学变得更便宜、更强大,对科学和科学家的需求也将增长。例如,最近的突破已经在蛋白质设计、材料科学和天气预报等领域催生了一大批新的初创公司。与其他部门不同,尽管过去有相反的说法,但未来对科学的需求似乎几乎是无限的。新的进步总是在科学知识地图上开辟新的、不可预测的区域,人工智能也会这样做。正如赫伯特西蒙所设想的那样,人工智能系统也将成为科学研究的对象,科学家将在评估和解释他们的科学能力以及开发新型人类人工智能科学系统方面发挥主导作用。
B. The ingredients
我们对雄心勃勃的人工智能科学工作取得成功所需的要素感兴趣-无论是在个人研究工作层面还是在科学生态系统层面,决策者都有更多的空间来塑造它们。我们采访的专家经常引用我们组织成一个玩具模型的几种成分,我们称之为科学生产功能的人工智能。这个生产函数并不意味着是详尽的、规定性的或整齐的线性过程。这些成分对许多人来说是直观的,但我们的采访揭示了一些关于它们在实践中的样子的教训,我们在下面分享。


1020

被折叠的 条评论
为什么被折叠?



