大型语言模型的新兴自主科研能力，自主设计、规划、执行科学实验-天气在线（北京）气象科技有限公司-人工智能AI短临预报-AI模式修订与评估-气象大数据-气象数据服务

大型语言模型的新兴自主科研能力，自主设计、规划、执行科学实验

2023-04-19 18:56:33 点击：

原创ScienceAIScienceAI

编辑|紫罗

最近，大型语言模型(LLM)，尤其是基于Transformer的模型在机器学习研究领域发展迅速。这些模型已成功应用于自然语言、代码生成、生物和化学研究等各个领域。

近日，来自卡内基梅隆大学的研究人员提出了一个Intelligent Agent（以下简称Agent）系统，结合了多个大型语言模型，用于自主设计、规划和执行科学实验。

研究人员通过三个不同的例子展示了Agent的科学研究能力。最后，讨论了此类系统的安全隐患，并提出了防止滥用的措施。

该研究以「Emergent autonomous scientific research capabilities of large language models」为题，于2023年4月11日发布在arXiv预印平台。

3 月份，OpenAI发布了迄今为止最强大的大语言模型GPT-4。GPT-4在SAT和BAR考试中得高分、通过LeetCode挑战、给一张图就能做对物理题，甚至可以讲笑话。此外，该技术报告还提供了如何使用该模型来解决化学相关问题的示例。

受此启发，卡内基梅隆大学研究人员旨在开发一种能够自主设计、规划和执行复杂科学实验的基于多LLM的Agent。

Agent 可以使用工具浏览互联网和相关文档，使用机器人实验API，并利用其他LLM完成各种任务。

研究人员通过评估Agent在三个任务中的性能来展示其的多功能性和有效性：

1. 高效搜索和浏览大量硬件文档；

2.在低液位精确控制液体处理仪器；

3. 解决需要同时使用多个硬件模块或集成不同数据源的复杂问题。

Agent架构

Agent 由多个交换信息的模块组成。有的还可以访问API、互联网和Python解释器。

Agent 的系统由四个组件组成，由「Planner」驱动。

实验可以在各种环境中进行——云实验室，使用液体处理器，或提供手动实验的说明。指示模型推理其操作，搜索互联网，计算反应中的所有量，然后执行相应的反应。Agent意识到，平均而言，至少需要十个步骤才能完全理解所请求的任务。如果提供的描述足够详细，则无需向提示提供者进一步澄清问题。

图1：系统架构概述。（来源：论文）

「网络搜索器」（Web searcher）组件接收来自Planner的查询，将它们转换为适当的网络搜索查询，并用Google搜索API执行它们。过滤返回的前十个文档，排除PDF，并将生成的网页列表传回网络搜索器组件。然后Web searcher可以使用「BROWSE」操作，从网页中提取文本并为Planner编译一个答案。对于这项任务，可以使用GPT-3.5，它的性能明显快于GPT-4，而且没有明显的质量损失。

「文档搜索器」（Docs searcher）组件通过查询和文档索引，来查找最相关的页面/部分，从而梳理硬件文档（例如，机器人液体处理器、GC-MS、云实验室）。然后汇总最佳匹配结果，生成最准确的答案。

「代码执行」（Code execution）组件不使用任何语言模型，只是在隔离的Docker容器中执行代码，保护终端主机免受Planner的任何意外操作。所有代码输出都被传回Planner，使其能够在出现软件错误时修复其预测。

这同样适用于「自动化」（Automation）组件，然后在相应的硬件上执行生成的代码，或者只是提供人工实验的合成过程。

Agent合成规划能力

为了证明系统的功能，以布洛芬的合成为例。输入提示很简单：「合成布洛芬。」然后该模型会在互联网上搜索有关布洛芬合成的信息，并在特定网站上找到必要的详细信息。该模型正确识别了合成的第一步，即异丁苯和乙酸酐在氯化铝催化下发生的Friedel-Crafts反应。

另外，Agent还合成了阿司匹林，模型可以有效地搜索和设计。

对于阿斯巴甜合成，尽管产品中缺少甲基，一旦模型收到合适的合成示例，可以在云实验室中执行，就可以进行更正。

此外，当被要求研究铃木反应时，该模型准确地识别了底物和产物。

图2：Agent在合成规划任务中的能力。（来源：论文）

通过API将模型连接到Reaxys或SciFinder等化学反应数据库，可以显著提高系统的性能。另外，分析系统之前的记录也是提高其准确性的另一种方法

矢量搜索可用于检索密集的硬件API文档

将能够进行复杂推理的Agent与现代软件集成，提供清晰简洁的相关技术文档介绍至关重要。然而，专业的技术语言文档软件给许多非专业的用户造成了障碍。

大型语言模型可以通过生成非专家更容易访问的软件文档的自然语言描述来克服这一障碍。这些模型的训练来源之一，就是和API相关的大量信息，比如Opentrons Python API。

但GPT-4的训练数据截至2021年9月。因此，需要提高Agent使用API的准确性。

为此，研究人员设计了一种方法来为Agent提供给定任务的必要文档。

图3：文档搜索概述。（来源：论文）

掌握自动化：自然语言控制的多仪器系统

获取文档使研究者能够为Agent在真实世界中进行实验提供足够的信息。

研究人员选择了一个文档齐全的Python API开源液体处理程序。

图4.：机器人液体处理器控制能力和与分析工具的集成。（A：代理配置概述；B-E：绘制几何图形；F：Agent使用UV-Vis数据解决颜色识别问题。）

从操作机器人的简单实验开始，将一组样本视为一个整体（在例子中，是整个微孔板）。使用自然语言的直截了当的提示，例如「用您选择的一种颜色为每隔一行涂上颜色」。当由机器人执行时，这些协议与请求的提示非常相似。

Agent 的第一个动作是准备原始溶液的小样本。然后它要求进行UV-Vis测量。完成后，Agent会获得一个文件名，其中包含一个NumPy数组，包含微孔板每个孔的光谱。Agent随后编写了Python代码来识别具有最大吸光度的波长，并使用此数据正确解决了问题。

Agent的化学实验设计和执行能力

先前的实验可能会受到来自预训练步骤的代理模块知识的影响。

在此，研究人员想通过结合来自互联网的数据、执行必要的计算并最终为液体处理器编写代码，来评估Agent设计实验的能力。

为了增加复杂性，要求Agent使用GPT-4训练数据收集截止后发布的heater-shaker模块。这些要求已合并到Agent的配置中。

问题设计为：为Agent提供配备有两个微孔板的液体处理器。一个（源板）包含多种试剂的储备溶液，包括苯乙炔和苯硼酸、multiple aryl halide coupling partners、两种催化剂、两种碱和溶解样品的溶剂。目标板安装在加热器-振动器模块上。

Agent 的目标是设计一个协议来执行Suzuki和Sonogashira反应。

图5：Agent设计和执行的交叉偶联Suzuki和Sonogashira反应实验。（来源：论文）

Agent 首先在互联网上搜索要求的反应、化学计量和条件的信息。它为相应的反应选择正确的偶联伙伴。在所有芳基卤化物中，选择溴苯进行Suzuki反应，选择碘苯进行Sonogashira反应。

当然，这种行为在每次运行中都会发生变化。这突出了该模型的潜在未来用例——多次执行实验以分析模型的推理并构建更大的图景。

该模型选择了Pd/NHC催化剂作为一种更高效、更现代的交叉偶联反应方法，并选择了三乙胺作为碱基。

然后Agent计算所有反应物所需的体积并编写协议。但是，它使用了不正确的加热器-振动器模块名称。注意到错误后，模型查阅了文档。然后使用该信息修改协议，协议成功运行。随后对反应混合物进行GC-MS分析表明两种反应均形成了目标产物。

防止滥用

Agent 可用于各种化合物合成、化学实验设计，在一定程度上有助于化学研究人员，但AI无疑也会合成一些有毒的物质，比如大麻、芥子气等，

像海洛因和芥子气这种耳熟能详的违禁品，AI也清楚得很。可问题是，这个系统目前只能检测出已有的化合物。而对于未知的化合物，该模型就不太可能识别出潜在的危险了。

图6：两用安全初步研究的结果。（来源：论文）

最后，研究人员呼吁，必须设置防护措施来防止大型语言模型被滥用。

「AI是把双刃剑，如何使用是关键」。

论文链接：https://arxiv.org/abs/2304.05332

上一篇：没有啦
下一篇：综述 | 用于天气预测的深度学习模型中的归纳偏置 2023/4/16