IT思维

文章页右侧顶部广告

用于化学研究的 GPT-4:什么可以做,什么不可以做?

2023-10-19 10:40:53 0 人工智能 | , ,

公众号/ ScienceAI(ID:Philosophyai)

编辑 | 紫罗

GPT-4 在应对化学挑战方面表现出非凡的能力,但仍然存在明显的弱点。

东京工业大学的化学家 Kan Hatakeyama-Sato 表示:「它对化学有着显著的理解,这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」

最近,Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程:什么可以/不可以做?》(「Prompt engineering of GPT-4 for chemical research: what can/cannot be done?」)的综述文章,讨论了他们对 GPT-4 在化学研究中的潜力的探索。

研究评估了 GPT-4 在化学研究中的能力和局限性。尽管 GPT-4 表现出了非凡的能力,但显然输入数据的质量会显著影响其性能。研究人员探索了 GPT-4 在化学任务中的潜力,例如基础化学知识、化学信息学、数据分析、问题预测和提案能力。虽然语言模型在一定程度上优于传统方法(例如黑盒优化),但它与专用算法相比却表现不佳,这凸显了将它们组合使用的必要性。该论文分享了 GPT-4 的提示及其响应,为社区内的提示工程提供了资源,并最后讨论了使用大型语言模型进行化学研究的未来。

论文链接:https://doi.org/10.1080/27660400.2023.2260300

GPT-4 可以收集和分析大量信息,以寻找用户提出的挑战的解决方案。GPT-4 的一项进步是,除了文本之外,它还可以使用图像形式的信息。

尽管其开发者尚未公开用于训练 GPT-4 的具体数据集,但它显然已经学到了大量详细的化学知识。

为了分析其功能,研究人员为系统设置了一系列化学任务,重点关注有机化学。这些内容涵盖基础化学理论、分子数据的处理、预测化学品的性质、化学过程的结果以及提出新的化学过程。

研究结果各不相同,既揭示了优点,也揭示了显著的局限性。GPT-4 显示了对有机化学一般教科书水平知识的良好理解。然而,当设定的任务涉及专门内容或制造特定有机化合物的独特方法时,它就很弱。它在解释化学结构并将其转换为标准符号方面仅显示出部分效率。一项有趣的壮举是它能够准确预测未经专门训练的化合物的特性。

总体而言,它能够胜过一些现有的计算算法,但与其他算法相比却表现不佳。

研究人员通过介绍已知的研究来定位结果,同时阐明大型语言模型可以对化学研究做出哪些贡献以及它们仍然不能做什么。

图 1:GPT-4 用于化学研究的功能概述。(来源:论文)

GPT-4 「掌握」了哪些化学知识?

化合物知识

化学家向 GPT-4 聊天机器人提出的第一个问题是有关化合物的基础知识。

GPT-4 知道甲苯等常见化合物的确切物理性质值和化学性质。GPT-4 准确地解释了分子量、熔点、沸点、气味、化学稳定性和反应性等特性,「甲苯,也称为甲基苯或苯基甲烷,是一种化学式为 C7H8 的有机化合物。它是一种芳香烃,广泛用作工业原料和溶剂」。GPT-4 通过学习普通化学教科书和网站上的数据来获取这些知识。

图 2:询问甲苯的物理和化学性质。(来源:论文)

此外,它还了解教科书上没有涵盖的专业知识,例如 2,2,6,6-四甲基哌啶-1-氧化物(TEMPO)的氧化还原电位。

物理化学知识

在物理化学方面,GPT-4 拥有大学教科书级别的知识,例如理想气体定律和定义物质折射率的 Lorentz-Lorenz 方程。此外,它还理解研究生级别可以考虑的内容,例如 Vogel-Fulcher-Tammann (VFT) 方程。

但 GPT-4 不能完全阅读或理解化学领域的学术论文。

有机化学知识

GPT-4 可以理解一般有机化学教科书上写的内容。例如,它可以准确解释对乙酰氨基酚的合成路线。然而,GPT-4没有提供合成对乙酰氨基酚的实验程序。此外,GPT-4 也未能解决有机合成的应用问题。

图 3:GPT-4 建议的获得对乙酰氨基酚的反应方案。(来源:论文)

GPT-4 能够在多大程度上解决化学信息学相关的基础问题

化学信息学和材料信息学是从数据科学角度处理化学结构和性质之间相关性的学科。

人们对 GPT-4 在化学信息学领域的期望非常高。这是因为,尽管化学信息学到目前为止还无法充分处理语言数据,但化学领域和实际研究活动通常是通过语言来描述和处理的。

在此,研究人员验证了 GPT-4 能够在多大程度上解决化学信息学相关的基础问题。

以化合物名称和简化分子输入线输入系统(SMILES) 转换为例。

形式上,GPT-4 可以在两者之间可逆地转换。对于甲苯这种最简单的结构,GPT-4 可以将化合物名称正确转换为 SMILES。

图 4:GPT-4 将有机化合物名称双向转换为 SMILES。(来源:论文)

然而,它未能转化稍微复杂的结构,如对氯苯乙烯、TMP 和 4-氰基 TEMPO。在将 SMILES 转换为复合名称的任务中,在所有情况下都观察到失败。换句话说,GPT-4 只能在基础层面上转换 SMILES 和分子结构。对于此类精确且系统的任务,最好暂时使用在 ChemDraw 或专门的 LLM 等程序中实现的基于算法的转换工具作为补充工具。

大语言模型应用于化学研究的未来

「结果表明,GPT-4 可以解决化学研究中的广泛任务,从教科书级知识到解决未经训练的问题和优化多个变量,」Hatakeyama-Sato 说。「不可避免地,它的性能在很大程度上依赖于训练数据的质量和数量,并且其推理能力还有很大的改进空间。」

研究人员强调,他们的工作只是初步研究,未来的研究应该扩大试验范围,更深入地挖掘 GPT-4 在更多样化的研究场景中的表现。

他们还希望开发自己的专门针对化学的大型语言模型,并探索它们与现有技术的集成。

「与此同时,研究人员当然应该考虑将 GPT-4 应用于化学挑战,展望未来,在我们等待比 GPT-4 更先进的模型的同时,我们应该考虑将其有效地应用于化学研究,可能通过使用现有的专业技术创建混合模型。」Hatakeyama-Sato 总结道。

参考内容:https://phys.org/news/2023-10-gpt-artificial-intelligence-chemistry.html

IT思维

IT思维(itsiwei.com)是互联网首个定位在科技与电商“思维”韬略的平台,我们时刻关注互联网电商行业新动向; 诚邀行业资深从业者加入“思维客家族”!

发表留言

Return to Top ▲Return to Top ▲