自动化分子设计使用机器学习来加速药物开发

麻省理工学院的研究人员正朝着分子设计过程自动化的方向发展,这可以大大加快研究速度,并产生更好的结果。研究人员正在使用机器学习、神经网络、树分解和定制的变分自编码器。

通过Rob Matheson,麻省理工学院新闻办公室 2018年7月18日

为药物设计新分子主要是一个耗时的手工过程,容易出错。但麻省理工学院的研究人员现在已经朝着完全自动化的设计过程迈出了一步,这可以大大加快速度,并产生更好的结果。

药物发现依赖于先导优化。在这个过程中,化学家选择一个已知有潜力对抗特定疾病的目标(“先导”)分子,然后调整其化学性质以获得更高的效力和其他因素。

通常,化学家使用专业知识,手动调整分子,逐个增加和减少官能团(负责特定化学反应的原子和化学键)。即使他们使用预测最佳化学性质的系统,化学家仍然需要自己完成每个修饰步骤。这可能需要花费数小时进行每次迭代,并且可能仍然不能产生有效的候选药物。

麻省理工学院计算机科学与人工智能实验室(CSAIL)和电气工程与计算机科学系(EECS)的研究人员开发了一种模型,可以根据所需的性质更好地选择先导分子候选。它还修改了获得更高效力所需的分子结构,同时确保分子在化学上仍然有效。

该模型基本上将分子结构数据作为输入,并直接创建分子图——分子结构的详细表示,节点表示原子,边表示键。它将这些图形分解成更小的有效官能团簇,将其用作“构建模块”,帮助它更准确地重建和更好地修改分子。

“这背后的动机是用自动迭代取代低效的人类设计分子的修改过程,并确保我们生成的分子的有效性,”CSAIL的博士生金文功(Wengong Jin)说,他是一篇论文的主要作者,该论文描述了将于7月在2018年国际机器学习会议上发表的模型。

Barzilay说:“今天,这真的是一门手艺,需要很多熟练的化学家才能成功,这就是我们想要改进的地方。”“下一步是将这项技术从学术界应用到真实的药物设计案例中,并证明它可以帮助人类化学家完成他们的工作,这可能是具有挑战性的。”

Jaakkola说:“自动化过程也提出了新的机器学习挑战。”“学习关联、修改和生成分子图驱动了新的技术思想和方法。”

生成分子图

近年来,试图自动化分子设计的系统层出不穷,但它们的问题是有效性。Jin说,这些系统经常生成在化学规则下无效的分子,而且它们不能产生具有最佳性质的分子。这使得完全自动化的分子设计成为不可能。

这些系统运行在分子的线性符号上,称为“简化分子输入线输入系统”,或SMILES,其中长串的字母、数字和符号代表可以被计算机软件解释的单个原子或化学键。当系统修改一个先导分子时,它会逐个扩展它的字符串表示符号,直到生成一个具有更高期望属性的最终SMILES字符串。最后,系统可能会生成一个最终的SMILES字符串,该字符串在SMILES语法下看起来是有效的,但实际上是无效的。

研究人员通过建立一个直接运行在分子图上的模型来解决这个问题,而不是SMILES字符串,后者可以更有效和准确地修改。

为模型提供动力的是一个自定义变分自编码器,这是一个神经网络,它将输入分子“编码”为一个向量,这基本上是分子结构数据的存储空间,然后将该向量“解码”为与输入分子匹配的图形。

在编码阶段,模型将每个分子图分解成簇或“子图”,每个子图代表一个特定的构建块。这样的聚类是由一种常见的机器学习概念自动构建的,称为树分解,其中一个复杂的图被映射到一个树状结构的聚类-“这提供了原始图的支架,”Jin说。

支架树结构和分子图结构都被编码到它们自己的向量中,其中分子根据相似度分组。这使得寻找和修改分子变得更加容易。在解码阶段,模型以“从粗到细”的方式重建分子图——逐渐增加低分辨率图像的分辨率,以创建更精细的版本。它首先生成树形结构的支架,然后将相关的簇(树中的节点)组装在一起,形成一个连贯的分子图。这确保了重建的分子图是原始结构的精确复制。

对于先导优化,该模型可以根据所需的性质修改先导分子。它借助一种预测算法来实现这一点,该算法为每个分子打分,并给出该属性的效力值。例如,在这篇论文中,研究人员寻找了具有两种特性的分子——高溶解性和可合成性。

给定期望的性质,该模型通过使用预测算法通过编辑分子的官能团来修改其向量以获得更高的效力分数,从而优化先导分子。它重复此步骤进行多次迭代,直到找到最高的预测效力分数。然后,该模型通过编译所有对应的聚类,最终从更新后的向量中解码出一个结构经过修改的新分子。

有效且更有力

研究人员用来自ZINC数据库的25万张分子图来训练他们的模型,ZINC数据库是供公众使用的三维分子结构的集合。他们在任务中测试了该模型,以生成有效分子,找到最好的先导分子,并设计出具有更高效力的新分子。

在第一个测试中,研究人员的模型从样本分布中产生了100%的化学有效分子,而SMILES模型从相同的分布中产生了43%的有效分子。第二个测试包括两个任务。首先,该模型搜索了整个分子集合,以找到具有所需性能的最佳先导分子——溶解性和合成可达性。在这项任务中,该模型发现了一种比传统系统效力高30%的先导分子。第二项任务涉及修改800个分子以获得更高的效力,但这些分子在结构上与先导分子相似。在此过程中,该模型创造了与铅的结构非常相似的新分子,平均效率提高了80%以上。

研究人员下一步的目标是在溶解度以外的更多性质上测试模型,这些性质与治疗更相关。然而,这需要更多的数据。“制药公司对对抗生物靶标的特性更感兴趣,但他们在这方面的数据较少。一个挑战是开发一个可以使用有限数量的训练数据的模型,”Jin说。

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com