日前,国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》在线发表了百度在生物计算领域的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,论文提出“基于空间结构的化合物表征学习方法”,即“几何构象增强AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),将化合物的几何结构信息引入自监督学习和分子表示模型,对化合物进行“3D建模”,以预测化合物分子的性质属性。其在药物筛选上的应用,可在数小时内完成传统仿真方法1年的工作量,效率提升上千倍,有望大幅降低药物研发的时间投入和成本投入。该工作为百度在AI赋能药物研发领域的又一项重磅成果。
作为药物研发的关键一环,候选化合物的性质预测相当于为临床实验“排雷”,即提前筛选掉毒副作用高、人体吸收代谢不好等具有不良特性的化合物。这项任务以前只能通过传统仿真实验进行,成本高昂且耗时长。后来,研究人员引入深度学习技术,但传统的深度学习方法大多基于序列或者2D图结构建模,缺乏化合物三维空间结构信息的利用,这会丢失一部分空间信息,导致化合物性质预测结果的偏差。
实际上,化合物的性质和其三维空间结构密切相关,为了更好地预测化合物性质,亟需引入化合物的三维空间信息。百度此次提出的“基于空间结构的化合物表征学习方法”,即GEM模型,在这一点上实现了重大突破,在全球范围内开创性地将化合物性质预测从“2D建模”推进到“3D建模”。同时,引入AI领域迅速发展的预训练技术,利用大量无标注的化合物数据,通过自监督学习,构建GEM模型的底层能力,有望能成为小分子药物研发领域的模型底座,解决小分子药物活性预测,成药性预测,药物设计等核心问题,真正加速药物,特别是全新药物(First In Class)的发现过程。