z&w · 2021年09月11日

【2021研电赛】基于深度学习的蛋白质与化合物结合性质预测

本作品介绍参与极术社区的有奖征集|分享研电赛作品扩大影响力,更有重磅电子产品免费领取!

EO38AP}7NUJ`3)9K2D@VG6U.png

获奖情况:三等奖

1.作品简介

针对药物发现过程中的药物筛选问题,本设计基于深度学习提出新的神经网络结构和数据处理方式用于预测蛋白质与化合物之间的结合性质。与其他预测方法相比,在数据编码方式上,我们对氨基酸的单独特征和氨基酸处于氨基酸序列中表现出的特征分别进行了建模,使用了多组可学习的特征嵌入对氨基酸进行编码,并使用类似注意力机制的方式从多组特征嵌入获得氨基酸序列的特征嵌入,在网络结构上,我们利用卷积网络、图卷积网络、transformer和多层感知机在处理不同类型数据时所拥有的优势,将不同类型的网络相结合从而充分发挥不同网络的各自优势,建模了蛋白质化学性质与其氨基酸序列的关系、化合物的化学性质与其分子三维空间结构之间的关系以及蛋白质与化合物之间的结合关系。

2.算法介绍

我们利用深度学习技术,训练神经网络完成对蛋白质和化合物的结合性质预测。所设计的神经网络整体结构如图2-1所示。整个神经网络可以被分为三个部分,分别为蛋白质特征提取模块、化合物特征提取模块以及预测模块。其中,蛋白质特征提取模块从氨基酸序列中提取蛋白质的化学性质,得到蛋白质的全局描述;化合物特征提取模块从化合物的图中提取化合物的化学性质,得到化合物的全局性描述;预测模块则根据蛋白质的全局描述和化合物的全局描述判断蛋白质与化合物是否能够相互结合。

3.作品创新

① 为了能够表达氨基酸自身特征以及氨基酸相互组合的特征,我们将蛋白质编码直接编码为可学习的query、key和value,通过类似自注意力(self-attention)的方式完成对具体蛋白质的编码。
② 为了适配化合物分子的图结构,我们使用图卷积网络从化合物中提取特征,并且在图卷积层之间增加残差连接以防止图卷积对图信号的过平滑效应。
③ 使用线性与双线性将结合的方式完成对蛋白质特征和化合物特征的整合。

4.算法流程图

NE${V}IZG%ULUGXA]EPPXXO.png
7RKQ0LE%9S9@X8GNXXTSJ92.png

5.未来展望

本设计基于深度学习提出了新的神经网络结构和数据处理方式用于预测蛋白质与化合物之间的结合性质。我们首先使用合适的方式对蛋白质和化合物进行编码,尽量在特征编码中反映出蛋白质和化合物的关键特点,然后针对拥有不同数据结构蛋白质特征和化合物特征,应用不同类型的神经网络对数据进行适配,以尽量从数据中提取关键信息,最后我们使用ROC曲线与AUC对最终模型的预测性能进行了评估。

我们的设计实现了预期功能,完成了以下目标:
① 对于蛋白质和化合物的编码方式能够成功应用于神经网络的训练,说明所提出的特征编码方式是有效的。
② 神经网络在经过训练后,在测试数据集中又有一定的泛化能力,说明我们所提出的多种类型结合的神经网络能够从蛋白质和化合物中提取关键特征并用于判断两者的结合性质。
我们的设计虽然达成了与其功能,但是仍存在一些缺点和有待进一步探究的问题:
① 我们设计的神经网络虽然具有一定的泛化性能,但是仍然有待提高,因为在实际应用过程中,蛋白质与化合物之间能够反映的几率很小,也就是正负样本比例非常低,因此如果需要将模型投入实际应用,需要模型对于正样本具有很强的识别能力。
② 虽然间接的证明了我们对蛋白质和化合物的编码方式以及数据处理方式是有效的,但是无法分析这些编码方式和处理方式奏效的原因,如果能够分析这些原因,就可以有根据的对神经网络进行改进,从而提高性能,增加实际应用价值。

更多研电赛作品请查看2021年研电赛获奖作品合集
推荐阅读
关注数
18749
内容数
129
基于Arm技术竞赛作品的分享,欢迎交流~
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息