糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > 论文解读:基于归一化CNN和过采样方法的蛋白质-蛋白质相互作用位点预测

论文解读:基于归一化CNN和过采样方法的蛋白质-蛋白质相互作用位点预测

时间:2019-06-27 00:37:36

相关推荐

论文解读:基于归一化CNN和过采样方法的蛋白质-蛋白质相互作用位点预测

Title:Protein-Protein Interaction Sites Prediction Using Batch Normalization Based CNNs and Oversampling Method Borderline-SMOTE

期刊:IEEE/ACM TRANSACTIONS ON COMPUT A TIONAL BIOLOGY AND BIOINFORMA TICS

影像因子:3.702

出版日期:1月1号

摘要

蛋白质-蛋白质相互作用位点(protein-protein interaction sites, PPIs)的识别有助于蛋白质功能的解释和新药的开发。传统的鉴定PPI位点的生物实验成本高且效率低,导致产生了各种预测PPI的计算方法。然而,由于样本不平衡问题的存在,PPI位点的准确预测仍然是一个很大的挑战。在这项工作中,我们设计了一个结合卷积神经网络(cnn)和批归一化的新模型来预测PPI位点,并使用过采样技术Borderline-SMOTE来解决样本不平衡问题。特别地,为了更好地表征蛋白质链上的氨基酸残基,我们采用滑动窗口方法对目标残基及其上下文残基进行特征提取。我们通过将我们的方法与现有的最先进的方案进行比较来验证我们方法的有效性。我们的方法在三个公共数据集上的性能验证分别达到了88.6%,89.9%和86.7%,与现有方案相比,都显示出更高的准确性。此外,烧蚀实验结果表明,批归一化可以大大提高模型的泛化性和预测稳定性。

论文工作概括

我们总结了我们的主要成果和主要贡献如下。

•我们提出了一种将cnn与批量归一化相结合的新模型来预测PPI位点。据我们所知,这是第一个应用于PPIs预测问题的基于批量归一化的CNN模型。特别地,表1总结了我们的方法与现有PPIs预测方案之间的主要区别。

•我们采用滑动窗口方法对目标残基及其上下文残基进行特征提取,以更好地表征蛋白质链上的氨基酸残基。

•我们采用过采样技术BorderlineSMOTE来解决在典型的样本不平衡问题中平等对待每个少数样本的问题。我们使用这种过采样技术对界面数据进行过采样,因为它对边界样本更敏感。此外,我们使用一个训练数据集进行10倍交叉验证,使用两个验证数据集进行独立验证测试,我们的方法在三个公共数据集上的准确率分别为88.6%、89.9%和86.7%,与现有的PPIs预测方法相比,准确率都有所提高。

方法数据集

方法

这篇论文的流程图。

在现有的研究中,分离蛋白的PPI位点预测被视为一种二元分类任务,即预测单个蛋白质的残基是否是结合位点。在本节中,我们将介绍构建PPIs预测方法的过程。

数据集

2.1Datasets

介绍了了论文使用的公共蛋白质数据集。获得域数据集后对蛋白质链上的残基进行特征提取,

在本工作中,利用三个公共数据集Dset186、Dtestset72[15]和PDBtestset164[17]来验证不同预测方法的预测能力。其中,Dset186是一个训练数据集,由PDB数据库[33]中105个蛋白质复合物衍生的186个蛋白质链组成。这些蛋白质序列的序列同一性低于25%,用x射线晶体学在3.0˚a以下的分辨率进行了解析。Dtestset72和PDBtestset164是两个经过验证的数据集,分别由72和164个蛋白质链组成。前者来源于36个蛋白复合物,后者于6月- 11月在PDB中收集。

所有三个数据集都经过了六步严格的清洗程序,使蛋白质序列无冗余,序列同一性低于25%。交互站点的定义与以往的研究相同,如[15],[17],[22]。具体来说,如果一个残基在蛋白质结合前后的绝对溶剂可及性低于1˚A2,则该残基被认为是相互作用位点;否则,它将被视为一个非交互站点。

基于这样的定义,非界面样品的比例可以通过蛋白质分析工具PSAIA[34]来计算。因此,在Dset186、Dtestset72和PDBtestset164中,非界面样本分别占84.77%(30702/35219)、89.40%(16217/18140)和81.90%(27585/33681)。不难看出,这三个数据集中都存在样本不平衡现象。

2.2 特征提取

特征选择是设计预测模型预测PPI位点的重要步骤。近几十年来,位置特异性评分矩阵(position-specific scoring matrix, PSSM)被广泛应用于预测蛋白质结合倾向[35]。事实上,最近的一些研究表明,PSSM中包含的生物学信息有利于PPIs的预测[36]。本文的特征提取包括两个部分。首先,我们使用PSSM特征来描述蛋白质链上的每个残基。其次,采用滑动窗口方法将相邻多个残基的PSSM特征组合为目标残基的输入特征;

具体来说,给定一个查询蛋白序列,将e值设为0.001,迭代次数设为3.1,执行PSI-BLAST算法后得到PSSM。PSI-BLAST程序[37]来源于NCBI网站。PSSM的尺度为S×20, S为查询蛋白的大小。每一行PSSM表示20个氨基酸出现在该残基位置的频率,其值通常在±7范围内。我们设置一个L (L = 2n + 1)的滑动窗口,分别得到目标残差上方和下方的n个残差的特征。因此,对于每个目标残基,生成一个具有L×20维度的最终特征向量来预测PPI位点。滑动窗口的实际尺寸可以通过比较我们的模型在不同滑动窗口长度下的性能得到,如章节3.1所示。

2.3 Borderline-SMOTE(用于处理样本不平衡的问题)

如前所述,在数据集中,界面样本和非界面样本的比例差异很大。在这项工作中,我们使用Borderline-SMOTE[38]来处理样本不平衡问题,使得预测倾向于非界面样本。采用Borderline-SMOTE抽样后,界面抽样数与非界面抽样数相等。2具体来说,对于界面样本集中的每个样本,Borderline-SMOTE方法的第一步是找到它的M个最近邻,其中非界面样本的个数用M 0表示(0≤M 0≤M),然后将所有的界面样本分为三组:1)安全:如果0≤M 0≤M/2;2)危险:M/2≤M 0≤M;3)噪声:如果M 0 = M,最后,只对表示为“Danger”的样本进行过采样,步骤如下:1)对于样本 集“Danger”中的每个样本xi,计算它与其他样本之间的欧氏距离,得到它的K个最近邻,用xi(n), n∈{1,···,K}表示;2)采样放大倍数

为N,由各数据集的样本不平衡率决定;3)利用随机选取的样本xi(nn)和0到1的随机数构造新样本xi(new),公式如下:xi(new) = xi + rand(0,1) × (xi(nn)−xi)。(1)将上述公式计算N次,可得到N个新样本xi(new),其中new∈{1,···,N}。

2.4 Batch Normalization

节介绍了批处理归一化,这是一种在我们的模型中用于标准化网络内部表示的方法。

批归一化[32]最早由谷歌在开发,并成功用于加速神经网络的训练。假设如下场景:x代表输入,g(x)代表激活函数。特别地,我们考虑具有sigmoid激活函数的层,即g(x) = 1 1+e−x。我们可以看到,当|x|变大时,g(x)的导数趋于零,这意味着g(x)的梯度变得非常小。

事实上,使用不同的激活函数会产生不同程度的这种现象。这就是所谓的梯度消失问题。梯度的消失会大大降低神经网络的训练效率,特别是当网络结构非常深的时候。在这种情况下,可以利用批归一化来稳定小批训练样本上的输入分布,以防止上述问题。我们展示了批处理归一化的四步计算如下。

2.5 Model Architecture

在介绍了之前的数据采集、特征提取和数据过采样过程后,我们得到了平衡的数据集,用于训练和评估cnn模型。通常,利用cnn模型提取图像的特征。在我们的方案中,cnn的应用是通过将一维蛋白质序列的窗口作为二维图像来实现的。因此,我们模型的输入可以表示为m个矩阵,其中每个矩阵的大小为L×20,其中m为批大小,L(L = 2n + 1)表示滑动窗口的大小,n可以是任意正整数。与之前的研究一样,我们使用全零向量来填充那些左边或右边没有相邻残基的残基。图1展示了我们用于二元PPIs预测问题的基于批量归一化的cnn模型的结构。

3 RESULTS AND DISCUSSION

以往的研究表明,为PPIs预测设置过大或太小的滑动窗口是无效的[36]。为了得到最佳的滑动窗口大小,我们在Dset186上分析了不同滑动窗口长度(即7,9,11,13,15,17)下模型的预测结果。表3显示了不同滑动窗口长度下的性能比较。我们可以看到,当滑动窗口大小为17时,ACC指数达到最高。即滑动窗口越大,预测精度越高。原因是滑动窗口越大,从蛋白质序列中提取的信息就越多。

3.1 Results

3.2 采取不同取样方法对比

对于运用不同的方法处理不平衡问题,可以看出来就是本文的这个方法最好,不知道大家有没有什么好的方法。

3.3 与其他方法对比

此外,更大的数据集通常可以帮助训练一个更高的泛化深度学习模型。在之前的工作中,Li等[44]使用一个由9982个蛋白质序列组成的大型训练集,训练出了一个精确的深度集成模型DELPHI,用于ppi结合位点预测。为了探索大型数据集对模型训练的影响,我们使用了与DELPHI中相同的训练集来训练模型。然后,我们在DELPHI中使用的两个最新数据集(Dset448和Dset355)上评估模型的预测性能,以比较大型数据集和小型数据集训练之间的差异。

表7给出了不同方法对Dset448和Dset355的预测结果。我们有以下几点观察。当模型在大型数据集上训练时,其预测性能优于在相对较小的数据集上训练的模型,即Dset186。具体来说,在Dset448上,Acc、F1和MCC值分别提高了15.9%、14.8%和16.7%。在Dset355上,Acc、F1和MCC值分别提高了27.8%、25%和31.9%。这些结果表明,使用大型数据集可以为我们的模型训练带来积极的影响,并改善预测结果。在两个新的测试数据集上的优异性能进一步证明了我们的方案的有效性。

4 结论

近年来出现了许多预测PPI位点的计算方法。然而,大多数人没有考虑样本不平衡问题,这将对所构建模型的性能产生不利影响。在这项工作中,我们提出了一种将cnn和批归一化结合起来预测PPIs的新模型,并应用过采样技术Borderline-SMOTE来处理样本不平衡问题。与九个最先进的PPIs预测方案相比,在三个公共数据集上的验证实验结果证明了我们的方案的有效性。此外,我们方案的主要目标之一是减少样本不平衡的有害影响。因此,我们的方案并不局限于PPIs预测,可能会扩展到其他样本不平衡的生物信息学研究。还有一些现实问题需要解决。虽然我们的方案提高了PPIs预测的准确性,但由于PSI-BLAST获取序列特征的长时间运行,执行效率可以进一步提高。此外,我们认为,考虑更复杂的网络结构,我们的方案的预测结果可以进一步提高。在未来的工作中,我们计划考虑更高级的特征和更复杂的网络结构,以进一步提高PPIs的预测性能。

如果觉得《论文解读:基于归一化CNN和过采样方法的蛋白质-蛋白质相互作用位点预测》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。