ACT-SVM：基于支持载体基础模型的蛋白质 - 蛋白质相互作用预测 - 188bet体育t,188bet投注网站,188d博金宝官网

抽象的

蛋白质之间的相互作用在若干生物中起重要作用，并且这些问题可以参与细胞中的几乎所有活动。蛋白质 - 蛋白质相互作用（PPI）的研究可以对预防和治疗疾病产生巨大贡献。目前，已经提出了许多基于机器学习的预测方法来预测PPI。在本文中，我们提出了一种新的方法，可以有效地预测PPI的SVM。ACT-SVM模型将蛋白质序列映射到数字特征，在蛋白质序列上进行两次特征提取，以获得矢量A和描述符CT，并将它们组合成载体。然后，蛋白质对的特征向量被合并为支持向量机（SVM）分类器的输入。我们利用Nonredult.H. Pylori.和人类数据集以验证我们方法的预测性能。最后，所提出的方法具有0.727897的预测准确性H. Pylori.数据和人类数据集0.838799的数据和预测精度。结果表明，该方法可以称为PPI的稳定且可靠的预测模型。

1.介绍

蛋白质是生物水平上由20种氨基酸组成的所有生命的物质基础[1］．有几种具有不同性质和功能的蛋白质，其在各种生物物种的细胞和组织中起着枢转作用。它不仅是生物体的重要组成部分，而且它也参与并携带所有重要的生活活动。然而，大多数蛋白质通常不会单独执行其功能。相反，更常见的是，通过形成蛋白质复合物，两种或更多种蛋白质一起工作，最终构建了大的蛋白质 - 蛋白质相互作用网络[2-6.］．显然，PPI在细胞过程中发挥关键作用，并且涉及许多重要的生物学方法，例如免疫应答，材料转运和基因表达调节。因此，探索蛋白质之间的相互作用已成为研究蛋白质功能和机制的最重要的联系之一[7.-9.］．此外，PPI是病毒病原的主要分子机制，这使得它们成为疾病发现和治疗的重要研究对象之一。

研究PPI的重要性提出了预测和识别PPI的方法[10.-13］．近年来，一些高通量实验室生物技术已广泛用于PPI，如酵母双杂交（Sato等人; Schwikowski等; Coates Hall）[14-16]和CoimMunoprecipitation（自由等）[17］．然而，它们都有一些共同点或个性的缺陷。例如，一些方法无法克服更高比例的假阴性和误报，并且一些方法需要更多的样品材料来提取蛋白质，这令人惊讶地昂贵。同时，蛋白质系统发育曲线（Kim等人）等方法[18那19，自然语言处理(Daraselia等人)[20.，蛋白质三级结构(Aloy和Russell) [21也受到了研究人员的青睐。然而，如果没有已知的蛋白质相关生物学知识，这些方法很难实现，而且有些方法不能完全预测PPIs [22那23］．

此外，由于研究人员的不懈努力，发现可以基于蛋白质的氨基酸序列来预测PPI [24-27］．与此同时，机器学习已经被研究人员广泛应用。随后出现了大量基于蛋白质序列和机器学习算法的预测方法[13那28-32］．例如，Cui等人。[33]利用支持向量机分类器预测与病毒蛋白相互作用的人蛋白[34-37］．Dhole等人提出的l1 -log分类器可以有效预测PPIs，推进药物设计等相关研究。夏等人[38]提出了一种称为旋转林的基于序列的多批变系统，以推断PPI [39］．它们对方法的性能酿酒酵母和H. Pylori.数据集优于以前发表的文献方法。作为有效的机器学习方法，在PPI的预测中也使用深度学习（Du等人）[40］．

本文提出了一种基于支持向量机的PPIs预测模型ACT-SVM。采用两种不同的方法从蛋白质序列中提取特征，并将其重构为特征向量。首先，我们为数据集中的每个蛋白质序列提取一个A向量。之后，我们构建了组成(C)和转化(T)描述符来描述蛋白质序列。最后，我们利用它们的组合作为分类器的输入。一般采用曲线下面积(area under curve, AUC)、准确性(accuracy, Acc)、特异性(specificity, Sp)和马修相关系数(Matthew correlation coefficient, Mcc)来评价我们预测方法的性能。

我们还有5种不同的分类器，用于比较预测性能，包括K.随机森林(RF)、朴素贝叶斯(NB)和逻辑回归(LR)。我们利用幽门螺杆菌和人类数据集来评估我们的新预测因子。实验结果表明，基于支持向量机的新模型具有较好的性能。

2.方法和材料

在科学研究中，首先定义工作流程非常重要。我们的工作流程如图所示1．首先，我们获得了nonredunderH. Pylori.和人类的数据集。然后，通过构造A向量、合成变换(CT)将每个蛋白质序列映射到数字特征中，并将其组合成一个特征向量作为分类器的输入。接下来的过程是将提取的数字特征输入到不同的分类器中，训练不同的分类模型，分别进行5倍交叉验证、8倍交叉验证和10倍交叉验证。最后，在独立的测试数据集上，我们依次验证了6个训练模型。此外，我们利用AUC、Acc、Sp、Sn和MCC指标来评价我们的新预测银的性能，并将5种模型作为比较。

2.1。数据集

随着人们越来越关注PPI，用于研究PPI的数据库数量正在增加，例如BioGrid，Genemania和Dip。但是，这些现有数据库中的数据中存在不可避免的冗余。为了使我们的预测工具更有效，我们派生NonredultH. Pylori.以及Kong等人使用的人类PPIs数据集[41］．他们下载了这一点H. Pylori.和人类PPIs数据集，利用cd-hit工具构建这两个数据集的非冗余序列。在删除冗余后，H. Pylori.数据集包含相互作用蛋白1458对和非相互作用蛋白1457对，人类数据集包含相互作用蛋白3899对和非相互作用蛋白4262对。

2.2。序列特征向量

2.2.1。构建矢量

当构建载体时，我们指的是蛋白质的物理和化学性质。弥补蛋白质序列的20个氨基酸分为6级，如表中所示1．


类别	财产	氨基酸

C₁	脂肪族	A c i l m v
C₂	芳香	F，H，W，Y
C_3.	极地	n，q，s，t
C_4.	积极的	K，R.
C_5.	消极的	D，E.
C_6.	特别构象	G、P

通过这种方式，根据该类别，我们用相应的C序列中的序列中的每种氨基酸替换₁， C₂， …， C_6.．然后，我们可以获得简化的序列。我们利用F_一世描述简化序列中每个元素的发生频率（一世= 1, 2，…那6.) and finally get the A vector. The detailed definitions ofF_一世和矢量通过等式（1）和（2）。在哪里L.是蛋白质序列的长度，m_一世是数型吗一世蛋白质序列中的氨基酸，一世= 1, 2，…6。例如，如果有一个序列“MGPDDSKRYE”，则可以用C代替它₁， C_6.， C_6.， C_5.， C_5.， C_3.， C_4.， C_4.， C₂，和c_5.．我们可以看到有一个C₁，一个c.₂，一个c._3.，两个C._4.、3 C_5.和两个C._6.在简化的序列中。因此，= 1∗100%/10 = 10%，= 1∗100%/10 = 10%，= 1∗100%/10 = 10%， = 2 ∗ 100%/10 = 20%,= 3∗100%/10 = 30%，和 = 2 ∗ 100%/10 = 20%.

矢量可以构造为

然后，我们得到了6维的载体来描述蛋白质的特征。

2.2.2。稀疏矩阵和描述符

首先，我们建造一个20× N稀疏矩阵B，在哪里N是蛋白质序列中的氨基酸的数量。我们假设存在蛋白质序列与此同时，我们将20个氨基酸放入E.那E. = {A, V, L, I, M, C, F, W, Y, H, S, T, N, Q, K, R, D, E, G, P}. When the一世- e中的氨基酸与j-TH中的氨基酸，相应的元件在稀疏矩阵中需要1;否则，它需要0.以下蛋白质序列的稀疏基质如下：

接下来，我们将稀疏矩阵中的每个行向量中的每一个划分为P子空位。描述符由组合物（c）和转换（t）组成，它们是从每个子vector中提取的。其中，组合物（c）由两部分组成，包括随后的频率为0和1。转换（t）由三部分组成：子址中的01和10的数量，“11”的数量和“111”的数量。认为那蛋白质序列的第一个随后是“myahqaaa”。然后，稀疏矩阵中的第一行向量的第一子址是{0,0,1，0,0,1,1,11}。显然，有四个“0，”四“1，”两个“01，”一个“10，”两个“11，”和一个“111”。因此，组合物和转化（CT）的五个部分是4×100％/ 8 = 50％，4×100％/ 8 = 50％，3（2 + 1 = 3），2，以及因此，将蛋白质序列映射到400维（4×20 * 5 = 400）载体中。

2.2.3。重建特征向量

对于每个蛋白质序列，我们提取了两个特征向量，包括一个6维向量a和一个400维描述符。然后我们将它们组合成一个406维的向量作为蛋白质的特征向量。最后，将两个蛋白质的特征向量连接为一个812维的特征向量，描述它们之间的PPIs。

2．3．分类器构造

我们的模型基于SVM。作为线性分类器，SVM广泛用于分类问题。其学习策略是最大化间隔。最后，它可以找到一个几何超平面式，具有在特征空间中距离的最大距离来分割样本。SVM非常稳定和稀疏。样本空间中的分区超平面可以被描述为

其中，超平面的方向由ωB和B表示从原点到超平面的距离。如果过平片可以正确分类样品，则过平面的一侧是正样品，另一侧是负样品。假设样本空间中的样本是那那可以表达为

可以通过等式描述从样本空间中的任何点到超平面的距离（6.）：

到超平面的最接近的样本点称为支持向量。从正样品支持向量到超平面的距离和从负样品支持向量到超平面的距离称为间隔，可以表示为

支持向量机的最终目标是找到一个最大化间隔的超平面，因此可以将支持向量机描述为在哪里m是样品数量。公式（8.）和（9.）也可以重写为

通过连续实验，我们最终将SVM分类器的内核功能设置为线性内核功能。并结合我们所提出的特色提取方法法，它表现出卓越的预测性能H. Pylori.和人类数据集。

2.4。评估预测因子

为了验证我们提出的预测因子的可靠性和稳定性，我们使用6型模型进行培训H. Pylori.和人类数据集并执行5倍交叉验证，8倍交叉验证和10倍交叉验证[42］．在实际培训中，该模型通常更好地适合培训数据，但它并不特别适用于培训数据之外的新型数据。K.-fold交叉验证可以用来评价模型的泛化能力，从而选择更好的模型，防止模型过于复杂导致过拟合。k-fold交叉验证的基本思想是将数据集划分为K.零件成立的比例。然后，数据的每个部分都以测试数据集一起使用，而另一部分K.-1部分数据用作培训数据。K.- 对折叠进行交叉验证K.培训以确保K.部分数据已被测试数据;剩下的K.-1零件已被用作培训数据。所获得的K实验结果最终划分为模型的最终得分。为了K.- 折叠交叉验证，我们设置K.分别到5、8和10，以验证我们的模型的性能。

在本文中，我们采用了四个评估指标来评估我们所提出的方法的预测性能，包括精度（ACC），灵敏度（SN），特异性（SP）和Matthew相关系数（MCC）。其中，ACC反映了模型正确对阳性样品进行分类的能力;SN测量分类器识别正样品的能力;SP反映了模型识别负样品的能力;MCC返回-1和+1之间的值，该值是通常用于测量二进制分类模型性能的指示符。他们的定义如下：其中TP为正确划分为正样本的数，FP为错误划分为正样本的数，FN为错误划分为负样本的数，TN为正确划分为负样本的数。此外，我们仍然利用AUC值来评估我们所提出的模型的性能。AUC定义为ROC曲线下的面积。在许多情况下，ROC曲线并没有清楚地表明哪种分类器工作得更好。作为数值，对应的AUC值越大，分类器越好。因此，我们将AUC值作为模型的评价标准之一。

3.结果和讨论

3.1。模型稳定性分析

K.- 折叠交叉验证被广泛利用，以比较不同机器学习模型在特定数据集中的性能。k折交叉验证的原则是将数据集分成相等K.股票K.培训并终于占据平均值K.结果。但是，可能会有异常值K.- 时间结果，这意味着该分类器可能对所有样本的预测不具有良好的稳定性。我们利用H. Pylori.用人类数据集对6个模型进行训练，并分别进行5倍交叉验证、8倍交叉验证和10倍交叉验证来评估模型的性能。我们绘制箱线图来反映这两个数据集在6个分类器中的5倍交叉验证、8倍交叉验证和10倍交叉验证的稳定性。绘制了6个箱线图来描述两个数据集在6个分类器上的5倍、8倍和10倍交叉验证结果。其中箱线图的纵坐标为accuracy (Acc)，横坐标为6个分类器。也就是说，每个盒图有6个盒，每个盒中存储Acc值K.倍K.-fold交叉验证在分类器。的箱形图H. Pylori.在6个分类器上进行数据集，用于5倍交叉验证，8倍交叉验证和10倍交叉验证2（a），人类数据集的Boxplots在图中展示2（b）．

（一种）

(b)

在盒子中出现的空心点是异常值，盒子的尺寸反映了数据的色散程度，并且盒子的高度表示精度值。从图中的5倍交叉验证框图中2（a），我们可以看到，KNN、NB和SVM在5次训练中获得的5个Acc值都有异常值，而RF分类器的盒子太大，使得数据更加离散。ANN和LR分类器的box size相似，但是从box height可以看出ANN的准确率更高。因此,在H. Pylori.数据集，5倍交叉验证效果最好的模型是人工神经网络。虽然SVM分类器在8倍交叉验证中有一个离群点，但影响并不显著。由于离群值的偏移量很小，柜子尺寸小位置高，支持向量机的性能仍然是最好的。这样，我们可以从图中看出2反过来，在H. Pylori.DataSet，使用10倍交叉验证的最佳执行模型是SVM。在人类数据集上，最稳定的分类器，具有5倍交叉验证，8倍交叉验证和10倍交叉验证仍然是SVM。这可以证明，我们提出的基于SVM的预测器表现了最稳定的K.- 折扣交叉验证。

3．2．模特表演

为了验证我们提出的方法的可靠性，我们构建了5个传统分类器，用于比较，包括KNN，RF，ANN，LR和NB。我们利用H. Pylori.和人类数据集并选择8倍的交叉验证以评估我们构建的分类器。最后，我们利用了5个评估指标（AUC，ACC，SN，SP和MCC）来评估每个分类器的预测性能。实验结果表明，SVM分类器表现最佳，如表中所示2．


数据集	分类器	AUC	ACC.	MCC.	Sn	Sp

H. Pylori.	ann	0.7412	0.6738	0.3544	0.5780	0.7698
	支持向量机	0.8010	0.7279	0.4558	0.7238	0.7320.
	knn.	0.7746	0.7055.	0.4177	0.7942	0.6168
	射频	0.7815	0.7030	0.4104	0.6312	0.7749
	LR.	0.6969	0.6266	0.2602	0.5129	0.7406.
	NB.	0.6378	0.6043	0.2089	0.5780	0.6306

人类	ann	0.8819.	0.8008	0.6007	0.7883	0.8122
	支持向量机	0.8938	0.8388	0.6791	0.7774	0.8950.
	knn.	0.9165	0.8118	0.6444	0.6575	0.9531
	射频	0.8875	0.7849	0.5812	0.6511	0.9073
	LR.	0.8177	0.7505	0.5001	0.6915	0.8046.
	NB.	0.6089.	0.6105	0.2642	0.2527	0.9378

在表格中2SVM分类器的AUC，ACC和MCC值是六分类器中最高的，分别达到0.800963,0.727897和0.455814H. Pylori.数据集。KNN分类器具有最高的SN值0.794168，而RF分类器具有最高的SP值0.953052。虽然SVM分类器的SN和SP值不是最高值，但它们并不远低于最高值，分别为0.723842和0.731959。更重要的是，SVM分类器的SN和SP值是最接近的，这意味着它正确预测正和负样本的能力是类似的。在人类数据集中，SVM分类器的ACC值达到0.838799，MCC值也是六分类器中最高的。虽然AUC，SN和SP不是最高值，但它们接近最高值。如在H. Pylori.DataSet，SVM分类器具有识别正面和负样本的能力的最小差异。从这些数据来看，显然，与其他五个分类器相比，SVM分类器具有更高的精度，稳定性和更高的可靠性。因此，已经进一步验证了我们所提出的方法的卓越性能。

3.3。比较特征

对于分类问题，模型的性能由许多方面决定。其中一个重要的因素是选择特征提取方法的选择。特征提取可以将原始数据转换为能够更好地代表数据的功能，提高未知数据的预测精度，并直接影响模型的预测结果。如今，研究人员提出了许多特征的提取方法，这些方法致力于摘要从数据中抽象分类和识别的最有效功能。在本文中，我们将利用6种预设分类器来比较我们的特征提取方法与Kong等人提出的特征提取方法FCTP的作用。比较实验结果在表中证明3.．


数据集	分类器	方法	AUC	ACC.	MCC.	Sn	Sp

H. Pylori.	ann	FCTP	0.6772	0.6137	0.2337	0.5009	0.7268
	ann	行为	0.7412	0.6738	0.3544	0.5780	0.7698
	支持向量机	FCTP	0.7038	0.6549	0.3099	0.6535	0.6564
	支持向量机	行为	0.8010	0.7279	0.4558	0.7238	0.7320.
	knn.	FCTP	0.5747	0.5554	0.1148	0.6913	0.4192
	knn.	行为	0.7746	0.7056.	0.4176	0.7942	0.6168
	射频	FCTP	0.7553	0.6601	0.3372	0.5043	0.8162
	射频	行为	0.7815	0.7030	0.4104	0.6312	0.7749
	LR.	FCTP	0.6866	0.62578	0.2547	0.5489.	0.7027
	LR.	行为	0.6969	0.6266	0.2602	0.5129	0.7406.
	NB.	FCTP	0.5186	0.5013	0.0024	0.6072	0.3952
	NB.	行为	0.6378	0.6043	0.2089	0.5780	0.6306

人类	ann	FCTP	0.8980.	0.8275	0.6541.	0.8024.	0.8504
	ann	行为	0.8819.	0.8008	0.6007	0.7883	0.8122
	支持向量机	FCTP	0.8320.	0.7582	0.5150.	0.7274	0.7864
	支持向量机	行为	0.8938	0.8388	0.6791	0.7774	0.8950.
	knn.	FCTP	0.9373	0.8557	0.7181	0.7652	0.9384
	knn.	行为	0.9165	0.8118	0.6444	0.6575	0.9531
	射频	FCTP	0.8950.	0.8112	0.6247	0.7357	0.8803
	射频	行为	0.8875	0.7849	0.5812	0.6511	0.9073
	LR.	FCTP	0.8180	0.7444	0.4873	0.7146.	0.7717
	LR.	行为	0.8177	0.7505	0.5001	0.6915	0.8046.
	NB.	FCTP	0.6472	0.6414	0.3525	0.2822	0.9701.
	NB.	行为	0.6089.	0.6105	0.2642	0.2527	0.9378

实验结果表明，该方法具有良好的应用前景H. Pylori.DataSet，使用我们所提出的特征提取方法的六种分类器模型的五个评估指标优于使用FCTP的比目。在人类数据集中，由我们的方法构建的模型组合SVM和LR的模型比Kongs的方法更好。特别是，我们所提出的模型Act-SVM的ACC值与FCTP的模型高0.08。虽然在人类数据集FCTP上执行更好的ANN，KNN，RF和NB，但我们的方法还在各方面的指示器中表现出良好的性能。总的来说，FCTP在人类数据集上表现良好，但在H. Pylori.数据集。我们的特征提取方法在两个数据集上都表现出良好的预测性能，并且相对稳定。因此，进一步证明了我们提出的方法是一个可靠和稳定的PPIs预测模型。

4.结论

近年来，研究人员和深入研究识别PPI的问题。解决这个问题的几项努力出现了一个接一个。虽然机器学习方法广泛用于PPI的预测中，但仍然缺乏可准确和有效地进行预测的预测因子。我们所提出的模型Act-SVM可以有效地预测PPI。我们利用载体，组成和转变（CT）描述符的组合作为氨基酸序列的数字特征，并利用它们作为输入以训练SVM模型。我们通过使用5倍交叉验证，8倍交叉验证和10倍交叉验证构建多分类器来评估我们提出的方法的性能。通过这些评估，我们可以很容易地得出结论，我们提出的模型在大多数情况下具有更好的表现。我们的方法预测准确性H. Pylori.数据达到0.727897，人类数据集的预测精度达到0.838799。实验结果表明，我们基于SVM的建议模型可以有效地预测PPI。它具有良好的性能H. Pylori.和人类数据集，可用作支持生物医学和其他领域的研究工具。

数据可用性

用于支持本研究结果的数据可根据要求可从相应的作者获得。

的利益冲突

作者宣称没有利益冲突。

致谢

国家自然科学基金资助项目(no. 61902337, no. 61702445);教育部博士点基金资助项目(no. 61702445);基金资助:国家自然科学基金资助项目(20120072110040);江苏省高等学校自然科学基金资助项目(ZR2018LF005);基金资助:国家自然科学基金资助项目(9kjb520016);SBK2019040953)。

参考文献

S.Brohee和J.Van Hetten，“蛋白质 - 蛋白质互动网络的聚类算法评估”，BMC生物信息学，卷。7，不。1，p。488,2006。查看在：出版商的网站|谷歌学术
N. sugaya和K. ikeda，“评估通过监督机器学习方法的蛋白质 - 蛋白质相互作用的可用性，”BMC生物信息学，卷。10，没有。1，p。263,2009。查看在：出版商的网站|谷歌学术
J. Shen，J. Zhang，X. Luo等，“仅基于序列信息预测蛋白质 - 蛋白质相互作用”国家科学院的诉讼程序，卷。104，没有。11，PP。4337-4341,2007。查看在：出版商的网站|谷歌学术
张庆春，D. Petrey, L. Deng等，“全基因组范围内蛋白质相互作用的结构预测”，自然，卷。490，没有。7421，pp。556-560,2012。查看在：出版商的网站|谷歌学术
J.Wu，T.Vallenius，K.Ovaska，J.Wayermarck，T.P.Mäkelä，以及S. hautaniemi，“蛋白质 - 蛋白质相互作用的综合网络分析平台”自然方法，第6卷，第4卷。1, pp. 75-77, 2009。查看在：出版商的网站|谷歌学术
J. de Las Rivas和C.Fontanillo，“蛋白质 - 蛋白质相互作用必需品：建设和分析互联网网络的关键概念”PLO计算生物学，第6卷，第4卷。6，2010年物品ID e1000807。查看在：出版商的网站|谷歌学术
R. K.Barman，S. Saha和S. DAS，“使用监督机器学习方法预测病毒和宿主蛋白质之间的相互作用”《公共科学图书馆•综合》第9卷第2期。11、Article ID e112034, 2014。查看在：出版商的网站|谷歌学术
Z.-h.你，J.-Z.Yu，L.朱，李和Z. -K。Wen，“基于Mapreduce的平行SVM，用于大规模预测蛋白质 - 蛋白质相互作用”神经古脑，卷。145，pp。37-43,2014。查看在：出版商的网站|谷歌学术
S. Patel，“深度：深神经网络基蛋白质 - 蛋白质相互作用预测工具”目前的生物信息学，卷。12，pp。551-557,2017。查看在：出版商的网站|谷歌学术
G.-h.刘，H.-B.沉和d .-j.Yu，“预测基于机器 - 基于机器的数据清洁和过滤程序的蛋白质 - 蛋白质相互作用位点”膜生物学杂志，卷。249，pp.141-153,2016。查看在：出版商的网站|谷歌学术
P. Chatterjee，“PPI_SVM:利用机器学习、领域-领域亲和和频率表预测蛋白质-蛋白质相互作用，”细胞和分子生物学字母，卷。16，不。2，pp。264-278，2011。查看在：出版商的网站|谷歌学术
Z.-h.您，“用集合极限学习机和主成分分析将蛋白质 - 蛋白质与氨基酸序列的相互作用预测”，“BMC生物信息学，卷。2013年14日。查看在：出版商的网站|谷歌学术
L. Wei，P.Xing，J. Zeng，J.陈，R. Su和F. Guo，“使用新颖的阴性样本，特征和集合分类器改进了蛋白质 - 蛋白质相互作用的预测”医学中的人工智能，卷。83，pp。67-74,2017。查看在：出版商的网站|谷歌学术
T. Sato, M. Hanada, S. Bodrug等，“用酵母双杂交系统分析Bcl-2蛋白家族成员之间的相互作用”，国家科学院的诉讼程序，卷。91，没有。20，pp。9238-9242，1994。查看在：出版商的网站|谷歌学术
B.Schwikowski，P. Uetz和S. Fields，“酵母中的蛋白质蛋白质相互作用网络”自然生物技术，卷。18，不。12，pp。1257-1261,2000。查看在：出版商的网站|谷歌学术
P. Caate和P. Hall，“酵母双杂交系统鉴定蛋白质 - 蛋白质相互作用”病理学杂志，卷。199，没有。1，pp。4-7,2003。查看在：出版商的网站|谷歌学术
R. B. Free，L.A. Hazelwood和D. R.Sibley，“使用共免疫沉淀和质谱识别新型蛋白质 - 蛋白质相互作用”神经科学的当前方案第46卷，第2期。1, pp. 5-28, 2009。查看在：出版商的网站|谷歌学术
Y. Kim和S. Subramaniam，“局部定义的蛋白质系统发育图谱揭示了以前遗漏的蛋白质相互作用和功能关系，”蛋白质：结构，功能和生物信息学，第62卷，第2期。4，页1115-1124,2006。查看在：出版商的网站|谷歌学术
V.S.Rao等，“蛋白质 - 蛋白质相互作用检测：方法和分析，”国际蛋白质组学杂志，卷。2014年，第147648号，12页，2014年。查看在：出版商的网站|谷歌学术
N. Daraselia，A. Yuryev，S. Egorov，S. Novichkova，A. Nikitin和I. Mazo，“用全句解析器提取来自Medline的人蛋白质相互作用”生物信息学第20卷，没有。5, 604-611页，2004。查看在：出版商的网站|谷歌学术
P. Aloy和R. B. Russell，“解释:通过三级结构预测蛋白质相互作用，”生物信息学，卷。19，没有。1，pp。161-162,2003。查看在：出版商的网站|谷歌学术
Y.-a Huang等，“基于序列的蛋白质 - 蛋白质相互作用预测使用加权稀疏表示模型与全局编码相结合”BMC Bioinformatics17，卷。1，p。184年，2016年。查看在：谷歌学术
s. -w.张，L.。hao，和t.-h.张，“预测蛋白质 - 蛋白质与成对核支持向量机的相互作用”，国际分子科学杂志，第15卷，第2期。2，页3220-3233,2014。查看在：出版商的网站|谷歌学术
L. Liu，Y.Cai，W.Lu，K. Feng，C.Peng和B. NIU，“NIU”预测基于PSEAA组成和杂交特征选择的蛋白质 - 蛋白质相互作用“生物化学和生物物理研究通信，卷。380，没有。2，pp。318-322,2009。查看在：出版商的网站|谷歌学术
X. Li，B. Liao，Y. Shu，Queng和J. Luo，“使用全局编码氨基酸序列的蛋白质功能阶级预测”论理论生物学(第261卷第1期)2, 290-293页，2009。查看在：出版商的网站|谷歌学术
S. Martin，D. Roe和J.-L。Faulon，“使用签名产品预测蛋白质 - 蛋白质相互作用”生物信息学，卷。21，不。2，pp。218-226,2005。查看在：出版商的网站|谷歌学术
L. NANNI，“用于预测蛋白质 - 蛋白质相互作用的逾平移”神经古脑，第69卷，不。1-3, 257-263页，2005。查看在：出版商的网站|谷歌学术
L. Burger和E. Van Nimwegen，“用贝叶斯方法从序列比对中准确预测蛋白质之间的相互作用，”分子系统生物学，卷。4，不。1，p。165,2008。查看在：出版商的网站|谷歌学术
L. Nanni和A. Lumini，“预测蛋白质相互作用的k -局部超平面集合”，生物信息学，卷。22，没有。10，pp。1207-1210，2006。查看在：出版商的网站|谷歌学术
x.-y.平底锅，Y.-n.张，H.-B.沉，“基于潜在题目的氨基酸序列”大规模预测人蛋白 - 蛋白质 - 蛋白质 - 序列的相互作用“蛋白质组学研究杂志第9卷第2期。10，pp。4992-5001,2010。查看在：出版商的网站|谷歌学术
G. Singh等人，“弹簧：使用人工神经网络预测蛋白质 - 蛋白质相互作用位点”Peerj预印迹, 2014年。查看在：出版商的网站|谷歌学术
S. Dohkan, A. Koike, T. Takagi，“使用支持向量机预测蛋白质-蛋白质相互作用”，载于第四次IEEE关于生物信息学和生物工程研讨会的课程，ieee，台湾，台湾，2004年5月。查看在：出版商的网站|谷歌学术
G. Cui，C. fang和K. Han，“通过SVM模型预测病毒和人类之间的蛋白质 - 蛋白质相互作用”BMC生物信息学，卷。13，不。4,2012查看在：出版商的网站|谷歌学术
J.R.Bradford和D.R.Weshead，“使用支持向量机方法改进了蛋白质 - 蛋白质结合位点的预测”生物信息学，卷。21，不。8，pp。1487-1494,2005。查看在：出版商的网站|谷歌学术
Y. Guo，L. Yu，Z. Wen和M. Li，“使用支持向量机结合自动协方差以预测蛋白质序列的蛋白质 - 蛋白质相互作用”核酸的研究，卷。36，不。9，pp。3025-3030，2008。查看在：出版商的网站|谷歌学术
A. Koike和T.Takagi，“使用支持向量机预测蛋白质 - 蛋白质相互作用位点”蛋白质工程设计和选择第17卷，没有。2, pp. 165-173, 2004。查看在：出版商的网站|谷歌学术
Z.-h.您，“检测与新型基于基于基于基于基于基于基于基于基于蛋白质序列表示和支持载体机的蛋白质 - 蛋白质相互作用，”生物化研究国际，卷。2015年，第867516号，9页，2015年。查看在：出版商的网站|谷歌学术
肯尼迪。夏、韩和d - s。黄，“基于序列的蛋白质相互作用预测，通过旋转森林和自相关描述符，”蛋白质和肽字母第17卷，没有。1, 137-145, 2010。查看在：出版商的网站|谷歌学术
L. Wong等，“使用具有新型PR-LP描述符的旋转林模型的氨基酸序列检测来自氨基酸序列的蛋白质 - 蛋白质相互作用，”国际智能计算会议论文集，春天，秋，中国福州，2015年8月。查看在：谷歌学术
X. du，S. Sun，C. Hu，Y. Yao，Y. Yan和Y. Zhang，“Deepppi：促进与深神经网络的蛋白质 - 蛋白质相互作用的预测”化学信息与建模学报，卷。57，没有。6，pp。1499-1510,2017。查看在：出版商的网站|谷歌学术
M. Kong，“FCTP-WSRC：基于加权稀疏表示的分类，蛋白质 - 蛋白质相互作用预测”遗传学的边疆，第11卷，第18页，2020。查看在：出版商的网站|谷歌学术
Z.Lu，S. Lu，G.刘，Y. Zhang，J. Yang和P. Phillips，“一种基于径向基函数神经网络的病理脑检测系统”医学影像与健康信息学杂志，第6卷，第4卷。5，pp。1218-1222，2016。查看在：出版商的网站|谷歌学术

科学规划

面向2020年智能世界的科学规划

ACT-SVM：基于支持载体基础模型的蛋白质 - 蛋白质相互作用预测

抽象的