0
点赞
收藏
分享

微信扫一扫

TSNAPred:通过集成方法预测类型特异性核酸结合残基

TSNAPred:通过集成方法预测类型特异性核酸结合残基


会议地点:腾讯会议
期刊:Briefings in Bioinformatics
作者: Wenjuan Nie and Lei Deng
关键词: DNA-binding residues, RNA-binding residues, LightGBM, Capsule network
年份:2022
论文博客论文地址代码地址论文:
TSNA.pdf(1.5 MB)

主要内容

1问题 :

TSNAPred:通过集成方法预测类型特异性核酸结合残基

1.摘要

蛋白质和核酸之间的相互作用参与多种生物活动。准确识别蛋白质和核酸之间的相互作用可以加强对蛋白质功能的理解。然而,传统方法过于耗时,计算方法是类型不可知的预测。我们提出了一个称为 TSNAPred 的整体预测器,并首先使用它来识别与 A-DNA、B-DNA、ssDNA、mRNA、tRNA 和 rRNA 结合的残基。 TSNAPred 结合了 LightGBM 和胶囊网络,两者都是从蛋白质序列中学习的特征。 TSNAPred 利用滑动窗口技术提取残基之间的长距离依赖关系,并利用加权集成策略来提高预测性能。结果表明,TSNAPred 可以有效地识别我们测试集中的类型特异性核酸结合残基。


2方法

2.1数据和方法

Datasets

TSNAPred 中使用的数据集需要在残基水平上注释与不同类型核酸结合的高质量蛋白质。然而,大多数现有研究都提出预测残留物是否会与 DNA 或 RNA 结合,而忽略了其特定类型,其数据集不适合我们的研究。因此,我们需要构建一个新的数据集来满足我们的研究。


我们收集了与六种核酸(ADNA、B-DNA、单链 DNA、mRNA、tRNA、rRNA)结合的高质量结构(分辨率<3Å)的蛋白质。


类型特异性DNA结合蛋白数据集是Zhang等[20]根据bound DNA molecules的geometry收集的,包含81个A-DNA结合蛋白,291个B-DNA结合蛋白和47个单链DNA (ssDNA)-结合蛋白。根据之前的研究 ,类型特异性 RNA 结合蛋白是通过它们自己的基因本体论 (GO) 术语从 Uniprot 收集的 。例如,mRNA 结合蛋白是由那些仅用 GO 术语“mRNA 结合”(GO:0003729) 注释但没有“DNA 结合”(GO:0003677)、“tRNA 结合”(GO:0000049) 和“ rRNA 结合' (GO:0019843)。这样,我们可以获得准确的实验数据集,并保证绑定类型的唯一性。图1简要介绍了数据采集的过程。


GEOMETRY OF DNA MOLECULEMRNA BINDING:GO:0003729TRNA BINDING:GO:0000049GENEONTOLOGYBIOLIP1UNIFYING BIOLOGYRRNA BINDING:GO:0019843IDENTIFYIDENTIFYANNOTATEUNIPROTTYPE-SPECIFIC RNA BINDING PROTEINSTYPE-SPECIFIC DNA BINDING PROTEINS

TSNAPred:通过集成方法预测类型特异性核酸结合残基_窗口大小



BioLip  是一个每周更新的蛋白质-配体相互作用数据库,用于注释我们收集的类型特异性 DNA 和 RNA 结合蛋白的残基水平相互作用。同时,我们通过去除用“核酸结合”、“DNA 结合”和“RNA 结合”注释的 GO 术语的蛋白质,从 Uniprot 收集非核酸结合蛋白。然后,随机选择不与核酸结合的蛋白质子集以匹配注释的核酸结合蛋白的数量。 CD-HIT 是一种将相似蛋白质聚类成簇的快速工具,用于去除高共享蛋白质以保持所有收集蛋白质的序列相似性小于 30%。然后,将得到的蛋白质随机分为训练集(70%的收集蛋白质)、验证集(15%)和测试集(15%),并尽可能将每个数据集中对应的类相似的结合率。表1、2和3分别显示了它们的分布。


TABLE 3. DATA DISTRIBUTION IN THE TEST SETBINDING-TYPENBINDRATIONALLNSEGNNON-BIND5.22%44314211220A-DNA107.50%3413 366B-DNA12433933717930596.22%2880SSDNA22553854.36%105160MRNA216510.18%TRNA1965200412981042.48%387RRNA911NON-BINDING7547 0940%47 094

TSNAPred:通过集成方法预测类型特异性核酸结合残基_数据集_02



Model architecture

TSNAPred 是与 LightGBM 和 CapsNet 聚合的集成模型。对于给定的蛋白质,我们将滑动窗口大小设置为 21,以组合来自蛋白质序列的六个特征组,生成一个 420 维的特征向量,并将其输入到 LightGBM 中。同时,我们还从蛋白质序列中计算出三个适合深度学习的特征:PSSM、二级结构和 One-hot 编码。我们选择最佳窗口大小为 21,以生成 21×30 的特征图,并将其馈送到高级深度学习架构 CapsNet 中。然后,我们分别通过 LightGBM 和 CapsNet 为每种类型的核酸训练二元分类器。


应用完全连接的神经网络来集成由 LightGBM 或 CapsNet 训练的七个二元分类器的输出。接下来,采用集成学习来获得最终预测。 TSNAPred 的架构如图 2 所示。


FEATURE PROFILE FOR TRAINING SETFEATURE GENERATIONUNIPORTKPRTKKMTAREFEATURE PROFILE FOR VALIDATION SETBIOLIPSEEONDARYFEATURE PROFILE FOR TEST SETPHYSICOCHEMICAL PROPERTIESPSSMRSAONE-HOT ENCODINGDISORDERRAAPECOSTRUCTURELIGHTGBMADNA-BINDINGOTHER CLASSA-DNA BINDING RESIDUESHIDDEN BAYERSSAMPLESSAMPLESCAPSULE NETWORKLIGHTGBMCONCATENATEBDNA-BINDINGOTHER ELASSB-DNA BINDING RESIDUESSAMPLESCAPSULE NETWORKLIGHTGBMSSDNA-BINDINGOTHER CLASSSSDNA BINDING RESIDUESSAMPLESSAMPLESPREDICTIONCAPSULE NETWORKTRAINING SETLIGHRGBMMRNA BINDING RESIDUESMRNA-BINDINGOTHER CLASSENSEMBLESAMPLESSAMPLESTRNA BINDING RESIDUESLIGHTGBMTRNA-BINDINGOTHER ELASSSAMPLESSAMPLESCONCATENATECAPSULE NETWORKRRNA BINDING RESIDUESLIGHTGBMRNA-BINDINGOTHER ELASSSAMPLESSAMPLESCAPSULE NETWORKNON-NUCLEIC AEIDBINDING RESIDUESLIGHTGBMNON-BINDINGOTHER CLASSTSNAPREDSAMPLESSAMPLESCAPSULE NETWORK

TSNAPred:通过集成方法预测类型特异性核酸结合残基_窗口大小_03



Feature representation

模型的性能通常取决于特征的质量,因此我们提取了以下在先前研究中流行的序列特征

Relative solvent accessibility(RSA),暴露的残基倾向于与配体结合。 RSA 的值是通过一种名为 ASAquick 的快速准确的方法预测的。通常,当RSA值大于25%时,我们认为残留物暴露,否则被掩埋。

Evolution conservation score(ECO),蛋白质和核酸之间的相互作用对于蛋白质功能至关重要,因此结合残基在整个进化过程中应该是保守的,并且蛋白质的 ECO 可以通过 HHblits 产生。

Relative amino acid propensity for binding (RAAP),RAAP最早由Zhang等人提出,代表了20种氨基酸与每种核酸的结合趋势。 Composition Profiler 用于通过对比相应类型的结合残基与非结合残基来计算 RAAP,其值如表 4 所示。

TABLE 4.THE RAAP VALUE FOR EACH AMINO ACIDPROPENSITY FORPROPENSITY FORPROPENSITY FORPROPENSITY FORPROPENSITY FORAMINO ACIDPROPENSITY FORA-DNARRNA BINDINGTRNA BINDINGMRNA BINDINGB-DNASSDNABINDINGBINDINGBINDINGLACDEFGHI0.16640.11800.00000.18760.03800.86900.32310.00000.02830.01960.00000.00000.08280.01890.00290.29890.26660.14370.17510.25020.05660.07980.00130.00000.14070.12680.75830.24350.70100.10530.15380.25400.25930.40280.39800.2067GHIKLMNPQRSTVWY0.65600.44790.46720.37570.28560.45480.16530.12320.08310.35780.10590.06220.41190.55960.57630.76490.92720.69780.11170.07670.02380.18540.01080.00000.30170.37580.34120.17920.11540.06800.61570.67640.53320.37350.38430.25070.12200.02780.13720.26100.04230.20610.34850.46430.25030.28440.20910.31540.94341.00001.00001.00001.00001.00000.19550.21540.31920.15980.23510.25600.24690.09940.40470.26040.50080.23600.23620.07030.13660.03600.04390.10870.77780.23500.69560.37090.25780.23320.26790.43641.00000.57890.77210.5231

TSNAPred:通过集成方法预测类型特异性核酸结合残基_窗口大小_04



Disorder ,避免无序片段可以增强蛋白质表达、折叠性和稳定性[30]。 IUPred2A 用于计算范围为 [0, 1] 的每个残基的紊乱评分。


Physiochemical properties,AAindex  数据库提供了残留物的各种理化特性。我们选择疏水性、极性和电荷作为我们的特征。


Secondary structure(SS),由于蛋白质功能与其结构有关,我们借助 PSIPRED [33] 获得了每个氨基酸的二级结构。得分值对应于三个空间结构的预测值:线圈 (C)、螺旋 (H) 和链 (E)。


Position-specific scoring matrix(PSSM),PSSM 已被证明适用于深度学习架构,尤其是卷积神经网络 。通过三次迭代和 0.001 的 e 值,PSI-BLAST 被用于根据 Swiss-Prot 数据库  获得每种蛋白质的 PSSM 图谱。需要注意的是那些无法通过 PSI-BLAST 获得 PSSM 图谱的蛋白质将由 BLOSUM62 分布表示。


One-hot encoding,我们根据其物理化学性质将 20 种氨基酸分为七类(表 5)。所以我们获得七维的单热编码而不是 20 维以避免特征矩阵变得太稀疏。


对于 LightGBM,我们连接了 RSA、ECO、RAAP、Disorder、SS 和物理化学属性,并将窗口大小设置为 21,从而得到一个 420 维(21×20)的特征向量。此外,我们将 PSSM、SS 和 one-hot 编码视为胶囊网络的特征。我们连接这三个特征并设置窗口大小为 21,得到每个残基的 21×30 (20PSSM+3SS+7onehot) 特征图。


LightGBM

与其他分类器相比,树分类器更易于解释和理解。梯度提升决策树(GBDT)是一种流行的用于分类和回归的树分类器,但它具有耗时和无法进行并行训练等缺点。


Chen等人在GBDT的基础上进行了改进,提出了XGBoost[40],具有更好的性能,但在工程训练的实现上还有一定的差距。


Ke 等人提出 LightGBM 以使用两种新技术解决这些问题:基于梯度的单边采样 (GOSS) 和独占特征捆绑 (EFB)。 GOSS 可以减少仅具有小梯度的数据实例,从而节省时间和空间。同时,EFB将互斥的特征绑定为一个特征,实现降维。由于LightGBM的并行训练、速度更快、内存消耗更低、准确性更好、分布式和适应海量数据等优点,我们利用LightGBM构建了TSNAPred的一部分。


Capsule network

胶囊网络(CapsNet)是由Hinton等人提出的,它不同于传统的神经网络。传统神经网络的结构是“标量输入,标量输出”,而CapsNet是“向量输入,向量输出”,即CapsNet的神经元是向量而不是标量,这使得CapsNet可以学到更多的信息,例如方向。 CapsNet 有两个卷积层和一个全连接层,如图 3 所示。第一个卷积层 (Conv1) 探索输入的局部特征,第二个卷积层 (PrimaryCaps) 结合从 Conv1 检测到的局部特征。此外,使用名为“squashing”的非线性函数(方程式 1)将胶囊输出的长度限制为 [0, 1],以便它可以表示当前输入中实体的概率。

ILSILL(1)UJ二1+LLSILL2

TSNAPred:通过集成方法预测类型特异性核酸结合残基_窗口大小_05


最后一层(BindCaps)有两个胶囊,分别代表正负(残基是否与训练类型结合),CapsNet 的输出是这些“结合”胶囊的 L2 范数。此外,在每一层的末尾添加了 BatchNormalization 和 Dropout 以避免过拟合。每个 Dropout 子层的 dropout 率分别设置为 0.7、0.2 和 0.1。

BINDCAPSINPUTCONV1POSITIVENEGATIVE1321169X99X91122LL8PRIMARYCAPS323022OUTPUT

TSNAPred:通过集成方法预测类型特异性核酸结合残基_数据集_06


Implementation

对于每种类型的结合核酸,我们从训练集中生成一个子集。该子集包含与特定类型核酸结合的阳性样本和与从不与特定类型核酸结合的残基中随机选择的阳性样本数量相匹配的阴性样本。使用这种方式可以避免在欠采样过程中忽略大部分数据,以更大的利用率使用收集到的数据,保证分类结果的平衡。


然后,对于七种类型的核酸(包括非结合核酸),每一种都将获得两个由LightGBM和CapsNet在相应子集上训练的二元分类器。每个二元分类器的超参数根据观察到的 AUC 值进行微调,通过将相应的子集以 8:2 的比例划分为训练验证集来进行验证。接下来,我们将七个二元分类器的输出连接起来作为全连接神经网络的输入。这个全连接神经网络包含三个隐藏层,每层神经元数分别为64、32和16个。 Softmax 用于生成残基与七种核酸结合的概率。最后采用加权集成策略对结果进行整合。


 Results

Evaluation metrics

TSNAPred 本质上是一项多分类任务,我们通过计算一些众所周知的指标来评估我们的预测器,例如准确性 (ACC)、召回率、精度和马修斯相关系数 (MCC)。此外,核酸结合残基的鉴定是一项极不平衡的任务,因为非结合残基的数量远远多于结合残基。像 ACC 这样的指标会偏向于具有更多样本的类别,因此我们应用 AUC 来评估我们的模型。 AUC 实质上是模型将正样本排在负样本之前的概率。当 AUC 值接近 1 时,模型的预测性能越好。


Comparison with different sliding window sizes

据报道,目标残基的性质和功能受其邻近残基的影响。因此,应用滑动窗口技术来提取残基之间的长距离依赖性。我们将滑动窗口大小设置为w,对于给定的蛋白质序列,窗口中的序列片段由目标残基和目标残基左右的(w-1)/ 2个相邻残基组成。


对于 LightGBM,我们通过分两步将窗口大小从 11 逐渐增加到 21 来比较验证集上的 AUC 值,以选择最佳窗口大小。对于CapsNet,由于内核大小(9×9)和unpadding卷积的限制,窗口大小只能设置为17、19和21以满足BindCpas的输入。图 4 说明了当窗口大小都设置为 21 时,LightGBM 和 CapsNet 在大多数合作伙伴(绑定类型的一半以上)中表现更好。

(B)AUC FOR LIGHTGBM ON DIFFERENT WINDOW SIZEAUC FOR CAPSNET ON DIFFERENT WINDOW SIZE1.00WINDOWSIZE11WINDOWSIZE17WINDOWSIZE17WINDOWSIZE-210.925WINDOW_SIZE-13WINDOWSIZE19WINDOW SIZE190.95WINDOW_SIZE-15WINDOWSIZE20.9000.900.8750.850.850AUCAUC0.800.8250.8000.750.7750.700.7500.65BDNA SSDNA MRNA TRNAADNAADNABDNASSDNA MRNA TRNARRNANONBINDRRNANONBINDBINDING TYPEBINDING TYPERTEURE A, LUTHE PREDICTION LIGTIONCE(AVE)OR DIFIERENT VINDOW IN LIGTICEM ON LIGTION SET, DREDORMAOF DIFFERENT WINDOW SIZE USED IN CAPSNET ON THE VALIDATION SET.

TSNAPred:通过集成方法预测类型特异性核酸结合残基_神经网络_07


Comparison with different feature combinations

不同类型的特征可能对分类器有不同的影响。对于 LightGBM,输入了六个来自蛋白质序列的特征组。为了评估每种特征类型的贡献,我们从所有特征中排除了一个特征组,表 6 显示了结果,其中粗体表示每个结合伙伴的 AUC 的最大减少。当单独移除 RSA 或 Disorder 时,对于大多数绑定伙伴,LightGBM 的预测性能会显着降低。同时,ECO 也可以达到除 tRNA 结合之外的这些贡献。去除 SS 后预测性能的下降不如 RSA 和 Disorder,但总体上还是有所下降,这意味着 SS 也是我们预测器不可替代的特征。剩下的RAAP和AAindex对LightGBM的贡献没有上面提到的那么多,但是对A-DNA和rRNA结合残基的预测还是有一定影响的。

TABLE 6. THE PREDICTION PERFORMANCE (AUC)ON THE VALIDATION SET BY EXCLUDING INDIVIDUAL REATURE GROUPBINDING TYPEFEATURE GROUPA-DNASSDNANON-BINDTRNAB-DNAMRNARRNAALL FEATURE0.76650.92030.81590.85310.77540.82190.869117%12%EXCLUDE RSA10.7%13%12%13%14%14%11%15%EXCLUDE ECO13%12%15%12%11%13%T0.7%EXCLUDE DISORDER12%10.2%11%12%10.2%EXCLUDE SS13%10.6%10.1%11%10.3%11%EXCLUDE RAAP10.1%12%10.2%13%10.5%11%11%11%EXCLUDE AAINDEX11%10.5%11%

TSNAPred:通过集成方法预测类型特异性核酸结合残基_数据集_08


对于CapsNet,由于PSSM是一种适合深度学习的数据表示,我们将PSSM设置为base feature,并与其他特征相结合,得到不同的特征组合。表 7 表明,当仅采用 PSSM 时,CapsNet 在识别 ssDNA 和 tRNA 结合残基方面具有最佳性能,并为其他结合类型提供了基线。单独加入SS后,预测A-DNA结合残基的AUC值增加了约2%,但识别tRNA结合残基的能力明显下降。

TABLE 7. THE PREDICTION PERFORMANCE(AUC) OF DIFFERENT FEATURE COMBINATIONS ON THE VALIDATION SET,BINDING TYPEFEATURECOMBINATIONSA-DNATRNAMRNAB-DNANON-BINDRRNASSDNA0.89180.89190.7751PSSM0.73650.83830.85600.96610.75930.90750.85250.95260.91060.8346PSSM+SS0.6712PSSM+ONE-HOT0.90630.96970.88570.76250.72310.85920.84720.91670.76630.85160.73180.8799PSSM+SS+ONE-HOT0.96200.8635

TSNAPred:通过集成方法预测类型特异性核酸结合残基_数据集_09


同时,结合 PSSM 和 one-hot 编码,CapsNet 对大多数结合类型的预测性能与基线相似,但在识别 B-DNA、mRNA 和 rRNA 结合残基方面仍有一些改进。当 PSSM、one-hot 编码和二级结构都被采用时,CapsNet 在大多数结合类型(B-DNA、mRNA、非结合)中表现最好,而其他与基线相似。

Comparison with other machine learning algorithms

 在之前的研究中,许多机器学习算法已被应用于预测与 DNA、RNA、蛋白质或其他配体结合的残基。为了评估 LightGBM 的优越性,我们将其与 XGBoost、SVM、KNN 和逻辑回归 (LR) 等其他机器学习算法进行了比较。图 5 说明 LightGBM、XGBoost 和 LR 在我们的验证集上取得了比其他机器学习算法更好的预测性能。 LR 简单易实现,但对 BDNA、mRNA 和 rRNA 等某些类别的预测性能不能优于树分类器。 XGBoost 可以达到与 LightGBM 类似的结果,但 LightGBM 的并行训练将使训练过程更快。因此,LightGBM 被选为 TSNAPred 的一部分。

1.00KNNLIGHTGBMLOGISTIC REGRESSION0.95SVMXGBOOST0.900.85AUC0.800.750.700.650.60BDNASSDNAADNATRNAMRNARRNANONBINDBINDING TYPEFIGURE 5.THE PREDICTION PERFORMANCE (AUC) ON VALIDATION SET BY EMPLOY-DIFFERENT MACHINE LEARNING ALGORITHMSING DIF

TSNAPred:通过集成方法预测类型特异性核酸结合残基_窗口大小_10



Analysis of the importance of ensemble strategy

TSNAPred 是一个包含 LightGBM 和 CapsNet 的集成框架。我们将 w 视为 LightGBM 的权重,因此自然地,CapsNet 的权重为 1 − w。图 6 说明了 w 为 0 或 1 时,即仅使用LightGBM或CapsNet,其预测性能比集成预测器差。更重要的是,我们可以发现 LightGBM 在小样本的类别(ssDNA 和 tRNA)中表现更好,而 CapsNet 更喜欢大样本的类别(A-DNA、B-DNA 和 rRNA),因此我们将 w 设置为 0.5达到更好的性能。

0.950.90AUC0.850.800.75BDNAA-DNASSDNARNATRNAMRNA0.0.05 0.1 0.15 0.25 0.25 035 0.45 0.55 0.55 0.65 0.65 0.75 0.75 0.75 0.65 0.65 1.0WEIGHTS FOR LIGHTGBMFIGURE 6.THE AUC VALUE OF TSNAPRED ON THE VALIDATION SET UNDER DIFFERENTWEIGHTS FOR LIGHTGBM

TSNAPred:通过集成方法预测类型特异性核酸结合残基_数据集_11


Comparison with other existing methods

TSNAPred 是第一个提出来预测类型特异性核酸结合残基的方法。我们将我们的方法与其他可以识别 DNA 和 RNA 结合残基的基于序列的方法进行比较,包括 DRNAPred [12]、hybirdNAP [13]、SCRIBER [14]、PRONA2020 [15] 和 DNAgenie [20],它们被选中根据三个标准:可用于网络服务器或源代码、快速准确的预测和最近发布。一个例外的 DNAgenie 只能识别 DNA 结合残基,但它可以区分 A-DNA-、B-DNA- 和 ssDNA-结合残基。


为了验证 TSNAPred 的优越性,我们利用 DNAgenie 中描述的方法来比较识别特定类型核酸结合残基的能力。


残基与每种类型核酸的结合概率是通过将原始类型不可知的 DNA 和 RNA 结合预测乘以 20 种氨基酸的结合倾向来计算的(表 4)。表 8 显示了我们测试集上每种绑定类型的不同预测因子的 AUC。对于具有高结合率的核酸 (rRNA) 或大样本 (B-DNA),TSNAPred 具有显着的相对于其他方法的改进,AUC 值相对于 SCRIBER 增加了 2%,相对于 hybirdNAP 增加了 20%。

SPECIFIC NUCLEIC ACID-BINDING RESIDUES ON THE TEST SETTABLE 8.THE AUC VALUE OF DIFFERENT METHODS FOR IDENTIFYING TING TYPE-SPECIBINDING TYPEPREDICTORTRNARRNABDNAADNAMRNASSDNA0.68660.72250.65120.74060.8838DRNAPRED0.62470.67570.67040.70340.63420.5943HYBIRDNAP0.66270.93620.74950.66950.76240.83370.6679SCRIBER0.79350.7364PRONA20200.69510.84470.75850.56400.9395DNAGENIE0.90470.8491ONLY LIGHTGBM0.79310.81790.76530.90900.80000.83790.77000.79510.94880.8363ONLY CAPSNET0.87140.87100.82460.8021TSNAPRED0.85970.95380.88540.8812

TSNAPred:通过集成方法预测类型特异性核酸结合残基_神经网络_12


至于其余类型的核酸,TSNAPred 仍然比 DNAgenie 以外的其他方法表现更好。 DNAgenie 在小样本的类别上有很好的表现,例如 ssDNA 结合残基,但它不能识别特定类型的 RNA 结合残基。


为了公平起见,我们还分析了测试集上 DNA 结合和 RNA 结合残基的识别性能。我们将 A-DNA-、B-DNA- 和 ssDNA 结合残基视为 DNA 结合残基,将 mRNA-、tRNA- 和 rRNA 结合残基视为 RNA 结合残基。 Random 和 Random_Prone 是随机预测作为对比,以显示计算方法的有效性。前者在测试集结合率下随机预测残基为结合残基,后者随机预测核酸易结合残基为结合残基。如表9所示,计算方法的评价指标除准确率外均高于随机预测,准确率高可能是由于预测结合残基的数量被限制为与真实结合的数量相同随机预测期间的残差。

TABLE 9. THE PREDICTION PERFORMANCE OF DIFFERENT METHODS USED TO DITO DISTINGUISH DNAH DNA-AND RNA-BINDING RESIDUES ON TEST SETRNA BINDINGDNA BINDINGPREDICTORRECALLRECALLMCCPRECISIONPRECISIONACCMCCAUCACCAUC0.00070.96340.00100.96990.02090.50050.50050.02100.0182RANDOM0.01110.00450.96350.02710.01780.98000.50860.02480.02150.50240.0287RANDOM_PRONE0.05190.06340.20520.16220.93410.96140.7428DRNAPRED0.11810.41010.66150.01590.79640.8751HYBIRDNAP0.03190.63090.00150.66940.05550.36560.16750.9347SCRIBER0.02380.60820.94400.15500.83380.07720.06910.01140.39160.74820.54130.18250.07670.05930.84310.92690.5357PRONA20200.75720.13940.07400.80680.87230.5526DNAGENIE0.16730.81720.14200.07180.36210.82660.10570.94370.93930.33480.1631ONLY LIGHTGBM0.11620.84280.94570.10660.37460.88380.93970.22780.56030.1843ONLY CAPSNET0.8548TSNAPRED(FPR~5%)0.10510.88450.12580.40920.94040.22450.94540.20310.5542TSNAPRED(FPR~10%)0.06470.89350.85480.66130.18430.88450.54730.08780.18790.8954TSNAPRED(FPR~15%)0.74380.16710.84650.07110.88450.84860.17870.85480.65020.05020.88450.79880.14830.78820.06140.74170.79870.06140.8548TSNAPRED(FPR~20%)0.0402

TSNAPred:通过集成方法预测类型特异性核酸结合残基_数据集_13


与其他基于序列的方法相比,TSNAPred 识别 DNA 和 RNA 结合残基的 AUC 值分别提高了至少 5% 和 10%。此外,我们还设置了不同的阈值,分别为 FPR≈5%、FPR≈10%、FPR≈15% 和 FPR≈20%,以生成二值化预测。当FPR≈5%时,accuracy、precision和MCC与其他阈值和方法相比达到最佳值。尽管 DRNAPred 在区分 RNA 结合残基方面的精度略高于 TSNAPred,但其预测的 AUC 和 MCC 较低。此外,hybirdNAP 的预测性能很差。 SCRIBER 对 RNA 结合残基有很好的识别能力,但容易将 DNA 结合残基误认为是 RNA 结合,而 DNAgenie 只能识别 DNA 结合残基,但仍然无法胜过 TSNAPred。 PRONA2020 可以很好地识别 DNA 和 RNA 结合残基,但与 TSNAPred 仍有差距。总的来说,TSNAPred 对 DNA 和 RNA 结合残基的识别是最先进的基于序列的方法。


Analysis of structure features distribution

由于 TSNAPred 是纯序列预测,如果预测的核酸结合残基与真实结合残基有明显的重叠结构,我们认为 TSNAPred 可以有效准确地捕获核酸结合残基。基于这个动机,我们分析了两种常见的结构特征:SS和RSA。 SS 和 RSA 的值由 DSSP [44] 基于 PDB 文件计算得出。图 7 说明了预测的和真实的核酸结合残基的固有结构特征分布。可以发现,当二级结构为卷曲或螺旋时,残基倾向于与核酸结合,这与预测的TSNAPred分布相似。至于RSA,预测的和真实的结合残基都集中在区间[0.2, 0.4]上,但在[0.9, 1]上的分布有点不同,这证明更多的暴露残基更倾向于结合。由于这种重叠结构特征分布具有真正的结合残基,TSNAPred 可以成为生物学家的有用工具。

DISTRIBUTION OF PREDICTED BINDING RESIDUESDISTRIBUTION OF TRUE BINDING RESIDUES50%40.0%40%FRACTION OF RESIDUESFRACTION OF RESIDUES30.0%30%20.0%20%10.0%10%0.0%0%ESECONDARY STRUCTURESECONDARY STRUCTUREDISTRIBUTION OF PREDICTED BINDING RESIDUESDISTRIBUTION OF TRUE BINDING RESIDUES16.0%14.0%14.0%12.0%FRACTION OF RESIDUES12.0%FRACTION OF RESID10.0%10.0%8.0%8.0%6.0%6.0%4.0%4.0%(0.4.0.5)[0.9,1][0,0.1)[0.0.1)[0.7,0.8)(0.8,0.9)[0.9,1][0.8.0.9)[0.2,0.3)[O.1,0.2)[0.5,0.6)(0.3.0.4)[0.6,0.[0.3,0.4)[0.1.0.2)[0.4.0.5)[0.6.0.7[0.5,0.6)[0.2,0.3)[0.7,0.8)RSARSAFRURE 7.THE INHERENT STUCTURE FEATURES AND RSA) DISTRBUTIBUTION OF PREDITUREDITTED AND ADD BINDIE

TSNAPred:通过集成方法预测类型特异性核酸结合残基_神经网络_14


Case study

为了展示 TSNAPred 的真实预测性能,我们根据绑定类型从测试集中给出了三个示例。对于特定类型的 DNA 结合预测,以结合率为 6.69% 的 B-DNA 结合蛋白 O69644 (UniProt ID) 为代表。对于类型特异性 RNA 结合预测,P0AG48 (UniProt ID),一种结合率为 22.3% 的 rRNA 结合蛋白作为代表。此外,选择非核酸结合蛋白(UniProt ID:P01241)作为对比。


TSNAPred 鉴定的每个示例蛋白的准确率分别可以达到 92%、88% 和 99%。


基于这个预测,我们进一步使用 Alphafold [45] 预测的结构作为过滤器,从那些预测的结合残基中找到孤立的残基,并将它们移除以减少误报的数量。


图 8 说明了示例蛋白质的 3D 结构和通过不同方法获得的结合预测。我们将真阳性标记为绿色,将假阴性标记为红色,将假阳性标记为黄色,将真阴性标记为蓝色。 TSNAPred 取得了最好的预测,因为它的绿色球(真阳性)数量比其他方法多。在比较的方法中,DRNAPred 的预测最差,因为大多数预测的结合残基都是错误的。 PRONA2020和DNAgenie可以得到相对准确的结果,但对DNA结合残基和RNA结合残基的识别能力还是略逊于TSNAPred。

A) 069644 REPRESENTING FOR B-DNA BINDING PROTEINDNAGENIEDRNAPREDHYBIRDNAPSCRIBERTSNAPREDPRONA2020B)P0AG48 REPRESENTING FOR RRNA BINDING PROTEINDRNAPREDTSNAPREDHYBIRDNAPSCRIBERPRONA2020P01241 REPRESENTING FOR NON-NUCLEIC ACID BINDING PROTEINDNAGENIEDRNAPREDPRONA2020HYBIRDNAPSCRIBERTSNAPRED[ PREDICTIONS OF EXEMPLIFIED PROTEINS OBTAINED BY DIFFERENT SEQUENCE-BASED NETHODS. FOR TYPECIFFEIC AIGURE 8.COMPARISON OF PREDIC

TSNAPred:通过集成方法预测类型特异性核酸结合残基_神经网络_15


结论

识别结合残基是理解和预测蛋白质功能结构的辅助任务,而蛋白质与核酸的相互作用对基因表达和调控具有重要影响,因此准确预测蛋白质核酸结合残基有助于促进蛋白质功能分析。更重要的是,与不同类型核酸结合的蛋白质往往具有不同的功能。在这项研究中,我们提出了 TSNAPred,一个集成了 LightGBM 和 CapsNet 的框架,以根据蛋白质序列信息预测 ADNA-、B-DNA-、ssDNA-、mRNA-、tRNA- 和 rRNA- 结合残基。


LightGBM 是一种具有可解释性和并行训练能力的树分类器,而 CapsNet 是一种新颖的深度学习架构,可以提取更多信息。


通过整合 LightGBM 和 CapsNet,TSNAPred 可以更好地识别与上述六类核酸相互作用的残基,并有效区分 DNA 结合和 RNA 结合残基。然而,TSNAPred 很难识别具有较低结合率(ssDNA 结合残基)或样本不足(ssDNA/tRNA 结合残基)的残基。如果注释更多的 ssDNA/tRNA 结合蛋白,TSNAPred 会表现得更好。在未来的工作中,TSNAPred 还可以转化为预测蛋白质-蛋白质结合残基、蛋白质-ATP 结合残基、蛋白质-配体结合残基等任务。

举报

相关推荐

0 条评论