本發(fā)明涉及一種蛋白質(zhì)折疊類型的自動(dòng)化分類方法。
背景技術(shù):
蛋白質(zhì)三級(jí)結(jié)構(gòu)復(fù)雜而不規(guī)則,但其所對(duì)應(yīng)的蛋白質(zhì)折疊類型卻只有數(shù)百到數(shù)千種,蛋白質(zhì)折疊類型分類是蛋白質(zhì)折疊類型首先需要解決的基本問(wèn)題。scop數(shù)據(jù)庫(kù)是應(yīng)用最廣泛的結(jié)構(gòu)分類數(shù)據(jù)庫(kù),為層狀結(jié)構(gòu),包括蛋白質(zhì)結(jié)構(gòu)類、折疊類型、超家族、家族等不同層次,與蛋白質(zhì)折疊類型對(duì)應(yīng)的是fold層次,它是在超家族的基礎(chǔ)上,按照二級(jí)結(jié)構(gòu)及其空間分布及拓?fù)溥B接,根據(jù)專家經(jīng)驗(yàn)人工完成折疊類型的指認(rèn)。2013年,在scop已有分類的基礎(chǔ)上,scop數(shù)據(jù)庫(kù)建立。盡管scop中部分蛋白質(zhì)樣本通過(guò)序列比對(duì)可自動(dòng)獲得分類結(jié)果,但所用自動(dòng)分類結(jié)果與手動(dòng)分類結(jié)果并不相同。新發(fā)布的astral現(xiàn)在依然使用scop中的手動(dòng)分類結(jié)果。最近7年,scop數(shù)據(jù)中折疊層所包含的折疊類型總數(shù)基本保持在1393種左右,四種主要結(jié)構(gòu)類包含的折疊類型總數(shù)保持在1000種左右,折疊類型總數(shù)基本穩(wěn)定。因此,對(duì)已有scop的人工分類結(jié)果進(jìn)行數(shù)據(jù)挖掘、建立蛋白質(zhì)折疊類型分類方法,實(shí)現(xiàn)蛋白質(zhì)折疊類型的自動(dòng)分類,是迫切需要解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
為了克服上述缺陷,本發(fā)明提供一種基于統(tǒng)一原理的蛋白質(zhì)折疊類型分類方法,從而實(shí)現(xiàn)蛋白質(zhì)折疊類型的自動(dòng)化分類。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種蛋白質(zhì)折疊類型分類方法包括以下步驟:
步驟1、構(gòu)建模板數(shù)據(jù)庫(kù);
步驟2、基于模板數(shù)據(jù)庫(kù),將任意待測(cè)蛋白樣本與模板數(shù)據(jù)中的所有模板進(jìn)行tm-align比對(duì),計(jì)算tm-score值,所述tm-score取值最大的模板所在的折疊類型即為待測(cè)蛋白樣本所屬折疊類型。
作為優(yōu)選,所述模板數(shù)據(jù)庫(kù)包括家族模板數(shù)據(jù)庫(kù)與折疊類型模板數(shù)據(jù)庫(kù)。
作為優(yōu)選,所述家族模板數(shù)據(jù)庫(kù)構(gòu)建為:對(duì)家族樣本利用mustang進(jìn)行多結(jié)構(gòu)比對(duì),獲得多結(jié)構(gòu)比對(duì)信息;提取多結(jié)構(gòu)比對(duì)信息中完全匹配的片段,形成該家族模板的折疊核心結(jié)構(gòu);對(duì)折疊核心片段進(jìn)行骨架結(jié)構(gòu)建模,形成家族模板;利用上述方法,對(duì)989種蛋白質(zhì)折疊類型涵蓋的3941家族分別構(gòu)建家族模板,形成蛋白質(zhì)家族模板數(shù)據(jù)庫(kù)。
作為優(yōu)選,所述折疊類型模板數(shù)據(jù)庫(kù)構(gòu)建為:蛋白質(zhì)折疊類型模板以家族模板為單位通過(guò)系統(tǒng)聚類并經(jīng)過(guò)篩選和驗(yàn)證最終得到;其中,
所述系統(tǒng)聚類方法為:對(duì)任意蛋白質(zhì)折疊類型所屬的n個(gè)家族模板,先將n個(gè)家族模板看成不同的n類,然后將性質(zhì)最接近的兩類合并為一類,再?gòu)膎-1類中找到最接近的兩類加以合并,依此類推,直到所有的家族模板被合為一類,得到n個(gè)家族模板的系統(tǒng)聚類圖;家族模板通過(guò)tm-align進(jìn)行兩兩比對(duì),以tm-score作為距離參數(shù),將tm-score取值最大的兩家族合并;
所述任意蛋白質(zhì)折疊類型i模板篩選的經(jīng)驗(yàn)標(biāo)準(zhǔn)為:具有折疊類型i特有全部折疊核心片段,分布于系統(tǒng)聚類圖中的獨(dú)立分支,由家族模板首次合并形成,對(duì)蛋白質(zhì)折疊類型i所屬樣本的識(shí)別率不低于80%;
利用上述方法,對(duì)989種蛋白質(zhì)折疊類型分別構(gòu)建模板,組成折疊類型模板數(shù)據(jù)庫(kù)。
作為優(yōu)選,tm-align可進(jìn)行蛋白樣本間的結(jié)構(gòu)比對(duì)分析,所得打分值tm-score作為折疊類型模板構(gòu)建的系統(tǒng)聚類參數(shù),打分函數(shù)tm-score(templatemodelscore,模板建模打分)定義為:
其中,l是模板蛋白的長(zhǎng)度,lali是模板蛋白與待測(cè)蛋白中匹配上的殘基數(shù)目,di是模板蛋白與待測(cè)蛋白質(zhì)中第i個(gè)匹配殘基之間的距離,d0是作為標(biāo)準(zhǔn)化的距離參數(shù),從而消除了打分值與蛋白質(zhì)大小的冪率關(guān)系。
本發(fā)明的上述技術(shù)方案有如下優(yōu)點(diǎn):
1、家族模板的構(gòu)建摒棄了從家族樣本中選取天然結(jié)構(gòu)樣本作為模板,提高了家族模板的合理性以及適用性。
2、折疊類型模板構(gòu)建以家族模板為單位通過(guò)系統(tǒng)聚類并經(jīng)過(guò)篩選和驗(yàn)證最終得到,增加了折疊類型模板的可靠性。
3、分類方法取最大tm-score值作為評(píng)判參數(shù),克服了以tm-score閾值0.5作為分類評(píng)判參數(shù)的不嚴(yán)謹(jǐn)性。
附圖說(shuō)明
圖1為家族模板數(shù)據(jù)庫(kù)分布圖;
圖2為折疊類型模板數(shù)據(jù)庫(kù)分布圖;
圖3為蛋白質(zhì)折疊類型的分類方法流程圖。
具體實(shí)施方式
以下結(jié)合數(shù)據(jù)對(duì)本方法發(fā)明進(jìn)行詳細(xì)說(shuō)明。
如圖3所示,本發(fā)明實(shí)施例提供一種蛋白質(zhì)折疊類型的分類方法包括以下步驟:
步驟1、構(gòu)建模板數(shù)據(jù)庫(kù);
步驟2、基于模板數(shù)據(jù)庫(kù),將任意待測(cè)蛋白樣本與模板數(shù)據(jù)中的所有模板進(jìn)行tm-align比對(duì),計(jì)算tm-score值,所述tm-score取值最大的模板所在的折疊類型即為待測(cè)蛋白樣本所屬折疊類型。具體過(guò)程包括如下:
一、材料的選取
本發(fā)明主要選取astralscope2.05數(shù)據(jù)庫(kù)中相似性小于40%,且分辨率高于0.25nm的allalphaproteins(α),allbetaproteins(β),alphaandbetaproteins(α/β),alphaandbetaproteins(α+β)四類蛋白所屬的折疊類型為研究對(duì)象,其中共有989種折疊類型、12165個(gè)樣本,相應(yīng)數(shù)據(jù)記為set-i。實(shí)驗(yàn)集中,有359種蛋白質(zhì)折疊類型僅包含一個(gè)家族,且家族中僅包含一個(gè)樣本,對(duì)于這部分折疊類型,需要利用astralscope2.05數(shù)據(jù)庫(kù)中相似性小于95%的數(shù)據(jù)信息,相應(yīng)數(shù)據(jù)記為set-i-1;其余630種蛋白質(zhì)折疊類型含有兩個(gè)及兩個(gè)以上家族,對(duì)應(yīng)的家族數(shù)及樣本數(shù)分別為3582、11806,相應(yīng)數(shù)據(jù)記為set-i-2。獨(dú)立檢驗(yàn)集:scopeastral2.06數(shù)據(jù)庫(kù)中剔除scopeastral2.05所含樣本,余下2142樣本,涉及368種蛋白質(zhì)折疊類型,記為set-ii。
二、家族模板設(shè)計(jì)方法及數(shù)據(jù)庫(kù)的構(gòu)建
家族模板設(shè)計(jì)方法的具體步驟為:對(duì)家族樣本利用mustang進(jìn)行多結(jié)構(gòu)比對(duì),獲得多結(jié)構(gòu)比對(duì)信息;提取多結(jié)構(gòu)比對(duì)信息中完全匹配的片段(即家族樣本共同參與的折疊核心片段),形成該家族模板的折疊核心結(jié)構(gòu);對(duì)折疊核心片段進(jìn)行骨架結(jié)構(gòu)建模(即提取骨架坐標(biāo)信息),形成家族模板。
骨架坐標(biāo)提取方法:對(duì)由n個(gè)樣本組成的家族,利用mustang進(jìn)行多結(jié)構(gòu)比對(duì),獲得多結(jié)構(gòu)比對(duì)結(jié)果,提取完全匹配片段,對(duì)匹配片段中任一殘基i的α-碳原子匹配坐標(biāo)信息--(xi,yi,zi),計(jì)算匹配坐標(biāo)的平均值--
利用上述方法,對(duì)989種蛋白質(zhì)折疊類型涵蓋的3941家族分別構(gòu)建家族模板,形成蛋白質(zhì)家族模板數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中的家族模板編號(hào)為scopeastral中相應(yīng)家族代碼,模板在四種結(jié)構(gòu)類中的分布見圖1。
三、折疊類型模板設(shè)計(jì)方法及數(shù)據(jù)庫(kù)的構(gòu)建
蛋白質(zhì)折疊類型模板是以家族模板為單位通過(guò)系統(tǒng)聚類并經(jīng)過(guò)篩選和驗(yàn)證最終得到。系統(tǒng)聚類的基本思想:對(duì)任意蛋白質(zhì)折疊類型所屬的n個(gè)家族模板,先將n個(gè)家族模板看成不同的n類,然后將性質(zhì)最接近(距離最近)的兩類合并為一類,再?gòu)膎-1類中找到最接近的兩類加以合并,依此類推,直到所有的家族模板被合為一類,得到n個(gè)家族模板的系統(tǒng)聚類圖。家族模板通過(guò)tm-align進(jìn)行兩兩比對(duì),以tm-score作為距離參數(shù),將tm-score取值最大(即距離最小)的兩家族合并。
通過(guò)對(duì)系統(tǒng)聚類圖中節(jié)點(diǎn)對(duì)應(yīng)初始模板的計(jì)算分析及檢驗(yàn),提出任意蛋白質(zhì)折疊類型i模板篩選的經(jīng)驗(yàn)標(biāo)準(zhǔn):具有折疊類型i特有全部折疊核心片段;分布于系統(tǒng)聚類圖中的獨(dú)立分支;由家族模板首次合并形成;對(duì)蛋白質(zhì)折疊類型i所屬樣本的識(shí)別率不低于80%。
利用上述方法,對(duì)989種蛋白質(zhì)折疊類型分別構(gòu)建模板,組成折疊類型模板數(shù)據(jù)庫(kù),模板分布見圖2。其中,由數(shù)據(jù)集set-i-1構(gòu)建的模板359種,由于這些蛋白質(zhì)折疊類型僅含一個(gè)家族,家族模板即為折疊類型模板;由數(shù)據(jù)集set-i-2構(gòu)建的模板數(shù)共1258,其中508種蛋白質(zhì)折疊類型成功篩選到了模板,另外的122種折疊類型未能篩選到滿足條件的模板,以家族模板替代折疊類型模板。
四、分類方法的構(gòu)建
將任意待測(cè)蛋白樣本與模板數(shù)據(jù)中的所有模板進(jìn)行tm-align比對(duì),計(jì)算tm-score值。tm-score取值最大的模板所在的折疊類型即為待測(cè)蛋白樣本所屬折疊類型。
分類結(jié)果利用敏感性、特異性、matthew相關(guān)系數(shù)三個(gè)指標(biāo)對(duì)其進(jìn)行評(píng)估,參數(shù)定義如下:
敏感性:
特異性:
相關(guān)系數(shù):
式中tp為真陽(yáng)性個(gè)數(shù),tn為真陰性個(gè)數(shù),fp為假陽(yáng)性個(gè)數(shù),為fn假陰性個(gè)數(shù)。
五、分類效果
為驗(yàn)證模板設(shè)計(jì)及分類方法的合理性,以數(shù)據(jù)集set-i中的樣本為研究對(duì)象,分別利用家族模板數(shù)據(jù)庫(kù)與折疊類型模板數(shù)據(jù)庫(kù)進(jìn)行蛋白質(zhì)折疊類型分類的自洽性檢驗(yàn),檢驗(yàn)結(jié)果見表3與表4。s表示折疊類型所含樣本數(shù)量,s'為真陽(yáng)性與假陽(yáng)性數(shù)量之和。
表3.家族模板的自洽性檢驗(yàn)
表4.折疊類型模板的自洽性檢驗(yàn)
由檢驗(yàn)結(jié)果可知,基于家族模板數(shù)據(jù)庫(kù)自洽性檢驗(yàn)結(jié)果的敏感性、特異性及mcc的均值分別高達(dá)95.00%、99.99%、0.94,基于折疊類型模板數(shù)據(jù)庫(kù)自洽性檢驗(yàn)結(jié)果的敏感性、特異性以及mcc的均值分別為93.71%、99.97%及0.91。兩種類型模板對(duì)相同數(shù)據(jù)集的分類檢驗(yàn)結(jié)果相當(dāng),前者的分類結(jié)果略高后者。說(shuō)明家族模板及折疊類型模板設(shè)計(jì)合理,模板反映了折疊類型的基本特征;前者的模板總數(shù)為3941,后者僅為1617,后者模板數(shù)僅為前者的五分之二,分類速度后者遠(yuǎn)遠(yuǎn)優(yōu)于前者,分類精度家族模板略優(yōu)于折疊類型模板。
為進(jìn)一步檢驗(yàn)?zāi)0鍞?shù)據(jù)庫(kù)及分類方法的普適性,以數(shù)據(jù)集set-ii中的樣本為研究對(duì)象,分別對(duì)家族模板數(shù)據(jù)庫(kù)與折疊類型模板數(shù)據(jù)庫(kù)進(jìn)行獨(dú)立性檢驗(yàn),檢驗(yàn)結(jié)果見表5與表6。s+為數(shù)據(jù)集set-ii中樣本數(shù)量。
表5.家族模板的獨(dú)立性檢驗(yàn)
表6.折疊類型模板的獨(dú)立性檢驗(yàn)
由上表可知,家族模板數(shù)據(jù)庫(kù)及折疊類型模板數(shù)據(jù)庫(kù)對(duì)擴(kuò)充樣本的分類效果稍差于自洽性檢驗(yàn)中的結(jié)果,但是在獨(dú)立性檢驗(yàn)中家族模板與折疊類型模板的分類效果普遍高于90%,說(shuō)明模板數(shù)據(jù)庫(kù)及其分類方法可用于對(duì)擴(kuò)充蛋白樣本進(jìn)行折疊類型的分類,從而驗(yàn)證了模板設(shè)計(jì)及分類方法具有有效的普適性。
目前蛋白質(zhì)折疊類型的分類基本靠專家完成,而且不同庫(kù)的分類結(jié)果并不相同,因此迫切需要建立一個(gè)基于統(tǒng)一原理的蛋白質(zhì)折疊類型分類方法及分類模板數(shù)據(jù)庫(kù)。本發(fā)明提供一種蛋白質(zhì)折疊類型分類的方法,基于astralscope2.05數(shù)據(jù)庫(kù)中相似性小于40%的α、β、α+β及α/β所屬的折疊類型為研究對(duì)象,通過(guò)對(duì)蛋白質(zhì)折疊結(jié)構(gòu)分析及信息挖掘,建立了家族模板及蛋白質(zhì)折疊類型模板設(shè)計(jì)方法,用于家族與折疊類型的模板設(shè)計(jì),并完成了家族模板數(shù)據(jù)庫(kù)與折疊類型模板數(shù)據(jù)庫(kù)的構(gòu)建,并建立基于模板的蛋白質(zhì)折疊類型分類方法。使用本發(fā)明可實(shí)現(xiàn)蛋白質(zhì)折疊類型的自動(dòng)化分類。