本發(fā)明涉及蛋白質(zhì)二級(jí)質(zhì)譜鑒定領(lǐng)域,特別是涉及一種基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法。
背景技術(shù):
蛋白質(zhì)鑒定是蛋白質(zhì)組學(xué)研究的基本問題,也是深入進(jìn)行蛋白質(zhì)表達(dá)分析,功能和互作等相關(guān)研究的重要基礎(chǔ)。串聯(lián)質(zhì)譜技術(shù)(Tandem Mass Spectrometry,MS/MS)以高靈敏和高通量等特點(diǎn)使蛋白質(zhì)大規(guī)模鑒定成為可能,并逐漸成為蛋白質(zhì)鑒定的主流方法。串聯(lián)質(zhì)譜方法通過確定肽段氨基酸序列而鑒定蛋白質(zhì),因此蛋白質(zhì)鑒定實(shí)質(zhì)上是肽段的鑒定。數(shù)據(jù)庫搜索方法是目前最廣泛使用的肽段鑒定方法,其通過實(shí)驗(yàn)圖譜和數(shù)據(jù)庫中肽段的理論圖譜進(jìn)行匹配打分,將得分最高的理論圖譜肽段作為實(shí)驗(yàn)圖譜的肽段鑒定結(jié)果(圖1)。在鑒定過程中,構(gòu)建匹配打分模型是數(shù)據(jù)庫搜索方法的核心,常見的打分模型主要考慮實(shí)驗(yàn)圖譜的自身特征信息,如匹配峰數(shù)目、碎片離子峰強(qiáng)度和m/z誤差識(shí)別能力等。目前高通量實(shí)驗(yàn)圖譜本身能被鑒定到的圖譜比例不高(約25%左右)是蛋白質(zhì)鑒定研究中普遍存在的一個(gè)問題。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要提供一種能多核并行快速運(yùn)行,鑒定效率提高的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法。
一種基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法,包括如下步驟:
(1)將轉(zhuǎn)錄組或翻譯組的二代測序堿基序列定位到參考基因組,根據(jù)定位到的位置獲得每個(gè)基因的豐度信息;
(2)將蛋白質(zhì)的質(zhì)譜實(shí)驗(yàn)圖譜利用Proverb蛋白鑒定方法進(jìn)行初步鑒定,統(tǒng)計(jì)每個(gè)蛋白的初步鑒定結(jié)果;
(3)根據(jù)基因注釋信息將基因和蛋白名稱一一匹配,確定基因不同程度豐度信息初步鑒定蛋白數(shù)目,并計(jì)算得到每個(gè)豐度區(qū)間的初步蛋白的鑒定概率;
(4)對(duì)豐度區(qū)間的豐度值和初步蛋白鑒定概率構(gòu)建豐度信息的蛋白鑒定能力模型,根據(jù)模型獲得每個(gè)基因?qū)?yīng)豐度信息的蛋白鑒定能力;
(5)在蛋白質(zhì)譜的實(shí)驗(yàn)圖譜與理論圖譜的打分中融入蛋白相應(yīng)基因的蛋白鑒定能力,將每張實(shí)驗(yàn)圖譜的在理論圖譜中的所有匹配得分進(jìn)行排序,選擇最高得分的肽段作為圖譜鑒定結(jié)果,并對(duì)結(jié)果進(jìn)行質(zhì)量控制。
在其中一個(gè)實(shí)施例中,步驟(1)所述的將轉(zhuǎn)錄組或翻譯組的二代測序堿基序列定位到參考基因組,根據(jù)定位到的位置獲得每個(gè)基因的豐度信息,具體包括如下步驟:
(2.1)利用Fanse2軟件獲得多組學(xué)序列的比對(duì)結(jié)果信息,包括正反鏈、染色體名稱和染色體位置信息,分別記為r_strand、r_chrom和r_pos,提取所有已知基因注釋信息的染色體名、起始位置、終止位置和正反鏈,記為g_chrom、g_start、g_end和g_strand;
(2.2)初始化每個(gè)基因的比對(duì)結(jié)果存儲(chǔ)數(shù)組gene_read=0,讀取一個(gè)序列的r_strand、r_chrom和r_pos信息,把該序列的信息與所有基因的信息比較,判斷該序列是否位于基因上;如果以下三個(gè)條件的同時(shí)成立,則認(rèn)為序列位于基因上,此時(shí)該基因的gene_read數(shù)加1;三個(gè)條件如下:r_strand=g_strand;r_chrom=g_chrom;r_pos>=g_start并且r_pos<=g_end;
(2.3)逐個(gè)讀取序列的信息,重復(fù)步驟2)直到處理一個(gè)樣本的所有比對(duì)序列信息,其基因的存儲(chǔ)數(shù)組中的值即為比對(duì)到各個(gè)基因上的序列數(shù)記為g_read,將數(shù)組的所有值累加即為總的序列比對(duì)數(shù)記為R_mapped,根據(jù)以下公式計(jì)算多組學(xué)基因的豐度信息FPKM值:FPKM=g_read×109/(R_mapped×g_length),其中基因長度g_length=g_end–g_start。
在其中一個(gè)實(shí)施例中,步驟(3)具體包括如下步驟:
(3.1)匹配利用Proverb方法鑒定到的蛋白和基因,得到每個(gè)基因?qū)?yīng)蛋白的豐度信息FPKM值;
(3.2)將豐度信息值分為步長為1的300等分區(qū)間,計(jì)算每個(gè)區(qū)間中初步鑒定到的蛋白個(gè)數(shù),第i個(gè)區(qū)間的鑒定到蛋白個(gè)數(shù)記為Ni,初步鑒定到的所有蛋白數(shù)記為Nt,把鑒定到的蛋白個(gè)數(shù)(Ni)比上所有蛋白數(shù)(Nt)即為每個(gè)豐度信息區(qū)間的蛋白鑒定概率,計(jì)算方法為:Ni/Nt。
4、根據(jù)權(quán)利要求1所述的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法,其特征在于,步驟(4)具體包括如下步驟:
(4.1)根據(jù)步驟(3)中每個(gè)區(qū)間的FPKM值和蛋白鑒定概率值建立兩者關(guān)系的統(tǒng)計(jì)定量化模型,模型的關(guān)系式如下:
其中x為基因的豐度信息FPKM值,y為相應(yīng)FPKM值的蛋白鑒定概率;當(dāng)x值大于L(L=300)時(shí),取x恒等于300;
(4.2)統(tǒng)計(jì)每一基因的FPKM值,并將其FPKM值代入步驟(4.1)中的關(guān)系模型中,根據(jù)計(jì)算獲得的y值定量化基因豐度信息的蛋白鑒定能力。
在其中一個(gè)實(shí)施例中,步驟(5)所述的打分過程具體包括如下步驟:
(5.1)逐個(gè)讀取實(shí)驗(yàn)圖譜峰信息判斷理論圖譜和實(shí)驗(yàn)圖譜是否匹配,如果理論圖譜和實(shí)驗(yàn)圖譜對(duì)應(yīng)峰的荷質(zhì)比之差小于等于質(zhì)譜儀的測量誤差,則認(rèn)為這個(gè)峰匹配,之后記錄其匹配的信息;
(5.2)設(shè)E為產(chǎn)生的理論碎片個(gè)數(shù),K為理論圖譜和實(shí)驗(yàn)圖譜的匹配個(gè)數(shù),Q代表隨機(jī)匹配概率事件,i為隨機(jī)匹配概率,r為多組學(xué)豐度信息的先驗(yàn)概率,P為E個(gè)理論峰中有K個(gè)峰匹配的概率;則P由下面二項(xiàng)式分別概率密度函數(shù)計(jì)算:
其中factor=全局相對(duì)高峰個(gè)數(shù)/實(shí)驗(yàn)圖譜的峰范圍;
(5.3)待分析實(shí)驗(yàn)圖譜和理論圖譜進(jìn)行連續(xù)匹配峰的打分,設(shè)E1為理論圖譜產(chǎn)生的理論連續(xù)匹配個(gè)數(shù),K1為實(shí)驗(yàn)圖譜實(shí)際連續(xù)匹配的個(gè)數(shù),B_factor為背景值,B_factor=統(tǒng)計(jì)大量實(shí)驗(yàn)圖譜連續(xù)匹配的平均值/統(tǒng)計(jì)大量對(duì)應(yīng)理論圖譜連續(xù)匹配的平均值,Q1反映了某一圖譜在步驟(5.2)匹配情況下連續(xù)匹配的概率,P1在E1個(gè)理論連續(xù)匹配個(gè)數(shù)中實(shí)際存有K1個(gè)連續(xù)匹配的概率,由下面二項(xiàng)式分布概率密度函數(shù)計(jì)算:
所述待分析實(shí)驗(yàn)圖譜和理論圖譜連續(xù)匹配個(gè)數(shù)具體是指圖譜中兩兩連續(xù)匹配的對(duì)數(shù);
(5.4)對(duì)匹配峰強(qiáng)度信息進(jìn)行分析,求得強(qiáng)度因子,具體過程為:
設(shè)M_I為統(tǒng)計(jì)所有實(shí)驗(yàn)圖譜中某兩個(gè)氨基酸產(chǎn)生的峰大于等于最強(qiáng)峰的33%的個(gè)數(shù),設(shè)M_E為期望總的離子的個(gè)數(shù),則兩個(gè)氨基酸中間的斷裂概率Yi通過下式得到:
Yi=M_I/M_E;
進(jìn)而得到強(qiáng)度因子Infactor為(1+Ym+Bm)/(1+0.155*m_p),其中Ym=∑Yi,Bm=∑Bi;Ym和Bm分別為實(shí)驗(yàn)圖譜強(qiáng)度大于全局最強(qiáng)峰的33%的匹配峰Yi和Bi分值之和;m_p為一張實(shí)驗(yàn)圖譜中強(qiáng)度大于最強(qiáng)峰的33%的匹配個(gè)數(shù);0.155是理論平均匹配值;
(5.5)結(jié)合上述步驟(5.2),(5.3)和(5.4)的打分方法,采用下面公式得到肽段的得分:
PEP_S=Infactor*(-10)*log10(P*P1);
(5.6)對(duì)計(jì)算的PEP_S分?jǐn)?shù)去除背景值,首先設(shè)在真實(shí)庫和隨機(jī)庫統(tǒng)計(jì)概率相等的背景值為其在某種情況下的背景值B_B,背景值B_B是經(jīng)過貝葉斯網(wǎng)絡(luò)學(xué)習(xí)得到的,計(jì)算去背景值肽段得分PEP_S_M:
PEP_S_M=PEP_S-B_B;
(5.7)取出下一個(gè)肽段,重復(fù)執(zhí)行步驟(5.1)-(5.6),直到符合此圖譜母離子誤差的所有肽段均被打分處理;
(5.8)對(duì)此圖譜所有候選肽段的得分PEP_S_M進(jìn)行排序,得分最高理論肽段作為當(dāng)前圖譜的鑒定結(jié)果。
在其中一個(gè)實(shí)施例中,步驟(5)所述的鑒定結(jié)果采用FDR<=0.01進(jìn)行質(zhì)量控制,得出最終鑒定結(jié)果。
在其中一個(gè)實(shí)施例中,所述質(zhì)量控制具體包括如下步驟:
1)統(tǒng)計(jì)待分析圖譜所有二級(jí)圖譜中的鑒定結(jié)果肽段得分最小值和最大值;
2)統(tǒng)計(jì)在最小值和最大值之間,其中大于每個(gè)分值的鑒定結(jié)果中真實(shí)庫和隨機(jī)庫肽段的個(gè)數(shù),并計(jì)算每個(gè)分值為閥值時(shí)的FDR的值;
3)按得分值從小到大尋找每個(gè)分值,直到找到FDR<=0.01時(shí),此分值為待分析圖譜的整體閥值;
4)根據(jù)步驟3)找到整體閥值,以此閥值過濾待分析圖譜的鑒定結(jié)果,小于此閥值的結(jié)果被過濾掉,其結(jié)果作為待分析圖譜的最終鑒定結(jié)果。
本發(fā)明涉及的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法具有如下的優(yōu)點(diǎn)及效果:
(1)本發(fā)明主要對(duì)生物質(zhì)譜產(chǎn)生的二級(jí)質(zhì)譜數(shù)據(jù)進(jìn)行解釋和鑒定,在鑒定過程中充分利用轉(zhuǎn)錄組和翻譯組多組學(xué)的先驗(yàn)豐度信息,其鑒定有效質(zhì)譜的數(shù)量和蛋白質(zhì)肽段數(shù)量均高于目前常用的算法和軟件,其中Mascot是現(xiàn)在最廣泛使用的二級(jí)質(zhì)譜鑒定方法,本發(fā)明的鑒定結(jié)果要優(yōu)于Mascot。
(2)本發(fā)明方法的打分模型主要是基于二項(xiàng)式分布統(tǒng)計(jì)模型,但在打分模型中融入了轉(zhuǎn)錄組和翻譯組先驗(yàn)概率的全新打分模型。其方法在考慮匹配、連續(xù)匹配以及b,y離子匹配的基礎(chǔ)上考慮多組學(xué)的先驗(yàn)蛋白鑒定能力信息,完全有區(qū)別于以前僅利用質(zhì)譜實(shí)驗(yàn)圖譜信息的方法。
(3)本發(fā)明方法在實(shí)現(xiàn)中建立了動(dòng)態(tài)的翻譯后修飾檢索方法,可以動(dòng)態(tài)設(shè)置230多種翻譯后修飾,節(jié)約大量蛋白質(zhì)數(shù)據(jù)庫檢索的空間;同時(shí)本發(fā)明利用并行機(jī)制建立多核運(yùn)算,使高通量蛋白質(zhì)質(zhì)譜鑒定更加快速和高效。
附圖說明
圖1為二級(jí)質(zhì)譜鑒定的基本流程圖;
圖2為本發(fā)明一實(shí)施例基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法基本流程圖。
具體實(shí)施方式
為了便于理解本發(fā)明,下面將參照相關(guān)附圖對(duì)本發(fā)明進(jìn)行更全面的描述。附圖中給出了本發(fā)明的較佳實(shí)施例。但是,本發(fā)明可以以許多不同的形式來實(shí)現(xiàn),并不限于本文所描述的實(shí)施例。相反地,提供這些實(shí)施例的目的是使對(duì)本發(fā)明的公開內(nèi)容的理解更加透徹全面。
本實(shí)施例涉及了一種基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法。
參見圖2所示,該基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法包括以下步驟:
(1)將轉(zhuǎn)錄組或翻譯組的二代測序堿基序列定位到參考基因組,根據(jù)定位到的位置獲得每個(gè)基因的豐度信息。
(2)將蛋白質(zhì)的質(zhì)譜實(shí)驗(yàn)圖譜利用Proverb蛋白鑒定方法進(jìn)行初步鑒定,統(tǒng)計(jì)每個(gè)蛋白的初步鑒定結(jié)果。
(3)根據(jù)基因注釋信息將基因和蛋白名稱一一匹配,確定基因不同程度豐度信息初步鑒定蛋白數(shù)目,并計(jì)算得到每個(gè)豐度區(qū)間的初步蛋白的鑒定概率。
(4)對(duì)豐度區(qū)間的豐度值和初步蛋白鑒定概率構(gòu)建豐度信息的蛋白鑒定能力模型,根據(jù)模型獲得每個(gè)基因?qū)?yīng)豐度信息的蛋白鑒定能力。
(5)在蛋白質(zhì)譜的實(shí)驗(yàn)圖譜與理論圖譜的打分中融入蛋白相應(yīng)基因的蛋白鑒定能力,將每張實(shí)驗(yàn)圖譜的在理論圖譜中的所有匹配得分進(jìn)行排序,選擇最高得分的肽段作為本發(fā)明方法的圖譜鑒定結(jié)果,并對(duì)結(jié)果進(jìn)行質(zhì)量控制。
本發(fā)明所述步驟(1)中將多組學(xué)數(shù)據(jù)比對(duì)到參考基因組的具體步驟如下:
(1.1)利用Fanse2軟件獲得多組學(xué)序列的比對(duì)結(jié)果信息,如表1所示:包括正反鏈、染色體名稱和染色體位置信息,分別記為r_strand、r_chrom和r_pos,提取所有已知基因注釋信息的染色體名、起始位置、終止位置和正反鏈,如表2所示:包括基因所在染色體、基因起始位置、終止位置以及正反鏈信息,記為g_chrom、g_start、g_end和g_strand。
表1.多組學(xué)序列比對(duì)參考基因組的結(jié)果
表2.注釋基因的詳細(xì)信息
(1.2)初始化每個(gè)基因的比對(duì)結(jié)果存儲(chǔ)數(shù)組gene_read=0,讀取一個(gè)序列的r_strand、r_chrom和r_pos信息,把該序列的信息與所有基因的信息比較,判斷該序列是否位于基因上。如果以下三個(gè)條件的同時(shí)成立,則認(rèn)為序列位于基因上,此時(shí)該基因的gene_read數(shù)加1。三個(gè)條件如下:r_strand=g_strand;r_chrom=g_chrom;r_pos>=g_start并且r_pos<=g_end。
(1.3)逐個(gè)讀取序列的信息,重復(fù)步驟(1.2)直到處理一個(gè)樣本的所有比對(duì)序列信息,其基因的存儲(chǔ)數(shù)組中的值即為比對(duì)到各個(gè)基因上的序列數(shù)記為g_read,將數(shù)組的所有值累加即為總的序列比對(duì)數(shù)記為R_mapped,根據(jù)以下公式計(jì)算多組學(xué)基因的豐度信息FPKM值:FPKM=g_read×109/(R_mapped×g_length),其中基因長度g_length=g_end–g_start。
依次根據(jù)步驟(1.3)的計(jì)算方式獲得每個(gè)基因的豐度信息FPKM值。
所述步驟(2)利用Proverb統(tǒng)計(jì)真實(shí)鑒定到的蛋白作為初步鑒定蛋白用于構(gòu)建對(duì)應(yīng)基因豐度信息的關(guān)系模型,proverb鑒定結(jié)果如表3所示:
表3.Proverb初步真實(shí)蛋白統(tǒng)計(jì)結(jié)果
所述步驟(3)具體包括如下步驟:
(3.1)逐一匹配Proverb方法鑒定到的蛋白和基因,得到每個(gè)基因?qū)?yīng)蛋白的豐度信息FPKM值;如gene20002在多組學(xué)比對(duì)結(jié)果中的豐度信息FPKM值為5.6,則認(rèn)為相應(yīng)的蛋白NP_068533.1的先驗(yàn)豐度信息為5.6。
(3.2)將所有基因的對(duì)應(yīng)豐度信息FPKM值分為步長為1的300等分區(qū)間,計(jì)算每個(gè)區(qū)間中初步鑒定到的蛋白個(gè)數(shù),第i個(gè)區(qū)間的鑒定到蛋白個(gè)數(shù)記為Ni,初步鑒定到的所有蛋白數(shù)記為Nt。把鑒定到的蛋白個(gè)數(shù)(Ni)比上所有蛋白數(shù)(Nt)即為每個(gè)豐度信息區(qū)間的蛋白鑒定概率,計(jì)算方法為:Ni/Nt。如gene20002的FPKM值為5.6,則將gene20002劃分到第5個(gè)區(qū)間,而第5個(gè)區(qū)間包含了FPKM處于5-6之間的所有基因。相應(yīng)的鑒定蛋白概率為相應(yīng)基因的真實(shí)蛋白的個(gè)數(shù)/總蛋白的個(gè)數(shù)。300個(gè)FPKM區(qū)間對(duì)應(yīng)的蛋白鑒定概率如表4所示:
表4.FPKM300區(qū)間對(duì)應(yīng)的蛋白鑒定概率
所述步驟(4)建立真實(shí)蛋白和FPKM關(guān)系模型具體包括如下步驟:
(4.1)根據(jù)步驟(3)中每個(gè)區(qū)間的FPKM值和蛋白鑒定概率值建立兩者關(guān)系的統(tǒng)計(jì)定量化模型,模型的關(guān)系式如下:y=0.0425*log10(x)+0.3193;
其中x為基因的豐度信息FPKM值,y為相應(yīng)FPKM值的蛋白鑒定概率。當(dāng)x值大于300時(shí),y=0.0425*log10(300)+0.3193。
(4.2)統(tǒng)計(jì)每一基因的FPKM值,并將其FPKM值代入步驟(4.1)中的關(guān)系模型,根據(jù)計(jì)算獲得的y值定量化基因豐度信息FPKM的蛋白鑒定能力。
所述步驟(5)具體的匹配打分過程包括:
(5.1)逐個(gè)讀取實(shí)驗(yàn)圖譜峰信息判斷理論圖譜和實(shí)驗(yàn)圖譜是否匹配,如果理論圖譜和實(shí)驗(yàn)圖譜對(duì)應(yīng)峰的荷質(zhì)比之差小于等于質(zhì)譜儀的測量誤差,則認(rèn)為這個(gè)峰匹配,之后記錄其匹配的信息;
(5.2)設(shè)E為產(chǎn)生的理論碎片個(gè)數(shù),K為理論圖譜和實(shí)驗(yàn)圖譜的匹配個(gè)數(shù),Q代表隨機(jī)匹配概率事件,i為隨機(jī)匹配概率,r為多組學(xué)豐度信息的先驗(yàn)概率,P為E個(gè)理論峰中有K個(gè)峰匹配的概率;則P由下面二項(xiàng)式分別概率密度函數(shù)計(jì)算:
其中factor=全局相對(duì)高峰個(gè)數(shù)/實(shí)驗(yàn)圖譜的峰范圍;
(5.3)待分析實(shí)驗(yàn)圖譜和理論圖譜進(jìn)行連續(xù)匹配峰的打分,設(shè)E1為理論圖譜產(chǎn)生的理論連續(xù)匹配個(gè)數(shù),K1為實(shí)驗(yàn)圖譜實(shí)際連續(xù)匹配的個(gè)數(shù),B_factor為背景值,B_factor=統(tǒng)計(jì)大量實(shí)驗(yàn)圖譜連續(xù)匹配的平均值/統(tǒng)計(jì)大量對(duì)應(yīng)理論圖譜連續(xù)匹配的平均值,Q1反映了某一圖譜在步驟(5.2)匹配情況下連續(xù)匹配的概率,P1在E1個(gè)理論連續(xù)匹配個(gè)數(shù)中實(shí)際存有K1個(gè)連續(xù)匹配的概率,由下面二項(xiàng)式分布概率密度函數(shù)計(jì)算:
所述待分析實(shí)驗(yàn)圖譜和理論圖譜連續(xù)匹配個(gè)數(shù)具體是指圖譜中兩兩連續(xù)匹配的對(duì)數(shù);
(5.4)對(duì)匹配峰強(qiáng)度信息進(jìn)行分析,求得強(qiáng)度因子,具體過程為:
設(shè)M_I為統(tǒng)計(jì)所有實(shí)驗(yàn)圖譜中某兩個(gè)氨基酸產(chǎn)生的峰大于等于最強(qiáng)峰的33%的個(gè)數(shù),設(shè)M_E為期望總的離子的個(gè)數(shù),則兩個(gè)氨基酸中間的斷裂概率Yi通過下式得到:
Yi=M_I/M_E;
進(jìn)而得到強(qiáng)度因子Infactor為(1+Ym+Bm)/(1+0.155*m_p),其中Ym=∑Yi,Bm=∑Bi;Ym和Bm分別為實(shí)驗(yàn)圖譜強(qiáng)度大于全局最強(qiáng)峰的33%的匹配峰Yi和Bi分值之和;m_p為一張實(shí)驗(yàn)圖譜中強(qiáng)度大于最強(qiáng)峰的33%的匹配個(gè)數(shù);0.155是理論平均匹配值;
(5.5)結(jié)合上述步驟(5.2),步驟(5.3)和步驟(5.4)的打分方法,采用下面公式得到肽段的得分:
PEP_S=Infactor*(-10)*log10(P*P1);
(5.6)對(duì)計(jì)算的PEP_S分?jǐn)?shù)去除背景值,首先設(shè)在真實(shí)庫和隨機(jī)庫統(tǒng)計(jì)概率相等的背景值為其在某種情況下的背景值B_B,背景值B_B是經(jīng)過貝葉斯網(wǎng)絡(luò)學(xué)習(xí)得到的,計(jì)算去背景值肽段得分PEP_S_M:
PEP_S_M=PEP_S-B_B;
(5.7)取出下一個(gè)肽段,重復(fù)執(zhí)行步驟(5.1)-(5.6),直到符合此圖譜母離子誤差的所有肽段均被打分處理;
(5.8)對(duì)此圖譜所有候選肽段的得分PEP_S_M進(jìn)行排序,得分最高理論肽段作為當(dāng)前圖譜的鑒定結(jié)果。
所述步驟(5)針對(duì)所有實(shí)驗(yàn)圖譜鑒定結(jié)果進(jìn)行整體假陽性控制,具體包括以下步驟:
1)統(tǒng)計(jì)待分析圖譜所有二級(jí)圖譜中的鑒定結(jié)果肽段得分最小值和最大值;
2)統(tǒng)計(jì)在最小值和最大值之間,其中大于每個(gè)分值的鑒定結(jié)果中真實(shí)庫和隨機(jī)庫肽段的個(gè)數(shù),并計(jì)算每個(gè)分值為閥值時(shí)的FDR的值;
3)按得分值從小到大尋找每個(gè)分值,直到找到FDR<=0.01時(shí),此分值為待分析圖譜的整體閥值;
4)根據(jù)步驟3)找到整體閥值,以此閥值過濾待分析圖譜的鑒定結(jié)果,也就是說小于此閥值的結(jié)果被過濾掉,其結(jié)果作為待分析圖譜的最終鑒定結(jié)果。
本實(shí)施例涉及的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法具有如下的優(yōu)點(diǎn)及效果:
(1)本實(shí)施例涉及的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法主要對(duì)生物質(zhì)譜產(chǎn)生的二級(jí)質(zhì)譜數(shù)據(jù)進(jìn)行解釋和鑒定,在鑒定過程中充分利用轉(zhuǎn)錄組和翻譯組多組學(xué)的先驗(yàn)豐度信息,其鑒定有效質(zhì)譜的數(shù)量和蛋白質(zhì)肽段數(shù)量均高于目前常用的算法和軟件,其中Mascot是現(xiàn)在最廣泛使用的二級(jí)質(zhì)譜鑒定方法,本發(fā)明的鑒定結(jié)果要優(yōu)于Mascot。
(2)本實(shí)施例涉及的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法的打分模型主要是基于二項(xiàng)式分布統(tǒng)計(jì)模型,但在打分模型中融入了轉(zhuǎn)錄組和翻譯組先驗(yàn)概率的全新打分模型。其方法在考慮匹配、連續(xù)匹配以及b,y離子匹配的基礎(chǔ)上考慮多組學(xué)的先驗(yàn)蛋白鑒定能力信息,完全有區(qū)別于以前僅利用質(zhì)譜實(shí)驗(yàn)圖譜信息的方法。
(3)本實(shí)施例涉及的基于多組學(xué)豐度信息的蛋白質(zhì)二級(jí)質(zhì)譜鑒定方法在實(shí)現(xiàn)中建立了動(dòng)態(tài)的翻譯后修飾檢索方法,可以動(dòng)態(tài)設(shè)置230多種翻譯后修飾,節(jié)約大量蛋白質(zhì)數(shù)據(jù)庫檢索的空間;同時(shí)本發(fā)明利用并行機(jī)制建立多核運(yùn)算,使高通量蛋白質(zhì)質(zhì)譜鑒定更加快速和高效。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。