本發(fā)明涉及生物信息學(xué),液相色譜保留時(shí)間預(yù)測,特別涉及一種肽段液相色譜保留時(shí)間預(yù)測方法及系統(tǒng)。
背景技術(shù):
現(xiàn)有技術(shù)中使用“鳥槍法”鑒定蛋白質(zhì)時(shí),在肽段進(jìn)入質(zhì)譜儀之前,要用色譜法對其進(jìn)行分離,避免由于肽段數(shù)目過多,一次性輸入質(zhì)譜儀而造成嚴(yán)重的信號疊加,肽段在被注入色譜的強(qiáng)度達(dá)到最高時(shí)經(jīng)歷的時(shí)間為保留時(shí)間,保留時(shí)間是獨(dú)立于質(zhì)譜信息之外的另一維重要信息,在一定的反向液相色譜條件下,不同肽段的保留時(shí)間不同,根據(jù)肽段的序列等信息,可以對肽段在色譜中的保留時(shí)間進(jìn)行預(yù)測,并將保留時(shí)間預(yù)測結(jié)果與質(zhì)譜信息相結(jié)合,用于提高肽段鑒定結(jié)果的靈敏度或可靠性。
現(xiàn)有的主要的保留時(shí)間預(yù)測軟件有SSCalc、BioLCC、Elude等,它們有的只支持特定色譜條件下的預(yù)測,有的不能支持有修飾肽段的預(yù)測,且運(yùn)行效率低下,不能滿足當(dāng)前數(shù)據(jù)處理的要求。
現(xiàn)有的技術(shù)存在三大問題或缺點(diǎn):
1.現(xiàn)有的技術(shù)能支持不同色譜條件下預(yù)測保留時(shí)間的較少。當(dāng)色譜條件發(fā)生變化時(shí),肽段的保留時(shí)間會相應(yīng)發(fā)生變化,原有模型不再適用。
2.現(xiàn)有的技術(shù)大多針對常規(guī)的肽段,對修飾肽段的支持較少。研究發(fā)現(xiàn),特定修飾會影響肽段的保留時(shí)間,當(dāng)肽段發(fā)生修飾時(shí),現(xiàn)有模型預(yù)測不準(zhǔn)。
3.現(xiàn)有的技術(shù)處理數(shù)據(jù)效率不高,如知名軟件Elude在多個(gè)測試數(shù)據(jù)集上的運(yùn)行時(shí)間普遍在20分鐘以上。
發(fā)明人在進(jìn)行肽段的色譜保留時(shí)間預(yù)測研究時(shí),發(fā)現(xiàn)現(xiàn)有技術(shù)往往只支持特定色譜條件下的預(yù)測,并且只支持常規(guī)肽段的預(yù)測,這一方面是由于現(xiàn)有的研究方法比較局限,一些實(shí)驗(yàn)室只研究特定色譜條件下的數(shù)據(jù)集,針對該數(shù)據(jù)集挑選的參數(shù)不適用于別的色譜條件;一方面是由于研究者沒有認(rèn)識到修飾對肽段保留時(shí)間的重要影響,同時(shí),現(xiàn)有的技術(shù)普遍效率不高,是由于挑選參數(shù)的過程非常耗時(shí)。
發(fā)明創(chuàng)造“一種高效液相色譜峰保留時(shí)間預(yù)測方法”,該發(fā)明涉及一種高效液相色譜峰保留時(shí)間預(yù)測方法。該方法包括:測定各種樣品的各種成分的標(biāo)準(zhǔn)保留時(shí)間,在每個(gè)樣品的目標(biāo)成分中選擇兩個(gè)成分作為該樣品的雙標(biāo)對照成分,獲得雙標(biāo)對照成分在待測樣品的供試品溶液中的實(shí)測保留時(shí)間,獲得其他目標(biāo)成分的實(shí)測保留時(shí)間,進(jìn)行兩點(diǎn)驗(yàn)證和多點(diǎn)驗(yàn)證等步驟。采用該發(fā)明提供的高效液相色譜峰保留時(shí)間預(yù)測方法能夠準(zhǔn)確預(yù)測待測樣品的各種成分的色譜峰的保留時(shí)間,進(jìn)而對待測樣品的色譜峰進(jìn)行定性,進(jìn)行待測樣品的鑒別。該發(fā)明所提供的方法具有較高的預(yù)測精度,適用的色譜柱數(shù)量多,明顯優(yōu)于現(xiàn)有的相對保留時(shí)間法。該發(fā)明通過測定各種樣品成分的標(biāo)準(zhǔn)保留時(shí)間,利用標(biāo)記對照成分在待測樣品中的實(shí)驗(yàn)保留時(shí)間,推算其他目標(biāo)成分相對的保留時(shí)間,與本發(fā)明不同,本發(fā)明不需要選擇標(biāo)記成分,只要獲得色譜實(shí)驗(yàn)中任意一部分肽段的實(shí)驗(yàn)保留時(shí)間,就能預(yù)測出已知序列肽段的保留時(shí)間,更加一般化。
發(fā)明創(chuàng)造“一種預(yù)測反相高效液相色譜梯度洗脫模式保留時(shí)間的方法”,該方法獲取描述流動相組成和容量因子關(guān)系的保留方程;運(yùn)用塔板理論對線性多階梯度洗脫條件近似處理,獲取第i階段梯度洗脫的起始體積分?jǐn)?shù)和對應(yīng)的保留因子ki;通過起始體積分?jǐn)?shù)和對應(yīng)的保留因子ki獲取待測化合物在流動相中的濃度,根據(jù)待測化合物在流動相中的濃度計(jì)算出待測化合物保留時(shí)間。該方法高精度的預(yù)測出任意梯度條件下的保留時(shí)間,且預(yù)測過程簡單;通過三個(gè)實(shí)施例驗(yàn)證了該方法的可行性,且當(dāng)保留時(shí)間考慮儀器的滯留時(shí)間時(shí),進(jìn)一步提高了保留時(shí)間的精度。該發(fā)明基于塔板理論,使用人工構(gòu)造的保留方程預(yù)測保留時(shí)間,屬于使用實(shí)驗(yàn)參數(shù)構(gòu)造經(jīng)驗(yàn)公式的方法,與本發(fā)明不同,本發(fā)明不需要構(gòu)造經(jīng)驗(yàn)公式,通過分析并使用多維特征描述實(shí)驗(yàn)肽段在該色譜條件下的理化性質(zhì),就可以預(yù)測待測肽段的保留時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種肽段液相色譜保留時(shí)間預(yù)測方法及系統(tǒng)。
本發(fā)明提出一種肽段液相色譜保留時(shí)間預(yù)測方法,包括:
步驟1,對原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,獲取肽段-譜圖匹配作為鑒定結(jié)果,對于所述鑒定結(jié)果中FDR小于1%的來自目標(biāo)庫的肽段-譜圖匹配,提取肽段-譜圖匹配中相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并設(shè)置訓(xùn)練樣本與測試樣本;
步驟2,使用所述訓(xùn)練樣本,將帶有修飾的氨基酸作為新氨基酸,建立多元線性回歸模型,使用梯度下降法求解每種氨基酸的保留系數(shù);
步驟3,對所述訓(xùn)練樣本中的每條肽段,提取56維特征,并計(jì)算相應(yīng)的特征值;
步驟4,建立預(yù)測模型,對所述測試樣本中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測。
所述步驟1包括:
步驟11,根據(jù)修飾位點(diǎn),對肽段分別進(jìn)行處理;
步驟12,對于同一條肽段對應(yīng)多張二級譜圖的情況,選取得分最高的肽段,提取實(shí)驗(yàn)保留時(shí)間;
步驟13,提取實(shí)驗(yàn)保留時(shí)間時(shí),對于給定質(zhì)荷比的肽段,在連續(xù)的一級譜圖上查找其信號,并記錄所述信號的最高強(qiáng)度,當(dāng)前強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止查找,確定信號的起止點(diǎn),將最高強(qiáng)度對應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間;
步驟24,在處理每條肽段的過程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,并進(jìn)行存儲。
所述步驟2包括:
步驟21,將所述新氨基酸與現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,所述多元線性回歸公式如下:
T=∑(Ri*Ni)+b+ε
其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差;
步驟22,為了避免梯度下降的步長過小,造成收斂速度慢,以及步長過大,導(dǎo)致不收斂,經(jīng)過測試,現(xiàn)將步長設(shè)置為0.000001。
所述步驟4中建立所述建立預(yù)測模型的步驟包括:
步驟41,根據(jù)所述特征值,建立預(yù)測模型,如下所示:
約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n,其中ε≥0,ε表示預(yù)測保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi表示所述預(yù)測模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間;
步驟42,若所述測試樣本中出現(xiàn)所述訓(xùn)練樣本中未出現(xiàn)的修飾,則將帶有所述未出現(xiàn)的修飾的氨基酸按照常規(guī)的氨基酸處理。
本發(fā)明還提出一種肽段液相色譜保留時(shí)間預(yù)測系統(tǒng),包括:匹配模塊,對原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,獲取肽段-譜圖匹配作為鑒定結(jié)果,對于所述鑒定結(jié)果中FDR小于1%的來自目標(biāo)庫的肽段-譜圖匹配,提取肽段-譜圖匹配中相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并設(shè)置訓(xùn)練樣本與測試樣本;
建立多元線性回歸模型模塊,用于使用所述訓(xùn)練樣本,將帶有修飾的氨基酸作為新氨基酸,建立多元線性回歸模型,使用梯度下降法求解每種氨基酸的保留系數(shù);
計(jì)算特征值模塊,用于對所述訓(xùn)練樣本中的每條肽段,提取56維特征,并計(jì)算相應(yīng)的特征值;
建立預(yù)測模型模塊,用于建立預(yù)測模型,對所述測試樣本中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測。
所述匹配模塊包括:
根據(jù)修飾位點(diǎn),對肽段分別進(jìn)行處理;
對于同一條肽段對應(yīng)多張二級譜圖的情況,選取得分最高的肽段,提取實(shí)驗(yàn)保留時(shí)間;
提取實(shí)驗(yàn)保留時(shí)間時(shí),對于給定質(zhì)荷比的肽段,在連續(xù)的一級譜圖上查找其信號,并記錄所述信號的最高強(qiáng)度,當(dāng)前強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止查找,確定信號的起止點(diǎn),將最高強(qiáng)度對應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間;
在處理每條肽段的過程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,并進(jìn)行存儲。
所述建立多元線性回歸模型模塊包括:
將所述新氨基酸與現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,所述多元線性回歸公式如下:
T=Σ(Ri*Ni)+b+ε
其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差;
為了避免梯度下降的步長過小,造成收斂速度慢,以及步長過大,導(dǎo)致不收斂,經(jīng)過測試,現(xiàn)將步長設(shè)置為0.000001。
所述建立預(yù)測模型模塊中建立所述建立預(yù)測模型的步驟包括
根據(jù)所述特征值,建立預(yù)測模型,如下所示:
約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n,其中ε≥0,ε表示預(yù)測保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi表示所述預(yù)測模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間;
若所述測試樣本中出現(xiàn)所述訓(xùn)練樣本中未出現(xiàn)的修飾,則將帶有所述未出現(xiàn)的修飾的氨基酸按照常規(guī)的氨基酸處理。
由以上方案可知,本發(fā)明的優(yōu)點(diǎn)在于:
本發(fā)明能夠自動化調(diào)節(jié)模型核心參數(shù)的策略,一方面可以用于不同色譜條件下帶有修飾的肽段的保留時(shí)間預(yù)測,一方面大大提升了速度,在不同的數(shù)據(jù)集合上與Elude對比,速度加快了30倍以上。
附圖說明
圖1為本發(fā)明流程圖。
具體實(shí)施方式
本發(fā)明的技術(shù)方案可以分為五個(gè)步驟:
步驟1,使用pFind 3(pFind是目前國內(nèi)唯一的具有自主知識產(chǎn)權(quán)的蛋白質(zhì)鑒定引擎)對原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,對于該質(zhì)譜數(shù)據(jù)文件中的每張一級譜圖,得到對應(yīng)的肽段鑒定結(jié)果,即肽譜匹配。
步驟2,對于鑒定結(jié)果中FDR(False Discovery Rate,錯(cuò)誤發(fā)現(xiàn)率)小于1%的來自目標(biāo)庫的肽譜匹配,提取相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并將其隨機(jī)等份地分為不相交的兩部分,分別是訓(xùn)練樣本和測試樣本。pFind 3通過目標(biāo)-誘餌庫方法控制譜圖層面的FDR,取FDR小于1%的來自目標(biāo)庫的肽譜匹配,表示期望肽譜匹配中至少有99%的結(jié)果是正確的,即可信肽譜匹配,可用于訓(xùn)練和測試。
步驟3,使用訓(xùn)練樣本,將帶有修飾的氨基酸當(dāng)做“新氨基酸”,建立多元線性回歸模型,使用梯度下降的方法求解每種氨基酸的保留系數(shù)。
步驟4,對于訓(xùn)練集中的每條肽段,提取56維特征,計(jì)算相應(yīng)的特征值。
步驟5,使用SVR方法建立預(yù)測模型,對測試集中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測。
所述步驟2中還包括
步驟21,對于修飾位點(diǎn)不同的肽段,當(dāng)做不同肽段處理。
步驟22,對于同一條肽段對應(yīng)多張二級譜圖的情況,選取得分最高的肽段,提取它的實(shí)驗(yàn)保留時(shí)間。
步驟23,提取實(shí)驗(yàn)保留時(shí)間時(shí),對于給定質(zhì)荷比的肽段,在連續(xù)的一級譜圖上查找它的信號,記錄當(dāng)前的最高強(qiáng)度,當(dāng)強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止,確定信號的起止點(diǎn),將最高強(qiáng)度對應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間。
步驟24,在處理每條肽段的過程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,記錄在文本文件中。
所述步驟3還包括
步驟31,將步驟2中統(tǒng)計(jì)的修飾作為新的基團(tuán),將帶有修飾的氨基酸當(dāng)做“新氨基酸”,和現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,使用梯度下降的方法求解。多元線性回歸公式如下:
T=∑(Ri*Ni)+b+ε
其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),是待求解的值,Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差。Ri可以取正值和負(fù)值,取負(fù)值時(shí)代表縮短肽段的保留時(shí)間,取正值時(shí)代表延長肽段的保留時(shí)間,T為訓(xùn)練集中的肽段的實(shí)驗(yàn)保留時(shí)間。
步驟32,為了避免梯度下降的步長過小,造成收斂速度慢,以及步長過大,導(dǎo)致不收斂,經(jīng)過測試,現(xiàn)將步長設(shè)置為0.000001。
所述步驟4中還包括
步驟41,對于每一條肽段,計(jì)算56維特征,如表1所示。
表1預(yù)測模型中應(yīng)用的特征
a帶*號的特征在計(jì)算時(shí)需要使用氨基酸的保留系數(shù),當(dāng)數(shù)據(jù)集中全部為常規(guī)肽段,不用處理修飾時(shí),這些特征分別使用步驟3中得到的保留系數(shù)和Kyte-Doolittle疏水性進(jìn)行計(jì)算。當(dāng)數(shù)據(jù)集中包含有修飾的肽段時(shí),只使用步驟3中得到的保留系數(shù)進(jìn)行計(jì)算。#表示特征維數(shù)與新氨基酸的種類有關(guān),為20加上參與計(jì)算的“新氨基酸”的種類。
所述步驟5中還包括
步驟51,用上述56維特征訓(xùn)練SVR模型。SVR模型的目標(biāo)函數(shù)如下:
約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n。其中ε≥0,表示預(yù)測保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi為預(yù)測模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間。||yi-(wTxi+b)||≤ε表示預(yù)測保留時(shí)間和實(shí)際時(shí)間之間相差必須小于ε。
步驟52,若測試集中出現(xiàn)了訓(xùn)練集中未出現(xiàn)的修飾,將帶有修飾的氨基酸按照常規(guī)的氨基酸處理,防止程序崩潰。
本發(fā)明還提出一種肽段液相色譜保留時(shí)間預(yù)測系統(tǒng),包括:
匹配模塊,用于對原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,獲取肽段-譜圖匹配作為鑒定結(jié)果,對于所述鑒定結(jié)果中FDR小于1%的來自目標(biāo)庫的肽段-譜圖匹配,提取肽段-譜圖匹配中相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并設(shè)置訓(xùn)練樣本與測試樣本;
建立多元線性回歸模型模塊,用于使用所述訓(xùn)練樣本,將帶有修飾的氨基酸作為新氨基酸,建立多元線性回歸模型,使用梯度下降法求解每種氨基酸的保留系數(shù);
計(jì)算特征值模塊,用于對所述訓(xùn)練樣本中的每條肽段,提取56維特征,并計(jì)算相應(yīng)的特征值;
建立預(yù)測模型模塊,用于建立預(yù)測模型,對所述測試樣本中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測。
所述匹配模塊包括:
根據(jù)修飾位點(diǎn),對肽段分別進(jìn)行處理;
對于同一條肽段對應(yīng)多張二級譜圖的情況,選取得分最高的肽段,提取實(shí)驗(yàn)保留時(shí)間;
提取實(shí)驗(yàn)保留時(shí)間時(shí),對于給定質(zhì)荷比的肽段,在連續(xù)的一級譜圖上查找其信號,并記錄所述信號的最高強(qiáng)度,當(dāng)前強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止查找,確定信號的起止點(diǎn),將最高強(qiáng)度對應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間;
在處理每條肽段的過程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,并進(jìn)行存儲。
所述建立多元線性回歸模型模塊包括:
將所述新氨基酸與現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,所述多元線性回歸公式如下:
T=∑(Ri*Ni)+b+ε
其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差;
為了避免梯度下降的步長過小,造成收斂速度慢,以及步長過大,導(dǎo)致不收斂,經(jīng)過測試,現(xiàn)將步長設(shè)置為0.000001。
所述建立預(yù)測模型模塊中建立所述建立預(yù)測模型的步驟包括
根據(jù)所述特征值,建立預(yù)測模型,如下所示:
約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n,其中ε≥0,ε表示預(yù)測保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi表示所述預(yù)測模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間;
若所述測試樣本中出現(xiàn)所述訓(xùn)練樣本中未出現(xiàn)的修飾,則將帶有所述未出現(xiàn)的修飾的氨基酸按照常規(guī)的氨基酸處理。