一種基于序列使用代價敏感集成和聚類預(yù)測表位的方法
【專利摘要】本發(fā)明屬于計算生物信息技術(shù),具體涉及一種基于序列使用代價敏感集成和聚類預(yù)測表位的方法。主要步驟包括:(1)構(gòu)建抗原蛋白殘基的描述性特征,這些特征包括進(jìn)化保守性特征、二級結(jié)構(gòu)特征、無序區(qū)域特征、二肽構(gòu)成特征、理化屬性;(2)使用Fisher?Markov和增量迭代特征選擇方法選擇最優(yōu)特征子集;(3)使用代價敏感性集成學(xué)習(xí)處理不平衡數(shù)據(jù)集;(4)使用空間聚類算法從抗原決定殘基中預(yù)測潛在的表位殘基。本發(fā)明適用于已知和未知結(jié)構(gòu)信息的抗原蛋白表位預(yù)測,也適合大規(guī)模推廣應(yīng)用。
【專利說明】
一種基于序列使用代價敏感集成和聚類預(yù)測表位的方法
[0001]
技術(shù)領(lǐng)域
[0002] 本發(fā)明屬于計算生物信息技術(shù),具體涉及一種基于序列使用代價敏感集成和聚類 預(yù)測表位的方法。
[0003]
【背景技術(shù)】
[0004] 隨著經(jīng)濟(jì)的發(fā)展和生活水平的提高,對衣食住行的需求已經(jīng)不像短缺經(jīng)濟(jì)時代那 樣無法滿足。人們將注意力轉(zhuǎn)移到健康,相應(yīng)的產(chǎn)業(yè)都迎來高速發(fā)展。隨著中國逐步進(jìn)入老 齡化社會,國家和個人在醫(yī)藥上的投入逐年增加。生物制藥和疫苗生產(chǎn)領(lǐng)域面臨巨大的機(jī) 遇。據(jù)統(tǒng)計,一個人60歲以后的醫(yī)療支出平均占據(jù)其一生醫(yī)療費(fèi)用支出的50%以上。2010年, 全球醫(yī)藥疫苗市場接近250億美元,2014年達(dá)到了 500億美元,短短4年時間市場規(guī)模翻了一 倍。據(jù)估計,這一市場到2025年將上升到2000億美金。
[0005] 制藥疫苗市場是醫(yī)藥市場中最前沿,科技含量最高的領(lǐng)域之一。一款新型高效藥 物的研發(fā)往往多大數(shù)年甚至數(shù)十年,這一方面需要大量科研人才的長期專注研究,另一方 面也需要大量科研資金和先進(jìn)設(shè)備的支撐。新型藥物的研制成功,不僅能夠給千百萬疾病 患者帶來福音,同時也意味著巨大的財富效應(yīng)和社會效益。追求制藥和疫苗市場的制高點(diǎn), 已經(jīng)成為歐美發(fā)達(dá)國家生命科學(xué)發(fā)展的重中之重。中國政府對于制藥疫苗領(lǐng)域也越來越重 視。近些年,醫(yī)藥學(xué)科蓬勃發(fā)展,醫(yī)療設(shè)備不斷研制更新,醫(yī)學(xué)知識在普通民眾中得到深入 普及。針對制藥、疫苗以及相關(guān)領(lǐng)域,最近十幾年里,國家在科技、資金、政策人才等各個方 面都投入巨大。
[0006] 從理論上說,制藥和疫苗的關(guān)鍵點(diǎn)在于準(zhǔn)確定位抗原表位,并在此基礎(chǔ)上設(shè)計出 相對應(yīng)的免疫干預(yù)抗體或者人工疫苗。目前,定位抗原表位最可靠的方法是通過抗原-抗體 復(fù)合體晶體衍射以及核磁共振的方法獲得復(fù)合體的空間結(jié)構(gòu);然后針對復(fù)合體的空間結(jié) 構(gòu),探究其表面潛在的表位。然而這種實驗方法需要很高的技術(shù)要求以及大量的人力和資 金支持。如果獲得的結(jié)構(gòu)分辨率較低或者制成品失敗,需要一切重新開始。
[0007] 采用計算方法精確的預(yù)測B細(xì)胞表位可以有助于人們更好的了解抗原-抗體的分 子相互作用機(jī)制,也可以一些疾病的預(yù)防、治療和診斷帶來希望,因此這方面的研究兼具理 論價值與積極的現(xiàn)實意義。2003年SARS疫情發(fā)展的關(guān)鍵時期,華大基因、北京大學(xué)、復(fù)旦大 學(xué)等科研機(jī)構(gòu)通過計算SARS病毒表位,在短短幾個月內(nèi)制作出第一批疫苗。這一成果振奮 人心,并極大地促進(jìn)了表位預(yù)測領(lǐng)域的發(fā)展。雖然目前構(gòu)象抗原表位預(yù)測方面的研究還不 成熟,但已有越來越多的研究人員認(rèn)識到此項研究的重要性,并開始專注于這方面的工作。
[0008]
【發(fā)明內(nèi)容】
[0009]本發(fā)明主要針對當(dāng)前抗原表位預(yù)測技術(shù)中的缺點(diǎn),提供一種基于序列使用代價敏 感集成和聚類預(yù)測表位的方法。該方法集中了能夠準(zhǔn)確描述抗原決定殘基和非抗原決定殘 基的特征,同時結(jié)合高效的特征選擇方法,從抗原蛋白一級序列中識別出潛在的抗原決定 殘基,然后使用空間聚類算法將聚集的抗原決定殘基篩選出來作為表位,設(shè)計巧妙,準(zhǔn)確率 大幅較高,同時也適于大規(guī)模推廣應(yīng)用。
[0010] 為了實現(xiàn)上述目的,本發(fā)明的基于序列使用代價敏感集成和聚類預(yù)測表位的方 法,其特點(diǎn)是,包括以下步驟: (1)特征構(gòu)建:根據(jù)對抗原表面殘基特性的分析,計算抗原決定殘基和非抗原決定殘基 的描述性特征。
[0011] (2)特征選擇:對于構(gòu)造的全特征矩陣,選擇區(qū)分度較高,描述性較為準(zhǔn)確的特征, 并在此基礎(chǔ)上構(gòu)建最優(yōu)特征子集。
[0012] (3)集成學(xué)習(xí):為了解決數(shù)據(jù)樣本不平衡問題和提高預(yù)測性能,使用集成學(xué)習(xí)策略 構(gòu)建一組分類器。
[0013] (4)表位預(yù)測:通過樣本表位預(yù)測分析,計算表位分布空間閾值。對于在閾值內(nèi)聚 集的超過3個的預(yù)測的抗原決定殘基,認(rèn)定其能潛在構(gòu)成表位。
[0014] 本發(fā)明的有益效果具體在于: 1.本發(fā)明基于抗原蛋白的一級序列,可以針對未知結(jié)構(gòu)的新型蛋白質(zhì)進(jìn)行分析探測, 應(yīng)用面較廣;結(jié)合抗原蛋白各種描述性特征和巧妙的Fisher-Markov特征選擇和增量特征 選擇策略,用以區(qū)分抗原決定殘基和非抗原決定殘基。
[0015] 2.本發(fā)明相對于傳統(tǒng)的預(yù)測表位的方法(即只預(yù)測殘基,不考慮殘基的聚集傾向 性),增加了對于預(yù)測結(jié)果的進(jìn)一步分析,這種分析基于對于現(xiàn)實中表位的聚集傾向性。此 方法更加準(zhǔn)確的反映了蛋白質(zhì)抗原表位空間的特點(diǎn),使得預(yù)測結(jié)果更加真實可靠。
[0016]
【附圖說明】
[0017] 圖1為本發(fā)明基于序列使用代價敏感集成和聚類預(yù)測表位的方法的流程圖。
[0018] 圖2為本發(fā)明實驗中蛋白質(zhì)1PK0的抗原決定殘基預(yù)測及聚類分析。圖中標(biāo)識了兩 個表位集團(tuán)(1和2),灰色部分為正常蛋白質(zhì)殘基,黑色部分為抗原決定殘基。左側(cè)圈中的黑 色部分與右側(cè)圈中的黑色部分的抗原決定殘基根據(jù)設(shè)定閾值,分別隸屬于兩個表位集團(tuán)。
[0019]
【具體實施方式】
[0020] 為了更加細(xì)致清楚地理解本發(fā)明的技術(shù)內(nèi)容,結(jié)合圖1、圖2對本發(fā)明進(jìn)行詳細(xì)的 描述。特別地,實施案例僅用于說明本發(fā)明,而非對本發(fā)明的限制。
[0021] 本發(fā)明的基于序列使用代價敏感集成和聚類預(yù)測表位的方法,包括以下步驟: (1)特征構(gòu)建:根據(jù)對抗原表面殘基特性的分析,計算抗原決定殘基和非抗原決定殘基 的描述性特征。
[0022] (2)特征選擇:對于構(gòu)造的全特征矩陣,選擇區(qū)分度較高,描述性較為準(zhǔn)確的特征, 并在此基礎(chǔ)上構(gòu)建最優(yōu)特征子集。
[0023] (3)集成學(xué)習(xí):為了解決數(shù)據(jù)樣本不平衡問題和提高預(yù)測性能,使用集成學(xué)習(xí)策略 構(gòu)建一組分類器。
[0024] (4)表位預(yù)測:通過樣本表位預(yù)測分析,計算表位分布空間閾值。對于在閾值內(nèi)聚 集的超過3個的預(yù)測的抗原決定殘基,認(rèn)定其能潛在構(gòu)成表位。
[0025]所述步驟(1)具體包括以下步驟: (1.1) 使用PSIBLAST計算抗原蛋白質(zhì)序列的位置特異性打分(PSSM)矩陣,對于序列中 某一位置殘基替換成其他殘基的得分,使用logistics函數(shù)進(jìn)行歸一化處理: 其中X為PSSM矩陣中某一位置殘基替換成其他殘基的得分,某一殘基的進(jìn)化保守性特 征為該殘基序列位置前5位以及后5位窗口長度內(nèi)所有的進(jìn)化保守性得分。
[0026] (1.2)使用PSIPRED計算抗原蛋白質(zhì)上每一個殘基形成二級結(jié)構(gòu)(螺旋、卷曲或折 疊)的概率矩陣。某一殘基的二級結(jié)構(gòu)特征為該殘基序列位置前5位以及后5位窗口長度內(nèi) 所有的二級結(jié)構(gòu)概率矩陣。
[0027] (1.3)使用DISORDER計算抗原蛋白質(zhì)上每一個殘基落在蛋白質(zhì)無序區(qū)域上的概 率,考慮到周圍殘基會對中心殘基廣生影響,因此中心殘基的無序區(qū)域特征為該殘基序列 位置前5位以及后5位窗口長度內(nèi)所有的無序區(qū)域概率矩陣。
[0028] (1.4)殘基對,即兩兩作用的殘基組合,在形成蛋白質(zhì)功能集團(tuán)中發(fā)揮重要的作 用,并且廣泛用于分析和預(yù)測蛋白質(zhì)結(jié)構(gòu)和功能位點(diǎn)。自然狀態(tài)下的氨基酸一共有20種,因 此,相對應(yīng)的氨基酸對為20 X 20=400種,ΒΓΑΑ,AC,…,VV"。
[0029] (1.5)物理化學(xué)屬性與蛋白質(zhì)殘基的功能密切相關(guān),這里選擇6種理化屬性:親水 性,柔性,可及性,極性,暴露表面,轉(zhuǎn)角。
[0030] 所述步驟(2)具體包括以下步驟: (2.1) 使用Fisher-Markov計算所述步驟(1)中每一個特征與類別標(biāo)簽的相關(guān)性得分, 將相關(guān)性得分從大到小依次排列,得分越高表明該特征與類別標(biāo)簽的相關(guān)性更強(qiáng),反之則 表明相關(guān)性較弱。
[0031] (2.2)對于所述步驟(2.1)計算獲得的相關(guān)性得分列表,使用增量迭代策略選擇最 優(yōu)特征子集。首先,從上述排列好的特征中,從相關(guān)性高到低依次添加特征到特征池中并構(gòu) 建相應(yīng)的分類器進(jìn)行建模和預(yù)測,將預(yù)測性能記錄并繪制圖表,選擇圖表中的峰值對應(yīng)的 特征數(shù)目以及相應(yīng)的特征子集為最優(yōu)特征子集。
[0032]所述步驟(3)具體包括以下步驟: (3.1) 傳統(tǒng)機(jī)器學(xué)習(xí)是建立在平衡數(shù)據(jù)集的基礎(chǔ)上的,在模型構(gòu)建的過程中,對于正負(fù) 樣本的錯誤罰分是一樣的。傳統(tǒng)機(jī)器學(xué)習(xí)算法通過尋優(yōu)獲得最小的罰分獲得最佳的預(yù)測性 能??墒菍τ诓黄胶鈹?shù)據(jù)集(正負(fù)樣本比例嚴(yán)重失衡),傳統(tǒng)機(jī)器學(xué)習(xí)算法的這種尋找最小 罰分往往傾向于將小比例類別當(dāng)做噪聲數(shù)據(jù)過濾掉,從而使得小比例類別得不到學(xué)習(xí)???慮到這種情況,我們引入代價敏感策略,對于正負(fù)樣本的錯誤識別給予不同的罰分,即小比 例類別的錯誤識別罰分高,大比例類別的錯誤識別罰分低。
[0033] (3.2)雖然單個弱分類器的識別效能較弱,但是多個弱分類器的有機(jī)組合能夠使 得識別效能超過各個子分類器中識別效能最好的那個。
[0034] 所述步驟(4)具體包括以下步驟: (4.1) 首先獲取樣本數(shù)據(jù)中所有已知表位的抗原蛋白質(zhì)的三維結(jié)構(gòu)數(shù)據(jù),并且獲得所 有的表位相對應(yīng)的三維坐標(biāo)。
[0035] (4.2)對于每一個表位,統(tǒng)計其與其他殘基的距離。根據(jù)最大富集密度和最少聚類 集團(tuán)的原則,確定平均聚類空間球體的半徑。
[0036] (4.3)根據(jù)(4.2)步驟統(tǒng)計所得的半徑,將所有預(yù)測的抗原決定殘基進(jìn)行區(qū)域劃 分,對于聚集在一起的預(yù)測數(shù)據(jù),認(rèn)定為潛在可以構(gòu)成表位的殘基;對于一個或兩個遠(yuǎn)離聚 集區(qū)域的預(yù)測抗原決定殘基,認(rèn)定為假陽數(shù)據(jù)。
[0037] 1.數(shù)據(jù)集包括兩個部分:RubinStein的綁定數(shù)據(jù)集(有抗原抗體復(fù)合體結(jié)構(gòu)), Liang的非綁定數(shù)據(jù)集(有抗原無抗體的單一結(jié)構(gòu))。此數(shù)據(jù)集為構(gòu)象表位預(yù)測的基準(zhǔn)數(shù)據(jù) 集。
[0038] 2.抗原蛋白質(zhì)殘基的特征描述:具體內(nèi)容見表1. 表1.抗原蛋白質(zhì)殘基的特征描述
在創(chuàng)建的特征空間中進(jìn)行Fisher-Markov和增量特征迭代獲取最優(yōu)特征子集之后,在 綁定和非綁定數(shù)據(jù)集上分別使用傳統(tǒng)方法和集成學(xué)習(xí)方法,并比較其與代價敏感集成策略 的預(yù)測效果。表2和表3給出了不同集成學(xué)習(xí)方法在綁定和非綁定數(shù)據(jù)集上的預(yù)測結(jié)果。 [0039]表2不同集成學(xué)習(xí)方法在綁定數(shù)據(jù)集上的結(jié)果比較
從表2和表3中可以看出,傳統(tǒng)機(jī)器學(xué)習(xí)方法在不平衡數(shù)據(jù)集上幾乎沒有預(yù)測能力,雖 然其準(zhǔn)確率均超過90%,但是這是建立在它幾乎把所有的樣本毫無差別的作為負(fù)樣本對待 導(dǎo)致的結(jié)果,因此特異性非常高(達(dá)到99.9%)而敏感性特別低,大約只有1%。
[0040] 相比于不對樣本進(jìn)行任何處理的傳統(tǒng)方法,簡單集成在對于少數(shù)類的識別上有了 較大的提高,在綁定數(shù)據(jù)集上,從0.8%提高到19.6%;在非綁定數(shù)據(jù)集上,從1.1%提高到了 25.6%。簡單集成策略是對整體樣本中進(jìn)行多輪隨機(jī)采樣,每一組采樣均生成獨(dú)立的分類模 型。簡單集成策略是最簡單的集成分類策略,它的優(yōu)點(diǎn)是實現(xiàn)簡單,速度較快,缺點(diǎn)是性能 有限。
[0041] 平衡級聯(lián)集成策略在簡單集成的基礎(chǔ)上做了改進(jìn)。在平衡級聯(lián)的采樣中,多數(shù)類 已經(jīng)采樣過的數(shù)據(jù)不再參與之后的采樣,這樣能夠保證樣本能夠較大范圍的覆蓋盡可能多 的數(shù)據(jù)。相對于簡單集成策略,平衡級聯(lián)的預(yù)測效果有一定的進(jìn)步。
[0042] 代價敏感性集成策略對于正負(fù)樣本賦予不同的代價值,通過尋找最佳的分類預(yù)測 結(jié)果代價期望值,使得分類器自動尋求最小的預(yù)測錯誤懲罰值。這種方法,能夠使得每一個 子分類器都將注意力集中到少數(shù)類的樣本中,從而大大提高了對于少數(shù)類樣本的識別率。 代價敏感性策略在綁定和非綁定數(shù)據(jù)集上分別達(dá)到了64.8%和70.4%的識別率,證明了該方 法的有效性。
[0043]相比于傳統(tǒng)的制藥疫苗方法,使用計算的方法預(yù)測抗原蛋白質(zhì)表位能夠高效快速 的提供潛在的候選表位,這能夠為生物學(xué)家提供現(xiàn)實幫助,降低醫(yī)藥研發(fā)中的巨額資金投 入帶來的風(fēng)險。相對于以前的研究方法,本發(fā)明有兩大創(chuàng)新點(diǎn):1.首次使用代價敏感性集成 策略,將預(yù)測的重點(diǎn)從泛化的準(zhǔn)確率轉(zhuǎn)移到對于少數(shù)類(正樣本)數(shù)據(jù)的預(yù)測,顯著地提高 了預(yù)測效果;2.使用空間聚類算法對于預(yù)測的結(jié)果進(jìn)一步分析,將零散分布的殘基去除掉, 同時認(rèn)定聚集在一起的預(yù)測抗原決定殘基能夠構(gòu)成潛在的表位。這種方法能夠進(jìn)一步提高 預(yù)測精度,具有較高的現(xiàn)實意義。
【主權(quán)項】
1. 一種基于序列使用代價敏感集成和聚類預(yù)測表位的方法,其特征在于包括以下步 驟: (1) 特征構(gòu)建:對于樣本數(shù)據(jù),計算抗原蛋白描述性特征,得到樣本數(shù)據(jù)的特征空間; (2) 特征選擇:使用Fisher-Markov和增量迭代特征選擇方法選擇最優(yōu)特征子集; (3) 代價敏感性集成學(xué)習(xí):使用代價敏感集成策略,對于嚴(yán)重不平衡的樣本分別賦以不 同的錯誤分類懲罰參數(shù),顯著提高對于少數(shù)正樣本的識別率; (4) 空間聚類:對于預(yù)測的抗原決定殘基,使用空間聚類算法,對于在設(shè)定閾值內(nèi)的抗 原決定殘基,認(rèn)定其為表位。2. 根據(jù)權(quán)利要求1所述的基于序列使用代價敏感集成和聚類預(yù)測表位的方法,其特征 在于所述步驟(1)具體包括以下步驟: (1.1) 進(jìn)化保守性特征:使用PSIBLAST計算抗原序列的位置特異性打分矩陣;在所獲得 的打分矩陣上,對于每一個氨基酸替代值,使用logistic函數(shù)進(jìn)行歸一化,得到此位置的進(jìn) 化保守性得分;某一殘基的進(jìn)化保守性特征為該殘基序列位置前5位以及后5位窗口長度內(nèi) 所有的進(jìn)化保守性得分; (1.2) 二級結(jié)構(gòu)特征:使用PSIPRED計算抗原蛋白質(zhì)上每一個殘基形成二級結(jié)構(gòu)即螺 旋、卷曲或折疊的概率矩陣;某一殘基的二級結(jié)構(gòu)特征為該殘基序列位置前5位以及后5位 窗口長度內(nèi)所有的二級結(jié)構(gòu)概率矩陣; (1.3) 無序區(qū)域特征:使用DISORDER計算抗原蛋白質(zhì)上每一個殘基所屬區(qū)域是有序區(qū) 域還是無序區(qū)域的概率矩陣;某一殘基的無序區(qū)域特征為該殘基序列位置前5位以及后5位 窗口長度內(nèi)所有的無序區(qū)域概率矩陣; (1.4) 二妝構(gòu)成特征:殘基在蛋白質(zhì)中往往兩兩結(jié)合形成穩(wěn)定的功能殘基對,這種殘基 對對于分析和預(yù)測蛋白質(zhì)結(jié)構(gòu)和功能具有很重要的意義;根據(jù)20種氨基酸不同的組合方 式,統(tǒng)計某一個蛋白質(zhì)上400種不同的二肽構(gòu)成; (1.5) 理化屬性:選擇6種已證明與抗原蛋白殘基功能密切相關(guān)的物理化學(xué)屬性,即親 水性,柔性,可及性,極性,暴露表面,轉(zhuǎn)角6種屬性; 所述步驟(2 )具體包括以下步驟; (2.1) 使用Fi sher-Markov方法將特征進(jìn)行排序:使用Fi sher-Markov選擇器計算所述 步驟(1)中每一個特征與類別標(biāo)簽的相關(guān)性,并根據(jù)相關(guān)性的數(shù)值從大到小排列; (2.2) 使用增量特征策略選擇最優(yōu)特征子集:使用增量特征策略,從上述排列好的特征 中,從相關(guān)性高到低依次添加特征到特征池中并構(gòu)建分類器進(jìn)行建模學(xué)習(xí)和預(yù)測,并根據(jù) 預(yù)測性能選擇最佳的特征數(shù)目,所對應(yīng)的特征子集即為最優(yōu)特征子集; 所述步驟(3 )具體包括以下步驟: (3.1) 使用代價敏感性集成思想處理正負(fù)樣本數(shù)據(jù)嚴(yán)重不平衡問題:傳統(tǒng)機(jī)器學(xué)習(xí)方 法在正負(fù)樣本不平衡分類問題上效果較差,這是由于其先天缺陷即傾向于忽略少數(shù)類以追 求較高的準(zhǔn)確率所造成的;引入代價敏感性集成思想來處理正負(fù)樣本不平衡的問題,首先 對于正負(fù)樣本分別賦予不同的代價,錯誤識別正負(fù)樣本對預(yù)測效果的懲罰不同,分類器為 了追求較好的效果,會重視對于少數(shù)類的識別; (3.2) 使用支持向量機(jī)構(gòu)建子分類器:使用LibSVM作為基礎(chǔ)機(jī)器學(xué)習(xí)工具構(gòu)建基礎(chǔ)分 類器,使用81^(18631'〇11;1;'(^5\^[.1]1尋找最優(yōu)參數(shù)〇和值 ;通過多個子分類器,構(gòu)成集成分類 器,提高模型識別準(zhǔn)確率; 所述步驟(4)中,根據(jù)表位一般具有富集在同一區(qū)域的現(xiàn)象,將預(yù)測的抗原決定殘基進(jìn) 行空間聚類,并指出聚類密度較大的區(qū)域是潛在構(gòu)成表位可能性較高的區(qū)域,具體包括以 下步驟: (4.1) 統(tǒng)計樣本數(shù)據(jù)中已知表位的抗原蛋白質(zhì)表面的抗原決定殘基的空間分布坐標(biāo); 根據(jù)最大富集密度和最少聚類集團(tuán)的原則,將所有抗原決定殘基進(jìn)行聚類,獲得其平均聚 類空間球體的半徑; (4.2) 根據(jù)計算得到的聚類空間球體的半徑,將前期預(yù)測的抗原決定殘基進(jìn)行聚類劃 分,抗原決定殘基富集的區(qū)域內(nèi)所有的殘基被認(rèn)定為表位;僅有一個或者兩個預(yù)測的抗原 決定殘基的區(qū)域被認(rèn)為是假陽數(shù)據(jù),即非表位。
【文檔編號】G06F19/18GK105868583SQ201610207437
【公開日】2016年8月17日
【申請日】2016年4月6日
【發(fā)明人】馬志強(qiáng), 張健, 柴海挺, 高博
【申請人】東北師范大學(xué)