基于生物醫(yī)學大數(shù)據(jù)的生物標記物組合識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于生物學醫(yī)學大數(shù)據(jù)的生物標記物組合識別方法,其步驟包括:1)獲取大量病人和健康人群的血清中蛋白或者代謝小分子的臨床數(shù)據(jù);2)根據(jù)獲取的臨床數(shù)據(jù),采用最近中心分類框架構建標記物組合識別的最優(yōu)化模型;3)對于單個特征進行逐個分析得到單個特征的預測能力,并根據(jù)單個特征的預測能力對所有特征進行排序;4)對有預測能力的特征,將臨床數(shù)據(jù)整理為指定格式輸入到所述標記物組合識別的最優(yōu)化模型中,以對多個標記物組合的預測能力進行評估,并通過最小化分類的誤差確定最優(yōu)的標記物組合。本發(fā)明專門針對標記物組合進行識別,可應用在基因表達,蛋白質(zhì)組等生物醫(yī)學大數(shù)據(jù)中。
【專利說明】基于生物醫(yī)學大數(shù)據(jù)的生物標記物組合識別方法和系統(tǒng)
【技術領域】
[0001]本發(fā)明屬于生物技術、信息技術交叉領域,具體涉及一種基于生物醫(yī)學大數(shù)據(jù)的生物標記物組合識別方法和系統(tǒng)。
【背景技術】
[0002]基于大數(shù)據(jù)的健康管理是個性化醫(yī)療和未來醫(yī)學的前沿趨勢。其中基于臨床數(shù)據(jù)的生物標記物的健康診斷是一個重要的研究熱點,有著廣闊的應用前景。生物標記物是指能將機體的生理和病理狀態(tài)區(qū)分開來的生物分子。例如腫瘤標志物(Tumor Marker)是反映腫瘤存在的化學類物質(zhì)。它們或不存在于正常成人組織而僅見于胚胎組織,或在腫瘤組織中的含量大大超過在正常組織里的含量,它們的存在或量變可以提示腫瘤的性質(zhì),借以了解腫瘤的組織發(fā)生、細胞分化、細胞功能,以幫助腫瘤的診斷、分類、預后判斷以及治療指導(參考文獻 Margaret Sullivan Pepe, Ruth Etzioni, Ziding Feng, JohnD.Potter, Mary Lou Thompson, Mark Thornquist, Marcy Winget and Yutaka Yasui,Phasesof Biomarker Development for Early Detection of Cancer.JNCI J Natl CancerInst (2001)93(14):1054-1061.)?
[0003]篩選到可用于腫瘤早期發(fā)現(xiàn)、早期診斷的生物標記物可大大提高腫瘤患者的臨床治療效果。最新數(shù)據(jù)顯示腫瘤組織普遍具有特征性的蛋白,miRNA、代謝小分子等分子層面的差異表達譜,即指腫瘤細胞某幾種蛋白、miRNA、或代謝小分子的表達水平常與同一組織中的正常細胞存在顯著差異,而特征性的蛋白、miRNA、或代謝小分子異常表達可望成為用于腫瘤的診斷、病理分級、臨床分期、療效與預后的生物標記物,顯示了良好的臨床應用前
旦
o`[0004]近年來研究人員發(fā)現(xiàn)在血清中也存在獨立于細胞之外并且即使在嚴酷環(huán)境下也能明顯保持穩(wěn)定的蛋白、miRNA、或代謝小分子,而作為生物檢測樣本,血清具有取材方便、無創(chuàng)傷性、并可連續(xù)的體外檢測的優(yōu)點,使得基于蛋白、miRNA、或代謝小分子定性和定量檢測技術尋找癌癥特異性的血清蛋白、miRNA、或代謝小分子作為分子標記的方法比傳統(tǒng)的方法將更加有效,進而可以克服分子標記在抗體制備和定量分析上發(fā)展所遇到的瓶頸。因此,開發(fā)一種可輔助復雜疾病篩查和診斷的血清蛋白、miRNA、或代謝小分子作為生物標記物,具有廣泛的科研價值和臨床應用前景。
[0005]全自動生化分析儀是根據(jù)光電比色原理來測量體液中某種特定化學成分的儀器。由于其測量速度快、準確性高、消耗試劑量小,現(xiàn)已在各級醫(yī)院、防疫站、計劃生育服務站得到廣泛使用。配合使用可大大提高常規(guī)生化檢驗的效率及收益。用于檢測、分析生命化學物質(zhì)的儀器,給臨床上對疾病的診斷、治療和預后及健康狀態(tài)提供信息依據(jù)。利用全自動生化分析儀可以低成本、迅速地獲取病人或者正常人血清中的蛋白或者代謝小分子的濃度。
[0006]通過全自動生化分析儀可以測量到大量病人和健康人群的血清中的蛋白或者代謝小分子的濃度數(shù)據(jù),一個直接的應用就是構建模型,來對比健康人群和病人的不同,找到明顯差異的蛋白或者代謝小分子,作為生物標記物,并進一步基于他們對新的樣本和測量數(shù)據(jù)進行健康評估或者診斷。一般來說,這對單個分子而言,可以通過比較該分子在健康和病人人群值的差異,計算差異倍數(shù),并作嚴格的統(tǒng)計分析,可以得到有區(qū)分能力的單個標記物。
[0007]但是單個標記物在預測的穩(wěn)定性、精度等方面存在不足,急需研究新的方法來使用兩個或更多種標記物的測量結果來改進檢查中的診斷問題。當然一種十分簡單但通常仍然很有效的方法就是直接對有預測能力的單個分子標記物進行疊加,即如果樣品對被檢標記物的至少一種呈陽性,則認為是陽性結果。但是,對于復雜疾病而言,更為重要的、更為關心的是對標記物之間的非線性組合的發(fā)現(xiàn),及組合中單個標記物的預測能力都很弱,但是組合之后卻有很好、很穩(wěn)定的預測能力。在本發(fā)明中,我們提出一種新的方法來識別生物標記物的組合。有了這樣的組合,通過對標記物組合中的標記物的測量值,例如,兩種蛋白的在血清中濃度的測量值,在數(shù)學上進行組合,并將組合值用于疾病的診斷的(參考文獻Sophie Brouard,Elaine Mansfield, Christophe Braud,Li Li,Magali Giral, Szu-chuanHsieh,Dominique Baeten, Meixia Zhang,Joanna Ashton—Chess,Cecile Braudeau,F(xiàn)rankHsieh,Alexandre Dupont, Annaik Pallier,Anne Moreau, Stephanie Louis, CatherineRuiz,Oscar Salvatierra, Jean-Paul Soulillou,and Minnie Sarwal,Identification ofa peripheral blood transcriptional biomarker panel associated with operationalrenal allograft tolerance,PNAS2007104(39)15448-15453)。
[0008]標記物的組合可以通過數(shù)學建模的辦法來識別。海量的高維數(shù)據(jù)分析與建模對數(shù)學方法帶來了極大的挑戰(zhàn)。構建將數(shù)據(jù)維數(shù)降低、利于進一步處理、可視化和理解信息的數(shù)學模型,已成為各科學領域面對的一個共同問題。特別在生物醫(yī)學交叉研究中,高通量測序、芯片等實驗手段的快速發(fā)展產(chǎn)生了海量的高維數(shù)據(jù),對這些數(shù)據(jù)進行高效的、保留較強生物解釋性的降維是計算生物學研究的核心問題。該問題在人工智能和機器學習領域也被稱為特征選擇,是一個根據(jù)一定的評估準則最優(yōu)地從初始高維特征集合中選出低維特征集合的過程,作為一個困難問題長期存在(參考文獻Isabelle Guyon andAndreElisseeff.2003.An introduction to variable and feature selection.J.Mach.Learn.Res.3(March2003), 1157-1182.)。
[0009]目前流行的生物標志物識別的方法主要針對單個標記物,單個標記物在預測精度、穩(wěn)定性方面尚難令人滿意。此外簡單的將一些單個有預測能力的標記物組合在一起,在臨床數(shù)據(jù)是高維數(shù)據(jù)時,傾向于選出過多的標記物,不能去除高度相關的、冗余的生物標記物,不能發(fā)現(xiàn)標記物之間的非線性的組合效應。除此之外,現(xiàn)有的方法將分類和特征選擇割裂進行處理,未能實現(xiàn)同時最優(yōu)化。從實用角度講,現(xiàn)有的技術也未能將生物標記物組合的檢測,建模和驗證形成一個實用的計算系統(tǒng)。
【發(fā)明內(nèi)容】
[0010]本發(fā)明針對可用于腫瘤早期發(fā)現(xiàn)、早期診斷的生物標記物組合識別問題,提出了一種基于最優(yōu)化理論與算法的生物標記物組合識別的新方法。該方法分析全自動生化分析儀測量血清中分子濃度獲取的臨床數(shù)據(jù),通過求解生物標記物組合識別的數(shù)學模型,得到分類性能最好、同時標記物個數(shù)最少的生物標記物組合。
[0011]本發(fā)明采用的技術方案如下:[0012]一種基于生物學醫(yī)學大數(shù)據(jù)的生物標記物組合識別方法,其步驟包括:
[0013]I)獲取大量病人和健康人群的血清中蛋白或者代謝小分子的臨床數(shù)據(jù);
[0014]2)根據(jù)獲取的臨床數(shù)據(jù),采用最近中心分類框架構建標記物組合識別的最優(yōu)化模型;
[0015]3)對于單個特征進行逐個分析得到單個特征的預測能力,并根據(jù)單個特征的預測能力對所有特征進行排序;
[0016]4)對有預測能力的特征,將臨床數(shù)據(jù)整理為指定格式輸入到所述標記物組合識別的最優(yōu)化模型中,以對多個標記物組合的預測能力進行評估,并通過最小化分類的誤差確定最優(yōu)的標記物組合。
[0017]進一步地,步驟I)利用全自動生化分析儀從血清中獲取所述臨床數(shù)據(jù);對獲取的臨床數(shù)據(jù)進行預處理,包括數(shù)據(jù)的標準化,無量綱化,以及去除異常數(shù)據(jù)點。
[0018]進一步地,步驟2)所述標記物組合識別的最優(yōu)化模型為混合整數(shù)規(guī)劃模型,通過求解下式得到:
【權利要求】
1.一種基于生物學醫(yī)學大數(shù)據(jù)的生物標記物組合識別方法,其步驟包括: 1)獲取大量病人和健康人群的血清中蛋白或者代謝小分子的臨床數(shù)據(jù); 2)根據(jù)獲取的臨床數(shù)據(jù),采用最近中心分類框架構建標記物組合識別的最優(yōu)化模型; 3)對于單個特征進行逐個分析得到單個特征的預測能力,并根據(jù)單個特征的預測能力對所有特征進行排序; 4)對有預測能力的特征,將臨床數(shù)據(jù)整理為指定格式輸入到所述標記物組合識別的最優(yōu)化模型中,以對多個標記物組合的預測能力進行評估,并通過最小化分類的誤差確定最優(yōu)的標記物組合。
2.如權利要求1所述的方法,其特征在于:步驟2)所述標記物組合識別的最優(yōu)化模型為混合整數(shù)規(guī)劃模型,通過求解下式得到:
3.如權利要求2所述的方法,其特征在于,步驟3)計算單個特征的預測能力的方法是:分別計算單個特征預測能力的ROC曲線下面積,進而繪制單個特征的火山圖,并對單個特征的預測能力進行總的評估。
4.如權利要求2所述的方法,其特征在于:步驟3)對所有特征進行排序時,刪除沒有預測能力的特征。
5.如權利要求2所述的方法,其特征在于:步驟4)通過變動參數(shù)k來求解多次模型,同時記錄分類精度的變化,當分類精度最大時得到的最優(yōu)解即為模型最終輸出的最優(yōu)的標記物組合。
6.如權利要求5所述的方法,其特征在于:步驟4)通過變動參數(shù)k求解多次模型的具體方法是: a)當k=l時求解模型,得到的最優(yōu)解與單個特征的預測能力進行對比; b)當k=2,3時求解模型,得到的最優(yōu)解與基于支持向量機等其他分類器的窮舉法得到的結果進行比較; c)當k>4時求解模型,對于每個k得到的最優(yōu)標記物組合,利用支持向量機等其他分類器進行精度評估; d)比較當k變化時預測精度的變化趨勢,識別最優(yōu)的生物標記物組合。
7.如權利要求1或2所述的方法,其特征在于:對獲取的臨床數(shù)據(jù)進行預處理,包括數(shù)據(jù)的標準化,無量綱化,以及去除異常數(shù)據(jù)點。
8.一種實現(xiàn)上述方法的基于生物醫(yī)學大數(shù)據(jù)的生物標記物組合識別系統(tǒng),包括: 臨床數(shù)據(jù)獲取模塊,用于獲取大量病人和健康人群的血清中的蛋白或者代謝小分子的臨床數(shù)據(jù); 最優(yōu)化模型構建模塊,用于根據(jù)獲取的臨床數(shù)據(jù)構建標記物組合識別的最優(yōu)化模型; 單標記物預測能力評估模塊,用于對單個特征進行逐個分析得到單個特征的預測能力; 多標記物預測能力評估模塊,用于對有預測能力的特征,將臨床數(shù)據(jù)整理為指定格式輸入到所述標記物組合識別 的最優(yōu)化模型中,以對多個標記物組合的預測能力進行評估,并最終確定最優(yōu)的標記物組合。
9.如權利要求8所述的系統(tǒng),其特征在于:所述臨床數(shù)據(jù)獲取模塊為全自動生化分析儀。
10.如權利要求8所述的系統(tǒng),其特征在于:所述最優(yōu)化模型構建模塊對獲取的臨床數(shù)據(jù)進行預處理,包括數(shù)據(jù)的標準化,無量綱化,以及去除異常數(shù)據(jù)點。
【文檔編號】G06F19/10GK103761451SQ201410001304
【公開日】2014年4月30日 申請日期:2014年1月2日 優(yōu)先權日:2014年1月2日
【發(fā)明者】王勇, 鄒猛, 張朋軍, 陳洛南, 田亞平 申請人:中國科學院數(shù)學與系統(tǒng)科學研究院