本發(fā)明涉及腫瘤標(biāo)志物技術(shù)領(lǐng)域,具體涉及一種基于多層復(fù)雜網(wǎng)絡(luò)篩選腫瘤蛋白質(zhì)標(biāo)志物的方法。
背景技術(shù):
癌癥是嚴(yán)重威脅人類生存和社會發(fā)展的重大疾病和嚴(yán)重的公共衛(wèi)生問題之一,癌癥控制已成為世界各國政府的衛(wèi)生戰(zhàn)略重點(diǎn)。近些年,對蛋白質(zhì)研究越來越多,蛋白質(zhì)的表達(dá)水平與癌癥的類型、分期及病人的其它臨床數(shù)據(jù)相關(guān),在癌癥生物學(xué)的幾乎所有方面都扮演角色,如增殖、凋亡、入侵、轉(zhuǎn)移和血管生成。
在選擇腫瘤標(biāo)志物時(shí),僅僅選擇一種血清蛋白質(zhì)作為腫瘤標(biāo)志物往往特異性較低,若測定多種蛋白質(zhì)組合或蛋白質(zhì)表達(dá)譜,可提高診斷的準(zhǔn)確性。但是目前遇到的問題是癌癥的復(fù)雜性。盡管系統(tǒng)分子生物學(xué)技術(shù)極大地提高了發(fā)現(xiàn)導(dǎo)致腫瘤惡化的蛋白質(zhì)表達(dá)譜異常的可能性,但產(chǎn)生的海量分子生物學(xué)數(shù)據(jù)很少被系統(tǒng)分析和利用。
盡管現(xiàn)有技術(shù)中有研究對癌癥大數(shù)據(jù)和癌癥蛋白質(zhì)數(shù)據(jù)進(jìn)行挖掘,找出數(shù)據(jù)中蘊(yùn)含的信息,例如,胡躍等利用表面加強(qiáng)激光解吸電離-飛行時(shí)間質(zhì)譜技術(shù)及其配套蛋白質(zhì)芯片對49例乳腺癌患者和33例健康人的血清蛋白質(zhì)組圖譜進(jìn)行檢測,結(jié)合人工神經(jīng)網(wǎng)絡(luò)軟件建立診斷模型并進(jìn)行驗(yàn)證,表面加強(qiáng)激光解吸電離-飛行時(shí)間質(zhì)譜技術(shù)及其配套蛋白質(zhì)芯片技術(shù)具有較高的靈敏度和特異度,可用于乳腺癌早期診斷與腫瘤標(biāo)志物篩選研究。另外,Wu等人綜合比較了線性判別方法、二次判別分析,k近鄰,bagging和boosting分類樹(裝袋和提高分類樹),支持向量機(jī)和隨機(jī)森林方法在卵巢癌分類中的應(yīng)用,隨機(jī)森林方法優(yōu)于其他方法(Comparison ofstatistical methods for classification ofovarian cancer using mass spectrometry data.Baolin Wu,Bioinformatics,2003,19(13):1636–1643.),但是該方法使用比較復(fù)雜。另外,人工神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),如網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)值和閾值的初始值。由于不能觀察中間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會影響到結(jié)果的可信度和可接受程度,并且人工神經(jīng)網(wǎng)絡(luò)算法學(xué)習(xí)時(shí)間長,有時(shí)甚至可能達(dá)不到學(xué)習(xí)的目的。此外,癌癥的 復(fù)雜性問題,系統(tǒng)分子生物學(xué)技術(shù)極大地提高了發(fā)現(xiàn)導(dǎo)致腫瘤惡化的蛋白質(zhì)組異常的可能性,但產(chǎn)生的海量分子生物學(xué)數(shù)據(jù)又很少被系統(tǒng)分析和利用,分析癌癥數(shù)據(jù)也主要集中在臨床數(shù)據(jù)方面。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于通過對癌癥大數(shù)據(jù)和癌癥蛋白質(zhì)表達(dá)譜的數(shù)據(jù)挖掘,找出數(shù)據(jù)中蘊(yùn)含的隱藏信息,提供一種新的視角分析發(fā)現(xiàn)腫瘤診斷標(biāo)記物。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供以下技術(shù)方案:
本發(fā)明提供了一種基于多層復(fù)雜網(wǎng)絡(luò)篩選腫瘤蛋白質(zhì)標(biāo)志物的方法,包括以下步驟:
1)提供腫瘤病人的蛋白質(zhì)數(shù)據(jù),所述蛋白質(zhì)數(shù)據(jù)包括腫瘤病人正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù);
2)將所述步驟1)得到的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)分別進(jìn)行過濾;
3)采用隨機(jī)森林模型對所述步驟2)中得到同一病人的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)的表達(dá)量選擇最佳子集,計(jì)算最佳子集的蛋白質(zhì)的最大信息系數(shù)MIC;
4)基于所述步驟3)的最佳子集蛋白質(zhì)的最大信息系數(shù)值分別構(gòu)建正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò);
5)計(jì)算在正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)中同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤蛋白質(zhì)標(biāo)志物的種類。
優(yōu)選的,所述步驟2)中過濾具體為從同一病人的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)中挑選相同種類蛋白質(zhì)。
優(yōu)選的,所述步驟3)中選擇最佳子集后還包括:十折交叉驗(yàn)證對選擇的最佳子集的數(shù)據(jù)進(jìn)行驗(yàn)證。
優(yōu)選的,所述十折交叉驗(yàn)證的準(zhǔn)確率為90%以上進(jìn)入計(jì)算最佳子集的蛋白質(zhì)的最大信息系數(shù)MIC。
優(yōu)選的,所述步驟3)中選擇最佳子集是采用隨機(jī)森林模型分類器對蛋白質(zhì)表達(dá)量進(jìn)行過濾和封裝,對正常組織和腫瘤組織的蛋白質(zhì)表達(dá)量進(jìn)行特征選擇。
優(yōu)選的,所述步驟3)中最佳子集蛋白質(zhì)的最大信息系數(shù)值采用如下計(jì)算方法得到:
首先定義兩個(gè)聯(lián)合隨機(jī)變量(X,Y)特征矩陣的分布規(guī)律的性質(zhì),然后使用G(k,l)表示;k,l均為正整數(shù);聯(lián)合隨機(jī)變量(X,Y)分布在[0,1]×[0,1]中,定義網(wǎng)格G,使得(X,Y)|G=(colG(X),rowG(Y)),所述colG(X)表示網(wǎng)格G的X軸上的網(wǎng)格列數(shù),rowG(Y)表示網(wǎng)格G的Y軸上的網(wǎng)格行數(shù);
其中X,Y表示隨機(jī)變量,p(x,y)表示聯(lián)合概率分布,p(x)p(y)表示邊際概率分布;
最大信息系數(shù)思想:把散點(diǎn)圖中的數(shù)據(jù)用網(wǎng)格進(jìn)行分區(qū),封存在網(wǎng)格里,計(jì)算變量間的MIC值轉(zhuǎn)化成網(wǎng)格的最佳分區(qū);
用M(X,Y)表示(X,Y)的群體特征矩陣如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y),代表的交互信息;n表示數(shù)據(jù)的數(shù)量,s,t分別表示軸和軸分區(qū)的數(shù)量;
所述的MIC值計(jì)算公式為MIC=maxs.t<B(n)M(X,Y)s,t,。
優(yōu)選的,所述計(jì)算節(jié)點(diǎn)介數(shù)的方法是采用Matlab程序運(yùn)算。
本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤蛋白質(zhì)標(biāo)志物的篩選方法,通過構(gòu)建正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò),得到兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中差異較大的節(jié)點(diǎn)介數(shù),從而篩選出腫瘤蛋白質(zhì)標(biāo)志物的種類。將隨機(jī)森林模型和復(fù)雜 網(wǎng)絡(luò)中結(jié)點(diǎn)重要性度量—節(jié)點(diǎn)介數(shù)結(jié)合在一起,提供一種新的視角分析發(fā)現(xiàn)致病因子或診斷標(biāo)記物。篩選蛋白質(zhì)數(shù)據(jù)庫等系統(tǒng)生物組學(xué)數(shù)據(jù),構(gòu)建了由多變量組成的癌癥分子信息數(shù)據(jù)結(jié)構(gòu)網(wǎng)絡(luò)。通過生物信息學(xué),數(shù)學(xué)統(tǒng)計(jì),建立多層分子網(wǎng)絡(luò)數(shù)據(jù)的相關(guān)性,從而提供了一種方法更加簡便,準(zhǔn)確度高的篩選方法,從而為癌癥診斷和藥物的發(fā)現(xiàn)提供有價(jià)值的參考。
說明書附圖
圖1-A為本發(fā)明實(shí)施例2中肺癌病人正常組織蛋白質(zhì)表達(dá)量的MIC網(wǎng)絡(luò);
圖1-B為本發(fā)明實(shí)施例2中肺癌病人腫瘤組織蛋白質(zhì)表達(dá)量MIC網(wǎng)絡(luò)。
具體實(shí)施方式
本發(fā)明提供了一種基于多層復(fù)雜網(wǎng)絡(luò)篩選腫瘤蛋白質(zhì)標(biāo)志物的方法,包括以下步驟:
1)提供腫瘤病人的蛋白質(zhì)數(shù)據(jù),所述蛋白質(zhì)數(shù)據(jù)包括腫瘤病人正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù);
2)將所述步驟1)得到的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)分別進(jìn)行過濾;
3)采用隨機(jī)森林模型對所述步驟2)中得到同一病人的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)的表達(dá)量選擇最佳子集,計(jì)算最佳子集的蛋白質(zhì)的MIC值;
4)基于所述步驟3)的最佳子集蛋白質(zhì)的MIC值分別構(gòu)建正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò);
5)計(jì)算在正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)中的同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤蛋白質(zhì)標(biāo)志物的種類。
本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)篩選腫瘤蛋白質(zhì)標(biāo)志物的方法,將隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)中結(jié)點(diǎn)重要性度量—節(jié)點(diǎn)介數(shù)結(jié)合在一起,提供一種新的視角分析發(fā)現(xiàn)致病因子或診斷標(biāo)記物。
首先,提供腫瘤病人的蛋白質(zhì)數(shù)據(jù),所述蛋白質(zhì)數(shù)據(jù)包括腫瘤病人正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)。
本發(fā)明中,所述腫瘤病人的蛋白質(zhì)數(shù)據(jù)的來源為癌癥基因信息數(shù)據(jù)庫The Cancer Genome Atlas/TCG(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.h tm)。
得到的同一病人的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)后,本發(fā)明對得到的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)分別進(jìn)行過濾。
本發(fā)明中,所述過濾具體優(yōu)選為從相同病人的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)中挑選所有相同種類蛋白質(zhì)。
本發(fā)明采用隨機(jī)森林模型對所述過濾后的正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)的表達(dá)量選擇最佳子集,計(jì)算正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織蛋白質(zhì)數(shù)據(jù)的最佳子集的蛋白質(zhì)數(shù)據(jù)間的MIC值。
本發(fā)明中,所述隨機(jī)森林模型具體優(yōu)選為采用隨機(jī)森林模型分類器進(jìn)行選擇。所述選擇最佳子集是采用隨機(jī)森林模型分類器對蛋白質(zhì)表達(dá)量進(jìn)行過濾和封裝,對正常組織和腫瘤組織的蛋白質(zhì)表達(dá)量進(jìn)行特征選擇,以獲得一套相同病人的腫瘤組織和正常組織的蛋白質(zhì)數(shù)據(jù)。所述過濾和封裝具體優(yōu)選采用R語言caret包中sbf和rfe方法進(jìn)行特征選擇,以降低維度。
本發(fā)明中,所述選擇最佳子集后優(yōu)選還包括采用十折交叉對選擇的最佳子集的數(shù)據(jù)進(jìn)行驗(yàn)證,以檢測最佳子集的選擇的準(zhǔn)確率。所述最佳子集的選擇經(jīng)十折交叉驗(yàn)證準(zhǔn)確率≥98.10%時(shí)才能進(jìn)入計(jì)算最佳子集的蛋白質(zhì)的最大信息系數(shù)MIC的后續(xù)分析。
所述十折交叉的具體方法沒有特殊限制,采用本領(lǐng)域技術(shù)人員所熟知的十折交叉的技術(shù)方法即可。
本發(fā)明中,所述計(jì)算最佳子集蛋白質(zhì)的最大信息系數(shù)MIC具體是最佳子集中每兩個(gè)蛋白質(zhì)之間的MIC值。
本發(fā)明中,所述最佳子集蛋白質(zhì)的MIC值優(yōu)選采用如下計(jì)算方法得到:
首先定義兩個(gè)聯(lián)合隨機(jī)變量(X,Y)特征矩陣的分布規(guī)律的性質(zhì),然后使用G(k,l)表示;k,l均為正整數(shù);聯(lián)合隨機(jī)變量(X,Y)分布在[0,1]×[0,1]中,定義網(wǎng)格G,使得(X,Y)|G=(colG(X),rowG(Y)),這里的colG(X)表示網(wǎng)格G的X軸上的網(wǎng)格列數(shù),rowG(Y)表示網(wǎng)格G的Y軸上的網(wǎng)格行數(shù);
其中X,Y表示隨機(jī)變量,p(x,y)表示聯(lián)合概率分布,p(x)p(y)表示邊際概 率分布;
最大信息系數(shù)思想:把散點(diǎn)圖中的數(shù)據(jù)用網(wǎng)格進(jìn)行分區(qū),封存在網(wǎng)格里,計(jì)算變量間的MIC值轉(zhuǎn)化成網(wǎng)格的最佳分區(qū);
用M(X,Y)表示(X,Y)的群體特征矩陣如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y)代表的交互信息;n表示數(shù)據(jù)的數(shù)量,s,t分別表示軸和軸分區(qū)的數(shù)量;
所述的MIC值計(jì)算公式為MIC=maxs.t<B(n)M(X,Y)s,t,可知:0≤MIC≤1。對于B(n)=nα中的α=0.6,n表示數(shù)據(jù)的數(shù)量,涉及探索最大上限網(wǎng)格B(n)的劃分。B(n)設(shè)置太大將導(dǎo)致隨機(jī)數(shù)據(jù)的MIC值非零,每個(gè)點(diǎn)將落到自身的小空格里;B(n)設(shè)置過小將導(dǎo)致MIC只能檢測出明顯和簡單的函數(shù)關(guān)系。所述B(n)的大小依賴n的大小。MIC-P2:反映非線性關(guān)系的程度。其中P為pearson相關(guān)系數(shù),由于MIC代表一般性的相關(guān)關(guān)系,MIC-P2值越大,非線性程度越高。
基于所述正常組織蛋白質(zhì)的最佳子集的MIC值和腫瘤組織蛋白質(zhì)的最佳子集的MIC值分別構(gòu)建正常組織蛋白質(zhì)網(wǎng)絡(luò)和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)。
本發(fā)明中,所述構(gòu)建正常組織蛋白質(zhì)網(wǎng)絡(luò)和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)的具體方法優(yōu)選為每兩個(gè)蛋白質(zhì)之間的MIC作為網(wǎng)絡(luò)中兩個(gè)結(jié)點(diǎn)邊的權(quán)重,正常組織的蛋白質(zhì)網(wǎng)絡(luò)閾值設(shè)為0.45,腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)閾值為0.26,此時(shí)兩個(gè)網(wǎng)絡(luò)是全連通的。兩個(gè)網(wǎng)絡(luò)中最大信息系數(shù)分別大于0.45和0.26,兩個(gè)節(jié)點(diǎn)之間才有連邊。計(jì)算正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)中同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤蛋白質(zhì)標(biāo)志物的種類。所述發(fā)生較大變化的點(diǎn)是根據(jù)節(jié)點(diǎn)介數(shù)數(shù)值的大小進(jìn)行判斷。
本發(fā)明中,所述計(jì)算節(jié)點(diǎn)介數(shù)的方法優(yōu)選采用Matlab程序運(yùn)算。
下面結(jié)合實(shí)施例對本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)篩選腫瘤蛋白質(zhì)標(biāo)志物的方法進(jìn)行詳細(xì)的說明,但是不能把它們理解為對本發(fā)明保護(hù)范圍的限定。
實(shí)施例1
研究數(shù)據(jù)的來源為癌癥基因信息數(shù)據(jù)庫(The Cancer Genome Atlas/TCGA)(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm)。選取浸潤性乳腺癌病人蛋白質(zhì)Experssion-Protein數(shù)據(jù)水平為3的數(shù)據(jù)進(jìn)行下載。其中,蛋白質(zhì)的數(shù)據(jù)為285個(gè),來自937個(gè)病人。其中在蛋白質(zhì)表達(dá)數(shù)據(jù)中有45個(gè)為乳腺癌病人的正常組織蛋白質(zhì)數(shù)據(jù),其余為乳腺癌病人腫瘤組織蛋白質(zhì)數(shù)據(jù)。在正常組織和腫瘤組織的蛋白質(zhì)數(shù)據(jù)中,有很多蛋白質(zhì)不表達(dá)或表達(dá)率低,去除蛋白質(zhì)不表達(dá)的個(gè)體,得到大小為137×45正常組織和乳腺腫瘤組織蛋白質(zhì)數(shù)據(jù),即45個(gè)病人中挑選137個(gè)不同種類的正常組織蛋白質(zhì)數(shù)據(jù)和與正常組織中137個(gè)相同種類的腫瘤組織蛋白質(zhì)數(shù)據(jù)。
采用隨機(jī)森林模型對乳腺癌病人正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)進(jìn)行封裝和過濾選擇篩選擇最佳子集。為了選擇具有最小基因數(shù)量的并保持最高分類準(zhǔn)確率的蛋白質(zhì)子集,采用十折交叉驗(yàn)證進(jìn)行試驗(yàn)以評估分類器模型,得到蛋白質(zhì)分類結(jié)果如表1所示。對于乳腺癌數(shù)據(jù)集,當(dāng)?shù)鞍踪|(zhì)子集數(shù)量為10時(shí),得到交叉驗(yàn)證準(zhǔn)確率為94.76%(表2)。篩選出這10個(gè)蛋白質(zhì),E.Cadherin、PI3K、Caveolin.、Collagen、GSK3、XBP1、Bax、syk已證實(shí)與乳腺癌相關(guān)(表3)。
表1乳腺癌病人提取的蛋白質(zhì)子集
表2采用隨機(jī)森林分類器所獲得的蛋白質(zhì)10-折交叉驗(yàn)證準(zhǔn)確率
表3篩選得到的各種蛋白質(zhì)在乳腺癌中的作用
實(shí)施例2
采用實(shí)施例1的方法下載得到肺癌病人蛋白質(zhì)數(shù)據(jù),其中,蛋白質(zhì)的數(shù)據(jù)為276個(gè),來自166個(gè)病人。同樣刪除刪失數(shù)據(jù)后,得到137×166肺癌腫瘤組織蛋白質(zhì)數(shù)據(jù),由于肺癌病人缺乏正常組織數(shù)據(jù),這里我們選取乳癌病人正常組織數(shù)據(jù)為對照,即166個(gè)病人中挑選131個(gè)相同種類的腫瘤組織蛋白質(zhì)數(shù)據(jù)和45個(gè)病人中131個(gè)正常組織蛋白質(zhì)數(shù)據(jù)。
采用隨機(jī)森林模型對肺癌病人正常組織的蛋白質(zhì)數(shù)據(jù)和腫瘤組織的蛋白質(zhì)數(shù)據(jù)進(jìn)行封裝和過濾選擇篩選擇最佳子集。為了選擇具有最小基因數(shù)量的并保持最高分類準(zhǔn)確率的蛋白質(zhì)子集,采用十折交叉驗(yàn)證進(jìn)行試驗(yàn)以評估分類器模型,得到蛋白質(zhì)分類結(jié)果如表4所示。對于乳腺癌數(shù)據(jù)集,當(dāng)?shù)鞍踪|(zhì)子集數(shù)量為30時(shí),得到交叉驗(yàn)證準(zhǔn)確率為98.1%,詳細(xì)信息見表5。
篩選出這30個(gè)蛋白質(zhì),計(jì)算病人正常組織30個(gè)蛋白質(zhì)之間的MIC值和病人腫瘤組織30個(gè)蛋白質(zhì)之間的MIC值,根據(jù)所得到的值構(gòu)建網(wǎng)絡(luò)(圖1A-B)。每兩個(gè)蛋白質(zhì)之間的MIC值作為網(wǎng)絡(luò)中兩個(gè)結(jié)點(diǎn)邊的權(quán)重,正常組織網(wǎng)絡(luò)的閾值為0.45,此時(shí)網(wǎng)絡(luò)全連通。腫瘤組織網(wǎng)絡(luò)的閾值為0.26,此時(shí) 網(wǎng)絡(luò)全連通。
表4提取的蛋白質(zhì)子集
表5采用隨機(jī)森林分類器所獲得的蛋白質(zhì)十折交叉驗(yàn)證準(zhǔn)確率
由網(wǎng)絡(luò)圖可知,正常組織和腫瘤組織的蛋白質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)存在較大差異,而肺癌關(guān)鍵蛋白質(zhì)應(yīng)該在正常組和腫瘤組兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中發(fā)生較大變化,通過比較兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)差異發(fā)現(xiàn)乳腺癌的關(guān)鍵蛋白質(zhì)。節(jié)點(diǎn)介數(shù)是復(fù)雜網(wǎng)絡(luò)中常用判別節(jié)點(diǎn)重要性的一個(gè)指標(biāo),一個(gè)蛋白質(zhì)在兩個(gè)網(wǎng)絡(luò)中,節(jié)點(diǎn)介數(shù)差別大,說明此蛋白質(zhì)在正常組織和腫瘤組織間發(fā)生了較大變化,也許在癌癥發(fā)生發(fā)展中起重要作用。提取10個(gè)節(jié)點(diǎn)介數(shù)差異較大的蛋白質(zhì),ARHI-M-E,Bax-R-V,Bim-R-V,Chk1_pS345-R-C,E-Cadherin-R-V,GSK3-alpha-beta-M-V,Ku80-R-C,mTOR-R-V,Smad1-R-V,CDK1-R-V。查閱文獻(xiàn)可知,其中9個(gè)與肺癌相關(guān),具體篩選的各蛋白質(zhì)見表6。
表6肺癌病人篩選得到的蛋白質(zhì)在肺癌中的作用
由以上實(shí)施例可知,本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤蛋白質(zhì)標(biāo)志物的篩選方法,采用隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)分析方法選取癌癥的重要生物分子方法是可靠的,可為癌癥的預(yù)測、治療和藥物的選擇與研發(fā)提供有價(jià)值的參考。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。