本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法。
背景技術(shù):
1、癌癥是一種高度異質(zhì)性的疾病,對(duì)臨床治療的反應(yīng)往往各不相同?,F(xiàn)有證據(jù)表明,不同的分子特征實(shí)質(zhì)上影響了組織病理學(xué)上難以區(qū)分的腫瘤的結(jié)果。因此,為了提供有針對(duì)性的治療方案,人們對(duì)癌癥亞型鑒定進(jìn)行了廣泛的研究,將患者按不同的分子或表型特征進(jìn)行分層。
2、得益于生物技術(shù)的快速發(fā)展,各種組學(xué)數(shù)據(jù)的獲取變得越來(lái)越方便。早期的方法只是在單組數(shù)據(jù)上應(yīng)用成熟的聚類(lèi)算法來(lái)預(yù)測(cè)癌癥亞型。然而,由于每種組學(xué)數(shù)據(jù)僅在一定水平上表征分子特征,多組學(xué)數(shù)據(jù)的整合可以為描繪癌癥亞型提供更全面的視角,并進(jìn)一步加深我們對(duì)生物分子之間多層次復(fù)雜相互作用的理解。多組學(xué)數(shù)據(jù)的分析在癌癥亞型的識(shí)別中起著重要作用。傳統(tǒng)的數(shù)據(jù)聚類(lèi)方法難以有效處理高維和復(fù)雜的數(shù)據(jù)結(jié)構(gòu),因此需要一種新的方法來(lái)提高聚類(lèi)的準(zhǔn)確性和效率。卷積自編碼器在處理高維數(shù)據(jù)方面表現(xiàn)出色,知識(shí)蒸餾算法則能夠有效地傳遞知識(shí)以改進(jìn)學(xué)生模型的性能。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法,該方法能夠提高癌癥亞型識(shí)別的準(zhǔn)確性和效率。
2、為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法,包括:
3、s1、使用pearson相關(guān)系數(shù),對(duì)多組學(xué)數(shù)據(jù)的特征進(jìn)行重新排列;
4、s2、將重新排列后的多組學(xué)數(shù)據(jù)輸入卷積自編碼器,作為教師模型;特征合并后使用知識(shí)蒸餾算法將教師模型中的知識(shí)傳遞給學(xué)生模型;
5、s3、基于訓(xùn)練好的學(xué)生模型,使用kl散度對(duì)多視圖癌癥亞型數(shù)據(jù)進(jìn)行聚類(lèi)分析,得到最終的聚類(lèi)結(jié)果。
6、在本發(fā)明一實(shí)施例中,步驟s1中,基于多視圖癌癥亞型數(shù)據(jù)的原始數(shù)據(jù)集,對(duì)于每個(gè)特征,計(jì)算缺失值的比例,如果某個(gè)特征的缺失值比例超過(guò)20%,則刪除該特征;使用python函數(shù)fillna填充原始數(shù)據(jù)集中dna甲基化數(shù)據(jù)的缺失值,使用knnimpute函數(shù)處理原始數(shù)據(jù)集中mirna-seq數(shù)據(jù),最后刪除缺失生存數(shù)據(jù)的樣本;使用基因標(biāo)準(zhǔn)差sd統(tǒng)計(jì)量選擇原始數(shù)據(jù)集中信息量較大的基因,對(duì)于原始數(shù)據(jù)集中每種組學(xué)數(shù)據(jù),選擇最高sd的基因數(shù)目;對(duì)原始數(shù)據(jù)集中每種組學(xué)數(shù)據(jù)進(jìn)行最大最小歸一化處理,使數(shù)據(jù)值范圍在[0,1]之間。
7、組學(xué)數(shù)據(jù)指多種生物學(xué)數(shù)據(jù)類(lèi)型,它們用于全面研究生物系統(tǒng)的不同層次。具體包括但不限于以下幾種:
8、1、mrna表達(dá)數(shù)據(jù):用于分析基因的轉(zhuǎn)錄水平,以揭示基因在細(xì)胞中的表達(dá)情況。
9、2、dna甲基化數(shù)據(jù):用于研究基因的表觀遺傳修飾狀態(tài),揭示基因表達(dá)的潛在調(diào)控機(jī)制。
10、3、mirna表達(dá)數(shù)據(jù):用于研究小分子rna(mirna)在基因調(diào)控中的作用。
11、在本發(fā)明一實(shí)施例中,步驟s1中,使用pearson相關(guān)系數(shù),對(duì)多組學(xué)數(shù)據(jù)的特征進(jìn)行重新排列的具體實(shí)現(xiàn)方式如下:
12、首先對(duì)原始數(shù)據(jù)集中組學(xué)數(shù)據(jù)中的特征進(jìn)行兩兩比較,計(jì)算每對(duì)特征之間的pearson相關(guān)系數(shù),形成一個(gè)ρ×ρ的相關(guān)系數(shù)矩陣,將相關(guān)系數(shù)矩陣的每一行向量簡(jiǎn)化為一個(gè)值,用以下公式化簡(jiǎn):
13、
14、將累積相關(guān)系數(shù)從大到小排序,生成一個(gè)新的向量pnew,并重新索引這些值;
15、pnew={ρ(p),ρ(p-1),ρ(p-2),...,ρ(1)}
16、根據(jù)pnew的順序重新排列組學(xué)數(shù)據(jù)中的原始特征。
17、在本發(fā)明一實(shí)施例中,pearson相關(guān)系數(shù)定義為:
18、
19、其中,n是向量中元素的數(shù)量,∑xy是向量x和y中對(duì)應(yīng)元素乘積的和,∑x和∑y分別是向量x和y中所有元素的和,∑x2和∑y2分別是向量x和y中所有元素平方的和;
20、基因標(biāo)準(zhǔn)差sd計(jì)算步驟如下:
21、首先計(jì)算每個(gè)基因在不同樣本中的表達(dá)均值:
22、
23、其中,n是樣本數(shù),xi是第i個(gè)樣本中相應(yīng)基因的表達(dá)值;
24、再計(jì)算每個(gè)基因的標(biāo)準(zhǔn)差:
25、
26、其中,是基因表達(dá)均值。
27、在本發(fā)明一實(shí)施例中,步驟s2中,基于處理后的數(shù)據(jù)集即重新排列后的多組學(xué)數(shù)據(jù)通過(guò)卷積自編碼器訓(xùn)練教師模型,生成多視圖數(shù)據(jù)的特征表示;將每種組學(xué)數(shù)據(jù)的隱藏特征進(jìn)行連接,形成一個(gè)新的多組學(xué)特征矩陣;通過(guò)最小化重建損失函數(shù)和蒸餾損失函數(shù),利用知識(shí)蒸餾學(xué)習(xí)教師模型的特征表示,并通過(guò)聚類(lèi)損失優(yōu)化學(xué)生模型的特征表示。
28、在本發(fā)明一實(shí)施例中,所述卷積自編碼器,具體實(shí)現(xiàn)如下:
29、(1)構(gòu)建卷積自編碼器模型,包括編碼器和解碼器部分;編碼器將輸入數(shù)據(jù)投影到低維的潛在表示空間,解碼器則從潛在表示中重建原始輸入數(shù)據(jù);
30、(2)使用多組學(xué)數(shù)據(jù)訓(xùn)練卷積自編碼器模型,優(yōu)化模型參數(shù)以最小化重建誤差;
31、編碼器:利用一維卷積層提取輸入數(shù)據(jù)的特征表示,每個(gè)卷積層后跟隨一個(gè)激活函數(shù)和池化層以減少特征圖的尺寸并增加非線(xiàn)性,卷積層通過(guò)卷積操作提取局部特征,生成特征圖;
32、hl=f(wl*hl-1+bl)
33、其中:
34、hl是第l層的輸出特征圖,wl是第l層的卷積核,bl是第l層的偏置項(xiàng);*表示卷積操作,f是激活函數(shù);
35、激活函數(shù)引入非線(xiàn)性特性,使模型能夠?qū)W習(xí)到更復(fù)雜的特征;
36、relu(x)=max(0,x)
37、池化層通過(guò)降采樣減少特征圖的空間尺寸,保留重要特征,同時(shí)減少計(jì)算量;
38、maxpooling(x)=max(kernel(x))
39、經(jīng)過(guò)若干次卷積和池化操作,得到編碼后的低維特征表示z;
40、解碼器:利用一維反卷積層將低維特征表示還原為原始輸入數(shù)據(jù);每個(gè)反卷積層后跟隨一個(gè)激活函數(shù)以增加非線(xiàn)性并恢復(fù)數(shù)據(jù),反卷積層通過(guò)轉(zhuǎn)置卷積操作將低維特征圖恢復(fù)到高維空間;
41、
42、其中,是第l-1層的輸出解碼后的特征圖,是第l層卷積核的轉(zhuǎn)置,bl是第l層的偏置項(xiàng),*表示卷積操作,g是激活函數(shù);
43、激活函數(shù)引入非線(xiàn)性特性,使模型能夠更準(zhǔn)確地重建數(shù)據(jù);
44、relu(x)=max(0,x)
45、重建損失函數(shù)定義如下:
46、
47、其中,x是輸入數(shù)據(jù),x′是重建數(shù)據(jù),n是樣本數(shù),fw表示編碼器,gw'表示解碼器,xi表示輸入特征;
48、通過(guò)最小化重建損失函數(shù),優(yōu)化卷積自編碼器的參數(shù),使模型能夠有效地重建輸入數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的高效壓縮和還原。
49、在本發(fā)明一實(shí)施例中,所述知識(shí)蒸餾算法,具體實(shí)現(xiàn)如下:
50、(1)構(gòu)建一個(gè)輕量級(jí)的學(xué)生模型,學(xué)生模型的結(jié)構(gòu)保留關(guān)鍵的特征提取能力;
51、(2)定義蒸餾損失函數(shù),包括重建誤差和蒸餾損失,通過(guò)比較教師模型和學(xué)生模型輸出的軟概率分布來(lái)傳遞知識(shí);
52、教師模型輸出:
53、t=fteacher(x)
54、其中,fteacher表示教師模型的編碼器,x表示輸入數(shù)據(jù);
55、學(xué)生模型訓(xùn)練:
56、s=fstudent(x)
57、其中,fstudent表示學(xué)生模型的編碼器,x表示輸入數(shù)據(jù);
58、定義蒸餾損失:
59、
60、其中,kl表示kl散度,s是學(xué)生模型的輸出,t是教師模型的輸出,t是溫度參數(shù),sj表示學(xué)生模型在第j個(gè)類(lèi)別上的輸出logit,tj表示教師模型在第j個(gè)類(lèi)別上的輸出logit,logit是未經(jīng)過(guò)softmax操作的原始輸出分?jǐn)?shù);是學(xué)生模型輸出經(jīng)過(guò)溫度t調(diào)整后的softmax概率,是教師模型輸出經(jīng)過(guò)溫度t調(diào)整后的softmax概率;
61、定義損失函數(shù):
62、ltrain=αlrecon+βldistill
63、其中,lrecon是重建損失,定義為輸入數(shù)據(jù)與重建數(shù)據(jù)之間的均方誤差,ldistill是蒸餾損失,定義為學(xué)生模型和教師模型輸出之間的kl散度,α和β是用于平衡各個(gè)損失項(xiàng)的超參數(shù),優(yōu)化目標(biāo)是最小化重建損失函數(shù)ltrain。
64、在本發(fā)明一實(shí)施例中,步驟s3中,從學(xué)生模型中提取特征,并使用kl散度來(lái)度量樣本之間的相似性,使用studentt分布來(lái)計(jì)算樣本與聚類(lèi)中心之間的相似性;總損失函數(shù)包括重建損失、知識(shí)蒸餾損失和聚類(lèi)損失的加權(quán)和,用于優(yōu)化特征表示以便于聚類(lèi)任務(wù);通過(guò)最小化總損失函數(shù),利用知識(shí)蒸餾損失學(xué)習(xí)教師模型的特征表示,并通過(guò)聚類(lèi)損失優(yōu)化學(xué)生模型的特征表示,實(shí)現(xiàn)高效且準(zhǔn)確的多視圖癌癥亞型數(shù)據(jù)聚類(lèi);利用kl散度作為聚類(lèi)損失,使學(xué)生模型的特征表示更適合聚類(lèi);具體如下:
65、軟分配概率qik用來(lái)表示學(xué)生模型的特征表示屬于第k個(gè)聚類(lèi)的概率,它的定義如下:
66、
67、其中,是學(xué)生模型在第i個(gè)樣本的特征表示,μk是第k個(gè)聚類(lèi)的中心(原型),k是聚類(lèi)的數(shù)量,||·||表示歐幾里得距離;
68、目標(biāo)分配概率pk是軟分配概率的均值:
69、
70、其中,n是樣本的總數(shù),qik是學(xué)生模型的軟分配概率;
71、聚類(lèi)損失函數(shù)定義如下:
72、
73、總損失函數(shù)定義如下:
74、
75、其中,lrecon是重建損失,ldistill是知識(shí)蒸餾損失,lcluster是聚類(lèi)損失,v是視圖的數(shù)量,α、β和γ是用于平衡各個(gè)損失項(xiàng)的超參數(shù)。
76、本發(fā)明還提供了一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)于存儲(chǔ)器上并能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如上述所述的方法步驟。
77、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如上述所述的方法步驟。
78、相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
79、1、增強(qiáng)數(shù)據(jù)處理能力:通過(guò)重新排列特征以減少冗余和提高代表性,這項(xiàng)發(fā)明在處理多組學(xué)數(shù)據(jù)時(shí)能夠有效提升數(shù)據(jù)的質(zhì)量和可靠性,相較于傳統(tǒng)方法減少了噪音干擾。
80、2、高效的特征提?。壕矸e自編碼器在捕捉數(shù)據(jù)的高維結(jié)構(gòu)和特征方面表現(xiàn)優(yōu)異,能夠比傳統(tǒng)特征提取方法更準(zhǔn)確地挖掘數(shù)據(jù)中的潛在信息。
81、3、模型輕量化:知識(shí)蒸餾算法使得較復(fù)雜的教師模型的知識(shí)能夠被傳遞到輕量級(jí)的學(xué)生模型中,這樣可以在減少計(jì)算資源和時(shí)間消耗的同時(shí)保持高性能。適合大規(guī)模數(shù)據(jù)處理和實(shí)際應(yīng)用中的需求。
82、4、提高聚類(lèi)準(zhǔn)確性:通過(guò)使用kl散度對(duì)多視圖癌癥亞型數(shù)據(jù)進(jìn)行聚類(lèi)分析,相比于傳統(tǒng)的聚類(lèi)方法,能夠更精準(zhǔn)地識(shí)別不同癌癥亞型,提高了聚類(lèi)結(jié)果的可靠性和準(zhǔn)確性。
83、5、改進(jìn)處理復(fù)雜數(shù)據(jù)的能力:通過(guò)卷積自編碼器和知識(shí)蒸餾相結(jié)合,這項(xiàng)發(fā)明能夠更好地處理復(fù)雜的多視圖數(shù)據(jù),提高了對(duì)復(fù)雜數(shù)據(jù)結(jié)構(gòu)的理解和分析能力。