1.一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,步驟s1中,基于多視圖癌癥亞型數(shù)據(jù)的原始數(shù)據(jù)集,對(duì)于每個(gè)特征,計(jì)算缺失值的比例,如果某個(gè)特征的缺失值比例超過20%,則刪除該特征;使用python函數(shù)fillna填充原始數(shù)據(jù)集中dna甲基化數(shù)據(jù)的缺失值,使用knnimpute函數(shù)處理原始數(shù)據(jù)集中mirna-seq數(shù)據(jù),最后刪除缺失生存數(shù)據(jù)的樣本;使用基因標(biāo)準(zhǔn)差sd統(tǒng)計(jì)量選擇原始數(shù)據(jù)集中信息量較大的基因,對(duì)于原始數(shù)據(jù)集中每種組學(xué)數(shù)據(jù),選擇最高sd的基因數(shù)目;對(duì)原始數(shù)據(jù)集中每種組學(xué)數(shù)據(jù)進(jìn)行最大最小歸一化處理,使數(shù)據(jù)值范圍在[0,1]之間。
3.根據(jù)權(quán)利要求1或2所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,步驟s1中,使用pearson相關(guān)系數(shù),對(duì)多組學(xué)數(shù)據(jù)的特征進(jìn)行重新排列的具體實(shí)現(xiàn)方式如下:
4.根據(jù)權(quán)利要求3所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,pearson相關(guān)系數(shù)定義為:
5.根據(jù)權(quán)利要求1所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,步驟s2中,基于處理后的數(shù)據(jù)集即重新排列后的多組學(xué)數(shù)據(jù)通過卷積自編碼器訓(xùn)練教師模型,生成多視圖數(shù)據(jù)的特征表示;將每種組學(xué)數(shù)據(jù)的隱藏特征進(jìn)行連接,形成一個(gè)新的多組學(xué)特征矩陣;通過最小化重建損失函數(shù)和蒸餾損失函數(shù),利用知識(shí)蒸餾學(xué)習(xí)教師模型的特征表示,并通過聚類損失優(yōu)化學(xué)生模型的特征表示。
6.根據(jù)權(quán)利要求1或5所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,所述卷積自編碼器,具體實(shí)現(xiàn)如下:
7.根據(jù)權(quán)利要求1或5所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,所述知識(shí)蒸餾算法,具體實(shí)現(xiàn)如下:
8.根據(jù)權(quán)利要求1所述的基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類方法,其特征在于,步驟s3中,從學(xué)生模型中提取特征,并使用kl散度來度量樣本之間的相似性,使用student?t分布來計(jì)算樣本與聚類中心之間的相似性;總損失函數(shù)包括重建損失、知識(shí)蒸餾損失和聚類損失的加權(quán)和,用于優(yōu)化特征表示以便于聚類任務(wù);通過最小化總損失函數(shù),利用知識(shí)蒸餾損失學(xué)習(xí)教師模型的特征表示,并通過聚類損失優(yōu)化學(xué)生模型的特征表示,實(shí)現(xiàn)高效且準(zhǔn)確的多視圖癌癥亞型數(shù)據(jù)聚類;利用kl散度作為聚類損失,使學(xué)生模型的特征表示更適合聚類;具體如下:
9.一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類系統(tǒng),其特征在于,包括存儲(chǔ)器、處理器以及存儲(chǔ)于存儲(chǔ)器上并能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如權(quán)利要求1-8任一所述的方法步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如權(quán)利要求1-8任一所述的方法步驟。