基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法

文檔序號(hào)：40603141發(fā)布日期：2025-01-07 20:43閱讀：3來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域，特別涉及一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法。

背景技術(shù)：

1、癌癥是一種高度異質(zhì)性的疾病，對(duì)臨床治療的反應(yīng)往往各不相同?，F(xiàn)有證據(jù)表明，不同的分子特征實(shí)質(zhì)上影響了組織病理學(xué)上難以區(qū)分的腫瘤的結(jié)果。因此，為了提供有針對(duì)性的治療方案，人們對(duì)癌癥亞型鑒定進(jìn)行了廣泛的研究，將患者按不同的分子或表型特征進(jìn)行分層。

2、得益于生物技術(shù)的快速發(fā)展，各種組學(xué)數(shù)據(jù)的獲取變得越來(lái)越方便。早期的方法只是在單組數(shù)據(jù)上應(yīng)用成熟的聚類(lèi)算法來(lái)預(yù)測(cè)癌癥亞型。然而，由于每種組學(xué)數(shù)據(jù)僅在一定水平上表征分子特征，多組學(xué)數(shù)據(jù)的整合可以為描繪癌癥亞型提供更全面的視角，并進(jìn)一步加深我們對(duì)生物分子之間多層次復(fù)雜相互作用的理解。多組學(xué)數(shù)據(jù)的分析在癌癥亞型的識(shí)別中起著重要作用。傳統(tǒng)的數(shù)據(jù)聚類(lèi)方法難以有效處理高維和復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，因此需要一種新的方法來(lái)提高聚類(lèi)的準(zhǔn)確性和效率。卷積自編碼器在處理高維數(shù)據(jù)方面表現(xiàn)出色，知識(shí)蒸餾算法則能夠有效地傳遞知識(shí)以改進(jìn)學(xué)生模型的性能。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法，該方法能夠提高癌癥亞型識(shí)別的準(zhǔn)確性和效率。

2、為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案是：一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法，包括：

3、s1、使用pearson相關(guān)系數(shù)，對(duì)多組學(xué)數(shù)據(jù)的特征進(jìn)行重新排列；

4、s2、將重新排列后的多組學(xué)數(shù)據(jù)輸入卷積自編碼器，作為教師模型；特征合并后使用知識(shí)蒸餾算法將教師模型中的知識(shí)傳遞給學(xué)生模型；

5、s3、基于訓(xùn)練好的學(xué)生模型，使用kl散度對(duì)多視圖癌癥亞型數(shù)據(jù)進(jìn)行聚類(lèi)分析，得到最終的聚類(lèi)結(jié)果。

6、在本發(fā)明一實(shí)施例中，步驟s1中，基于多視圖癌癥亞型數(shù)據(jù)的原始數(shù)據(jù)集，對(duì)于每個(gè)特征，計(jì)算缺失值的比例，如果某個(gè)特征的缺失值比例超過(guò)20％，則刪除該特征；使用python函數(shù)fillna填充原始數(shù)據(jù)集中dna甲基化數(shù)據(jù)的缺失值，使用knnimpute函數(shù)處理原始數(shù)據(jù)集中mirna-seq數(shù)據(jù)，最后刪除缺失生存數(shù)據(jù)的樣本；使用基因標(biāo)準(zhǔn)差sd統(tǒng)計(jì)量選擇原始數(shù)據(jù)集中信息量較大的基因，對(duì)于原始數(shù)據(jù)集中每種組學(xué)數(shù)據(jù)，選擇最高sd的基因數(shù)目；對(duì)原始數(shù)據(jù)集中每種組學(xué)數(shù)據(jù)進(jìn)行最大最小歸一化處理，使數(shù)據(jù)值范圍在[0,1]之間。

7、組學(xué)數(shù)據(jù)指多種生物學(xué)數(shù)據(jù)類(lèi)型，它們用于全面研究生物系統(tǒng)的不同層次。具體包括但不限于以下幾種：

8、1、mrna表達(dá)數(shù)據(jù)：用于分析基因的轉(zhuǎn)錄水平，以揭示基因在細(xì)胞中的表達(dá)情況。

9、2、dna甲基化數(shù)據(jù)：用于研究基因的表觀遺傳修飾狀態(tài)，揭示基因表達(dá)的潛在調(diào)控機(jī)制。

10、3、mirna表達(dá)數(shù)據(jù)：用于研究小分子rna(mirna)在基因調(diào)控中的作用。

11、在本發(fā)明一實(shí)施例中，步驟s1中，使用pearson相關(guān)系數(shù)，對(duì)多組學(xué)數(shù)據(jù)的特征進(jìn)行重新排列的具體實(shí)現(xiàn)方式如下：

12、首先對(duì)原始數(shù)據(jù)集中組學(xué)數(shù)據(jù)中的特征進(jìn)行兩兩比較，計(jì)算每對(duì)特征之間的pearson相關(guān)系數(shù)，形成一個(gè)ρ×ρ的相關(guān)系數(shù)矩陣，將相關(guān)系數(shù)矩陣的每一行向量簡(jiǎn)化為一個(gè)值，用以下公式化簡(jiǎn)：

13、

14、將累積相關(guān)系數(shù)從大到小排序，生成一個(gè)新的向量pnew，并重新索引這些值；

15、pnew＝{ρ(p),ρ(p-1),ρ(p-2),...,ρ(1)}

16、根據(jù)pnew的順序重新排列組學(xué)數(shù)據(jù)中的原始特征。

17、在本發(fā)明一實(shí)施例中，pearson相關(guān)系數(shù)定義為：

18、

19、其中，n是向量中元素的數(shù)量，∑xy是向量x和y中對(duì)應(yīng)元素乘積的和，∑x和∑y分別是向量x和y中所有元素的和，∑x2和∑y2分別是向量x和y中所有元素平方的和；

20、基因標(biāo)準(zhǔn)差sd計(jì)算步驟如下：

21、首先計(jì)算每個(gè)基因在不同樣本中的表達(dá)均值：

22、

23、其中，n是樣本數(shù)，xi是第i個(gè)樣本中相應(yīng)基因的表達(dá)值；

24、再計(jì)算每個(gè)基因的標(biāo)準(zhǔn)差：

25、

26、其中，是基因表達(dá)均值。

27、在本發(fā)明一實(shí)施例中，步驟s2中，基于處理后的數(shù)據(jù)集即重新排列后的多組學(xué)數(shù)據(jù)通過(guò)卷積自編碼器訓(xùn)練教師模型，生成多視圖數(shù)據(jù)的特征表示；將每種組學(xué)數(shù)據(jù)的隱藏特征進(jìn)行連接，形成一個(gè)新的多組學(xué)特征矩陣；通過(guò)最小化重建損失函數(shù)和蒸餾損失函數(shù)，利用知識(shí)蒸餾學(xué)習(xí)教師模型的特征表示，并通過(guò)聚類(lèi)損失優(yōu)化學(xué)生模型的特征表示。

28、在本發(fā)明一實(shí)施例中，所述卷積自編碼器，具體實(shí)現(xiàn)如下：

29、(1)構(gòu)建卷積自編碼器模型，包括編碼器和解碼器部分；編碼器將輸入數(shù)據(jù)投影到低維的潛在表示空間，解碼器則從潛在表示中重建原始輸入數(shù)據(jù)；

30、(2)使用多組學(xué)數(shù)據(jù)訓(xùn)練卷積自編碼器模型，優(yōu)化模型參數(shù)以最小化重建誤差；

31、編碼器：利用一維卷積層提取輸入數(shù)據(jù)的特征表示，每個(gè)卷積層后跟隨一個(gè)激活函數(shù)和池化層以減少特征圖的尺寸并增加非線(xiàn)性，卷積層通過(guò)卷積操作提取局部特征，生成特征圖；

32、hl＝f(wl*hl-1+bl)

33、其中：

34、hl是第l層的輸出特征圖，wl是第l層的卷積核，bl是第l層的偏置項(xiàng)；*表示卷積操作，f是激活函數(shù)；

35、激活函數(shù)引入非線(xiàn)性特性，使模型能夠?qū)W習(xí)到更復(fù)雜的特征；

36、relu(x)＝max(0,x)

37、池化層通過(guò)降采樣減少特征圖的空間尺寸，保留重要特征，同時(shí)減少計(jì)算量；

38、maxpooling(x)＝max(kernel(x))

39、經(jīng)過(guò)若干次卷積和池化操作，得到編碼后的低維特征表示z；

40、解碼器：利用一維反卷積層將低維特征表示還原為原始輸入數(shù)據(jù)；每個(gè)反卷積層后跟隨一個(gè)激活函數(shù)以增加非線(xiàn)性并恢復(fù)數(shù)據(jù)，反卷積層通過(guò)轉(zhuǎn)置卷積操作將低維特征圖恢復(fù)到高維空間；

41、

42、其中，是第l-1層的輸出解碼后的特征圖，是第l層卷積核的轉(zhuǎn)置，bl是第l層的偏置項(xiàng)，*表示卷積操作，g是激活函數(shù)；

43、激活函數(shù)引入非線(xiàn)性特性，使模型能夠更準(zhǔn)確地重建數(shù)據(jù)；

44、relu(x)＝max(0,x)

45、重建損失函數(shù)定義如下：

46、

47、其中，x是輸入數(shù)據(jù)，x′是重建數(shù)據(jù)，n是樣本數(shù)，fw表示編碼器，gw'表示解碼器，xi表示輸入特征；

48、通過(guò)最小化重建損失函數(shù)，優(yōu)化卷積自編碼器的參數(shù)，使模型能夠有效地重建輸入數(shù)據(jù)，實(shí)現(xiàn)數(shù)據(jù)的高效壓縮和還原。

49、在本發(fā)明一實(shí)施例中，所述知識(shí)蒸餾算法，具體實(shí)現(xiàn)如下：

50、(1)構(gòu)建一個(gè)輕量級(jí)的學(xué)生模型，學(xué)生模型的結(jié)構(gòu)保留關(guān)鍵的特征提取能力；

51、(2)定義蒸餾損失函數(shù)，包括重建誤差和蒸餾損失，通過(guò)比較教師模型和學(xué)生模型輸出的軟概率分布來(lái)傳遞知識(shí)；

52、教師模型輸出：

53、t＝fteacher(x)

54、其中，fteacher表示教師模型的編碼器，x表示輸入數(shù)據(jù)；

55、學(xué)生模型訓(xùn)練：

56、s＝fstudent(x)

57、其中，fstudent表示學(xué)生模型的編碼器，x表示輸入數(shù)據(jù)；

58、定義蒸餾損失：

59、

60、其中，kl表示kl散度，s是學(xué)生模型的輸出，t是教師模型的輸出，t是溫度參數(shù)，sj表示學(xué)生模型在第j個(gè)類(lèi)別上的輸出logit，tj表示教師模型在第j個(gè)類(lèi)別上的輸出logit，logit是未經(jīng)過(guò)softmax操作的原始輸出分?jǐn)?shù)；是學(xué)生模型輸出經(jīng)過(guò)溫度t調(diào)整后的softmax概率，是教師模型輸出經(jīng)過(guò)溫度t調(diào)整后的softmax概率；

61、定義損失函數(shù)：

62、ltrain＝αlrecon+βldistill

63、其中，lrecon是重建損失，定義為輸入數(shù)據(jù)與重建數(shù)據(jù)之間的均方誤差，ldistill是蒸餾損失，定義為學(xué)生模型和教師模型輸出之間的kl散度，α和β是用于平衡各個(gè)損失項(xiàng)的超參數(shù)，優(yōu)化目標(biāo)是最小化重建損失函數(shù)ltrain。

64、在本發(fā)明一實(shí)施例中，步驟s3中，從學(xué)生模型中提取特征，并使用kl散度來(lái)度量樣本之間的相似性，使用studentt分布來(lái)計(jì)算樣本與聚類(lèi)中心之間的相似性；總損失函數(shù)包括重建損失、知識(shí)蒸餾損失和聚類(lèi)損失的加權(quán)和，用于優(yōu)化特征表示以便于聚類(lèi)任務(wù)；通過(guò)最小化總損失函數(shù)，利用知識(shí)蒸餾損失學(xué)習(xí)教師模型的特征表示，并通過(guò)聚類(lèi)損失優(yōu)化學(xué)生模型的特征表示，實(shí)現(xiàn)高效且準(zhǔn)確的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)；利用kl散度作為聚類(lèi)損失，使學(xué)生模型的特征表示更適合聚類(lèi)；具體如下：

65、軟分配概率qik用來(lái)表示學(xué)生模型的特征表示屬于第k個(gè)聚類(lèi)的概率，它的定義如下：

66、

67、其中，是學(xué)生模型在第i個(gè)樣本的特征表示，μk是第k個(gè)聚類(lèi)的中心(原型)，k是聚類(lèi)的數(shù)量，||·||表示歐幾里得距離；

68、目標(biāo)分配概率pk是軟分配概率的均值：

69、

70、其中，n是樣本的總數(shù)，qik是學(xué)生模型的軟分配概率；

71、聚類(lèi)損失函數(shù)定義如下：

72、

73、總損失函數(shù)定義如下：

74、

75、其中，lrecon是重建損失，ldistill是知識(shí)蒸餾損失，lcluster是聚類(lèi)損失，v是視圖的數(shù)量，α、β和γ是用于平衡各個(gè)損失項(xiàng)的超參數(shù)。

76、本發(fā)明還提供了一種基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)系統(tǒng)，包括存儲(chǔ)器、處理器以及存儲(chǔ)于存儲(chǔ)器上并能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令，當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí)，能夠?qū)崿F(xiàn)如上述所述的方法步驟。

77、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令，當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí)，能夠?qū)崿F(xiàn)如上述所述的方法步驟。

78、相較于現(xiàn)有技術(shù)，本發(fā)明具有以下有益效果：

79、1、增強(qiáng)數(shù)據(jù)處理能力：通過(guò)重新排列特征以減少冗余和提高代表性，這項(xiàng)發(fā)明在處理多組學(xué)數(shù)據(jù)時(shí)能夠有效提升數(shù)據(jù)的質(zhì)量和可靠性，相較于傳統(tǒng)方法減少了噪音干擾。

80、2、高效的特征提?。壕矸e自編碼器在捕捉數(shù)據(jù)的高維結(jié)構(gòu)和特征方面表現(xiàn)優(yōu)異，能夠比傳統(tǒng)特征提取方法更準(zhǔn)確地挖掘數(shù)據(jù)中的潛在信息。

81、3、模型輕量化：知識(shí)蒸餾算法使得較復(fù)雜的教師模型的知識(shí)能夠被傳遞到輕量級(jí)的學(xué)生模型中，這樣可以在減少計(jì)算資源和時(shí)間消耗的同時(shí)保持高性能。適合大規(guī)模數(shù)據(jù)處理和實(shí)際應(yīng)用中的需求。

82、4、提高聚類(lèi)準(zhǔn)確性：通過(guò)使用kl散度對(duì)多視圖癌癥亞型數(shù)據(jù)進(jìn)行聚類(lèi)分析，相比于傳統(tǒng)的聚類(lèi)方法，能夠更精準(zhǔn)地識(shí)別不同癌癥亞型，提高了聚類(lèi)結(jié)果的可靠性和準(zhǔn)確性。

83、5、改進(jìn)處理復(fù)雜數(shù)據(jù)的能力：通過(guò)卷積自編碼器和知識(shí)蒸餾相結(jié)合，這項(xiàng)發(fā)明能夠更好地處理復(fù)雜的多視圖數(shù)據(jù)，提高了對(duì)復(fù)雜數(shù)據(jù)結(jié)構(gòu)的理解和分析能力。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許力,林賢龍,汪曉丁,李家印
技術(shù)所有人：福建師范大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種具有保壓的氫電池模組的制作方法
上一篇：一種廢舊輪胎加工的出料裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開(kāi)發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類(lèi)的抗腫瘤藥物的合成和活性評(píng)價(jià)及糖類(lèi)疫苗的研制 2.功能糖類(lèi)的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開(kāi)發(fā)及應(yīng)用
5、滿(mǎn)老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評(píng)價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于卷積自編碼器和知識(shí)蒸餾的多視圖癌癥亞型數(shù)據(jù)聚類(lèi)方法