本發(fā)明涉及腫瘤數(shù)據(jù)融合,更具體地說,本發(fā)明涉及一種基于多源數(shù)據(jù)融合的胃癌術(shù)后mrd復(fù)發(fā)預(yù)警系統(tǒng)。
背景技術(shù):
1、在胃癌術(shù)后mrd(微小殘留病灶)監(jiān)測(cè)中,由于多模態(tài)數(shù)據(jù)來源于基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組和臨床信息,這些數(shù)據(jù)具有不同的維度和結(jié)構(gòu),且模態(tài)之間存在顯著差異(如基因組數(shù)據(jù)是序列形式,而蛋白質(zhì)組數(shù)據(jù)為濃度表達(dá)),因此直接對(duì)比與整合存在挑戰(zhàn),同時(shí)數(shù)據(jù)采集過程中還會(huì)出現(xiàn)缺失值和噪聲,特別是基因組數(shù)據(jù)因維度極高且有效特征較少,進(jìn)一步加大了數(shù)據(jù)融合和計(jì)算的難度,因此如何通過處理缺失數(shù)據(jù)、去除噪聲并有效提取多源數(shù)據(jù)中的關(guān)鍵特征,成為提升監(jiān)測(cè)模型性能的核心技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提供一種基于多源數(shù)據(jù)融合的胃癌術(shù)后mrd復(fù)發(fā)預(yù)警系統(tǒng),通過多模態(tài)自編碼器提取關(guān)鍵特征,并在特征加權(quán)融合、banach空間嵌入和fisher-rao距離度量的優(yōu)化下,減少模態(tài)差異和信息損失,最終通過機(jī)器學(xué)習(xí)模型精準(zhǔn)監(jiān)測(cè)mrd狀態(tài)與評(píng)估復(fù)發(fā)風(fēng)險(xiǎn),提升預(yù)測(cè)準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于多源數(shù)據(jù)融合的胃癌術(shù)后mrd復(fù)發(fā)預(yù)警系統(tǒng),包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、機(jī)器學(xué)習(xí)模塊和風(fēng)險(xiǎn)預(yù)警模塊,還包括多模態(tài)自編碼器模塊、特征加權(quán)融合模塊、banach空間嵌入模塊和fisher-rao距離度量模塊,數(shù)據(jù)采集模塊與數(shù)據(jù)預(yù)處理模塊相連,數(shù)據(jù)預(yù)處理模塊與機(jī)器學(xué)習(xí)模塊相連,機(jī)器學(xué)習(xí)模塊與風(fēng)險(xiǎn)預(yù)警模塊相連,多模態(tài)自編碼器模塊從多模態(tài)數(shù)據(jù)中提取關(guān)鍵特征,將其映射到統(tǒng)一的低維空間,形成特征表示,特征加權(quán)融合模塊根據(jù)每個(gè)模態(tài)特征的重要性對(duì)其進(jìn)行加權(quán)融合,生成統(tǒng)一的特征表示,banach空間嵌入模塊將加權(quán)融合后的特征嵌入banach空間,以處理不同模態(tài)數(shù)據(jù)的復(fù)雜性和高維性,并保證特征的平滑性,fisher-rao距離度量模塊使用fisher-rao距離度量融合后的模態(tài)間差異,優(yōu)化融合后的特征表示,并通過對(duì)其不同模態(tài)的數(shù)據(jù)分布來減少模態(tài)間的差異,機(jī)器學(xué)習(xí)模塊將融合后的數(shù)據(jù)輸入深度神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)不同模態(tài)的關(guān)鍵特征,進(jìn)行mrd監(jiān)測(cè)與風(fēng)險(xiǎn)評(píng)估。
4、作為本發(fā)明進(jìn)一步的方案,數(shù)據(jù)采集模塊采集多源數(shù)據(jù)的執(zhí)行流程包括:
5、步驟11,初始化階段:系統(tǒng)初始啟動(dòng)時(shí),首先加載預(yù)定的配置文件,根據(jù)系統(tǒng)需求,連接其需求的數(shù)據(jù)庫(kù)和醫(yī)療設(shè)備,在配置加載完成后,激活數(shù)據(jù)采集模塊,準(zhǔn)備與不同的數(shù)據(jù)源進(jìn)行通信,等待數(shù)據(jù)采集任務(wù)的啟動(dòng);
6、步驟12,數(shù)據(jù)源連接與驗(yàn)證:數(shù)據(jù)采集模塊連接基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)的多源數(shù)據(jù)源,以及患者的臨床信息,并驗(yàn)證數(shù)據(jù)源的連接穩(wěn)定性;
7、步驟13,執(zhí)行數(shù)據(jù)采集任務(wù):根據(jù)系統(tǒng)配置的采集頻率,定時(shí)激活數(shù)據(jù)采集任務(wù),通過預(yù)定義的api及數(shù)據(jù)接口,自動(dòng)抓取來自不同數(shù)據(jù)源的數(shù)據(jù),并將其緩存到臨時(shí)存儲(chǔ)空間中。
8、作為本發(fā)明進(jìn)一步的方案,數(shù)據(jù)預(yù)處理模塊接收數(shù)據(jù)采集模塊采集的多源數(shù)據(jù)并進(jìn)行預(yù)處理的工作流程包括:
9、步驟21,數(shù)據(jù)格式標(biāo)準(zhǔn)化:使用one-hot編碼將基因組數(shù)據(jù)中每個(gè)堿基轉(zhuǎn)化為相應(yīng)的數(shù)值向量,將序列形式的基因信息轉(zhuǎn)換為數(shù)值矩陣,將轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組的數(shù)據(jù)直接輸入為數(shù)值矩陣;
10、步驟22,數(shù)據(jù)清洗:對(duì)數(shù)據(jù)進(jìn)行噪聲監(jiān)測(cè)和異常值識(shí)別,采用統(tǒng)計(jì)方法檢測(cè)極端值并進(jìn)行修正或刪除,使用濾波器去除采集過程中出現(xiàn)的噪聲;
11、步驟23,缺失數(shù)據(jù)處理:對(duì)連續(xù)數(shù)據(jù)采用線性插值填補(bǔ)缺失數(shù)據(jù)點(diǎn),對(duì)高維數(shù)據(jù),使用低秩矩陣分解補(bǔ)全方法進(jìn)行缺失值填補(bǔ);
12、步驟24,數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化:將數(shù)據(jù)進(jìn)行均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)化處理,消除不同模態(tài)數(shù)據(jù)的量綱差異,將數(shù)據(jù)縮放至[0,1];
13、步驟25,數(shù)據(jù)降維:使用線性判別分析降低高維數(shù)據(jù)的維度,保留關(guān)鍵特征;
14、步驟26,數(shù)據(jù)平衡:對(duì)數(shù)據(jù)中較少的類別進(jìn)行過采樣,增加該類別的樣本數(shù)量,對(duì)數(shù)據(jù)中較多的類別進(jìn)行欠采樣,減少該類型樣本數(shù)量。
15、作為本發(fā)明進(jìn)一步的方案,多模態(tài)自編碼器模塊通過卷積自編碼器處理具有空間結(jié)構(gòu)的基因組數(shù)據(jù),提取序列中的局部模式,使用變分自編碼器處理轉(zhuǎn)錄組和代謝組數(shù)據(jù),學(xué)習(xí)隱變量分布來捕捉數(shù)據(jù)的復(fù)雜關(guān)系,使用去噪自編碼器處理患者的臨床信息,幫助去除測(cè)量中的噪聲的缺失值,使用稀疏自編碼器處理高維稀疏的基因組數(shù)據(jù),通過稀疏正則化提取出關(guān)鍵特征。
16、作為本發(fā)明進(jìn)一步的方案,在多模態(tài)自編碼器模塊中,基因組和轉(zhuǎn)錄組數(shù)據(jù)處理的自編碼器網(wǎng)絡(luò)共享卷積層的卷積核參數(shù),提取序列中的局部信息,蛋白質(zhì)組和代謝組數(shù)據(jù)的自編碼器網(wǎng)絡(luò)共享編碼器層中的全連接層及稀疏層,捕捉生物學(xué)上相關(guān)的代謝途徑。
17、作為本發(fā)明進(jìn)一步的方案,在多模態(tài)自編碼器模塊中,基因組數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù)的變分自編碼器共享潛在空間中的均值和方差參數(shù),生成統(tǒng)一的隱變量分布,從基因組數(shù)據(jù)預(yù)測(cè)出轉(zhuǎn)錄組的表達(dá)情況,通過代謝組數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)組的豐度。
18、作為本發(fā)明進(jìn)一步的方案,在多模態(tài)自編碼器模塊中,臨床信息和代謝組數(shù)據(jù)的變分自編碼器網(wǎng)絡(luò)共享卷積層和全連接層,提取患者數(shù)據(jù)中的共性信息,系數(shù)正則化層和去噪層保留模態(tài)特定的特征學(xué)習(xí)能力,捕捉代謝組中的特殊信息。
19、作為本發(fā)明進(jìn)一步的方案,多模態(tài)自編碼模塊針對(duì)基因組、轉(zhuǎn)錄組數(shù)據(jù)生成特征表示的執(zhí)行流程如下:
20、使用卷積自編碼器處理基因組數(shù)據(jù):
21、步驟311,輸入數(shù)據(jù):輸入基因組數(shù)據(jù);
22、步驟312,卷積層參數(shù)共享:使用共享的卷積核對(duì)基因組數(shù)據(jù)進(jìn)行局部特征提取,多個(gè)卷積層逐層提取高層次序列模式,對(duì)基因組和轉(zhuǎn)錄組數(shù)據(jù),卷積核參數(shù)在卷積層中共享,提取相似的序列信息;
23、步驟313,生成特征表示:卷積層輸出的特征映射通過池化層進(jìn)一步壓縮,生成低維特征表示,表示基因組的潛在特征;
24、使用變分自編碼器處理轉(zhuǎn)錄組數(shù)據(jù):
25、步驟321,輸入數(shù)據(jù):輸入轉(zhuǎn)錄組數(shù)據(jù);
26、步驟322,共享潛在變量:通過共享的卷積層和全連接層,將轉(zhuǎn)錄組數(shù)據(jù)與基因組數(shù)據(jù)的特征映射到相同的潛在空間,共享的編碼器生成聯(lián)合的均值和方差參數(shù),形成跨模態(tài)的隱變量分布;
27、步驟323,生成特征表示:通過采樣隱變量,生成轉(zhuǎn)錄組數(shù)據(jù)的低維特征表示,該表示在潛在空間中與基因組數(shù)據(jù)共享相似的分布,用于跨模態(tài)推理;
28、作為本發(fā)明進(jìn)一步的方案,多模態(tài)自編碼模塊針對(duì)蛋白質(zhì)組、代謝組的多源數(shù)據(jù)源,以及患者的臨床信息數(shù)據(jù)生成特征表示的執(zhí)行流程如下:
29、使用稀疏編碼器處理蛋白質(zhì)組數(shù)據(jù):
30、步驟331,輸入數(shù)據(jù):輸入蛋白質(zhì)組數(shù)據(jù);
31、步驟332,參數(shù)共享:共享的編碼層通過稀疏正則化提取蛋白質(zhì)數(shù)據(jù)中的關(guān)鍵特征,蛋白質(zhì)組和代謝組數(shù)據(jù)在編碼器中共享的全連接層和稀疏層捕捉相關(guān)的生物路徑;
32、步驟333,生成特征表示:通過稀疏編碼生成蛋白質(zhì)組的特征表示,捕捉蛋白質(zhì)表達(dá)中的關(guān)鍵節(jié)點(diǎn);
33、使用變分自編碼器處理代謝組數(shù)據(jù):
34、步驟341,輸入數(shù)據(jù):輸入代謝組的代謝產(chǎn)物豐度數(shù)據(jù);
35、步驟342,參數(shù)共享與正則化:代謝組數(shù)據(jù)與蛋白質(zhì)組數(shù)據(jù)共享潛在空間的均值和方差,生成相同的隱變量分布,在編碼器中使用正則化層昂住提取模態(tài)之間的共性信息,同時(shí)保持代謝組數(shù)據(jù)的特異性;
36、步驟343,生成特征表示:通過變分自編碼生成代謝組數(shù)據(jù)的特征表示,并在潛在空間中捕捉與蛋白質(zhì)組的共同特征;
37、使用去噪自編碼器處理臨床信息:
38、步驟351,輸入數(shù)據(jù):輸入患者的臨床信息;
39、步驟352,去噪與特征提?。号R床信息在編碼階段添加噪聲,去噪自編碼器通過學(xué)習(xí)去噪能力生成無噪聲的潛在表示,在去噪層后,提取患者臨床信息的核心特征,用于與生物數(shù)據(jù)整合;
40、步驟353,生成特征表示:生成去噪后的患者臨床信息特征表示。
41、作為本發(fā)明進(jìn)一步的方案,特征加權(quán)融合模塊、banach空間嵌入模塊和fisher-rao距離度量模塊、機(jī)器學(xué)習(xí)模塊及風(fēng)險(xiǎn)預(yù)警模塊基于多模態(tài)自編碼模塊生成的多源數(shù)據(jù)特征表示進(jìn)行特征融合,并通過機(jī)器學(xué)習(xí)模型進(jìn)行風(fēng)險(xiǎn)預(yù)警的具體實(shí)現(xiàn)過程包括:
42、步驟41,特征加權(quán)融合:接受多模態(tài)自編碼器生成的基因組特征表示、轉(zhuǎn)錄組特征表示、蛋白質(zhì)組特征表示、代謝組特征表示及臨床信息組特征表示進(jìn)行加權(quán)融合,通過預(yù)定義的方式為每個(gè)模態(tài)分配權(quán)重,進(jìn)行加權(quán)融合,生成統(tǒng)一的特征表示;
43、步驟42,banach空間嵌入:將融合后的特征表示映射到banach空間中,生成嵌入到banach空間的特征表示;
44、步驟43,fisher-rao距離度量:接收來自步驟42獲取的嵌入到banach空間的特征表示,使用fisher-rao距離度量來衡量不同模態(tài)間特征分布的差異,優(yōu)化嵌入到banach空間的特征表示,獲取最終多源數(shù)據(jù)融合的特征表示;
45、步驟44,機(jī)器學(xué)習(xí)預(yù)測(cè):將步驟43獲取的最終多源數(shù)據(jù)融合的特征表示輸入訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò),獲取胃癌術(shù)后mrd復(fù)發(fā)預(yù)測(cè)風(fēng)險(xiǎn)概率;
46、步驟45,胃癌術(shù)后mrd復(fù)發(fā)預(yù)警:在胃癌術(shù)后mrd復(fù)發(fā)預(yù)測(cè)風(fēng)險(xiǎn)概率超過預(yù)定閾值,發(fā)出復(fù)發(fā)預(yù)警,并通知相關(guān)醫(yī)療人員。
47、相比于現(xiàn)有技術(shù),本發(fā)明的技術(shù)效果:本發(fā)明通過多模態(tài)自編碼器模塊,能夠從基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組及患者的醫(yī)療信息的不同數(shù)據(jù)模態(tài)中提取關(guān)鍵特征,并將其映射到統(tǒng)一的低維空間,減少了模態(tài)差異,通過特征加權(quán)融合模塊進(jìn)行權(quán)重調(diào)整,實(shí)現(xiàn)對(duì)不同模態(tài)特征的優(yōu)化融合,使關(guān)鍵特征更突出,banach空間嵌入模塊進(jìn)一步確保了高維數(shù)據(jù)的平滑性和一致性,fisher-rao距離度量模塊優(yōu)化模態(tài)間的分布差異,減少融合過程中產(chǎn)生的信息損失,最終,通過機(jī)器學(xué)習(xí)模塊精準(zhǔn)地監(jiān)測(cè)mrd狀態(tài)并評(píng)估復(fù)發(fā)風(fēng)險(xiǎn),顯著提升了模型的性能和預(yù)測(cè)準(zhǔn)確性,能夠有效解決多模態(tài)數(shù)據(jù)之間差異較大、數(shù)據(jù)維度復(fù)雜、存在缺失值和噪聲的問題。