欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于全連接變分神經(jīng)網(wǎng)絡(luò)的質(zhì)譜數(shù)據(jù)處理與識別方法與流程

文檔序號:40535724發(fā)布日期:2025-01-03 10:54閱讀:6來源:國知局
一種基于全連接變分神經(jīng)網(wǎng)絡(luò)的質(zhì)譜數(shù)據(jù)處理與識別方法與流程

本發(fā)明涉及計算機輔助醫(yī)學(xué)領(lǐng)域,尤其是涉及一種基于全連接變分神經(jīng)網(wǎng)絡(luò)的質(zhì)譜數(shù)據(jù)處理與識別方法。


背景技術(shù):

1、生物分子識別及其分子機制的研究是生命科學(xué)研究的重要領(lǐng)域,它涉及到分子結(jié)構(gòu)、力學(xué)和動力學(xué)等方面的研究,這些因素相互影響,使得分子能夠?qū)崿F(xiàn)高效、高選擇性的結(jié)合和識別。通過研究生物分子識別的分子機制,我們可以更深入地理解生物體內(nèi)的各種生物過程,如基因表達調(diào)控、信號傳遞等。此外,這項研究還有助于開發(fā)新的治療方法和診斷工具,為疾病的治療和預(yù)防提供科學(xué)依據(jù)。

2、原始數(shù)據(jù)生物標志物(biomarker)是指可以標記系統(tǒng)、器官、組織、細胞及亞細胞結(jié)構(gòu)或功能的改變或可能發(fā)生的改變的生化指標。這些生物標志物多來源于人體組織或體液,能夠反映生理或病理過程,以及對暴露或治療干預(yù)措施產(chǎn)生的生物學(xué)效應(yīng)。

3、質(zhì)譜成像是一項新興技術(shù),具有改進生物標志物發(fā)現(xiàn)、代謝組學(xué)研究、藥物應(yīng)用和臨床診斷的潛力。隨著高分辨率質(zhì)譜成像技術(shù)的出現(xiàn),數(shù)據(jù)量和高維性質(zhì),對于現(xiàn)有的數(shù)據(jù)挖掘、聚類和可視化方法仍然構(gòu)成計算和存儲復(fù)雜性,從而阻礙了生物相關(guān)分子模式的準確識別。然而,數(shù)據(jù)的復(fù)雜性減慢了處理時間,并帶來了計算和內(nèi)存挑戰(zhàn),阻礙了對提取生物學(xué)相關(guān)模式所需的多個樣本的分析。

4、峰值拾取是分析原始數(shù)據(jù)生物標志物的常用預(yù)處理步驟,然而峰值拾取的參數(shù)選擇存在主觀性偏差,可能會影響后續(xù)的聚類分析和生物學(xué)解釋。此外,進行峰值拾取后,數(shù)據(jù)仍具高維復(fù)雜性,現(xiàn)有的數(shù)據(jù)降維算法仍受到計算內(nèi)存和計算速度的限制。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于全連接變分神經(jīng)網(wǎng)絡(luò)的質(zhì)譜數(shù)據(jù)處理與識別方法,避開了傳統(tǒng)耗時的預(yù)處理,采用小批量處理策略,實現(xiàn)了內(nèi)存高效使用,采用基于神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的峰值學(xué)習(xí)方法,實現(xiàn)了高效率峰值識別,基于高斯混合模型對低維特征表示進行聚類分析,在保證聚類精確度的同時聚類速度更快。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):

3、一種基于全連接變分神經(jīng)網(wǎng)絡(luò)的質(zhì)譜數(shù)據(jù)處理與方法,包括以下步驟,

4、步驟s1,獲取質(zhì)譜原始數(shù)據(jù)以及病理學(xué)注釋信息,進行數(shù)據(jù)預(yù)處理;

5、步驟s2,將預(yù)處理后的數(shù)據(jù)輸入基于變分自編碼的無監(jiān)督學(xué)習(xí)模型,學(xué)習(xí)質(zhì)譜數(shù)據(jù)的低維特征表示,實現(xiàn)數(shù)據(jù)可視化;

6、步驟s3,將模型所學(xué)習(xí)的低維特征表示與原始數(shù)據(jù)中的特征相關(guān)聯(lián),實現(xiàn)峰值學(xué)習(xí),得到與腫瘤簇或解剖學(xué)相關(guān)的潛在m/z離子列表;

7、步驟s4,將模型所學(xué)習(xí)的低維特征表示和潛在m/z離子輸入高斯混合模型(gmm,gaussian?mixture?model)進行聚類分析,結(jié)合病理學(xué)注釋信息手動選擇最佳聚類模型,實現(xiàn)感興趣區(qū)域(roi,region?of?interest)簇類與特征離子的共定位;

8、其中,所述無監(jiān)督學(xué)習(xí)模型是一種全連接變分神經(jīng)網(wǎng)絡(luò)模型。

9、進一步地,所述步驟s1中,獲取的質(zhì)譜原始數(shù)據(jù)以及病理學(xué)注釋信息為imzml格式,數(shù)據(jù)預(yù)處理包括:

10、對數(shù)據(jù)進行tic標準化;

11、將imzml格式的數(shù)據(jù)轉(zhuǎn)換為hdf5格式的數(shù)據(jù);

12、采用強度歸一化操作將圖像塊像素值縮放至[0,1]。

13、進一步地,所述步驟s2中,無監(jiān)督學(xué)習(xí)模型的計算框架基于不少于五層的全連接變分神經(jīng)網(wǎng)絡(luò),所述神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層和輸出層。

14、更進一步地,所述無監(jiān)督學(xué)習(xí)模型的特征學(xué)習(xí)包括:

15、在任一神經(jīng)元激活前都對每一層的輸入批量正則化,糾正協(xié)變量偏移;

16、經(jīng)過批量正則化后,輸出層的神經(jīng)元使用sigmoid函數(shù)激活,其余層的神經(jīng)元使用線性整流函數(shù)(relu)激活;

17、神經(jīng)元激活后,模型通過流形學(xué)習(xí)輸入數(shù)據(jù)的底層非線性譜結(jié)構(gòu),同時優(yōu)化kullback-leibler散度和變分自編碼網(wǎng)絡(luò)損失函數(shù)來最小化輸入數(shù)據(jù)和重建數(shù)據(jù)之間的誤差,從而捕獲準確的低維特征表示,并通過批量正則化來糾正協(xié)變量偏移,提高模型學(xué)習(xí)的穩(wěn)定性和收斂性;

18、學(xué)習(xí)過程中,采用重構(gòu)損失、正則化損失和均方誤差作為評估指標優(yōu)化參數(shù)。

19、進一步地,所述kullback-leibler散度總是非負的,kullback-leibler散度的公式如下:

20、

21、其中,z為隱變量,x為輸入數(shù)據(jù),φ為識別模型的參數(shù),θ為生成模型的參數(shù),kl為kullback-leibler散度,qφ(z|x)為由編碼器參數(shù)φ定義的隱變量z的后驗分布近似,pθ(z|x)為由生成模型參數(shù)θ定義的數(shù)據(jù)x的生成分布,kl(qφ(z|x))||pθ(z|x)為qφ(z|x)和pθ(z|x)之間的kullback-leibler散度;

22、所述變分自編碼網(wǎng)絡(luò)損失函數(shù)的公式如下:

23、

24、其中,為變分下界,x(i)為單個數(shù)據(jù)點,pθ(z)為隱變量的先驗分布。

25、更進一步地,所述重構(gòu)損失用于評估解碼后的樣本與輸入的匹配程度,正則化損失用于評估潛在空間對訓(xùn)練數(shù)據(jù)的過擬合程度,均方誤差值越小,模型則越精準,均方誤差值公式為:

26、

27、其中,mse為均方誤差值,n為數(shù)據(jù)點的數(shù)量,xi為第i個原始數(shù)據(jù),xi′′為第i個預(yù)測數(shù)據(jù)。

28、進一步地,所述步驟s3中,在實現(xiàn)峰值學(xué)習(xí),識別獲得所述潛在m/z離子列表時,將模型所學(xué)習(xí)的低維特征表示與原始數(shù)據(jù)中的特征相關(guān)聯(lián),基于神經(jīng)網(wǎng)絡(luò)權(quán)重超參數(shù)的反向傳播的閾值分析進行識別。

29、更進一步地,所述閾值分析包括:

30、權(quán)重參數(shù)閾值分析,對于h2層的第i個神經(jīng)元表示的每個低維特征表示,首先識別具有最大縮放權(quán)重值的前一個隱藏層h1的第j個神經(jīng)元然后,利用權(quán)重向量計算閾值t,它是一個一維向量,保存輸入層的所有d個神經(jīng)元與在隱藏層處識別的第j個神經(jīng)元之間的權(quán)重;最后,輸入層的一組p個神經(jīng)元的權(quán)重大于t(wdj(1)≥t),被檢索并且每個代表一個m/z變量,公式如下,

31、t=mean(wdj(1))+β*std(wdj(1)),β∈[1,2.5];

32、其中,wdj(1)表示輸入層的所有d個神經(jīng)元與在隱藏層處識別的第j個神經(jīng)元之間的權(quán)重,β是一個可調(diào)參數(shù),為每個低維特征表示賦予相同的閾值權(quán)重,在[1,2.5]之間觀察到良好的性能;

33、局部最大值識別,將檢索到的觀察變量代表m/zbin分配給其相關(guān)的m/z分子,將平均光譜上的特征m/z識別為與m/zbin最接近的局部最大值。

34、進一步地,所述步驟s4中,采用能夠使高斯混合模型聚類過程應(yīng)用于預(yù)期范圍內(nèi)不同數(shù)量的聚類數(shù)k(k-clusters)的迭代方法進行聚類分析,其中,聚類數(shù)k是一個用戶可調(diào)參數(shù)。

35、進一步地,所述步驟s4中,通過皮爾遜(pearson)相關(guān)系數(shù)測量感興趣區(qū)域簇類與特征離子之間的共定位,其中,皮爾遜相關(guān)系數(shù)介于0與1之間,系數(shù)越高,感興趣區(qū)域簇類與特征離子之間的共定位程度越高。

36、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

37、1.在網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計時,本發(fā)明提出了一種用于質(zhì)譜圖像數(shù)據(jù)分析的神經(jīng)網(wǎng)絡(luò)模型。這是一種基于全連接變分自動編碼器的穩(wěn)健且通用的概率生成模型,有效地學(xué)習(xí)和可視化原始質(zhì)譜圖像潛在的非線性光譜流形,避開了傳統(tǒng)耗時的預(yù)處理。采用小批量處理策略,實現(xiàn)內(nèi)存高效使用。此外,同時優(yōu)化kullback-leibler散度和變分自編碼成本函數(shù)來最小化原始數(shù)據(jù)和重建數(shù)據(jù)之間的誤差,從而捕獲準確的低維特征表示,并通過批量正則化來糾正協(xié)變量偏移,提高模型學(xué)習(xí)的穩(wěn)定性和收斂性;

38、2.基于神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的方法,將模型所學(xué)習(xí)到的低維特征表示與原始特征相關(guān)聯(lián),實現(xiàn)峰值學(xué)習(xí),得到與腫瘤簇或解剖學(xué)相關(guān)的潛在m/z離子列表,該方法可實現(xiàn)高效率峰值識別;

39、3.基于高斯混合模型對低維特征表示進行聚類分析。采用一種迭代方法使得高斯混合模型聚類過程應(yīng)用于預(yù)期范圍內(nèi)的不同數(shù)量的k-clusters;結(jié)合病理學(xué)注釋結(jié)果手動選擇最佳聚類模型。將感興趣區(qū)域的簇類與具有生物學(xué)相關(guān)性的潛在m/z離子列表相關(guān)聯(lián),從而識別與感興趣區(qū)域共定位的m/z離子,并結(jié)合病理學(xué)分子鑒定結(jié)果探究腫瘤特異性相關(guān)代謝特征。在時間性能上比需要進行峰值拾取的聚類提升了50%左右的效率,聚類速度更快,同時在聚類結(jié)果上高度一致。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平阳县| 米易县| 德昌县| 台山市| 泽普县| 千阳县| 潍坊市| 建平县| 大新县| 吴桥县| 都江堰市| 青铜峡市| 喀什市| 雷州市| 邳州市| 醴陵市| 阿拉善左旗| 永顺县| 晴隆县| 寿宁县| 嘉定区| 南宫市| 监利县| 广汉市| 延边| 靖江市| 望江县| 泗水县| 青阳县| 黄浦区| 通州市| 京山县| 红桥区| 晋宁县| 岳普湖县| 安阳县| 榆林市| 玉门市| 维西| 八宿县| 嵩明县|