本發(fā)明屬于數(shù)據(jù)分析,尤其涉及基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析系統(tǒng)及方法。
背景技術:
1、癌癥患者的基因表達量在預測疾病進展、指導藥物選擇中發(fā)揮了至關重要的作用,通過分析基因表達量的變化,可以揭示特定基因在疾病中的功能和作用,單細胞rna測序(scrna-seq)技術提供了對單個細胞基因表達的檢測,能夠反映患者個體差異和腫瘤內的異質性,這為個性化分析提供了細致的細胞層次信息,基因調控網(wǎng)絡(grn)旨在揭示轉錄因子和靶基因之間的調控關系,通過精確的grn預測,可以更好地理解基因表達量的變化機制,為個性化癌癥治療提供更強有力的決策支持。
2、然而,目前癌癥患者個性化治療中的基因表達量分析和預測,尤其是基于單細胞rna測序(scrna-seq)數(shù)據(jù)的建模工作,仍然面臨諸多技術難點。傳統(tǒng)的數(shù)據(jù)處理和分析方法在處理單細胞數(shù)據(jù)時,容易受到噪聲影響,缺乏對復雜基因調控網(wǎng)絡(grn)的準確捕捉,且難以支持因果推斷,例如,現(xiàn)有大部分分析方法只能處理靜態(tài)數(shù)據(jù),無法實現(xiàn)對單細胞水平基因表達的動態(tài)建模,從而限制了模型在預測癌癥患者特定基因表達變化方面的準確性,此外,在存在大量噪聲的情況下,傳統(tǒng)分析方法的表現(xiàn)顯著下降,易導致錯誤的基因調控關系識別。
3、現(xiàn)有的單細胞基因表達數(shù)據(jù)分析方法(如高斯混合模型、差分表達分析等)雖然可以處理一定程度的噪聲數(shù)據(jù),但缺乏適應癌癥患者異質性和個體特異性的能力,這些方法在面對個性化治療數(shù)據(jù)時,常常無法過濾數(shù)據(jù)中的非生物學噪聲,導致模型推斷結果不穩(wěn)定,并且難以識別腫瘤內復雜的基因調控關系,此外,許多grn推斷方法雖然可以模擬部分轉錄因子與靶基因之間的關系,但由于難以對基因間的非線性和多維關系進行建模,往往無法在單細胞水平上實現(xiàn)精準的基因預測和調控網(wǎng)絡重構。
4、現(xiàn)有的單細胞基因表達量模擬工具和grn推斷工具雖然在一定程度上考慮了基因調控關系,但這些方法缺乏因果結構支持,且在噪聲數(shù)據(jù)中容易產(chǎn)生失真,尤其在癌癥研究應用中,常見的腫瘤樣本個體差異較大,噪聲強度高,現(xiàn)有工具難以支持針對癌癥個體的準確grn建模,導致結果不可靠。
技術實現(xiàn)思路
1、本發(fā)明實施例的目的在于提供基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,旨在解決上述背景技術中提出的問題。
2、本發(fā)明實施例是這樣實現(xiàn)的,基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,包括以下步驟:
3、將基因身份和基因表達量數(shù)值轉換為向量表示;
4、計算基因向量表示之間的注意力分數(shù),作為基因之間關系的評判標準;
5、對具體的基因表達量進行預測。
6、優(yōu)選地,所述將基因身份和基因表達量數(shù)值轉換為向量表示的步驟,具體包括:
7、對基因身份進行編碼;
8、利用高斯分布對基因表達量數(shù)數(shù)值進行編碼;
9、將兩部分編碼相加,得到最終的向量表示。
10、優(yōu)選地,所述利用高斯分布對基因表達量數(shù)數(shù)值進行編碼的步驟,具體為:針對單個基因表達量數(shù)據(jù)g,使用一組均勻分布的高斯基函數(shù)g對距離進行編碼,每個高斯基函數(shù)有其各自的均值,標準差:
11、;
12、單個數(shù)值g會被表示成:。
13、優(yōu)選地,所述利用高斯分布對基因表達量數(shù)數(shù)值進行編碼的步驟,具體還包括:使用單獨的向量表示額外考慮對缺失值的編碼。
14、優(yōu)選地,所述計算基因向量表示之間的注意力分數(shù),作為基因之間關系的評判標準的步驟,具體為:針對每個基因,計算該基因和其他基因之間的注意力分數(shù),所有基因都計算完成之后,將這些注意力分數(shù)進行由高到低的排序,認為前n注意力分數(shù)對應的基因和基因之間存在基因調控關系。
15、本發(fā)明實施例的另一目的在于提供基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析系統(tǒng),用于實現(xiàn)上述基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,包括:
16、編碼層模塊,用于將基因身份和基因表達量數(shù)值轉換為向量表示;
17、自注意力層模塊,用于計算基因向量表示之間的注意力分數(shù),作為基因之間關系的評判標準;
18、預測層模塊,用于對具體的基因表達量進行預測。
19、優(yōu)選地,所述編碼層模塊包括:
20、基因身份編碼層單元,用于對基因身份進行編碼;
21、表達量數(shù)值高斯編碼層單元,用于利用高斯分布對基因表達量數(shù)數(shù)值進行編碼;
22、相加單元,用于將兩部分編碼相加,得到最終的向量表示。
23、優(yōu)選地,所述自注意力層模塊的參數(shù)為:自注意力頭為8,自注意力層數(shù)為1,自注意力層的向量編碼長度為64。
24、優(yōu)選地,還包括:模型訓練模塊,用于將樣本隨機劃分為訓練集,驗證集和測試集,訓練集負責訓練模型,學習潛在的基因調控網(wǎng)絡grn,驗證集負責防止模型過擬合,用來選取最優(yōu)的模型,測試集負責測試模型在基因表達量預測的性能。
25、本發(fā)明實施例提供的基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,通過引入高斯層,增強了抗噪性能,利用嵌入和注意力機制,捕捉基因間復雜的調控關系,并在單細胞水平上實現(xiàn)個體化的grn預測,能夠克服現(xiàn)有方法在癌癥患者個性化治療中的缺陷,進而支持癌癥患者個性化治療中的基因表達量分析和預測。
1.基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,其特征在于,所述計算基因向量表示之間的注意力分數(shù),作為基因之間關系的評判標準的步驟,具體為:針對每個基因,計算該基因和其他基因之間的注意力分數(shù),所有基因都計算完成之后,將這些注意力分數(shù)進行由高到低的排序,認為前n注意力分數(shù)對應的基因和基因之間存在基因調控關系。
3.基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析系統(tǒng),用于實現(xiàn)權利要求1或2所述的基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析方法,其特征在于,包括:
4.根據(jù)權利要求3所述的基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析系統(tǒng),其特征在于,所述編碼層模塊包括:
5.根據(jù)權利要求3所述的基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析系統(tǒng),其特征在于,所述自注意力層模塊的參數(shù)為:自注意力頭為8,自注意力層數(shù)為1,自注意力層的向量編碼長度為64。
6.根據(jù)權利要求4所述的基于深度回歸算法的基因調控網(wǎng)絡的數(shù)據(jù)分析系統(tǒng),其特征在于,還包括:模型訓練模塊,用于將樣本隨機劃分為訓練集,驗證集和測試集,訓練集負責訓練模型,學習潛在的基因調控網(wǎng)絡grn,驗證集負責防止模型過擬合,用來選取最優(yōu)的模型,測試集負責測試模型在基因表達量預測的性能。