本發(fā)明涉及單細(xì)胞樣本生成,具體涉及一種單細(xì)胞亞型樣本生成方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、近些年,深度生成算法已經(jīng)在生成圖像、藥物分子等方面取得了顯著進(jìn)展,且在單細(xì)胞表達(dá)譜上的生成模型已有一些應(yīng)用。
2、目前在單細(xì)胞表達(dá)譜上的生成模型的應(yīng)用方法包括有基于廣義線(xiàn)性模型的方法、變分自編碼器(vae)方法以及利用深度圖神經(jīng)網(wǎng)絡(luò)(gnn)的多模態(tài)單細(xì)胞數(shù)據(jù)分析框架,例如圖卷積網(wǎng)絡(luò)(gcn)、圖注意力網(wǎng)絡(luò)(gat)、圖自編碼器(gae)、圖變分自編碼器(gvae)、圖擴(kuò)散卷積(gdc),這些算法在處理非結(jié)構(gòu)化數(shù)據(jù)方面表現(xiàn)出色。
3、然而,現(xiàn)有的生成模型雖然在特定數(shù)據(jù)集上表現(xiàn)良好,但在生成新單細(xì)胞樣本的能力明顯不足,在捕捉單細(xì)胞數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)方面存在困難,無(wú)法處理三種及以上組學(xué)數(shù)據(jù),同時(shí)在處理多模態(tài)和異構(gòu)圖數(shù)據(jù)時(shí)性能存在受限,導(dǎo)致難以生成與真實(shí)樣本相似度較高的新樣本。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)存在主要針對(duì)于單一或兩種組學(xué)數(shù)據(jù),難以對(duì)三種及以上組學(xué)數(shù)據(jù)進(jìn)行整合的不足,本發(fā)明提出一種單細(xì)胞亞型樣本生成方法、系統(tǒng)、設(shè)備及介質(zhì),通過(guò)構(gòu)建構(gòu)建自適應(yīng)條件圖擴(kuò)散卷積模型acgdc模型,利用網(wǎng)絡(luò)節(jié)點(diǎn)屬性和鄰域拓?fù)溥B接來(lái)重建節(jié)點(diǎn)之間的邊及其屬性之間的關(guān)系,從而解決了現(xiàn)有技術(shù)存在的問(wèn)題。
2、一種單細(xì)胞亞型樣本生成方法,包括以下步驟:
3、獲取單細(xì)胞樣本的多種組學(xué)數(shù)據(jù);將多種所述組學(xué)數(shù)據(jù)分別以有向圖格式進(jìn)行轉(zhuǎn)換,得到節(jié)點(diǎn)矩陣和鄰接矩陣;所述節(jié)點(diǎn)矩陣包括多種組學(xué)數(shù)據(jù)的屬性構(gòu)成的節(jié)點(diǎn),所述鄰接矩陣包括兩個(gè)節(jié)點(diǎn)之間通過(guò)組學(xué)數(shù)據(jù)權(quán)重構(gòu)成的邊;
4、構(gòu)建自適應(yīng)條件圖擴(kuò)散卷積acgdc模型;所述acgdc模型包括圖卷積層和噪聲擴(kuò)散層;
5、將節(jié)點(diǎn)矩陣和鄰接矩陣輸入所述acgdc模型,通過(guò)圖卷積層對(duì)節(jié)點(diǎn)的一階鄰居邊賦予新的權(quán)重向量,將新的權(quán)重向量與該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)向量相乘,得到新的節(jié)點(diǎn)表示;在噪聲擴(kuò)散層中按一定的步長(zhǎng)間隔不斷對(duì)包含新節(jié)點(diǎn)表示的鄰接矩陣添加隨機(jī)噪聲,將該鄰接矩陣轉(zhuǎn)變?yōu)楦咴肼暰仃嚕@得訓(xùn)練后的acgdc模型;
6、將待生成的單細(xì)胞樣本的多種組學(xué)數(shù)據(jù)輸入訓(xùn)練后的acgdc模型中,通過(guò)不斷對(duì)高斯噪聲矩陣去噪,生成新的單細(xì)胞亞型樣本。
7、進(jìn)一步地,多種所述組學(xué)數(shù)據(jù)包括單細(xì)胞rna序列數(shù)據(jù)、單細(xì)胞基因組、轉(zhuǎn)錄組測(cè)序表達(dá)數(shù)據(jù)、臨床元數(shù)據(jù)和細(xì)胞類(lèi)型注釋數(shù)據(jù)。
8、進(jìn)一步地,所述獲取多種組學(xué)數(shù)據(jù)后對(duì)其進(jìn)行預(yù)處理,其預(yù)處理過(guò)程包括以下步驟:
9、使用r包bitr對(duì)多種組學(xué)數(shù)據(jù)進(jìn)行基因的id轉(zhuǎn)換;
10、使用enrichgo和enrichkegg包對(duì)轉(zhuǎn)換后的組學(xué)數(shù)據(jù)進(jìn)行g(shù)o和kegg數(shù)據(jù)庫(kù)注釋?zhuān)?/p>
11、使用cell?marker數(shù)據(jù)庫(kù)中的標(biāo)記基因?qū)?shù)據(jù)庫(kù)注釋后的組學(xué)數(shù)據(jù)進(jìn)行細(xì)胞類(lèi)型的注釋。
12、進(jìn)一步地,所述通過(guò)不斷對(duì)高斯噪聲矩陣去噪,生成新的單細(xì)胞亞型樣本;其具體包括獲取單細(xì)胞亞型的標(biāo)簽向量,通過(guò)將去噪后的高斯噪聲矩陣與單細(xì)胞亞型的標(biāo)簽向量進(jìn)行合并,進(jìn)而生成新的單細(xì)胞亞型樣本。
13、進(jìn)一步地,采用聚類(lèi)分析方法對(duì)所述訓(xùn)練后的acgdc模型進(jìn)行評(píng)估;具體通過(guò)t-sne算法對(duì)生成的單細(xì)胞亞型樣本進(jìn)行降維,通過(guò)k近鄰對(duì)降維后的單細(xì)胞亞型樣本進(jìn)行聚類(lèi),對(duì)聚類(lèi)后的單細(xì)胞亞型樣本進(jìn)行評(píng)估分析。
14、本發(fā)明還包括一種單細(xì)胞亞型樣本生成系統(tǒng),包括:
15、獲取模塊,用于獲取單細(xì)胞樣本的多種組學(xué)數(shù)據(jù);將多種所述組學(xué)數(shù)據(jù)分別以有向圖格式進(jìn)行轉(zhuǎn)換,得到節(jié)點(diǎn)矩陣和鄰接矩陣;所述節(jié)點(diǎn)矩陣包括多種組學(xué)數(shù)據(jù)的屬性構(gòu)成的節(jié)點(diǎn),所述鄰接矩陣包括兩個(gè)節(jié)點(diǎn)之間通過(guò)組學(xué)數(shù)據(jù)權(quán)重構(gòu)成的邊;
16、模型構(gòu)建模塊,用于構(gòu)建自適應(yīng)條件圖擴(kuò)散卷積acgdc模型;所述ac?gdc模型包括圖卷積層和噪聲擴(kuò)散層;
17、模型訓(xùn)練模塊,用于將節(jié)點(diǎn)矩陣和鄰接矩陣輸入所述acgdc模型,通過(guò)圖卷積層對(duì)節(jié)點(diǎn)的一階鄰居邊賦予新的權(quán)重向量,將新的權(quán)重向量與該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)向量相乘,得到新的節(jié)點(diǎn)表示;在噪聲擴(kuò)散層中按一定的步長(zhǎng)間隔不斷對(duì)包含新節(jié)點(diǎn)表示的鄰接矩陣添加隨機(jī)噪聲,將該鄰接矩陣轉(zhuǎn)變?yōu)楦咴肼暰仃?,獲得訓(xùn)練后的acgdc模型;
18、生成模塊,用于將待生成的單細(xì)胞樣本的多種組學(xué)數(shù)據(jù)輸入訓(xùn)練后的acgdc模型中,通過(guò)不斷對(duì)高斯噪聲矩陣去噪,生成新的單細(xì)胞亞型樣本。
19、本發(fā)明還包括一種單細(xì)胞亞型樣本生成計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器內(nèi)的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述的單細(xì)胞亞型樣本生成方法的步驟。
20、本發(fā)明還包括一種可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,所述程序指令被處理器執(zhí)行時(shí),用于執(zhí)行所述的單細(xì)胞亞型樣本生成方法的步驟。
21、本發(fā)明提供了一種單細(xì)胞亞型樣本生成方法、系統(tǒng)、設(shè)備及介質(zhì),具備以下有益效果:
22、本發(fā)明通過(guò)將多種組學(xué)數(shù)據(jù)分別以有向圖格式進(jìn)行轉(zhuǎn)換,來(lái)整合單細(xì)胞的多種組學(xué)數(shù)據(jù),并通過(guò)整合后的數(shù)據(jù)集訓(xùn)練構(gòu)建的自適應(yīng)條件圖擴(kuò)散卷積模型acgdc,利用節(jié)點(diǎn)屬性和鄰域拓?fù)溥B接來(lái)重建節(jié)點(diǎn)之間的邊及其屬性之間的關(guān)系,通過(guò)對(duì)節(jié)點(diǎn)的一階鄰居邊賦予新的權(quán)重向量來(lái)自適應(yīng)學(xué)習(xí)每種不同類(lèi)型的邊在鄰居聚合信息時(shí)所貢獻(xiàn)出不同的重要性,從而解決不同邊類(lèi)型代表不同含義的問(wèn)題,最終使得鄰接矩陣變成高斯噪聲矩陣,通過(guò)對(duì)高斯噪聲矩陣不斷進(jìn)行去噪,得到的去噪后的矩陣與單細(xì)胞亞型的標(biāo)簽向量進(jìn)行合并,從而實(shí)現(xiàn)細(xì)胞亞型標(biāo)簽與該單細(xì)胞采樣樣本進(jìn)行條件綁定,生成新的單細(xì)胞亞型樣本;本發(fā)明能夠高效整合多種組學(xué)數(shù)據(jù),從而生成多種高質(zhì)量的單細(xì)胞亞型樣本,這為解決單細(xì)胞樣本獲取的高昂成本和樣本多樣性問(wèn)題提供了新的解決方法。
1.一種單細(xì)胞亞型樣本生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種單細(xì)胞亞型樣本生成方法,其特征在于,多種所述組學(xué)數(shù)據(jù)包括單細(xì)胞rna序列數(shù)據(jù)、單細(xì)胞基因組、轉(zhuǎn)錄組測(cè)序表達(dá)數(shù)據(jù)、臨床元數(shù)據(jù)和細(xì)胞類(lèi)型注釋數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種單細(xì)胞亞型樣本生成方法,其特征在于,所述獲取多種組學(xué)數(shù)據(jù)后對(duì)其進(jìn)行預(yù)處理,其預(yù)處理過(guò)程包括以下步驟:
4.根據(jù)權(quán)利要求1所述的一種單細(xì)胞亞型樣本生成方法,其特征在于,所述通過(guò)不斷對(duì)高斯噪聲矩陣去噪,生成新的單細(xì)胞亞型樣本,具體包括獲取單細(xì)胞亞型的標(biāo)簽向量,通過(guò)將去噪后的高斯噪聲矩陣與單細(xì)胞亞型的標(biāo)簽向量進(jìn)行合并,進(jìn)而生成新的單細(xì)胞亞型樣本。
5.根據(jù)權(quán)利要求1所述的一種單細(xì)胞亞型樣本生成方法,其特征在于,采用聚類(lèi)分析方法對(duì)所述訓(xùn)練后的acgdc模型進(jìn)行評(píng)估;具體通過(guò)t-sne算法對(duì)生成的單細(xì)胞亞型樣本進(jìn)行降維,通過(guò)k近鄰對(duì)降維后的單細(xì)胞亞型樣本進(jìn)行聚類(lèi),對(duì)聚類(lèi)后的單細(xì)胞亞型樣本進(jìn)行評(píng)估分析。
6.一種單細(xì)胞亞型樣本生成系統(tǒng),其特征在于,包括:
7.一種單細(xì)胞亞型樣本生成計(jì)算機(jī)設(shè)備,其特征在于,包括:存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器內(nèi)的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1-5任一項(xiàng)所述的單細(xì)胞亞型樣本生成方法的步驟。
8.一種可讀存儲(chǔ)介質(zhì),其特征在于,所述可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,所述程序指令被處理器執(zhí)行時(shí),用于執(zhí)行權(quán)利要求1-5任一項(xiàng)所述的單細(xì)胞亞型樣本生成方法的步驟。