本發(fā)明屬于高通量多組學(xué)測(cè)序中轉(zhuǎn)錄組學(xué)測(cè)序和基因組學(xué)測(cè)序領(lǐng)域,具體涉及一種基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法及系統(tǒng)。
背景技術(shù):
1、表達(dá)數(shù)量性狀位點(diǎn)是指能夠影響基因表達(dá)量的遺傳位點(diǎn),其中遺傳變異與某些基因的表達(dá)水平相關(guān),當(dāng)某個(gè)變異位點(diǎn)會(huì)影響基因的表達(dá)時(shí),就稱(chēng)該位點(diǎn)為基因表達(dá)數(shù)量性狀位點(diǎn)。研究表明,基因表達(dá)數(shù)量性狀位點(diǎn)是具有人群、組織、細(xì)胞特異性的,不同組織或者細(xì)胞中的基因表達(dá)數(shù)量性狀位點(diǎn)是不盡相同的。單細(xì)胞rna測(cè)序(scrna-seq)技術(shù)的發(fā)展極大地推動(dòng)了我們對(duì)單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)的研究,使我們有機(jī)會(huì)在單細(xì)胞水平上揭示基因型與基因表達(dá)之間的關(guān)聯(lián)。隨著生物信息學(xué)領(lǐng)域的不斷發(fā)展,已有一些研究者開(kāi)發(fā)了用于基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別的技術(shù),但這些技術(shù)普遍存在識(shí)別基因表達(dá)數(shù)量性狀位點(diǎn)時(shí)使用的數(shù)據(jù)模型單一,以及沒(méi)有突出在單細(xì)胞水平上研究生物數(shù)據(jù)的缺點(diǎn)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的是提供一種基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別技術(shù)。
2、本發(fā)明的技術(shù)方案為:
3、本發(fā)明第一方面,提供了一種基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,包括以下步驟:
4、s1.構(gòu)建數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)對(duì)象:輸入轉(zhuǎn)錄組學(xué)數(shù)據(jù)和基因組學(xué)數(shù)據(jù),構(gòu)建數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)對(duì)象;
5、s2.標(biāo)準(zhǔn)化基因表達(dá)矩陣:對(duì)轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化基因表達(dá)矩陣;
6、s3.過(guò)濾數(shù)據(jù):對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,所述數(shù)據(jù)包括變異位點(diǎn)矩陣和標(biāo)準(zhǔn)化后的基因表達(dá)矩陣數(shù)據(jù);
7、s4.識(shí)別單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn):基于過(guò)濾后的數(shù)據(jù),輸入指定的基因組范圍,篩選出該范圍內(nèi)的基因和變異位點(diǎn),配對(duì)進(jìn)行數(shù)據(jù)建模,得到每個(gè)變異位點(diǎn)基因?qū)Φ呐鋵?duì)結(jié)果;
8、s5.結(jié)果可視化。
9、進(jìn)一步地,所述步驟s2中,使用log歸一化方法進(jìn)行基因表達(dá)數(shù)據(jù)的標(biāo)準(zhǔn)化。分析使用的單細(xì)胞數(shù)據(jù)往往具有極高的稀疏性和變異性,log歸一化可以幫助減少這種稀疏性和變異性,使數(shù)據(jù)更易于分析。
10、進(jìn)一步地,所述步驟s3中,過(guò)濾條件為:僅考慮在至少占總細(xì)胞數(shù)的百分之十的細(xì)胞中表達(dá)水平超過(guò)零值的基因,以及在每種不同基因型的細(xì)胞中各自占總細(xì)胞數(shù)至少達(dá)到百分之十的變異位點(diǎn);這樣可以高效剔除可能源自極少數(shù)細(xì)胞偶然現(xiàn)象或技術(shù)誤差的噪聲信號(hào),確保所分析的基因和變異位點(diǎn)均具備顯著的生物學(xué)意義。同時(shí),還增強(qiáng)了對(duì)低豐度基因的敏感性,確保即使在低表達(dá)水平下,具有潛在重要性的基因也能被有效捕捉,為后續(xù)的深入分析奠定堅(jiān)實(shí)基礎(chǔ)。
11、進(jìn)一步地,所述步驟s4中,在數(shù)據(jù)建模前,根據(jù)構(gòu)建的數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)對(duì)象中儲(chǔ)存的細(xì)胞類(lèi)型或細(xì)胞狀態(tài)的分類(lèi)信息,對(duì)細(xì)胞進(jìn)行分類(lèi)。
12、進(jìn)一步地,所述步驟s4中,采用零膨脹負(fù)二項(xiàng)式模型進(jìn)行建模,公式如下:
13、f(n;μ,θ,π)=π·δ0(n)+(1-π)·f{nb}(n;μ,θ)
14、其中,μ是負(fù)二項(xiàng)式分布的均值參數(shù),θ是負(fù)二項(xiàng)式分布的形狀參數(shù);π是基因零值的概率。過(guò)引入額外的零膨脹參數(shù)π,可以有效區(qū)分由于技術(shù)噪聲或隨機(jī)因素導(dǎo)致的零表達(dá)與生物學(xué)上真實(shí)的零表達(dá),從而能夠更準(zhǔn)確地捕捉基因表達(dá)與遺傳變異之間的關(guān)系。
15、進(jìn)一步地,所述步驟s4中,對(duì)于模型輸出的配對(duì)結(jié)果,先利用似然比檢驗(yàn)作為初步篩選工具,然后通過(guò)卡方檢驗(yàn)進(jìn)一步驗(yàn)證,得出每個(gè)變異位點(diǎn)基因?qū)Φ呐鋵?duì)結(jié)果——p值;并采用bonferroni校正法對(duì)p值進(jìn)行調(diào)整,僅當(dāng)校正后的p值小于0.05時(shí),才認(rèn)定該變異位點(diǎn)基因?qū)哂薪y(tǒng)計(jì)學(xué)上的顯著性關(guān)聯(lián)。
16、進(jìn)一步地,所述步驟s5中,使用融合箱線圖、小提琴圖與散點(diǎn)圖的綜合視圖進(jìn)行結(jié)果展示,不僅可以提升圖表的美觀度,還顯著增強(qiáng)結(jié)果的直觀性和清晰度。
17、本發(fā)明第二方面,提供了一種基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別系統(tǒng),包括:
18、數(shù)據(jù)輸入模塊,用于輸入轉(zhuǎn)錄組學(xué)數(shù)據(jù)和基因組學(xué)數(shù)據(jù),并構(gòu)建數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)對(duì)象;
19、標(biāo)準(zhǔn)化模塊,用于對(duì)轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化基因表達(dá)矩陣;
20、質(zhì)控模塊,用于過(guò)濾變異位點(diǎn)矩陣和標(biāo)準(zhǔn)化基因表達(dá)矩陣數(shù)據(jù);
21、位點(diǎn)識(shí)別模塊,基于過(guò)濾后的數(shù)據(jù),輸入指定的基因組范圍,篩選出該范圍內(nèi)的基因和變異位點(diǎn),配對(duì)進(jìn)行數(shù)據(jù)建模,得到每個(gè)變異位點(diǎn)基因?qū)Φ呐鋵?duì)結(jié)果;
22、可視化模塊,對(duì)配對(duì)結(jié)果進(jìn)行可視化展示。
23、本發(fā)明第三方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法。
24、本發(fā)明第四方面,還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法。
25、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
26、本發(fā)明的方法,實(shí)現(xiàn)了單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)和基因組學(xué)數(shù)據(jù)聯(lián)合分析,給用戶(hù)提供了多種識(shí)別基因表達(dá)數(shù)量性狀位點(diǎn)的模型選擇且能在單細(xì)胞水平上分析數(shù)據(jù),從而揭示基因型與基因表達(dá)之間的關(guān)聯(lián),為理解復(fù)雜疾病的分子機(jī)制提供新的視角。
1.一種基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于:所述步驟s2中,使用log歸一化方法進(jìn)行基因表達(dá)數(shù)據(jù)的標(biāo)準(zhǔn)化。
3.根據(jù)權(quán)利要求1所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于:所述步驟s3中,過(guò)濾條件為:僅考慮在至少占總細(xì)胞數(shù)的百分之十的細(xì)胞中表達(dá)水平超過(guò)零值的基因,以及在每種不同基因型的細(xì)胞中各自占總細(xì)胞數(shù)至少達(dá)到百分之十的變異位點(diǎn)。
4.根據(jù)權(quán)利要求1所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于:所述步驟s4中,在數(shù)據(jù)建模前,根據(jù)構(gòu)建的數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)對(duì)象中儲(chǔ)存的細(xì)胞類(lèi)型或細(xì)胞狀態(tài)的分類(lèi)信息,對(duì)細(xì)胞進(jìn)行分類(lèi)。
5.根據(jù)權(quán)利要求1所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于:所述步驟s4中,采用零膨脹負(fù)二項(xiàng)式模型進(jìn)行建模,公式如下:
6.根據(jù)權(quán)利要求5所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于:所述步驟s4中,對(duì)于模型輸出的配對(duì)結(jié)果,先利用似然比檢驗(yàn)作為初步篩選工具,然后通過(guò)卡方檢驗(yàn)進(jìn)一步驗(yàn)證,得出每個(gè)變異位點(diǎn)基因?qū)Φ呐鋵?duì)結(jié)果——p值;并采用bonferroni校正法對(duì)p值進(jìn)行調(diào)整,僅當(dāng)校正后的p值小于0.05時(shí),才認(rèn)定該變異位點(diǎn)基因?qū)哂薪y(tǒng)計(jì)學(xué)上的顯著性關(guān)聯(lián)。
7.根據(jù)權(quán)利要求1所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法,其特征在于:所述步驟s5中,使用融合箱線圖、小提琴圖與散點(diǎn)圖的綜合視圖進(jìn)行結(jié)果展示。
8.一種基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別系統(tǒng),其特征在于,包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述權(quán)利要求1~7任一項(xiàng)所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法。
10.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述權(quán)利要求1~7任一所述的基于高通量多組學(xué)測(cè)序的單細(xì)胞基因表達(dá)數(shù)量性狀位點(diǎn)識(shí)別方法。