本發(fā)明涉及生物信息,更具體地說(shuō),它涉及一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法。
背景技術(shù):
1、scrna-seq測(cè)序是一種重要的基因組學(xué)技術(shù),可以對(duì)單個(gè)細(xì)胞進(jìn)行高通量測(cè)序,從而揭示細(xì)胞間的差異和多樣性。而降維則是scrna-seq測(cè)序數(shù)據(jù)分析中的一個(gè)重要步驟,旨在將高維數(shù)據(jù)轉(zhuǎn)化為低維表示,以便更好地理解和解釋數(shù)據(jù)。
2、隨著scrna-seq測(cè)序技術(shù)的發(fā)展,每個(gè)研究或?qū)嶒?yàn)中測(cè)定的細(xì)胞數(shù)量在顯著增加,少則產(chǎn)生幾百,多則產(chǎn)生幾十萬(wàn)的細(xì)胞數(shù)量,甚至更多。其中,細(xì)胞亞型的鑒定是scrna-seq測(cè)序技術(shù)一個(gè)非常重要的基礎(chǔ)應(yīng)用。但由于scrna-seq測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞,但由于scrna-seq測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞,而每個(gè)細(xì)胞中的基因數(shù)量又可能是幾萬(wàn)個(gè),所以,scrna-seq測(cè)序數(shù)據(jù)是一個(gè)高維的復(fù)雜數(shù)據(jù),為了有效地對(duì)scrna-seq測(cè)序數(shù)據(jù)進(jìn)行各種處理分析,特別是細(xì)胞亞型的鑒定,通常需要首先對(duì)scrna-seq測(cè)序數(shù)據(jù)進(jìn)行降維。pca就是一種常用的降維技術(shù),它通過(guò)尋找數(shù)據(jù)集中的主成分(主方向),將高維數(shù)據(jù)映射到低維空間。主成分是使得高維數(shù)據(jù)的方差最大化的低維空間。pca的核心思想是通過(guò)將高維數(shù)據(jù)的協(xié)方差矩陣的特征值和特征向量來(lái)表示數(shù)據(jù)的主成分。
3、然而,scrna-seq測(cè)序數(shù)據(jù)具有高緯度,高稀疏等特性,在進(jìn)行pca降維之前往往需要進(jìn)行特征選擇,篩選出高表達(dá)基因。但是,目前的降維方法側(cè)重于挖掘高表達(dá)基因之間的線性關(guān)系,忽略了低表達(dá)基因之間的潛在聯(lián)系,雖然降維由高表達(dá)基因構(gòu)成的基因表達(dá)矩陣可以獲得更好的降維效果,但也會(huì)丟失低表達(dá)基因之間的潛在聯(lián)系。
4、因此,本發(fā)明旨在提供一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,用以解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,本發(fā)明通過(guò)使用svd方法對(duì)數(shù)據(jù)矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,同時(shí)使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原矩陣進(jìn)行點(diǎn)乘得到降維后的數(shù)據(jù)矩陣,并且為了更好的找到區(qū)分?jǐn)?shù)據(jù)的投影方向,通過(guò)先使用經(jīng)過(guò)處理的掩碼矩陣,掩碼矩陣掩蓋掉了低可變的細(xì)胞,然后根據(jù)該掩碼矩陣求得對(duì)應(yīng)的特征值與特征向量,但是為了不損失原本的信息,本發(fā)明使用求得的特征向量與原數(shù)據(jù)矩陣進(jìn)行點(diǎn)乘,得到降維矩陣,這樣既能更好的降維,同時(shí)也不損失原本的信息。
2、本發(fā)明的上述技術(shù)目的是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的:一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,包括以下步驟:
3、s1、采集ncbi網(wǎng)站上的公共數(shù)據(jù)集并進(jìn)行質(zhì)量控制與特征選擇,得到原始基因表達(dá)矩陣;
4、s2、添加掩碼,在原始基因表達(dá)矩陣中篩選并掩蓋低可變基因,從而得出掩碼矩陣;
5、s3、奇異值分解,根據(jù)掩碼矩陣使用svd分解求出降維矩陣;
6、s4、pca降維,根據(jù)降維矩陣的特征值與原始基因表達(dá)矩陣相乘,得到降維結(jié)果;
7、s5、聚類(lèi)可視化,使用leiden方法進(jìn)行聚類(lèi),并使用t-sne方法進(jìn)行可視化。
8、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s1中數(shù)據(jù)預(yù)處理分別包括歸一化處理、縮放處理和特征選擇處理。
9、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s2中添加掩碼的具體流程為:首先通過(guò)特征選擇,從原始基因表達(dá)矩陣中篩選出低可變基因,將其設(shè)置為0,從而構(gòu)造得出掩碼矩陣。
10、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s3中奇異值分解的具體流程為:使用svd方法對(duì)掩碼矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,然后使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原始基因表達(dá)矩陣進(jìn)行點(diǎn)乘得到降維矩陣。
11、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s4中pca降維的具體流程為:使用原始基因表達(dá)矩陣與降維矩陣相乘得到降維結(jié)果,用于保留掩碼所覆蓋的信息。
12、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s5中聚類(lèi)可視化的具體流程為:將降維結(jié)果作為輸入,使用leiden聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),并使用細(xì)胞類(lèi)型標(biāo)簽對(duì)可視化結(jié)果進(jìn)行著色。
13、綜上所述,本發(fā)明具有以下有益效果:
14、本發(fā)明通過(guò)使用svd方法對(duì)數(shù)據(jù)矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,同時(shí)使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原矩陣進(jìn)行點(diǎn)乘得到降維后的數(shù)據(jù)矩陣,并且為了更好的找到區(qū)分?jǐn)?shù)據(jù)的投影方向,通過(guò)先使用經(jīng)過(guò)處理的掩碼矩陣,掩碼矩陣掩蓋掉了低可變的細(xì)胞,然后根據(jù)該掩碼矩陣求得對(duì)應(yīng)的特征值與特征向量,但是為了不損失原本的信息,本發(fā)明使用求得的特征向量與原數(shù)據(jù)矩陣進(jìn)行點(diǎn)乘,得到降維矩陣,這樣既能更好的降維,同時(shí)也不損失原本的信息。
1.一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s1中數(shù)據(jù)預(yù)處理分別包括歸一化處理、縮放處理和特征選擇處理。
3.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s2中添加掩碼的具體流程為:首先通過(guò)特征選擇,從原始基因表達(dá)矩陣中篩選出低可變基因,將其設(shè)置為0,從而構(gòu)造得出掩碼矩陣。
4.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s3中奇異值分解的具體流程為:使用svd方法對(duì)掩碼矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,然后使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原始基因表達(dá)矩陣進(jìn)行點(diǎn)乘得到降維矩陣。
5.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s4中pca降維的具體流程為:使用原始基因表達(dá)矩陣與降維矩陣相乘得到降維結(jié)果,用于保留掩碼所覆蓋的信息。
6.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s5中聚類(lèi)可視化的具體流程為:將降維結(jié)果作為輸入,使用leiden聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),并使用細(xì)胞類(lèi)型標(biāo)簽對(duì)可視化結(jié)果進(jìn)行著色。