欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種添加的掩碼的scRNA-seq測(cè)序數(shù)據(jù)PCA降維方法

文檔序號(hào):40614186發(fā)布日期:2025-01-07 21:01閱讀:7來(lái)源:國(guó)知局
一種添加的掩碼的scRNA-seq測(cè)序數(shù)據(jù)PCA降維方法

本發(fā)明涉及生物信息,更具體地說(shuō),它涉及一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法。


背景技術(shù):

1、scrna-seq測(cè)序是一種重要的基因組學(xué)技術(shù),可以對(duì)單個(gè)細(xì)胞進(jìn)行高通量測(cè)序,從而揭示細(xì)胞間的差異和多樣性。而降維則是scrna-seq測(cè)序數(shù)據(jù)分析中的一個(gè)重要步驟,旨在將高維數(shù)據(jù)轉(zhuǎn)化為低維表示,以便更好地理解和解釋數(shù)據(jù)。

2、隨著scrna-seq測(cè)序技術(shù)的發(fā)展,每個(gè)研究或?qū)嶒?yàn)中測(cè)定的細(xì)胞數(shù)量在顯著增加,少則產(chǎn)生幾百,多則產(chǎn)生幾十萬(wàn)的細(xì)胞數(shù)量,甚至更多。其中,細(xì)胞亞型的鑒定是scrna-seq測(cè)序技術(shù)一個(gè)非常重要的基礎(chǔ)應(yīng)用。但由于scrna-seq測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞,但由于scrna-seq測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞,而每個(gè)細(xì)胞中的基因數(shù)量又可能是幾萬(wàn)個(gè),所以,scrna-seq測(cè)序數(shù)據(jù)是一個(gè)高維的復(fù)雜數(shù)據(jù),為了有效地對(duì)scrna-seq測(cè)序數(shù)據(jù)進(jìn)行各種處理分析,特別是細(xì)胞亞型的鑒定,通常需要首先對(duì)scrna-seq測(cè)序數(shù)據(jù)進(jìn)行降維。pca就是一種常用的降維技術(shù),它通過(guò)尋找數(shù)據(jù)集中的主成分(主方向),將高維數(shù)據(jù)映射到低維空間。主成分是使得高維數(shù)據(jù)的方差最大化的低維空間。pca的核心思想是通過(guò)將高維數(shù)據(jù)的協(xié)方差矩陣的特征值和特征向量來(lái)表示數(shù)據(jù)的主成分。

3、然而,scrna-seq測(cè)序數(shù)據(jù)具有高緯度,高稀疏等特性,在進(jìn)行pca降維之前往往需要進(jìn)行特征選擇,篩選出高表達(dá)基因。但是,目前的降維方法側(cè)重于挖掘高表達(dá)基因之間的線性關(guān)系,忽略了低表達(dá)基因之間的潛在聯(lián)系,雖然降維由高表達(dá)基因構(gòu)成的基因表達(dá)矩陣可以獲得更好的降維效果,但也會(huì)丟失低表達(dá)基因之間的潛在聯(lián)系。

4、因此,本發(fā)明旨在提供一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,用以解決上述問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,本發(fā)明通過(guò)使用svd方法對(duì)數(shù)據(jù)矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,同時(shí)使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原矩陣進(jìn)行點(diǎn)乘得到降維后的數(shù)據(jù)矩陣,并且為了更好的找到區(qū)分?jǐn)?shù)據(jù)的投影方向,通過(guò)先使用經(jīng)過(guò)處理的掩碼矩陣,掩碼矩陣掩蓋掉了低可變的細(xì)胞,然后根據(jù)該掩碼矩陣求得對(duì)應(yīng)的特征值與特征向量,但是為了不損失原本的信息,本發(fā)明使用求得的特征向量與原數(shù)據(jù)矩陣進(jìn)行點(diǎn)乘,得到降維矩陣,這樣既能更好的降維,同時(shí)也不損失原本的信息。

2、本發(fā)明的上述技術(shù)目的是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的:一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,包括以下步驟:

3、s1、采集ncbi網(wǎng)站上的公共數(shù)據(jù)集并進(jìn)行質(zhì)量控制與特征選擇,得到原始基因表達(dá)矩陣;

4、s2、添加掩碼,在原始基因表達(dá)矩陣中篩選并掩蓋低可變基因,從而得出掩碼矩陣;

5、s3、奇異值分解,根據(jù)掩碼矩陣使用svd分解求出降維矩陣;

6、s4、pca降維,根據(jù)降維矩陣的特征值與原始基因表達(dá)矩陣相乘,得到降維結(jié)果;

7、s5、聚類(lèi)可視化,使用leiden方法進(jìn)行聚類(lèi),并使用t-sne方法進(jìn)行可視化。

8、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s1中數(shù)據(jù)預(yù)處理分別包括歸一化處理、縮放處理和特征選擇處理。

9、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s2中添加掩碼的具體流程為:首先通過(guò)特征選擇,從原始基因表達(dá)矩陣中篩選出低可變基因,將其設(shè)置為0,從而構(gòu)造得出掩碼矩陣。

10、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s3中奇異值分解的具體流程為:使用svd方法對(duì)掩碼矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,然后使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原始基因表達(dá)矩陣進(jìn)行點(diǎn)乘得到降維矩陣。

11、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s4中pca降維的具體流程為:使用原始基因表達(dá)矩陣與降維矩陣相乘得到降維結(jié)果,用于保留掩碼所覆蓋的信息。

12、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s5中聚類(lèi)可視化的具體流程為:將降維結(jié)果作為輸入,使用leiden聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),并使用細(xì)胞類(lèi)型標(biāo)簽對(duì)可視化結(jié)果進(jìn)行著色。

13、綜上所述,本發(fā)明具有以下有益效果:

14、本發(fā)明通過(guò)使用svd方法對(duì)數(shù)據(jù)矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,同時(shí)使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原矩陣進(jìn)行點(diǎn)乘得到降維后的數(shù)據(jù)矩陣,并且為了更好的找到區(qū)分?jǐn)?shù)據(jù)的投影方向,通過(guò)先使用經(jīng)過(guò)處理的掩碼矩陣,掩碼矩陣掩蓋掉了低可變的細(xì)胞,然后根據(jù)該掩碼矩陣求得對(duì)應(yīng)的特征值與特征向量,但是為了不損失原本的信息,本發(fā)明使用求得的特征向量與原數(shù)據(jù)矩陣進(jìn)行點(diǎn)乘,得到降維矩陣,這樣既能更好的降維,同時(shí)也不損失原本的信息。



技術(shù)特征:

1.一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s1中數(shù)據(jù)預(yù)處理分別包括歸一化處理、縮放處理和特征選擇處理。

3.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s2中添加掩碼的具體流程為:首先通過(guò)特征選擇,從原始基因表達(dá)矩陣中篩選出低可變基因,將其設(shè)置為0,從而構(gòu)造得出掩碼矩陣。

4.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s3中奇異值分解的具體流程為:使用svd方法對(duì)掩碼矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量,然后使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原始基因表達(dá)矩陣進(jìn)行點(diǎn)乘得到降維矩陣。

5.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s4中pca降維的具體流程為:使用原始基因表達(dá)矩陣與降維矩陣相乘得到降維結(jié)果,用于保留掩碼所覆蓋的信息。

6.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法,其特征是:所述步驟s5中聚類(lèi)可視化的具體流程為:將降維結(jié)果作為輸入,使用leiden聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),并使用細(xì)胞類(lèi)型標(biāo)簽對(duì)可視化結(jié)果進(jìn)行著色。


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種添加的掩碼的scRNA?seq測(cè)序數(shù)據(jù)PCA降維方法,涉及生物信息技術(shù)領(lǐng)域,其技術(shù)方案要點(diǎn)是:包括采集數(shù)據(jù)并進(jìn)行預(yù)處理,得到原始基因表達(dá)矩陣;添加掩碼,篩選并掩蓋低可變基因,從而得出掩碼矩陣;奇異值分解,使用SVD分解求出降維矩陣;PCA降維,根據(jù)降維矩陣的特征值與原始基因表達(dá)矩陣相乘,得到降維結(jié)果;聚類(lèi)可視化,使用leiden方法進(jìn)行聚類(lèi),使用T?SNE方法進(jìn)行可視化。本發(fā)明提出了一種添加的掩碼的scRNA?seq測(cè)序數(shù)據(jù)PCA降維方法,通過(guò)添加掩碼的方式保留低表達(dá)基因之間的潛在聯(lián)系,同時(shí)采用從基因表達(dá)綜合中心(GEO)下載的數(shù)據(jù)集,經(jīng)過(guò)傳統(tǒng)PCA與掩碼PCA方法分別降維,通過(guò)聚類(lèi)精確度比較方法效果,結(jié)果表明了在大部分?jǐn)?shù)據(jù)集上,聚類(lèi)效果得到了明顯提升。

技術(shù)研發(fā)人員:朱曉姝,劉嘉輝,羅笑南,蒙霜,滕飛
受保護(hù)的技術(shù)使用者:桂林電子科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
镇坪县| 龙胜| 冷水江市| 仙游县| 舒城县| 东莞市| 平陆县| 莒南县| 武宣县| 花莲市| 高邑县| 阳原县| 嘉义市| 通江县| 麻城市| 灌云县| 锡林郭勒盟| 察隅县| 延吉市| 博湖县| 鹤岗市| 新闻| 宁武县| 新河县| 霍邱县| 塔河县| 余姚市| 抚顺县| 重庆市| 松溪县| 类乌齐县| 扶沟县| 图片| 怀宁县| 郎溪县| 乌鲁木齐县| 固镇县| 尤溪县| 隆尧县| 西宁市| 东安县|