一種添加的掩碼的scRNA-seq測(cè)序數(shù)據(jù)PCA降維方法

文檔序號(hào)：40614186發(fā)布日期：2025-01-07 21:01閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明涉及生物信息，更具體地說(shuō)，它涉及一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法。

背景技術(shù)：

1、scrna-seq測(cè)序是一種重要的基因組學(xué)技術(shù)，可以對(duì)單個(gè)細(xì)胞進(jìn)行高通量測(cè)序，從而揭示細(xì)胞間的差異和多樣性。而降維則是scrna-seq測(cè)序數(shù)據(jù)分析中的一個(gè)重要步驟，旨在將高維數(shù)據(jù)轉(zhuǎn)化為低維表示，以便更好地理解和解釋數(shù)據(jù)。

2、隨著scrna-seq測(cè)序技術(shù)的發(fā)展，每個(gè)研究或?qū)嶒?yàn)中測(cè)定的細(xì)胞數(shù)量在顯著增加，少則產(chǎn)生幾百，多則產(chǎn)生幾十萬(wàn)的細(xì)胞數(shù)量，甚至更多。其中，細(xì)胞亞型的鑒定是scrna-seq測(cè)序技術(shù)一個(gè)非常重要的基礎(chǔ)應(yīng)用。但由于scrna-seq測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞，但由于scrna-seq測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞，而每個(gè)細(xì)胞中的基因數(shù)量又可能是幾萬(wàn)個(gè)，所以，scrna-seq測(cè)序數(shù)據(jù)是一個(gè)高維的復(fù)雜數(shù)據(jù)，為了有效地對(duì)scrna-seq測(cè)序數(shù)據(jù)進(jìn)行各種處理分析，特別是細(xì)胞亞型的鑒定，通常需要首先對(duì)scrna-seq測(cè)序數(shù)據(jù)進(jìn)行降維。pca就是一種常用的降維技術(shù)，它通過(guò)尋找數(shù)據(jù)集中的主成分(主方向)，將高維數(shù)據(jù)映射到低維空間。主成分是使得高維數(shù)據(jù)的方差最大化的低維空間。pca的核心思想是通過(guò)將高維數(shù)據(jù)的協(xié)方差矩陣的特征值和特征向量來(lái)表示數(shù)據(jù)的主成分。

3、然而，scrna-seq測(cè)序數(shù)據(jù)具有高緯度，高稀疏等特性，在進(jìn)行pca降維之前往往需要進(jìn)行特征選擇，篩選出高表達(dá)基因。但是，目前的降維方法側(cè)重于挖掘高表達(dá)基因之間的線性關(guān)系，忽略了低表達(dá)基因之間的潛在聯(lián)系，雖然降維由高表達(dá)基因構(gòu)成的基因表達(dá)矩陣可以獲得更好的降維效果，但也會(huì)丟失低表達(dá)基因之間的潛在聯(lián)系。

4、因此，本發(fā)明旨在提供一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，用以解決上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，本發(fā)明通過(guò)使用svd方法對(duì)數(shù)據(jù)矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量，同時(shí)使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原矩陣進(jìn)行點(diǎn)乘得到降維后的數(shù)據(jù)矩陣，并且為了更好的找到區(qū)分?jǐn)?shù)據(jù)的投影方向，通過(guò)先使用經(jīng)過(guò)處理的掩碼矩陣，掩碼矩陣掩蓋掉了低可變的細(xì)胞，然后根據(jù)該掩碼矩陣求得對(duì)應(yīng)的特征值與特征向量，但是為了不損失原本的信息，本發(fā)明使用求得的特征向量與原數(shù)據(jù)矩陣進(jìn)行點(diǎn)乘，得到降維矩陣，這樣既能更好的降維，同時(shí)也不損失原本的信息。

2、本發(fā)明的上述技術(shù)目的是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的：一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，包括以下步驟：

3、s1、采集ncbi網(wǎng)站上的公共數(shù)據(jù)集并進(jìn)行質(zhì)量控制與特征選擇，得到原始基因表達(dá)矩陣；

4、s2、添加掩碼，在原始基因表達(dá)矩陣中篩選并掩蓋低可變基因，從而得出掩碼矩陣；

5、s3、奇異值分解，根據(jù)掩碼矩陣使用svd分解求出降維矩陣；

6、s4、pca降維，根據(jù)降維矩陣的特征值與原始基因表達(dá)矩陣相乘，得到降維結(jié)果；

7、s5、聚類(lèi)可視化，使用leiden方法進(jìn)行聚類(lèi)，并使用t-sne方法進(jìn)行可視化。

8、本發(fā)明進(jìn)一步設(shè)置為：所述步驟s1中數(shù)據(jù)預(yù)處理分別包括歸一化處理、縮放處理和特征選擇處理。

9、本發(fā)明進(jìn)一步設(shè)置為：所述步驟s2中添加掩碼的具體流程為：首先通過(guò)特征選擇，從原始基因表達(dá)矩陣中篩選出低可變基因，將其設(shè)置為0，從而構(gòu)造得出掩碼矩陣。

10、本發(fā)明進(jìn)一步設(shè)置為：所述步驟s3中奇異值分解的具體流程為：使用svd方法對(duì)掩碼矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量，然后使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原始基因表達(dá)矩陣進(jìn)行點(diǎn)乘得到降維矩陣。

11、本發(fā)明進(jìn)一步設(shè)置為：所述步驟s4中pca降維的具體流程為：使用原始基因表達(dá)矩陣與降維矩陣相乘得到降維結(jié)果，用于保留掩碼所覆蓋的信息。

12、本發(fā)明進(jìn)一步設(shè)置為：所述步驟s5中聚類(lèi)可視化的具體流程為：將降維結(jié)果作為輸入，使用leiden聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)，并使用細(xì)胞類(lèi)型標(biāo)簽對(duì)可視化結(jié)果進(jìn)行著色。

13、綜上所述，本發(fā)明具有以下有益效果：

14、本發(fā)明通過(guò)使用svd方法對(duì)數(shù)據(jù)矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量，同時(shí)使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原矩陣進(jìn)行點(diǎn)乘得到降維后的數(shù)據(jù)矩陣，并且為了更好的找到區(qū)分?jǐn)?shù)據(jù)的投影方向，通過(guò)先使用經(jīng)過(guò)處理的掩碼矩陣，掩碼矩陣掩蓋掉了低可變的細(xì)胞，然后根據(jù)該掩碼矩陣求得對(duì)應(yīng)的特征值與特征向量，但是為了不損失原本的信息，本發(fā)明使用求得的特征向量與原數(shù)據(jù)矩陣進(jìn)行點(diǎn)乘，得到降維矩陣，這樣既能更好的降維，同時(shí)也不損失原本的信息。

技術(shù)特征：

1.一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，其特征是：包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，其特征是：所述步驟s1中數(shù)據(jù)預(yù)處理分別包括歸一化處理、縮放處理和特征選擇處理。

3.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，其特征是：所述步驟s2中添加掩碼的具體流程為：首先通過(guò)特征選擇，從原始基因表達(dá)矩陣中篩選出低可變基因，將其設(shè)置為0，從而構(gòu)造得出掩碼矩陣。

4.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，其特征是：所述步驟s3中奇異值分解的具體流程為：使用svd方法對(duì)掩碼矩陣進(jìn)行奇異值分解得到對(duì)應(yīng)的特征值與特征向量，然后使用篩選后的占比較大的特征值對(duì)應(yīng)的特征向量與原始基因表達(dá)矩陣進(jìn)行點(diǎn)乘得到降維矩陣。

5.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，其特征是：所述步驟s4中pca降維的具體流程為：使用原始基因表達(dá)矩陣與降維矩陣相乘得到降維結(jié)果，用于保留掩碼所覆蓋的信息。

6.根據(jù)權(quán)利要求1所述的一種添加的掩碼的scrna-seq測(cè)序數(shù)據(jù)pca降維方法，其特征是：所述步驟s5中聚類(lèi)可視化的具體流程為：將降維結(jié)果作為輸入，使用leiden聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)，并使用細(xì)胞類(lèi)型標(biāo)簽對(duì)可視化結(jié)果進(jìn)行著色。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種添加的掩碼的scRNA?seq測(cè)序數(shù)據(jù)PCA降維方法，涉及生物信息技術(shù)領(lǐng)域，其技術(shù)方案要點(diǎn)是：包括采集數(shù)據(jù)并進(jìn)行預(yù)處理，得到原始基因表達(dá)矩陣；添加掩碼，篩選并掩蓋低可變基因，從而得出掩碼矩陣；奇異值分解，使用SVD分解求出降維矩陣；PCA降維，根據(jù)降維矩陣的特征值與原始基因表達(dá)矩陣相乘，得到降維結(jié)果；聚類(lèi)可視化，使用leiden方法進(jìn)行聚類(lèi)，使用T?SNE方法進(jìn)行可視化。本發(fā)明提出了一種添加的掩碼的scRNA?seq測(cè)序數(shù)據(jù)PCA降維方法，通過(guò)添加掩碼的方式保留低表達(dá)基因之間的潛在聯(lián)系，同時(shí)采用從基因表達(dá)綜合中心(GEO)下載的數(shù)據(jù)集，經(jīng)過(guò)傳統(tǒng)PCA與掩碼PCA方法分別降維，通過(guò)聚類(lèi)精確度比較方法效果，結(jié)果表明了在大部分?jǐn)?shù)據(jù)集上，聚類(lèi)效果得到了明顯提升。

技術(shù)研發(fā)人員：朱曉姝,劉嘉輝,羅笑南,蒙霜,滕飛
受保護(hù)的技術(shù)使用者：桂林電子科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱曉姝,劉嘉輝,羅笑南,蒙霜,滕飛
技術(shù)所有人：桂林電子科技大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開(kāi)發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類(lèi)的抗腫瘤藥物的合成和活性評(píng)價(jià)及糖類(lèi)疫苗的研制 2.功能糖類(lèi)的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開(kāi)發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評(píng)價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種添加的掩碼的scRNA-seq測(cè)序數(shù)據(jù)PCA降維方法