欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助AD分析分類的方法

文檔序號:40585035發(fā)布日期:2025-01-07 20:24閱讀:8來源:國知局
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助AD分析分類的方法

本發(fā)明涉及單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的方法。


背景技術(shù):

1、目前用于阿爾茨海默癥(ad)分析分類的方法在不斷發(fā)展,旨在通過不同的數(shù)據(jù)源和分析技術(shù)提高疾病的早期診斷和分類準(zhǔn)確性。然而,現(xiàn)有的方法,如中國發(fā)明專利cn118196538a所述的基于多示例學(xué)習(xí)和多尺度特征融合的ad分類方法,盡管在一定程度上提高了分類的準(zhǔn)確性和泛化能力,但仍存在一些顯著的不足。

2、首先,中國專利cn118196538a主要基于結(jié)構(gòu)磁共振成像(smri)數(shù)據(jù),這種影像學(xué)方法在ad分類中的應(yīng)用雖然成熟,但存在一些固有的局限性。smri提供的主要是腦部結(jié)構(gòu)信息,盡管可以通過斑塊分割和多尺度特征提取來捕捉腦部某些區(qū)域的變化,但smri數(shù)據(jù)無法直接反映分子層面的病理變化。這意味著,smri只能捕捉到相對晚期的腦結(jié)構(gòu)變化,而無法揭示疾病早期的生物學(xué)標(biāo)志物。因此,該方法雖然可以識別出對分類結(jié)果有重大貢獻(xiàn)度的大腦區(qū)域,但這些區(qū)域的變化往往已經(jīng)是病變的結(jié)果,而非病變的起始。因此,這種方法在疾病早期診斷的敏感性上存在不足,無法有效識別出ad發(fā)展的早期分子信號。

3、其次,基于smri的分析方法高度依賴于圖像處理和特征提取技術(shù),這在處理過程中可能會引入額外的噪聲和誤差。例如,在中國專利cn118196538a的方法中,smri影像需要經(jīng)過多次斑塊分割和特征融合,這些步驟依賴于算法的準(zhǔn)確性以及數(shù)據(jù)的質(zhì)量。在實(shí)際操作中,smri圖像分辨率的限制、圖像采集過程中的變異性、以及患者個體差異,都可能導(dǎo)致特征提取的不準(zhǔn)確性。這種依賴多步驟處理的方法,容易引入累積誤差,從而影響最終的分類結(jié)果。此外,斑塊分割過程中涉及到的大小斑塊模型的選擇和特征融合策略,也存在主觀性和復(fù)雜性,可能導(dǎo)致在不同數(shù)據(jù)集或不同人群中表現(xiàn)不一致,降低了方法的泛化能力。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的方法,從而解決背景技術(shù)中所指出的部分弊端和不足。

2、本發(fā)明解決其上述的技術(shù)問題所采用以下的技術(shù)方案:單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的方法,包括:

3、s1、樣本采集與準(zhǔn)備:

4、s1.1、從ad患者和年齡匹配的健康對照中獲取腦組織樣本;使用腦組織生物庫,或通過腦組織捐贈項(xiàng)目獲取樣本;

5、s1.2、使用包括流式細(xì)胞術(shù),facs的細(xì)胞分離技術(shù)對腦組織進(jìn)行處理,獲得單個細(xì)胞懸液;通過機(jī)械和酶解的方法分離出包括神經(jīng)元、星形膠質(zhì)細(xì)胞、微膠質(zhì)細(xì)胞的不同類型的腦細(xì)胞;

6、s2、單細(xì)胞轉(zhuǎn)錄組測序:

7、s2.1、采用10xgenomicschromium的高通量單細(xì)胞轉(zhuǎn)錄組測序平臺對分離出的單細(xì)胞進(jìn)行測序,獲取每個細(xì)胞的基因表達(dá)譜;

8、s2.2、進(jìn)行數(shù)據(jù)質(zhì)量控制,去除低質(zhì)量細(xì)胞和低表達(dá)基因;利用cellranger的數(shù)據(jù)分析工具對原始測序數(shù)據(jù)進(jìn)行處理,生成基因表達(dá)矩陣;

9、s3、數(shù)據(jù)預(yù)處理:

10、s3.1、對基因表達(dá)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,包括使用log2轉(zhuǎn)換和z-score標(biāo)準(zhǔn)化,以消除不同樣本間的技術(shù)偏差;

11、s3.2、使用包括主成分分析pca、t-sne、umap的降維算法對高維數(shù)據(jù)進(jìn)行降維處理;

12、s4、特征提取:

13、s4.1、利用包括deseq2、edger的差異表達(dá)分析識別出ad患者和健康對照間顯著差異的基因;

14、s4.2、采用gsea進(jìn)行基因集富集分析和采用包括kegg、go進(jìn)行通路分析,確定與ad相關(guān)的關(guān)鍵基因通路和生物過程;

15、s5、ad的分類與診斷:

16、s5.1、將新樣本的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輸入訓(xùn)練好的分類模型,進(jìn)行ad分類預(yù)測;

17、s5.2、輸出分類結(jié)果,并結(jié)合患者的臨床數(shù)據(jù)和其他包括aβ和tau蛋白水平的生物標(biāo)志物,提供綜合的輔助診斷建議。

18、進(jìn)一步地,所述數(shù)據(jù)質(zhì)量控制方法包括:

19、s1、低質(zhì)量細(xì)胞的去除:

20、計(jì)算每個細(xì)胞的總umi,uniquemolecularidentifier計(jì)數(shù)u和檢測到的基因數(shù)目g;利用公式:

21、

22、計(jì)算細(xì)胞質(zhì)量評分qc,低于預(yù)設(shè)閾值的細(xì)胞被認(rèn)為是低質(zhì)量細(xì)胞;

23、去除線粒體基因表達(dá)比例mgr過高的細(xì)胞;利用公式:

24、

25、其中,mmito為線粒體基因表達(dá)的總umi數(shù),mtotal為該細(xì)胞中所有基因表達(dá)的總umi數(shù);設(shè)定閾值θ,當(dāng)mgr>θ時去除該細(xì)胞;

26、利用包括umi計(jì)數(shù)、基因數(shù)目、線粒體基因比例的細(xì)胞過濾標(biāo)準(zhǔn)去除不符合標(biāo)準(zhǔn)的低質(zhì)量細(xì)胞;綜合評分s計(jì)算公式為:

27、

28、其中,α和β為權(quán)重參數(shù);低于設(shè)定閾值的細(xì)胞被去除;

29、s2、低表達(dá)基因的去除:

30、計(jì)算每個基因在所有細(xì)胞中的表達(dá)頻率f;利用公式:

31、

32、其中,fg為基因g的表達(dá)頻率,egi為基因g在第i個細(xì)胞中的表達(dá)量,n為總細(xì)胞數(shù);設(shè)定基因表達(dá)閾值δ,去除在少于百分比δ細(xì)胞中表達(dá)的基因;去除條件為:若fg<δ,則去除基因g。

33、進(jìn)一步地,所述使用cellranger軟件對原始測序數(shù)據(jù)fastq文件進(jìn)行處理,生成基因表達(dá)矩陣;

34、具體步驟如下:

35、s1、讀入原始測序數(shù)據(jù),進(jìn)行基因序列對齊;cellranger使用拼接對齊方式對齊reads到參考基因組,利用公式:

36、

37、其中,ai為第i個read的對齊評分,si為成功對齊的基因片段數(shù),ri為總reads數(shù);

38、s2、然后根據(jù)umi標(biāo)簽去重,生成去冗余的基因表達(dá)計(jì)數(shù);umi去重公式為:

39、

40、其中,uunique為去冗余后的umi計(jì)數(shù),m為所有umi標(biāo)簽數(shù),nj為第j個umi標(biāo)簽的重復(fù)計(jì)數(shù);

41、s3、生成初始的基因表達(dá)矩陣,記錄每個細(xì)胞中每個基因的表達(dá)水平;

42、表達(dá)矩陣生成公式為:

43、

44、其中,egi為第i個細(xì)胞中第g個基因的表達(dá)量,cgi為第i個細(xì)胞中第g個基因的umi計(jì)數(shù),utotal為第i個細(xì)胞中的總umi計(jì)數(shù)。

45、進(jìn)一步地,所述消除不同樣本間的技術(shù)偏差采用的方法包括:

46、s1、首先根據(jù)單細(xì)胞數(shù)據(jù)的umi計(jì)數(shù)具有泊松分布的特性,對每個細(xì)胞中的umi計(jì)數(shù)進(jìn)行改進(jìn)的log變換,使用方程式:

47、

48、其中,lgi為第i個細(xì)胞中第g個基因的改進(jìn)log變換后的表達(dá)值,cgi為原始umi計(jì)數(shù);通過平滑小的umi計(jì)數(shù)值,降低噪聲的影響;

49、s2、然后在進(jìn)行z-score標(biāo)準(zhǔn)化之前,引入權(quán)重因子,所述權(quán)重因子基于每個基因在所有細(xì)胞中的出現(xiàn)頻率,使用方程式:

50、

51、其中,wg為基因g的權(quán)重,fg是基因g在所有細(xì)胞中的出現(xiàn)頻率,k和τ是調(diào)整曲線形狀的參數(shù);

52、s2.1、使用加權(quán)的z-score標(biāo)準(zhǔn)化進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化:

53、

54、其中,zgi是第i個細(xì)胞中第g個基因的標(biāo)準(zhǔn)化后的表達(dá)值;μg是所有細(xì)胞中基因g的加權(quán)平均log2表達(dá)值;σg是基于權(quán)重的標(biāo)準(zhǔn)差;n是細(xì)胞的總數(shù);

55、其中,μg和σg分別是加權(quán)后的平均值和標(biāo)準(zhǔn)差,計(jì)算方法如下:

56、

57、以至通過加權(quán)的標(biāo)準(zhǔn)化基因的表達(dá)頻率來調(diào)整每個基因的貢獻(xiàn)。

58、進(jìn)一步地,所述識別出ad患者和健康對照間顯著差異的基因方法構(gòu)建:

59、s1、使用基于gamma分布調(diào)整的偽計(jì)數(shù)方法;根據(jù)基因表達(dá)的潛在分布特性來調(diào)整每個計(jì)數(shù),改進(jìn)的偽計(jì)數(shù)公式:

60、

61、其中:γ是gamma函數(shù),用于生成調(diào)整系數(shù);λ和k是根據(jù)基因表達(dá)數(shù)據(jù)的全局特性動態(tài)計(jì)算的形狀和尺度參數(shù);

62、s2、在單細(xì)胞數(shù)據(jù)中出于批次效應(yīng)和細(xì)胞大小的差異,采用基于多變量回歸模型的復(fù)合歸一化方法;同時調(diào)整多種源自實(shí)驗(yàn)設(shè)計(jì)和樣本處理的偏差;采用復(fù)合歸一化公式:

63、

64、其中:β0,β1,β2是通過回歸分析估計(jì)的系數(shù),別代表基線校正、細(xì)胞特異性因子和批次效應(yīng)的影響;

65、s3、在使用edger進(jìn)行差異表達(dá)分析時,對分散參數(shù)的估計(jì)通過引入動態(tài)局部回歸技術(shù)來優(yōu)化,動態(tài)局部回歸分散估計(jì)公式:

66、φadjusted=loess(φg,{xi},{yi},θ)

67、其中:loess表示局部加權(quán)散點(diǎn)平滑函數(shù);{xi},{yi}分別代表基因表達(dá)量和觀察到的分散度數(shù)據(jù)點(diǎn);θ是動態(tài)選擇的平滑參數(shù),根據(jù)數(shù)據(jù)的局部密度和變異性調(diào)整。

68、進(jìn)一步地,單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的模型構(gòu)建,包括以下步驟:

69、s1、選擇包括隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法構(gòu)建分類模型;

70、s2、將提取的差異基因表達(dá)數(shù)據(jù)作為特征輸入,進(jìn)行模型訓(xùn)練;使用k折交叉驗(yàn)證來優(yōu)化模型參數(shù);

71、s3、通過獨(dú)立的測試集驗(yàn)證模型性能,評估模型的準(zhǔn)確性、靈敏度、特異性和穩(wěn)定性;使用指標(biāo)包括auc-roc曲線、混淆矩陣評估模型。

72、進(jìn)一步地,所述模型訓(xùn)練、優(yōu)化模型參數(shù)方法包括:

73、s1、首先通過改進(jìn)的差異表達(dá)分析方法,使用基于負(fù)二項(xiàng)分布的特征選擇,其中顯著性評估公式為:

74、

75、其中,sgi是第g個基因在第i個細(xì)胞中的顯著性評分,cgi是原始計(jì)數(shù),k和θ是負(fù)二項(xiàng)分布的參數(shù);

76、s1.1、同時結(jié)合非線性降維技術(shù)包括自編碼器,捕獲基因表達(dá)數(shù)據(jù)中的復(fù)雜模式,自編碼器的損失函數(shù)為:

77、

78、其中,lae是自編碼器的損失函數(shù),xi是輸入數(shù)據(jù),fθ是網(wǎng)絡(luò)函數(shù),θ(t)是時間相關(guān)的正則化參數(shù),λ是正則化系數(shù);

79、s2、采用深度學(xué)習(xí)模型,調(diào)整其結(jié)構(gòu)以適應(yīng)包括稀疏性和細(xì)胞間異質(zhì)性的單細(xì)胞數(shù)據(jù)特性,模型優(yōu)化通過dropout技術(shù)實(shí)現(xiàn),dropout比率由以下函數(shù)控制:

80、

81、其中,d(x)是dropout后的輸出,α和β是控制參數(shù);

82、s2.1、采用定制損失函數(shù)以解決類別不平衡問題,損失函數(shù)為:

83、

84、其中,lclass是分類損失函數(shù),wc是類別權(quán)重,yc和分別是真實(shí)和預(yù)測標(biāo)簽,μ是平滑正則化系數(shù);

85、s3、最后實(shí)施基于聚類的k折驗(yàn)證策略,確保每個折中的代表性和泛化能力,聚類劃分通過以下公式進(jìn)行:

86、

87、其中,k(xi,xj)是樣本i和j之間的相似性評分,γ和η是調(diào)節(jié)參數(shù);

88、s3.1、同時結(jié)合多個評價指標(biāo)優(yōu)化模型參數(shù),綜合評估函數(shù)為:

89、

90、其中,q是綜合評估函數(shù),ωm是第m個評價指標(biāo)的權(quán)重,φm(t)和ψm(t)分別是第m個評價指標(biāo)的時間相關(guān)函數(shù)。

91、本發(fā)明的有益效果:

92、1.精準(zhǔn)度提升:通過結(jié)合多種先進(jìn)的數(shù)據(jù)處理技術(shù)和深度學(xué)習(xí)模型,本發(fā)明能夠在單細(xì)胞層面上識別ad患者與健康對照之間的顯著差異基因,顯著提高了分類模型的準(zhǔn)確性。這使得模型在預(yù)測和診斷ad時能夠更精確地反映疾病的生物學(xué)特征。

93、2.數(shù)據(jù)噪聲的有效控制:本發(fā)明通過改進(jìn)的偽計(jì)數(shù)調(diào)整、復(fù)合歸一化和動態(tài)局部回歸技術(shù),有效地消除了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中的技術(shù)偏差、批次效應(yīng)和細(xì)胞大小差異,降低了數(shù)據(jù)噪聲的影響,從而提高了分析結(jié)果的可靠性。

94、3.泛化能力強(qiáng):通過基于聚類的k折驗(yàn)證策略,本發(fā)明能夠確保每個折中的樣本具有代表性,從而增強(qiáng)了模型的泛化能力。即使在不同數(shù)據(jù)集或不同樣本類型下,模型仍能保持穩(wěn)定的分類性能。

95、4.適應(yīng)性強(qiáng)的模型結(jié)構(gòu):通過定制深度學(xué)習(xí)模型的結(jié)構(gòu)和損失函數(shù),本發(fā)明能夠處理單細(xì)胞數(shù)據(jù)的稀疏性和異質(zhì)性,同時應(yīng)對類別不平衡的問題,確保模型在各種復(fù)雜數(shù)據(jù)環(huán)境中的表現(xiàn)優(yōu)異。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
开平市| 金阳县| 宜丰县| 东城区| 南开区| 麦盖提县| 林口县| 富平县| 于都县| 盈江县| 友谊县| 巫溪县| 南阳市| 嘉兴市| 潍坊市| 黄山市| 大城县| 错那县| 章丘市| 泽库县| 孙吴县| 石渠县| 怀宁县| 龙江县| 肃南| 迭部县| 武陟县| 屯门区| 道真| 高阳县| 乌苏市| 寻甸| 曲水县| 揭东县| 定南县| 昭通市| 栖霞市| 淮安市| 博乐市| 泸溪县| 苏尼特左旗|