本發(fā)明涉及單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的方法。
背景技術(shù):
1、目前用于阿爾茨海默癥(ad)分析分類的方法在不斷發(fā)展,旨在通過不同的數(shù)據(jù)源和分析技術(shù)提高疾病的早期診斷和分類準(zhǔn)確性。然而,現(xiàn)有的方法,如中國發(fā)明專利cn118196538a所述的基于多示例學(xué)習(xí)和多尺度特征融合的ad分類方法,盡管在一定程度上提高了分類的準(zhǔn)確性和泛化能力,但仍存在一些顯著的不足。
2、首先,中國專利cn118196538a主要基于結(jié)構(gòu)磁共振成像(smri)數(shù)據(jù),這種影像學(xué)方法在ad分類中的應(yīng)用雖然成熟,但存在一些固有的局限性。smri提供的主要是腦部結(jié)構(gòu)信息,盡管可以通過斑塊分割和多尺度特征提取來捕捉腦部某些區(qū)域的變化,但smri數(shù)據(jù)無法直接反映分子層面的病理變化。這意味著,smri只能捕捉到相對晚期的腦結(jié)構(gòu)變化,而無法揭示疾病早期的生物學(xué)標(biāo)志物。因此,該方法雖然可以識別出對分類結(jié)果有重大貢獻(xiàn)度的大腦區(qū)域,但這些區(qū)域的變化往往已經(jīng)是病變的結(jié)果,而非病變的起始。因此,這種方法在疾病早期診斷的敏感性上存在不足,無法有效識別出ad發(fā)展的早期分子信號。
3、其次,基于smri的分析方法高度依賴于圖像處理和特征提取技術(shù),這在處理過程中可能會引入額外的噪聲和誤差。例如,在中國專利cn118196538a的方法中,smri影像需要經(jīng)過多次斑塊分割和特征融合,這些步驟依賴于算法的準(zhǔn)確性以及數(shù)據(jù)的質(zhì)量。在實(shí)際操作中,smri圖像分辨率的限制、圖像采集過程中的變異性、以及患者個體差異,都可能導(dǎo)致特征提取的不準(zhǔn)確性。這種依賴多步驟處理的方法,容易引入累積誤差,從而影響最終的分類結(jié)果。此外,斑塊分割過程中涉及到的大小斑塊模型的選擇和特征融合策略,也存在主觀性和復(fù)雜性,可能導(dǎo)致在不同數(shù)據(jù)集或不同人群中表現(xiàn)不一致,降低了方法的泛化能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的方法,從而解決背景技術(shù)中所指出的部分弊端和不足。
2、本發(fā)明解決其上述的技術(shù)問題所采用以下的技術(shù)方案:單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的方法,包括:
3、s1、樣本采集與準(zhǔn)備:
4、s1.1、從ad患者和年齡匹配的健康對照中獲取腦組織樣本;使用腦組織生物庫,或通過腦組織捐贈項(xiàng)目獲取樣本;
5、s1.2、使用包括流式細(xì)胞術(shù),facs的細(xì)胞分離技術(shù)對腦組織進(jìn)行處理,獲得單個細(xì)胞懸液;通過機(jī)械和酶解的方法分離出包括神經(jīng)元、星形膠質(zhì)細(xì)胞、微膠質(zhì)細(xì)胞的不同類型的腦細(xì)胞;
6、s2、單細(xì)胞轉(zhuǎn)錄組測序:
7、s2.1、采用10xgenomicschromium的高通量單細(xì)胞轉(zhuǎn)錄組測序平臺對分離出的單細(xì)胞進(jìn)行測序,獲取每個細(xì)胞的基因表達(dá)譜;
8、s2.2、進(jìn)行數(shù)據(jù)質(zhì)量控制,去除低質(zhì)量細(xì)胞和低表達(dá)基因;利用cellranger的數(shù)據(jù)分析工具對原始測序數(shù)據(jù)進(jìn)行處理,生成基因表達(dá)矩陣;
9、s3、數(shù)據(jù)預(yù)處理:
10、s3.1、對基因表達(dá)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,包括使用log2轉(zhuǎn)換和z-score標(biāo)準(zhǔn)化,以消除不同樣本間的技術(shù)偏差;
11、s3.2、使用包括主成分分析pca、t-sne、umap的降維算法對高維數(shù)據(jù)進(jìn)行降維處理;
12、s4、特征提取:
13、s4.1、利用包括deseq2、edger的差異表達(dá)分析識別出ad患者和健康對照間顯著差異的基因;
14、s4.2、采用gsea進(jìn)行基因集富集分析和采用包括kegg、go進(jìn)行通路分析,確定與ad相關(guān)的關(guān)鍵基因通路和生物過程;
15、s5、ad的分類與診斷:
16、s5.1、將新樣本的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輸入訓(xùn)練好的分類模型,進(jìn)行ad分類預(yù)測;
17、s5.2、輸出分類結(jié)果,并結(jié)合患者的臨床數(shù)據(jù)和其他包括aβ和tau蛋白水平的生物標(biāo)志物,提供綜合的輔助診斷建議。
18、進(jìn)一步地,所述數(shù)據(jù)質(zhì)量控制方法包括:
19、s1、低質(zhì)量細(xì)胞的去除:
20、計(jì)算每個細(xì)胞的總umi,uniquemolecularidentifier計(jì)數(shù)u和檢測到的基因數(shù)目g;利用公式:
21、
22、計(jì)算細(xì)胞質(zhì)量評分qc,低于預(yù)設(shè)閾值的細(xì)胞被認(rèn)為是低質(zhì)量細(xì)胞;
23、去除線粒體基因表達(dá)比例mgr過高的細(xì)胞;利用公式:
24、
25、其中,mmito為線粒體基因表達(dá)的總umi數(shù),mtotal為該細(xì)胞中所有基因表達(dá)的總umi數(shù);設(shè)定閾值θ,當(dāng)mgr>θ時去除該細(xì)胞;
26、利用包括umi計(jì)數(shù)、基因數(shù)目、線粒體基因比例的細(xì)胞過濾標(biāo)準(zhǔn)去除不符合標(biāo)準(zhǔn)的低質(zhì)量細(xì)胞;綜合評分s計(jì)算公式為:
27、
28、其中,α和β為權(quán)重參數(shù);低于設(shè)定閾值的細(xì)胞被去除;
29、s2、低表達(dá)基因的去除:
30、計(jì)算每個基因在所有細(xì)胞中的表達(dá)頻率f;利用公式:
31、
32、其中,fg為基因g的表達(dá)頻率,egi為基因g在第i個細(xì)胞中的表達(dá)量,n為總細(xì)胞數(shù);設(shè)定基因表達(dá)閾值δ,去除在少于百分比δ細(xì)胞中表達(dá)的基因;去除條件為:若fg<δ,則去除基因g。
33、進(jìn)一步地,所述使用cellranger軟件對原始測序數(shù)據(jù)fastq文件進(jìn)行處理,生成基因表達(dá)矩陣;
34、具體步驟如下:
35、s1、讀入原始測序數(shù)據(jù),進(jìn)行基因序列對齊;cellranger使用拼接對齊方式對齊reads到參考基因組,利用公式:
36、
37、其中,ai為第i個read的對齊評分,si為成功對齊的基因片段數(shù),ri為總reads數(shù);
38、s2、然后根據(jù)umi標(biāo)簽去重,生成去冗余的基因表達(dá)計(jì)數(shù);umi去重公式為:
39、
40、其中,uunique為去冗余后的umi計(jì)數(shù),m為所有umi標(biāo)簽數(shù),nj為第j個umi標(biāo)簽的重復(fù)計(jì)數(shù);
41、s3、生成初始的基因表達(dá)矩陣,記錄每個細(xì)胞中每個基因的表達(dá)水平;
42、表達(dá)矩陣生成公式為:
43、
44、其中,egi為第i個細(xì)胞中第g個基因的表達(dá)量,cgi為第i個細(xì)胞中第g個基因的umi計(jì)數(shù),utotal為第i個細(xì)胞中的總umi計(jì)數(shù)。
45、進(jìn)一步地,所述消除不同樣本間的技術(shù)偏差采用的方法包括:
46、s1、首先根據(jù)單細(xì)胞數(shù)據(jù)的umi計(jì)數(shù)具有泊松分布的特性,對每個細(xì)胞中的umi計(jì)數(shù)進(jìn)行改進(jìn)的log變換,使用方程式:
47、
48、其中,lgi為第i個細(xì)胞中第g個基因的改進(jìn)log變換后的表達(dá)值,cgi為原始umi計(jì)數(shù);通過平滑小的umi計(jì)數(shù)值,降低噪聲的影響;
49、s2、然后在進(jìn)行z-score標(biāo)準(zhǔn)化之前,引入權(quán)重因子,所述權(quán)重因子基于每個基因在所有細(xì)胞中的出現(xiàn)頻率,使用方程式:
50、
51、其中,wg為基因g的權(quán)重,fg是基因g在所有細(xì)胞中的出現(xiàn)頻率,k和τ是調(diào)整曲線形狀的參數(shù);
52、s2.1、使用加權(quán)的z-score標(biāo)準(zhǔn)化進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化:
53、
54、其中,zgi是第i個細(xì)胞中第g個基因的標(biāo)準(zhǔn)化后的表達(dá)值;μg是所有細(xì)胞中基因g的加權(quán)平均log2表達(dá)值;σg是基于權(quán)重的標(biāo)準(zhǔn)差;n是細(xì)胞的總數(shù);
55、其中,μg和σg分別是加權(quán)后的平均值和標(biāo)準(zhǔn)差,計(jì)算方法如下:
56、
57、以至通過加權(quán)的標(biāo)準(zhǔn)化基因的表達(dá)頻率來調(diào)整每個基因的貢獻(xiàn)。
58、進(jìn)一步地,所述識別出ad患者和健康對照間顯著差異的基因方法構(gòu)建:
59、s1、使用基于gamma分布調(diào)整的偽計(jì)數(shù)方法;根據(jù)基因表達(dá)的潛在分布特性來調(diào)整每個計(jì)數(shù),改進(jìn)的偽計(jì)數(shù)公式:
60、
61、其中:γ是gamma函數(shù),用于生成調(diào)整系數(shù);λ和k是根據(jù)基因表達(dá)數(shù)據(jù)的全局特性動態(tài)計(jì)算的形狀和尺度參數(shù);
62、s2、在單細(xì)胞數(shù)據(jù)中出于批次效應(yīng)和細(xì)胞大小的差異,采用基于多變量回歸模型的復(fù)合歸一化方法;同時調(diào)整多種源自實(shí)驗(yàn)設(shè)計(jì)和樣本處理的偏差;采用復(fù)合歸一化公式:
63、
64、其中:β0,β1,β2是通過回歸分析估計(jì)的系數(shù),別代表基線校正、細(xì)胞特異性因子和批次效應(yīng)的影響;
65、s3、在使用edger進(jìn)行差異表達(dá)分析時,對分散參數(shù)的估計(jì)通過引入動態(tài)局部回歸技術(shù)來優(yōu)化,動態(tài)局部回歸分散估計(jì)公式:
66、φadjusted=loess(φg,{xi},{yi},θ)
67、其中:loess表示局部加權(quán)散點(diǎn)平滑函數(shù);{xi},{yi}分別代表基因表達(dá)量和觀察到的分散度數(shù)據(jù)點(diǎn);θ是動態(tài)選擇的平滑參數(shù),根據(jù)數(shù)據(jù)的局部密度和變異性調(diào)整。
68、進(jìn)一步地,單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)輔助ad分析分類的模型構(gòu)建,包括以下步驟:
69、s1、選擇包括隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法構(gòu)建分類模型;
70、s2、將提取的差異基因表達(dá)數(shù)據(jù)作為特征輸入,進(jìn)行模型訓(xùn)練;使用k折交叉驗(yàn)證來優(yōu)化模型參數(shù);
71、s3、通過獨(dú)立的測試集驗(yàn)證模型性能,評估模型的準(zhǔn)確性、靈敏度、特異性和穩(wěn)定性;使用指標(biāo)包括auc-roc曲線、混淆矩陣評估模型。
72、進(jìn)一步地,所述模型訓(xùn)練、優(yōu)化模型參數(shù)方法包括:
73、s1、首先通過改進(jìn)的差異表達(dá)分析方法,使用基于負(fù)二項(xiàng)分布的特征選擇,其中顯著性評估公式為:
74、
75、其中,sgi是第g個基因在第i個細(xì)胞中的顯著性評分,cgi是原始計(jì)數(shù),k和θ是負(fù)二項(xiàng)分布的參數(shù);
76、s1.1、同時結(jié)合非線性降維技術(shù)包括自編碼器,捕獲基因表達(dá)數(shù)據(jù)中的復(fù)雜模式,自編碼器的損失函數(shù)為:
77、
78、其中,lae是自編碼器的損失函數(shù),xi是輸入數(shù)據(jù),fθ是網(wǎng)絡(luò)函數(shù),θ(t)是時間相關(guān)的正則化參數(shù),λ是正則化系數(shù);
79、s2、采用深度學(xué)習(xí)模型,調(diào)整其結(jié)構(gòu)以適應(yīng)包括稀疏性和細(xì)胞間異質(zhì)性的單細(xì)胞數(shù)據(jù)特性,模型優(yōu)化通過dropout技術(shù)實(shí)現(xiàn),dropout比率由以下函數(shù)控制:
80、
81、其中,d(x)是dropout后的輸出,α和β是控制參數(shù);
82、s2.1、采用定制損失函數(shù)以解決類別不平衡問題,損失函數(shù)為:
83、
84、其中,lclass是分類損失函數(shù),wc是類別權(quán)重,yc和分別是真實(shí)和預(yù)測標(biāo)簽,μ是平滑正則化系數(shù);
85、s3、最后實(shí)施基于聚類的k折驗(yàn)證策略,確保每個折中的代表性和泛化能力,聚類劃分通過以下公式進(jìn)行:
86、
87、其中,k(xi,xj)是樣本i和j之間的相似性評分,γ和η是調(diào)節(jié)參數(shù);
88、s3.1、同時結(jié)合多個評價指標(biāo)優(yōu)化模型參數(shù),綜合評估函數(shù)為:
89、
90、其中,q是綜合評估函數(shù),ωm是第m個評價指標(biāo)的權(quán)重,φm(t)和ψm(t)分別是第m個評價指標(biāo)的時間相關(guān)函數(shù)。
91、本發(fā)明的有益效果:
92、1.精準(zhǔn)度提升:通過結(jié)合多種先進(jìn)的數(shù)據(jù)處理技術(shù)和深度學(xué)習(xí)模型,本發(fā)明能夠在單細(xì)胞層面上識別ad患者與健康對照之間的顯著差異基因,顯著提高了分類模型的準(zhǔn)確性。這使得模型在預(yù)測和診斷ad時能夠更精確地反映疾病的生物學(xué)特征。
93、2.數(shù)據(jù)噪聲的有效控制:本發(fā)明通過改進(jìn)的偽計(jì)數(shù)調(diào)整、復(fù)合歸一化和動態(tài)局部回歸技術(shù),有效地消除了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中的技術(shù)偏差、批次效應(yīng)和細(xì)胞大小差異,降低了數(shù)據(jù)噪聲的影響,從而提高了分析結(jié)果的可靠性。
94、3.泛化能力強(qiáng):通過基于聚類的k折驗(yàn)證策略,本發(fā)明能夠確保每個折中的樣本具有代表性,從而增強(qiáng)了模型的泛化能力。即使在不同數(shù)據(jù)集或不同樣本類型下,模型仍能保持穩(wěn)定的分類性能。
95、4.適應(yīng)性強(qiáng)的模型結(jié)構(gòu):通過定制深度學(xué)習(xí)模型的結(jié)構(gòu)和損失函數(shù),本發(fā)明能夠處理單細(xì)胞數(shù)據(jù)的稀疏性和異質(zhì)性,同時應(yīng)對類別不平衡的問題,確保模型在各種復(fù)雜數(shù)據(jù)環(huán)境中的表現(xiàn)優(yōu)異。