本發(fā)明涉及生物,尤其是一種苯致血液異常標(biāo)志物、評(píng)估模型及其構(gòu)建方法及應(yīng)用。
背景技術(shù):
1、苯作為一種常見(jiàn)的有機(jī)烴工業(yè)溶劑,被廣泛應(yīng)用于藥物、農(nóng)藥、醫(yī)藥、制鞋等行業(yè),引起了廣泛的職業(yè)人群暴露,因其可引起各類(lèi)血液相關(guān)的疾病,被國(guó)際癌癥研究機(jī)構(gòu)(iarc1982)列為i類(lèi)致癌物。職業(yè)性苯中毒分為急性和慢性中毒兩種情況。其中,最為常見(jiàn)的是職業(yè)性慢性苯中毒。高濃度苯暴露會(huì)引起嚴(yán)重的血液系統(tǒng)疾病,如全血細(xì)胞減少癥、再生障礙性貧血和白血病等疾??;此外,也有研究表明長(zhǎng)期低濃度苯暴露也會(huì)誘發(fā)血液毒性。苯無(wú)安全接觸限值,即使暴露在較低濃度的水平之下,也有可能引起血液惡性腫瘤。因此,積極探索低濃度苯暴露的生物標(biāo)志物就顯得尤為重要,為苯暴露高危人群的篩檢和早期干預(yù)治療提供參考依據(jù);而機(jī)器學(xué)習(xí)是能夠從某些任務(wù)和性能度量方面的經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算機(jī)程序,它憑借著易適應(yīng)、自調(diào)節(jié)的特點(diǎn)在生物信息學(xué)中被廣泛應(yīng)用,被研究者們用來(lái)挖掘各種疾病的潛在機(jī)制、潛在生物標(biāo)志物和治療目標(biāo)。
2、為此,本發(fā)明提出了一種苯致血液異常標(biāo)志物、評(píng)估模型及其構(gòu)建方法及應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
1、為了能有效進(jìn)行苯中毒的風(fēng)險(xiǎn)評(píng)估和識(shí)別苯中毒異常的早期生物標(biāo)志物,本發(fā)明提出了一種苯致血液異常標(biāo)志物、評(píng)估模型及其構(gòu)建方法及應(yīng)用。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
3、本發(fā)明第一方面提出一種苯致血液異常評(píng)估模型的構(gòu)建方法,包括如下步驟:
4、s1:先對(duì)苯損傷表達(dá)譜數(shù)據(jù)集進(jìn)行主成分分析,再設(shè)置初篩條件,篩選出苯損傷表達(dá)譜數(shù)據(jù)集之間的差異表達(dá)基因;
5、優(yōu)選的,苯損傷表達(dá)譜數(shù)據(jù)集選自geo數(shù)據(jù)庫(kù)(基因表達(dá)綜合數(shù)據(jù)庫(kù))中的苯損傷表達(dá)譜數(shù)據(jù)集gse9569和gse21862;
6、s2:對(duì)差異表達(dá)基因進(jìn)行g(shù)o、kegg、gsea富集分析,得到分析結(jié)果;
7、s3:利用不同的機(jī)器學(xué)習(xí)算法從分析結(jié)果中篩選出特征基因并取交集,得到關(guān)鍵基因,再對(duì)關(guān)鍵基因進(jìn)行驗(yàn)證分析,得到苯損傷標(biāo)志基因;
8、s4:利用苯損傷標(biāo)志基因訓(xùn)練、測(cè)試多種學(xué)習(xí)模型,根據(jù)學(xué)習(xí)模型的測(cè)試結(jié)果選擇適合的學(xué)習(xí)模型作為苯致血液異常評(píng)估模型。
9、在一些實(shí)施例中,所述s1中的設(shè)置初篩條件包括:使用r軟件“l(fā)imma”包,以顯著性值p<0.05且∣logfoldchange∣≥0.5為初篩條件;在篩選出差異表達(dá)基因后,以“pheatmap”包繪制熱圖,以“ggplot2”包繪制火山圖。
10、在一些實(shí)施例中,所述s2的步驟包括使用r軟件中“clusterprofiler”包對(duì)差異表達(dá)基因進(jìn)行g(shù)o、kegg、gsea富集分析,以顯著性值p<0.05為標(biāo)準(zhǔn),并用氣泡圖來(lái)顯示富集分析結(jié)果。
11、在一些實(shí)施例中,所述s3中的機(jī)器學(xué)習(xí)算法包括:lasso回歸算法、svm-rfe支持向量機(jī)遞歸特征消除算法和隨機(jī)森林算法。
12、在一些實(shí)施例中,所述s3的步驟包括:
13、s3.1:通過(guò)r軟件使用lasso回歸算法、svm-rfe支持向量機(jī)遞歸特征消除算法和隨機(jī)森林算法三種機(jī)器學(xué)習(xí)算法篩選特征基因,然后采用venn包對(duì)三種機(jī)器學(xué)習(xí)算法篩選出的特征基因取交集,獲得關(guān)鍵基因;
14、s3.2:采用r軟件對(duì)得到的關(guān)鍵基因進(jìn)行受試者工作曲線繪制,分別計(jì)算曲線下面積auc值,auc值越大,表示診斷性能越好;并繪制小提琴圖;用于觀察、分析;
15、s3.3:選擇研究對(duì)象,將研究對(duì)象分為苯暴露組和苯非暴露組,對(duì)關(guān)鍵基因和苯中毒的對(duì)應(yīng)關(guān)系進(jìn)行人群驗(yàn)證與統(tǒng)計(jì)學(xué)分析,得到苯損傷標(biāo)志基因。
16、優(yōu)選的,使用spss27.0軟件進(jìn)行數(shù)據(jù)分析,對(duì)于符合正態(tài)分布的資料,采用表示,組間差異比較采用獨(dú)立樣本t檢驗(yàn)分析;對(duì)于不符合正態(tài)分布的資料,采用中位數(shù)和四分位數(shù)表示,組間差異比較采用非參數(shù)檢驗(yàn),p<0.05為差異有顯著性意義。
17、優(yōu)選的,苯損傷標(biāo)志基因包括nfkb1和ptx3。
18、在一些實(shí)施例中,所述s4中的多種學(xué)習(xí)模型包括:支持向量機(jī)模型、bp神經(jīng)網(wǎng)絡(luò)模型、貝葉斯模型和c5.0決策樹(shù);所述根據(jù)學(xué)習(xí)模型的測(cè)試結(jié)果選擇適合的學(xué)習(xí)模型的方式包括:通過(guò)計(jì)算各個(gè)學(xué)習(xí)模型的測(cè)試結(jié)果準(zhǔn)確率和繪制roc曲線,并進(jìn)行對(duì)比,使用graphpad?prism?8.3軟件對(duì)比較結(jié)果進(jìn)行繪制,以得到適合的學(xué)習(xí)模型;優(yōu)選的,經(jīng)訓(xùn)練過(guò)的c5.0決策樹(shù)作為苯致血液異常評(píng)估模型。
19、本發(fā)明第二方面提出上述構(gòu)建方法得到的苯致血液異常評(píng)估模型。
20、本發(fā)明第三方面提出上述苯致血液異常評(píng)估模型在苯暴露環(huán)境中血液異常的檢測(cè)模型中的應(yīng)用。
21、本發(fā)明第四方面提出應(yīng)用上述模型篩選得到的一種苯致血液異常標(biāo)志物,其特征在于:包括nfkb1和ptx3。
22、本發(fā)明基于苯暴露人群(苯暴露組)和非苯暴露人群(對(duì)照組),通過(guò)檢測(cè)發(fā)現(xiàn),苯暴露組中nfkb1和ptx3高于對(duì)照組。隨后根據(jù)《職業(yè)性苯中毒診斷標(biāo)準(zhǔn)》gbz68-2022將苯暴露組分為血液異常組和血液正常組(對(duì)照組),經(jīng)檢測(cè)發(fā)現(xiàn)血液異常組中nfkb1、phactr1和ptx3高于對(duì)照組。綜合兩種方法,可認(rèn)為nfkb1和ptx3是苯暴露損傷的關(guān)鍵風(fēng)險(xiǎn)基因。同時(shí)本發(fā)明也發(fā)現(xiàn),間接的氧化損傷指標(biāo)丙二醛(mda)、dna損傷標(biāo)志物8-羥基脫氧鳥(niǎo)苷(8-ohdg)以及苯內(nèi)暴露指標(biāo)苯巰基尿酸(s-pma)明顯改變。
23、本發(fā)明第五方面提出檢測(cè)nfkb1和/或ptx3的引物在制備檢測(cè)苯致血液異常的試劑中的應(yīng)用。
24、本發(fā)明的有益效果:
25、1、本發(fā)明先從geo數(shù)據(jù)庫(kù)(基因表達(dá)綜合數(shù)據(jù)庫(kù))中的苯損傷表達(dá)譜數(shù)據(jù)集gse9569和gse21862,并利用學(xué)習(xí)算法進(jìn)行篩分,得出關(guān)鍵基因,再建立研究對(duì)象,對(duì)關(guān)鍵基因進(jìn)行分析與驗(yàn)證,得到苯損傷標(biāo)志基因,利用苯損傷標(biāo)志基因構(gòu)建訓(xùn)練集和測(cè)試集訓(xùn)練和測(cè)試多種機(jī)器學(xué)習(xí)模型,選擇最優(yōu)的模型作為苯致血液異常評(píng)估模型,從而將生物信息學(xué)與機(jī)器學(xué)習(xí)相結(jié)合,從機(jī)制上進(jìn)行了驗(yàn)證。本發(fā)明可以為苯毒性早期干預(yù)提供理論依據(jù),并且可以為風(fēng)險(xiǎn)評(píng)估提供更全面、靈敏的模型。
26、2、驗(yàn)證結(jié)果表明了苯暴露人群體內(nèi)苯含量的增加引起機(jī)體炎癥和氧化應(yīng)激水平的升高進(jìn)而可能促進(jìn)了苯的血液毒性;
27、3、在以往的研究中,多數(shù)都集中在nfkb與苯暴露之間的關(guān)系上,而對(duì)ptx3與苯暴露之間關(guān)系的研究較少,本研究將機(jī)器學(xué)習(xí)與苯損傷標(biāo)志基因結(jié)合從而構(gòu)建的模型,篩選出的苯損傷關(guān)鍵基因中除了nfkb1外,還篩選出了ptx3,其篩選靈敏度高;
28、4、本研究首先結(jié)合了主成分分析、基因富集分析和機(jī)器學(xué)習(xí)算法,能更全面的的評(píng)估苯損傷,具有較高的可靠性;然后通過(guò)初篩條件和機(jī)器學(xué)習(xí)算法,快速而有效地篩選出了差異表達(dá)基因和關(guān)鍵基因,大大提高了分析的效率;接著我們采用的數(shù)據(jù)來(lái)自公開(kāi)數(shù)據(jù)庫(kù),具有較強(qiáng)的可復(fù)制性和通用性,可在不同實(shí)驗(yàn)室和研究團(tuán)隊(duì)之間進(jìn)行驗(yàn)證和應(yīng)用。