欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法

文檔序號(hào):40610035發(fā)布日期:2025-01-07 20:52閱讀:7來源:國(guó)知局
機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法

本發(fā)明屬于生物信息學(xué),具體涉及一種機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法。


背景技術(shù):

1、癌癥是威脅人類生命健康的主要因素之一,2020年全球新增癌癥病例約1930萬例,死亡病例約996萬例。其中肺癌發(fā)病率約221萬例,死亡率約180萬例,位居第一,遠(yuǎn)超其他癌癥。2022年我國(guó)癌癥新發(fā)病例約482.47萬例,死亡病例約257.42萬例,其中肺癌的發(fā)病率(約占22%)及死亡率(約占28%)均位居首位。隨著新型冠狀病毒(covid-19)感染的流行,使得患有肺癌的人群可能會(huì)出現(xiàn)更嚴(yán)重的癥狀從而導(dǎo)致死亡率的增加,因此有必要探索二者之間的關(guān)系,尋找肺腫瘤及新型冠狀病毒感染的交叉差異表達(dá)基因。

2、按照組織病理學(xué)分類,肺癌主要分為非小細(xì)胞肺癌(約占85%)和小細(xì)胞肺癌(約占15%)。目前治療肺癌的手段主要是手術(shù)治療、化療、放療及靶向治療。然而,由于肺癌早期癥狀并不明顯,不易被發(fā)現(xiàn)且晚期手術(shù)的復(fù)發(fā)轉(zhuǎn)移率較高,因此傳統(tǒng)的治療手段對(duì)肺癌的治愈率不高。腫瘤標(biāo)志物可以輔助癌癥診斷、風(fēng)險(xiǎn)分層和療效預(yù)后評(píng)估,探索對(duì)肺癌早期篩查和預(yù)后效果評(píng)估有利的標(biāo)志物是提高肺癌治愈率的發(fā)展方向。然而,由于測(cè)序技術(shù)的發(fā)展,肺癌種類的復(fù)雜,出現(xiàn)了大量的基因組數(shù)據(jù),給篩選工作帶來了巨大的困難,如何獲取肺癌關(guān)鍵預(yù)后基因信息成了難題。


技術(shù)實(shí)現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,

2、本發(fā)明的上述目的是通過以下技術(shù)方案實(shí)現(xiàn)的:機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,其中所述肺癌為肺腺癌(luad)和肺鱗癌(lusc),所述機(jī)器學(xué)習(xí)方法為cox回歸和lasso回歸;所述機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法具體為:

3、1.肺癌和新型冠狀病毒的交叉差異表達(dá)基因的獲取:下載luad和lusc的基因表達(dá)數(shù)據(jù)以及臨床樣本數(shù)據(jù),下載covid-19相關(guān)基因信息;

4、2.篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因:以統(tǒng)計(jì)學(xué)顯著性差異值范圍和差異表達(dá)倍數(shù)范圍作為篩選標(biāo)準(zhǔn),篩選差異表達(dá)基因,并繪制火山圖,隨后將獲取的luad、lusc的差異表達(dá)基因與covid-19相關(guān)基因取交集,并繪制韋恩圖;

5、3.利用cox回歸對(duì)應(yīng)篩選肺癌預(yù)后基因:分別結(jié)合luad、lusc患者的臨床樣本信息,利用單因素cox回歸方法篩選出與之對(duì)應(yīng)的預(yù)后相關(guān)的基因;

6、4.利用lasso回歸對(duì)應(yīng)篩選肺癌預(yù)后基因:訓(xùn)練集與驗(yàn)證集的樣本數(shù)量按照一定比例進(jìn)行分配,然后使用lasso回歸對(duì)應(yīng)篩選;

7、5.使用k-m生存分析法對(duì)篩選出的肺癌預(yù)后基因進(jìn)行分析:通過以下公式來估計(jì)生存函數(shù)

8、

9、其中s(t)是指?jìng)€(gè)體在時(shí)間t的生存概率,n是指事件發(fā)生的時(shí)間點(diǎn)數(shù)量,di是指在時(shí)間t發(fā)生事件的個(gè)體數(shù)量;ni是指在時(shí)間t仍然存活的個(gè)體數(shù)量,s(0)=1;

10、使用k-m生存分析法分別對(duì)訓(xùn)練集和驗(yàn)證集中患者的3-7年的生存率進(jìn)行分析,利用k-m生存曲線(p<0.05)和roc曲線的auc值來評(píng)估模型的性能;

11、6.使用go、kegg富集分析方法對(duì)篩選出的肺癌預(yù)后基因進(jìn)行分析:將差異表達(dá)基因信息保存為向量或數(shù)據(jù)框的格式,使用enrichgo函數(shù)進(jìn)行g(shù)o富集分析,并使用ggplot2函數(shù)將各個(gè)功能的前10條結(jié)果繪制成柱形圖;使用enrichkegg函數(shù)進(jìn)行kegg富集分析,并使用ggplot2函數(shù)將前10條通路的結(jié)果繪制成柱形圖;

12、7.使用蛋白質(zhì)互作分析方法對(duì)篩選出的肺癌預(yù)后基因進(jìn)行分析:采用string數(shù)據(jù)庫和cytoscape軟件對(duì)肺癌預(yù)后基因參與的蛋白質(zhì)相互作用(ppi)網(wǎng)絡(luò)進(jìn)行探究。將篩選的差異表達(dá)基因?qū)雜tring數(shù)據(jù)庫,結(jié)合cytoscape軟件分析關(guān)鍵基因參與的蛋白質(zhì)相互作用網(wǎng)絡(luò)。

13、進(jìn)一步的,所述步驟1中獲取來源為:從癌癥基因組圖譜(tcga)數(shù)據(jù)庫下載luad和lusc的基因表達(dá)數(shù)據(jù)以及臨床樣本數(shù)據(jù);從gene?cards、kegg、ncbi、omim數(shù)據(jù)庫中下載covid-19相關(guān)基因信息。

14、進(jìn)一步的,所述步驟2的具體篩選標(biāo)準(zhǔn)為:以統(tǒng)計(jì)學(xué)顯著性差異值p<0.05,差異表達(dá)倍數(shù)(fc)大于等于4倍,即|log2fc|≥2為篩選標(biāo)準(zhǔn),使用r語言的deseq2包篩選差異表達(dá)基因,并繪制火山圖;隨后將獲取的luad、lusc的差異表達(dá)基因與covid-19相關(guān)基因取交集,并繪制韋恩圖。

15、進(jìn)一步的,所述步驟3中cox回歸方法的回歸模型風(fēng)險(xiǎn)評(píng)分計(jì)算公式如下:

16、h(t,x)=h0(t)exp(β1x1+β2x2+…+βnxn)???(公式1)

17、其中β是cox回歸的偏回歸系數(shù),x是風(fēng)險(xiǎn)因素,h(t,x)表示在風(fēng)險(xiǎn)因素x存在的條件下t時(shí)刻發(fā)生事件的風(fēng)險(xiǎn),h0(t)是指所有的x為0時(shí)的基礎(chǔ)風(fēng)險(xiǎn)。風(fēng)險(xiǎn)比率(hazardratio,hr)是指暴露于風(fēng)險(xiǎn)因素組與非暴露于風(fēng)險(xiǎn)因素組的風(fēng)險(xiǎn)度比值:

18、

19、cox回歸分析結(jié)果中hr>1視為增加死亡風(fēng)險(xiǎn),即危險(xiǎn)因素;hr<1視為降低死亡風(fēng)險(xiǎn),即保護(hù)因素;hr=1視為對(duì)預(yù)后無影響;對(duì)于單因素cox回歸的二分類問題(生存或死亡),x有1和0兩個(gè)取值。此時(shí)的風(fēng)險(xiǎn)度為:

20、

21、結(jié)合臨床樣本數(shù)據(jù)并根據(jù)單因素cox回歸方法分別篩選與luad和lusc預(yù)后相關(guān)的基因并繪制森林圖,且給出95%的置信區(qū)間。

22、進(jìn)一步的,所述步驟4中l(wèi)asso回歸目標(biāo)函數(shù)如下:

23、minimize||y-xw||2+λ||w||1???(公式4)

24、其中y是指觀測(cè)到的目標(biāo)變量,x是特征矩陣,w是待估計(jì)的回歸系數(shù)向量,λ是控制正則化強(qiáng)度的參數(shù)。公式4由兩項(xiàng)構(gòu)成,其中第一項(xiàng)是普通最小二乘法中的殘差平方和,第二項(xiàng)是l1正則化項(xiàng)也稱“懲罰項(xiàng)”;lasso回歸通過調(diào)節(jié)λ在擬合數(shù)據(jù)的同時(shí)實(shí)現(xiàn)特征選擇和模型簡(jiǎn)化;當(dāng)λ較大時(shí),較小的系數(shù)將被壓縮到零,從而實(shí)現(xiàn)特征選擇,而當(dāng)λ較小時(shí),更多的特征則會(huì)被保留下來;

25、按照如下公式計(jì)算每個(gè)患者的風(fēng)險(xiǎn)評(píng)分。

26、

27、其中βj是回歸系數(shù),xj是該基因的表達(dá)量。

28、本發(fā)明與現(xiàn)有技術(shù)相比的有益效果是:

29、本發(fā)明提出的生物信息學(xué)方法和模型首次探索了新型冠狀病毒(covid-19)感染與肺癌二者之間的關(guān)系,找到對(duì)預(yù)后更加有效的生物標(biāo)志物。該發(fā)明不僅可以處理數(shù)據(jù),還能識(shí)別數(shù)據(jù)中錯(cuò)綜復(fù)雜的模式,具有較高的靈敏度和特異性,提高篩選的效率和準(zhǔn)確性。該技術(shù)可推廣到其他的疾病研究中,具有普適性。



技術(shù)特征:

1.機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,其特征在于,步驟如下:

2.根據(jù)權(quán)利要求1所述的機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,其特征在于,所述步驟s1中獲取來源為:從癌癥基因組圖譜數(shù)據(jù)庫下載luad和lusc的基因表達(dá)數(shù)據(jù)以及臨床樣本數(shù)據(jù);從gene?cards、kegg、ncbi、omim數(shù)據(jù)庫中下載covid-19相關(guān)基因信息。

3.根據(jù)權(quán)利要求1所述的機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,其特征在于,所述步驟s2的具體篩選標(biāo)準(zhǔn)為:以統(tǒng)計(jì)學(xué)顯著性差異值p<0.05,差異表達(dá)倍數(shù)即fc大于等于4倍,即|log2fc|≥2為篩選標(biāo)準(zhǔn),使用r語言的deseq2包篩選差異表達(dá)基因,并繪制火山圖;隨后將獲取的luad、lusc的差異表達(dá)基因與covid-19相關(guān)基因取交集,并繪制韋恩圖。

4.根據(jù)權(quán)利要求1所述的機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,其特征在于,所述步驟s3中cox回歸方法的回歸模型風(fēng)險(xiǎn)評(píng)分計(jì)算公式如下:

5.根據(jù)權(quán)利要求1所述的機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法,其特征在于,所述步驟s4中l(wèi)asso回歸目標(biāo)函數(shù)如下:


技術(shù)總結(jié)
本發(fā)明屬于生物信息學(xué)技術(shù)領(lǐng)域,公開了一種機(jī)器學(xué)習(xí)篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因并對(duì)應(yīng)篩選肺癌預(yù)后基因的方法。包括肺癌和新型冠狀病毒的交叉差異表達(dá)基因的獲取、篩選肺癌和新型冠狀病毒感染的交叉差異表達(dá)基因、利用Cox回歸、LASSO回歸對(duì)應(yīng)篩選肺癌預(yù)后基因、使用K?M生存分析法、GO、KEGG富集分析方法、蛋白質(zhì)互作分析方法對(duì)篩選出的肺癌預(yù)后基因進(jìn)行分析。本發(fā)明不僅可以處理數(shù)據(jù),還能識(shí)別數(shù)據(jù)中錯(cuò)綜復(fù)雜的模式,具有較高的靈敏度和特異性,提高篩選的效率和準(zhǔn)確性。該技術(shù)可推廣到其他的疾病研究中,具有普適性。

技術(shù)研發(fā)人員:張樹彪,趙軼男,符星星,武滋暉,張燕
受保護(hù)的技術(shù)使用者:大連民族大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
汶上县| 和平区| 彩票| 巴青县| 泸西县| 大兴区| 麦盖提县| 乃东县| 绿春县| 赤壁市| 江永县| 临沭县| 黄冈市| 安吉县| 罗平县| 黎川县| 尚义县| 巧家县| 米泉市| 孟州市| 阳泉市| 西贡区| 长春市| 涡阳县| 昌宁县| 清镇市| 曲松县| 孝感市| 新丰县| 三原县| 湖口县| 红桥区| 利辛县| 谷城县| 平邑县| 襄汾县| 张家口市| 集安市| 吴川市| 河北省| 石屏县|