本發(fā)明屬于數(shù)據(jù)預(yù)測,具體地,涉及一種人類生物學(xué)年齡預(yù)測方法,更具體地,涉及一種人類生物學(xué)年齡預(yù)測方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、表觀遺傳修飾和基因突變均在人體中具有普遍性,常見的表觀遺傳修飾包括dna甲基化、rna修飾、組蛋白乙?;?、非編碼rna調(diào)控。近年來,衰老生物標志物相關(guān)的研究成果豐富,然而如何判斷人類生物學(xué)年齡依然面臨挑戰(zhàn)。在dna甲基化領(lǐng)域,最先由stevehorvath教授提出的甲基化鐘,通過挑選cpg建立簡單回歸模型,并以此預(yù)測人類生物學(xué)年齡的方法,使得甲基化與年齡之間的關(guān)聯(lián)變得密切。
2、目前,最初的模型經(jīng)過不斷改進,已經(jīng)有l(wèi)asso、sparse?group?lasso、ridgeregression等多種模型被應(yīng)用到甲基化鐘上。但是這些方法在獲得甲基化水平數(shù)據(jù)建立模型之后,測序成本、錯判率和計算時間都較高。因此,本領(lǐng)域亟需開發(fā)一種高效、準確、低成本的人類生物學(xué)年齡預(yù)測方法。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明的目的在于提供一種人類生物學(xué)年齡預(yù)測方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)。
2、梯度提升決策樹模型的全稱為gradient?boosted?decision?trees,其通過集成多個弱決策樹學(xué)習器,最后的輸出結(jié)果為它們的平均值。通過梯度提升機制,弱學(xué)習器們之間是按順序工作的,即下一個模型試圖去改善前一個模型的錯誤,對于錯誤的位點提高權(quán)重,正確的位點減小權(quán)重的機制來優(yōu)化模型。這和隨機森林模型中的并行學(xué)習概念截然不同。
3、本技術(shù)通過使用梯度提升決策樹模型,將所有cpg作為整體考慮,合理地選擇那些與人類生物學(xué)年齡預(yù)測相關(guān)的cpg,可解釋性好,同時大幅減少了在預(yù)測過程中需要的cpg數(shù)量。這不僅降低了成本,還提高了分析的效率,并且具有較高的準確率。
4、本發(fā)明的上述發(fā)明目的通過以下技術(shù)方案得以實現(xiàn):
5、本發(fā)明的第一方面提供了一種人類生物學(xué)年齡預(yù)測方法。
6、進一步,所述方法包括:
7、獲取數(shù)據(jù),獲取待測人類樣本的甲基化位點的甲基化水平數(shù)據(jù);
8、分析數(shù)據(jù),將所述甲基化位點的甲基化水平數(shù)據(jù)輸入到構(gòu)建好的預(yù)測模型中,所述預(yù)測模型基于所述甲基化位點的甲基化水平數(shù)據(jù)對待測人類的生物學(xué)年齡進行預(yù)測;
9、輸出預(yù)測結(jié)果,基于所述預(yù)測模型的輸出結(jié)果預(yù)測并輸出所述待測人類的生物學(xué)年齡預(yù)測結(jié)果;
10、所述甲基化位點為cpg,所述cpg包括:cg08160331、cg13100137、cg11529819、cg04875128、cg07927379、cg21200841、cg03182374、cg02780919、cg06654079、cg16541931、cg23100720、cg27314761、cg16600634、cg23220814、cg10633463、cg17461003、cg13954457、cg03705912、cg20388732、cg10652277、cg06493994、cg10501210、cg16066354、cg10254000、cg14423778、cg03660500、cg16717122、cg13902645、cg27503921、cg18786171、cg03157588、cg01287391、cg21186299、cg01543654、cg02546818、cg19281363、cg03521358、cg02501116、cg19280121、cg14172603、cg23998119、cg08767286、cg24456846、cg25046584、cg11071401、cg20923605、cg21646366、cg16620537、cg17207590、cg00863397、cg01639712、cg08918057、cg00481951、cg11268834、cg08949408、cg18576044、cg00751072、cg08976646、cg14122300、cg17140797、cg06575035、cg06205172、cg24401044、cg14032732、cg06916591、cg18686747、cg05929864、cg14569771、cg09748749、cg22491171、cg23166357、cg21951594、cg25478614、cg20835708、cg23454205、cg07063171、cg24891660、cg24221648、cg07505391、cg16145113、cg03404211、cg19214184、cg04892758、cg25307778、cg02388276、cg22361181、cg10151953、cg12918357、cg26894354、cg16987524、cg27429080、cg21671476、cg01092293、cg01337508、cg07326413、cg27288268、cg00793935、cg03231647、cg25804860、cg24150153、cg19765038、cg07952813、cg00320138、cg02376524、cg25991761、cg24639902、cg00628697、cg06594186、cg03348196、cg22489583、cg19395089、cg00944163、cg02605232、cg07277624、cg26259381、cg24796644、cg06793562、cg22799132、cg13088417、cg07038098、cg14016806、cg14155388、cg02876258、cg07810366、cg13001142、cg04871807、cg06737250、cg06962177、cg21985251、cg05090150、cg02401978、cg01620309、cg10242901、cg17324339、cg10738648、cg21480605、cg02033788、cg24925741、cg12842219、cg07183637、cg13547577、cg25822326、cg22370920、cg22877428、cg01015395、cg00552235、cg21986027、cg14097619、cg03643998、cg16373229、cg25521439、cg23995914、cg07423651、cg02151408、cg24674302、cg12296007、cg05967403、cg08904363、cg01508045、cg00712289、cg04976479、cg00058515、cg04955333、cg24650267、cg06227171、cg19381811、cg17558214、cg03832839、cg10732215、cg11379315、cg20238412、cg09185773、cg08849574、cg11582100、cg03082830、cg24799830、cg04380669、cg15031299、cg09416096、cg25576248、cg20442599、cg09624466、cg04865110、cg20555778、cg09212058、cg21490980、cg06051250、cg07762234、cg11421509、cg19907331、cg10337027、cg02318784、cg03642066、cg25945412、cg03018489、cg14819399、cg22763680、cg01588224、cg06024113、cg04155348、cg11898347、cg15660573、cg06655623、cg16540704、cg16001713、cg22001782、cg06654537、cg04981556、cg12099357、cg02254261、cg02153893、cg18166915、cg23349790、cg25735922、cg13231700、cg07553761、cg06084312、cg21077300、cg26355573、cg21142272、cg01382414、cg08575537、cg03018478、cg04158367、cg18500368、cg13299548、cg21525022、cg01612220、cg05374654、cg19477084、cg24107848、cg01919377、cg16605942、cg10942775、cg06132502、cg03594515、cg20003983、cg01378090、cg23754392、cg19609502、cg23934731、cg04084157、cg02330214、cg01601746、cg22994272、cg15065631、cg01427815、cg08462478、cg16805188、cg19723775、cg18372207、cg03196745、cg25337514、cg05972216、cg26032101、cg18416022、cg01716527、cg27059389、cg16337574、cg03605463、cg11155865、cg26070134、cg25453664、cg13806070、cg21707131、cg09626984、cg04374321、cg24917945、cg19019804、cg03005261、cg24166694、cg08667024、cg02976054、cg11938672、cg17960615、cg16494530、cg05859099、cg16170380、cg09610735、cg26880297、cg08384155、cg13612317、cg20490724、cg10943458、cg04342223、cg20763254、cg10947146、cg20461538、cg13488284、cg27250180、cg03349582、cg24409876、cg23656386、cg20384941、cg21064080、cg02605178、cg23815043、cg09624953、cg11438134、cg14551562、cg00270789、cg15594750、cg01921437、cg18582581、cg14415160、cg10430205、cg15746415、cg26782825、cg16110704、cg00829753、cg14941172、cg18050295、cg08096786、cg20273670、cg07047131、cg24524735、cg16823105、cg19627034、cg11725689、cg04007931、cg12476754、cg17009433、cg08076018、cg06285925、cg01580681、cg08998953、cg16015712、cg10448759、cg02524035、cg13390332、cg23715407、cg08267245、cg03601797、cg19684151、cg10225865、cg07955752、cg11806594、cg09662747、cg21800400、cg15340644、cg25021259、cg10983013、cg08371947、cg24855943、cg23895439、cg02200491、cg08263226、cg10738003、cg16831440、cg13370746、cg26922511、cg08431893、cg04961189、cg22094845、cg22942169、cg02577651、cg18363918、cg00031722、cg17598358、cg08095377、cg19624775、cg17968943、cg05183226、cg25961432、cg05648225、cg05906092、cg27284034、cg16842187、cg19547459、cg00933538、cg04427498、cg05168977、cg24991933、cg01573825、cg08231697、cg14985989、cg24962672、cg00042657、cg13986215、cg01965874、cg01136191、cg03598412、cg00001583、cg26968804、cg08979194、cg08719712、cg06759255、cg12974756、cg24136563、cg23214840、cg15732107、cg11795308、cg15704155、cg25211348、cg22478179、cg20289913、cg08161546、cg01807241、cg15185717、cg18107144、cg01822570、cg17580331、cg20679403、cg00350060、cg02058358、cg20455931、cg06470855、cg25430507、cg11858450、cg02256410、cg04244183、cg02008727、cg02754763、cg06868622、cg16671365、cg13415371、cg19917720、cg11561665、cg09475262、cg05314124、cg24166520、cg14517502、cg09740598、cg15105660、cg23082620。
11、進一步,所述預(yù)測模型為梯度提升決策樹模型,所述預(yù)測模型的構(gòu)建方法包括:
12、獲取人類群體樣本的甲基化水平數(shù)據(jù)和生物學(xué)年齡信息;
13、將所述人類群體樣本隨機分為訓(xùn)練集和測試集,以所述訓(xùn)練集對應(yīng)的甲基化水平和生物學(xué)年齡信息為依據(jù),基于n組不同的超參數(shù)值learning_rate,num_leaves,max_depth采用mlr3verse::tnr函數(shù)進行擬合得到n個不同的梯度提升決策樹模型,同時得到本發(fā)明第一方面中所述的甲基化位點,選擇符合預(yù)定要求的梯度提升決策樹模型為預(yù)測模型,通過所述測試集進行驗證以評估所述預(yù)測模型的效能,得到構(gòu)建好的預(yù)測模型;
14、其中,n為50-100的自然數(shù);
15、可選地,所述樣本包括血液樣本、組織樣本、唾液樣本或尿液樣本。
16、進一步,所述梯度提升決策樹模型依據(jù)mlr3verse軟件包構(gòu)建得到;
17、可選地,所述選擇符合預(yù)定要求的梯度提升決策樹模型包括:在構(gòu)建得到的n個不同的梯度提升決策樹模型中選擇符合如下任意一種要求的梯度提升決策樹模型為符合預(yù)定要求的梯度提升決策樹模型:
18、i)錯判率最小的梯度提升決策樹模型;
19、ii)解釋度rmse在7.00-7.10之間,自變量個數(shù)最少的梯度提升決策樹模型。
20、進一步,所述梯度提升決策樹模型的參數(shù)值learning_rate在0.15~0.20之間,num_leaves在50~60之間,max_depth在0~5之間。
21、進一步,所述人類群體樣本的甲基化水平數(shù)據(jù)和生物學(xué)年齡信息通過如下方法得到:
22、針對所述人類群體樣本進行甲基化測序,經(jīng)過預(yù)處理后得到所述待測人類群體的甲基化水平數(shù)據(jù),通過訪問geo數(shù)據(jù)庫獲得所述人類群體的生物學(xué)年齡信息;
23、可選地,所述甲基化位點包括cpg;
24、可選地,所述預(yù)處理包括如下流程:將所述甲基化測序cpg的紅綠值信號數(shù)據(jù)轉(zhuǎn)換為甲基化水平數(shù)據(jù),cpg測序紅綠值信號數(shù)據(jù)包括甲基化的cpg和未甲基化的cpg,甲基化的cpg數(shù)量與總cpg數(shù)量之和的比值為beta值即為該cpg甲基化水平的量化值。
25、本發(fā)明的第二方面提供了一種人類生物學(xué)年齡預(yù)測系統(tǒng)。
26、進一步,所述系統(tǒng)包括:
27、獲取數(shù)據(jù)單元,用于獲取待測人類樣本的甲基化位點的甲基化水平數(shù)據(jù);
28、分析數(shù)據(jù)單元,用于將所述甲基化位點的甲基化水平數(shù)據(jù)輸入到構(gòu)建好的預(yù)測模型中,所述預(yù)測模型基于所述甲基化位點的甲基化水平數(shù)據(jù)對待測人類的生物學(xué)年齡進行預(yù)測;
29、輸出結(jié)果單元,用于基于所述預(yù)測模型的輸出結(jié)果預(yù)測并輸出所述待測人類的生物學(xué)年齡預(yù)測結(jié)果;
30、所述甲基化位點為本發(fā)明第一方面中所述的甲基化位點;
31、所述預(yù)測結(jié)果基于所述預(yù)測模型得到,所述預(yù)測模型的構(gòu)建方法包括:
32、獲取人類群體樣本的甲基化水平數(shù)據(jù)和生物學(xué)年齡信息;
33、將所述人類群體樣本隨機分為訓(xùn)練集和測試集,以所述訓(xùn)練集對應(yīng)的甲基化水平和生物學(xué)年齡信息為依據(jù),基于n組不同的超參數(shù)值learning_rate,num_leaves,max_depth采用mlr3verse::tnr函數(shù)進行擬合得到n個不同的梯度提升決策樹模型,同時得到本發(fā)明第一方面中所述的甲基化位點,選擇符合預(yù)定要求的梯度提升決策樹模型為預(yù)測模型,通過所述測試集進行驗證以評估所述預(yù)測模型的效能,得到構(gòu)建好的預(yù)測模型;
34、其中,n為50-100的自然數(shù)。
35、進一步,所述樣本包括血液樣本、組織樣本、唾液樣本或尿液樣本;
36、可選地,所述梯度提升決策樹模型依據(jù)mlr3verse軟件包構(gòu)建得到;
37、可選地,所述選擇符合預(yù)定要求的梯度提升決策樹模型包括:在構(gòu)建得到的n個不同的梯度提升決策樹模型中選擇符合如下任意一種要求的梯度提升決策樹模型為符合預(yù)定要求的梯度提升決策樹模型:
38、i)錯判率最小的梯度提升決策樹模型;
39、ii)解釋度rmse在7.00~7.10之間,自變量個數(shù)最少的梯度提升決策樹模型;
40、可選地,所述梯度提升決策樹模型的參數(shù)值learning_rate在0.15~0.20之間,num_leaves在50~60之間,max_depth在0~5之間。
41、本發(fā)明的第三方面提供了一種計算機設(shè)備,所述計算機設(shè)備包括:存儲器和處理器,所述存儲器用于存儲程序指令;所述處理器用于調(diào)用程序指令,當程序指令被執(zhí)行時實現(xiàn)本發(fā)明第一方面所述的人類生物學(xué)年齡預(yù)測方法。
42、本發(fā)明的第四方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本發(fā)明第一方面所述的人類生物學(xué)年齡預(yù)測方法。
43、本發(fā)明的第五方面提供了本發(fā)明的第一方面所述的人類生物學(xué)年齡預(yù)測方法、本發(fā)明的第二方面所述的人類生物學(xué)年齡預(yù)測系統(tǒng)、本發(fā)明第三方面所述的計算機設(shè)備或本發(fā)明第四方面所述的計算機可讀存儲介質(zhì)在人類細胞更生的應(yīng)用。
44、本發(fā)明具有的有益效果如下:
45、(1)本發(fā)明首次開發(fā)了一種全新的高效、準確、低成本的人類生物學(xué)年齡預(yù)測方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì),本發(fā)明將梯度提升決策樹模型應(yīng)用于人類生物學(xué)年齡的預(yù)測,在所有cpg中,找到和人類生物學(xué)年齡相關(guān)的特異性cpg,在顯著降低鑒定過程中的cpg數(shù)量的同時還具備較高的分析效率和準確率,這在人類的年齡預(yù)測領(lǐng)域具有重要的應(yīng)用價值;
46、(2)本發(fā)明通過使用梯度提升決策樹模型合理選擇與人類生物學(xué)年齡預(yù)測相關(guān)的甲基化位點,進而應(yīng)用于人類生物學(xué)年齡預(yù)測,在較大程度上減少了人類生物學(xué)年齡預(yù)測過程中需要的甲基化位點數(shù)量從而極大降低了成本,同時還具備極高的分析速度和準確率,這對于人類生物學(xué)年齡預(yù)測具有重要意義。