本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種多基因疾病的關鍵指標識別方法、系統(tǒng)、設備及介質(zhì)。
背景技術(shù):
1、多基因疾病涉及多個突變基因之間及突變位點之間的相互作用。傳統(tǒng)上,這類疾病的診斷主要依賴于醫(yī)生根據(jù)臨床癥狀、實驗室檢測結(jié)果和病史等綜合判斷。然而,這種診斷方式可能存在主觀性、依賴醫(yī)生經(jīng)驗和耗時長等問題。在這些問題的基礎上,目前結(jié)合基因檢測技術(shù)引入了關鍵指標:關鍵突變基因和突變位點,將具備關鍵突變基因和突變位點的檢測對象判斷為屬于患病高風險人群。
2、現(xiàn)有技術(shù)中檢測關鍵指標常用的方法是生物信息學領域的全基因組關聯(lián)分析,然而,全基因組關聯(lián)分析主要關注單個基因與疾病或特征的關聯(lián),不直接考慮多個基因之間,多個位點之間的相互關系,會忽略多基因、多位點之間的復雜相互作用,在小樣本研究中,全基因組關聯(lián)分析傾向于檢測常見突變,可能無法充分探索低頻突變對疾病的影響,另外,全基因組關聯(lián)分析過程復雜,實施起來難度較大。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的主要目的在于提出一種準確率高、識別效率高的多基因疾病的關鍵指標識別方法、系統(tǒng)、設備及介質(zhì)。
2、為實現(xiàn)上述目的,本技術(shù)實施例的一方面提出了一種多基因疾病的關鍵指標識別方法,所述方法包括:
3、獲取目標對象的全外顯子測序原始數(shù)據(jù),并對所述全外顯子測序原始數(shù)據(jù)進行數(shù)據(jù)預處理,得到第一處理數(shù)據(jù)集;
4、根據(jù)所述第一處理數(shù)據(jù)集,確定所述目標對象在每個檢測出第一突變基因的第一突變位點下的第一突變頻數(shù),以及所述目標對象在各個突變類型下的第二突變頻數(shù),得到原始特征數(shù)據(jù)集;
5、根據(jù)所述第一突變頻數(shù)和所述第二突變頻數(shù),對所述原始特征數(shù)據(jù)集進行初步篩選和提取,得到代表突變基因集合和代表突變位點集合;
6、采用典型相關分析模型對所述代表突變基因集合與所述突變類型的第一相關性以及所述代表突變位點與所述突變類型的第二相關性進行分析,得到突變基因典型變量組和突變位點典型變量組;
7、根據(jù)所述突變基因典型變量組和所述突變位點典型變量組,確定關鍵指標;其中,所述關鍵指標包括關鍵突變基因和關鍵突變位點。
8、在一些實施例中,所述獲取目標對象的全外顯子測序原始數(shù)據(jù),并對所述全外顯子測序原始數(shù)據(jù)進行數(shù)據(jù)預處理,得到第一處理數(shù)據(jù)集,包括:
9、將所述目標對象的所述全外顯子測序原始數(shù)據(jù)進行整合和去重處理,得到初始處理數(shù)據(jù)集;
10、根據(jù)突變類型,確定所述初始處理數(shù)據(jù)集中的突變類型變量值;其中,所述突變類型包括錯義突變、同義突變、無終止突變、無義突變、剪切位點突變其中之一;
11、提取所述初始處理數(shù)據(jù)集中的所述突變類型變量值、第一突變基因和第一突變位點,得到第一處理數(shù)據(jù)集。
12、在一些實施例中,所述根據(jù)所述第一突變頻數(shù)和所述第二突變頻數(shù),對所述原始特征數(shù)據(jù)集進行初步篩選和提取,得到代表突變基因集合和代表突變位點集合,包括:
13、對于所述第一突變基因集合中具有第一特性的所述第一突變基因,執(zhí)行剔除并保留其中一個所述第一突變基因的操作,得到第二突變基因集合;
14、將所述第二突變基因集合中與所述第二突變頻數(shù)的相關程度高于第一預設值的第二突變基因作為代表突變基因,得到代表突變基因集合;
15、對于所述第一突變位點集合中具有第二特性的所述第一突變位點,執(zhí)行剔除并保留其中一個所述第一突變位點的操作,得到第二突變位點集合;
16、將所述第二突變位點集合中與所述第二突變頻數(shù)的相關程度高于第二預設值的第二突變位點作為代表突變位點,得到代表突變位點集合。
17、在一些實施例中,所述采用典型相關分析模型對所述代表突變基因集合與所述突變類型的第一相關性以及所述代表突變位點與所述突變類型的第二相關性進行分析,得到突變基因典型變量組和突變位點典型變量組的步驟中,所述典型相關分析模型的工作步驟包括:
18、計算代表數(shù)據(jù)集的線性關系程度,得到協(xié)方差矩陣;其中,所述代表數(shù)據(jù)集為代表突變基因集合或者代表突變位點集合;
19、對所述協(xié)方差矩陣進行逆運算,得到逆矩陣;
20、計算所述逆矩陣的廣義特征值;
21、將所述特征值最大的特征向量作為目標典型變量;其中,所述目標典型變量為突變基因典型變量或者突變位點典型變量;
22、計算所述目標典型變量在原始變量上的第一系數(shù);
23、根據(jù)所述廣義特征值和所述第一系數(shù),計算所述目標典型變量之間的典型相關系數(shù),得到目標典型變量組;其中,所述目標典型變量組包括突變基因典型變量組和突變位點典型變量組。
24、在一些實施例中,所述根據(jù)所述突變基因典型變量組和所述突變位點典型變量組,確定關鍵指標,包括:
25、采用威爾克斯統(tǒng)計量檢驗方法評估目標典型變量組的目標典型變量之間相關性是否顯著,得到檢驗結(jié)果;
26、基于所述檢驗結(jié)果和所述目標典型變量之間的典型相關系數(shù),確定相關性顯著程度和相關性均為最高的所述目標典型變量,作為選定典型變量;
27、計算所述選定典型變量與代表數(shù)據(jù)集之間的第一相關系數(shù);
28、根據(jù)所述第一相關系數(shù),確定重要突變基因或者重要突變位點;
29、計算所述重要突變基因與所述突變類型之間的第二相關性,并根據(jù)所述第二相關性確定關鍵突變基因;或者,計算所述重要突變位點與所述突變類型之間的第三相關性,并根據(jù)所述第三相關性確定關鍵突變位點。
30、在一些實施例中,所述方法還包括:
31、通過前端顯示頁面顯示所述關鍵指標識別結(jié)果。
32、在一些實施例中,所述方法還包括:
33、通過數(shù)據(jù)庫存儲所述全外顯子測序原始數(shù)據(jù)和所述關鍵指標識別結(jié)果。
34、為實現(xiàn)上目的,本技術(shù)實施例的另一方面提出了一種多基因疾病的關鍵指標識別系統(tǒng),所述系統(tǒng)包括:
35、第一模塊,用于獲取目標對象的全外顯子測序原始數(shù)據(jù),并對所述全外顯子測序原始數(shù)據(jù)進行數(shù)據(jù)預處理,得到第一處理數(shù)據(jù)集;
36、第二模塊,用于根據(jù)所述第一處理數(shù)據(jù)集,確定所述目標對象在每個檢測出第一突變基因的第一突變位點下的第一突變頻數(shù),以及所述目標對象在各個突變類型下的第二突變頻數(shù),得到原始特征數(shù)據(jù)集;
37、第三模塊,用于根據(jù)所述第一突變頻數(shù)和所述第二突變頻數(shù),對所述原始特征數(shù)據(jù)集進行初步篩選和提取,得到代表突變基因集合和代表突變位點集合;
38、第四模塊,用于采用典型相關分析模型對所述代表突變基因集合與所述突變類型的第一相關性以及所述代表突變位點與所述突變類型的第二相關性進行分析,得到突變基因典型變量組和突變位點典型變量組;
39、第五模塊,用于根據(jù)所述突變基因典型變量組和所述突變位點典型變量組,確定關鍵指標;其中,所述關鍵指標包括關鍵突變基因和關鍵突變位點。
40、需要說明的是,在一些實施例中,該系統(tǒng)還可以包括以下模塊至少之一:
41、第六模塊,用于通過前端顯示頁面顯示所述關鍵指標識別結(jié)果。
42、第七模塊,用于通過數(shù)據(jù)庫存儲所述全外顯子測序原始數(shù)據(jù)和所述關鍵指標識別結(jié)果。
43、為實現(xiàn)上述目的,本技術(shù)實施例的另一方面提出了一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)前面所述的方法。
44、為實現(xiàn)上述目的,本技術(shù)實施例的另一方面提出了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)前面所述的方法。
45、本技術(shù)實施例至少包括以下有益效果:本技術(shù)提供一種多基因疾病的關鍵指標識別方法、系統(tǒng)、設備及介質(zhì),該方案通過對目標對象的全外顯子測序原始數(shù)據(jù)進行初步篩選和典型相關分析,可以找出突變基因之間的相關關系以及突變位點之間的相互關系,進而高效準確地識別出多基因疾病的關鍵指標,適用于小樣本并且實施難度低,有助于為醫(yī)生提供即時、客觀的診斷輔助信息,提高輔助診療質(zhì)量。