本發(fā)明屬于基因技術(shù)和醫(yī)學(xué)健康領(lǐng)域,特別涉及用于診斷患者感染及感染源類型的宿主基因表達(dá)譜。
背景技術(shù):
1、急性重癥感染和敗血癥仍然是全球范圍內(nèi)導(dǎo)致死亡的主要因素之一(1,2)。由于非感染性炎癥和感染的癥狀極為相似,使得早期準(zhǔn)確診斷急性感染變得極為困難。在急性感染的早期階段及時使用抗生素對于挽救生命至關(guān)重要,但抗生素的濫用不僅會導(dǎo)致更高的發(fā)病率,還會增加治療費(fèi)用,并促使抗菌素耐藥性的迅速擴(kuò)散(3-5)。當(dāng)前的診斷手段主要依賴于對病原體的直接檢測或評估宿主的生物標(biāo)志物。然而,早期使用抗生素可能會抑制病原體的生長,從而影響培養(yǎng)結(jié)果的陽性率,甚至無法有效區(qū)分感染與定植。此外,pcr等分子檢測技術(shù)雖然精確,但由于其目標(biāo)范圍的局限性,可能會漏掉其他潛在病原體(6-8)。在這一背景下,宏基因組下一代測序(mngs)作為一種通用的病原體檢測技術(shù)展現(xiàn)了巨大的應(yīng)用前景,但其特異性問題仍需進(jìn)一步優(yōu)化(9)。
2、除了直接檢測病原體外,分析宿主的免疫反應(yīng)提供了另一種診斷急性感染的思路。然而,由于宿主免疫反應(yīng)的高度復(fù)雜性,單一或少量傳統(tǒng)生物標(biāo)志物(如c反應(yīng)蛋白、降鈣素原、白細(xì)胞計數(shù)等)不足以準(zhǔn)確診斷敗血癥,或者對患者進(jìn)行有效的個性化治療分層(10)。同時僅憑感染評分(infect-score)或細(xì)菌-病毒感染評分(bv-score)無法穩(wěn)健地區(qū)分所有三類患者:(1)非感染,(2)細(xì)菌感染和(3)病毒感染。這是目前急性感染臨床診斷中存在的痛點(diǎn)和難點(diǎn)。
3、人體對不同感染源導(dǎo)致的炎癥類型所產(chǎn)生的外周血中宿主基因表達(dá)譜具有特異性。研究發(fā)現(xiàn),宿主對不同感染源所導(dǎo)致炎癥其免疫反應(yīng)有共享的轉(zhuǎn)錄組特征,不同感染源會對這些轉(zhuǎn)錄組產(chǎn)生不同影響(表達(dá)不同)。根據(jù)這一原理,利用遺傳手段(mngs和pcr技術(shù)等)開展基于基因表達(dá)排名的感染來精確診斷不同感染源導(dǎo)致的急性炎癥類型是目前一個有效途徑。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是,克服現(xiàn)有技術(shù)中的不足,提供一種用于診斷急性細(xì)菌和病毒感染的宿主基因組合以及裝置。
2、為解決技術(shù)問題,本發(fā)明的解決方案是:
3、一種用于診斷急性細(xì)菌和病毒感染的宿主基因組合,該基因組合包括如下100個相關(guān)特征基因:
4、
5、在本發(fā)明中,該基因組合中100個相關(guān)特征基因的表達(dá)與感染類型有關(guān),細(xì)菌感染、病毒感染或非傳染性疾病的患者血液全基因組測序結(jié)果中的100個相關(guān)特征基因的相對表達(dá)值不同。
6、利用所述基因組合判斷感染類型,包括以下步驟:
7、(1)提取與保存患者的全血樣本;
8、(2)測定樣本在轉(zhuǎn)錄組上的基因表達(dá)數(shù)據(jù),可以通過rna-seq技術(shù)獲得100個相關(guān)特征基因在rna水平上的表達(dá)量:從(1)中的樣本中提取總rna,經(jīng)過分選和建庫后,進(jìn)行測序,并對測序序列進(jìn)行質(zhì)控和修剪,得到的序列和人類參考基因組(grch38)進(jìn)行比對,根據(jù)比對結(jié)果,通過轉(zhuǎn)錄本拼接和定量軟件(如salmon,hisat2等)得到各相關(guān)特征基因的每百萬片段的每千堿基片段表達(dá)水平,即為100個相關(guān)特征基因的相對表達(dá)值fpkm。fpkm具體是將原始讀取計數(shù)(即比對結(jié)果)根據(jù)測序深度和轉(zhuǎn)錄本長度進(jìn)行調(diào)整后得到的,因此深度和轉(zhuǎn)錄本長度不會影響rna-seq數(shù)據(jù)中的基因表達(dá)水平。
9、(3)將步驟(2)得到的所述各相關(guān)特征基因的相對表達(dá)值fpkm輸入預(yù)測患者感染類型的裝置,即可得到患者的感染類型。fpkm的計算公式為:
10、
11、本發(fā)明還提供了一種用于預(yù)測患者感染類型的裝置,其使用上述基因組合中各個相關(guān)特征基因的相對表達(dá)值fpkm進(jìn)行感染類型預(yù)測。所述用于預(yù)測患者感染類型的裝置包括rna水平基因表達(dá)數(shù)據(jù)計算模塊、是否感染推斷模塊和感染類型推斷模塊,所述rna水平基因表達(dá)數(shù)據(jù)用于獲取所述100個相關(guān)特征基因的相對表達(dá)值fpkm;所述是否感染推斷模塊用于根據(jù)相關(guān)特征基因的相對表達(dá)值fpkm判斷樣本是否感染;若所述是否感染推斷模塊的推斷結(jié)果為未感染,則直接輸出;若所述是否感染推斷模塊的推斷結(jié)果是感染,則進(jìn)一步利用所述感染類型推斷模塊和相關(guān)特征基因的相對表達(dá)值fpkm對感染樣本進(jìn)行進(jìn)一步判斷,得到樣本的感染類型。所述裝置的輸入是所述基因組合中各相關(guān)特征基因的相對表達(dá)值fpkm,輸出結(jié)果為未感染或者具體的感染類型,所述感染類型包括病毒感染和細(xì)菌感染。
12、本發(fā)明依據(jù)基于k-tsp的加權(quán)集成機(jī)器學(xué)習(xí)方法,可以基于患者組織樣本測序結(jié)果(特征基因的相對表達(dá)值fpkm),通過計算獲得相對應(yīng)的感染類型的風(fēng)險分層,根據(jù)感染類型的風(fēng)險分層的判斷,判定患者的感染類型。
13、本發(fā)明中,根據(jù)已確診的未感染性樣本、細(xì)菌感染樣本以及病毒感染樣本的表達(dá)水平差異,得到與細(xì)菌和病毒感染相關(guān)的特征基因,然后利用上述樣本及相關(guān)特征基因訓(xùn)練得到患者感染類型預(yù)測模型,該預(yù)測模型包括是否感染分類器以及感染類型分類器。
14、所述是否感染分類器的訓(xùn)練過程為:
15、1)首先對所有樣本進(jìn)行rna-seq技術(shù)分析,獲取100個相關(guān)特征基因的相對表達(dá)值(fpkm)。2)然后,利用top?scoring?pairs(tsp)算法計算感染樣本和未感染樣本中不同基因?qū)Φ谋?/p>
16、達(dá)順序?qū)τ诿恳粚騣和j,分別計算在感染樣本和未感染樣本中的相對表達(dá)順序。具體方法為:
17、計算每個基因?qū)Φ牡梅枝膇j=|pij(c1)-pij(c2)|,即在感染樣本與未感染樣本中表達(dá)順序的差異程度。得分越高的基因?qū)κ欠窀腥镜呐袛嘧饔迷酱蟆ij(cm)=prob(ri<rj|y=cm)。其中,pij(cm)表示在類別cm中基因i的表達(dá)超過基因j的概率;c1表示未感染樣本,c2表示感染樣本(包括細(xì)菌和病毒感染);ri和rj分別為基因?qū)υ诘趇個和第j個樣本中的相對表達(dá)順序,且i≠j;y表示為某一樣本對應(yīng)的類別。多個基因?qū)τ锌赡塬@得相同的最高得分。為了避免出現(xiàn)多個基因?qū)Λ@得相同得分的情況,進(jìn)一步計算每對基因在不同類別樣本中的排名差異,稱為次級得分其中,其中n表示類別cm中的樣本類型,|cm|表示類別cm的樣本總數(shù)。
18、將次級得分γij作為消除平局的依據(jù),并將基因?qū)Π凑沾渭壍梅峙判?,從中選取前k個最高得分且獨(dú)立的基因?qū)?即每個基因?qū)χ胁话嗤幕?,并基于選定的k個基因?qū)Φ牡梅钟嬎慵訖?quán)得分作為感染評分,作為是否感染的分類依據(jù)。k值通過交叉驗(yàn)證確定,限制為不超過10且為奇數(shù),以確保分類器的最終投票機(jī)制不會出現(xiàn)平局。
19、3)最終,通過tsp算法對選定的k個基因?qū)M(jìn)行學(xué)習(xí),得到訓(xùn)練好的是否感染分類器。
20、利用訓(xùn)練好的是否感染分類器進(jìn)行是否感染判斷,具體方法為:利用選定的k個基因?qū)π聵颖具M(jìn)行感染類型的判斷。通過對k個基因?qū)υ谛聵颖緓new中的表現(xiàn)進(jìn)行加權(quán)求和,來計算感染評分。在判斷基因?qū)κ欠穹夏骋活悇ec時,若符合則增加正的排名差異得分δij,若不符合則減少δij。,感染評分大于0為感染,感染評分小于0為未感染。
21、所述感染評分infect-score,具體計算公式如下:
22、
23、其中
24、
25、然后,在是否感染分類器的基礎(chǔ)上,進(jìn)一步構(gòu)建感染類型分類器,用于區(qū)分細(xì)菌感染和病毒感染。感染類型分類器的訓(xùn)練過程與是否感染分類器的訓(xùn)練過程類似。步驟如下:
26、此過程同樣依賴于tsp(top?scoring?pairs)算法,但區(qū)別在于,它關(guān)注于細(xì)菌感染樣本和病毒感染樣本中的基因?qū)Ρ磉_(dá)順序差異。
27、1)對細(xì)菌感染和病毒感染的樣本,分別計算每對基因i和j在兩類樣本中的相對表達(dá)順序。
28、2)通過比較基因?qū)υ趦深悩颖局械谋磉_(dá)順序差異,計算基因?qū)Φ牡梅帧5梅衷礁叩幕驅(qū)υ趨^(qū)分細(xì)菌感染與病毒感染時的貢獻(xiàn)越大。
29、3)為進(jìn)一步確保感染類型分類器的準(zhǔn)確性,計算每對基因的次級得分,即在細(xì)菌感染和病毒感染樣本中的平均排名差異。根據(jù)次級得分對基因?qū)M(jìn)行排序,并選取前k個獨(dú)立且高得分的基因?qū)Α;谶x定的k個基因?qū)Φ牡梅钟嬎慵訖?quán)得分作為細(xì)菌-病毒感染評分,作為感染類型的分類依據(jù)。細(xì)菌-病毒感染評分bv-score小于0為細(xì)菌感染,細(xì)菌-病毒感染評分大于0為病毒感染;
30、4)通過tsp算法對選定的k個基因?qū)M(jìn)行學(xué)習(xí),得到訓(xùn)練好的感染類型分類器。
31、利用感染類型分類器對待測樣本進(jìn)行感染類型的判定,具體方法為:利用選定的k個基因?qū)π聵颖具M(jìn)行感染類型的判斷。利用選定的k個基因?qū)Φ牡梅钟嬎慵?xì)菌-病毒感染評分,細(xì)菌-病毒感染評分小于0為細(xì)菌感染,細(xì)菌-病毒感染評分大于0為病毒感染。本發(fā)明中對于是否感染分類器設(shè)置了是否感染評分(infect-score),當(dāng)infect-score大于0時判定為有感染風(fēng)險,當(dāng)infect-score小于0時判定為沒有感染風(fēng)險,對于感染類型分類器設(shè)置了細(xì)菌-病毒感染評分(bv-score)。當(dāng)bv-score大于0時判定為有病毒感染風(fēng)險,當(dāng)bv-score小于0時判定為有細(xì)菌感染風(fēng)險。
32、本發(fā)明還提供了用于存儲計算機(jī)程序的存儲器。
33、本發(fā)明還提供了用于執(zhí)行計算機(jī)程序的處理器,能夠?qū)崿F(xiàn)上述技術(shù)的內(nèi)容。
34、本發(fā)明還提供了一種計算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序被處理器執(zhí)行時,能夠?qū)崿F(xiàn)上述技術(shù)的內(nèi)容。
35、本發(fā)明提供了診斷急性細(xì)菌和病毒感染的宿主基因組合,。本發(fā)明利用一種基于k-tsp的加權(quán)集成機(jī)器學(xué)習(xí)方法,采用患者樣本組織的基因表達(dá)水平的數(shù)據(jù),實(shí)現(xiàn)對急性細(xì)菌和病毒感染的診斷。本發(fā)明可以將不同的測序方法獲得多基因組合的表達(dá)數(shù)據(jù)進(jìn)行計算獲得感染風(fēng)險及類型。根據(jù)本發(fā)明方法預(yù)測得到高感染風(fēng)險分層結(jié)果,可以診斷病人急性細(xì)菌和病毒感染的風(fēng)險及類型,并為臨床上具有急性細(xì)菌和病毒感染風(fēng)險的患者及時干預(yù)治療提供依據(jù)。
36、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
37、本發(fā)明提供了用于診斷急性細(xì)菌和病毒感染的檢測基因組合,根據(jù)多基因組合的檢測結(jié)果,診斷急性細(xì)菌和病毒感染和風(fēng)險及類型,結(jié)合患者的臨床等信息,為患者臨床感染類型癌癥進(jìn)展有更多的了解,有利于精準(zhǔn)診治,同時還為具有急性細(xì)菌和病毒感染風(fēng)險患者的檢測標(biāo)準(zhǔn)化提供詳細(xì)的數(shù)據(jù)。