本發(fā)明涉及醫(yī)學(xué)信息工程領(lǐng)域,具體涉及一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法。
背景技術(shù):
1、地中海貧血病,又稱地中海型貧血或地中海貧血綜合征,是一種常見(jiàn)的遺傳性血液疾病。它是由于血紅蛋白合成受損導(dǎo)致的,主要特征是紅細(xì)胞生成異常和貧血。地中海貧血病在全球某些地區(qū)較為普遍,尤其是在地中海地區(qū)、東南亞和非洲,在我國(guó)、廣東、廣西和云南等地高發(fā)。在這些高發(fā)地區(qū),地中海貧血病的攜帶者比例相對(duì)較高,這意味著即使沒(méi)有表現(xiàn)出臨床癥狀,也有相當(dāng)數(shù)量的人群攜帶有異?;?。因此,對(duì)于這些地區(qū)的人群進(jìn)行地中海貧血病的篩查尤為重要,能夠預(yù)防重癥患兒出生,實(shí)現(xiàn)早期診斷和治療,優(yōu)化醫(yī)療資源分配,并減少社會(huì)和家庭經(jīng)濟(jì)負(fù)擔(dān)。
2、盡管基因檢測(cè)是診斷地中海貧血病的黃金標(biāo)準(zhǔn),但其較長(zhǎng)的檢測(cè)周期和較高的費(fèi)用限制了其在資源有限地區(qū)進(jìn)行大規(guī)模群體篩查的可行性。此外,基層醫(yī)院常面臨的設(shè)備短缺和專業(yè)人員缺乏問(wèn)題也影響了基因檢測(cè)的廣泛應(yīng)用。因此,開發(fā)一種快速、經(jīng)濟(jì)的地中海貧血病篩查方法顯得尤為重要。
3、血常規(guī)檢測(cè)具有廣泛的可用性、成熟的技術(shù)、簡(jiǎn)便的操作流程和低成本等優(yōu)點(diǎn),使其成為地貧篩查的理想選擇。通過(guò)利用血常規(guī)指標(biāo)進(jìn)行篩查,可以有效提高篩查的效率并顯著降低成本,特別是在資源受限的環(huán)境中。這種方法的實(shí)施將有助于廣泛地識(shí)別地中海貧血病的攜帶者,從而促進(jìn)早期干預(yù)和預(yù)防措施的落實(shí)。
4、在地中海貧血病篩查中,健康人群的數(shù)據(jù)量往往遠(yuǎn)遠(yuǎn)大于患者數(shù)據(jù),導(dǎo)致訓(xùn)練數(shù)據(jù)集不平衡。由于數(shù)據(jù)不平衡的問(wèn)題,現(xiàn)有的基于機(jī)器學(xué)習(xí)的地中海貧血病篩查模型,如布谷鳥算法結(jié)合隨機(jī)森林的方法,訓(xùn)練過(guò)程中容易過(guò)度擬合大多數(shù)類數(shù)據(jù),使得模型對(duì)少數(shù)類別(即患者)的識(shí)別能力不足,導(dǎo)致模型預(yù)測(cè)準(zhǔn)確率較低、模型泛化能力較差,從而降低篩查模型在實(shí)際應(yīng)用中的有效性和可靠性。因此,需要進(jìn)一步改進(jìn)和優(yōu)化現(xiàn)有的方法,以提高預(yù)測(cè)準(zhǔn)確性和泛化能力,為地中海貧血病的早期發(fā)現(xiàn)和治療提供更有效的技術(shù)支持。
5、因此,發(fā)明一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法很有必要。
技術(shù)實(shí)現(xiàn)思路
1、為此,本發(fā)明提供一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,該方法通過(guò)采用少數(shù)類過(guò)采樣和自適應(yīng)合成抽樣方法,解決數(shù)據(jù)集不平衡的問(wèn)題,同時(shí),篩選出對(duì)預(yù)測(cè)地中海貧血重要性較高的指標(biāo)數(shù)據(jù)構(gòu)造特征向量,并使用重要特征構(gòu)建預(yù)測(cè)模型,最后,采用極度隨機(jī)樹進(jìn)行預(yù)測(cè),提高分類準(zhǔn)確率和模型泛化性,這種方法為地中海貧血病的早期診斷和治療提供了有效的技術(shù)支持。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,具體包括以下步驟:
3、s1,構(gòu)建地中海貧血病數(shù)據(jù)集;
4、s2,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)標(biāo)準(zhǔn)化、重采樣與特征篩選;
5、s3,將數(shù)據(jù)集數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練極度隨機(jī)樹模型;
6、s4,采集待測(cè)者數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行處理,然后導(dǎo)入模型,對(duì)待測(cè)者數(shù)據(jù)進(jìn)分類預(yù)測(cè)。
7、優(yōu)選的,所述s1步驟中,通過(guò)受檢者的血液檢測(cè)記錄構(gòu)建地中海貧血病數(shù)據(jù)集,受檢者的血液檢測(cè)記錄包括受檢者的個(gè)人基本信息,包括性別、年齡、血常規(guī)指標(biāo)檢測(cè)數(shù)據(jù)。
8、優(yōu)選的,所述血常規(guī)指標(biāo)檢測(cè)數(shù)據(jù)包括白細(xì)胞數(shù)目(wbc)、紅細(xì)胞計(jì)數(shù)(rbc)、血紅蛋白水平(hgb)、紅細(xì)胞比容(hct)、平均紅細(xì)胞體積(mcv)、平均血紅蛋白量(mch)、平均血紅蛋白濃度(mchc)、平均紅細(xì)胞分布寬度變異系數(shù)(rdw-cv)、紅細(xì)胞體積分布寬度標(biāo)準(zhǔn)差(rdw-sd)、血小板(plt)。
9、優(yōu)選的,所述s2步驟中,對(duì)收集到的數(shù)據(jù)進(jìn)行清洗,處理缺失值和異常值,進(jìn)行必要的數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化處理,通過(guò)合成少數(shù)類過(guò)采樣和自適應(yīng)合成抽樣的重采樣技術(shù)來(lái)實(shí)現(xiàn)類別的平衡分布,從血常規(guī)檢查的多項(xiàng)指標(biāo)中篩選出對(duì)地中海貧血篩查最有影響的特征。
10、優(yōu)選的,所述特征包括紅細(xì)胞計(jì)數(shù)、血紅蛋白水平、平均紅細(xì)胞體積。
11、優(yōu)選的,所述s3步驟中,隨機(jī)選擇90%數(shù)據(jù)用于訓(xùn)練,剩下的10%的數(shù)據(jù)用于測(cè)試。
12、優(yōu)選的,所述s3步驟中,使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,通過(guò)調(diào)整模型參數(shù)來(lái)優(yōu)化模型性能,在測(cè)試集上評(píng)估模型的性能,使用準(zhǔn)確率、召回率、精確率指標(biāo)來(lái)衡量模型的預(yù)測(cè)效果,根據(jù)評(píng)估結(jié)果對(duì)模型結(jié)構(gòu)和參數(shù)進(jìn)行優(yōu)化調(diào)整。
13、優(yōu)選的,將優(yōu)化后的模型應(yīng)用于實(shí)際的篩查工作中,輔助醫(yī)生進(jìn)行地中海貧血的診斷和風(fēng)險(xiǎn)評(píng)估。
14、優(yōu)選的,所述血常規(guī)指標(biāo)檢測(cè)流程為先采集患者清晨空腹肘靜脈血2ml,將血液標(biāo)本置于乙二胺四乙酸抗凝式管中行抗凝處理,然后采用血細(xì)胞分析儀檢測(cè)并記錄白細(xì)胞數(shù)目(wbc)、紅細(xì)胞計(jì)數(shù)(rbc)、血紅蛋白水平(hgb)、紅細(xì)胞比容(hct)、平均紅細(xì)胞體積(mcv)、平均血紅蛋白量(mch)、平均血紅蛋白濃度(mchc)、平均紅細(xì)胞分布寬度變異系數(shù)(rdw-cv)、紅細(xì)胞體積分布寬度標(biāo)準(zhǔn)差(rdw-sd)、血小板(plt)指標(biāo)數(shù)據(jù)。
15、本發(fā)明的有益效果是:通過(guò)合成少數(shù)類過(guò)采樣和自適應(yīng)合成抽樣方法解決了數(shù)據(jù)集不平衡問(wèn)題;采用特征篩選,篩選出血常規(guī)檢測(cè)中對(duì)預(yù)測(cè)地中海貧血重要性較高的指標(biāo)數(shù)據(jù)構(gòu)造特征集,以獲得用于分類器訓(xùn)練的最優(yōu)特征集,通過(guò)特征篩從血常規(guī)檢測(cè)報(bào)告中選出對(duì)預(yù)測(cè)地中海貧血重要性較高的指標(biāo)數(shù)據(jù)構(gòu)造特征集,用于訓(xùn)練分類模型,提高模型的魯棒性;利用集成分類器極度隨機(jī)樹進(jìn)行分類預(yù)測(cè),提高了分類準(zhǔn)確率和模型泛化能力。
1.一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:具體包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述s1步驟中,通過(guò)受檢者的血液檢測(cè)記錄構(gòu)建地中海貧血病數(shù)據(jù)集,受檢者的血液檢測(cè)記錄包括受檢者的個(gè)人基本信息,包括性別、年齡、血常規(guī)指標(biāo)檢測(cè)數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述血常規(guī)指標(biāo)檢測(cè)數(shù)據(jù)包括白細(xì)胞數(shù)目(wbc)、紅細(xì)胞計(jì)數(shù)(rbc)、血紅蛋白水平(hgb)、紅細(xì)胞比容(hct)、平均紅細(xì)胞體積(mcv)、平均血紅蛋白量(mch)、平均血紅蛋白濃度(mchc)、平均紅細(xì)胞分布寬度變異系數(shù)(rdw-cv)、紅細(xì)胞體積分布寬度標(biāo)準(zhǔn)差(rdw-sd)、血小板(plt)。
4.根據(jù)權(quán)利要求3所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述s2步驟中,對(duì)收集到的數(shù)據(jù)進(jìn)行清洗,處理缺失值和異常值,進(jìn)行必要的數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化處理,通過(guò)合成少數(shù)類過(guò)采樣和自適應(yīng)合成抽樣的重采樣技術(shù)來(lái)實(shí)現(xiàn)類別的平衡分布,從血常規(guī)檢查的多項(xiàng)指標(biāo)中篩選出對(duì)地中海貧血篩查最有影響的特征。
5.根據(jù)權(quán)利要求4所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述特征包括紅細(xì)胞計(jì)數(shù)、血紅蛋白水平、平均紅細(xì)胞體積。
6.根據(jù)權(quán)利要求1所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述s3步驟中,隨機(jī)選擇90%數(shù)據(jù)用于訓(xùn)練,剩下的10%的數(shù)據(jù)用于測(cè)試。
7.根據(jù)權(quán)利要求1所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述s3步驟中,使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,通過(guò)調(diào)整模型參數(shù)來(lái)優(yōu)化模型性能,在測(cè)試集上評(píng)估模型的性能,使用準(zhǔn)確率、召回率、精確率指標(biāo)來(lái)衡量模型的預(yù)測(cè)效果,根據(jù)評(píng)估結(jié)果對(duì)模型結(jié)構(gòu)和參數(shù)進(jìn)行優(yōu)化調(diào)整。
8.根據(jù)權(quán)利要求7所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:將優(yōu)化后的模型應(yīng)用于實(shí)際的篩查工作中,輔助醫(yī)生進(jìn)行地中海貧血的診斷和風(fēng)險(xiǎn)評(píng)估。
9.根據(jù)權(quán)利要求3所述的一種基于極度隨機(jī)樹的地中海貧血病預(yù)測(cè)方法,其特征在于:所述血常規(guī)指標(biāo)檢測(cè)流程為先采集患者清晨空腹肘靜脈血2ml,將血液標(biāo)本置于乙二胺四乙酸抗凝式管中行抗凝處理,然后采用血細(xì)胞分析儀檢測(cè)并記錄白細(xì)胞數(shù)目(wbc)、紅細(xì)胞計(jì)數(shù)(rbc)、血紅蛋白水平(hgb)、紅細(xì)胞比容(hct)、平均紅細(xì)胞體積(mcv)、平均血紅蛋白量(mch)、平均血紅蛋白濃度(mchc)、平均紅細(xì)胞分布寬度變異系數(shù)(rdw-cv)、紅細(xì)胞體積分布寬度標(biāo)準(zhǔn)差(rdw-sd)、血小板(plt)指標(biāo)數(shù)據(jù)。