本發(fā)明涉及一種肝病預(yù)警方法,具體涉及一種基于預(yù)訓(xùn)練語言模型及機(jī)器學(xué)習(xí)的肝病預(yù)警方法。
背景技術(shù):
1、肝病作為一種影響全球數(shù)億人口的重大健康問題,具有廣泛的社會和經(jīng)濟(jì)影響。常見的肝病包括肝硬化、脂肪肝、酒精性肝病、藥物性肝損傷、自身免疫性肝炎、原發(fā)性肝癌、肝囊腫、肝血管瘤等等。盡管這些疾病均歸屬于肝病范疇,但每種肝病的發(fā)病機(jī)制和臨床表現(xiàn)均存在顯著差異,因此,在臨床實(shí)踐中,對各類肝病的準(zhǔn)確鑒別往往具有一定的復(fù)雜性和挑戰(zhàn)性。并且由于肝病的早期癥狀往往不明顯,許多患者在病情嚴(yán)重時才會被確診,因此建立有效的肝病預(yù)警機(jī)制顯得尤為重要。
2、近年來,隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,數(shù)據(jù)科學(xué)和人工智能在疾病的預(yù)警和管理中展現(xiàn)出了顯著的潛力。利用計(jì)算機(jī)系統(tǒng)對疾病進(jìn)行預(yù)警,能夠有效地輔助醫(yī)生進(jìn)行精準(zhǔn)的病情評估和診斷決策。因此,基于計(jì)算機(jī)技術(shù)的肝病預(yù)警成為可能,并具有廣泛的應(yīng)用前景。
3、在人工智能領(lǐng)域,預(yù)訓(xùn)練語言模型(pre-trained?language?model)是指先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的模型,這些模型常常廣泛應(yīng)用于各種自然語言處理(nlp)任務(wù),如文本分類、翻譯、對話、問答等。預(yù)訓(xùn)練語言模型首先在大規(guī)模未標(biāo)注的文本上進(jìn)行預(yù)訓(xùn)練(比如使用自回歸任務(wù)或掩碼語言模型任務(wù)),然后根據(jù)特定的下游任務(wù)(如情感分析、問答系統(tǒng)、文本分類等)進(jìn)行微調(diào)。在肝病預(yù)警中,這些模型可以處理醫(yī)學(xué)文獻(xiàn)、患者病歷和其他相關(guān)文本數(shù)據(jù),從中提取有價值的信息,輔助醫(yī)生進(jìn)行病情分析和決策。
4、其中,大語言模型(large?language?model)是指具有非常大參數(shù)規(guī)模的預(yù)訓(xùn)練語言模型,通常具有數(shù)十億甚至上千億個參數(shù)。大語言模型的規(guī)模使得它們在處理更復(fù)雜的語言任務(wù)時表現(xiàn)出色,具有更強(qiáng)的上下文理解和生成能力。在肝病預(yù)警領(lǐng)域,大語言模型能夠處理復(fù)雜的醫(yī)學(xué)文獻(xiàn)和患者信息,提供更準(zhǔn)確的疾病信息和預(yù)警建議,從而幫助醫(yī)生更好地理解患者的病情并作出相應(yīng)的決策。
5、機(jī)器學(xué)習(xí)(machine?learning)是一種通過使用數(shù)據(jù)來訓(xùn)練模型,使其自動從數(shù)據(jù)中學(xué)習(xí)并進(jìn)行預(yù)測或決策的技術(shù)。機(jī)器學(xué)習(xí)是人工智能的一個子領(lǐng)域,旨在通過算法和統(tǒng)計(jì)模型模擬人類的學(xué)習(xí)能力,而無需明確編程指令。機(jī)器學(xué)習(xí)常常分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)指模型通過輸入、輸出的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)從輸入預(yù)測輸出的映射關(guān)系,其典型任務(wù)包括分類和回歸。無監(jiān)督學(xué)習(xí)指模型在沒有標(biāo)注數(shù)據(jù)的情況下,基于數(shù)據(jù)內(nèi)在的結(jié)構(gòu)進(jìn)行模式識別,其常見任務(wù)包括聚類和降維。強(qiáng)化學(xué)習(xí)指模型通過與環(huán)境的互動,學(xué)習(xí)如何通過獎勵和懲罰機(jī)制進(jìn)行決策。在肝病預(yù)警中,機(jī)器學(xué)習(xí)方法可以用于分析患者的醫(yī)療數(shù)據(jù),識別潛在的病癥模式,為醫(yī)生提供提示建議。
6、梯度提升決策樹(gbdt)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法,屬于集成學(xué)習(xí)方法。它通過將多個弱學(xué)習(xí)器(通常是決策樹)逐步組合在一起,利用梯度提升策略來不斷減小模型的預(yù)測誤差。每一棵新樹都試圖糾正前面所有樹的誤差,使得模型在訓(xùn)練集上的表現(xiàn)越來越好。gbdt通過在初始模型(如預(yù)測的平均值)基礎(chǔ)上,逐步訓(xùn)練新樹來擬合前一模型的殘差。通過重復(fù)這一過程,模型不斷改進(jìn)。其使用梯度下降法來優(yōu)化損失函數(shù),每棵新樹的構(gòu)建是為了沿著損失函數(shù)的梯度方向減小誤差。在肝病預(yù)警中,gbdt算法可以用于預(yù)測患者的病情進(jìn)展、識別與疾病相關(guān)的關(guān)鍵特征,從而輔助醫(yī)生進(jìn)行診斷,提高了早期發(fā)現(xiàn)肝病的可能。
7、綜上所述,利用預(yù)訓(xùn)練語言模型和機(jī)器學(xué)習(xí)方法對患者信息進(jìn)行自動分析和預(yù)警,不僅能夠顯著節(jié)省醫(yī)療資源和人力成本,還能夠提高肝病預(yù)警的準(zhǔn)確性和效率。這些技術(shù)為醫(yī)生提供了有力的輔助工具,有助于優(yōu)化醫(yī)生診斷過程,并促進(jìn)患者后續(xù)治療的實(shí)施。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明公開了一種基于預(yù)訓(xùn)練語言模型及機(jī)器學(xué)習(xí)的肝病預(yù)警方法,以解決現(xiàn)有技術(shù)背景中面臨的肝病預(yù)警問題,此方法通過使用大語言模型對患者的原始數(shù)據(jù)進(jìn)行格式化處理,通過使用梯度提升決策樹算法及與訓(xùn)練語言模型進(jìn)行肝病的預(yù)警,從而實(shí)現(xiàn)自動化肝病預(yù)警和風(fēng)險(xiǎn)排查,實(shí)現(xiàn)提高疾病預(yù)警準(zhǔn)確率和效率的目的。
2、本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
3、本發(fā)明提供種基于預(yù)訓(xùn)練語言模型及機(jī)器學(xué)習(xí)的肝病預(yù)警方法,具體步驟如下:
4、步驟1:患者信息數(shù)據(jù)收集,收集患者電子病歷信息,篩選出患者入院記錄的原始文本作為原始數(shù)據(jù),
5、步驟2:患者原始數(shù)據(jù)預(yù)處理,使用大語言模型對患者原始數(shù)據(jù)進(jìn)行數(shù)據(jù)格式化處理,得到格式化后的患者病史信息、檢驗(yàn)檢查信息以及影像報(bào)告信息,
6、步驟3:對患者的病史信息和檢驗(yàn)檢查信息使用梯度提升決策樹算法進(jìn)行訓(xùn)練,學(xué)習(xí)病史信息及檢驗(yàn)檢查信息與肝病之間的關(guān)系,
7、步驟4:對患者的影像報(bào)告信息使用預(yù)訓(xùn)練語言模型,學(xué)習(xí)影像報(bào)告與肝病之間的關(guān)系,
8、步驟5:使用貝葉斯優(yōu)化對模型參數(shù)進(jìn)行調(diào)優(yōu),調(diào)整到最佳模型參數(shù),得到病史模型、檢驗(yàn)檢查模型以及影像報(bào)告模型。本發(fā)明通過大語言模型獲取高質(zhì)量的患者格式化信息,并將肝病預(yù)警問題轉(zhuǎn)化為三類關(guān)鍵信息的分類問題,能夠獲取精準(zhǔn)的肝病分類結(jié)果。
9、作為本發(fā)明的進(jìn)一步優(yōu)化方案,在步驟2中,數(shù)據(jù)預(yù)處理操作包括以下步驟:
10、(1)根據(jù)肝病醫(yī)學(xué)知識設(shè)計(jì)格式化prompt,將患者原始數(shù)據(jù)細(xì)分為三種不同類型的格式化數(shù)據(jù):病史信息、檢驗(yàn)檢查信息、影像報(bào)告信息,
11、(2)prompt的設(shè)計(jì)方法:將所有信息轉(zhuǎn)換為數(shù)值類型,是、否轉(zhuǎn)換為1、0,空值轉(zhuǎn)換為-1,范圍型數(shù)據(jù)刪去其符號,僅提取患者手術(shù)前數(shù)據(jù),剔除無關(guān)數(shù)據(jù),
12、(3)其中病史信息包括:性別、年齡、體征檢查、煙酒史、疾病史、過敏史、手術(shù)及輸血史、家族史,
13、(4)其中檢驗(yàn)檢查信息包括:乙肝五項(xiàng)、肝功能檢測、病毒相關(guān)檢測、自身免疫抗體檢測、血脂血糖檢測、血常規(guī)檢測、腎功能檢測、電解質(zhì)及代謝相關(guān)檢測、凝血功能檢測、腫瘤標(biāo)志物、胰島功能檢測,
14、(5)其中影像報(bào)告信息包括:檢查所見及檢查結(jié)論,
15、(6)對每次輸入進(jìn)入大模型的文本量進(jìn)行限制,將原始數(shù)據(jù)分批次輸入大模型,直至所有信息處理完成,將所有格式化信息保存為json文件,
16、(7)將所有格式化信息劃分訓(xùn)練集及測試集,用于后續(xù)模型訓(xùn)練及測試。
17、作為本發(fā)明的進(jìn)一步優(yōu)化方案,在步驟3中,梯度提升決策樹算法包括以下步驟:
18、(1)分別使用格式化病史信息和格式化檢驗(yàn)檢查信息的訓(xùn)練集進(jìn)行病史模型和檢驗(yàn)檢查模型的訓(xùn)練,方法為梯度提升決策樹算法,
19、(2)針對不同分類的樣本,根據(jù)其樣本數(shù)量給出不同的權(quán)重,權(quán)重公式為:其中wi是第i個樣本的權(quán)重,n是樣本總數(shù),n1,n2……nn,分別為每個樣本的數(shù)量,
20、(3)首先使用相關(guān)數(shù)據(jù)訓(xùn)練二分類模型,判斷是否為肝占位疾病,
21、(4)二分類梯度提升決策樹算法的損失函數(shù)為:其中是二分類的損失函數(shù),yi是第i個樣本的真實(shí)標(biāo)簽,取值為0或1,是模型預(yù)測的第i個樣本為正類的概率,
22、(5)然后將是否為肝占位疾病作為一維新的特征添加進(jìn)數(shù)據(jù)集中,即添加一維是否為肝占位的特征,肝占位病種(原發(fā)性肝癌、肝囊腫、肝血管瘤)的患者此特征為1,非肝占位病種(肝硬化、脂肪肝、酒精性肝病、藥物性肝損傷、自身免疫性肝炎)的患者此特征為0,并使用該數(shù)據(jù)集訓(xùn)練八分類模型,分類的類別為:肝硬化、脂肪肝、酒精性肝病、藥物性肝損傷、自身免疫性肝炎、原發(fā)性肝癌、肝囊腫、肝血管瘤,
23、(6)八分類梯度提升決策樹算法的損失函數(shù)為:其中是八分類的損失函數(shù),yi,k是第i個樣本的真實(shí)標(biāo)簽,其中yi,k=1表示該樣本的真實(shí)類別為k,否則yi,k=0,是模型預(yù)測的第i個樣本為屬于k類的概率。
24、作為本發(fā)明的進(jìn)一步優(yōu)化方案,在步驟4中,預(yù)訓(xùn)練語言模型包括以下步驟:
25、(1)使用格式化影像數(shù)據(jù)的訓(xùn)練集進(jìn)行影像模型的訓(xùn)練,方法為預(yù)訓(xùn)練語言模型,
26、(2)首先將同一患者的影像信息進(jìn)行拼接,使用拼接后的數(shù)據(jù)訓(xùn)練二分類模型,判斷是否為肝占位疾病,
27、(3)然后將是否為肝占位疾病作為一維新的特征添加進(jìn)數(shù)據(jù)集中,即將肝占位病種(原發(fā)性肝癌、肝囊腫、肝血管瘤)的患者數(shù)據(jù)拼接“肝占位”字段,將非肝占位病種(肝硬化、脂肪肝、酒精性肝病、藥物性肝損傷、自身免疫性肝炎)的患者數(shù)據(jù)拼接“非肝占位”字段,并使用該拼接數(shù)據(jù)一同訓(xùn)練八分類模型,分類的類別為:肝硬化、脂肪肝、酒精性肝病、藥物性肝損傷、自身免疫性肝炎、原發(fā)性肝癌、肝囊腫、肝血管瘤。
28、本發(fā)明采用上述技術(shù)方案,有益效果為:將患者原始數(shù)據(jù)分類為病史、檢驗(yàn)檢查及影像三種數(shù)據(jù),并根據(jù)肝病知識編寫prompt,通過使用大模型對三類數(shù)據(jù)分別進(jìn)行結(jié)構(gòu)化處理,從而精準(zhǔn)地提取出關(guān)鍵風(fēng)險(xiǎn)指標(biāo)信息。并且對三類結(jié)構(gòu)化數(shù)據(jù)分別使用梯度提升決策樹算法及預(yù)訓(xùn)練語言模型方法,得到數(shù)據(jù)與肝病之間的聯(lián)系,通過使用貝葉斯優(yōu)化方法優(yōu)化模型參數(shù),進(jìn)而得出患者所患肝病的概率。本方案使用預(yù)訓(xùn)練語言模型和機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)了對患者信息進(jìn)行自動分析和預(yù)警,從而輔助醫(yī)生進(jìn)行診斷決策,提高了早期發(fā)現(xiàn)肝病的可能。