本技術涉及自然語言處理,特別是涉及一種文本結(jié)構化方法、醫(yī)療大語言模型的訓練方法及相關裝置。
背景技術:
1、隨著醫(yī)療信息化的快速發(fā)展,大量電子健康記錄以自然語言的形式出現(xiàn),這對計算機處理和數(shù)據(jù)分析構成了挑戰(zhàn)。因此,如何將電子健康記錄轉(zhuǎn)化為計算機可理解的格式,從而更高效地利用這些寶貴的醫(yī)療信息成為亟待解決的問題之一。
技術實現(xiàn)思路
1、本技術至少提供一種文本結(jié)構化方法、醫(yī)療大語言模型的訓練方法及相關裝置。
2、本技術提供了一種文本結(jié)構化方法,該方法包括:獲取目標文本;利用經(jīng)微調(diào)的醫(yī)療大語言模型對目標文本執(zhí)行結(jié)構化任務,得到目標文本的目標結(jié)構化數(shù)據(jù);其中,經(jīng)微調(diào)的醫(yī)療大語言模型是利用樣本文本和樣本文本的樣本結(jié)構化數(shù)據(jù)對醫(yī)療大語言模型進行微調(diào)得到;樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型對所述樣本文本進行提取得到。
3、因此,通過對醫(yī)療大語言模型微調(diào),實現(xiàn)提高醫(yī)療大語言模型對文本的結(jié)構化能力,且由于醫(yī)療大語言模型本身具有較好地理解文本的能力,對其進行微調(diào),可以保留其對文本的理解能力,在對目標文本進行結(jié)構化處理時,能夠較好地理解目標文本,進而得到準確率較高的目標結(jié)構化數(shù)據(jù);進一步地,利用數(shù)據(jù)提取模型提取得到樣本結(jié)構化數(shù)據(jù),而無需人工標注,可以提高結(jié)構化任務的效率。
4、其中,目標結(jié)構化數(shù)據(jù)包括目標文本中的字段以及字段對應的值,經(jīng)微調(diào)的醫(yī)療大語言模型能夠執(zhí)行多種類型的結(jié)構化任務,每種類型的結(jié)構化任務對應輸出一種值域類型的結(jié)構化數(shù)據(jù),數(shù)據(jù)化數(shù)據(jù)的值域類型由結(jié)構化數(shù)據(jù)中的字段對應的值域確定。
5、因此,經(jīng)微調(diào)的醫(yī)療大語言模型能夠執(zhí)行多種類型的結(jié)構化任務,相對針對每種類型的結(jié)構化任務訓練一個模型,可以極大地節(jié)約成本。
6、其中,值域類型包括抽取類型、嵌套提取類型、單選類型和多選類型中的至少一種。
7、因此,通過設置多個值域類型,可以適應每種類型的結(jié)構化任務,使得經(jīng)微調(diào)后的醫(yī)療大語言模型能夠執(zhí)行多種類型的結(jié)構化任務。
8、其中,在利用經(jīng)微調(diào)的醫(yī)療大語言模型對目標文本進行結(jié)構化處理,得到目標文本的目標結(jié)構化數(shù)據(jù)之前,還包括:獲取微調(diào)數(shù)據(jù)集,其中,微調(diào)數(shù)據(jù)集包括至少一個樣本結(jié)構化數(shù)據(jù),各樣本結(jié)構化數(shù)據(jù)是從對應的樣本文本中提取得到;利用醫(yī)療大語言模型分別對各樣本結(jié)構化數(shù)據(jù)對應的樣本文本進行結(jié)構化處理,得到各樣本結(jié)構化數(shù)據(jù)對應的預測結(jié)構化數(shù)據(jù);基于各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù),對醫(yī)療大語言模型進行微調(diào)。
9、因此,利用各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù),對醫(yī)療大語言模型進行微調(diào),可以提高醫(yī)療大語言模型對文本的結(jié)構化能力。
10、其中,獲取微調(diào)數(shù)據(jù)集包括:將樣本文本以及樣本文本對應的提示文本輸入至數(shù)據(jù)提取模型,樣本文本對應的提示文本用于指示數(shù)據(jù)提取模型對樣本文本執(zhí)行數(shù)據(jù)提取任務;利用數(shù)據(jù)提取模型基于提示文本對樣本文本執(zhí)行數(shù)據(jù)提取任務,以得到微調(diào)數(shù)據(jù)集中的樣本結(jié)構化數(shù)據(jù)。
11、因此,通過數(shù)據(jù)提取模型對樣本文本進行提取,可以在節(jié)約人力成本的同時,得到準確度較高地樣本文本的樣本結(jié)構化數(shù)據(jù)。
12、其中,微調(diào)數(shù)據(jù)集包含至少一種值域類型的樣本結(jié)構化數(shù)據(jù),樣本結(jié)構化數(shù)據(jù)包括樣本文本中的樣本字段以及樣本字段對應的值;在將樣本文本以及樣本文本對應的提示文本輸入至數(shù)據(jù)提取模型之前,還包括:確定樣本文本中的樣本字段以及樣本字段對應的值域類型;基于樣本字段以及樣本字段的值域類型,構建樣本文本對應的提示文本。
13、因此,通過根據(jù)樣本字段和值域類型可以構建不同的提示文本,進而根據(jù)不同的提示文本得到適應不同結(jié)構化任務的樣本結(jié)構化數(shù)據(jù)。
14、其中,基于樣本字段以及樣本字段的值域類型,構建樣本文本對應的提示文本,包括:選擇與樣本字段的值域類型匹配的提示文本模板;其中,提示文本模板包括字段項;將樣本字段填入至提示文本模板的字段項中,以生成樣本文本對應的提示文本。
15、因此,將樣本字段填入至提示文本模板的字段項中,生成樣本文本對應的提示文本。
16、其中,值域類型包括抽取類型,抽取類型的提示文本模板用于指示提取樣本文本中與字段項中填入的樣本字段對應的值;和/或,值域類型包括單選類型,單選類型的提示文本模板還包括單選值域項,單選類型的提示文本模板用于指示從單選值域項的多個單選值中選出樣本文本中與樣本字段對應的單選值;將樣本字段填入至提示文本模板的字段項中,以生成樣本文本對應的提示文本,包括:將樣本字段填入至提示文本模板的字段項中,并將樣本字段對應的多個單選值填入提示文本模板的單選值域項中,以生成樣本文本對應的提示文本;和/或,值域類型包括多選類型,多選類型的提示文本模板還包括多選值域項,多選類型的提示文本模板用于指示從多選值域項的多個多選值中選出樣本文本中與樣本字段對應的至少兩個多選值;將樣本字段填入至提示文本模板的字段項中,以生成樣本文本對應的提示文本,包括:將樣本字段填入至提示文本模板的字段項中,并將樣本字段對應的多個多選值填入提示文本模板的多選值域項中,以生成樣本文本對應的提示文本;和/或,值域類型包括嵌套抽取類型,嵌套抽取類型的提示文本模板還包括實體項,嵌套抽取類型的提示文本模板用于指示從樣本文本中查找出指定屬性的值,指定屬性為實體項中的實體答案關于字段項中的樣本字段表示的屬性;將樣本字段填入至提示文本模板的字段項中,以生成樣本文本對應的提示文本,包括:將實體填入實體項,并樣本字段填入至提示文本模板的字段項中,以生成樣本文本對應的提示文本。
17、因此,根據(jù)值域類型的不同,生成與值域類型匹配的提示文本,進而使數(shù)據(jù)提取模型能夠提取得到不同的樣本結(jié)構化數(shù)據(jù)。
18、其中,抽取類型包括嵌套抽取類型,嵌套抽取類型還對應有實體文本抽取模板,實體文本抽取模板包括實體字段項,實體文本抽取模板用于指示提取樣本文本中與實體字段項中填入的實體字段對應的若干值;在將實體答案填入實體項,并將樣本字段填入至提示文本模板的字段項中,以生成樣本文本對應的提示文本之前,還包括:將樣本文本的實體字段填入實體文本抽取模板的實體字段項中,以生成樣本文本對應的實體提示文本;利用數(shù)據(jù)提取模型基于實體提示文本對樣本文本執(zhí)行實體提取任務,以得到實體字段對應的若干值;將實體字段對應的若干值中的至少一者,作為實體項中的實體答案。
19、因此,通過實體文本抽取模板,可以得到實體提示文本,使數(shù)據(jù)提取模型利用實體提示文本和樣本文本,得到實體項中的實體答案。
20、其中,提示文本還包括特殊說明項,特殊說明項中填入的文本內(nèi)容用于以下至少一者:提供給數(shù)據(jù)提取模型理解樣本字段、以及指示數(shù)據(jù)提取模型的輸出格式。
21、因此,通過設置特殊說明項,使數(shù)據(jù)提取模型更好地理解樣本字段,提高數(shù)據(jù)提取模型輸出數(shù)據(jù)的準確度,進而提高樣本結(jié)構化數(shù)據(jù)的準確度。
22、其中,目標文本為電子病例文本。
23、因此,可以實現(xiàn)對電子病例文本進行結(jié)構化處理,得到電子病例文本的目標結(jié)構化數(shù)據(jù),能夠使用戶更好地實現(xiàn)電子病例數(shù)據(jù)的研究。
24、本技術提供了一種醫(yī)療大語言模型的訓練方法,該方法包括:獲取微調(diào)數(shù)據(jù)集,其中,微調(diào)數(shù)據(jù)集包括至少一個樣本結(jié)構化數(shù)據(jù),各樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型從對應的樣本文本中提取得到;利用醫(yī)療大語言模型分別對各樣本結(jié)構化數(shù)據(jù)對應的樣本文本進行結(jié)構化處理,得到各樣本結(jié)構化數(shù)據(jù)對應的預測結(jié)構化數(shù)據(jù);基于各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù),對醫(yī)療大語言模型進行微調(diào)。
25、因此,利用微調(diào)數(shù)據(jù)集中的樣本結(jié)構化數(shù)據(jù)和醫(yī)療大語言模型對樣本結(jié)構化數(shù)據(jù)的預測結(jié)構化數(shù)據(jù),對醫(yī)療大語言模型進行微調(diào),能夠提高醫(yī)療大語言模型對文本的結(jié)構化處理能力。
26、本技術提供了一種文本結(jié)構化裝置,該裝置包括第一獲取模塊和第一處理模塊,第一獲取模塊用于獲取目標文本,第一處理模塊用于利用經(jīng)微調(diào)的醫(yī)療大語言模型對目標文本執(zhí)行結(jié)構化任務,得到目標文本的目標結(jié)構化數(shù)據(jù);其中,經(jīng)微調(diào)的醫(yī)療大語言模型是利用樣本文本和樣本文本的樣本結(jié)構化數(shù)據(jù)對醫(yī)療大語言模型進行微調(diào)得到;所述樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型對所述樣本文本進行提取得到。
27、本技術提供了一種醫(yī)療大語言模型的訓練裝置,該裝置包括第二獲取模塊、第二處理模塊和微調(diào)模塊,第二獲取模塊用于獲取微調(diào)數(shù)據(jù)集,其中,微調(diào)數(shù)據(jù)集包括至少一個樣本結(jié)構化數(shù)據(jù),各樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型從對應的樣本文本中提取得到;第二處理模塊用于利用醫(yī)療大語言模型分別對各樣本結(jié)構化數(shù)據(jù)對應的樣本文本進行結(jié)構化處理,得到各樣本結(jié)構化數(shù)據(jù)對應的預測結(jié)構化數(shù)據(jù);微調(diào)模塊用于基于各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù),對醫(yī)療大語言模型進行微調(diào)。
28、本技術提供了一種電子設備,該電子設備包括處理器和存儲器,存儲器存儲有程序指令,處理器用于執(zhí)行程序指令以實現(xiàn)上述任一文本結(jié)構化方法或醫(yī)療大語言模型的訓練方法。
29、本技術提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲有程序指令,程序指令能夠被執(zhí)行以實現(xiàn)上述任一文本結(jié)構化方法或醫(yī)療大語言模型的訓練方法。