文本結(jié)構化方法、醫(yī)療大語言模型的訓練方法及相關裝置與流程

文檔序號：40530773發(fā)布日期：2024-12-31 13:44閱讀：14來源：國知局

本技術涉及自然語言處理，特別是涉及一種文本結(jié)構化方法、醫(yī)療大語言模型的訓練方法及相關裝置。

背景技術：

1、隨著醫(yī)療信息化的快速發(fā)展，大量電子健康記錄以自然語言的形式出現(xiàn)，這對計算機處理和數(shù)據(jù)分析構成了挑戰(zhàn)。因此，如何將電子健康記錄轉(zhuǎn)化為計算機可理解的格式，從而更高效地利用這些寶貴的醫(yī)療信息成為亟待解決的問題之一。

技術實現(xiàn)思路

1、本技術至少提供一種文本結(jié)構化方法、醫(yī)療大語言模型的訓練方法及相關裝置。

2、本技術提供了一種文本結(jié)構化方法，該方法包括：獲取目標文本；利用經(jīng)微調(diào)的醫(yī)療大語言模型對目標文本執(zhí)行結(jié)構化任務，得到目標文本的目標結(jié)構化數(shù)據(jù)；其中，經(jīng)微調(diào)的醫(yī)療大語言模型是利用樣本文本和樣本文本的樣本結(jié)構化數(shù)據(jù)對醫(yī)療大語言模型進行微調(diào)得到；樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型對所述樣本文本進行提取得到。

3、因此，通過對醫(yī)療大語言模型微調(diào)，實現(xiàn)提高醫(yī)療大語言模型對文本的結(jié)構化能力，且由于醫(yī)療大語言模型本身具有較好地理解文本的能力，對其進行微調(diào)，可以保留其對文本的理解能力，在對目標文本進行結(jié)構化處理時，能夠較好地理解目標文本，進而得到準確率較高的目標結(jié)構化數(shù)據(jù)；進一步地，利用數(shù)據(jù)提取模型提取得到樣本結(jié)構化數(shù)據(jù)，而無需人工標注，可以提高結(jié)構化任務的效率。

4、其中，目標結(jié)構化數(shù)據(jù)包括目標文本中的字段以及字段對應的值，經(jīng)微調(diào)的醫(yī)療大語言模型能夠執(zhí)行多種類型的結(jié)構化任務，每種類型的結(jié)構化任務對應輸出一種值域類型的結(jié)構化數(shù)據(jù)，數(shù)據(jù)化數(shù)據(jù)的值域類型由結(jié)構化數(shù)據(jù)中的字段對應的值域確定。

5、因此，經(jīng)微調(diào)的醫(yī)療大語言模型能夠執(zhí)行多種類型的結(jié)構化任務，相對針對每種類型的結(jié)構化任務訓練一個模型，可以極大地節(jié)約成本。

6、其中，值域類型包括抽取類型、嵌套提取類型、單選類型和多選類型中的至少一種。

7、因此，通過設置多個值域類型，可以適應每種類型的結(jié)構化任務，使得經(jīng)微調(diào)后的醫(yī)療大語言模型能夠執(zhí)行多種類型的結(jié)構化任務。

8、其中，在利用經(jīng)微調(diào)的醫(yī)療大語言模型對目標文本進行結(jié)構化處理，得到目標文本的目標結(jié)構化數(shù)據(jù)之前，還包括：獲取微調(diào)數(shù)據(jù)集，其中，微調(diào)數(shù)據(jù)集包括至少一個樣本結(jié)構化數(shù)據(jù)，各樣本結(jié)構化數(shù)據(jù)是從對應的樣本文本中提取得到；利用醫(yī)療大語言模型分別對各樣本結(jié)構化數(shù)據(jù)對應的樣本文本進行結(jié)構化處理，得到各樣本結(jié)構化數(shù)據(jù)對應的預測結(jié)構化數(shù)據(jù)；基于各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù)，對醫(yī)療大語言模型進行微調(diào)。

9、因此，利用各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù)，對醫(yī)療大語言模型進行微調(diào)，可以提高醫(yī)療大語言模型對文本的結(jié)構化能力。

10、其中，獲取微調(diào)數(shù)據(jù)集包括：將樣本文本以及樣本文本對應的提示文本輸入至數(shù)據(jù)提取模型，樣本文本對應的提示文本用于指示數(shù)據(jù)提取模型對樣本文本執(zhí)行數(shù)據(jù)提取任務；利用數(shù)據(jù)提取模型基于提示文本對樣本文本執(zhí)行數(shù)據(jù)提取任務，以得到微調(diào)數(shù)據(jù)集中的樣本結(jié)構化數(shù)據(jù)。

11、因此，通過數(shù)據(jù)提取模型對樣本文本進行提取，可以在節(jié)約人力成本的同時，得到準確度較高地樣本文本的樣本結(jié)構化數(shù)據(jù)。

12、其中，微調(diào)數(shù)據(jù)集包含至少一種值域類型的樣本結(jié)構化數(shù)據(jù)，樣本結(jié)構化數(shù)據(jù)包括樣本文本中的樣本字段以及樣本字段對應的值；在將樣本文本以及樣本文本對應的提示文本輸入至數(shù)據(jù)提取模型之前，還包括：確定樣本文本中的樣本字段以及樣本字段對應的值域類型；基于樣本字段以及樣本字段的值域類型，構建樣本文本對應的提示文本。

13、因此，通過根據(jù)樣本字段和值域類型可以構建不同的提示文本，進而根據(jù)不同的提示文本得到適應不同結(jié)構化任務的樣本結(jié)構化數(shù)據(jù)。

14、其中，基于樣本字段以及樣本字段的值域類型，構建樣本文本對應的提示文本，包括：選擇與樣本字段的值域類型匹配的提示文本模板；其中，提示文本模板包括字段項；將樣本字段填入至提示文本模板的字段項中，以生成樣本文本對應的提示文本。

15、因此，將樣本字段填入至提示文本模板的字段項中，生成樣本文本對應的提示文本。

16、其中，值域類型包括抽取類型，抽取類型的提示文本模板用于指示提取樣本文本中與字段項中填入的樣本字段對應的值；和/或，值域類型包括單選類型，單選類型的提示文本模板還包括單選值域項，單選類型的提示文本模板用于指示從單選值域項的多個單選值中選出樣本文本中與樣本字段對應的單選值；將樣本字段填入至提示文本模板的字段項中，以生成樣本文本對應的提示文本，包括：將樣本字段填入至提示文本模板的字段項中，并將樣本字段對應的多個單選值填入提示文本模板的單選值域項中，以生成樣本文本對應的提示文本；和/或，值域類型包括多選類型，多選類型的提示文本模板還包括多選值域項，多選類型的提示文本模板用于指示從多選值域項的多個多選值中選出樣本文本中與樣本字段對應的至少兩個多選值；將樣本字段填入至提示文本模板的字段項中，以生成樣本文本對應的提示文本，包括：將樣本字段填入至提示文本模板的字段項中，并將樣本字段對應的多個多選值填入提示文本模板的多選值域項中，以生成樣本文本對應的提示文本；和/或，值域類型包括嵌套抽取類型，嵌套抽取類型的提示文本模板還包括實體項，嵌套抽取類型的提示文本模板用于指示從樣本文本中查找出指定屬性的值，指定屬性為實體項中的實體答案關于字段項中的樣本字段表示的屬性；將樣本字段填入至提示文本模板的字段項中，以生成樣本文本對應的提示文本，包括：將實體填入實體項，并樣本字段填入至提示文本模板的字段項中，以生成樣本文本對應的提示文本。

17、因此，根據(jù)值域類型的不同，生成與值域類型匹配的提示文本，進而使數(shù)據(jù)提取模型能夠提取得到不同的樣本結(jié)構化數(shù)據(jù)。

18、其中，抽取類型包括嵌套抽取類型，嵌套抽取類型還對應有實體文本抽取模板，實體文本抽取模板包括實體字段項，實體文本抽取模板用于指示提取樣本文本中與實體字段項中填入的實體字段對應的若干值；在將實體答案填入實體項，并將樣本字段填入至提示文本模板的字段項中，以生成樣本文本對應的提示文本之前，還包括：將樣本文本的實體字段填入實體文本抽取模板的實體字段項中，以生成樣本文本對應的實體提示文本；利用數(shù)據(jù)提取模型基于實體提示文本對樣本文本執(zhí)行實體提取任務，以得到實體字段對應的若干值；將實體字段對應的若干值中的至少一者，作為實體項中的實體答案。

19、因此，通過實體文本抽取模板，可以得到實體提示文本，使數(shù)據(jù)提取模型利用實體提示文本和樣本文本，得到實體項中的實體答案。

20、其中，提示文本還包括特殊說明項，特殊說明項中填入的文本內(nèi)容用于以下至少一者：提供給數(shù)據(jù)提取模型理解樣本字段、以及指示數(shù)據(jù)提取模型的輸出格式。

21、因此，通過設置特殊說明項，使數(shù)據(jù)提取模型更好地理解樣本字段，提高數(shù)據(jù)提取模型輸出數(shù)據(jù)的準確度，進而提高樣本結(jié)構化數(shù)據(jù)的準確度。

22、其中，目標文本為電子病例文本。

23、因此，可以實現(xiàn)對電子病例文本進行結(jié)構化處理，得到電子病例文本的目標結(jié)構化數(shù)據(jù)，能夠使用戶更好地實現(xiàn)電子病例數(shù)據(jù)的研究。

24、本技術提供了一種醫(yī)療大語言模型的訓練方法，該方法包括：獲取微調(diào)數(shù)據(jù)集，其中，微調(diào)數(shù)據(jù)集包括至少一個樣本結(jié)構化數(shù)據(jù)，各樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型從對應的樣本文本中提取得到；利用醫(yī)療大語言模型分別對各樣本結(jié)構化數(shù)據(jù)對應的樣本文本進行結(jié)構化處理，得到各樣本結(jié)構化數(shù)據(jù)對應的預測結(jié)構化數(shù)據(jù)；基于各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù)，對醫(yī)療大語言模型進行微調(diào)。

25、因此，利用微調(diào)數(shù)據(jù)集中的樣本結(jié)構化數(shù)據(jù)和醫(yī)療大語言模型對樣本結(jié)構化數(shù)據(jù)的預測結(jié)構化數(shù)據(jù)，對醫(yī)療大語言模型進行微調(diào)，能夠提高醫(yī)療大語言模型對文本的結(jié)構化處理能力。

26、本技術提供了一種文本結(jié)構化裝置，該裝置包括第一獲取模塊和第一處理模塊，第一獲取模塊用于獲取目標文本，第一處理模塊用于利用經(jīng)微調(diào)的醫(yī)療大語言模型對目標文本執(zhí)行結(jié)構化任務，得到目標文本的目標結(jié)構化數(shù)據(jù)；其中，經(jīng)微調(diào)的醫(yī)療大語言模型是利用樣本文本和樣本文本的樣本結(jié)構化數(shù)據(jù)對醫(yī)療大語言模型進行微調(diào)得到；所述樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型對所述樣本文本進行提取得到。

27、本技術提供了一種醫(yī)療大語言模型的訓練裝置，該裝置包括第二獲取模塊、第二處理模塊和微調(diào)模塊，第二獲取模塊用于獲取微調(diào)數(shù)據(jù)集，其中，微調(diào)數(shù)據(jù)集包括至少一個樣本結(jié)構化數(shù)據(jù)，各樣本結(jié)構化數(shù)據(jù)是利用數(shù)據(jù)提取模型從對應的樣本文本中提取得到；第二處理模塊用于利用醫(yī)療大語言模型分別對各樣本結(jié)構化數(shù)據(jù)對應的樣本文本進行結(jié)構化處理，得到各樣本結(jié)構化數(shù)據(jù)對應的預測結(jié)構化數(shù)據(jù)；微調(diào)模塊用于基于各樣本結(jié)構化數(shù)據(jù)和對應的預測結(jié)構化數(shù)據(jù)，對醫(yī)療大語言模型進行微調(diào)。

28、本技術提供了一種電子設備，該電子設備包括處理器和存儲器，存儲器存儲有程序指令，處理器用于執(zhí)行程序指令以實現(xiàn)上述任一文本結(jié)構化方法或醫(yī)療大語言模型的訓練方法。

29、本技術提供了一種計算機可讀存儲介質(zhì)，該計算機可讀存儲介質(zhì)存儲有程序指令，程序指令能夠被執(zhí)行以實現(xiàn)上述任一文本結(jié)構化方法或醫(yī)療大語言模型的訓練方法。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張少霆
技術所有人：上海商湯善萃醫(yī)療科技有限公司
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)庫的大對象重寫方法、存儲介質(zhì)及設備與流程
上一篇：筆設備、電子設備及其控制方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質(zhì)精煉 4.天然產(chǎn)物化學
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復 4.天然產(chǎn)物合成 5.單分子技術開發(fā)與應用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構效關系研究 3.多糖及仿生材料功能的開發(fā)及應用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本結(jié)構化方法、醫(yī)療大語言模型的訓練方法及相關裝置與流程