本技術(shù)涉及自然語言處理,具體而言,涉及一種基于醫(yī)療信息的指令微調(diào)數(shù)據(jù)生成方法及裝置。
背景技術(shù):
1、隨著信息技術(shù)的進(jìn)步,醫(yī)療相關(guān)資料數(shù)據(jù)對醫(yī)療活動中的應(yīng)用有極大的推動。這種文本信息不僅詳細(xì)描述了醫(yī)療過程,還包含了大量有價(jià)值的醫(yī)學(xué)信息,例如診斷、治療、檢查、檢驗(yàn)、用藥、臨床的不良事件等病例信息,有著廣泛的應(yīng)用前景,包括但不限于醫(yī)學(xué)信息檢索、智能問答系統(tǒng)和臨床決策支持。因此,準(zhǔn)確地提取醫(yī)學(xué)實(shí)體對于充分利用醫(yī)學(xué)信息至關(guān)重要。然而,由于醫(yī)療相關(guān)資料文檔為非結(jié)構(gòu)化的特點(diǎn),從其中提取關(guān)鍵醫(yī)療信息是一項(xiàng)嚴(yán)峻的挑戰(zhàn)。
2、目前信息實(shí)體抽取方法主要包括傳統(tǒng)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)方法。傳統(tǒng)方法依賴于人工特征,存在一定的局限性。深度學(xué)習(xí)方法在實(shí)體抽取中的應(yīng)用日益廣泛,大語言模型表現(xiàn)尤為突出,但利用大語言模型生成的指令微調(diào)數(shù)據(jù),難以滿足醫(yī)療信息抽取所需的多樣性和復(fù)雜性。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的在于提供一種基于醫(yī)療信息的指令微調(diào)數(shù)據(jù)生成方法及裝置,可以基于臨床診療指南和病程記錄等醫(yī)療知識數(shù)據(jù),生成具有多樣性和復(fù)雜性的任務(wù)集,由此得到具有多樣性和復(fù)雜性的指令微調(diào)數(shù)據(jù),確保了醫(yī)療信息抽取指令的多樣性、復(fù)雜性和特異性,為后續(xù)大預(yù)言模型的微調(diào)提供了強(qiáng)有力的保障和信息支持。
2、第一方面,提供了一種基于醫(yī)療信息的指令微調(diào)數(shù)據(jù)生成方法,該方法可以包括:
3、獲取與預(yù)設(shè)的醫(yī)療信息知識庫關(guān)聯(lián)的多個(gè)種子任務(wù);
4、基于配置的任務(wù)擴(kuò)展要求和所述多個(gè)種子任務(wù),生成針對任一種子任務(wù)的任務(wù)擴(kuò)展提示信息;
5、將所述任務(wù)擴(kuò)展提示信息輸入訓(xùn)練好的大語言模型,得到不同種子任務(wù)擴(kuò)展出的至少一個(gè)子任務(wù);所述任務(wù)擴(kuò)展提示信息用于指示所述大語言模型對任一種子任務(wù)進(jìn)行擴(kuò)展以得到滿足所述任務(wù)擴(kuò)展要求的子任務(wù);
6、將包含目標(biāo)任務(wù)集和待抽取醫(yī)療文檔的抽取提示信息輸入所述大語言模型,得到滿足所述任務(wù)集中各任務(wù)的信息抽取結(jié)果;所述目標(biāo)任務(wù)集是基于所述多個(gè)種子任務(wù)和所述至少一個(gè)子任務(wù)構(gòu)建的,所述抽取提示信息用于指示所述大語言模型按照種子任務(wù)集中的任務(wù)對所述醫(yī)療信息知識庫進(jìn)行信息抽??;
7、基于所述任務(wù)集中的各任務(wù)和相應(yīng)信息抽取結(jié)果,生成指令微調(diào)數(shù)據(jù)。
8、在一個(gè)可能的實(shí)現(xiàn)中,所述醫(yī)療信息知識庫包括臨床診療指南數(shù)據(jù)和臨床病程數(shù)據(jù);
9、獲取與醫(yī)療信息知識庫關(guān)聯(lián)的多個(gè)種子任務(wù),包括:
10、從臨床診療指南數(shù)據(jù)中提取出疾病名稱,以及相應(yīng)疾病名稱關(guān)聯(lián)的信息,所述信息包括不同疾病信息和相應(yīng)疾病信息間的關(guān)聯(lián)關(guān)系;
11、從臨床病程數(shù)據(jù)中提取出醫(yī)學(xué)術(shù)語;
12、按照配置的種子任務(wù)格式,對所述疾病名稱關(guān)聯(lián)的信息和所述醫(yī)學(xué)術(shù)語進(jìn)行處理,得到多個(gè)種子任務(wù)。
13、在一個(gè)可能的實(shí)現(xiàn)中,所述配置的種子任務(wù)格式包括針對臨床診療指南數(shù)據(jù)的第一種子任務(wù)格式和針對臨床病程數(shù)據(jù)的第二種子任務(wù)格式;
14、若某一疾病名稱關(guān)聯(lián)的兩個(gè)目標(biāo)疾病信息間的關(guān)聯(lián)關(guān)系為并列關(guān)系,則針對任一目標(biāo)疾病信息的第一種子任務(wù)格式為:提取/返回待抽取醫(yī)療文檔中,關(guān)于該疾病名稱的目標(biāo)疾病信息;
15、若某一疾病名稱關(guān)聯(lián)的兩個(gè)目標(biāo)疾病信息間的關(guān)聯(lián)關(guān)系為包含關(guān)系,則第一種子任務(wù)格式為:提取/返回待抽取醫(yī)療文檔中,關(guān)于該疾病名稱的一個(gè)目標(biāo)疾病信息中的另一個(gè)目標(biāo)疾病信息;
16、所述第二種子任務(wù)格式為:提取/返回待抽取醫(yī)療文檔中,與所述醫(yī)學(xué)術(shù)語相關(guān)的信息。
17、在一個(gè)可能的實(shí)現(xiàn)中,將所述任務(wù)擴(kuò)展提示信息輸入訓(xùn)練好的大語言模型,得到不同種子任務(wù)擴(kuò)展出的至少一個(gè)子任務(wù)之后,所述方法還包括:
18、對得到的各子任務(wù)進(jìn)行文本解析;
19、若解析失敗,則將相應(yīng)子任務(wù)確定為空字符;
20、若解析成功,則將相應(yīng)子任務(wù)確定為可用子任務(wù);
21、采用目標(biāo)過濾方式,對待過濾信息進(jìn)行過濾,獲取目標(biāo)任務(wù)集,所述待過濾信息包括所述空字符和所述可用子任務(wù)。
22、在一個(gè)可能的實(shí)現(xiàn)中,所述目標(biāo)過濾方式包括字符過濾方式和相似度過濾方式;
23、采用目標(biāo)過濾方式,對待過濾信息進(jìn)行過濾,獲取目標(biāo)任務(wù)集,包括:
24、采用所述字符過濾方式,對待過濾信息進(jìn)行過濾,以過濾掉存在的空字符、none,和/或,首字符為符號或包含目標(biāo)字符的待過濾信息,得到過濾后的可用子任務(wù);
25、采用所述相似度過濾方式,計(jì)算過濾后的可用子任務(wù)分別與各個(gè)種子任務(wù)間的相似度,并過濾掉大于預(yù)設(shè)閾值的相似度對應(yīng)的過濾后的可用子任務(wù),得到二次過濾后的可用子任務(wù);
26、將所述二次過濾后的可用子任務(wù)和所述多個(gè)種子任務(wù),構(gòu)建目標(biāo)任務(wù)集。
27、在一個(gè)可能的實(shí)現(xiàn)中,所述任務(wù)擴(kuò)展要求的配置方式包括:
28、獲取預(yù)先構(gòu)建的多個(gè)任務(wù)擴(kuò)展策略和隨機(jī)配置的策略個(gè)數(shù);
29、按照所述策略個(gè)數(shù),對所述多個(gè)任務(wù)擴(kuò)展策略進(jìn)行組合,得到多個(gè)策略組合;
30、將每個(gè)策略組合涉及的任務(wù)擴(kuò)展策略確定為一個(gè)任務(wù)擴(kuò)展要求。
31、在一個(gè)可能的實(shí)現(xiàn)中,所述多個(gè)任務(wù)擴(kuò)展策略包括增加約束條件的任務(wù)擴(kuò)展策略、增加內(nèi)容細(xì)致程度的任務(wù)擴(kuò)展策略、進(jìn)行內(nèi)容概念替換的任務(wù)擴(kuò)展策略、基于多步驟實(shí)現(xiàn)的任務(wù)擴(kuò)展策略和構(gòu)造與相應(yīng)種子任務(wù)內(nèi)容不同的任務(wù)擴(kuò)展策略中的一種或多種。
32、第二方面,提供了一種基于醫(yī)療信息的指令微調(diào)數(shù)據(jù)生成裝置,該裝置可以包括:
33、獲取單元,用于獲取與預(yù)設(shè)的醫(yī)療信息知識庫關(guān)聯(lián)的多個(gè)種子任務(wù);
34、生成單元,用于基于配置的任務(wù)擴(kuò)展要求和所述多個(gè)種子任務(wù),生成針對任一種子任務(wù)的任務(wù)擴(kuò)展提示信息;
35、輸入單元,用于將所述任務(wù)擴(kuò)展提示信息輸入訓(xùn)練好的大語言模型,得到不同種子任務(wù)擴(kuò)展出的至少一個(gè)子任務(wù);所述任務(wù)擴(kuò)展提示信息用于指示所述大語言模型對任一種子任務(wù)進(jìn)行擴(kuò)展以得到滿足所述任務(wù)擴(kuò)展要求的子任務(wù);
36、以及,將包含目標(biāo)任務(wù)集和待抽取醫(yī)療文檔的抽取提示信息輸入所述大語言模型,得到滿足所述任務(wù)集中各任務(wù)的信息抽取結(jié)果;所述目標(biāo)任務(wù)集是基于所述多個(gè)種子任務(wù)和所述至少一個(gè)子任務(wù)構(gòu)建的,所述抽取提示信息用于指示所述大語言模型按照種子任務(wù)集中的任務(wù)對所述醫(yī)療信息知識庫進(jìn)行信息抽?。?/p>
37、所述生成單元,還用于基于所述任務(wù)集中的各任務(wù)和相應(yīng)信息抽取結(jié)果,生成指令微調(diào)數(shù)據(jù)。
38、第三方面,提供了一種電子設(shè)備,該電子設(shè)備包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
39、存儲器,用于存放計(jì)算機(jī)程序;
40、處理器,用于執(zhí)行存儲器上所存放的程序時(shí),實(shí)現(xiàn)上述第一方面中任一所述的方法步驟。
41、第四方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),該計(jì)算機(jī)可讀存儲介質(zhì)內(nèi)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面中任一所述的方法步驟。
42、本技術(shù)提供的基于醫(yī)療信息的指令微調(diào)數(shù)據(jù)生成方法在獲取與預(yù)設(shè)的醫(yī)療信息知識庫關(guān)聯(lián)的多個(gè)種子任務(wù)后,基于配置的任務(wù)擴(kuò)展要求和多個(gè)種子任務(wù),生成針對任一種子任務(wù)的任務(wù)擴(kuò)展提示信息;將任務(wù)擴(kuò)展提示信息輸入訓(xùn)練好的大語言模型,得到不同種子任務(wù)擴(kuò)展出的至少一個(gè)子任務(wù);任務(wù)擴(kuò)展提示信息用于指示大語言模型對任一種子任務(wù)進(jìn)行擴(kuò)展以得到滿足任務(wù)擴(kuò)展要求的子任務(wù);將包含目標(biāo)任務(wù)集和待抽取醫(yī)療文檔的抽取提示信息輸入大語言模型,得到滿足所述任務(wù)集中各任務(wù)的信息抽取結(jié)果;目標(biāo)任務(wù)集是基于多個(gè)種子任務(wù)和至少一個(gè)子任務(wù)構(gòu)建的,抽取提示信息用于指示大語言模型按照種子任務(wù)集中的任務(wù)對醫(yī)療信息知識庫進(jìn)行信息抽??;基于任務(wù)集中的各任務(wù)和相應(yīng)信息抽取結(jié)果,生成指令微調(diào)數(shù)據(jù)。該方法可得到具有多樣性和復(fù)雜性的指令微調(diào)數(shù)據(jù),確保了醫(yī)療信息抽取指令的多樣性、復(fù)雜性和特異性。