本發(fā)明涉及電數(shù)字數(shù)據(jù)處理,尤其涉及一種基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法。
背景技術(shù):
1、對于醫(yī)療電子病歷檢索場景,病歷相關(guān)表非常多,電子病歷標準數(shù)據(jù)集即有50多個。而業(yè)務(wù)人員在獲取需要的病歷時往往需要做較為靈活的查詢,一種較為常見的解決方案是通用查詢,檢索條件中可以自由選擇哪個表的哪個字段的邏輯表達式組合,從而實現(xiàn)靈活的查詢條件。但這種檢索存在一個問題,需要使用該功能的人員對表結(jié)構(gòu)比較熟悉,但是,也存在著業(yè)務(wù)人員對表結(jié)構(gòu)并不熟悉,并不清楚自己需要查詢的內(nèi)容散落在哪些表中。
2、通過對通用生成式ai的大語言模型做訓練/微調(diào),實現(xiàn)將查詢的自然語言描述轉(zhuǎn)換為后臺查詢邏輯,是一個比較好的方案,用戶以自然語言來描述需要查詢的內(nèi)容,即返回查詢結(jié)果,這種方式對用戶非常友好。目前已知的這種大模型中,主要以自然語言轉(zhuǎn)換為sql語句,再進一步使用sql做數(shù)據(jù)庫查詢。這種方案存在以下幾個問題:其一,其嚴重依賴sql,查詢的目標數(shù)據(jù)必須為兼容sql的數(shù)據(jù);其二,其生成式ai生成的sql不一定正確,如果語法錯誤或邏輯錯誤,難以糾錯;其三,極少數(shù)的用戶熟悉sql,使用用戶糾錯的方法也不現(xiàn)實。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,以解決上述現(xiàn)有技術(shù)的不足,本方法通過訓練ai模型,實現(xiàn)業(yè)務(wù)人員對自己想要的數(shù)據(jù)做自然語言描述,即可自動轉(zhuǎn)換為外部通用查詢模塊的查詢條件的邏輯表達式,業(yè)務(wù)人員不再需要去熟悉相關(guān)表結(jié)構(gòu),提升了外部通用查詢模塊的易用性與實用性。本方法中生成的是目標查詢模塊需要的查詢條件的邏輯表達式,邏輯表達式存在強約束,比較容易判斷模型生成的條件格式是否正確。并且可以通過外部查詢模塊的查詢條件欄展示,方便用戶對檢索條件進一步糾錯。此外,本方法采用相關(guān)自動生成技術(shù),降低訓練/微調(diào)的人力成本,降低項目周期,從而降低項目總體成本。
2、為了實現(xiàn)本發(fā)明的目的,擬采用以下技術(shù):
3、一種基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,包括步驟:
4、步驟01,獲取/配置相關(guān)表信息及相關(guān)表中字段信息;
5、步驟02,自動構(gòu)建查詢條件邏輯表達式;
6、步驟03,通過大語言模型將邏輯表達式轉(zhuǎn)換為自然語言描述;
7、步驟04,將查詢條件邏輯表達式作為output,自然語言描述作為input,組織訓練/微調(diào)數(shù)據(jù);
8、步驟05,訓練/微調(diào)模型;
9、步驟06,將訓練/微調(diào)好的模型封裝為服務(wù)提供給外部。
10、進一步地,步驟01中,獲取/配置相關(guān)表信息時:
11、獲取/配置患者基本信息表及其字段;
12、獲取/配置患者就診信息表及其字段;
13、獲取/配置電子病歷及需要查詢的業(yè)務(wù)表及字段。
14、進一步地,步驟02中,自動建立查詢條件邏輯表達式的步驟為:
15、步驟20,配置各字段的邏輯操作及設(shè)置各字段操作符的示例值;
16、步驟21,隨機設(shè)定邏輯表達式的分組層級;
17、步驟22,迭代隨機設(shè)置分組表達式的子表達式個數(shù),以及子表達式與前一子表達式的關(guān)系;
18、步驟23,隨機設(shè)置原子表達式字段,并獲得字段與值的邏輯符號,及字段的邏輯符號對應(yīng)的示例值。
19、進一步地,步驟03中,通過大語言模型將查詢條件邏輯表達式轉(zhuǎn)換為自然語言描述時,采用步驟01中所提到的相關(guān)表及表中字段信息以及步驟02中所自動構(gòu)建的查詢條件邏輯表達式,將其組織成大語言模型的調(diào)用參數(shù),返回為邏輯表達式所對應(yīng)的自然語言描述。
20、進一步地,調(diào)用參數(shù)為示例對話、用戶輸入及提示詞。
21、進一步地,步驟04中,將查詢條件邏輯表達式作為output,自然語言描述作為input,組織訓練/微調(diào)數(shù)據(jù)的步驟為:
22、由步驟02中所自動構(gòu)建的查詢條件邏輯表達式作為output;
23、由步驟03所得的自然語言描述作為input;
24、并加入提示詞prompt;
25、組合多條訓練數(shù)據(jù)為一個json訓練數(shù)據(jù)集。
26、進一步地,步驟06中,將訓練好的模型封裝為服務(wù)的步驟為:
27、步驟60,接收外部檢索系統(tǒng)輸入的檢索條件;
28、步驟61,組織訓練后模型的調(diào)用參數(shù);
29、步驟62,調(diào)用模型生成的邏輯表達式;
30、步驟63,解析分割邏輯表達式、組織響應(yīng)數(shù)據(jù);
31、步驟64,驗證邏輯表達式;
32、步驟65,格式轉(zhuǎn)換。
33、進一步地,組織訓練后模型的調(diào)用參數(shù)中的調(diào)用參數(shù)為提示詞和用戶輸入詞。
34、進一步地,驗證邏輯表達式時,通過對響應(yīng)中的原子表達式驗證其表和字段以及邏輯操作符是否與配置一致;
35、若響應(yīng)中的原子表達式與其表和字段以及邏輯操作符配置一致,則轉(zhuǎn)換為外部檢索系統(tǒng)需要的名稱格式;
36、若響應(yīng)中的原子表達式與其表和字段以及邏輯操作符配置不一致,則刪除該原子表達式或者返回錯誤信息給調(diào)用方或者再次調(diào)用模型重新生成。
37、上述技術(shù)方案的優(yōu)點在于:
38、本發(fā)明可自動構(gòu)建訓練數(shù)據(jù),從而降低了研發(fā)成本;約束邏輯表達式,降低生成式ai的幻覺風險;避免直接執(zhí)行錯誤sql對數(shù)據(jù)庫的影響;提升用戶使用的便捷性;降低項目研發(fā)周期,推進ai大模型的應(yīng)用。
1.基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,包括步驟:
2.根據(jù)權(quán)利要求1所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,步驟01中,獲取/配置相關(guān)表信息時:
3.根據(jù)權(quán)利要求1所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,步驟02中,自動建立查詢條件邏輯表達式的步驟為:
4.根據(jù)權(quán)利要求3所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,步驟03中,通過大語言模型將查詢條件邏輯表達式轉(zhuǎn)換為自然語言描述時,采用步驟01中所提到的相關(guān)表及表中字段信息以及步驟02中所自動構(gòu)建的查詢條件邏輯表達式,將其組織成大語言模型的調(diào)用參數(shù),返回為邏輯表達式所對應(yīng)的自然語言描述。
5.根據(jù)權(quán)利要求4所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,調(diào)用參數(shù)為示例對話、用戶輸入及提示詞。
6.根據(jù)權(quán)利要求1所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,步驟04中,將查詢條件邏輯表達式作為output,自然語言描述作為input,組織訓練/微調(diào)數(shù)據(jù)的步驟為:
7.根據(jù)權(quán)利要求1所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,步驟06中,將訓練好的模型封裝為服務(wù)的步驟為:
8.根據(jù)權(quán)利要求7所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,組織訓練后模型的調(diào)用參數(shù)中的調(diào)用參數(shù)為提示詞和用戶輸入詞。
9.根據(jù)權(quán)利要求7所述的基于生成式ai的電子病歷自然語言檢索模型的構(gòu)建方法,其特征在于,驗證邏輯表達式時,通過對響應(yīng)中的原子表達式驗證其表和字段以及邏輯操作符是否與配置一致;