本說明書實(shí)施例涉及信息處理,特別涉及信息提取方法及字段劃選方法。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)和計算機(jī)技術(shù)的發(fā)展,信息抽取任務(wù)在多數(shù)業(yè)務(wù)場景中得以應(yīng)用,信息抽取任務(wù)的執(zhí)行可以實(shí)現(xiàn)在大量數(shù)據(jù)中抽取具有代表性和特定特征的子集,以便后續(xù)使用子集進(jìn)行分析和處理?,F(xiàn)有技術(shù)中,信息抽取任務(wù)的執(zhí)行大多數(shù)依賴隨機(jī)抽樣或者算法實(shí)現(xiàn),在隨機(jī)抽樣策略中,往往伴隨著抽取結(jié)果代表性不足的問題,從而會嚴(yán)重影響分析準(zhǔn)確性。而抽取算法則可以通過配置算子的方式保證抽取結(jié)果的代表性,但是抽取算法在處理大規(guī)模數(shù)據(jù)時,非常依賴計算設(shè)備的硬件性能,計算復(fù)雜度較高的情形下,很容易導(dǎo)致抽取時間變長,并且效率較低。此外,無論是隨機(jī)抽樣還是抽取算法,在面臨同一詞在不同場景具有不同含義的情形下,例如“基本面”在股票投資場景表示財務(wù)狀況、盈利能力、市場競爭力等,在宏觀經(jīng)濟(jì)場景表示gdp增長率、通貨膨脹率、失業(yè)率等,此時算法無法實(shí)現(xiàn)一詞在多含義上的平衡,進(jìn)而會導(dǎo)致抽取結(jié)果在某個維度上存在偏差,因此亟需一種有效的方案以解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本說明書實(shí)施例提供了信息提取方法。本說明書一個或者多個實(shí)施例同時涉及信息提取裝置,字段劃選方法,字段劃選裝置,一種計算設(shè)備,一種計算機(jī)可讀存儲介質(zhì)以及一種計算機(jī)程序產(chǎn)品,以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
2、根據(jù)本說明書實(shí)施例的第一方面,提供了一種信息提取方法,包括:
3、根據(jù)業(yè)務(wù)查詢信息展示包含業(yè)務(wù)樣例文檔的字段劃選頁面,并確定所述業(yè)務(wù)查詢信息對應(yīng)的查詢字段;
4、響應(yīng)于通過所述字段劃選頁面提交的劃選指令,在所述業(yè)務(wù)樣例文檔中確定與所述查詢字段具有關(guān)聯(lián)關(guān)系的劃選字段;
5、根據(jù)所述查詢字段在業(yè)務(wù)文檔庫中召回候選文檔段落集,并將所述查詢字段和所述劃選字段輸入至大語言模型;
6、通過所述大語言模型在所述候選文檔段落集中召回目標(biāo)文檔段落,并利用所述大語言模型參照所述劃選字段在所述目標(biāo)文檔段落中提取所述業(yè)務(wù)查詢信息關(guān)聯(lián)的目標(biāo)信息。
7、根據(jù)本說明書實(shí)施例的第二方面,提供了一種字段劃選方法,應(yīng)用于客戶端,包括:
8、接收針對目標(biāo)業(yè)務(wù)提交的業(yè)務(wù)查詢信息,并確定所述業(yè)務(wù)查詢信息對應(yīng)的查詢字段;
9、根據(jù)所述業(yè)務(wù)查詢信息確定業(yè)務(wù)樣例文檔,并通過字段劃選頁面展示所述業(yè)務(wù)樣例文檔;
10、響應(yīng)于通過所述字段劃選頁面提交的劃選指令,在所述業(yè)務(wù)樣例文檔中確定與所述查詢字段具有關(guān)聯(lián)關(guān)系的劃選字段;
11、基于所述劃選字段和所述查詢字段執(zhí)行所述目標(biāo)業(yè)務(wù)關(guān)聯(lián)的信息提取任務(wù)。
12、根據(jù)本說明書實(shí)施例的第三方面,提供了另一種信息提取方法,包括:
13、確定與業(yè)務(wù)查詢信息中的查詢字段具有關(guān)聯(lián)關(guān)系的劃選字段;
14、根據(jù)所述查詢字段在業(yè)務(wù)文檔庫中召回候選文檔段落集;
15、將所述查詢字段和所述劃選字段輸入至大語言模型,通過所述大語言模型在所述候選文檔段落集中召回目標(biāo)文檔段落;
16、利用所述大語言模型,參照所述劃選字段在所述目標(biāo)文檔段落中提取所述業(yè)務(wù)查詢信息關(guān)聯(lián)的目標(biāo)信息。
17、根據(jù)本說明書實(shí)施例的第四方面,提供了一種信息提取裝置,包括:
18、劃選模塊,被配置為根據(jù)業(yè)務(wù)查詢信息展示包含業(yè)務(wù)樣例文檔的字段劃選頁面,并確定所述業(yè)務(wù)查詢信息對應(yīng)的查詢字段;
19、確定模塊,被配置為根據(jù)業(yè)務(wù)查詢信息展示包含業(yè)務(wù)樣例文檔的字段劃選頁面,并確定所述業(yè)務(wù)查詢信息對應(yīng)的查詢字段;
20、輸入模塊,被配置為根據(jù)所述查詢字段在業(yè)務(wù)文檔庫中召回候選文檔段落集,并將所述查詢字段和所述劃選字段輸入至大語言模型;
21、提取模塊,被配置為通過所述大語言模型在所述候選文檔段落集中召回目標(biāo)文檔段落,并利用所述大語言模型參照所述劃選字段在所述目標(biāo)文檔段落中提取所述業(yè)務(wù)查詢信息關(guān)聯(lián)的目標(biāo)信息。
22、根據(jù)本說明書實(shí)施例的第五方面,提供了一種字段劃選裝置,應(yīng)用于客戶端,包括:
23、接收信息模塊,被配置為接收針對目標(biāo)業(yè)務(wù)提交的業(yè)務(wù)查詢信息,并確定所述業(yè)務(wù)查詢信息對應(yīng)的查詢字段;
24、確定文檔模塊,被配置為根據(jù)所述業(yè)務(wù)查詢信息確定業(yè)務(wù)樣例文檔,并通過字段劃選頁面展示所述業(yè)務(wù)樣例文檔;
25、劃選字段模塊,被配置為響應(yīng)于通過所述字段劃選頁面提交的劃選指令,在所述業(yè)務(wù)樣例文檔中確定與所述查詢字段具有關(guān)聯(lián)關(guān)系的劃選字段;
26、執(zhí)行任務(wù)模塊,被配置為基于所述劃選字段和所述查詢字段執(zhí)行所述目標(biāo)業(yè)務(wù)關(guān)聯(lián)的信息提取任務(wù)。
27、根據(jù)本說明書實(shí)施例的第六方面,提供了另一種信息提取裝置,包括:
28、確定字段模塊,被配置為確定與業(yè)務(wù)查詢信息中的查詢字段具有關(guān)聯(lián)關(guān)系的劃選字段;
29、召回文檔模塊,被配置為根據(jù)所述查詢字段在業(yè)務(wù)文檔庫中召回候選文檔段落集;
30、輸入模型模塊,被配置為將所述查詢字段和所述劃選字段輸入至大語言模型,通過所述大語言模型在所述候選文檔段落集中召回目標(biāo)文檔段落;
31、提取信息模塊,被配置為利用所述大語言模型,參照所述劃選字段在所述目標(biāo)文檔段落中提取所述業(yè)務(wù)查詢信息關(guān)聯(lián)的目標(biāo)信息。
32、根據(jù)本說明書實(shí)施例的第七方面,提供了一種計算設(shè)備,包括:
33、存儲器和處理器;
34、所述存儲器用于存儲計算機(jī)可執(zhí)行指令,所述處理器用于執(zhí)行所述計算機(jī)可執(zhí)行指令,該計算機(jī)可執(zhí)行指令被處理器執(zhí)行時實(shí)現(xiàn)上述信息提取方法或字段劃選方法的步驟。
35、根據(jù)本說明書實(shí)施例的第八方面,提供了一種計算機(jī)可讀存儲介質(zhì),其存儲有計算機(jī)可執(zhí)行指令,該指令被處理器執(zhí)行時實(shí)現(xiàn)上述信息提取方法或字段劃選方法的步驟。
36、根據(jù)本說明書實(shí)施例的第九方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序或指令,該計算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)上述信息提取方法或字段劃選方法的步驟。
37、本實(shí)施例提供的信息抽取方法,為了能夠保證信息抽取結(jié)果的代表性,同時提高信息抽取效率以及平衡各關(guān)鍵指標(biāo)的權(quán)重,可以向用戶展示包含業(yè)務(wù)樣例文檔的字段劃選頁面,同時確定用戶提交的業(yè)務(wù)查詢信息對應(yīng)的查詢字段;在此基礎(chǔ)上,可以響應(yīng)于通過字段劃選頁面提交的劃選指令,在業(yè)務(wù)樣例文檔中確定與查詢字段具有關(guān)聯(lián)關(guān)系的劃選字段;實(shí)現(xiàn)用戶可以通過字段劃選頁面自定義被抽取字段的關(guān)聯(lián)關(guān)系,進(jìn)而實(shí)現(xiàn)覆蓋更廣泛的抽取范圍。因此可以根據(jù)查詢字段在業(yè)務(wù)文檔庫中召回候選文檔段落集,以初步得到關(guān)聯(lián)業(yè)務(wù)查詢信息的文檔段落。而后可以將查詢字段和劃選字段輸入至大語言模型,實(shí)現(xiàn)通過大語言模型在候選文檔段落集中召回目標(biāo)文檔段落,進(jìn)而深度得到關(guān)聯(lián)業(yè)務(wù)查詢信息的文檔段落(多個)。最后即可利用大語言模型參照劃選字段在目標(biāo)文檔段落中提取業(yè)務(wù)查詢信息關(guān)聯(lián)的目標(biāo)信息。實(shí)現(xiàn)在進(jìn)行信息抽取時,不僅可以基于業(yè)務(wù)查詢信息出發(fā)完成,還能夠通過劃選字段和查詢字段之間的關(guān)聯(lián)關(guān)系得到字段表征不同但是含義相同的目標(biāo)文檔段落,從而可以快速且精準(zhǔn)抽取到目標(biāo)信息,以便下游業(yè)務(wù)進(jìn)行分析和處理,有效的提高了信息抽取效率和抽取準(zhǔn)確度,且可以避免信息抽取不平衡帶來的影響。