本技術涉及數(shù)據(jù)處理,尤其涉及一種電力結(jié)算數(shù)據(jù)分析方法、裝置、電子設備及存儲介質(zhì)。
背景技術:
1、電力結(jié)算單是電力交易中心發(fā)出的具有詳細記錄用電量和相關費用的賬單。對于企業(yè)來說,電力結(jié)算單是衡量企業(yè)資源使用的重要評估憑證。
2、但電力結(jié)算單具有多樣性的特點,不同的電力交易中心的電力結(jié)算單不同,不同時間點的電力結(jié)算單也不同。且電力結(jié)算單上除了電力結(jié)算數(shù)據(jù)外,還包括其他復雜的數(shù)據(jù)信息,這增加了企業(yè)對電力結(jié)算單的利用難度。相關技術中,企業(yè)通過人工錄入信息,但電力結(jié)算單的條目內(nèi)容復雜,可讀性差,在核對和計算上容易出現(xiàn)錯誤。因此,如何提升對電力結(jié)算單進行數(shù)據(jù)分析的準確率,成為了亟待解決的技術問題。
技術實現(xiàn)思路
1、本技術實施例的主要目的在于提出一種電力結(jié)算數(shù)據(jù)分析方法、裝置、電子設備及存儲介質(zhì),旨在提升對電力結(jié)算單進行數(shù)據(jù)分析的準確率。
2、為實現(xiàn)上述目的,本技術實施例的第一方面提出了一種電力結(jié)算數(shù)據(jù)分析方法,所述方法包括:
3、獲取電力結(jié)算單;
4、對所述電力結(jié)算單進行字符識別處理,得到結(jié)算單文字數(shù)據(jù);
5、基于所述結(jié)算單文字進行屬性分析,得到表單屬性信息;
6、基于所述表單屬性信息從多個預設的候選信息模板中,確定匹配的目標信息模板;
7、將所述目標信息模板和所述結(jié)算單文字數(shù)據(jù)輸入預先訓練的大語言模型中進行數(shù)據(jù)分析處理,得到目標分析信息。
8、在一些實施例,所述表單屬性信息包括區(qū)域?qū)傩孕畔⒑湍茉磳傩孕畔?,所述基于結(jié)算單文字進行屬性分析,得到表單屬性信息,包括:
9、基于所述結(jié)算單文字數(shù)據(jù)進行區(qū)域分析,得到所述區(qū)域?qū)傩孕畔ⅲ?/p>
10、基于所述結(jié)算單文字數(shù)據(jù)進行能源類型分析,得到所述能源屬性信息;
11、所述基于所述表單屬性信息從多個預設的候選信息模板中,確定匹配的目標信息模板,包括:
12、基于所述區(qū)域?qū)傩孕畔⒑退瞿茉磳傩孕畔亩鄠€預設的所述候選信息模板中,確定匹配的所述目標信息模板。
13、在一些實施例,所述基于所述區(qū)域?qū)傩孕畔⒑退瞿茉磳傩孕畔亩鄠€預設的所述候選信息模板中,確定匹配的所述目標信息模板之前,還包括預設多個所述候選信息模板,具體包括:
14、獲取所述電力結(jié)算單,并獲取所述電力結(jié)算單的所述區(qū)域?qū)傩孕畔⒑退瞿茉磳傩孕畔ⅲ?/p>
15、基于所述區(qū)域?qū)傩孕畔⒑退瞿茉磳傩孕畔?,?gòu)建對應的名詞轉(zhuǎn)換規(guī)則;
16、基于所述區(qū)域?qū)傩孕畔⒑退瞿茉磳傩孕畔ⅲ瑯?gòu)建對應的能源計算規(guī)則;
17、基于所述名詞轉(zhuǎn)換規(guī)則和所述能源計算規(guī)則,預設所述候選信息模板。
18、在一些實施例,所述基于所述目標信息模板和所述結(jié)算單文字數(shù)據(jù),輸入至預先訓練的大語言模型中進行數(shù)據(jù)處理,得到目標分析信息之前,還包括對所述大語言模型進行預先訓練,具體包括:
19、獲取訓練數(shù)據(jù)集;其中,所述訓練數(shù)據(jù)集包括了多個訓練樣本,每一所述訓練樣本對應于所述電力結(jié)算單處理得到的所述結(jié)算單文字數(shù)據(jù),其中所述結(jié)算單文字數(shù)據(jù)配置了對應的所述目標信息模板,每一所述訓練樣本配置有對應的數(shù)據(jù)分析結(jié)果;
20、將所述訓練樣本輸入原始的所述大語言模型進行數(shù)據(jù)分析訓練,得到原始分析信息;
21、基于所述訓練樣本對應的原始分析信息和所述數(shù)據(jù)分析結(jié)果進行比對,得到比對偏差數(shù)據(jù);
22、基于所述比對偏差數(shù)據(jù)更新所述大語言模型的模型參數(shù),返回執(zhí)行將所述訓練樣本輸入所述大語言模型進行數(shù)據(jù)分析訓練,直至所述大語言模型滿足預設的訓練終止條件,得到預先訓練的所述大語言模型。
23、在一些實施例,所述對所述電力結(jié)算單進行字符識別處理,得到結(jié)算單文字數(shù)據(jù)之后,還包括對所述結(jié)算單文字數(shù)據(jù)進行預處理,具體包括:
24、將所述結(jié)算單文字數(shù)據(jù)輸入至所述大語言模型中進行置信度篩選,得到待修正數(shù)據(jù);
25、通過所述大語言模型將所述待修正數(shù)據(jù)進行修正處理,得到可信文字數(shù)據(jù);
26、將所述可信文字數(shù)據(jù)進行數(shù)據(jù)縮減處理,得到預處理文字數(shù)據(jù)。
27、在一些實施例,所述結(jié)算單文字數(shù)據(jù)包括文字內(nèi)容數(shù)據(jù)和對應的文字坐標數(shù)據(jù),所述對所述電力結(jié)算單進行字符識別處理,得到結(jié)算單文字數(shù)據(jù),包括:
28、對所述電力結(jié)算單進行字符識別處理,得到所述文字內(nèi)容數(shù)據(jù)和對應的所述文字坐標數(shù)據(jù);
29、所述基于結(jié)算單文字進行屬性分析,得到表單屬性信息,包括:
30、通過所述文字坐標數(shù)據(jù)確定所述表單屬性信息的位置,并通過所述文字坐標數(shù)據(jù)將對應的文字內(nèi)容數(shù)據(jù),確定為所述表單屬性信息。
31、在一些實施例,所述基于所述目標信息模板和所述結(jié)算單文字數(shù)據(jù),輸入至預先訓練的大語言模型中進行數(shù)據(jù)處理,得到目標分析信息之后,具體包括:
32、將基于所述目標信息模板和所述結(jié)算單文字數(shù)據(jù)輸入至大語言模型分析得到所述目標分析信息的分析過程進行導出,得到分析過程數(shù)據(jù);
33、根據(jù)所述分析過程數(shù)據(jù)進行驗算處理,得到驗證數(shù)據(jù);
34、基于所述驗證數(shù)據(jù)調(diào)節(jié)所述大語言模型的模型參數(shù),得到調(diào)節(jié)后的大語言模型。
35、為實現(xiàn)上述目的,本技術實施例的第二方面提出了一種電力結(jié)算數(shù)據(jù)分析裝置,所述裝置包括:
36、數(shù)據(jù)獲取模塊,用于獲取電力結(jié)算單;
37、文字識別模塊,用于對所述電力結(jié)算單進行字符識別處理,得到結(jié)算單文字數(shù)據(jù);
38、文字分析模塊,用于基于結(jié)算單文字進行屬性分析,得到表單屬性信息;
39、模板匹配模塊,用于基于所述表單屬性信息從多個預設的候選信息模板中,確定匹配的目標信息模板;
40、數(shù)據(jù)分析模塊,用于將所述目標信息模板和所述結(jié)算單文字數(shù)據(jù)輸入預先訓練的大語言模型中進行數(shù)據(jù)分析處理,得到目標分析信息。
41、為實現(xiàn)上述目的,本技術實施例的第三方面提出了一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的電力結(jié)算數(shù)據(jù)分析方法。
42、為實現(xiàn)上述目的,本技術實施例的第四方面提出了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的電力結(jié)算數(shù)據(jù)分析方法。
43、本技術提出的電力結(jié)算數(shù)據(jù)分析方法、裝置、電子設備及存儲介質(zhì),其通過獲取電力結(jié)算單,對電力結(jié)算單進行字符識別處理,得到結(jié)算單文字數(shù)據(jù)。從而減少了手動錄入的工作量,提高了效率,并降低了人為錯誤的可能性。然后基于結(jié)算單文字數(shù)據(jù)進行屬性分析,得到表單屬性信息,基于表單屬性信息從多個預設的候選信息模板中,確定匹配的目標信息模板,從而確保了后續(xù)處理中信息提取的準確性,使用匹配的目標信息模板可以保證數(shù)據(jù)的正確提取和標準化。最后將目標信息模板和結(jié)算單文字數(shù)據(jù)輸入預先訓練的大語言模型中進行數(shù)據(jù)分析處理,得到目標分析信息,從而利用大語言模型強大的文本理解能力和分析能力,可以準確地對電力結(jié)算單中信息進行分析,并挖掘出電力結(jié)算單中更深層次的信息。由此可見,本技術通過表單屬性信息從多個預設的候選信息模板中,確定匹配的目標信息模板,確保了信息提取的準確性,并通過大語言模型進行數(shù)據(jù)分析處理,得到準確的且具有更深層次的目標分析信息。