本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種基于標(biāo)訊信息的金額提取方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、在當(dāng)今快速變化的商業(yè)環(huán)境中,標(biāo)訊信息作為連接供應(yīng)商、采購商及各類市場參與者的橋梁,承載著大量關(guān)于項目招標(biāo)、商品報價、合同金額等關(guān)鍵數(shù)據(jù)。這些信息的及時獲取與準(zhǔn)確處理,對于企業(yè)把握市場動向、優(yōu)化資源配置、制定競爭策略具有不可替代的作用。然而,隨著商業(yè)活動的日益復(fù)雜化和信息化,標(biāo)訊信息的發(fā)布形式也趨向多樣化與復(fù)雜化,不僅包含結(jié)構(gòu)化的數(shù)據(jù)表格,還涉及非結(jié)構(gòu)化的文本描述,如項目概述、報價詳情、支付條款等。
2、在這樣的背景下,標(biāo)訊信息中的金額數(shù)據(jù)作為核心要素之一,其準(zhǔn)確提取成為了一個技術(shù)挑戰(zhàn)。金額信息不僅可能散布于文本的不同位置,還可能采用不同的貨幣單位、數(shù)字格式(如阿拉伯?dāng)?shù)字與漢字?jǐn)?shù)字混合使用)、甚至嵌入在復(fù)雜的句子結(jié)構(gòu)中,進一步增加了提取的難度。傳統(tǒng)的信息提取技術(shù),如基于規(guī)則的方法或簡單的字符串匹配,往往難以適應(yīng)這種高度變異性和復(fù)雜性的文本環(huán)境,導(dǎo)致提取效率低下,錯誤率較高。
3、此外,隨著大數(shù)據(jù)和人工智能技術(shù)的興起,企業(yè)對信息處理的需求已從單一的數(shù)據(jù)提取擴展到更深層次的數(shù)據(jù)挖掘與分析。這就要求金額提取方法不僅要能夠準(zhǔn)確識別文本中的金額數(shù)值,還需具備一定的智能理解能力,以區(qū)分不同上下文中的金額含義(如總價、單價、預(yù)付款等),從而為企業(yè)的決策提供更為精準(zhǔn)的數(shù)據(jù)支持。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種基于標(biāo)訊信息的金額提取方法、設(shè)備及介質(zhì),用以解決現(xiàn)有的的技術(shù)問題。
2、一方面,本技術(shù)實施例提供了一種基于標(biāo)訊信息的金額提取方法,包括:
3、對標(biāo)訊文本進行預(yù)處理,得到目標(biāo)格式的標(biāo)訊文本,并在目標(biāo)格式的所述標(biāo)訊文本中進行關(guān)鍵詞識別,以確定關(guān)鍵詞對應(yīng)的位置信息;
4、根據(jù)所述位置信息,在所述關(guān)鍵詞對應(yīng)的預(yù)設(shè)范圍內(nèi)進行搜索,并獲取所述標(biāo)訊文本中對應(yīng)的金額表述;
5、對所述金額表述進行識別,確定對應(yīng)的金額類型,并根據(jù)所述金額類型,對所述金額表述進行轉(zhuǎn)換,以獲得指定格式的金額結(jié)果。
6、在本技術(shù)的一種實現(xiàn)方式中,對標(biāo)訊文本進行預(yù)處理,得到目標(biāo)格式的標(biāo)訊文本,具體包括:
7、接收標(biāo)訊文本,并對所述標(biāo)訊文本進行識別,以確定出所述標(biāo)訊文件中的非文字文本;其中,所述非文字文本包括:空格、換行符和標(biāo)點符號;
8、對所述標(biāo)訊文本中的空格和換行符進行刪除,并對刪除后標(biāo)訊文本中標(biāo)點符號的使用規(guī)則進行統(tǒng)一,以得到目標(biāo)格式的標(biāo)訊文本。
9、在本技術(shù)的一種實現(xiàn)方式中,在目標(biāo)格式的所述標(biāo)訊文本中進行關(guān)鍵詞識別,以確定關(guān)鍵詞對應(yīng)的位置信息,具體包括:
10、獲取預(yù)設(shè)時間段內(nèi)的歷史標(biāo)訊文本,并確定所述歷史標(biāo)訊文本中與金額相關(guān)的關(guān)鍵詞;其中,所述關(guān)鍵詞至少包括:總價、預(yù)算、中標(biāo)、報價和金額;
11、根據(jù)所述歷史標(biāo)訊文本中的關(guān)鍵詞,構(gòu)建對應(yīng)的關(guān)鍵詞庫,并基于所述關(guān)鍵詞庫,在目標(biāo)格式的所述標(biāo)訊文本中進行識別;
12、確定出所述標(biāo)訊文本中的關(guān)鍵詞,并確定所述關(guān)鍵詞在所述標(biāo)訊文本中對應(yīng)的位置信息。
13、在本技術(shù)的一種實現(xiàn)方式中,根據(jù)所述位置信息,在所述關(guān)鍵詞對應(yīng)的預(yù)設(shè)范圍內(nèi)進行搜索,并獲取所述標(biāo)訊文本中對應(yīng)的金額表述,具體包括:
14、根據(jù)所述位置信息,定位至所述關(guān)鍵詞在所述標(biāo)訊文本中的具體位置;
15、以所述關(guān)鍵詞的具體位置為基準(zhǔn),向所述關(guān)鍵詞的前后分別擴展預(yù)設(shè)的字符數(shù)量,以形成對應(yīng)的搜索范圍;
16、在所述搜索范圍內(nèi),識別與金額相關(guān)的字符串,并對所述字符串進行驗證,以在所述字符串驗證通過后,獲取所述標(biāo)訊文本中對應(yīng)的金額表述。
17、在本技術(shù)的一種實現(xiàn)方式中,對所述金額表述進行識別,確定對應(yīng)的金額類型,具體包括:
18、對所述金額表述對應(yīng)的字符串進行識別,以確定所述金額表述中的組成部分;
19、根據(jù)所述組成部分,確定所述金額表述對應(yīng)的金額類型;其中,所述金額類型包括數(shù)字與貨幣符號的組合、數(shù)字與計量單位的組合以及純數(shù)字。
20、在本技術(shù)的一種實現(xiàn)方式中,根據(jù)所述金額類型,對所述金額表述進行轉(zhuǎn)換,以獲得指定格式的金額結(jié)果之前,所述方法還包括:
21、針對金額類型為數(shù)字與貨幣符號的組合的金額表述,默認(rèn)所述金額表述對應(yīng)的單位為元;
22、針對金額類型為數(shù)字與計量單位的組合的金額表述,確定所述金額表述對應(yīng)的單位;其中,所述單位包括元和萬元;
23、針對金額類型為純數(shù)字的金額表述,默認(rèn)所述金額表述對應(yīng)的單位為元。
24、在本技術(shù)的一種實現(xiàn)方式中,根據(jù)所述金額類型,對所述金額表述進行轉(zhuǎn)換,以獲得指定格式的金額結(jié)果,具體包括:
25、在金額表述對應(yīng)的單位為元的情況下,通過least和locate函數(shù),確定第一個數(shù)字的位置,并通過greatest和char_length函數(shù),確定最后一個數(shù)字的位置;
26、根據(jù)所述第一個數(shù)字的位置和所述最后一個數(shù)字的位置,并通過substr函數(shù),拆分出文字中的純數(shù)字;
27、計算所述純數(shù)字與10000之間的比值,以將所述金額表述的單位轉(zhuǎn)換為萬元,并得到單位為萬元的金額結(jié)果。
28、在本技術(shù)的一種實現(xiàn)方式中,根據(jù)所述金額類型,對所述金額表述進行轉(zhuǎn)換,以獲得指定格式的金額結(jié)果之后,所述方法還包括:
29、將轉(zhuǎn)換后的金額結(jié)果與預(yù)設(shè)的金額格式進行比對,以確定所述金額結(jié)果的小數(shù)點后是否保留兩位,所述金額結(jié)果的千位分隔符是否正確使用,以及所述金額結(jié)果的貨幣符號是否正確放置;
30、在比對結(jié)果不一致的情況下,對所述金額結(jié)果進行格式調(diào)整,直至所述金額結(jié)果與預(yù)設(shè)的金額格式相匹配,并將格式調(diào)整后的金額結(jié)果存儲至數(shù)據(jù)庫中。
31、另一方面,本技術(shù)實施例還提供了一種基于標(biāo)訊信息的金額提取設(shè)備,所述設(shè)備包括:
32、至少一個處理器;
33、以及,與所述至少一個處理器通信連接的存儲器;
34、其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行如上述的一種基于標(biāo)訊信息的金額提取方法。
35、另一方面,本技術(shù)實施例還提供了一種非易失性計算機存儲介質(zhì),存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被執(zhí)行時,實現(xiàn)如上述的一種基于標(biāo)訊信息的金額提取方法。
36、本技術(shù)實施例提供了一種基于標(biāo)訊信息的金額提取方法、設(shè)備及介質(zhì),至少包括以下有益效果:
37、通過預(yù)處理和關(guān)鍵詞識別,能夠快速準(zhǔn)確地定位到標(biāo)訊文本中的關(guān)鍵信息區(qū)域,為后續(xù)的數(shù)據(jù)提取和處理打下堅實基礎(chǔ),提高信息處理的效率和準(zhǔn)確性;通過精確定位關(guān)鍵詞并搜索其預(yù)設(shè)范圍內(nèi)的金額表述,能夠有效地提取出標(biāo)訊文本中的關(guān)鍵金額信息,避免了信息的遺漏和誤判,提升了數(shù)據(jù)提取的針對性和實用性;通過對金額表述的識別和類型確定,能夠準(zhǔn)確理解金額的具體含義和用途,進而進行格式轉(zhuǎn)換,使得金額數(shù)據(jù)更加規(guī)范、統(tǒng)一,便于后續(xù)的數(shù)據(jù)分析和處理,提高了數(shù)據(jù)處理的效率和準(zhǔn)確性,同時,指定格式的金額結(jié)果也更有利于數(shù)據(jù)的存儲、傳輸和展示,滿足了實際應(yīng)用中的多樣化需求。