本申請涉及計算機領(lǐng)域,具體而言,涉及一種目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置。
背景技術(shù):
1、在以能源電力為代表的眾多行業(yè)領(lǐng)域中,項目后評價都是重要的環(huán)節(jié)。項目后評價所用到的數(shù)據(jù),除了需要海量結(jié)構(gòu)化生產(chǎn)、運營財務(wù)數(shù)據(jù)之外,也有大量的可行性研究報告、核準(zhǔn)審批文件等文件類型的數(shù)據(jù),這些數(shù)據(jù)多以word、pdf等非結(jié)構(gòu)化形式存儲,包括大量的紙質(zhì)文件。這些歷史文件中往往蘊含著大量有價值的信息,是對項目進行評價時的重要依據(jù)。因此,針對紙質(zhì)文件進行電子化處理,并快速地從海量的非結(jié)構(gòu)化文本中發(fā)現(xiàn)知識,以及將這些文本知識表示成計算機能夠“理解”的形式,對非結(jié)構(gòu)化文件進行結(jié)構(gòu)化治理,是實現(xiàn)自動化項目后評價的一種重要途徑。
2、然而,對紙質(zhì)文件掃描得到的文件圖像,往往面臨著圖像對比度低、文字傾斜、模糊、污跡遮蓋、印刷受墨多寡等等問題,這些問題都會使得識別出的文字內(nèi)容錯誤頻出。
3、針對相關(guān)技術(shù)中,對紙質(zhì)文件掃描得到的文件圖像,往往面臨著圖像對比度低、文字傾斜、模糊等問題,導(dǎo)致識別出的文字內(nèi)容錯誤頻出的問題,目前尚未提出有效的解決方案。
4、因此,有必要對相關(guān)技術(shù)予以改良以克服相關(guān)技術(shù)中的所述缺陷。
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置,以至少解決相關(guān)技術(shù)中,對紙質(zhì)文件掃描得到的文件圖像,往往面臨著圖像對比度低、文字傾斜、模糊的問題。
2、根據(jù)本申請實施例的一方面,提供一種目標(biāo)文件的文字識別方法,包括:對目標(biāo)文件進行文字識別,得到文字識別內(nèi)容;通過大語言模型對所述文字識別內(nèi)容進行修復(fù),得到文字修復(fù)結(jié)果,其中,所述文字修復(fù)結(jié)果包括至少一種子修復(fù)結(jié)果;通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理,得到所述目標(biāo)文件的最終識別結(jié)果。
3、在一個示例性的實施例中,通過大語言模型對所述文字識別內(nèi)容進行修復(fù),得到文字修復(fù)結(jié)果之前,所述方法還包括:獲取所述大語言模型中的第一提示模板,其中,所述第一提示模板用于指示所述大語言模型對所述文字識別內(nèi)容進行分類;根據(jù)所述文字識別內(nèi)容對所述第一提示模板進行填充,得到填充后的第一提示模板;通過所述大語言模型對所述填充后的第一提示模板進行處理,得到所述文字識別內(nèi)容的分類結(jié)果,其中,所述分類結(jié)果用于指示所述文字識別內(nèi)容是否待修復(fù);在所述分類結(jié)果指示所述文字識別內(nèi)容待修復(fù)的情況下,通過所述大語言模型對所述文字識別內(nèi)容進行修復(fù),得到所述文字修復(fù)結(jié)果。
4、在一個示例性的實施例中,通過所述大語言模型對所述文字識別內(nèi)容進行修復(fù),得到所述文字修復(fù)結(jié)果,包括:獲取所述大語言模型中的第二提示模板,其中,所述第二提示模板用于指示所述大語言模型對所述文字識別內(nèi)容進行修復(fù);根據(jù)所述文字識別內(nèi)容對所述第二提示模板進行填充,得到填充后的第二提示模板;通過所述大語言模型對所述填充后的第二提示模板進行處理,得到所述文字修復(fù)結(jié)果。
5、在一個示例性的實施例中,通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理,得到所述目標(biāo)文件的最終識別結(jié)果,包括:分別對所述文字識別內(nèi)容、所述文件圖片和所述文字修復(fù)結(jié)果進行編碼,得到第一編碼、第二編碼和第三編碼,其中,所述第一編碼與所述文字識別內(nèi)容對應(yīng),所述第二編碼與所述文件圖片對應(yīng),所述第三編碼與所述文字修復(fù)結(jié)果對應(yīng);通過協(xié)注意力模塊對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理,得到更正編碼;對所述更正編碼進行解碼,得到所述最終識別結(jié)果。
6、在一個示例性的實施例中,分別對所述文字識別內(nèi)容、所述文件圖片和所述文字修復(fù)結(jié)果進行編碼,得到第一編碼、第二編碼和第三編碼,包括:通過文本內(nèi)容編碼器對所述文字識別內(nèi)容和所述文字修復(fù)結(jié)果進行編碼,得到第四編碼和第五編碼,以及通過圖像編碼器對所述文件圖片進行編碼,得到第六編碼,其中,所述第四編碼與所述文字識別內(nèi)容對應(yīng),所述第五編碼與所述文字修復(fù)結(jié)果對應(yīng),所述第五編碼包括至少一個子編碼,所述至少一個子編碼與所述至少一種子修復(fù)結(jié)果一一對應(yīng);通過融合模塊對所述至少一個子編碼進行融合處理,得到第七編碼;通過線性模塊分別對所述第四編碼、所述第六編碼和所述第七編碼進行維度轉(zhuǎn)換,得到所述第一編碼、所述第二編碼和所述第三編碼,其中,所述第一編碼、所述第二編碼和所述第三編碼維度相同。
7、在一個示例性的實施例中,通過協(xié)注意力模塊對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理,得到更正編碼,包括:通過公式h=relu(wfm+wfg+(wfm)cm+(wfg)cg)對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理,得到所述更正編碼,其中,h為所述更正編碼,relu為激活函數(shù),w為所述協(xié)注意力模塊的模塊參數(shù),fm為所述第三編碼,fg為所述第一編碼,fp為所述第二編碼。
8、根據(jù)本申請實施例的另一方面,還提供了一種目標(biāo)文件的文字識別裝置,包括:文字識別模塊,用于對目標(biāo)文件進行文字識別,得到文字識別內(nèi)容;修復(fù)模塊,用于通過大語言模型對所述文字識別內(nèi)容進行修復(fù),得到文字修復(fù)結(jié)果,其中,所述文字修復(fù)結(jié)果包括至少一種子修復(fù)結(jié)果;更正模塊,用于通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理,得到所述目標(biāo)文件的最終識別結(jié)果。
9、根據(jù)本申請實施例的又一方面,還提供了一種計算機可讀的存儲介質(zhì),該計算機可讀的存儲介質(zhì)中存儲有計算機程序,其中,該計算機程序被設(shè)置為運行時執(zhí)行上述目標(biāo)文件的文字識別方法。
10、根據(jù)本申請實施例的又一方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,上述處理器通過計算機程序執(zhí)行上述目標(biāo)文件的文字識別方法。
11、根據(jù)本申請實施例的又一方面,還提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請各個實施例中所述方法的步驟。
12、通過本申請,先對目標(biāo)文件進行文字識別,得到初步的文字識別內(nèi)容;再通過大語言模型對文字識別內(nèi)容進行修復(fù),對文字識別內(nèi)容中存在的錯誤進行修復(fù);最后通過識別內(nèi)容更正模型對文字識別內(nèi)容、目標(biāo)文件對應(yīng)的文件圖片和文字修復(fù)結(jié)果進行處理,完成對文字修復(fù)結(jié)果的進一步更正,得到目標(biāo)文件的最終識別結(jié)果;采用上述方案,本申請?zhí)岢隽艘环N基于深度學(xué)習(xí)的語言和圖像結(jié)合的識別內(nèi)容更正模型,利用大語言模型優(yōu)秀的語言理解能力,以及圖像本身的信息,實現(xiàn)更好的文件掃描圖像識別內(nèi)容修復(fù),得到更加精準(zhǔn)的文字識別結(jié)果;從而解決了相關(guān)技術(shù)中,對紙質(zhì)文件掃描得到的文件圖像,往往面臨著圖像對比度低、文字傾斜、模糊等問題,導(dǎo)致識別出的文字內(nèi)容錯誤頻出的問題。
1.一種目標(biāo)文件的文字識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過大語言模型對所述文字識別內(nèi)容進行修復(fù),得到文字修復(fù)結(jié)果之前,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過所述大語言模型對所述文字識別內(nèi)容進行修復(fù),得到所述文字修復(fù)結(jié)果,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理,得到所述目標(biāo)文件的最終識別結(jié)果,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,分別對所述文字識別內(nèi)容、所述文件圖片和所述文字修復(fù)結(jié)果進行編碼,得到第一編碼、第二編碼和第三編碼,包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,通過協(xié)注意力模塊對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理,得到更正編碼,包括:
7.一種目標(biāo)文件的文字識別裝置,其特征在于,包括:
8.一種計算機可讀的存儲介質(zhì),其特征在于,所述計算機可讀的存儲介質(zhì)包括存儲的程序,其中,所述程序運行時執(zhí)行權(quán)利要求1至6中任一項所述的方法。
9.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設(shè)置為通過所述計算機程序執(zhí)行權(quán)利要求1至6中任一項所述的方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述方法的步驟。