目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置與流程

文檔序號：40481934發(fā)布日期：2024-12-31 12:49閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請涉及計算機領(lǐng)域，具體而言，涉及一種目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置。

背景技術(shù)：

1、在以能源電力為代表的眾多行業(yè)領(lǐng)域中，項目后評價都是重要的環(huán)節(jié)。項目后評價所用到的數(shù)據(jù)，除了需要海量結(jié)構(gòu)化生產(chǎn)、運營財務(wù)數(shù)據(jù)之外，也有大量的可行性研究報告、核準(zhǔn)審批文件等文件類型的數(shù)據(jù)，這些數(shù)據(jù)多以word、pdf等非結(jié)構(gòu)化形式存儲，包括大量的紙質(zhì)文件。這些歷史文件中往往蘊含著大量有價值的信息，是對項目進行評價時的重要依據(jù)。因此，針對紙質(zhì)文件進行電子化處理，并快速地從海量的非結(jié)構(gòu)化文本中發(fā)現(xiàn)知識，以及將這些文本知識表示成計算機能夠“理解”的形式，對非結(jié)構(gòu)化文件進行結(jié)構(gòu)化治理，是實現(xiàn)自動化項目后評價的一種重要途徑。

2、然而，對紙質(zhì)文件掃描得到的文件圖像，往往面臨著圖像對比度低、文字傾斜、模糊、污跡遮蓋、印刷受墨多寡等等問題，這些問題都會使得識別出的文字內(nèi)容錯誤頻出。

3、針對相關(guān)技術(shù)中，對紙質(zhì)文件掃描得到的文件圖像，往往面臨著圖像對比度低、文字傾斜、模糊等問題，導(dǎo)致識別出的文字內(nèi)容錯誤頻出的問題，目前尚未提出有效的解決方案。

4、因此，有必要對相關(guān)技術(shù)予以改良以克服相關(guān)技術(shù)中的所述缺陷。

技術(shù)實現(xiàn)思路

1、本申請實施例提供了一種目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置，以至少解決相關(guān)技術(shù)中，對紙質(zhì)文件掃描得到的文件圖像，往往面臨著圖像對比度低、文字傾斜、模糊的問題。

2、根據(jù)本申請實施例的一方面，提供一種目標(biāo)文件的文字識別方法，包括：對目標(biāo)文件進行文字識別，得到文字識別內(nèi)容；通過大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到文字修復(fù)結(jié)果，其中，所述文字修復(fù)結(jié)果包括至少一種子修復(fù)結(jié)果；通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理，得到所述目標(biāo)文件的最終識別結(jié)果。

3、在一個示例性的實施例中，通過大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到文字修復(fù)結(jié)果之前，所述方法還包括：獲取所述大語言模型中的第一提示模板，其中，所述第一提示模板用于指示所述大語言模型對所述文字識別內(nèi)容進行分類；根據(jù)所述文字識別內(nèi)容對所述第一提示模板進行填充，得到填充后的第一提示模板；通過所述大語言模型對所述填充后的第一提示模板進行處理，得到所述文字識別內(nèi)容的分類結(jié)果，其中，所述分類結(jié)果用于指示所述文字識別內(nèi)容是否待修復(fù)；在所述分類結(jié)果指示所述文字識別內(nèi)容待修復(fù)的情況下，通過所述大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到所述文字修復(fù)結(jié)果。

4、在一個示例性的實施例中，通過所述大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到所述文字修復(fù)結(jié)果，包括：獲取所述大語言模型中的第二提示模板，其中，所述第二提示模板用于指示所述大語言模型對所述文字識別內(nèi)容進行修復(fù)；根據(jù)所述文字識別內(nèi)容對所述第二提示模板進行填充，得到填充后的第二提示模板；通過所述大語言模型對所述填充后的第二提示模板進行處理，得到所述文字修復(fù)結(jié)果。

5、在一個示例性的實施例中，通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理，得到所述目標(biāo)文件的最終識別結(jié)果，包括：分別對所述文字識別內(nèi)容、所述文件圖片和所述文字修復(fù)結(jié)果進行編碼，得到第一編碼、第二編碼和第三編碼，其中，所述第一編碼與所述文字識別內(nèi)容對應(yīng)，所述第二編碼與所述文件圖片對應(yīng)，所述第三編碼與所述文字修復(fù)結(jié)果對應(yīng)；通過協(xié)注意力模塊對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理，得到更正編碼；對所述更正編碼進行解碼，得到所述最終識別結(jié)果。

6、在一個示例性的實施例中，分別對所述文字識別內(nèi)容、所述文件圖片和所述文字修復(fù)結(jié)果進行編碼，得到第一編碼、第二編碼和第三編碼，包括：通過文本內(nèi)容編碼器對所述文字識別內(nèi)容和所述文字修復(fù)結(jié)果進行編碼，得到第四編碼和第五編碼，以及通過圖像編碼器對所述文件圖片進行編碼，得到第六編碼，其中，所述第四編碼與所述文字識別內(nèi)容對應(yīng)，所述第五編碼與所述文字修復(fù)結(jié)果對應(yīng)，所述第五編碼包括至少一個子編碼，所述至少一個子編碼與所述至少一種子修復(fù)結(jié)果一一對應(yīng)；通過融合模塊對所述至少一個子編碼進行融合處理，得到第七編碼；通過線性模塊分別對所述第四編碼、所述第六編碼和所述第七編碼進行維度轉(zhuǎn)換，得到所述第一編碼、所述第二編碼和所述第三編碼，其中，所述第一編碼、所述第二編碼和所述第三編碼維度相同。

7、在一個示例性的實施例中，通過協(xié)注意力模塊對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理，得到更正編碼，包括：通過公式h＝relu(wfm+wfg+(wfm)cm+(wfg)cg)對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理，得到所述更正編碼，其中，h為所述更正編碼，relu為激活函數(shù)，w為所述協(xié)注意力模塊的模塊參數(shù)，fm為所述第三編碼，fg為所述第一編碼，fp為所述第二編碼。

8、根據(jù)本申請實施例的另一方面，還提供了一種目標(biāo)文件的文字識別裝置，包括：文字識別模塊，用于對目標(biāo)文件進行文字識別，得到文字識別內(nèi)容；修復(fù)模塊，用于通過大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到文字修復(fù)結(jié)果，其中，所述文字修復(fù)結(jié)果包括至少一種子修復(fù)結(jié)果；更正模塊，用于通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理，得到所述目標(biāo)文件的最終識別結(jié)果。

9、根據(jù)本申請實施例的又一方面，還提供了一種計算機可讀的存儲介質(zhì)，該計算機可讀的存儲介質(zhì)中存儲有計算機程序，其中，該計算機程序被設(shè)置為運行時執(zhí)行上述目標(biāo)文件的文字識別方法。

10、根據(jù)本申請實施例的又一方面，還提供了一種電子裝置，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其中，上述處理器通過計算機程序執(zhí)行上述目標(biāo)文件的文字識別方法。

11、根據(jù)本申請實施例的又一方面，還提供了一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請各個實施例中所述方法的步驟。

12、通過本申請，先對目標(biāo)文件進行文字識別，得到初步的文字識別內(nèi)容；再通過大語言模型對文字識別內(nèi)容進行修復(fù)，對文字識別內(nèi)容中存在的錯誤進行修復(fù)；最后通過識別內(nèi)容更正模型對文字識別內(nèi)容、目標(biāo)文件對應(yīng)的文件圖片和文字修復(fù)結(jié)果進行處理，完成對文字修復(fù)結(jié)果的進一步更正，得到目標(biāo)文件的最終識別結(jié)果；采用上述方案，本申請?zhí)岢隽艘环N基于深度學(xué)習(xí)的語言和圖像結(jié)合的識別內(nèi)容更正模型，利用大語言模型優(yōu)秀的語言理解能力，以及圖像本身的信息，實現(xiàn)更好的文件掃描圖像識別內(nèi)容修復(fù)，得到更加精準(zhǔn)的文字識別結(jié)果；從而解決了相關(guān)技術(shù)中，對紙質(zhì)文件掃描得到的文件圖像，往往面臨著圖像對比度低、文字傾斜、模糊等問題，導(dǎo)致識別出的文字內(nèi)容錯誤頻出的問題。

技術(shù)特征：

1.一種目標(biāo)文件的文字識別方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到文字修復(fù)結(jié)果之前，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，通過所述大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到所述文字修復(fù)結(jié)果，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理，得到所述目標(biāo)文件的最終識別結(jié)果，包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，分別對所述文字識別內(nèi)容、所述文件圖片和所述文字修復(fù)結(jié)果進行編碼，得到第一編碼、第二編碼和第三編碼，包括：

6.根據(jù)權(quán)利要求4所述的方法，其特征在于，通過協(xié)注意力模塊對所述第一編碼、所述第二編碼和所述第三編碼進行更正處理，得到更正編碼，包括：

7.一種目標(biāo)文件的文字識別裝置，其特征在于，包括：

8.一種計算機可讀的存儲介質(zhì)，其特征在于，所述計算機可讀的存儲介質(zhì)包括存儲的程序，其中，所述程序運行時執(zhí)行權(quán)利要求1至6中任一項所述的方法。

9.一種電子裝置，包括存儲器和處理器，其特征在于，所述存儲器中存儲有計算機程序，所述處理器被設(shè)置為通過所述計算機程序執(zhí)行權(quán)利要求1至6中任一項所述的方法。

10.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述方法的步驟。

技術(shù)總結(jié)
本申請公開了一種目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置，涉及計算機領(lǐng)域，該目標(biāo)文件的文字識別方法包括：對目標(biāo)文件進行文字識別，得到文字識別內(nèi)容；通過大語言模型對所述文字識別內(nèi)容進行修復(fù)，得到文字修復(fù)結(jié)果，其中，所述文字修復(fù)結(jié)果包括至少一種子修復(fù)結(jié)果；通過識別內(nèi)容更正模型對所述文字識別內(nèi)容、所述目標(biāo)文件對應(yīng)的文件圖片和所述文字修復(fù)結(jié)果進行處理，得到所述目標(biāo)文件的最終識別結(jié)果；采用上述方案，解決了相關(guān)技術(shù)中，對紙質(zhì)文件掃描得到的文件圖像，往往面臨著圖像對比度低、文字傾斜、模糊的問題。

技術(shù)研發(fā)人員：張慧君,韓艷水,石永利,張家輝,董恩雷,訾迪,譚燁,溫晗秋子,劉雅欣,張憧宇,葛戈
受保護的技術(shù)使用者：華能滿洲里風(fēng)力發(fā)電有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張慧君,韓艷水,石永利,張家輝,董恩雷,訾迪,譚燁,溫晗秋子,劉雅欣,張憧宇,葛戈
技術(shù)所有人：華能滿洲里風(fēng)力發(fā)電有限公司
我是此專利的發(fā)明人

上一篇：一種光刻機光強檢測系統(tǒng)的制作方法
上一篇：開盒裝置的升降機構(gòu)及自助披薩機的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置與流程

目標(biāo)文件的文字識別方法及裝置、存儲介質(zhì)及電子裝置與流程