本發(fā)明涉及機器學習,尤其涉及一種閱讀順序預測方法、裝置、電子設備及計算機可讀存儲介質(zhì)。
背景技術(shù):
1、文檔圖像識別的目的是獲取圖像中的文字信息,通過識別圖像中的文字,有助于對圖像中的數(shù)據(jù)進行管理和使用。對于簡單的文檔而言,只需要使用光學字符識別(optical?character?recognition,ocr)檢測和識別來獲取每一行的文本坐標和對應的文本內(nèi)容,并按照從上到下,從左到右的順序?qū)⑺袃?nèi)容連接起來,即可得到文檔圖像識別的結(jié)果。若文檔的排版比較復雜,則需要確定文檔的閱讀順序。
2、然而,在部分場景下,待預測的文檔圖像可能會出現(xiàn)文本畸變,傾斜,扭曲等情況,從而導致ocr無法準確檢測出文本行,只能進行單個字符的準確檢測和識別,此時,若通過相關(guān)技術(shù)中以文本塊為基本單元預測閱讀順序的方法預測文檔圖像的閱讀順序,即使獲得了文本塊,因同一文本行的中的單詞可能出現(xiàn)錯位,在確定文本塊閱讀順序后,也無法確定文本塊內(nèi)的各個單詞之間的閱讀順序,故只能使用以單詞為基本單元的閱讀順序預測方案,但對于排版復雜的文檔而言,以單詞為基本單元的閱讀順序預測方案得到的預測準確度較低。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明實施例提供了一種閱讀順序預測方法、裝置、電子設備及計算機可讀存儲介質(zhì),以解決待預測的文檔圖像出現(xiàn)文本畸變,傾斜,扭曲時,以文本塊為基本單元預測閱讀順序的方法無法確定文本塊內(nèi)的各個單詞之間的閱讀順序,而以單詞為基本單元的閱讀順序預測方案得到的預測準確度較低的問題。
2、根據(jù)本公開的第一方面,提供了一種閱讀順序預測方法,包括:獲取待預測文檔圖像;獲取所述待預測文檔圖像中各單詞的單詞信息;獲取所述待預測文檔圖像中各文本塊的文本塊信息;基于所述單詞信息及所述文本塊信息預測每個所述文本塊內(nèi)的單詞閱讀順序,以及所述文本塊之間的文本塊閱讀順序;基于所述文本塊之間的文本塊閱讀順序,以及每個所述文本塊內(nèi)的單詞閱讀順序預測所述待預測文檔圖像的閱讀順序。
3、根據(jù)本公開的第二方面,提供了一種閱讀順序預測裝置,包括:圖像獲取模塊,用于獲取待預測文檔圖像;信息提取模塊,用于獲取所述待預測文檔圖像中各單詞的單詞信息;所述信息提取模塊,還用于獲取所述待預測文檔圖像中各文本塊的文本塊信息;順序預測模塊,用于基于所述單詞信息及所述文本塊信息預測每個所述文本塊內(nèi)的單詞閱讀順序,以及所述文本塊之間的文本塊閱讀順序;所述順序預測模塊,還用于基于所述文本塊之間的文本塊閱讀順序,以及每個所述文本塊內(nèi)的單詞閱讀順序預測所述待預測文檔圖像的閱讀順序。
4、根據(jù)本公開的第三方面,提供了一種電子設備,包括:處理器;以及存儲程序的存儲器,其中,所述程序包括指令,所述指令在由所述處理器執(zhí)行時使所述處理器執(zhí)行上述閱讀順序預測方法。
5、根據(jù)本公開的第四方面,提供一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行上述閱讀順序預測方法。
6、本公開示例性實施例可以具有以下部分或全部有益效果:
7、在本公開示例實施方式所提供的閱讀順序預測方法中,獲取待預測文檔圖像;獲取待預測文檔圖像中各單詞的單詞信息;獲取待預測文檔圖像中各文本塊的文本塊信息;基于單詞信息及文本塊信息預測每個文本塊內(nèi)的單詞閱讀順序,以及文本塊之間的文本塊閱讀順序;基于文本塊之間的文本塊閱讀順序,以及每個文本塊內(nèi)的單詞閱讀順序預測待預測文檔圖像的閱讀順序。本公開實施例獲取待檢測文檔圖像中的單詞信息及文本塊信息,并基于單詞信息及文本塊信息確定文本塊之間的閱讀順序,以每個文本塊內(nèi)單詞的閱讀順序,從而可以預測整個待預測文檔圖像的閱讀順序。通過將以文本塊為基本單元的閱讀順序預測和以單詞為基本單元的閱讀順序預測結(jié)合在一起,可以在ocr無法準確檢測出文本行,只能對單個字符進行檢測和識別的情況下,實現(xiàn)對排版復雜的文檔的閱讀順序預測,提高了文檔閱讀順序預測的準確度。
8、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種閱讀順序預測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的閱讀順序預測方法,其特征在于,所述單詞信息包括單詞位置信息和單詞文本,所述獲取所述待預測文檔圖像中各單詞的單詞信息,包括:
3.根據(jù)權(quán)利要求2所述的閱讀順序預測方法,其特征在于,所述文本塊信息包括文本塊位置信息及文本塊類別信息;所述獲取所述待預測文檔圖像中各文本塊的文本塊信息,包括:
4.根據(jù)權(quán)利要求3所述的閱讀順序預測方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求3所述的閱讀順序預測方法,其特征在于,所述基于所述單詞信息及所述文本塊信息預測每個所述文本塊內(nèi)的單詞閱讀順序,以及所述文本塊之間的文本塊閱讀順序,包括:
6.根據(jù)權(quán)利要求5所述的閱讀順序預測方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求5所述的閱讀順序預測方法,其特征在于,所述方法還包括:
8.一種閱讀順序預測裝置,其特征在于,包括:
9.一種電子設備,包括:
10.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-7中任一項所述的方法。