本公開涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、文檔圖像是指包含有文本、圖片等內(nèi)容的圖像,例如pdf格式的圖像等。目前,對文檔圖像處理包括,利用版面分析、文字識別等方式提取出文檔圖像中的文字、表格、插圖等文檔內(nèi)容,再按照文檔圖像的閱讀順序?qū)⑻崛〉降奈臋n內(nèi)容展示出來。
2、然而,上述對文檔圖像的處理方式已經(jīng)不能滿足多樣化應(yīng)用場景對文檔內(nèi)容的使用需求,因此,如何對文檔圖像進行處理是目前亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本公開提供了一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)。
2、第一方面,本公開實施例提供了一種文檔圖像處理方法,所述方法包括:
3、獲取目標文檔圖像,并提取所述目標文檔圖像上的處理對象的位置信息和內(nèi)容信息;
4、基于所述處理對象的位置信息獲取所述處理對象的布局特征向量,以及基于所述處理對象的內(nèi)容信息獲取所述處理對象的語義特征向量;
5、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹;其中,所述文檔樹以樹結(jié)構(gòu)表示所述目標文檔圖像上的各處理對象之間的順序關(guān)系。
6、一種可選的實施方式中,所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹,包括:
7、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,確定所述目標文檔圖像上的各處理對象之間的順序關(guān)系;
8、將所述各處理對象分別作為樹結(jié)構(gòu)的節(jié)點,并基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹。
9、一種可選的實施方式中,所述基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹之前,還包括:
10、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,確定所述目標文檔圖像上的各處理對象分別對應(yīng)的類別信息;其中,所述類別信息用于表征對應(yīng)的處理對象在所述目標文檔圖像的文檔內(nèi)容中所屬的類別;
11、相應(yīng)的,所述基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹,包括:
12、基于所述各處理對象之間的順序關(guān)系以及所述各處理對象分別對應(yīng)的類別信息,構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹;其中,具有不同類別信息的處理對象分別對應(yīng)的節(jié)點處于所述文檔樹的不同層級。
13、一種可選的實施方式中,所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹之后,還包括:
14、通過樹的先序遍歷對所述文檔樹進行序列化處理,得到所述文檔樹的結(jié)果序列;其中,所述結(jié)果序列用于基于線性結(jié)構(gòu)描述所述目標文檔圖像上的各處理對象之間的順序關(guān)系。
15、一種可選的實施方式中,所述結(jié)果序列中包括層級分隔符、并列關(guān)系分隔符和從屬關(guān)系分隔符中的至少一個,所述層級分隔符用于標識對應(yīng)的不同節(jié)點處于樹結(jié)構(gòu)中的不同層級,所述并列關(guān)系分隔符用于標識對應(yīng)的節(jié)點處于樹結(jié)構(gòu)中的同一層級,所述從屬關(guān)系分隔符用于標識對應(yīng)的節(jié)點處于樹結(jié)構(gòu)中具有從屬關(guān)系的層級。
16、一種可選的實施方式中,所述結(jié)果序列中包括類別索引分隔符,所述類別索引分隔符用于標識同一節(jié)點的類別信息和索引信息。
17、一種可選的實施方式中,所述對所述文檔樹進行序列化處理,得到所述文檔樹的結(jié)果序列之后,還包括:
18、通過樹的先序遍歷對所述文檔樹的結(jié)果序列進行反序列重建,生成所述目標文檔圖像對應(yīng)的樹結(jié)構(gòu)文檔。
19、一種可選的實施方式中,所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹之前,還包括:
20、對所述目標文檔圖像進行圖像分割處理,得到多個圖像塊;
21、分別提取所述多個圖像塊的視覺特征向量;
22、相應(yīng)的,所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹,包括:
23、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,以及所述多個圖像塊分別對應(yīng)的視覺特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹。
24、一種可選的實施方式中,所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,以及所述多個圖像塊分別對應(yīng)的視覺特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹,包括:
25、將所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量以及所述多個圖像塊分別對應(yīng)的視覺特征向量,輸入至目標閱讀順序模型的解碼器中,通過自回歸解碼方式得到所述目標文檔圖像上的各處理對象之間的順序關(guān)系;
26、基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹。
27、一種可選的實施方式中,所述目標文檔圖像上的處理對象包括所述目標文檔圖像上的文本行對象和/或非文本行對象,所述提取所述目標文檔圖像上的處理對象的位置信息和內(nèi)容信息,包括:
28、利用光學字符識別方法對所述目標文檔圖像進行識別,得到所述目標文檔圖像上的各文本行對象的位置信息和內(nèi)容信息;
29、和/或,
30、利用版面分析模型對所述目標文檔圖像進行檢測,得到所述目標文檔圖像上的各非文本對象的位置信息和內(nèi)容信息。
31、第二方面,本公開提供了一種文檔圖像處理裝置,所述裝置包括:
32、第一提取模塊,用于獲取目標文檔圖像,并提取所述目標文檔圖像上的處理對象的位置信息和內(nèi)容信息;
33、獲取模塊,用于基于所述處理對象的位置信息獲取所述處理對象的布局特征向量,以及基于所述處理對象的內(nèi)容信息獲取所述處理對象的語義特征向量;
34、生成模塊,用于基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成所述目標文檔圖像對應(yīng)的文檔樹;其中,所述文檔樹以樹結(jié)構(gòu)表示所述目標文檔圖像上的各處理對象之間的順序關(guān)系。
35、第三方面,本公開實施例還提供了一種電子設(shè)備,所述電子設(shè)備包括:處理器;用于存儲所述處理器可執(zhí)行指令的存儲器;所述處理器,用于從所述存儲器中讀取所述可執(zhí)行指令,并執(zhí)行所述指令以實現(xiàn)如本公開實施例提供的文檔圖像處理方法。
36、第四方面,本公開實施例還提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序用于執(zhí)行如本公開實施例提供的文檔圖像處理方法。
37、第五方面,本公開提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述的方法。
38、本公開實施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點:
39、本公開實施例提供的文檔圖像處理方法中,首先,獲取目標文檔圖像,并提取目標文檔圖像上的處理對象的位置信息和內(nèi)容信息,然后,基于處理對象的位置信息獲取處理對象的布局特征向量,以及基于處理對象的內(nèi)容信息獲取處理對象的語義特征向量,再基于目標文檔圖像上的各處理對象的布局特征向量和語義特征向量,生成目標文檔圖像對應(yīng)的文檔樹,其中,文檔樹以樹結(jié)構(gòu)表示目標文檔圖像上的各處理對象之間的順序關(guān)系。
40、可見,本公開實施例通過目標文檔圖像中的各處理對象的布局特征向量和語義特征向量,生成目標文檔圖像對應(yīng)的文檔樹,能夠通過樹結(jié)構(gòu)展示目標文檔圖像中各處理對象之間的順序關(guān)系,便于將目標文檔圖像中的文檔內(nèi)容應(yīng)用到各種場景中。