一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)與流程

文檔序號：40625586發(fā)布日期：2025-01-10 18:31閱讀：3來源：國知局

本公開涉及數(shù)據(jù)處理領(lǐng)域，尤其涉及一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、文檔圖像是指包含有文本、圖片等內(nèi)容的圖像，例如pdf格式的圖像等。目前，對文檔圖像處理包括，利用版面分析、文字識別等方式提取出文檔圖像中的文字、表格、插圖等文檔內(nèi)容，再按照文檔圖像的閱讀順序?qū)⑻崛〉降奈臋n內(nèi)容展示出來。

2、然而，上述對文檔圖像的處理方式已經(jīng)不能滿足多樣化應(yīng)用場景對文檔內(nèi)容的使用需求，因此，如何對文檔圖像進行處理是目前亟需解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題，本公開提供了一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)。

2、第一方面，本公開實施例提供了一種文檔圖像處理方法，所述方法包括：

3、獲取目標文檔圖像，并提取所述目標文檔圖像上的處理對象的位置信息和內(nèi)容信息；

4、基于所述處理對象的位置信息獲取所述處理對象的布局特征向量，以及基于所述處理對象的內(nèi)容信息獲取所述處理對象的語義特征向量；

5、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹；其中，所述文檔樹以樹結(jié)構(gòu)表示所述目標文檔圖像上的各處理對象之間的順序關(guān)系。

6、一種可選的實施方式中，所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹，包括：

7、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，確定所述目標文檔圖像上的各處理對象之間的順序關(guān)系；

8、將所述各處理對象分別作為樹結(jié)構(gòu)的節(jié)點，并基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹。

9、一種可選的實施方式中，所述基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹之前，還包括：

10、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，確定所述目標文檔圖像上的各處理對象分別對應(yīng)的類別信息；其中，所述類別信息用于表征對應(yīng)的處理對象在所述目標文檔圖像的文檔內(nèi)容中所屬的類別；

11、相應(yīng)的，所述基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹，包括：

12、基于所述各處理對象之間的順序關(guān)系以及所述各處理對象分別對應(yīng)的類別信息，構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹；其中，具有不同類別信息的處理對象分別對應(yīng)的節(jié)點處于所述文檔樹的不同層級。

13、一種可選的實施方式中，所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹之后，還包括：

14、通過樹的先序遍歷對所述文檔樹進行序列化處理，得到所述文檔樹的結(jié)果序列；其中，所述結(jié)果序列用于基于線性結(jié)構(gòu)描述所述目標文檔圖像上的各處理對象之間的順序關(guān)系。

15、一種可選的實施方式中，所述結(jié)果序列中包括層級分隔符、并列關(guān)系分隔符和從屬關(guān)系分隔符中的至少一個，所述層級分隔符用于標識對應(yīng)的不同節(jié)點處于樹結(jié)構(gòu)中的不同層級，所述并列關(guān)系分隔符用于標識對應(yīng)的節(jié)點處于樹結(jié)構(gòu)中的同一層級，所述從屬關(guān)系分隔符用于標識對應(yīng)的節(jié)點處于樹結(jié)構(gòu)中具有從屬關(guān)系的層級。

16、一種可選的實施方式中，所述結(jié)果序列中包括類別索引分隔符，所述類別索引分隔符用于標識同一節(jié)點的類別信息和索引信息。

17、一種可選的實施方式中，所述對所述文檔樹進行序列化處理，得到所述文檔樹的結(jié)果序列之后，還包括：

18、通過樹的先序遍歷對所述文檔樹的結(jié)果序列進行反序列重建，生成所述目標文檔圖像對應(yīng)的樹結(jié)構(gòu)文檔。

19、一種可選的實施方式中，所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹之前，還包括：

20、對所述目標文檔圖像進行圖像分割處理，得到多個圖像塊；

21、分別提取所述多個圖像塊的視覺特征向量；

22、相應(yīng)的，所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹，包括：

23、基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，以及所述多個圖像塊分別對應(yīng)的視覺特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹。

24、一種可選的實施方式中，所述基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，以及所述多個圖像塊分別對應(yīng)的視覺特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹，包括：

25、將所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量以及所述多個圖像塊分別對應(yīng)的視覺特征向量，輸入至目標閱讀順序模型的解碼器中，通過自回歸解碼方式得到所述目標文檔圖像上的各處理對象之間的順序關(guān)系；

26、基于所述各處理對象之間的順序關(guān)系構(gòu)建所述目標文檔圖像對應(yīng)的文檔樹。

27、一種可選的實施方式中，所述目標文檔圖像上的處理對象包括所述目標文檔圖像上的文本行對象和/或非文本行對象，所述提取所述目標文檔圖像上的處理對象的位置信息和內(nèi)容信息，包括：

28、利用光學字符識別方法對所述目標文檔圖像進行識別，得到所述目標文檔圖像上的各文本行對象的位置信息和內(nèi)容信息；

29、和/或，

30、利用版面分析模型對所述目標文檔圖像進行檢測，得到所述目標文檔圖像上的各非文本對象的位置信息和內(nèi)容信息。

31、第二方面，本公開提供了一種文檔圖像處理裝置，所述裝置包括：

32、第一提取模塊，用于獲取目標文檔圖像，并提取所述目標文檔圖像上的處理對象的位置信息和內(nèi)容信息；

33、獲取模塊，用于基于所述處理對象的位置信息獲取所述處理對象的布局特征向量，以及基于所述處理對象的內(nèi)容信息獲取所述處理對象的語義特征向量；

34、生成模塊，用于基于所述目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成所述目標文檔圖像對應(yīng)的文檔樹；其中，所述文檔樹以樹結(jié)構(gòu)表示所述目標文檔圖像上的各處理對象之間的順序關(guān)系。

35、第三方面，本公開實施例還提供了一種電子設(shè)備，所述電子設(shè)備包括：處理器；用于存儲所述處理器可執(zhí)行指令的存儲器；所述處理器，用于從所述存儲器中讀取所述可執(zhí)行指令，并執(zhí)行所述指令以實現(xiàn)如本公開實施例提供的文檔圖像處理方法。

36、第四方面，本公開實施例還提供了一種計算機可讀存儲介質(zhì)，所述存儲介質(zhì)存儲有計算機程序，所述計算機程序用于執(zhí)行如本公開實施例提供的文檔圖像處理方法。

37、第五方面，本公開提供了一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括計算機程序/指令，所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述的方法。

38、本公開實施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點：

39、本公開實施例提供的文檔圖像處理方法中，首先，獲取目標文檔圖像，并提取目標文檔圖像上的處理對象的位置信息和內(nèi)容信息，然后，基于處理對象的位置信息獲取處理對象的布局特征向量，以及基于處理對象的內(nèi)容信息獲取處理對象的語義特征向量，再基于目標文檔圖像上的各處理對象的布局特征向量和語義特征向量，生成目標文檔圖像對應(yīng)的文檔樹，其中，文檔樹以樹結(jié)構(gòu)表示目標文檔圖像上的各處理對象之間的順序關(guān)系。

40、可見，本公開實施例通過目標文檔圖像中的各處理對象的布局特征向量和語義特征向量，生成目標文檔圖像對應(yīng)的文檔樹，能夠通過樹結(jié)構(gòu)展示目標文檔圖像中各處理對象之間的順序關(guān)系，便于將目標文檔圖像中的文檔內(nèi)容應(yīng)用到各種場景中。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林春暉,黃燦
技術(shù)所有人：抖音視界有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)與流程

一種文檔圖像處理方法、裝置、設(shè)備及存儲介質(zhì)與流程