欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔識別方法、文檔識別模型的訓練方法及裝置與流程

文檔序號:40555631發(fā)布日期:2025-01-03 11:15閱讀:11來源:國知局
文檔識別方法、文檔識別模型的訓練方法及裝置與流程

本公開涉及人工智能,尤其涉及深度學習和大數(shù)據(jù)。具體涉及一種文檔識別方法、文檔識別模型的訓練方法及裝置。


背景技術:

1、隨著人工智能技術的不斷發(fā)展,深度學習技術也被應用于多種領域。例如,借助深度學習模型輔助線上文檔識別、文檔推薦。

2、然而,文檔庫中文檔數(shù)量龐大且質(zhì)量參差不齊,文檔識別精度不高。


技術實現(xiàn)思路

1、本公開提供了一種基于文檔識別方法、文檔識別模型的訓練方法及裝置。

2、根據(jù)本公開的一方面,提供了一種文檔識別方法,包括:對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;根據(jù)文檔頁面的第一融合特征,確定文檔的識別結果。

3、根據(jù)本公開的另一方面,提供了一種文檔識別模型的訓練方法,包括:獲取訓練樣本集,其中,訓練樣本集包括多個樣本文檔;利用訓練樣本集中的樣本文檔訓練文檔識別模型,使得文檔識別模型執(zhí)行下述操作:對樣本文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及根據(jù)文檔頁面的第一融合特征,確定樣本文檔的識別結果。

4、根據(jù)本公開的另一方面,提供了一種文檔識別裝置,包括:特征提取模塊,用于對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;融合模塊,用于根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及識別模塊,用于根據(jù)文檔頁面的第一融合特征,確定文檔的識別結果。

5、根據(jù)本公開的另一方面,提供了一種文檔識別模型的訓練裝置,包括:獲取模塊,用于獲取訓練樣本集,其中,訓練樣本集包括多個樣本文檔;訓練模塊,用于利用訓練樣本集中的樣本文檔訓練文檔識別模型,使得文檔識別模型執(zhí)行下述操作:對樣本文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及根據(jù)文檔頁面的第一融合特征,確定樣本文檔的識別結果。

6、根據(jù)本公開的另一方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行如上的方法。

7、根據(jù)本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,計算機指令用于使計算機執(zhí)行如上的方法。

8、根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)如上的方法。

9、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術特征:

1.一種文檔識別方法,包括:

2.根據(jù)權利要求1所述的方法,其中,所述根據(jù)多個所述模態(tài)特征各自的注意力特征,確定所述文檔頁面的第一融合特征,包括:

3.根據(jù)權利要求2所述的方法,其中,所述根據(jù)所述第二融合特征和多個所述模態(tài)特征各自的注意力特征,確定所述第一融合特征,包括:

4.根據(jù)權利要求1~3任一項所述的方法,其中,所述模態(tài)特征包括布局特征、語義特征和標題特征;

5.根據(jù)權利要求1~4任一項所述的方法,其中,所述多模態(tài)數(shù)據(jù)包括圖像數(shù)據(jù)和文本數(shù)據(jù);所述對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征,包括:

6.根據(jù)權利要求1所述的方法,其中,所述根據(jù)所述文檔頁面的所述第一融合特征,確定所述文檔的識別結果,包括:

7.根據(jù)權利要求6所述的方法,還包括:

8.一種文檔識別模型的訓練方法,包括:

9.根據(jù)權利要求8所述的方法,其中,所述樣本文檔包括正樣本文檔和采樣樣本文檔;所述獲取訓練樣本集包括:

10.根據(jù)權利要求8所述的方法,其中,所述利用所述訓練樣本集中的樣本文檔訓練文檔識別模型包括:

11.一種文檔識別裝置,包括:

12.根據(jù)權利要求10所述的裝置,其中,所述融合模塊包括:

13.根據(jù)權利要求12所述的裝置,其中,所述第二融合子模塊包括:

14.根據(jù)權利要求11~13任一項所述的裝置,其中,所述模態(tài)特征包括布局特征、語義特征和標題特征;所述融合模塊還包括:

15.根據(jù)權利要求11~14任一項所述的裝置,其中,所述多模態(tài)數(shù)據(jù)包括圖像數(shù)據(jù)和文本數(shù)據(jù);所述特征提取模塊包括:

16.根據(jù)權利要求11所述的裝置,其中,所述識別模塊包括:

17.根據(jù)權利要求16所述的裝置,所述文檔識別裝置還包括:

18.一種文檔識別模型的訓練裝置,包括:

19.根據(jù)權利要求18所述的裝置,其中,所述樣本文檔包括正樣本文檔和采樣樣本文檔;所述獲取模塊包括:

20.根據(jù)權利要求18所述的裝置,其中,所述訓練模塊包括:

21.一種電子設備,包括:

22.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權利要求1-10中任一項所述的方法。

23.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權利要求1-10中任一項所述的方法。


技術總結
本公開提供了一種文檔識別方法、文檔識別模型的訓練方法及裝置,涉及人工智能技術領域,尤其涉及深度學習和大數(shù)據(jù)技術領域。文檔識別方法包括:對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及根據(jù)文檔頁面的第一融合特征,確定文檔的識別結果。本公開還提供了一種電子設備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。

技術研發(fā)人員:譚博文,薛璐影,白云龍
受保護的技術使用者:百度在線網(wǎng)絡技術(北京)有限公司
技術研發(fā)日:
技術公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大宁县| 宜黄县| 恩平市| 元氏县| 会昌县| 岳阳县| 上犹县| 西乌珠穆沁旗| 屯昌县| 聊城市| 沁水县| 修水县| 洛阳市| 宜黄县| 太保市| 府谷县| 黑水县| 泗洪县| 道孚县| 松原市| 兖州市| 垦利县| 五大连池市| 平远县| 城固县| 奉化市| 靖宇县| 东安县| 拉萨市| 乌兰县| 会宁县| 博湖县| 云林县| 莲花县| 台湾省| 荃湾区| 乐陵市| 邯郸市| 大化| 龙海市| 喜德县|