本公開涉及人工智能,尤其涉及深度學習和大數(shù)據(jù)。具體涉及一種文檔識別方法、文檔識別模型的訓練方法及裝置。
背景技術:
1、隨著人工智能技術的不斷發(fā)展,深度學習技術也被應用于多種領域。例如,借助深度學習模型輔助線上文檔識別、文檔推薦。
2、然而,文檔庫中文檔數(shù)量龐大且質(zhì)量參差不齊,文檔識別精度不高。
技術實現(xiàn)思路
1、本公開提供了一種基于文檔識別方法、文檔識別模型的訓練方法及裝置。
2、根據(jù)本公開的一方面,提供了一種文檔識別方法,包括:對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;根據(jù)文檔頁面的第一融合特征,確定文檔的識別結果。
3、根據(jù)本公開的另一方面,提供了一種文檔識別模型的訓練方法,包括:獲取訓練樣本集,其中,訓練樣本集包括多個樣本文檔;利用訓練樣本集中的樣本文檔訓練文檔識別模型,使得文檔識別模型執(zhí)行下述操作:對樣本文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及根據(jù)文檔頁面的第一融合特征,確定樣本文檔的識別結果。
4、根據(jù)本公開的另一方面,提供了一種文檔識別裝置,包括:特征提取模塊,用于對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;融合模塊,用于根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及識別模塊,用于根據(jù)文檔頁面的第一融合特征,確定文檔的識別結果。
5、根據(jù)本公開的另一方面,提供了一種文檔識別模型的訓練裝置,包括:獲取模塊,用于獲取訓練樣本集,其中,訓練樣本集包括多個樣本文檔;訓練模塊,用于利用訓練樣本集中的樣本文檔訓練文檔識別模型,使得文檔識別模型執(zhí)行下述操作:對樣本文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征;根據(jù)多個模態(tài)特征各自的注意力特征,確定文檔頁面的第一融合特征;以及根據(jù)文檔頁面的第一融合特征,確定樣本文檔的識別結果。
6、根據(jù)本公開的另一方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行如上的方法。
7、根據(jù)本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,計算機指令用于使計算機執(zhí)行如上的方法。
8、根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)如上的方法。
9、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種文檔識別方法,包括:
2.根據(jù)權利要求1所述的方法,其中,所述根據(jù)多個所述模態(tài)特征各自的注意力特征,確定所述文檔頁面的第一融合特征,包括:
3.根據(jù)權利要求2所述的方法,其中,所述根據(jù)所述第二融合特征和多個所述模態(tài)特征各自的注意力特征,確定所述第一融合特征,包括:
4.根據(jù)權利要求1~3任一項所述的方法,其中,所述模態(tài)特征包括布局特征、語義特征和標題特征;
5.根據(jù)權利要求1~4任一項所述的方法,其中,所述多模態(tài)數(shù)據(jù)包括圖像數(shù)據(jù)和文本數(shù)據(jù);所述對文檔中文檔頁面的多模態(tài)數(shù)據(jù)進行各個模態(tài)的特征提取,得到多個模態(tài)特征,包括:
6.根據(jù)權利要求1所述的方法,其中,所述根據(jù)所述文檔頁面的所述第一融合特征,確定所述文檔的識別結果,包括:
7.根據(jù)權利要求6所述的方法,還包括:
8.一種文檔識別模型的訓練方法,包括:
9.根據(jù)權利要求8所述的方法,其中,所述樣本文檔包括正樣本文檔和采樣樣本文檔;所述獲取訓練樣本集包括:
10.根據(jù)權利要求8所述的方法,其中,所述利用所述訓練樣本集中的樣本文檔訓練文檔識別模型包括:
11.一種文檔識別裝置,包括:
12.根據(jù)權利要求10所述的裝置,其中,所述融合模塊包括:
13.根據(jù)權利要求12所述的裝置,其中,所述第二融合子模塊包括:
14.根據(jù)權利要求11~13任一項所述的裝置,其中,所述模態(tài)特征包括布局特征、語義特征和標題特征;所述融合模塊還包括:
15.根據(jù)權利要求11~14任一項所述的裝置,其中,所述多模態(tài)數(shù)據(jù)包括圖像數(shù)據(jù)和文本數(shù)據(jù);所述特征提取模塊包括:
16.根據(jù)權利要求11所述的裝置,其中,所述識別模塊包括:
17.根據(jù)權利要求16所述的裝置,所述文檔識別裝置還包括:
18.一種文檔識別模型的訓練裝置,包括:
19.根據(jù)權利要求18所述的裝置,其中,所述樣本文檔包括正樣本文檔和采樣樣本文檔;所述獲取模塊包括:
20.根據(jù)權利要求18所述的裝置,其中,所述訓練模塊包括:
21.一種電子設備,包括:
22.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權利要求1-10中任一項所述的方法。
23.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權利要求1-10中任一項所述的方法。