本發(fā)明屬于表單內(nèi)容提取,尤其涉及一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法及系統(tǒng)。
背景技術:
1、本部分的陳述僅僅是提供了與本發(fā)明相關的背景技術信息,不必然構成在先技術。
2、在自然語言處理中,詞是最基本的處理單位。為了讓模型能夠理解和認識文本信息,首要任務就是讓模型能夠識別文本中的每個詞,并理解這些詞之間的關系。而詞向量(word?embedd?ing)技術則是實現(xiàn)這一目標的關鍵。
3、傳統(tǒng)的基于規(guī)則或統(tǒng)計的自然語言處理方法中,獨熱編碼(one-hot?encod?i?ng)是一種將單詞或符號轉換為機器學習算法可處理數(shù)值格式的技術。它將每個單詞表示為一個高維向量,其中僅有一個位置為“1”,其余位置為“0”,“1”的位置對應于詞匯表中的單詞索引。然而,當詞匯表龐大時,one-hot?encod?ing生成的向量維度高且稀疏,導致機器學習算法處理效率低下。此外,該方法無法保留詞匯間的語義關系,使得模型在向量層面喪失對原文本語義的理解,在處理大規(guī)模詞匯和保持語義關系方面存在明顯不足。針對one-hotencod?ing存在的問題,word2vec提出了向量技術,包含兩個經(jīng)典模型,cbow(cont?inuousbag-of-words)通過給定上下文詞向量預測該詞本身,而skip-gram則通過中心詞來預測其上下文。此外,g?love和fasttext等詞向量技術也在自然語言處理領域展現(xiàn)出了卓越的性能。g?love通過構建全局詞匯共現(xiàn)矩陣,并利用矩陣分解技術獲取詞向量,從而捕捉到了全局的語義信息。而fasttext基于子詞信息來構建詞向量,能夠處理詞匯表中的oov詞(out-of-vocabu?l?ary),并且對于形態(tài)豐富的語言處理效果尤佳。這些方法不僅使得機器能夠更準確地捕捉詞匯間的語義關聯(lián),還推動了自然語言處理任務的進一步發(fā)展。但是,上述傳統(tǒng)方法難以適應當前表格數(shù)字化、智能化和多樣化的實際需求,且處理效率低。
4、近年來,基于深度學習的表格化方法稱為主流。深度學習表格識別主流方法包括語義分割,目標檢測,序列預測和圖神經(jīng)等。部分技術人員通過將表格結構的識別定義為語義分割問題,使用fcn網(wǎng)絡框架,對表格的行和列分別進行預測;部分技術人員利用cyc?le_pai?r?ing模塊和pai?r?ing損失去學習相鄰單元格的公共頂點信息,然后通過連結單元格獲取一個完整的表格結構,最后使用相同的解析過程去獲取行列信息;部分技術人員通過將表格結構識別問題描述為一個與圖神經(jīng)網(wǎng)絡兼容的圖問題,將每一個文本區(qū)域作為一個頂點,使用矩陣描述的三個圖(單元格、行共享矩陣、列共享矩陣)定義為真值,若頂點共享一行,則對應的文本區(qū)域屬于同一行,這些頂點視作彼此相鄰。但是,這些基于深度學習的方法只能針對規(guī)范表格進行處理,無法提取異常表格的結構信息。
5、同時,在傳統(tǒng)panet中,盡管通過使用自下而上的路徑增強機制增強了對多尺度特征的利用,但是通過高層語義特征映射到低層語義特征來進行特征融合時,可能無法充分檢測到一些空間細節(jié)信息,會導致特征傳遞效率降低,不能捕捉到更為細節(jié)的特征圖。
技術實現(xiàn)思路
1、本發(fā)明實施例提供了一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法及系統(tǒng),以解決現(xiàn)有技術中表單內(nèi)容結構化提取不準確且效率低下的問題。
2、根據(jù)本發(fā)明實施例的第一個方面,提供了一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法,包括:
3、獲取待內(nèi)容提取的表單圖像;
4、基于所述表單圖像,通過預先構建的關聯(lián)實體檢測模型,獲得表單中實體所對應的類別及位置信息;
5、其中,所述關聯(lián)實體檢測模型具體執(zhí)行如下處理過程:對于輸入的表單圖像,順序經(jīng)基本卷積塊、第一特征提取層、第二特征圖提取層、層內(nèi)特征調(diào)節(jié)模塊、第三特征提取層、第四特征提取層以及快速空間金字塔池化,獲得不同層級的特征圖;所述層內(nèi)特征調(diào)節(jié)模塊用于將第二特征提取層輸出的特征經(jīng)卷積處理后,分別進行全局和局部特征的提取,然后通過將局部和全局特征進行拼接作為第三特征提取層的輸入特征;通過對獲得的不同層級的特征圖進行融合,獲得融合特征;基于所述融合特征,通過預設檢測頭,獲得實體所對應的類別及位置信息;
6、基于獲得的實體對應的類別及位置信息,通過坐標聚合,獲得實體間的關聯(lián)性;基于所述關聯(lián)性,確定屬于同一行的實體,實現(xiàn)表單內(nèi)容的結構化提取。
7、進一步的,在所述層內(nèi)特征調(diào)節(jié)模塊中,全局和局部特征的提取分別采用深度卷積多連接感知模塊和可學習的殘差編碼模塊,所述深度卷積多連接感知模塊,具體執(zhí)行如下處理過程:輸入特征信息順序經(jīng)深度卷積模塊和歸一化操作后,通過深度卷積對圖像信息進行逐通道卷積,之后通過通道縮放對特征進行通道調(diào)整,并經(jīng)路徑正則化防止數(shù)據(jù)過擬合;所述可學習的殘差編碼模塊,具體執(zhí)行如下處理過程:在深度卷積模塊和多層感知機模塊分別加入殘差輸入,將全局特征與局部特征進行多尺度融合,使特征有更加豐富的表示,同時緩解梯度消失問題,具有更強的表達能力和更加穩(wěn)定的特征輸出。
8、進一步的,所述第一特征提取層、第二特征提取層、第三特征提取層以及第四特征提取層均采用bott?leneck結構,且所述第一特征提取層、第二特征提取層、第三特征提取層和第四特征提取層采用不同尺度的卷積核。
9、進一步的,所述通過對獲得的不同層級的特征圖進行融合,具體采用panet金字塔網(wǎng)絡,其中,在panet金子塔網(wǎng)絡的基礎上增加有一條下采樣級聯(lián)通路,通過若干次下采樣的拼接,逐級將低層特征信息融合至高層特征。
10、進一步的,所述下采樣級聯(lián)通路具體為:由從淺層高分辨率特征圖開始,通過一系列cbs基本卷積模塊和下采樣拼接,逐步將低層特征信息融合到高層。
11、進一步的,所述通過預設檢測頭,獲得實體所對應的類別及位置信息,具體為:基于獲得的融合特征,經(jīng)卷積處理后分別輸入第一分支網(wǎng)絡和第二分支網(wǎng)絡;其中,所述第一分支網(wǎng)絡包括第一卷積和第一分類器;所述第二分支網(wǎng)絡包括第二卷積和第二分類器;通過所述第一分支網(wǎng)絡獲得實體所對應的類別信息;通過所述第二分支網(wǎng)絡獲得實體對應的位置信息。
12、根據(jù)本發(fā)明實施例的第二個方面,提供了一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取系統(tǒng),包括:
13、數(shù)據(jù)獲取單元,其用于獲取待內(nèi)容提取的表單圖像;
14、實體關聯(lián)信息提取單元,其用于基于所述表單圖像,通過預先構建的關聯(lián)實體檢測模型,獲得表單中實體所對應的類別及位置信息;其中,所述關聯(lián)實體檢測模型具體執(zhí)行如下處理過程:對于輸入的表單圖像,順序經(jīng)基本卷積塊、第一特征提取層、第二特征圖提取層、層內(nèi)特征調(diào)節(jié)模塊、第三特征提取層、第四特征提取層以及快速空間金字塔池化,獲得不同層級的特征圖;所述層內(nèi)特征調(diào)節(jié)模塊用于將第二特征提取層輸出的特征經(jīng)卷積處理后,分別利用深度卷積多連接感知模塊和殘差編碼模塊分別進行全局和局部特征的提取,然后通過將局部和全局特征進行拼接作為第三特征提取層的輸入特征;通過對獲得的不同層級的特征圖進行融合,獲得融合特征;基于所述融合特征,通過預設檢測頭,獲得實體所對應的類別及位置信息;
15、結構化提取單元,其用于基于獲得的實體對應的類別及位置信息,通過坐標聚合,獲得實體間的關聯(lián)性;基于所述關聯(lián)性,確定屬于同一行的實體,實現(xiàn)表單內(nèi)容的結構化提取。
16、根據(jù)本發(fā)明實施例的第三個方面,提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)所述的一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法。
17、根據(jù)本發(fā)明實施例的第四個方面,提供了一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)所述的一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法。
18、根據(jù)本發(fā)明實施例的第五個方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述的一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法。
19、以上一個或多個技術方案存在以下有益效果:
20、(1)本發(fā)明提供了一種基于關聯(lián)實體檢測的表單內(nèi)容結構化提取方法及系統(tǒng),所述方案通過預先構建的關聯(lián)實體檢測模型進行實體類別以及實體位置信息等關聯(lián)信息的提取,基于提取的關聯(lián)信息進行實體間相似度的計算,進而獲得實體間的關聯(lián)性,基于所述關聯(lián)性進行實體間結構關系的判別,實現(xiàn)表單內(nèi)容的結構化提取,有效提高了表單內(nèi)容結構化提取的效率。
21、(2)本發(fā)明所述關聯(lián)實體檢測模型中,通過層內(nèi)特征調(diào)整模塊的添加,可以增加關鍵性的表格結構特征量,提高對超長行、超多列、異形表格的提取準確度。
22、(3)本發(fā)明所述關聯(lián)實體檢測模型中,通過采用改進后的panet網(wǎng)絡(即在panet網(wǎng)絡中增加一條下采樣通路),可以有效消除特征中的冗余信息,提高處理效率。
23、本發(fā)明附加方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。