欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于雙重語義的跨頁表格判別方法與流程

文檔序號:40508406發(fā)布日期:2024-12-31 13:17閱讀:24來源:國知局
一種基于雙重語義的跨頁表格判別方法與流程

本發(fā)明涉及文本處理,尤其是一種基于雙重語義的跨頁表格判別方法。


背景技術(shù):

1、在pdf解析過程中,識別表格是否跨頁對于保持文檔內(nèi)容的連貫性和完整性至關(guān)重要。表格是組織和展示數(shù)據(jù)的常用方式,尤其在財務(wù)報告、統(tǒng)計分析和研究論文等文檔中,表格往往包含了關(guān)鍵的定量信息。如果表格跨越多個頁面,那么在文檔解析和信息抽取時,確保這些表格的連續(xù)性就變得尤為重要。首先,正確識別跨頁表格有助于保持?jǐn)?shù)據(jù)的完整性。在自動化處理和信息抽取中,如果表格被分割,可能會導(dǎo)致數(shù)據(jù)丟失或錯誤,進(jìn)而影響到數(shù)據(jù)分析的準(zhǔn)確性和可靠性。

2、針對這一問題,現(xiàn)有的方法一般可分為兩種,基于結(jié)構(gòu)判斷以及基于表格全局語義判斷?;诮Y(jié)構(gòu)判斷的方法主要是對比上下文表格是否是相同的格式,如表格的列數(shù)、分欄數(shù)等,這種方式面對復(fù)雜表格時往往其判斷結(jié)果無法保證其正確;基于全局語義的判斷方式將上下文表格送入語義判斷模型,從語義上判斷表格內(nèi)容是否連貫一致。然而表格中往往存在大量的數(shù)字、文本,對其不加篩選的送入模型,由于語義模型的分詞特性,將會極大程度上影響模型判別,降低模型的準(zhǔn)確率以及效率;由于語義的固有特性,因此只利用語義的判別方式對上下文相似表格非常容易誤判。

3、因此,如何高效準(zhǔn)確的對上下文表格進(jìn)行跨頁判斷,仍是一個需要解決的問題。


技術(shù)實現(xiàn)思路

1、為了克服上述現(xiàn)有技術(shù)中對上下文表格進(jìn)行跨頁判斷的準(zhǔn)確率以及效率低下的缺陷,本發(fā)明提出了一種基于雙重語義的跨頁表格判別方法。

2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案,一種基于雙重語義的跨頁表格判別方法,包括:

3、s1:獲取待測的上下文表格數(shù)據(jù);

4、s2:利用表頭判別模型對待測的下文表格進(jìn)行判斷,判斷下文表格是否存在表頭,若不存在,則進(jìn)行后續(xù)步驟;若存在,則判定為不是跨頁表格;

5、s3:利用上下文前綴文本判別模型對待測的上下文表格進(jìn)行判斷,判斷上下文表格的語義是否一致,若一致,則判定為是跨頁表格;若不一致,則判定為不是跨頁表格。

6、優(yōu)選的,表頭判別模型的訓(xùn)練過程,包括:

7、s21:構(gòu)建表頭數(shù)據(jù)集t={t1,t2,..,tk,…,tk},其中,tk表示第k個樣本的表頭文本信息,k為表頭數(shù)據(jù)集的樣本總數(shù);

8、s22:根據(jù)表頭數(shù)據(jù)集中的第k個樣本的表頭文本信息,生成第k個樣本的表頭文本序列xk={[cls],tk,[sep],[pad],…,[pad],…,[eos]},其中,[cls]為開始字符、[sep]為間隔字符、[pad]為填充字符以及[eos]為結(jié)束字符;

9、s23:對表頭文本序列進(jìn)行語義特征提取,得到表頭文本語義特征vt,其中,表頭文本語義特征vt包括表頭文本語義特征的分類特征

10、s24:基于表頭文本語義特征獲取表頭文本的判別概率pt,公式如下:

11、

12、其中,w1和b1分別表示預(yù)訓(xùn)練表頭判別模型分類模塊的權(quán)重以及偏差矩陣,softmax為歸一化的指數(shù)函數(shù),表示對元素進(jìn)行歸一化操作,silu為一種自適應(yīng)激活函數(shù);

13、s25:將表頭文本的判別概率與表頭文本的概率閾值進(jìn)行比較獲取下文表格是否存在表頭的判別結(jié)果;

14、對于表頭判別模型,采用交叉熵作為損失函數(shù),設(shè)置最大迭代次數(shù),利用反向傳播和梯度下降法對表頭判別模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的表頭判別模型。

15、

16、其中,表示第k個表頭文本的判別概率,且

17、優(yōu)選的,上下文前綴文本判別模型的訓(xùn)練過程包括:

18、s34:將表格前綴文本語義特征與上下文表格的位置特征進(jìn)行融合,得到表格前綴文本語義位置特征,表格前綴文本語義位置特征包括:

19、上文表格表頭語義位置特征xt=ln(w2lp)+ln(w3vt);

20、上文表格正文文本語義位置特征xp=ln(w4lp)+ln(w5vp);

21、下文表格正本文本語義位置特征xr=ln(w6lr)+ln(w7vr);

22、其中,表格前綴文本語義特征包括上文表格表頭語義特征vt、上文表格正文文本語義特征vp和下文表格正文文本語義特征vr,w2,w3,w4,w5,w6和w7為可學(xué)習(xí)參數(shù),ln為層歸一化操作,lp為上文表格的位置特征,lr為下文表格的位置特征;

23、s35:將上下文表格正文文本語義位置特征進(jìn)行拼接,獲取拼接表格正文語義位置特征,并通過交叉注意力方式,建立拼接表格正文語義位置特征與上文表格表頭語義位置特征之間的依賴關(guān)系,得到完整融合表格特征:

24、拼接表格正文語義位置特征xc={xp;xr};

25、完整融合表格特征

26、其中,為拼接表格正文語義位置特征的第i行信息,w8與w9為可學(xué)習(xí)參數(shù),silu為一種激活函數(shù)。

27、優(yōu)選的,在步驟s34中,上下文表格的位置特征由以下方式獲?。?/p>

28、對于上下文表格前綴數(shù)據(jù)集中的第m個樣本,分別獲取上下文表格的位置特征和

29、其中,和分別表示上文表格的左上角和右下角位置的橫坐標(biāo)與縱坐標(biāo),和分別表示下文表格的左上角和右下角位置的橫坐標(biāo)與縱坐標(biāo)。

30、優(yōu)選的,在步驟s35之后,還包括:

31、s36:基于完整融合表格特征,通過以模型自學(xué)習(xí)的方式,調(diào)整完整融合表格特征中每行信息的注意權(quán)重,獲取完整融合表格的表征向量h,完整融合表格的表征向量h的計算公式為:

32、

33、其中,αi為完整融合表格特征的第i行信息的注意權(quán)重。

34、優(yōu)選的,所述完整融合表格特征的第i行信息的注意權(quán)重αi的計算公式為:

35、

36、其中,exp(.)函數(shù)為以實數(shù)e為底的指數(shù)函數(shù)。

37、優(yōu)選的,所述上下文前綴文本判別模型的訓(xùn)練過程,在步驟s34之前,還包括:

38、s31:構(gòu)建上下文表格前綴數(shù)據(jù)集c={c1,c2,…,cm,…,cm},其中,cm為第m個樣本的表格文本信息,cm={tc;p1,p2,…,pn,…,pn;r1,r2,…rn,…,rn},表格文本信息包括上文表格表頭信息tc、上文表格正文文本信息和下文表格正文文本信息;pn與rn分別表示上文表格和下文表格正文文本的第n行文本信息,n為上文或下文表格總行數(shù),m為上下文表格前綴數(shù)據(jù)集的樣本總數(shù);

39、s32:根據(jù)上下文表格前綴數(shù)據(jù)集中第m個樣本中的表格文本信息,得到第m個樣本的表格前綴文本序列其中,yt為上文表格表頭文本序列,為上文表格的第n行文本序列,為下文表格的第n行文本序列;

40、yt={[cls],tc,[sep],[pad],…[pad],…,[eos]};

41、

42、s33:對表格前綴文本序列進(jìn)行語義特征提取,得到表格前綴文本語義特征其中,vt為上文表格表頭語義特征、,為上文表格正文文本第n行語義特征和,下文表格正文文本第n行語義特征。

43、優(yōu)選的,所述上下文前綴文本判別模型的訓(xùn)練過程,在步驟s36之后,還包括:

44、s37:基于完整融合表格的表征向量獲取上下文表格跨頁的判別概率pc;

45、s38:將上下文表格跨頁的判別概率pc與設(shè)置的概率閾值進(jìn)行比較,得到上下文表格是否跨頁的判別結(jié)果。

46、優(yōu)選的,上下文表格跨頁的判別概率pc的計算公式為:

47、pc=softmax(mlp(silu(w10h)+h))

48、其中,mlp是線性網(wǎng)絡(luò)層,用于將完整融合表格的表征向量h的維度轉(zhuǎn)換成分類所需維度,w10表示可學(xué)習(xí)參數(shù),softmax為歸一化的指數(shù)函數(shù),表示進(jìn)行歸一化操作。

49、優(yōu)選的,利用反向傳播和梯度下降法,對上下文前綴文本判別模型進(jìn)行訓(xùn)練,上下文前綴文本判別模型的損失函數(shù)lc為:

50、

51、其中,表示第m個上下文表格跨頁的判別概率,且

52、本發(fā)明的優(yōu)點在于:

53、(1)本發(fā)明將跨頁表格判別問題轉(zhuǎn)化為先進(jìn)行下文表格表頭判別后進(jìn)行上下文表格內(nèi)容語義判別的二階段二分類問題,規(guī)避了結(jié)構(gòu)化方法構(gòu)建復(fù)雜判別規(guī)則的過程,簡化了研究問題的難度,在實際應(yīng)用中部署方便,效率高。

54、(2)本發(fā)明在實際進(jìn)行判別的過程中,以準(zhǔn)確且高效的下文表格表頭判別作為預(yù)先過濾方式,在下文表格表頭不存在的情況下,進(jìn)入第二階段上下文表格內(nèi)容語義判別,在上下文表格內(nèi)容語義判別時,將表格前綴文本語義特征融合上下文表格的位置特征,并通過交叉注意力方式,建立拼接表格正文語義位置特征與上文表格表頭語義位置特征之間的依賴關(guān)系,提升了本發(fā)明對于跨頁表格的判別的準(zhǔn)確性和精確度。

55、(3)本發(fā)明在進(jìn)行上下文表格內(nèi)容語義判別時,利用上下文表格的前綴數(shù)據(jù)進(jìn)行整個表格的推理預(yù)測,加快了模型的計算速度。

56、(4)本發(fā)明將完整融合表格特征通過自學(xué)習(xí)方式轉(zhuǎn)化為完整融合表格的表征向量,從而更好的對模型進(jìn)行判別。

57、(5)本發(fā)明在構(gòu)建表格序列時,添加特定的標(biāo)志符號,將表格內(nèi)在結(jié)構(gòu)隱藏在文本序列中,作為結(jié)構(gòu)化提示信息,有助于模型快速判斷。

58、(6)本發(fā)明將上下文表格前綴數(shù)據(jù)集中的第m個樣本中的表格文本信息進(jìn)行拼接,得到表格前綴文本序列ym,并利用表頭判別模型和上下文前綴文本判別模型分別對表頭文本序列和表格前綴文本序列進(jìn)行語義特征提取,利用兩個判別模型,使得本發(fā)明對跨頁表格的判別準(zhǔn)確度更高。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
淳化县| 浙江省| 营口市| 临夏市| 临泽县| 额济纳旗| 海城市| 衡阳市| 桃园县| 法库县| 大埔县| 新源县| 林周县| 保靖县| 建阳市| 栾城县| 华坪县| 仙游县| 阿拉善盟| 安西县| 金华市| 峨眉山市| 阿城市| 鄂伦春自治旗| 汝州市| 永顺县| 临武县| 鹤峰县| 微山县| 和硕县| 商河县| 额济纳旗| 白河县| 长乐市| 若羌县| 克什克腾旗| 湖北省| 丹阳市| 大关县| 江口县| 望谟县|