欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法與流程

文檔序號:40530158發(fā)布日期:2024-12-31 13:43閱讀:10來源:國知局
基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法與流程

本發(fā)明涉及數(shù)據(jù)處理,具體涉及基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法。


背景技術(shù):

1、隨著信息技術(shù)的發(fā)展,企業(yè)和組織積累了大量的文檔資料,這些文檔既包括結(jié)構(gòu)化數(shù)據(jù)(如excel表格),也涵蓋了非結(jié)構(gòu)化數(shù)據(jù)(如pdf報告、word文檔等)。這些文檔中常常包含了關(guān)鍵性的信息,尤其是以表格形式呈現(xiàn)的數(shù)據(jù)。然而,如何有效地從這些多類型文檔中提取有用的信息,并進(jìn)行數(shù)據(jù)對齊將其轉(zhuǎn)化為可供分析和利用的標(biāo)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)對齊的目標(biāo)是建立一個統(tǒng)一的數(shù)據(jù)字段命名規(guī)則和格式,不論原始表格來源于哪個文檔或是使用了何種不同的術(shù)語,系統(tǒng)都可以辨認(rèn)字段的各類同義詞或類似表達(dá),并將它們轉(zhuǎn)換為一致的標(biāo)準(zhǔn)名稱,從而保證數(shù)據(jù)的統(tǒng)一性和可比性),一直是信息處理領(lǐng)域面臨的挑戰(zhàn)。

2、對于多類文檔表格的處理,目前尚未有全流程處理方法。對于表格數(shù)據(jù)對齊,目前的一種常見方法是利用專家先驗知識來制定數(shù)據(jù)對齊規(guī)則,但其局限性在于規(guī)則需要人為制定和維護(hù),十分耗時耗力。本發(fā)明提出一種全流程多格式文檔表格提取和基于llm-agent的表格數(shù)據(jù)對齊技術(shù),旨在解決這些問題,提供自動化和智能化的表格處理方案。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于,提供基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,解決現(xiàn)有文檔表格數(shù)據(jù)提取與對齊困難的技術(shù)問題。

2、為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:

3、基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法包括以下步驟:

4、s1、對可編輯文檔/不可編輯文檔進(jìn)行表格提取,得到html格式的表格;

5、s2、基于大語言模型對html格式的表格進(jìn)行分析,篩選出有用表格;

6、s3、采用大語言模型對篩選出的有用表格按照設(shè)定的標(biāo)準(zhǔn)字段進(jìn)行對齊。

7、進(jìn)一步地,所述可編輯文檔包括word文檔、excel文檔和非掃描版pdf文件,可編輯文檔的表格提取包括:采用spire.doc和docx對word文檔進(jìn)行表格提取、采用xlrd、openpyxl和pandas對excel文檔進(jìn)行表格提取、采用spire.pdf和pdfplumber對非掃描版pdf文件進(jìn)行表格提取,得到html格式的表格;

8、所述不可編輯文檔包括掃描版pdf文件,不可編輯文檔的表格提取包括:sa1、使用預(yù)訓(xùn)練的layout模型對掃描版pdf文件進(jìn)行版面分析,獲得表格圖片在文件中的坐標(biāo)信息;sa2、根據(jù)獲得的坐標(biāo)信息,從文件中切割出表格圖片;sa3、將所有切割出的表格圖片輸入到表格識別模型中,獲取html格式的表格。

9、進(jìn)一步地,所述對可編輯文檔/不可編輯文檔進(jìn)行表格提取中包括跨頁表格的識別與合并、html表格的文本轉(zhuǎn)譯、表格的表頭識別。

10、進(jìn)一步地,所述跨頁表格的識別與合并包括以下操作:sb1、創(chuàng)建一個臨時存儲空間;sb2、遍歷非掃描版pdf文件或掃描版pdf文件每一頁的每個表格:sb21、若表格不為頁尾表格,則直接輸出當(dāng)前表格;若表格為頁尾表格,將當(dāng)前頁尾表格保存于臨時存儲空間中,且遍歷下一頁所有表格;sb22、若下一頁的第一個表格為頁首表格且臨時存儲空間中有表格,并且頁首表格的列數(shù)與臨時存儲空間的最后一個表格的列數(shù)、格式均一致,將當(dāng)前頁首表格保存于臨時存儲空間中,若第一個表格同時也為頁尾表格,則繼續(xù)處理再下一頁,若第一個表格不是頁首表格,則按先后順序合并臨時存儲空間中所有表格并輸出,且清空臨時存儲空間,輸出的表格即為一個完整的跨頁表格;sb23、重復(fù)sb21、sb22直至完成所有跨頁表格的識別與合并。

11、進(jìn)一步地,對于表格是否處于頁首或頁尾的判斷包括以下操作:由pdfplumber得到非掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息,或由layout模型得到掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息;根據(jù)布局信息和先驗閾值來判斷表格是否是處于頁首或頁尾。

12、進(jìn)一步地,所述html表格的文本轉(zhuǎn)譯包括以下操作:sc1、加載可編輯文檔/不可編輯文檔;sc2、遍歷可編輯文檔/不可編輯文檔的每一頁:sc21、加載當(dāng)前頁的每個章節(jié),遍歷每個章節(jié)中的所有表格;sc22、對于章節(jié)中的每個表格,初始一個html表格字符串,創(chuàng)建一個表格標(biāo)簽;sc23、遍歷表格的每一列,對于表格的每一行,添加一個行標(biāo)簽,遍歷表格的每一行,在行標(biāo)簽內(nèi)部遍歷當(dāng)前行的所有單元格,去除單元格內(nèi)多余的空格,將處理后的單元格內(nèi)容包裹在行標(biāo)簽內(nèi)部的表格單元格標(biāo)簽中并添加到html表格字符串中,當(dāng)一行中的所有單元格都處理完畢后,關(guān)閉行標(biāo)簽,當(dāng)所有行都處理完畢后,關(guān)閉表格標(biāo)簽。

13、進(jìn)一步地,所述表頭識別包括以下操作:sd1、將表格前20行數(shù)據(jù)和預(yù)設(shè)的第一prompt輸入大語言模型中;大語言模型根據(jù)第一prompt對輸入的前20行數(shù)據(jù)進(jìn)行語義理解,識別出表頭所在行數(shù)并得到表頭結(jié)束位置的索引;sd1、根據(jù)表頭結(jié)束位置的索引確定并標(biāo)記表頭的起始位置和結(jié)束位置,提取出表頭;sd2、選擇切分長度,根據(jù)切分長度將除表頭外的剩余表格切分為多個子表格;將表頭添加至每個子表格的頭部。

14、進(jìn)一步地,所述s2包括:s21、將html格式的表格和預(yù)設(shè)的第二prompt輸入到大語言模型中,大語言模型根據(jù)第二prompt逐項檢查表格中的數(shù)據(jù),解析表格的標(biāo)題、行與列的關(guān)系,以及數(shù)值或文本條目的連貫性和一致性,輸出解析結(jié)果;s22、根據(jù)解析結(jié)果,過濾掉不符合預(yù)設(shè)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)或相關(guān)性的表格,得到有用表格。

15、進(jìn)一步地,所述s3包括:s31、將有用表格和預(yù)設(shè)第三prompt輸入到大語言模型中,對于每個有用表格,大語言模型根據(jù)第三prompt識別表格中的每個字段,并將具有同義或相似表達(dá)的不同字段轉(zhuǎn)換為設(shè)定的同一個標(biāo)準(zhǔn)字段;s32、將s31處理的多個有用表格按照標(biāo)準(zhǔn)字段進(jìn)行對齊。

16、進(jìn)一步地,所述s32包括:s321、將每個有用表格中同一標(biāo)準(zhǔn)字段對應(yīng)的數(shù)據(jù)填入到當(dāng)前標(biāo)準(zhǔn)字段中,生成一個新的表格,完成標(biāo)準(zhǔn)字段的對齊。

17、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

18、本發(fā)明將基于人工規(guī)則的表格數(shù)據(jù)對齊標(biāo)準(zhǔn)化問題轉(zhuǎn)化為基于大語言模型的語義識別的數(shù)據(jù)提取與對齊標(biāo)準(zhǔn)化問題,能夠有效處理多類文檔中的超長表格、跨頁表格以及表格格式化問題,提取完整表格,并實現(xiàn)表格的標(biāo)準(zhǔn)化字段入庫。



技術(shù)特征:

1.基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述可編輯文檔包括word文檔、excel文檔和非掃描版pdf文件,可編輯文檔的表格提取包括:采用spire.doc和docx對word文檔進(jìn)行表格提取、采用xlrd、openpyxl和pandas對excel文檔進(jìn)行表格提取、采用spire.pdf和pdfplumber對非掃描版pdf文件進(jìn)行表格提取,得到html格式的表格;

3.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述對可編輯文檔/不可編輯文檔進(jìn)行表格提取中包括跨頁表格的識別與合并、html表格的文本轉(zhuǎn)譯、表格的表頭識別。

4.根據(jù)權(quán)利要求3所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述跨頁表格的識別與合并包括以下操作:sb1、創(chuàng)建一個臨時存儲空間;sb2、遍歷非掃描版pdf文件或掃描版pdf文件每一頁的每個表格:sb21、若表格不為頁尾表格,則直接輸出當(dāng)前表格;若表格為頁尾表格,將當(dāng)前頁尾表格保存于臨時存儲空間中,且遍歷下一頁所有表格;sb22、若下一頁的第一個表格為頁首表格且臨時存儲空間中有表格,并且頁首表格的列數(shù)與臨時存儲空間的最后一個表格的列數(shù)、格式均一致,將當(dāng)前頁首表格保存于臨時存儲空間中,若第一個表格同時也為頁尾表格,則繼續(xù)處理再下一頁,若第一個表格不是頁首表格,則按先后順序合并臨時存儲空間中所有表格并輸出,且清空臨時存儲空間,輸出的表格即為一個完整的跨頁表格;sb23、重復(fù)sb21、sb22直至完成所有跨頁表格的識別與合并。

5.根據(jù)權(quán)利要求4所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,對于表格是否處于頁首或頁尾的判斷包括以下操作:由pdfplumber得到非掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息,或由layout模型得到掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息;根據(jù)布局信息和先驗閾值來判斷表格是否是處于頁首或頁尾。

6.根據(jù)權(quán)利要求3所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述html表格的文本轉(zhuǎn)譯包括以下操作:sc1、加載可編輯文檔/不可編輯文檔;sc2、遍歷可編輯文檔/不可編輯文檔的每一頁:sc21、加載當(dāng)前頁的每個章節(jié),遍歷每個章節(jié)中的所有表格;sc22、對于章節(jié)中的每個表格,初始一個html表格字符串,創(chuàng)建一個表格標(biāo)簽;sc23、遍歷表格的每一列,對于表格的每一行,添加一個行標(biāo)簽,遍歷表格的每一行,在行標(biāo)簽內(nèi)部遍歷當(dāng)前行的所有單元格,去除單元格內(nèi)多余的空格,將處理后的單元格內(nèi)容包裹在行標(biāo)簽內(nèi)部的表格單元格標(biāo)簽中并添加到html表格字符串中,當(dāng)一行中的所有單元格都處理完畢后,關(guān)閉行標(biāo)簽,當(dāng)所有行都處理完畢后,關(guān)閉表格標(biāo)簽。

7.根據(jù)權(quán)利要求3所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述表頭識別包括以下操作:sd1、將表格前20行數(shù)據(jù)和預(yù)設(shè)的第一prompt輸入大語言模型中;大語言模型根據(jù)第一prompt對輸入的前20行數(shù)據(jù)進(jìn)行語義理解,識別出表頭所在行數(shù)并得到表頭結(jié)束位置的索引;sd1、根據(jù)表頭結(jié)束位置的索引確定并標(biāo)記表頭的起始位置和結(jié)束位置,提取出表頭;sd2、選擇切分長度,根據(jù)切分長度將除表頭外的剩余表格切分為多個子表格;將表頭添加至每個子表格的頭部。

8.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述s2包括:s21、將html格式的表格和預(yù)設(shè)的第二prompt輸入到大語言模型中,大語言模型根據(jù)第二prompt逐項檢查表格中的數(shù)據(jù),解析表格的標(biāo)題、行與列的關(guān)系,以及數(shù)值或文本條目的連貫性和一致性,輸出解析結(jié)果;s22、根據(jù)解析結(jié)果,過濾掉不符合預(yù)設(shè)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)或相關(guān)性的表格,得到有用表格。

9.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述s3包括:s31、將有用表格和預(yù)設(shè)第三prompt輸入到大語言模型中,對于每個有用表格,大語言模型將識別表格中的每個字段,將具有同義或相似表達(dá)的不同字段轉(zhuǎn)換為設(shè)定的同一個標(biāo)準(zhǔn)字段;s32、將s31處理的多個有用表格按照標(biāo)準(zhǔn)字段進(jìn)行對齊。

10.根據(jù)權(quán)利要求9所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,其特征在于,所述s32包括:s321、將每個有用表格中同一標(biāo)準(zhǔn)字段對應(yīng)的數(shù)據(jù)填入到當(dāng)前標(biāo)準(zhǔn)字段中,生成一個新的表格,完成標(biāo)準(zhǔn)字段的對齊。


技術(shù)總結(jié)
本發(fā)明公開了一種基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法,包括對可編輯文檔/不可編輯文檔進(jìn)行表格提取,得到HTML格式的表格;基于大語言模型對HTML格式的表格進(jìn)行分析,篩選出有用表格;采用大語言模型對篩選出的有用表格按照設(shè)定的標(biāo)準(zhǔn)字段進(jìn)行對齊。本發(fā)明將基于人工規(guī)則的表格數(shù)據(jù)對齊標(biāo)準(zhǔn)化問題轉(zhuǎn)化為基于大語言模型的語義識別的數(shù)據(jù)提取與對齊標(biāo)準(zhǔn)化問題,能夠有效處理多類文檔中的超長表格、跨頁表格以及表格格式化問題,提取完整表格,并實現(xiàn)表格的標(biāo)準(zhǔn)化字段入庫。

技術(shù)研發(fā)人員:鐘建林,張振羽,陶趙文,張自平
受保護(hù)的技術(shù)使用者:云筑信息科技(成都)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
晋中市| 临武县| 开封县| 赣州市| 河源市| 闻喜县| 金山区| 三台县| 柏乡县| 江门市| 桂平市| 鸡东县| 仁怀市| 贵南县| 莆田市| 敖汉旗| 尖扎县| 砚山县| 潞西市| 天等县| 富锦市| 黄大仙区| 吴桥县| 太仆寺旗| 鄂尔多斯市| 九江市| 玛沁县| 应用必备| 玉溪市| 故城县| 平泉县| 西峡县| 吴旗县| 江源县| 铁岭市| 鄯善县| 日喀则市| 兴山县| 高陵县| 民乐县| 开鲁县|