基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法與流程

文檔序號：40530158發(fā)布日期：2024-12-31 13:43閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)處理，具體涉及基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法。

背景技術(shù)：

1、隨著信息技術(shù)的發(fā)展，企業(yè)和組織積累了大量的文檔資料，這些文檔既包括結(jié)構(gòu)化數(shù)據(jù)（如excel表格），也涵蓋了非結(jié)構(gòu)化數(shù)據(jù)（如pdf報告、word文檔等）。這些文檔中常常包含了關(guān)鍵性的信息，尤其是以表格形式呈現(xiàn)的數(shù)據(jù)。然而，如何有效地從這些多類型文檔中提取有用的信息，并進(jìn)行數(shù)據(jù)對齊將其轉(zhuǎn)化為可供分析和利用的標(biāo)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)（數(shù)據(jù)對齊的目標(biāo)是建立一個統(tǒng)一的數(shù)據(jù)字段命名規(guī)則和格式，不論原始表格來源于哪個文檔或是使用了何種不同的術(shù)語，系統(tǒng)都可以辨認(rèn)字段的各類同義詞或類似表達(dá)，并將它們轉(zhuǎn)換為一致的標(biāo)準(zhǔn)名稱，從而保證數(shù)據(jù)的統(tǒng)一性和可比性），一直是信息處理領(lǐng)域面臨的挑戰(zhàn)。

2、對于多類文檔表格的處理，目前尚未有全流程處理方法。對于表格數(shù)據(jù)對齊，目前的一種常見方法是利用專家先驗知識來制定數(shù)據(jù)對齊規(guī)則，但其局限性在于規(guī)則需要人為制定和維護(hù)，十分耗時耗力。本發(fā)明提出一種全流程多格式文檔表格提取和基于llm-agent的表格數(shù)據(jù)對齊技術(shù)，旨在解決這些問題，提供自動化和智能化的表格處理方案。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于，提供基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，解決現(xiàn)有文檔表格數(shù)據(jù)提取與對齊困難的技術(shù)問題。

2、為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

3、基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法包括以下步驟：

4、s1、對可編輯文檔/不可編輯文檔進(jìn)行表格提取，得到html格式的表格；

5、s2、基于大語言模型對html格式的表格進(jìn)行分析，篩選出有用表格；

6、s3、采用大語言模型對篩選出的有用表格按照設(shè)定的標(biāo)準(zhǔn)字段進(jìn)行對齊。

7、進(jìn)一步地，所述可編輯文檔包括word文檔、excel文檔和非掃描版pdf文件，可編輯文檔的表格提取包括：采用spire.doc和docx對word文檔進(jìn)行表格提取、采用xlrd、openpyxl和pandas對excel文檔進(jìn)行表格提取、采用spire.pdf和pdfplumber對非掃描版pdf文件進(jìn)行表格提取，得到html格式的表格；

8、所述不可編輯文檔包括掃描版pdf文件，不可編輯文檔的表格提取包括：sa1、使用預(yù)訓(xùn)練的layout模型對掃描版pdf文件進(jìn)行版面分析，獲得表格圖片在文件中的坐標(biāo)信息；sa2、根據(jù)獲得的坐標(biāo)信息，從文件中切割出表格圖片；sa3、將所有切割出的表格圖片輸入到表格識別模型中，獲取html格式的表格。

9、進(jìn)一步地，所述對可編輯文檔/不可編輯文檔進(jìn)行表格提取中包括跨頁表格的識別與合并、html表格的文本轉(zhuǎn)譯、表格的表頭識別。

10、進(jìn)一步地，所述跨頁表格的識別與合并包括以下操作：sb1、創(chuàng)建一個臨時存儲空間；sb2、遍歷非掃描版pdf文件或掃描版pdf文件每一頁的每個表格：sb21、若表格不為頁尾表格，則直接輸出當(dāng)前表格；若表格為頁尾表格，將當(dāng)前頁尾表格保存于臨時存儲空間中，且遍歷下一頁所有表格；sb22、若下一頁的第一個表格為頁首表格且臨時存儲空間中有表格，并且頁首表格的列數(shù)與臨時存儲空間的最后一個表格的列數(shù)、格式均一致，將當(dāng)前頁首表格保存于臨時存儲空間中，若第一個表格同時也為頁尾表格，則繼續(xù)處理再下一頁，若第一個表格不是頁首表格，則按先后順序合并臨時存儲空間中所有表格并輸出，且清空臨時存儲空間，輸出的表格即為一個完整的跨頁表格；sb23、重復(fù)sb21、sb22直至完成所有跨頁表格的識別與合并。

11、進(jìn)一步地，對于表格是否處于頁首或頁尾的判斷包括以下操作：由pdfplumber得到非掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息，或由layout模型得到掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息；根據(jù)布局信息和先驗閾值來判斷表格是否是處于頁首或頁尾。

12、進(jìn)一步地，所述html表格的文本轉(zhuǎn)譯包括以下操作：sc1、加載可編輯文檔/不可編輯文檔；sc2、遍歷可編輯文檔/不可編輯文檔的每一頁：sc21、加載當(dāng)前頁的每個章節(jié)，遍歷每個章節(jié)中的所有表格；sc22、對于章節(jié)中的每個表格，初始一個html表格字符串，創(chuàng)建一個表格標(biāo)簽；sc23、遍歷表格的每一列，對于表格的每一行，添加一個行標(biāo)簽，遍歷表格的每一行，在行標(biāo)簽內(nèi)部遍歷當(dāng)前行的所有單元格，去除單元格內(nèi)多余的空格，將處理后的單元格內(nèi)容包裹在行標(biāo)簽內(nèi)部的表格單元格標(biāo)簽中并添加到html表格字符串中，當(dāng)一行中的所有單元格都處理完畢后，關(guān)閉行標(biāo)簽，當(dāng)所有行都處理完畢后，關(guān)閉表格標(biāo)簽。

13、進(jìn)一步地，所述表頭識別包括以下操作：sd1、將表格前20行數(shù)據(jù)和預(yù)設(shè)的第一prompt輸入大語言模型中；大語言模型根據(jù)第一prompt對輸入的前20行數(shù)據(jù)進(jìn)行語義理解，識別出表頭所在行數(shù)并得到表頭結(jié)束位置的索引；sd1、根據(jù)表頭結(jié)束位置的索引確定并標(biāo)記表頭的起始位置和結(jié)束位置，提取出表頭；sd2、選擇切分長度，根據(jù)切分長度將除表頭外的剩余表格切分為多個子表格；將表頭添加至每個子表格的頭部。

14、進(jìn)一步地，所述s2包括：s21、將html格式的表格和預(yù)設(shè)的第二prompt輸入到大語言模型中，大語言模型根據(jù)第二prompt逐項檢查表格中的數(shù)據(jù)，解析表格的標(biāo)題、行與列的關(guān)系，以及數(shù)值或文本條目的連貫性和一致性，輸出解析結(jié)果；s22、根據(jù)解析結(jié)果，過濾掉不符合預(yù)設(shè)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)或相關(guān)性的表格，得到有用表格。

15、進(jìn)一步地，所述s3包括：s31、將有用表格和預(yù)設(shè)第三prompt輸入到大語言模型中，對于每個有用表格，大語言模型根據(jù)第三prompt識別表格中的每個字段，并將具有同義或相似表達(dá)的不同字段轉(zhuǎn)換為設(shè)定的同一個標(biāo)準(zhǔn)字段；s32、將s31處理的多個有用表格按照標(biāo)準(zhǔn)字段進(jìn)行對齊。

16、進(jìn)一步地，所述s32包括：s321、將每個有用表格中同一標(biāo)準(zhǔn)字段對應(yīng)的數(shù)據(jù)填入到當(dāng)前標(biāo)準(zhǔn)字段中，生成一個新的表格，完成標(biāo)準(zhǔn)字段的對齊。

17、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

18、本發(fā)明將基于人工規(guī)則的表格數(shù)據(jù)對齊標(biāo)準(zhǔn)化問題轉(zhuǎn)化為基于大語言模型的語義識別的數(shù)據(jù)提取與對齊標(biāo)準(zhǔn)化問題，能夠有效處理多類文檔中的超長表格、跨頁表格以及表格格式化問題，提取完整表格，并實現(xiàn)表格的標(biāo)準(zhǔn)化字段入庫。

技術(shù)特征：

1.基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述可編輯文檔包括word文檔、excel文檔和非掃描版pdf文件，可編輯文檔的表格提取包括：采用spire.doc和docx對word文檔進(jìn)行表格提取、采用xlrd、openpyxl和pandas對excel文檔進(jìn)行表格提取、采用spire.pdf和pdfplumber對非掃描版pdf文件進(jìn)行表格提取，得到html格式的表格；

3.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述對可編輯文檔/不可編輯文檔進(jìn)行表格提取中包括跨頁表格的識別與合并、html表格的文本轉(zhuǎn)譯、表格的表頭識別。

4.根據(jù)權(quán)利要求3所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述跨頁表格的識別與合并包括以下操作：sb1、創(chuàng)建一個臨時存儲空間；sb2、遍歷非掃描版pdf文件或掃描版pdf文件每一頁的每個表格：sb21、若表格不為頁尾表格，則直接輸出當(dāng)前表格；若表格為頁尾表格，將當(dāng)前頁尾表格保存于臨時存儲空間中，且遍歷下一頁所有表格；sb22、若下一頁的第一個表格為頁首表格且臨時存儲空間中有表格，并且頁首表格的列數(shù)與臨時存儲空間的最后一個表格的列數(shù)、格式均一致，將當(dāng)前頁首表格保存于臨時存儲空間中，若第一個表格同時也為頁尾表格，則繼續(xù)處理再下一頁，若第一個表格不是頁首表格，則按先后順序合并臨時存儲空間中所有表格并輸出，且清空臨時存儲空間，輸出的表格即為一個完整的跨頁表格；sb23、重復(fù)sb21、sb22直至完成所有跨頁表格的識別與合并。

5.根據(jù)權(quán)利要求4所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，對于表格是否處于頁首或頁尾的判斷包括以下操作：由pdfplumber得到非掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息，或由layout模型得到掃描版pdf文件的頁面信息、表格坐標(biāo)的布局信息；根據(jù)布局信息和先驗閾值來判斷表格是否是處于頁首或頁尾。

6.根據(jù)權(quán)利要求3所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述html表格的文本轉(zhuǎn)譯包括以下操作：sc1、加載可編輯文檔/不可編輯文檔；sc2、遍歷可編輯文檔/不可編輯文檔的每一頁：sc21、加載當(dāng)前頁的每個章節(jié)，遍歷每個章節(jié)中的所有表格；sc22、對于章節(jié)中的每個表格，初始一個html表格字符串，創(chuàng)建一個表格標(biāo)簽；sc23、遍歷表格的每一列，對于表格的每一行，添加一個行標(biāo)簽，遍歷表格的每一行，在行標(biāo)簽內(nèi)部遍歷當(dāng)前行的所有單元格，去除單元格內(nèi)多余的空格，將處理后的單元格內(nèi)容包裹在行標(biāo)簽內(nèi)部的表格單元格標(biāo)簽中并添加到html表格字符串中，當(dāng)一行中的所有單元格都處理完畢后，關(guān)閉行標(biāo)簽，當(dāng)所有行都處理完畢后，關(guān)閉表格標(biāo)簽。

7.根據(jù)權(quán)利要求3所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述表頭識別包括以下操作：sd1、將表格前20行數(shù)據(jù)和預(yù)設(shè)的第一prompt輸入大語言模型中；大語言模型根據(jù)第一prompt對輸入的前20行數(shù)據(jù)進(jìn)行語義理解，識別出表頭所在行數(shù)并得到表頭結(jié)束位置的索引；sd1、根據(jù)表頭結(jié)束位置的索引確定并標(biāo)記表頭的起始位置和結(jié)束位置，提取出表頭；sd2、選擇切分長度，根據(jù)切分長度將除表頭外的剩余表格切分為多個子表格；將表頭添加至每個子表格的頭部。

8.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述s2包括：s21、將html格式的表格和預(yù)設(shè)的第二prompt輸入到大語言模型中，大語言模型根據(jù)第二prompt逐項檢查表格中的數(shù)據(jù)，解析表格的標(biāo)題、行與列的關(guān)系，以及數(shù)值或文本條目的連貫性和一致性，輸出解析結(jié)果；s22、根據(jù)解析結(jié)果，過濾掉不符合預(yù)設(shè)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)或相關(guān)性的表格，得到有用表格。

9.根據(jù)權(quán)利要求1所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述s3包括：s31、將有用表格和預(yù)設(shè)第三prompt輸入到大語言模型中，對于每個有用表格，大語言模型將識別表格中的每個字段，將具有同義或相似表達(dá)的不同字段轉(zhuǎn)換為設(shè)定的同一個標(biāo)準(zhǔn)字段；s32、將s31處理的多個有用表格按照標(biāo)準(zhǔn)字段進(jìn)行對齊。

10.根據(jù)權(quán)利要求9所述的基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，其特征在于，所述s32包括：s321、將每個有用表格中同一標(biāo)準(zhǔn)字段對應(yīng)的數(shù)據(jù)填入到當(dāng)前標(biāo)準(zhǔn)字段中，生成一個新的表格，完成標(biāo)準(zhǔn)字段的對齊。

技術(shù)總結(jié)
本發(fā)明公開了一種基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法，包括對可編輯文檔/不可編輯文檔進(jìn)行表格提取，得到HTML格式的表格；基于大語言模型對HTML格式的表格進(jìn)行分析，篩選出有用表格；采用大語言模型對篩選出的有用表格按照設(shè)定的標(biāo)準(zhǔn)字段進(jìn)行對齊。本發(fā)明將基于人工規(guī)則的表格數(shù)據(jù)對齊標(biāo)準(zhǔn)化問題轉(zhuǎn)化為基于大語言模型的語義識別的數(shù)據(jù)提取與對齊標(biāo)準(zhǔn)化問題，能夠有效處理多類文檔中的超長表格、跨頁表格以及表格格式化問題，提取完整表格，并實現(xiàn)表格的標(biāo)準(zhǔn)化字段入庫。

技術(shù)研發(fā)人員：鐘建林,張振羽,陶趙文,張自平
受保護(hù)的技術(shù)使用者：云筑信息科技（成都）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鐘建林,張振羽,陶趙文,張自平
技術(shù)所有人：云筑信息科技（成都）有限公司
我是此專利的發(fā)明人

上一篇：雙飾面板的對花輸送機(jī)構(gòu)的制作方法
上一篇：一種自然水體中抗生素快速分離富集裝置及方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于大語言模型的多格式文檔表格數(shù)據(jù)提取與對齊方法與流程