欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔表格內(nèi)容結(jié)構(gòu)化處理方法及相關(guān)硬件與流程

文檔序號(hào):40607367發(fā)布日期:2025-01-07 20:48閱讀:6來源:國知局
本技術(shù)涉及數(shù)據(jù)結(jié)構(gòu)化分析領(lǐng)域,具體涉及一種文檔表格內(nèi)容結(jié)構(gòu)化處理方法及相關(guān)硬件。
背景技術(shù)
::1、目前,許多商業(yè)機(jī)構(gòu)依賴于從各種報(bào)告和文檔中提取數(shù)據(jù)進(jìn)行分析和決策支持。這些文檔大多數(shù)以可攜帶文件格式(portable?document?format,pdf)格式存在,其中包含大量的非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)處理過程需要人工手動(dòng)錄入,效率較低。技術(shù)實(shí)現(xiàn)思路1、本技術(shù)實(shí)施例提供一種文檔表格內(nèi)容結(jié)構(gòu)化處理方法及相關(guān)硬件,用于解決如何實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)對(duì)文檔中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理的問題。2、第一方面,本技術(shù)實(shí)施例提供了一種文檔表格內(nèi)容結(jié)構(gòu)化處理方法,包括:3、提取文檔中的文本和所述文本所在位置,以及識(shí)別所述文檔中的表格所在位置,根據(jù)提取得到的文本、所述文本所在位置和識(shí)別得到的表格所在位置生成第一結(jié)構(gòu)化數(shù)據(jù);其中,所述第一結(jié)構(gòu)化數(shù)據(jù)記錄了文本和表格在所述文檔中的先后順序,以及同屬于同一表格的表格文本的對(duì)應(yīng)關(guān)系;4、采用標(biāo)題指針對(duì)標(biāo)題列表文件中的標(biāo)題依次進(jìn)行遍歷,其中:在每次將所述標(biāo)題指針指示的標(biāo)題由第一標(biāo)題更新為第二標(biāo)題后,對(duì)所述第一結(jié)構(gòu)化數(shù)據(jù)中的文本,采用內(nèi)容指針從當(dāng)前指示位置開始向后依次進(jìn)行遍歷,直至所述內(nèi)容指針遍歷到所述第二標(biāo)題,則將所述第一標(biāo)題確定為一個(gè)目標(biāo)表格的標(biāo)題,以及將所述第一結(jié)構(gòu)化數(shù)據(jù)中位于所述第一標(biāo)題與所述第二標(biāo)題之間的表格文本,確定為所述目標(biāo)表格的表格文本;若所述第一標(biāo)題為所述標(biāo)題列表文件中的最后一個(gè)標(biāo)題,則將所述第一結(jié)構(gòu)化數(shù)據(jù)的結(jié)束位置視為所述第二標(biāo)題;所述內(nèi)容指針初始的指示位置為所述第一結(jié)構(gòu)化數(shù)據(jù)的起始位置;5、對(duì)于每個(gè)目標(biāo)表格,對(duì)所述目標(biāo)表格的表格文本進(jìn)行解析,得到所述目標(biāo)表格的數(shù)據(jù)對(duì)象;6、根據(jù)各所述數(shù)據(jù)對(duì)象生成第二結(jié)構(gòu)化數(shù)據(jù)。7、這樣,通過使用計(jì)算機(jī)程序自動(dòng)對(duì)文檔中的文本和表格進(jìn)行提取,并通過標(biāo)題指針和內(nèi)容指針對(duì)從文檔中提取到的文本匹配所對(duì)應(yīng)的目標(biāo)表格,并對(duì)目標(biāo)表格進(jìn)行解析整理為計(jì)算機(jī)可直接處理的第二結(jié)構(gòu)化數(shù)據(jù),從而能夠?qū)崿F(xiàn)對(duì)文檔的計(jì)算機(jī)自動(dòng)化數(shù)據(jù)錄入,不再需要人工手動(dòng)處理,提高了對(duì)文檔處理的效率。8、可選地,若所述文檔包含圖片,則所述提取文檔中的文本和所述文本所在位置,以及識(shí)別所述文檔中的表格所在位置,還包括:9、提取所述文檔中的圖片;10、對(duì)于每個(gè)圖片,通過預(yù)訓(xùn)練的字符識(shí)別模型提取所述圖片中的文本和所述文本所在位置,以及通過預(yù)訓(xùn)練的版面識(shí)別模型提取所述圖片中的表格在所述文檔中的位置。11、這樣,能夠?qū)ξ臋n中的圖片也進(jìn)行文本和表格的提取,避免遺漏數(shù)據(jù)。12、可選地,在所述采用標(biāo)題指針對(duì)標(biāo)題列表文件中的標(biāo)題依次進(jìn)行遍歷之前,所述方法還包括:13、通過預(yù)設(shè)第一提問模板,將所述第一結(jié)構(gòu)化數(shù)據(jù)中的非表格文本輸入至大語言模型llm中,接收所述llm輸出的所述第一結(jié)構(gòu)化數(shù)據(jù)中的待定標(biāo)題;14、將各所述待定標(biāo)題中符合預(yù)設(shè)標(biāo)題特征的待定標(biāo)題,組成所述標(biāo)題列表文件;15、其中,所述預(yù)設(shè)標(biāo)題特征包括如下至少一項(xiàng):16、預(yù)設(shè)字體、預(yù)設(shè)字號(hào)、預(yù)設(shè)字形、預(yù)設(shè)文字標(biāo)記。17、這樣,可以利用llm的推理能力動(dòng)態(tài)分析其中的標(biāo)題,并且考慮到現(xiàn)階段llm在回答問題時(shí)的準(zhǔn)確度一般,因此可以通過預(yù)設(shè)標(biāo)題特征對(duì)待定標(biāo)題進(jìn)行進(jìn)一步地檢驗(yàn),以便篩除llm回答中錯(cuò)誤的待定標(biāo)題,保留下正確的待定標(biāo)題來得到標(biāo)題列表文件。18、作為一種可選的實(shí)施方式,所述對(duì)所述目標(biāo)表格的目標(biāo)文本進(jìn)行解析,得到所述目標(biāo)表格的數(shù)據(jù)對(duì)象,包括:19、在預(yù)設(shè)表格結(jié)構(gòu)信息中匹配與所述目標(biāo)表格的標(biāo)題對(duì)應(yīng)的目標(biāo)表格結(jié)構(gòu);20、根據(jù)所述目標(biāo)表格結(jié)構(gòu)對(duì)所述目標(biāo)表格的目標(biāo)文本進(jìn)行解析,得到所述目標(biāo)表格的數(shù)據(jù)對(duì)象。21、這樣,針對(duì)文檔的不同表格布局,可以通過相應(yīng)配置對(duì)應(yīng)的預(yù)設(shè)表格結(jié)構(gòu)信息來進(jìn)行配置,從而能夠有效處理各種復(fù)雜的表格數(shù)據(jù)。這種模塊化的設(shè)計(jì)也有利于后續(xù)集成和擴(kuò)展。22、作為一種可選的實(shí)施方式,所述對(duì)所述目標(biāo)表格的目標(biāo)文本進(jìn)行解析,得到所述目標(biāo)表格的數(shù)據(jù)對(duì)象,包括:23、通過預(yù)設(shè)第二提問模板,將所述目標(biāo)表格的目標(biāo)文本輸入至llm中,接收所述llm輸出的數(shù)據(jù)對(duì)象。24、這樣,可以利用llm的推理能力直接進(jìn)行數(shù)據(jù)結(jié)構(gòu)化處理,實(shí)施方式較為簡單。25、作為一種可選的實(shí)施方式,所述對(duì)所述目標(biāo)表格的目標(biāo)文本進(jìn)行解析,得到所述目標(biāo)表格的數(shù)據(jù)對(duì)象,包括:26、將所述目標(biāo)表格的目標(biāo)文本和所述目標(biāo)文本在所述文檔中的位置輸入預(yù)訓(xùn)練的表格解析模型,得到所述表格解析模型輸出的關(guān)系矩陣和各目標(biāo)文本屬于表格表頭或表格信息項(xiàng)的分類結(jié)果;所述關(guān)系矩陣表征各目標(biāo)文本相互之間是否存在從屬邏輯關(guān)系;27、根據(jù)所述關(guān)系矩陣和各所述分類結(jié)果生成數(shù)據(jù)對(duì)象。28、更進(jìn)一步地,所述根據(jù)所述關(guān)系矩陣和各所述分類結(jié)果生成數(shù)據(jù)對(duì)象,包括:29、通過預(yù)設(shè)第三提問模板將各所述表格表頭輸入至llm中,接收所述llm輸出的按照邏輯關(guān)系重新排序的各表格表頭;30、根據(jù)所述關(guān)系矩陣,結(jié)合按照邏輯關(guān)系重新排序的各表格表頭,生成數(shù)據(jù)對(duì)象。31、更進(jìn)一步地,所述表格解析模型依次包括輸入層、變壓器transformer層、特征提取層和輸出層;所述輸出層包括分類輸出模塊和關(guān)系判定輸出模塊;所述分類輸出模塊包括第一分類層;所述關(guān)系判定輸出模塊依次包括點(diǎn)乘層和第二分類層;32、所述將所述目標(biāo)表格的目標(biāo)文本和所述目標(biāo)文本在所述文檔中的位置輸入預(yù)訓(xùn)練的表格解析模型,得到所述表格解析模型輸出的關(guān)系矩陣和各目標(biāo)文本屬于表格表頭或表格信息項(xiàng)的分類結(jié)果,包括:33、通過所述輸入層將所述目標(biāo)表格中的各個(gè)目標(biāo)文本分別嵌入為組合向量,通過所述transformer層分別編碼各所述組合向量為特征向量,通過所述特征提取層將得到的n個(gè)特征向量拼接為第一特征矩陣后,通過所述第一分類層將所述第一特征矩陣轉(zhuǎn)化為n維分類向量;其中,n為所述各個(gè)目標(biāo)文本的數(shù)量,所述n維分類向量中的每個(gè)元素表示:相應(yīng)目標(biāo)文本屬于所述表格表頭或所述表格內(nèi)容信息項(xiàng)的分類結(jié)果;所述組合向量中的部分元素是通過對(duì)所述目標(biāo)文本在所述文檔中的位置嵌入得到;34、通過所述點(diǎn)乘層將所述第一特征矩陣與所述第一特征矩陣的轉(zhuǎn)置矩陣點(diǎn)乘得到n×n維第二特征矩陣,將所述第二特征矩陣輸入至所述第二分類層得到n×n×2維度的第三特征矩陣,將所述第三特征矩陣降維生成n×n×1維度的所述關(guān)系矩陣;35、其中,對(duì)于第二特征矩陣中的任一矩陣元素,所述矩陣元素同時(shí)對(duì)應(yīng)兩個(gè)目標(biāo)文本;對(duì)于第二特征矩陣中的任一矩陣元素,所述矩陣元素對(duì)應(yīng)于所述第三特征矩陣中的2個(gè)新增維度分別表示第一概率和第二概率,其中第一概率為所述矩陣元素對(duì)應(yīng)的兩個(gè)目標(biāo)文本之間存在從屬關(guān)系的概率,第二概率為所述矩陣元素對(duì)應(yīng)的兩個(gè)目標(biāo)文本之間不存在從屬關(guān)系的概率;對(duì)于第二特征矩陣中的任一矩陣元素,所述矩陣元素對(duì)應(yīng)于所述關(guān)系矩陣中的新增維度表示所述矩陣元素對(duì)應(yīng)的兩個(gè)目標(biāo)文本之間是否存在從屬關(guān)系。36、更進(jìn)一步地,所述目標(biāo)文本在所述文檔中的位置為所述目標(biāo)文本在所述文檔中占用矩形區(qū)域的角的坐標(biāo)信息;37、所述通過所述輸入層將所述目標(biāo)表格中的各個(gè)目標(biāo)文本分別嵌入為組合向量,通過所述transformer層分別編碼各所述組合向量為特征向量,包括:38、按照各個(gè)目標(biāo)文本在所述文檔中的先后順序依次執(zhí)行如下步驟:39、對(duì)于當(dāng)前目標(biāo)文本,通過所述輸入層將所述當(dāng)前目標(biāo)文本嵌入為文本向量,以及將所述當(dāng)前目標(biāo)文本在所述文檔中的坐標(biāo)信息嵌入為位置向量;40、將所述文本向量和所述位置向量拼接得到所述當(dāng)前目標(biāo)文本對(duì)應(yīng)的組合向量;41、通過所述transformer層將所述組合向量編碼為所述當(dāng)前目標(biāo)文本的特征向量。42、這樣,通過采用預(yù)訓(xùn)練的表格解析模型對(duì)目標(biāo)表格進(jìn)行解析,相比于llm可以有效地減少解析算法所占用的數(shù)據(jù)量。43、第二方面,基于同一發(fā)明構(gòu)思,本技術(shù)實(shí)施例提供了一種文檔表格內(nèi)容結(jié)構(gòu)化處理裝置,包括:44、提取模塊,用于提取文檔中的文本和所述文本所在位置,以及識(shí)別所述文檔中的表格所在位置,根據(jù)提取得到的文本、所述文本所在位置和識(shí)別得到的表格所在位置生成第一結(jié)構(gòu)化數(shù)據(jù);其中,所述第一結(jié)構(gòu)化數(shù)據(jù)記錄了文本和表格在所述文檔中的先后順序,以及同屬于同一表格的表格文本的對(duì)應(yīng)關(guān)系;45、匹配模塊,用于采用標(biāo)題指針對(duì)標(biāo)題列表文件中的標(biāo)題依次進(jìn)行遍歷,其中:在每次將所述標(biāo)題指針指示的標(biāo)題由第一標(biāo)題更新為第二標(biāo)題后,對(duì)所述第一結(jié)構(gòu)化數(shù)據(jù)中的文本,采用內(nèi)容指針從當(dāng)前指示位置開始向后依次進(jìn)行遍歷,直至所述內(nèi)容指針遍歷到所述第二標(biāo)題,則將所述第一標(biāo)題確定為一個(gè)目標(biāo)表格的標(biāo)題,以及將所述第一結(jié)構(gòu)化數(shù)據(jù)中位于所述第一標(biāo)題與所述第二標(biāo)題之間的表格文本,確定為所述目標(biāo)表格的表格文本;若所述第一標(biāo)題為所述標(biāo)題列表文件中的最后一個(gè)標(biāo)題,則將所述第一結(jié)構(gòu)化數(shù)據(jù)的結(jié)束位置視為所述第二標(biāo)題;所述內(nèi)容指針初始的指示位置為所述第一結(jié)構(gòu)化數(shù)據(jù)的起始位置;46、解析模塊,用于對(duì)于每個(gè)目標(biāo)表格,對(duì)所述目標(biāo)表格的表格文本進(jìn)行解析,得到所述目標(biāo)表格的數(shù)據(jù)對(duì)象;47、輸出模塊,用于根據(jù)各所述數(shù)據(jù)對(duì)象生成第二結(jié)構(gòu)化數(shù)據(jù)。48、第三方面,基于同一發(fā)明構(gòu)思,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括:49、存儲(chǔ)器,用于存儲(chǔ)程序指令;50、處理器,用于調(diào)用所述存儲(chǔ)器中存儲(chǔ)的程序指令,按照獲得的程序指令執(zhí)行第一方面所述的方法。51、第四方面,基于同一發(fā)明構(gòu)思,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,所述程序指令當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),使所述計(jì)算機(jī)執(zhí)行如第一方面所述的方法。52、第五方面,基于同一發(fā)明構(gòu)思,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如第一方面所述的方法。53、本技術(shù)的有益技術(shù)效果如下:54、本技術(shù)實(shí)施例提供的文檔表格內(nèi)容結(jié)構(gòu)化處理方法及相關(guān)硬件,通過使用計(jì)算機(jī)程序自動(dòng)對(duì)文檔中的文本和表格進(jìn)行提取,并通過標(biāo)題指針和內(nèi)容指針對(duì)從文檔中提取到的文本匹配所對(duì)應(yīng)的目標(biāo)表格,并對(duì)目標(biāo)表格進(jìn)行解析整理為計(jì)算機(jī)可直接處理的第二結(jié)構(gòu)化數(shù)據(jù),從而能夠?qū)崿F(xiàn)對(duì)文檔的計(jì)算機(jī)自動(dòng)化數(shù)據(jù)錄入,不再需要人工手動(dòng)處理,提高了對(duì)文檔處理的效率。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
翼城县| 台江县| 宜良县| 昆山市| 盐城市| 太仆寺旗| 砀山县| 苏州市| 中江县| 清涧县| 江达县| 大足县| 界首市| 吉水县| 汽车| 定边县| 成武县| 澳门| 望奎县| 稻城县| 开鲁县| 巨野县| 栾城县| 当雄县| 沙坪坝区| 永寿县| 八宿县| 高要市| 肥西县| 霍城县| 廉江市| 宝坻区| 沾化县| 景泰县| 定远县| 大渡口区| 贵南县| 潍坊市| 区。| 山东省| 苍梧县|