本發(fā)明涉及計算機,具體涉及一種文檔結(jié)構(gòu)化信息坐標映射方法和裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在文檔分析領(lǐng)域,利用ocr(optical?character?recognition,光學(xué)字符識別)和llm(large?language?model,大語言模型)的技術(shù)正在迅速發(fā)展并取得顯著進展。現(xiàn)代ocr技術(shù)不僅能夠高效地識別和提取文本,還在不斷提升對復(fù)雜文檔結(jié)構(gòu)(如表格、圖表和圖像)的解析能力。結(jié)合llm,這些技術(shù)進一步增強了對文檔內(nèi)容的理解和處理能力,使得從非結(jié)構(gòu)化或半結(jié)構(gòu)化文檔中提取關(guān)鍵信息變得更加高效。
2、目前,盡管ocr技術(shù)和llm模型已經(jīng)在文檔分析和信息提取方面取得了顯著進展,但在將文本和其他信息映射到具體坐標位置方面,仍存在諸多挑戰(zhàn)。最新研究指出,現(xiàn)有的ocr系統(tǒng)和llm模型在處理復(fù)雜文檔結(jié)構(gòu)時,尚未能夠準確地提供每個文本片段或數(shù)據(jù)元素的坐標信息,這限制了其在實際應(yīng)用中的精確度和效率。例如,雖然gpt-4已經(jīng)具備了對圖像、pdf文檔的結(jié)構(gòu)化信息提取能力,能夠理解文檔的語義內(nèi)容,但其生成的信息缺乏精確的坐標標注,導(dǎo)致在復(fù)雜文檔處理中,用戶難以快速驗證和確認數(shù)據(jù)的準確性。
3、在實際業(yè)務(wù)中,復(fù)雜文檔若能夠?qū)崿F(xiàn)坐標的映射,將有助于業(yè)務(wù)人員快速確認輸出結(jié)果的正確性,并可以通過相對坐標位置判斷數(shù)據(jù)的準確性。因此,若在文檔分析過程中實現(xiàn)信息的坐標映射將極大提升數(shù)據(jù)驗證的效率和準確性,業(yè)務(wù)人員可以更加直觀地檢查和驗證數(shù)據(jù)的正確性,并在數(shù)據(jù)處理過程中快速定位和糾正錯誤。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種文檔結(jié)構(gòu)化信息坐標映射方法和裝置、設(shè)備及存儲介質(zhì),用以解決現(xiàn)有技術(shù)中利用ocr和llm進行文檔結(jié)構(gòu)化信息提取時缺少坐標映射的問題。
2、為了實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種文檔結(jié)構(gòu)化信息坐標映射方法,包括以下步驟:
4、獲取文檔圖像,使用ocr技術(shù)對文檔圖像進行版面分析,識別文檔的內(nèi)容、結(jié)構(gòu)元素并確定閱讀順序及字符級坐標信息,得到輸入文本信息;
5、利用prompt生成技術(shù)對輸入文本信息進行結(jié)構(gòu)化提取,得到結(jié)構(gòu)化輸出結(jié)果;
6、使用多層次匹配策略結(jié)合語義理解技術(shù)對結(jié)構(gòu)化輸出結(jié)果進行匹配定位,計算與所述輸入文本信息中的精確字符偏移量并將其映射至圖像坐標系,得到精確結(jié)構(gòu)化數(shù)據(jù);
7、將精確結(jié)構(gòu)化數(shù)據(jù)繪制成表單并與所述文檔圖像集成,生成可視化文檔結(jié)構(gòu)化信息界面;
8、其中所述多層次匹配策略包括:
9、對結(jié)構(gòu)化輸出結(jié)果和輸入文本信息進行全文精確匹配,當全文精確匹配失敗時,獲得已知字符偏移值,并進行行級匹配,基于已知字符偏移值從目標行提取行文本內(nèi)容,在已知字符偏移值處查找目標文本片段進行局部精確匹配;
10、若行級匹配未果,則進行段落匹配,在段落范圍內(nèi)進行基于語義的檢索,利用預(yù)訓(xùn)練語言模型計算目標文本與段落中各子句的語義相似度,定位最相關(guān)文本片段;
11、通過詞嵌入技術(shù)與余弦相似度比較,捕捉語義級別的相似性,對結(jié)構(gòu)化輸出結(jié)果進行近似文本匹配,以排除ocr識別誤差。
12、根據(jù)本發(fā)明的一個實施例,所述方法中還包括通過知識圖譜和實體匹配對結(jié)構(gòu)化輸出結(jié)果進行優(yōu)化,實體匹配通過計算結(jié)構(gòu)化輸出結(jié)果中提取的實體與知識圖譜中標準實體之間的相似度確保提取的信息與預(yù)期實體一致。
13、根據(jù)本發(fā)明的一個實施例,依據(jù)所述精確結(jié)構(gòu)化數(shù)據(jù)在所述文檔圖像上繪制所述表單中每個結(jié)構(gòu)化字段相對應(yīng)的矩形區(qū)域,并將所述結(jié)構(gòu)化字段與對應(yīng)所述矩形區(qū)域雙向關(guān)聯(lián)。
14、本發(fā)明還提供了一種文檔結(jié)構(gòu)化信息坐標映射裝置,包括:
15、ocr模塊,用于獲取文檔圖像,使用ocr技術(shù)對文檔圖像進行版面分析,識別文檔的內(nèi)容、結(jié)構(gòu)元素并確定閱讀順序及字符級坐標信息,得到輸入文本信息;
16、llm信息提取模塊,利用prompt生成技術(shù)對輸入文本信息進行結(jié)構(gòu)化提取,得到結(jié)構(gòu)化輸出結(jié)果;
17、文本匹配與坐標計算模塊,使用多層次匹配策略結(jié)合語義理解技術(shù)對結(jié)構(gòu)化輸出結(jié)果進行匹配定位,計算與所述輸入文本信息中的精確字符偏移量并將其映射至圖像坐標系,得到精確結(jié)構(gòu)化數(shù)據(jù);
18、結(jié)構(gòu)可視化模塊,用于將精確結(jié)構(gòu)化數(shù)據(jù)繪制成表單并與所述文檔圖像集成,生成可視化文檔結(jié)構(gòu)化信息界面;
19、其中,文本匹配與坐標計算模塊包括:
20、全文匹配單元,用于對結(jié)構(gòu)化輸出結(jié)果和輸入文本信息進行全文精確匹配并獲得已知字符偏移值;
21、行級匹配單元,用于基于已知字符偏移值從目標行提取行文本內(nèi)容,在已知字符偏移值處查找目標文本片段進行局部精確匹配;
22、段落匹配單元,用于在段落范圍內(nèi)進行基于語義的檢索,利用預(yù)訓(xùn)練語言模型計算目標文本與段落中各子句的語義相似度,定位最相關(guān)文本片段;
23、近似文本匹配單元,用于通過詞嵌入技術(shù)與余弦相似度比較,捕捉語義級別的相似性,對結(jié)構(gòu)化輸出結(jié)果進行近似文本匹配,以排除ocr識別誤差;
24、坐標計算單元,用于計算結(jié)構(gòu)化輸出結(jié)果與輸入文本信息中的精確字符偏移量并將其映射至圖像坐標系,得到精確結(jié)構(gòu)化數(shù)據(jù)。
25、根據(jù)本發(fā)明的一個實施例,所述llm信息提取模塊還包括知識圖譜和實體匹配對單元,用于對結(jié)構(gòu)化輸出結(jié)果進行優(yōu)化,實體匹配單元通過計算結(jié)構(gòu)化輸出結(jié)果中提取的實體與所述知識圖譜中標準實體之間的相似度確保提取的信息與預(yù)期實體一致。
26、根據(jù)本發(fā)明的一個實施例,所述結(jié)構(gòu)可視化模塊還包括繪圖單元,用于依據(jù)所述精確結(jié)構(gòu)化數(shù)據(jù)在所述文檔圖像上繪制所述表單中每個結(jié)構(gòu)化字段相對應(yīng)的矩形區(qū)域,并將所述結(jié)構(gòu)化字段與對應(yīng)所述矩形區(qū)域雙向關(guān)聯(lián)。
27、一種文檔結(jié)構(gòu)化信息坐標映射設(shè)備,包括:
28、處理器;
29、用于存儲處理器可執(zhí)行指令的存儲器;
30、其中,所述處理器被配置為執(zhí)行所述可執(zhí)行指令時實現(xiàn)上述任一項所述的方法。
31、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)上述任一項所述的方法。
32、在上述技術(shù)方案中,本發(fā)明提供的技術(shù)效果和優(yōu)點:
33、1、本發(fā)明能夠有效提升用戶在進行信息檢索時的用戶體驗,通過可視化的方式,用戶能直觀地看到結(jié)構(gòu)化信息在文檔中的確切位置簡化了信息查找與定位的過程,為后續(xù)的文檔分析與處理工作提供了直觀的指導(dǎo),大幅度提升了用戶的工作效率;
34、2、本發(fā)明在文本匹配與坐標計算的過程中,本發(fā)明引入了相對位置加權(quán)的概念,通過量化結(jié)構(gòu)化信息與其上下文之間的相對位置關(guān)系,進一步強化了文本定位的精確度與一致性,不僅鞏固了業(yè)務(wù)處理的效率基礎(chǔ),更是確保了整個處理鏈條的可靠性和魯棒性;
35、3、本發(fā)明能夠高效處理各種復(fù)雜的文檔結(jié)構(gòu),特別是在面對表單與表格這類高度結(jié)構(gòu)化的文檔時,通過定制化的任務(wù)模型,本發(fā)明能夠顯著提升處理性能與輸出的準確率,在面對需要頻繁參考原始文檔的場景,如合同審閱、表單驗證等文檔密集型任務(wù)時,表現(xiàn)出了極高的適用性。