本發(fā)明涉及多模態(tài)文檔,尤其涉及一種基于大語言模型的多模態(tài)文檔結(jié)構(gòu)化處理與知識提取方法。
背景技術(shù):
1、現(xiàn)有技術(shù)中針對非結(jié)構(gòu)化、多模態(tài)文檔的處理主要依賴于單一模態(tài)的數(shù)據(jù)處理方式,如僅處理文本、圖像或圖表中的某一種類型數(shù)據(jù),現(xiàn)有技術(shù)的處理方法雖然在某些場景下可以有效實現(xiàn)信息的提取和處理,但當(dāng)面對包含多種模態(tài)數(shù)據(jù)的復(fù)雜文檔時,現(xiàn)有技術(shù)顯得力不從心,傳統(tǒng)的單模態(tài)處理方式無法有效地將多種類型的數(shù)據(jù)進(jìn)行融合分析,導(dǎo)致在信息提取和知識表示方面存在明顯的局限性,尤其是在需要自動化處理大量非結(jié)構(gòu)化、多模態(tài)文檔時,傳統(tǒng)技術(shù)往往需要依賴大量的人工干預(yù),無法實現(xiàn)高效的自動化處理。
2、現(xiàn)有技術(shù)中,文本處理技術(shù)如自然語言處理已發(fā)展較為成熟,尤其是基于bert大語言模型的應(yīng)用可以實現(xiàn)一定的文本語義理解、分詞、詞性標(biāo)注功能,但這些大多只針對純文本數(shù)據(jù),缺乏對非文本數(shù)據(jù)的處理能力,而針對圖像和圖表的特征提取技術(shù),多采用卷積神經(jīng)網(wǎng)絡(luò)視覺模型,但模型無法與文本數(shù)據(jù)進(jìn)行深度融合,導(dǎo)致從多模態(tài)數(shù)據(jù)中提取知識的精度和廣泛性不足。
3、綜上所述,現(xiàn)有技術(shù)主要存在以下缺點:首先,現(xiàn)有的單模態(tài)處理方式在多模態(tài)文檔處理中的適用性較差,缺乏有效的多模態(tài)數(shù)據(jù)融合方法;其次,現(xiàn)有的文本處理和視覺特征提取技術(shù)彼此割裂,無法實現(xiàn)對多模態(tài)數(shù)據(jù)的聯(lián)合理解。
技術(shù)實現(xiàn)思路
1、本發(fā)明的一個目的在于提出一種基于大語言模型的多模態(tài)文檔結(jié)構(gòu)化處理與知識提取方法,本發(fā)明實現(xiàn)了對非結(jié)構(gòu)化和多模態(tài)文檔的結(jié)構(gòu)化處理和知識提取。
2、根據(jù)本發(fā)明實施例的一種基于大語言模型的多模態(tài)文檔結(jié)構(gòu)化處理與知識提取方法,包括如下步驟:
3、s1、接收輸入的多模態(tài)文檔,所述多模態(tài)文檔包含至少一種文本數(shù)據(jù)和至少一種非文本數(shù)據(jù);
4、s2、對所述多模態(tài)文檔中的文本數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括分詞、詞性標(biāo)注、句法分析及實體識別;
5、s3、對所述多模態(tài)文檔中的非文本數(shù)據(jù)進(jìn)行特征提??;
6、s4、將預(yù)處理后的文本數(shù)據(jù)與特征提取后的非文本數(shù)據(jù)進(jìn)行多模態(tài)數(shù)據(jù)融合;
7、s5、通過預(yù)先訓(xùn)練的改進(jìn)bert模型對所述融合后的多模態(tài)數(shù)據(jù)進(jìn)行深度語義分析;
8、s6、基于所述深度語義分析的結(jié)果,自動化地將提取的信息構(gòu)建知識圖譜;
9、s7、將知識圖譜的數(shù)據(jù)輸出為可供分析或應(yīng)用的格式。
10、可選的,所述步驟s1包括:
11、s11、接收由多個數(shù)據(jù)源提供的多模態(tài)文檔輸入信號,所述數(shù)據(jù)源包括文本數(shù)據(jù)源和非文本數(shù)據(jù)源,所述文本數(shù)據(jù)源提供包含自然語言內(nèi)容的文本數(shù)據(jù),所述非文本數(shù)據(jù)源提供圖像、圖表或其他類型的非文本數(shù)據(jù):
12、
13、其中,dm表示接收到的多模態(tài)文檔輸入數(shù)據(jù)集,tdi表示第i個文本數(shù)據(jù)單元,ndj表示第j個非文本數(shù)據(jù)單元,nt和nn分別表示文本數(shù)據(jù)和非文本數(shù)據(jù)的數(shù)量,表示多模態(tài)數(shù)據(jù)的并行接收和組合操作;
14、s12、對文本數(shù)據(jù)td和非文本數(shù)據(jù)nd進(jìn)行同步輸入操作,使文本數(shù)據(jù)和非文本數(shù)據(jù)同時導(dǎo)入到處理系統(tǒng)中;
15、s13、對輸入的文本數(shù)據(jù)td和非文本數(shù)據(jù)nd進(jìn)行初步數(shù)據(jù)類型識別,基于元數(shù)據(jù)標(biāo)識mt對文本數(shù)據(jù)類型進(jìn)行驗證,通過圖像特征矩陣if驗證非文本數(shù)據(jù)類型;
16、s14、根據(jù)識別結(jié)果,將文本數(shù)據(jù)td和非文本數(shù)據(jù)nd分類存儲于文本數(shù)據(jù)緩存單元ct和非文本數(shù)據(jù)緩存單元cn中。
17、可選的,所述步驟s2包括:
18、s21、使用基于上下文注意力機(jī)制的詞匯匹配算法對接收的文本數(shù)據(jù)td進(jìn)行分詞處理,執(zhí)行分詞操作:
19、
20、其中,td表示輸入的文本數(shù)據(jù),tdi表示文本數(shù)據(jù)中的第i個詞,lm(td)是分詞處理結(jié)果,αi和βi分別表示全局詞典匹配權(quán)重和上下文相似度權(quán)重,w(tdi)表示詞典中的詞條匹配得分,c(tdi)表示詞tdi的上下文詞集,sim(tdi,tj)表示詞tdi與上下文詞tj的相似度;
21、s22、使用基于條件隨機(jī)場的詞性標(biāo)注模型對分詞后的文本數(shù)據(jù)進(jìn)行詞性標(biāo)注,詞性標(biāo)注過程如下:
22、
23、其中,tdi表示第i個詞,pdi表示對應(yīng)的詞性標(biāo)簽,ψ(tdi,pdi)表示詞tdi與其詞性pdi之間的兼容性函數(shù),φ(pdi-1,pdi)表示詞性轉(zhuǎn)移概率,ps(td)表示分詞后文本數(shù)據(jù)的詞性標(biāo)注集合;
24、s23、對標(biāo)注后的文本數(shù)據(jù)進(jìn)行句法分析,使用依存樹句法分析模型構(gòu)建文本的語法結(jié)構(gòu)樹,具體過程如下:
25、
26、其中,tdi和tdj表示文本中的兩個詞,δ(tdi,tdj)表示詞語間的距離,τ(pdi,pdj)表示詞性之間的依存關(guān)系權(quán)重,dep(tdi,tdj)表示詞語間的依存關(guān)系強(qiáng)度,st(td)表示文本數(shù)據(jù)的句法結(jié)構(gòu)樹;
27、s24、使用基于雙向長短期記憶和條件隨機(jī)場的實體識別模型對經(jīng)過句法分析的文本數(shù)據(jù)進(jìn)行實體識別,執(zhí)行實體識別:
28、
29、其中,tdi表示文本中的第i個詞,edi表示對應(yīng)的實體標(biāo)簽,λ(tdi,edi)表示詞與實體標(biāo)簽之間的兼容性得分,μ(edi-1,edi)表示實體標(biāo)簽間的轉(zhuǎn)移得分,γ表示多模態(tài)數(shù)據(jù)之間的融合系數(shù),att(tdi,fj)表示文本詞tdi與非文本數(shù)據(jù)特征fj的注意力權(quán)重,er(td)表示文本數(shù)據(jù)中的實體識別結(jié)果。
30、可選的,所述步驟s3包括:
31、s31、對多模態(tài)文檔中的圖像數(shù)據(jù)id進(jìn)行視覺特征提取,使用卷積神經(jīng)網(wǎng)絡(luò)對圖像數(shù)據(jù)中的空間特征進(jìn)行分析提取圖像特征向量vi:
32、
33、其中,id表示輸入的圖像數(shù)據(jù),ilk表示圖像中的第l層和第k個特征點,wlk表示權(quán)重參數(shù),f(ilk)表示圖像特征點的非線性激活函數(shù),blk表示偏置值,vi表示圖像的視覺特征向量;
34、s32、使用基于區(qū)域提案網(wǎng)絡(luò)的模型對圖像數(shù)據(jù)中的目標(biāo)對象進(jìn)行檢測,生成候選區(qū)域框ri,并對每個區(qū)域框執(zhí)行目標(biāo)分類:
35、
36、其中,rpi表示第i個候選區(qū)域,oi表示真實目標(biāo)區(qū)域,p表示候選區(qū)域的數(shù)量,φ(rpi)為區(qū)域提案的置信度評分,iou(rpi,oi)表示候選區(qū)域與真實目標(biāo)區(qū)域之間的交并比;
37、s33、對多模態(tài)文檔中的圖表數(shù)據(jù)gd進(jìn)行結(jié)構(gòu)識別,提取圖表中的關(guān)鍵結(jié)構(gòu)信息sg,包括坐標(biāo)軸、數(shù)據(jù)點、標(biāo)簽和線條關(guān)系:
38、
39、其中,gd表示輸入的圖表數(shù)據(jù),gdj表示圖表中的第j個數(shù)據(jù)元素,lj表示與數(shù)據(jù)元素相關(guān)的標(biāo)簽,γj表示權(quán)重參數(shù),rel(gdj,lj)表示圖表數(shù)據(jù)元素與其標(biāo)簽之間的關(guān)聯(lián)關(guān)系強(qiáng)度,sg表示圖表的結(jié)構(gòu)識別結(jié)果。
40、可選的,所述步驟s4包括:
41、s41、將預(yù)處理后的文本數(shù)據(jù)td的特征向量ps(td)與特征提取后的非文本數(shù)據(jù)nv進(jìn)行特征向量融合,構(gòu)建多模態(tài)特征矩陣mf:
42、
43、其中,ps(td)表示文本數(shù)據(jù)的詞性標(biāo)注特征向量,vi表示圖像數(shù)據(jù)的視覺特征向量,sg表示圖表數(shù)據(jù)的結(jié)構(gòu)特征,λ1和λ2分別表示文本和非文本數(shù)據(jù)的融合權(quán)重,mf表示融合后的多模態(tài)特征矩陣;
44、s42、基于注意力機(jī)制計算文本數(shù)據(jù)與非文本數(shù)據(jù)之間的關(guān)聯(lián)性得分as(td,nd),其中,文本數(shù)據(jù)的分詞結(jié)果lm(td)與非文本數(shù)據(jù)的候選區(qū)域框ri用于計算相似性得分:
45、
46、其中,lm(tdi)表示文本數(shù)據(jù)中的分詞結(jié)果,rj表示非文本數(shù)據(jù)中的候選區(qū)域,αij表示文本數(shù)據(jù)與非文本數(shù)據(jù)之間的注意力權(quán)重,sim(lm(tdi),rj)表示文本數(shù)據(jù)詞與非文本數(shù)據(jù)候選區(qū)域之間的相似度得分,as(td,nd)表示文本數(shù)據(jù)與非文本數(shù)據(jù)的關(guān)聯(lián)性得分;
47、s43、基于關(guān)聯(lián)性得分as(td,nd)對多模態(tài)數(shù)據(jù)進(jìn)行信息融合生成最終的多模態(tài)特征矩陣mr:
48、
49、其中,βij表示融合后的權(quán)重系數(shù),表示文本數(shù)據(jù)詞與圖像及圖表特征的融合操作,mr表示最終生成的多模態(tài)表示。
50、可選的,所述步驟s5包括:
51、s51、將融合后的多模態(tài)特征矩陣mr輸入至預(yù)先訓(xùn)練的改進(jìn)bert模型執(zhí)行深度語義分析,改進(jìn)bert模型對文本和非文本數(shù)據(jù)的嵌入表示進(jìn)行聯(lián)合編碼,生成多模態(tài)語義向量sv;
52、s52、通過注意力機(jī)制在多模態(tài)語義向量mr中執(zhí)行關(guān)鍵實體識別,改進(jìn)bert模型計算每個詞和非文本特征的注意力權(quán)重,識別出多模態(tài)數(shù)據(jù)中的關(guān)鍵實體ek:
53、
54、其中,svi表示多模態(tài)語義向量中的第i個詞或特征,tdi表示相應(yīng)的文本詞語,αi表示注意力權(quán)重;
55、s53、基于改進(jìn)bert模型的深度語義關(guān)系抽取模塊,計算多模態(tài)語義向量中的實體之間的關(guān)系rs(ek),并通過事件檢測模塊在多模態(tài)語義向量中識別出事件evs。
56、可選的,所述步驟s6包括:
57、s61、基于深度語義分析的結(jié)果從多模態(tài)語義向量sv提取文本實體節(jié)點et和非文本實體節(jié)點en,構(gòu)建知識圖譜的初始節(jié)點集ng:
58、文本實體節(jié)點et表示從文本數(shù)據(jù)中提取的人物、地名和事件;
59、非文本實體節(jié)點en表示從圖像和圖表非文本數(shù)據(jù)中提取的物體和數(shù)據(jù)點;
60、s62、根據(jù)文本數(shù)據(jù)與非文本數(shù)據(jù)之間的語義關(guān)系生成節(jié)點之間的邊lg,所述邊包括表示文本描述與圖像中對象之間關(guān)系的邊和表示圖表數(shù)據(jù)與文本描述之間關(guān)系的邊;
61、s63、基于圖結(jié)構(gòu)學(xué)習(xí)模型對節(jié)點和邊的權(quán)重ωn和ωl進(jìn)行優(yōu)化生成優(yōu)化后的知識圖譜kg。
62、可選的,所述步驟s63包括:
63、s631、基于圖結(jié)構(gòu)學(xué)習(xí)模型對初始知識圖譜中的節(jié)點權(quán)重ωn和邊權(quán)重ω1進(jìn)行初始化,節(jié)點權(quán)重ωn初始化為節(jié)點的度數(shù),邊權(quán)重ω1初始化為節(jié)點間的關(guān)聯(lián)強(qiáng)度;
64、s632、基于梯度下降算法優(yōu)化節(jié)點權(quán)重和邊權(quán)重,迭代更新節(jié)點和邊的權(quán)重值和
65、
66、
67、其中,η2為學(xué)習(xí)率,和分別表示損失函數(shù)l對節(jié)點權(quán)重和邊權(quán)重的偏導(dǎo)數(shù);
68、s633、損失函數(shù)l通過最小化節(jié)點和邊之間的誤差來進(jìn)行優(yōu)化,優(yōu)化的目的是通過最小化l提升知識圖譜的準(zhǔn)確性和關(guān)聯(lián)性:
69、
70、其中,sim(ei,ej)表示節(jié)點ei與節(jié)點ej之間的相似性,l表示節(jié)點和邊之間的總損失;
71、s634、在優(yōu)化迭代過程中,根據(jù)最優(yōu)的節(jié)點權(quán)重和邊權(quán)重生成最終優(yōu)化后的知識圖譜kg:
72、
73、其中,kg表示最終優(yōu)化后的知識圖譜,包含優(yōu)化后的節(jié)點集ng、邊集lg以及節(jié)點權(quán)重和邊權(quán)重
74、本發(fā)明的有益效果是:
75、(1)本發(fā)明通過將文本數(shù)據(jù)與非文本數(shù)據(jù)進(jìn)行融合處理,提出了基于改進(jìn)bert模型的多模態(tài)融合方法,利用特征提取模型對文本和非文本數(shù)據(jù)分別進(jìn)行特征提取,再將其通過自適應(yīng)的權(quán)重機(jī)制進(jìn)行特征融合,生成多模態(tài)特征矩陣,不僅提升了文本與圖像、圖表數(shù)據(jù)之間的關(guān)聯(lián)性識別精度,還增強(qiáng)了系統(tǒng)對復(fù)雜文檔的理解能力,使得系統(tǒng)能夠從多模態(tài)數(shù)據(jù)中提取更準(zhǔn)確、更全面的語義信息,克服了現(xiàn)有技術(shù)中單模態(tài)處理的局限性。
76、(2)在本發(fā)明的技術(shù)方案中,基于圖結(jié)構(gòu)學(xué)習(xí)模型對知識圖譜的節(jié)點權(quán)重和邊權(quán)重進(jìn)行自適應(yīng)優(yōu)化,通過引入梯度下降算法和優(yōu)化損失函數(shù)的計算能夠動態(tài)調(diào)整知識圖譜中節(jié)點和邊的權(quán)重分布,優(yōu)化后的知識圖譜能夠更精準(zhǔn)地表達(dá)文本與非文本數(shù)據(jù)之間的語義關(guān)系,相比現(xiàn)有的知識圖譜構(gòu)建技術(shù),本發(fā)明不僅能夠處理純文本數(shù)據(jù),還可以有效結(jié)合圖像和圖表數(shù)據(jù),使構(gòu)建的知識圖譜具有更高的表達(dá)能力和精度,確保復(fù)雜文檔中的關(guān)鍵知識得以全面表示。
77、(3)本發(fā)明通過引入改進(jìn)的bert模型和自監(jiān)督學(xué)習(xí)機(jī)制,結(jié)合多模態(tài)融合技術(shù),顯著提高了復(fù)雜文檔的自動化處理效率,與傳統(tǒng)需要大量人工干預(yù)的技術(shù)不同,本發(fā)明能夠在無監(jiān)督或弱監(jiān)督的情況下通過深度語義分析與實體識別和關(guān)系抽取步驟,實現(xiàn)自動化的知識提取和結(jié)構(gòu)化處理,減少了人工操作的復(fù)雜度,同時大幅降低了處理多模態(tài)文檔的時間成本,提高了系統(tǒng)的整體處理效率,解決了現(xiàn)有技術(shù)在大規(guī)模、多模態(tài)文檔處理中的效率低下問題。