本技術(shù)涉及數(shù)據(jù)處理,具體而言,涉及一種多模態(tài)知識庫的管理方法、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著科學(xué)技術(shù)的進(jìn)步,llm(large?language?model,大語言模型)在自然語言處理領(lǐng)域具有越來越廣泛的應(yīng)用。傳統(tǒng)的文本檢索技術(shù)在處理單一文本信息時表現(xiàn)出色,但隨著多模態(tài)數(shù)據(jù)(如表格、圖像等)的增長,單一的文本檢索已經(jīng)難以滿足實際需求。多模態(tài)知識檢索技術(shù)的出現(xiàn)能夠很好地應(yīng)對這一挑戰(zhàn),通過結(jié)合不同模態(tài)的信息,有效提高了知識檢索的準(zhǔn)確性和全面性。
2、然而,現(xiàn)有的多模態(tài)嵌入模型在處理圖像嵌入數(shù)據(jù)時需要處理大量token數(shù)據(jù)(llm處理的基本數(shù)據(jù)單元),因此大大增加了系統(tǒng)的資源消耗,導(dǎo)致多模態(tài)知識處理的效率不高。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提供一種多模態(tài)知識庫的管理方法、設(shè)備及存儲介質(zhì),用以提高多模態(tài)知識處理的效率。
2、第一方面,本技術(shù)實施例提供了一種多模態(tài)知識庫的管理方法,包括:
3、提取原始文檔的第一文本內(nèi)容和圖像數(shù)據(jù);
4、解析所述圖像數(shù)據(jù)并獲取對應(yīng)于所述圖像數(shù)據(jù)的第二文本內(nèi)容;
5、對所述第一文本內(nèi)容和所述第二文本內(nèi)容進(jìn)行組合,得到對應(yīng)于所述原始文檔的混合文本內(nèi)容;
6、對所述混合文本內(nèi)容進(jìn)行分塊處理,得到對應(yīng)的文本內(nèi)容塊集合;
7、基于所述文本內(nèi)容塊集合構(gòu)建多模態(tài)知識庫。
8、在本技術(shù)實施例中,通過提取原始文檔的圖像數(shù)據(jù)并轉(zhuǎn)換為文本內(nèi)容,然后對基于原始文檔的第一文本內(nèi)容與圖生文的第二文本內(nèi)容組合的混合文本內(nèi)容進(jìn)行分塊處理,能夠有效提高多模態(tài)數(shù)據(jù)嵌入的效率和靈活性,從而提高多模態(tài)知識的處理效率。
9、在一些可能的實施例中,在所述基于所述文本內(nèi)容塊集合構(gòu)建多模態(tài)知識庫之后,還包括:
10、響應(yīng)于問題查詢請求,并從所述文本內(nèi)容塊集合中篩選出與所述問題查詢請求相匹配的至少一目標(biāo)文本內(nèi)容塊;
11、基于所述至少一目標(biāo)文本內(nèi)容塊確定對應(yīng)于所述問題查詢請求的回答結(jié)果。
12、在本技術(shù)實施例中,通過首先從整體的文本內(nèi)容塊集合中篩選與查詢問題匹配的文本內(nèi)容塊,以此作為回答查詢問題的數(shù)據(jù)基礎(chǔ),從而能夠進(jìn)一步提高多模態(tài)知識檢索的效率和準(zhǔn)確性。
13、在一些可能的實施例中,所述文本內(nèi)容塊集合中的每一文本內(nèi)容塊為以文本向量的形式存儲在對應(yīng)于所述多模態(tài)知識庫的向量數(shù)據(jù)庫中;
14、所述響應(yīng)于問題查詢請求,并從所述文本內(nèi)容塊集合中篩選出與所述問題查詢請求相匹配的至少一目標(biāo)文本內(nèi)容塊,包括:
15、響應(yīng)于問題查詢請求,并獲取對應(yīng)于所述問題查詢請求的查詢文本向量;
16、遍歷計算所述查詢文本向量與各所述文本內(nèi)容塊的文本向量的向量相似度;
17、基于各所述文本內(nèi)容塊對應(yīng)的向量相似度,將滿足預(yù)設(shè)向量相似度條件的文本內(nèi)容塊作為與所述問題查詢請求相匹配的至少一目標(biāo)文本內(nèi)容塊。
18、在本技術(shù)實施例中,通過以向量形式存儲文本內(nèi)容塊,并通過計算向量相似度的方式篩選目標(biāo)文本內(nèi)容塊,從而進(jìn)一步提高了多模態(tài)知識檢索的效率和靈活性。
19、在一些可能的實施例中,所述的多模態(tài)知識庫的管理方法還包括:
20、在判斷所述至少一目標(biāo)文本內(nèi)容塊中包含所述第二文本內(nèi)容的情況下,基于預(yù)存的圖文映射關(guān)系獲取所述至少一目標(biāo)文本內(nèi)容塊對應(yīng)的目標(biāo)圖像數(shù)據(jù);其中,所述圖文映射關(guān)系是預(yù)先記錄的圖像數(shù)據(jù)及其相應(yīng)的第二文本內(nèi)容的映射關(guān)系;
21、將所述目標(biāo)圖像數(shù)據(jù)作為對應(yīng)于所述問題查詢請求的參考回答結(jié)果并輸出。
22、在本技術(shù)實施例中,通過記錄圖生文內(nèi)容與圖像數(shù)據(jù)的映射關(guān)系,當(dāng)篩選得到的與查詢問題相關(guān)的文本內(nèi)容塊包含圖生文內(nèi)容時,將相應(yīng)的圖像數(shù)據(jù)一并作為回答結(jié)果輸出,從而有效提高了多模態(tài)知識檢索的準(zhǔn)確性和全面性。
23、在一些可能的實施例中,所述對所述混合文本內(nèi)容進(jìn)行分塊處理,得到對應(yīng)的文本內(nèi)容塊集合,包括:
24、按照預(yù)設(shè)的字符數(shù)上限對所述混合文本內(nèi)容中的第一文本內(nèi)容進(jìn)行分塊處理,并按照單位圖像數(shù)據(jù)作為整體塊對所述混合文本內(nèi)容中的第二文本內(nèi)容進(jìn)行分塊處理,得到對應(yīng)的文本內(nèi)容塊集合。
25、在本技術(shù)實施例中,通過對原始文檔的文本內(nèi)容與圖生文的文本內(nèi)容分別按不同規(guī)則進(jìn)行分塊處理,不僅能夠盡可能保證圖生文內(nèi)容信息的完整性,而且能夠更好地保留文本和圖像之間的上下文聯(lián)系,從而進(jìn)一步提高了多模態(tài)知識檢索的準(zhǔn)確性。
26、在一些可能的實施例中,所述解析所述圖像數(shù)據(jù)并獲取對應(yīng)于所述圖像數(shù)據(jù)的第二文本內(nèi)容,包括:
27、基于光學(xué)字符識別技術(shù)對所述圖像數(shù)據(jù)中的文字內(nèi)容進(jìn)行識別,得到對應(yīng)于所述圖像數(shù)據(jù)的第二文本內(nèi)容;
28、或者,基于預(yù)訓(xùn)練的視覺語言模型對所述圖像數(shù)據(jù)進(jìn)行處理,得到所述視覺語言模型輸出的對應(yīng)于所述圖像數(shù)據(jù)的第二文本內(nèi)容。
29、在本技術(shù)實施例中,通過基于不同的方式解析圖像數(shù)據(jù)的文本內(nèi)容,能夠提高提取圖像信息的靈活性和完整性,從而進(jìn)一步提高了多模態(tài)知識檢索的準(zhǔn)確性。
30、在一些可能的實施例中,所述提取原始文檔的第一文本內(nèi)容和圖像數(shù)據(jù),包括:
31、提取原始文檔的第一文本內(nèi)容和圖像數(shù)據(jù),并記錄所述第一文本內(nèi)容的第一位置信息以及所述圖像數(shù)據(jù)的第二位置信息;
32、所述對所述第一文本內(nèi)容和所述第二文本內(nèi)容進(jìn)行組合,得到對應(yīng)于所述原始文檔的混合文本內(nèi)容,包括:
33、基于所述第一位置信息和所述第二位置信息對所述第一文本內(nèi)容和所述第二文本內(nèi)容進(jìn)行排序并組合,得到對應(yīng)于所述原始文檔的混合文本內(nèi)容。
34、在本技術(shù)實施例中,通過記錄原始文檔的文本內(nèi)容與圖像數(shù)據(jù)的位置信息,并基于這些位置信息對轉(zhuǎn)化后的文本內(nèi)容進(jìn)行排序組合,能夠更好保留原始文檔的上下文信息,從而進(jìn)一步提高多模態(tài)知識檢索的準(zhǔn)確性。
35、第二方面,本技術(shù)實施例提供了一種多模態(tài)知識庫的管理裝置,包括:
36、數(shù)據(jù)提取模塊,用于提取原始文檔的第一文本內(nèi)容和圖像數(shù)據(jù);
37、圖像解析模塊,用于解析所述圖像數(shù)據(jù)并獲取對應(yīng)于所述圖像數(shù)據(jù)的第二文本內(nèi)容;
38、文本組合模塊,用于對所述第一文本內(nèi)容和所述第二文本內(nèi)容進(jìn)行組合,得到對應(yīng)于所述原始文檔的混合文本內(nèi)容;
39、文本分塊模塊,用于對所述混合文本內(nèi)容進(jìn)行分塊處理,得到對應(yīng)的文本內(nèi)容塊集合;
40、知識庫構(gòu)建模塊,用于基于所述文本內(nèi)容塊集合構(gòu)建多模態(tài)知識庫。
41、第三方面,本技術(shù)實施例提供了一種電子設(shè)備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機(jī)程序,其中,所述處理器執(zhí)行所述程序時可實現(xiàn)第一方面任一實施例所述的方法。
42、第四方面,本技術(shù)實施例提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器運行時可實現(xiàn)第一方面任一實施例所述的方法。
43、第五方面,本技術(shù)實施例提供了一種計算機(jī)程序產(chǎn)品,所述的計算機(jī)程序產(chǎn)品包括計算機(jī)程序,其中,所述的計算機(jī)程序被處理器執(zhí)行時可實現(xiàn)第一方面任一實施例所述的方法。