本申請涉及數(shù)據(jù)處理,更具體地,涉及一種基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、隨著openai大語言模型chatgpt的成功問世,大語言模型(llm)不僅能夠理解眾多人類問題和指令,并流暢展開多輪對話,還可以通過function?calling的方式與外部系統(tǒng)進(jìn)行交互。然而,大模型在幻覺問題、知識時效性差、垂直領(lǐng)域能力不足等方面仍存在挑戰(zhàn)。rag(檢索增強(qiáng)生成)的出現(xiàn)為解決這些問題提供了一種新思路。rag的一個關(guān)鍵優(yōu)勢在于它可以彌補(bǔ)生成模型的知識盲點(diǎn)。生成模型的知識通常僅限于其訓(xùn)練數(shù)據(jù),而rag能夠動態(tài)地利用最新和更廣泛的外部知識源,從而提高回答的準(zhǔn)確性和時效性。
2、然而,當(dāng)前主流的rag技術(shù)主要針對文本數(shù)據(jù),將其向量化后輸入到向量數(shù)據(jù)庫中,對于多模態(tài)數(shù)據(jù)(圖片、視頻)無有效且系統(tǒng)的方式處理。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中無法將多模態(tài)數(shù)據(jù)應(yīng)用于大模型知識庫的問題,包括:
2、獲取視頻數(shù)據(jù),根據(jù)視頻數(shù)據(jù)提取音頻數(shù)據(jù),判斷是否將音頻數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本;
3、當(dāng)不將音頻數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本時,提取視頻數(shù)據(jù)的圖片數(shù)據(jù),將圖片數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本;
4、對目標(biāo)文本進(jìn)行預(yù)處理,得到預(yù)處理后的文本向量,將預(yù)處理后的文本向量存入向量數(shù)據(jù)庫。
5、進(jìn)一步地,所述根據(jù)視頻數(shù)據(jù)提取音頻數(shù)據(jù),判斷是否將音頻數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本,包括:
6、提取視頻數(shù)據(jù)中的音頻數(shù)據(jù),對視頻數(shù)據(jù)中的音頻數(shù)據(jù)進(jìn)行文本檢測,得到音頻數(shù)據(jù)中的文本數(shù)據(jù);
7、獲取文本數(shù)據(jù)的字符數(shù)量,判斷文本數(shù)據(jù)的字符數(shù)量是否大于第一預(yù)設(shè)閾值,若文本數(shù)據(jù)的字符數(shù)量大于第一預(yù)設(shè)閾值,則直接將文本數(shù)據(jù)設(shè)定為目標(biāo)文本;
8、若文本數(shù)據(jù)的字符數(shù)量小于或等于第一預(yù)設(shè)閾值,則不將文本數(shù)據(jù)設(shè)定為目標(biāo)文本。
9、進(jìn)一步地,所述提取視頻數(shù)據(jù)的圖片數(shù)據(jù),將圖片數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本,包括:
10、根據(jù)音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù)截取視頻數(shù)據(jù)的圖片數(shù)據(jù),提取圖片數(shù)據(jù)中的文本數(shù)據(jù);
11、根據(jù)圖片數(shù)據(jù)中的文本數(shù)據(jù)確定文本數(shù)據(jù)的字符數(shù)量,判斷文本數(shù)據(jù)的字符數(shù)量是否大于第二預(yù)設(shè)閾值,若文本數(shù)據(jù)的字符數(shù)量大于第二預(yù)設(shè)閾值,則直接將文本數(shù)據(jù)設(shè)定為目標(biāo)文本;
12、若文本數(shù)據(jù)的字符數(shù)量小于或等于第二預(yù)設(shè)閾值,則基于圖片理解服務(wù)對圖片數(shù)據(jù)進(jìn)行圖片理解,得到圖片理解數(shù)據(jù),將圖片理解數(shù)據(jù)設(shè)定為目標(biāo)文本。
13、進(jìn)一步地,所述根據(jù)音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù)截取視頻數(shù)據(jù)的圖片數(shù)據(jù),包括:
14、獲取字符數(shù)量小于或等于第一預(yù)設(shè)閾值的音頻數(shù)據(jù)對應(yīng)的時間軸,根據(jù)時間軸確定與音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù);
15、提取視頻數(shù)據(jù)的圖像幀,對視頻數(shù)據(jù)的圖像幀進(jìn)行灰度處理,得到視頻灰度圖像;
16、對視頻灰度圖像進(jìn)行平均分割,得到分割后的若干個灰度圖像塊,獲取預(yù)設(shè)灰度分級,根據(jù)預(yù)設(shè)灰度分級計算灰度圖像塊的灰度熵;
17、計算灰度圖像塊灰度熵的平均值,得到圖像幀的灰度特征值;
18、篩選出灰度特征值大于第二預(yù)設(shè)閾值的圖像幀,得到關(guān)鍵圖像幀,對各關(guān)鍵圖像幀進(jìn)行聚類,根據(jù)聚類結(jié)果確定中心圖像幀,將中心圖像幀作為視頻數(shù)據(jù)的圖片數(shù)據(jù)。
19、進(jìn)一步地,所述根據(jù)預(yù)設(shè)灰度分級計算灰度圖像塊的灰度熵,包括:
20、根據(jù)灰度熵計算公式計算灰度圖像塊的灰度熵,所述灰度熵計算公式具體為,
21、
22、其中,h為灰度熵,m為預(yù)設(shè)灰度分級,p(i)為第i灰度分級在灰度圖像塊的所占頻率。
23、進(jìn)一步地,所述對各關(guān)鍵圖像幀進(jìn)行聚類,包括:
24、隨機(jī)選取k個關(guān)鍵圖像幀作為初始聚類中心,設(shè)定最大迭代次數(shù);
25、計算其余各關(guān)鍵圖像幀的灰度熵與k個初始聚類中心的距離,將各關(guān)鍵圖像幀聚類到與初始聚類中心的距離最近的聚類分區(qū);
26、計算各聚類分區(qū)內(nèi)關(guān)鍵圖像幀灰度熵的均值,根據(jù)各聚類分區(qū)內(nèi)關(guān)鍵圖像幀灰度熵的均值設(shè)定新的聚類中心;
27、重復(fù)迭代新的聚類中心,直至聚類中心不再發(fā)生變化或達(dá)到最大迭代次數(shù),得到最終的k個聚類分區(qū)及對應(yīng)的聚類中心。
28、進(jìn)一步地,所述基于圖片理解服務(wù)對圖片數(shù)據(jù)進(jìn)行圖片理解,包括:
29、建立圖片數(shù)據(jù)庫,獲取圖片數(shù)據(jù)庫的若干個圖片數(shù)據(jù),對圖片數(shù)據(jù)庫的若干個圖片數(shù)據(jù)進(jìn)行預(yù)處理,得到訓(xùn)練樣本集;
30、根據(jù)訓(xùn)練樣本集建立初始圖片理解模型并對初始圖片理解模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的圖片理解模型;
31、將待理解圖片數(shù)據(jù)輸入訓(xùn)練好的圖片理解模型,得到待理解圖片數(shù)據(jù)的圖片理解數(shù)據(jù);
32、進(jìn)一步地,所述對目標(biāo)文本進(jìn)行預(yù)處理,包括:
33、獲取目標(biāo)文本,基于jieba分詞工具對目標(biāo)文本進(jìn)行分詞處理,去除分詞處理后文本的停用詞,得到文本分詞;
34、根據(jù)預(yù)設(shè)向量算法對文本分詞進(jìn)行向量化處理,得到向量化處理后的文本向量。
35、進(jìn)一步地,所述將預(yù)處理后的文本向量存入向量數(shù)據(jù)庫后,還包括:
36、計算各目標(biāo)文本的文本向量的余弦相似度,篩選出余弦相似度大于第三預(yù)設(shè)閾值的目標(biāo)文本;
37、將余弦相似度大于第三預(yù)設(shè)閾值的目標(biāo)文本進(jìn)行鏈接,得到各目標(biāo)文本的鏈接關(guān)系,將各目標(biāo)文本的鏈接關(guān)系存入向量數(shù)據(jù)庫。
38、為了實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建系統(tǒng),包括:
39、第一模塊,用于獲取視頻數(shù)據(jù),根據(jù)視頻數(shù)據(jù)提取音頻數(shù)據(jù),判斷是否將音頻數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本;
40、第二模塊,用于當(dāng)不將音頻數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本時,提取視頻數(shù)據(jù)的圖片數(shù)據(jù),將圖片數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本;
41、第三模塊,用于對目標(biāo)文本進(jìn)行預(yù)處理,得到預(yù)處理后的文本向量,將預(yù)處理后的文本向量存入向量數(shù)據(jù)庫。
42、本發(fā)明的有益效果在于,通過提取視頻數(shù)據(jù)中的音頻及圖片數(shù)據(jù),對視頻數(shù)據(jù)進(jìn)行視頻轉(zhuǎn)音頻處理,防止出現(xiàn)視頻數(shù)據(jù)丟幀導(dǎo)致圖片關(guān)鍵幀丟失的情況,同時通過對圖片數(shù)據(jù)的理解服務(wù),有效防止了圖片提取數(shù)據(jù)為空或者亂碼情況,對多模態(tài)數(shù)據(jù)進(jìn)行有效且系統(tǒng)的處理,有利于完善大模型知識庫,提升回答準(zhǔn)確度。
1.一種基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述根據(jù)視頻數(shù)據(jù)提取音頻數(shù)據(jù),判斷是否將音頻數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本,包括:
3.根據(jù)權(quán)利要求2所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述提取視頻數(shù)據(jù)的圖片數(shù)據(jù),將圖片數(shù)據(jù)的文本數(shù)據(jù)設(shè)定為目標(biāo)文本,包括:
4.根據(jù)權(quán)利要求3所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述根據(jù)音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù)截取視頻數(shù)據(jù)的圖片數(shù)據(jù),包括:
5.根據(jù)權(quán)利要求4所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述根據(jù)預(yù)設(shè)灰度分級計算灰度圖像塊的灰度熵,包括:
6.根據(jù)權(quán)利要求4所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述對各關(guān)鍵圖像幀進(jìn)行聚類,包括:
7.根據(jù)權(quán)利要求3所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述基于圖片理解服務(wù)對圖片數(shù)據(jù)進(jìn)行圖片理解,包括:
8.根據(jù)權(quán)利要求1所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述對目標(biāo)文本進(jìn)行預(yù)處理,包括:
9.根據(jù)權(quán)利要求8所述的基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建方法,其特征在于,所述將預(yù)處理后的文本向量存入向量數(shù)據(jù)庫后,還包括:
10.一種基于視頻數(shù)據(jù)的大模型知識庫構(gòu)建系統(tǒng),其特征在于,包括: