本發(fā)明涉及信息檢索,特別是一種基于人工智能的數(shù)據(jù)搜索方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲規(guī)模急劇增長,尤其是多模態(tài)數(shù)據(jù)的普及,為數(shù)據(jù)搜索和信息檢索技術(shù)帶來了前所未有的挑戰(zhàn)與機(jī)遇,傳統(tǒng)的數(shù)據(jù)搜索方法多集中于結(jié)構(gòu)化數(shù)據(jù),采用基于關(guān)鍵字的檢索策略,無法有效處理非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)形式,隨著人工智能技術(shù)的不斷進(jìn)步,尤其是深度學(xué)習(xí)和自然語言處理技術(shù)的崛起,研究者們逐漸將這些先進(jìn)技術(shù)應(yīng)用于多模態(tài)數(shù)據(jù)的處理和搜索中。
2、現(xiàn)有的數(shù)據(jù)搜索方法仍面臨諸多挑戰(zhàn),現(xiàn)有的方法在特征融合時(shí),多數(shù)僅依賴簡單的加權(quán)平均或拼接,未能有效利用各模態(tài)特征之間的深層次關(guān)系,導(dǎo)致特征表示能力不足,進(jìn)而影響搜索的精確度和召回率,對于基于深度學(xué)習(xí)的模型,模型訓(xùn)練過程中的歷史數(shù)據(jù)不足以及優(yōu)化策略的缺乏,進(jìn)一步限制了搜索算法的效果。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有的基于人工智能的數(shù)據(jù)搜索方法中存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明所要解決的問題在于現(xiàn)有的方法在特征融合時(shí),多數(shù)僅依賴簡單的加權(quán)平均或拼接,未能有效利用各模態(tài)特征之間的深層次關(guān)系,導(dǎo)致特征表示能力不足,進(jìn)而影響搜索的精確度和召回率,對于基于深度學(xué)習(xí)的模型,模型訓(xùn)練過程中的歷史數(shù)據(jù)不足以及優(yōu)化策略的缺乏,進(jìn)一步限制了搜索算法的效果。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于人工智能的數(shù)據(jù)搜索方法及系統(tǒng),其包括,收集多模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,提取預(yù)處理后數(shù)據(jù)點(diǎn)特征向量,接收用戶詢問進(jìn)行查詢解析并計(jì)算與數(shù)據(jù)點(diǎn)特征向量之間的相似度;構(gòu)建距離矩陣,根據(jù)距離矩陣構(gòu)建簡單形,通過邊界算子計(jì)算簡單形的拓?fù)涮卣?;將拓?fù)涮卣鬓D(zhuǎn)換為拓?fù)涮卣飨蛄颗c數(shù)據(jù)點(diǎn)特征向量融合,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)dnn計(jì)算融合特征向量與查詢特征向量之間相似度,生成搜索結(jié)果;構(gòu)建可視化界面展示優(yōu)化后的搜索結(jié)果。
4、作為本發(fā)明所述基于人工智能的數(shù)據(jù)搜索方法的一種優(yōu)選方案,其中:所述收集多模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,提取預(yù)處理后數(shù)據(jù)點(diǎn)特征向量包括:
5、通過api接口收集文本數(shù)據(jù)、語音數(shù)據(jù)以及視頻數(shù)據(jù),分別進(jìn)行預(yù)處理;
6、所述預(yù)處理包括使用正則表達(dá)式刪除文本數(shù)據(jù)的html標(biāo)簽和特殊符號,使用帶通濾波器對語音數(shù)據(jù)進(jìn)行去噪處理,使用高斯濾波器去除視頻數(shù)據(jù)的噪聲;
7、使用bert模型將文本數(shù)據(jù)轉(zhuǎn)換為文本特征向量;
8、將語音數(shù)據(jù)進(jìn)行分幀處理得到語音信號,使用傅里葉變換計(jì)算語音信號的功率譜,使用梅爾濾波器提取語音數(shù)據(jù)的mfcc特征,將mfcc特征進(jìn)行拼接得到語音特征向量;
9、使用vgg提取視頻數(shù)據(jù)的空間特征,結(jié)合lstm處理空間特征獲得視頻特征向量;
10、對數(shù)據(jù)點(diǎn)特征向量進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化后第k個(gè)數(shù)據(jù)點(diǎn)特征向量;所述數(shù)據(jù)點(diǎn)特征向量包括文本特征向量、語音特征向量以及視頻特征向量。
11、作為本發(fā)明所述基于人工智能的數(shù)據(jù)搜索方法的一種優(yōu)選方案,其中:所述接收用戶詢問進(jìn)行查詢解析并計(jì)算與數(shù)據(jù)點(diǎn)特征向量之間的相似度包括;
12、接收用戶詢問信息,加載預(yù)訓(xùn)練的bert模型將詢問信息生成查詢特征向量u’對查詢特征向量進(jìn)行標(biāo)準(zhǔn)化處理;
13、使用余弦相似度計(jì)算標(biāo)準(zhǔn)化后查詢特征向量u與標(biāo)準(zhǔn)化后第k個(gè)數(shù)據(jù)點(diǎn)特征向量之間的相似度。
14、作為本發(fā)明所述基于人工智能的數(shù)據(jù)搜索方法的一種優(yōu)選方案,其中:所述構(gòu)建距離矩陣,根據(jù)距離矩陣構(gòu)建簡單形,通過邊界算子計(jì)算簡單形的拓?fù)涮卣靼ǎ?/p>
15、使用歐氏距離計(jì)算數(shù)據(jù)點(diǎn)特征向量之間的距離;
16、將所有特征向量之間的距離形成距離矩陣d;
17、提取距離矩陣d中非零距離值并按照從小到大排序,生成排序后的距離序列,使用百分位數(shù)法提取距離序列的最小距離設(shè)定初始距離閾值,基于距離序列之間的差值設(shè)定增量步長,使用逐步增量法依次按照距離序列逐步增大距離閾值,通過距離閾值逐步構(gòu)建簡單形;
18、通過邊界算子計(jì)算簡單形第a個(gè)維的拓?fù)涮卣鳌?/p>
19、作為本發(fā)明所述基于人工智能的數(shù)據(jù)搜索方法的一種優(yōu)選方案,其中:所述將拓?fù)涮卣鬓D(zhuǎn)換為拓?fù)涮卣飨蛄颗c數(shù)據(jù)點(diǎn)特征向量融合包括:
20、使用持久熵將拓?fù)涮卣鬓D(zhuǎn)換為拓?fù)涮卣飨蛄縠i’并進(jìn)行標(biāo)準(zhǔn)化處理,使用加權(quán)池化將標(biāo)準(zhǔn)化后的拓?fù)涮卣飨蛄縠i組合為綜合拓?fù)涮卣飨蛄縠;
21、使用加權(quán)平均計(jì)算標(biāo)準(zhǔn)化后的數(shù)據(jù)的特征向量的綜合數(shù)據(jù)點(diǎn)特征向量f;
22、通過非線性變換計(jì)算綜合拓?fù)涮卣飨蛄縠與標(biāo)準(zhǔn)化后第k個(gè)數(shù)據(jù)點(diǎn)特征向量之間的融合的特征向量,公式為:
23、,其中為雙曲正切函數(shù),為極小值,為標(biāo)準(zhǔn)化后第k個(gè)數(shù)據(jù)點(diǎn)特征向量和綜合拓?fù)涮卣飨蛄康狞c(diǎn)積,和分別為標(biāo)準(zhǔn)化后第k個(gè)數(shù)據(jù)點(diǎn)特征向量和綜合拓?fù)涮卣飨蛄康膌2范數(shù)。
24、作為本發(fā)明所述基于人工智能的數(shù)據(jù)搜索方法的一種優(yōu)選方案,其中:所述構(gòu)建深度神經(jīng)網(wǎng)絡(luò)dnn計(jì)算融合特征向量與查詢特征向量之間相似度,生成搜索結(jié)果包括:
25、收集歷史數(shù)據(jù)并進(jìn)行預(yù)處理與提取歷史特征向量,生成訓(xùn)練集;
26、構(gòu)建深度神經(jīng)網(wǎng)絡(luò)dnn模型,包括輸入層、隱藏層和輸出層;
27、設(shè)定輸入層的格式為融合特征向量和標(biāo)準(zhǔn)化后查詢特征向量u;
28、使用訓(xùn)練集對深度神經(jīng)網(wǎng)絡(luò)dnn模型進(jìn)行訓(xùn)練;
29、使用自適應(yīng)調(diào)整機(jī)制對現(xiàn)有的損失函數(shù)進(jìn)行改進(jìn),構(gòu)建改進(jìn)后的損失函數(shù)優(yōu)化模型參數(shù),公式為:
30、,其中為改進(jìn)后的損失函數(shù),為標(biāo)準(zhǔn)化后查詢特征向量和融合特征向量的點(diǎn)積,和分別為標(biāo)準(zhǔn)化后查詢特征向量和融合特征向量的l2范數(shù),w為樣本的數(shù)量,為深度神經(jīng)網(wǎng)絡(luò)dnn模型的輸出,為真實(shí)標(biāo)簽,為標(biāo)準(zhǔn)化后查詢特征向量和融合特征向量之間的歐氏距離;
31、將融合特征向量和查詢特征向量帶入到訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)dnn模型中,得到融合特征向量與標(biāo)準(zhǔn)化后查詢特征向量u之間的相似度;
32、將融合特征向量與標(biāo)準(zhǔn)化后查詢特征向量u之間的相似度與標(biāo)準(zhǔn)化后查詢特征向量u與標(biāo)準(zhǔn)化后第k個(gè)數(shù)據(jù)點(diǎn)特征向量之間的相似度進(jìn)行對比,將相似度大于相似度的數(shù)據(jù)點(diǎn)特征向量保留,提取對應(yīng)的多模態(tài)數(shù)據(jù)生成最終搜索結(jié)果。
33、作為本發(fā)明所述基于人工智能的數(shù)據(jù)搜索方法的一種優(yōu)選方案,其中:所述構(gòu)建可視化界面展示優(yōu)化后的搜索結(jié)果包括:
34、使用react.js構(gòu)建可視化界面展示用戶詢問信息和最終搜索結(jié)果,使用d3.js動(dòng)態(tài)展示多模態(tài)數(shù)據(jù);
35、允許通過實(shí)名驗(yàn)證的用戶進(jìn)行查閱。
36、本發(fā)明的另外一個(gè)目的是提供一種基于人工智能的數(shù)據(jù)搜索系統(tǒng),其包括。
37、一種計(jì)算機(jī)設(shè)備,包括:存儲器和處理器;所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于人工智能的數(shù)據(jù)搜索方法的步驟。
38、一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于人工智能的數(shù)據(jù)搜索方法的步驟。
39、本發(fā)明有益效果為:本發(fā)明通過收集多模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,提取預(yù)處理后數(shù)據(jù)點(diǎn)特征向量,接收用戶詢問進(jìn)行查詢解析并計(jì)算與數(shù)據(jù)點(diǎn)特征向量之間的相似度;構(gòu)建距離矩陣,根據(jù)距離矩陣構(gòu)建簡單形,通過邊界算子計(jì)算簡單形的拓?fù)涮卣?;將拓?fù)涮卣鬓D(zhuǎn)換為拓?fù)涮卣飨蛄颗c數(shù)據(jù)點(diǎn)特征向量融合,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)dnn計(jì)算融合特征向量與查詢特征向量之間相似度,生成搜索結(jié)果;顯著提升對相似度差異的辨別能力,增強(qiáng)數(shù)據(jù)處理和查詢響應(yīng)的效率,提高搜索結(jié)果的準(zhǔn)確性和相關(guān)性。