本發(fā)明涉及信息處理,更具體地說,涉及一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的飛速進(jìn)步和數(shù)據(jù)量的急劇增長(zhǎng),信息檢索(informationretrieval,?ir)技術(shù)在現(xiàn)代社會(huì)中發(fā)揮著舉足輕重的作用。傳統(tǒng)的信息檢索方法,諸如基于關(guān)鍵詞的搜索技術(shù)和向量空間模型(vector?space?model,?vsm),在面對(duì)海量數(shù)據(jù)時(shí),逐漸暴露出了一系列挑戰(zhàn)。這些方法主要依賴于關(guān)鍵詞的字面匹配和文檔索引技術(shù),用戶通過輸入關(guān)鍵詞或短語,系統(tǒng)會(huì)在預(yù)先構(gòu)建的文檔索引庫中查找并返回包含這些關(guān)鍵詞的文檔。
2、盡管這種技術(shù)方案在處理簡(jiǎn)單查詢時(shí)表現(xiàn)出較高的效率,但在面對(duì)具有復(fù)雜語義或歧義的查詢時(shí),其局限性便顯露無遺。傳統(tǒng)方法主要基于關(guān)鍵詞的字面匹配,缺乏對(duì)查詢語義的深入理解。由于自然語言中存在大量的多義詞和同義詞,同一個(gè)關(guān)鍵詞在不同上下文中可能具有截然不同的含義。然而,傳統(tǒng)檢索方法難以有效區(qū)分這些不同的語義,導(dǎo)致在面對(duì)復(fù)雜或歧義的查詢時(shí),難以返回準(zhǔn)確且相關(guān)的結(jié)果。另外,傳統(tǒng)信息檢索通常只關(guān)注查詢關(guān)鍵詞和文檔之間的直接匹配程度,而忽略了查詢和文檔之間的上下文關(guān)系。這種忽視上下文的處理方式限制了系統(tǒng)對(duì)查詢意圖的準(zhǔn)確理解,進(jìn)而影響了檢索效果。在實(shí)際應(yīng)用中,用戶查詢往往帶有特定的上下文背景,而傳統(tǒng)方法無法有效捕捉和利用這些信息。
3、相關(guān)技術(shù)中,如中國(guó)專利cn115730083a提供了一種基于文本內(nèi)容知識(shí)圖譜的推薦方法,對(duì)文本內(nèi)容進(jìn)行信息加工形成三元組,構(gòu)建對(duì)應(yīng)文本的知識(shí)圖譜;計(jì)算知識(shí)圖譜向量,采用多向量融合的方式獲取文本的知識(shí)表示向量;針對(duì)查詢文本與候選文本的知識(shí)表示向量使用注意力機(jī)制對(duì)向量進(jìn)行加權(quán)處理;通過神經(jīng)網(wǎng)絡(luò)模型計(jì)算查詢文本與候選文本之間的點(diǎn)擊概率,并基于點(diǎn)擊概率進(jìn)行推薦。該方案不足之處在于仍舊依賴于關(guān)鍵詞匹配和文檔索引技術(shù),且未能有效解決了傳統(tǒng)信息檢索中的語義鴻溝問題。
技術(shù)實(shí)現(xiàn)思路
1、1.要解決的技術(shù)問題
2、針對(duì)現(xiàn)有技術(shù)中存在的如何提高信息檢索中的搜索結(jié)果的準(zhǔn)確性的問題,本發(fā)明提供了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng),它可以實(shí)現(xiàn)通過在信息檢索時(shí)結(jié)合大語言模型的生成能力,生成更多樣化和更全面的檢索結(jié)果,返回更精確的檢索結(jié)果。
3、2.技術(shù)方案
4、本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn)。
5、本申請(qǐng)的內(nèi)容部分用于以簡(jiǎn)要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。本申請(qǐng)的內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。
6、本申請(qǐng)的一些實(shí)施例提出了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng),來解決以上背景技術(shù)部分提到的技術(shù)問題。作為本申請(qǐng)的第一方面,本申請(qǐng)的一些實(shí)施例提供了一種基于大模型和知識(shí)圖譜的信息處理方法,包括以下步驟:通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取,從數(shù)據(jù)源中抽取知識(shí)信息;將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合,構(gòu)建知識(shí)圖譜;將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào),得到微調(diào)后的大模型;結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。
7、更進(jìn)一步的,結(jié)構(gòu)化信息知識(shí)抽取的過程是:針對(duì)結(jié)構(gòu)化信息,通過sql查詢將數(shù)據(jù)表中的記錄映射為知識(shí)圖譜中的實(shí)體與關(guān)系。
8、更進(jìn)一步的,半結(jié)構(gòu)化信息知識(shí)抽取的過程是:針對(duì)半結(jié)構(gòu)化信息,利用正則表達(dá)式,通過匹配半結(jié)構(gòu)化數(shù)據(jù)中的特定模式,提取信息。
9、更進(jìn)一步的,非結(jié)構(gòu)化信息知識(shí)抽取的過程是:針對(duì)非結(jié)構(gòu)化信息,通過構(gòu)建bi-gru+crf神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識(shí)抽?。籦i-gru+crf?神經(jīng)網(wǎng)絡(luò)模型包括詞嵌入層、bi-gru層以及crf層。
10、更進(jìn)一步的,構(gòu)建知識(shí)圖譜的過程包括:定義圖譜的節(jié)點(diǎn)與邊、圖譜存儲(chǔ)以及微調(diào)大模型。
11、更進(jìn)一步的,在圖譜存儲(chǔ)過程中,采用neo4j圖數(shù)據(jù)庫存儲(chǔ)知識(shí)圖譜。
12、更進(jìn)一步的,微調(diào)大模型的步驟包括:將知識(shí)圖譜信息轉(zhuǎn)換為提示詞;將知識(shí)圖譜信息轉(zhuǎn)換為提示詞以及采用lora微調(diào)大模型。
13、更進(jìn)一步的,微調(diào)大模型的計(jì)算過程具體包括:將知識(shí)圖譜信息轉(zhuǎn)換為提示詞,表達(dá)式如下:
14、;
15、其中,t表示知識(shí)圖譜信息,表示轉(zhuǎn)換得到的提示詞,表示將知識(shí)圖譜信息轉(zhuǎn)換為提示詞的過程;
16、構(gòu)建包含輸入為以及輸出為的訓(xùn)練數(shù)據(jù)集d,使用數(shù)據(jù)集d和損失函數(shù)l微調(diào)大模型lm,微調(diào)大模型的表達(dá)式如下:
17、;
18、;
19、其中,表示輸入,表示輸出,表示模型參數(shù),表示大模型在模型參數(shù)下的輸出,表示微調(diào)后的參數(shù);表示微調(diào)后的大模型,即微調(diào)大模型的結(jié)果。
20、更進(jìn)一步的,信息檢索的步驟包括:將知識(shí)圖譜結(jié)構(gòu)轉(zhuǎn)換為大模型的提示詞;大模型分析輸入問題和圖譜結(jié)構(gòu)對(duì)應(yīng)的提示詞,生成cypher檢索語句以及大模型根據(jù)知識(shí)圖譜的檢索結(jié)果,生成答案。
21、作為本申請(qǐng)的第二方面,本申請(qǐng)的一些實(shí)施例提供了一種基于大模型和知識(shí)圖譜的信息處理方法的系統(tǒng),包括多元信息知識(shí)抽取模塊:通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取,從數(shù)據(jù)源中抽取知識(shí)信息;構(gòu)建知識(shí)圖譜模塊:將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合,構(gòu)建知識(shí)圖譜;微調(diào)模塊:將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào),得到微調(diào)后的大模型;信息檢索模塊:結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。
22、3.有益效果
23、相比于現(xiàn)有技術(shù),本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明的基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)通過知識(shí)圖譜構(gòu)建實(shí)體、關(guān)系和屬性的結(jié)構(gòu)化數(shù)據(jù),能夠準(zhǔn)確表達(dá)和理解查詢中的語義信息;結(jié)合大語言模型對(duì)自然語言文本的深度理解能力,更準(zhǔn)確地理解用戶查詢意圖,從而返回更加精確的檢索結(jié)果。另外,由于知識(shí)圖譜包含豐富的實(shí)體和關(guān)系信息,本發(fā)明通過結(jié)合包含豐富的實(shí)體和關(guān)系信息的知識(shí)圖譜,使得處理過程中能夠覆蓋更廣泛的知識(shí)領(lǐng)域,結(jié)合大語言模型的生成能力,實(shí)現(xiàn)生成更加多樣化和更加全面的更準(zhǔn)確的檢索結(jié)果。
1.一種基于大模型和知識(shí)圖譜的信息處理方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
3.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
4.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
5.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
6.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
7.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
8.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
9.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:
10.基于權(quán)利要求1-9任一所述的基于大模型和知識(shí)圖譜的信息處理方法的系統(tǒng),其特征在于: