一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)與流程

文檔序號(hào)：40574994發(fā)布日期：2025-01-03 11:40閱讀：30來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息處理，更具體地說，涉及一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)。

背景技術(shù)：

1、隨著互聯(lián)網(wǎng)技術(shù)的飛速進(jìn)步和數(shù)據(jù)量的急劇增長(zhǎng)，信息檢索（informationretrieval,?ir）技術(shù)在現(xiàn)代社會(huì)中發(fā)揮著舉足輕重的作用。傳統(tǒng)的信息檢索方法，諸如基于關(guān)鍵詞的搜索技術(shù)和向量空間模型（vector?space?model,?vsm），在面對(duì)海量數(shù)據(jù)時(shí)，逐漸暴露出了一系列挑戰(zhàn)。這些方法主要依賴于關(guān)鍵詞的字面匹配和文檔索引技術(shù)，用戶通過輸入關(guān)鍵詞或短語，系統(tǒng)會(huì)在預(yù)先構(gòu)建的文檔索引庫中查找并返回包含這些關(guān)鍵詞的文檔。

2、盡管這種技術(shù)方案在處理簡(jiǎn)單查詢時(shí)表現(xiàn)出較高的效率，但在面對(duì)具有復(fù)雜語義或歧義的查詢時(shí)，其局限性便顯露無遺。傳統(tǒng)方法主要基于關(guān)鍵詞的字面匹配，缺乏對(duì)查詢語義的深入理解。由于自然語言中存在大量的多義詞和同義詞，同一個(gè)關(guān)鍵詞在不同上下文中可能具有截然不同的含義。然而，傳統(tǒng)檢索方法難以有效區(qū)分這些不同的語義，導(dǎo)致在面對(duì)復(fù)雜或歧義的查詢時(shí)，難以返回準(zhǔn)確且相關(guān)的結(jié)果。另外，傳統(tǒng)信息檢索通常只關(guān)注查詢關(guān)鍵詞和文檔之間的直接匹配程度，而忽略了查詢和文檔之間的上下文關(guān)系。這種忽視上下文的處理方式限制了系統(tǒng)對(duì)查詢意圖的準(zhǔn)確理解，進(jìn)而影響了檢索效果。在實(shí)際應(yīng)用中，用戶查詢往往帶有特定的上下文背景，而傳統(tǒng)方法無法有效捕捉和利用這些信息。

3、相關(guān)技術(shù)中，如中國(guó)專利cn115730083a提供了一種基于文本內(nèi)容知識(shí)圖譜的推薦方法，對(duì)文本內(nèi)容進(jìn)行信息加工形成三元組，構(gòu)建對(duì)應(yīng)文本的知識(shí)圖譜；計(jì)算知識(shí)圖譜向量，采用多向量融合的方式獲取文本的知識(shí)表示向量；針對(duì)查詢文本與候選文本的知識(shí)表示向量使用注意力機(jī)制對(duì)向量進(jìn)行加權(quán)處理；通過神經(jīng)網(wǎng)絡(luò)模型計(jì)算查詢文本與候選文本之間的點(diǎn)擊概率，并基于點(diǎn)擊概率進(jìn)行推薦。該方案不足之處在于仍舊依賴于關(guān)鍵詞匹配和文檔索引技術(shù)，且未能有效解決了傳統(tǒng)信息檢索中的語義鴻溝問題。

技術(shù)實(shí)現(xiàn)思路

1、1.要解決的技術(shù)問題

2、針對(duì)現(xiàn)有技術(shù)中存在的如何提高信息檢索中的搜索結(jié)果的準(zhǔn)確性的問題，本發(fā)明提供了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)，它可以實(shí)現(xiàn)通過在信息檢索時(shí)結(jié)合大語言模型的生成能力，生成更多樣化和更全面的檢索結(jié)果，返回更精確的檢索結(jié)果。

3、2.技術(shù)方案

4、本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn)。

5、本申請(qǐng)的內(nèi)容部分用于以簡(jiǎn)要的形式介紹構(gòu)思，這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。本申請(qǐng)的內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征，也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。

6、本申請(qǐng)的一些實(shí)施例提出了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)，來解決以上背景技術(shù)部分提到的技術(shù)問題。作為本申請(qǐng)的第一方面，本申請(qǐng)的一些實(shí)施例提供了一種基于大模型和知識(shí)圖譜的信息處理方法，包括以下步驟：通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取，從數(shù)據(jù)源中抽取知識(shí)信息；將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合，構(gòu)建知識(shí)圖譜；將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào)，得到微調(diào)后的大模型；結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。

7、更進(jìn)一步的，結(jié)構(gòu)化信息知識(shí)抽取的過程是：針對(duì)結(jié)構(gòu)化信息，通過sql查詢將數(shù)據(jù)表中的記錄映射為知識(shí)圖譜中的實(shí)體與關(guān)系。

8、更進(jìn)一步的，半結(jié)構(gòu)化信息知識(shí)抽取的過程是：針對(duì)半結(jié)構(gòu)化信息，利用正則表達(dá)式，通過匹配半結(jié)構(gòu)化數(shù)據(jù)中的特定模式，提取信息。

9、更進(jìn)一步的，非結(jié)構(gòu)化信息知識(shí)抽取的過程是：針對(duì)非結(jié)構(gòu)化信息，通過構(gòu)建bi-gru+crf神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識(shí)抽?。籦i-gru+crf?神經(jīng)網(wǎng)絡(luò)模型包括詞嵌入層、bi-gru層以及crf層。

10、更進(jìn)一步的，構(gòu)建知識(shí)圖譜的過程包括：定義圖譜的節(jié)點(diǎn)與邊、圖譜存儲(chǔ)以及微調(diào)大模型。

11、更進(jìn)一步的，在圖譜存儲(chǔ)過程中，采用neo4j圖數(shù)據(jù)庫存儲(chǔ)知識(shí)圖譜。

12、更進(jìn)一步的，微調(diào)大模型的步驟包括：將知識(shí)圖譜信息轉(zhuǎn)換為提示詞；將知識(shí)圖譜信息轉(zhuǎn)換為提示詞以及采用lora微調(diào)大模型。

13、更進(jìn)一步的，微調(diào)大模型的計(jì)算過程具體包括：將知識(shí)圖譜信息轉(zhuǎn)換為提示詞，表達(dá)式如下：

14、；

15、其中，t表示知識(shí)圖譜信息，表示轉(zhuǎn)換得到的提示詞，表示將知識(shí)圖譜信息轉(zhuǎn)換為提示詞的過程；

16、構(gòu)建包含輸入為以及輸出為的訓(xùn)練數(shù)據(jù)集d，使用數(shù)據(jù)集d和損失函數(shù)l微調(diào)大模型lm，微調(diào)大模型的表達(dá)式如下：

17、；

18、；

19、其中，表示輸入，表示輸出，表示模型參數(shù)，表示大模型在模型參數(shù)下的輸出，表示微調(diào)后的參數(shù)；表示微調(diào)后的大模型，即微調(diào)大模型的結(jié)果。

20、更進(jìn)一步的，信息檢索的步驟包括：將知識(shí)圖譜結(jié)構(gòu)轉(zhuǎn)換為大模型的提示詞；大模型分析輸入問題和圖譜結(jié)構(gòu)對(duì)應(yīng)的提示詞，生成cypher檢索語句以及大模型根據(jù)知識(shí)圖譜的檢索結(jié)果，生成答案。

21、作為本申請(qǐng)的第二方面，本申請(qǐng)的一些實(shí)施例提供了一種基于大模型和知識(shí)圖譜的信息處理方法的系統(tǒng)，包括多元信息知識(shí)抽取模塊：通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取，從數(shù)據(jù)源中抽取知識(shí)信息；構(gòu)建知識(shí)圖譜模塊：將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合，構(gòu)建知識(shí)圖譜；微調(diào)模塊：將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào)，得到微調(diào)后的大模型；信息檢索模塊：結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。

22、3.有益效果

23、相比于現(xiàn)有技術(shù)，本發(fā)明的優(yōu)點(diǎn)在于：本發(fā)明的基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)通過知識(shí)圖譜構(gòu)建實(shí)體、關(guān)系和屬性的結(jié)構(gòu)化數(shù)據(jù)，能夠準(zhǔn)確表達(dá)和理解查詢中的語義信息；結(jié)合大語言模型對(duì)自然語言文本的深度理解能力，更準(zhǔn)確地理解用戶查詢意圖，從而返回更加精確的檢索結(jié)果。另外，由于知識(shí)圖譜包含豐富的實(shí)體和關(guān)系信息，本發(fā)明通過結(jié)合包含豐富的實(shí)體和關(guān)系信息的知識(shí)圖譜，使得處理過程中能夠覆蓋更廣泛的知識(shí)領(lǐng)域，結(jié)合大語言模型的生成能力，實(shí)現(xiàn)生成更加多樣化和更加全面的更準(zhǔn)確的檢索結(jié)果。

技術(shù)特征：

1.一種基于大模型和知識(shí)圖譜的信息處理方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

3.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

4.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

5.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

6.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

7.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

8.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

9.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法，其特征在于：

10.基于權(quán)利要求1-9任一所述的基于大模型和知識(shí)圖譜的信息處理方法的系統(tǒng)，其特征在于：

技術(shù)總結(jié)
本發(fā)明公開了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)，屬于信息處理技術(shù)領(lǐng)域。包括以下步驟：通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取，從數(shù)據(jù)源中抽取知識(shí)信息；將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合，構(gòu)建知識(shí)圖譜；將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào)，得到微調(diào)后的大模型；結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。相較于現(xiàn)有技術(shù)，本發(fā)明的有益之處在于，結(jié)合包含豐富的實(shí)體和關(guān)系信息的知識(shí)圖譜，使得處理過程中能夠覆蓋更廣泛的知識(shí)領(lǐng)域，結(jié)合大語言模型的生成能力，實(shí)現(xiàn)生成更加多樣化和更加全面的更準(zhǔn)確的檢索結(jié)果。

技術(shù)研發(fā)人員：單海峰,楊垠彬,羅前春,余曉龍,孫井花,范沐陽,束永麗,陳美,丁闖
受保護(hù)的技術(shù)使用者：中電信無人科技（江蘇）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：?jiǎn)魏７?楊垠彬,羅前春,余曉龍,孫井花,范沐陽,束永麗,陳美,丁闖
技術(shù)所有人：中電信無人科技（江蘇）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)與流程