欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)與流程

文檔序號(hào):40574994發(fā)布日期:2025-01-03 11:40閱讀:30來源:國(guó)知局
一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)與流程

本發(fā)明涉及信息處理,更具體地說,涉及一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)。


背景技術(shù):

1、隨著互聯(lián)網(wǎng)技術(shù)的飛速進(jìn)步和數(shù)據(jù)量的急劇增長(zhǎng),信息檢索(informationretrieval,?ir)技術(shù)在現(xiàn)代社會(huì)中發(fā)揮著舉足輕重的作用。傳統(tǒng)的信息檢索方法,諸如基于關(guān)鍵詞的搜索技術(shù)和向量空間模型(vector?space?model,?vsm),在面對(duì)海量數(shù)據(jù)時(shí),逐漸暴露出了一系列挑戰(zhàn)。這些方法主要依賴于關(guān)鍵詞的字面匹配和文檔索引技術(shù),用戶通過輸入關(guān)鍵詞或短語,系統(tǒng)會(huì)在預(yù)先構(gòu)建的文檔索引庫中查找并返回包含這些關(guān)鍵詞的文檔。

2、盡管這種技術(shù)方案在處理簡(jiǎn)單查詢時(shí)表現(xiàn)出較高的效率,但在面對(duì)具有復(fù)雜語義或歧義的查詢時(shí),其局限性便顯露無遺。傳統(tǒng)方法主要基于關(guān)鍵詞的字面匹配,缺乏對(duì)查詢語義的深入理解。由于自然語言中存在大量的多義詞和同義詞,同一個(gè)關(guān)鍵詞在不同上下文中可能具有截然不同的含義。然而,傳統(tǒng)檢索方法難以有效區(qū)分這些不同的語義,導(dǎo)致在面對(duì)復(fù)雜或歧義的查詢時(shí),難以返回準(zhǔn)確且相關(guān)的結(jié)果。另外,傳統(tǒng)信息檢索通常只關(guān)注查詢關(guān)鍵詞和文檔之間的直接匹配程度,而忽略了查詢和文檔之間的上下文關(guān)系。這種忽視上下文的處理方式限制了系統(tǒng)對(duì)查詢意圖的準(zhǔn)確理解,進(jìn)而影響了檢索效果。在實(shí)際應(yīng)用中,用戶查詢往往帶有特定的上下文背景,而傳統(tǒng)方法無法有效捕捉和利用這些信息。

3、相關(guān)技術(shù)中,如中國(guó)專利cn115730083a提供了一種基于文本內(nèi)容知識(shí)圖譜的推薦方法,對(duì)文本內(nèi)容進(jìn)行信息加工形成三元組,構(gòu)建對(duì)應(yīng)文本的知識(shí)圖譜;計(jì)算知識(shí)圖譜向量,采用多向量融合的方式獲取文本的知識(shí)表示向量;針對(duì)查詢文本與候選文本的知識(shí)表示向量使用注意力機(jī)制對(duì)向量進(jìn)行加權(quán)處理;通過神經(jīng)網(wǎng)絡(luò)模型計(jì)算查詢文本與候選文本之間的點(diǎn)擊概率,并基于點(diǎn)擊概率進(jìn)行推薦。該方案不足之處在于仍舊依賴于關(guān)鍵詞匹配和文檔索引技術(shù),且未能有效解決了傳統(tǒng)信息檢索中的語義鴻溝問題。


技術(shù)實(shí)現(xiàn)思路

1、1.要解決的技術(shù)問題

2、針對(duì)現(xiàn)有技術(shù)中存在的如何提高信息檢索中的搜索結(jié)果的準(zhǔn)確性的問題,本發(fā)明提供了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng),它可以實(shí)現(xiàn)通過在信息檢索時(shí)結(jié)合大語言模型的生成能力,生成更多樣化和更全面的檢索結(jié)果,返回更精確的檢索結(jié)果。

3、2.技術(shù)方案

4、本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn)。

5、本申請(qǐng)的內(nèi)容部分用于以簡(jiǎn)要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。本申請(qǐng)的內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。

6、本申請(qǐng)的一些實(shí)施例提出了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng),來解決以上背景技術(shù)部分提到的技術(shù)問題。作為本申請(qǐng)的第一方面,本申請(qǐng)的一些實(shí)施例提供了一種基于大模型和知識(shí)圖譜的信息處理方法,包括以下步驟:通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取,從數(shù)據(jù)源中抽取知識(shí)信息;將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合,構(gòu)建知識(shí)圖譜;將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào),得到微調(diào)后的大模型;結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。

7、更進(jìn)一步的,結(jié)構(gòu)化信息知識(shí)抽取的過程是:針對(duì)結(jié)構(gòu)化信息,通過sql查詢將數(shù)據(jù)表中的記錄映射為知識(shí)圖譜中的實(shí)體與關(guān)系。

8、更進(jìn)一步的,半結(jié)構(gòu)化信息知識(shí)抽取的過程是:針對(duì)半結(jié)構(gòu)化信息,利用正則表達(dá)式,通過匹配半結(jié)構(gòu)化數(shù)據(jù)中的特定模式,提取信息。

9、更進(jìn)一步的,非結(jié)構(gòu)化信息知識(shí)抽取的過程是:針對(duì)非結(jié)構(gòu)化信息,通過構(gòu)建bi-gru+crf神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識(shí)抽?。籦i-gru+crf?神經(jīng)網(wǎng)絡(luò)模型包括詞嵌入層、bi-gru層以及crf層。

10、更進(jìn)一步的,構(gòu)建知識(shí)圖譜的過程包括:定義圖譜的節(jié)點(diǎn)與邊、圖譜存儲(chǔ)以及微調(diào)大模型。

11、更進(jìn)一步的,在圖譜存儲(chǔ)過程中,采用neo4j圖數(shù)據(jù)庫存儲(chǔ)知識(shí)圖譜。

12、更進(jìn)一步的,微調(diào)大模型的步驟包括:將知識(shí)圖譜信息轉(zhuǎn)換為提示詞;將知識(shí)圖譜信息轉(zhuǎn)換為提示詞以及采用lora微調(diào)大模型。

13、更進(jìn)一步的,微調(diào)大模型的計(jì)算過程具體包括:將知識(shí)圖譜信息轉(zhuǎn)換為提示詞,表達(dá)式如下:

14、;

15、其中,t表示知識(shí)圖譜信息,表示轉(zhuǎn)換得到的提示詞,表示將知識(shí)圖譜信息轉(zhuǎn)換為提示詞的過程;

16、構(gòu)建包含輸入為以及輸出為的訓(xùn)練數(shù)據(jù)集d,使用數(shù)據(jù)集d和損失函數(shù)l微調(diào)大模型lm,微調(diào)大模型的表達(dá)式如下:

17、;

18、;

19、其中,表示輸入,表示輸出,表示模型參數(shù),表示大模型在模型參數(shù)下的輸出,表示微調(diào)后的參數(shù);表示微調(diào)后的大模型,即微調(diào)大模型的結(jié)果。

20、更進(jìn)一步的,信息檢索的步驟包括:將知識(shí)圖譜結(jié)構(gòu)轉(zhuǎn)換為大模型的提示詞;大模型分析輸入問題和圖譜結(jié)構(gòu)對(duì)應(yīng)的提示詞,生成cypher檢索語句以及大模型根據(jù)知識(shí)圖譜的檢索結(jié)果,生成答案。

21、作為本申請(qǐng)的第二方面,本申請(qǐng)的一些實(shí)施例提供了一種基于大模型和知識(shí)圖譜的信息處理方法的系統(tǒng),包括多元信息知識(shí)抽取模塊:通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取,從數(shù)據(jù)源中抽取知識(shí)信息;構(gòu)建知識(shí)圖譜模塊:將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合,構(gòu)建知識(shí)圖譜;微調(diào)模塊:將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào),得到微調(diào)后的大模型;信息檢索模塊:結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。

22、3.有益效果

23、相比于現(xiàn)有技術(shù),本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明的基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng)通過知識(shí)圖譜構(gòu)建實(shí)體、關(guān)系和屬性的結(jié)構(gòu)化數(shù)據(jù),能夠準(zhǔn)確表達(dá)和理解查詢中的語義信息;結(jié)合大語言模型對(duì)自然語言文本的深度理解能力,更準(zhǔn)確地理解用戶查詢意圖,從而返回更加精確的檢索結(jié)果。另外,由于知識(shí)圖譜包含豐富的實(shí)體和關(guān)系信息,本發(fā)明通過結(jié)合包含豐富的實(shí)體和關(guān)系信息的知識(shí)圖譜,使得處理過程中能夠覆蓋更廣泛的知識(shí)領(lǐng)域,結(jié)合大語言模型的生成能力,實(shí)現(xiàn)生成更加多樣化和更加全面的更準(zhǔn)確的檢索結(jié)果。



技術(shù)特征:

1.一種基于大模型和知識(shí)圖譜的信息處理方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

3.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

4.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

5.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

6.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

7.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

8.根據(jù)權(quán)利要求5所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

9.根據(jù)權(quán)利要求1所述的基于大模型和知識(shí)圖譜的信息處理方法,其特征在于:

10.基于權(quán)利要求1-9任一所述的基于大模型和知識(shí)圖譜的信息處理方法的系統(tǒng),其特征在于:


技術(shù)總結(jié)
本發(fā)明公開了一種基于大模型和知識(shí)圖譜的信息處理方法及系統(tǒng),屬于信息處理技術(shù)領(lǐng)域。包括以下步驟:通過結(jié)構(gòu)化信息知識(shí)抽取、半結(jié)構(gòu)化信息知識(shí)抽取以及非結(jié)構(gòu)化信息知識(shí)抽取,從數(shù)據(jù)源中抽取知識(shí)信息;將抽取出知識(shí)信息中的實(shí)體信息及關(guān)系信息整合,構(gòu)建知識(shí)圖譜;將知識(shí)圖譜中的任務(wù)轉(zhuǎn)換為提示詞的形式輸入到大模型進(jìn)行微調(diào),得到微調(diào)后的大模型;結(jié)合知識(shí)圖譜和微調(diào)后的大模型進(jìn)行信息檢索并生成結(jié)果。相較于現(xiàn)有技術(shù),本發(fā)明的有益之處在于,結(jié)合包含豐富的實(shí)體和關(guān)系信息的知識(shí)圖譜,使得處理過程中能夠覆蓋更廣泛的知識(shí)領(lǐng)域,結(jié)合大語言模型的生成能力,實(shí)現(xiàn)生成更加多樣化和更加全面的更準(zhǔn)確的檢索結(jié)果。

技術(shù)研發(fā)人員:單海峰,楊垠彬,羅前春,余曉龍,孫井花,范沐陽,束永麗,陳美,丁闖
受保護(hù)的技術(shù)使用者:中電信無人科技(江蘇)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沙田区| 湘乡市| 克东县| 浪卡子县| 富源县| 祁门县| 赫章县| 西丰县| 开原市| 亚东县| 金川县| 乌什县| 陇南市| 工布江达县| 华宁县| 兴安盟| 盐边县| 阳城县| 东平县| 新巴尔虎右旗| 徐汇区| 光山县| 鄂州市| 神农架林区| 康平县| 收藏| 塔城市| 普洱| 昭觉县| 射阳县| 邯郸市| 上林县| 抚远县| 疏附县| 徐水县| 新巴尔虎左旗| 朔州市| 屯门区| 内黄县| 枞阳县| 石台县|