本發(fā)明涉及計(jì)算機(jī)自然語(yǔ)言信息處理及人工智能,特別涉及基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法。
背景技術(shù):
1、當(dāng)前,依賴(lài)于知識(shí)庫(kù)的專(zhuān)家系統(tǒng)尚未能完全模仿人類(lèi)專(zhuān)家的廣泛常識(shí)和適應(yīng)能力。它們無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí),與那些融合了機(jī)器學(xué)習(xí)技術(shù)的先進(jìn)人工智能系統(tǒng)相比,它們嚴(yán)格受限于預(yù)設(shè)的編程規(guī)則和數(shù)據(jù)集。這些系統(tǒng)的知識(shí)領(lǐng)域往往較為狹窄,難以擴(kuò)展到其他領(lǐng)域,隨著專(zhuān)家系統(tǒng)的規(guī)模不斷擴(kuò)大,隨之而來(lái)的是輸出結(jié)果的準(zhǔn)確性問(wèn)題,錯(cuò)誤率有所增加。在信息處理方面,大多數(shù)知識(shí)庫(kù)系統(tǒng)主要依賴(lài)于關(guān)鍵詞匹配或基于文檔鏈接的知識(shí)檢索方法,這導(dǎo)致了一些用戶(hù)體驗(yàn)上的不足,如知識(shí)錄入和維護(hù)過(guò)程的復(fù)雜性,以及答案呈現(xiàn)時(shí)缺乏整合性和邏輯性。
2、rag(retrieval-augmented?generation)模型是一種結(jié)合了檢索(retrieval)和生成(generation)的人工智能技術(shù)。與傳統(tǒng)的基于知識(shí)庫(kù)的專(zhuān)家系統(tǒng)相比,rag模型可以從大量的文本數(shù)據(jù)中檢索信息,這使得它能夠訪問(wèn)比傳統(tǒng)專(zhuān)家系統(tǒng)更廣泛的知識(shí)庫(kù),rag模型在生成回答時(shí),不僅依賴(lài)于預(yù)設(shè)的規(guī)則,還能夠理解和整合上下文信息,提供更加準(zhǔn)確和連貫的答案。
3、因此,如何簡(jiǎn)化知識(shí)庫(kù)的維護(hù)同時(shí)提供更友好、更邏輯化的答案呈現(xiàn),從而生成更好的新一代專(zhuān)家系統(tǒng)成為本領(lǐng)域技術(shù)人員亟需解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提供基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,實(shí)現(xiàn)的目的是簡(jiǎn)化知識(shí)庫(kù)的維護(hù)同時(shí)提供更友好、更邏輯化的答案呈現(xiàn),從而生成更好的新一代專(zhuān)家系統(tǒng)。
2、為實(shí)現(xiàn)上述目的,本發(fā)明公開(kāi)了基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,包括如下步驟:
3、步驟1、知識(shí)庫(kù)構(gòu)建;
4、步驟2、檢索系統(tǒng)構(gòu)建;
5、步驟3、生成系統(tǒng)構(gòu)建。
6、優(yōu)選的,步驟1具體如下:
7、步驟1.1、數(shù)據(jù)準(zhǔn)備,具體為:根據(jù)預(yù)期要生成的“領(lǐng)域?qū)<摇?,挑選具有代表性的知識(shí)文檔形成所需要的數(shù)據(jù);
8、步驟1.2、數(shù)據(jù)解析,具體為:從各種格式的所述所需要的數(shù)據(jù)中進(jìn)行解析生成包括標(biāo)題和內(nèi)容”的結(jié)構(gòu)化文本;
9、步驟1.3、數(shù)據(jù)分塊,具體為:對(duì)處理后的所述結(jié)構(gòu)化文本進(jìn)行分塊;
10、將所述結(jié)構(gòu)化文本按照固定的最大長(zhǎng)度進(jìn)行分塊,并盡量使得同一個(gè)所述標(biāo)題所對(duì)應(yīng)的所述內(nèi)容,均被劃分到相同的文本塊中;
11、步驟1.4、數(shù)據(jù)入庫(kù),具體為:采用語(yǔ)義向量模型對(duì)分塊后的所述結(jié)構(gòu)化文本進(jìn)行向量化的表示;
12、對(duì)于同一個(gè)“領(lǐng)域?qū)<摇睂?duì)應(yīng)的知識(shí)庫(kù),把相應(yīng)的向量化的所述文本塊,存放在同一個(gè)“集合”中。
13、更優(yōu)選的,在步驟1.1中,所述知識(shí)文檔是多樣化的。
14、更優(yōu)選的,在步驟1.4中,將每一所述文本塊的向量表示和對(duì)應(yīng)的文本數(shù)據(jù)存儲(chǔ)為索引。
15、優(yōu)選的,步驟2具體如下:
16、步驟2.1、問(wèn)題理解,具體為:對(duì)用戶(hù)提問(wèn)的意圖進(jìn)行理解,并根據(jù)上下文信息對(duì)用戶(hù)的問(wèn)題進(jìn)行改寫(xiě),并對(duì)改寫(xiě)后的問(wèn)題進(jìn)行向量化的表示;
17、步驟2.2、內(nèi)容查詢(xún),具體為:根據(jù)所述用戶(hù)問(wèn)題的向量化的數(shù)值,從所述知識(shí)庫(kù)中檢索出與所述用戶(hù)問(wèn)題最相關(guān)的文本塊的數(shù)值向量,并根據(jù)索引得到對(duì)應(yīng)的所述文本塊;
18、步驟2.3、相關(guān)度排序,具體為:采用重排模型對(duì)查詢(xún)得到的所述文本塊的文本數(shù)據(jù),與所述用戶(hù)問(wèn)題進(jìn)行相關(guān)度排序,得到最有價(jià)值的所述文本塊;
19、步驟2.4、返回文本塊,具體為:根據(jù)預(yù)先設(shè)置好的閾值,返回大于所述閾值的所有所述文本塊,或者設(shè)置topk,根據(jù)相關(guān)度的排序,返回前k個(gè)數(shù)據(jù)。
20、優(yōu)選的,步驟3具體如下:
21、步驟3.1、構(gòu)建提示模板,具體為:根據(jù)專(zhuān)家系統(tǒng)的設(shè)計(jì)需求,進(jìn)行提示模板的創(chuàng)建;
22、所述提示模板用于給定的場(chǎng)景下,引導(dǎo)大語(yǔ)言模型根據(jù)檢索得到的文本塊,生成滿(mǎn)足用戶(hù)查詢(xún)意圖的內(nèi)容;
23、步驟3.2、文本生成,具體為:根據(jù)所述提示模板的內(nèi)容構(gòu)成,把查詢(xún)得到的所述文本塊,按照順序填充進(jìn)所述提示模板,并通過(guò)設(shè)定好大語(yǔ)言模型扮演的角色,引導(dǎo)大語(yǔ)言模型根據(jù)模板內(nèi)容進(jìn)行文本生成;
24、步驟3.3、結(jié)果展示,具體為:根據(jù)專(zhuān)家系統(tǒng)的設(shè)計(jì)需求,構(gòu)建前端頁(yè)面;
25、所述前端頁(yè)面支持用戶(hù)與大語(yǔ)言模型進(jìn)行互動(dòng),用戶(hù)可以根據(jù)自己的需求,選擇不同類(lèi)型的專(zhuān)家進(jìn)行提問(wèn)。
26、本發(fā)明的有益效果:
27、本發(fā)明的應(yīng)用能夠簡(jiǎn)化知識(shí)庫(kù)的維護(hù)同時(shí)提供更友好、更邏輯化的答案呈現(xiàn),從而生成更好的新一代專(zhuān)家系統(tǒng)。
28、以下將結(jié)合附圖對(duì)本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說(shuō)明,以充分地了解本發(fā)明的目的、特征和效果。
1.基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法;其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,其特征在于,步驟1具體如下:
3.根據(jù)權(quán)利要求2所述的基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,其特征在于,在步驟1.1中,所述知識(shí)文檔是多樣化的。
4.根據(jù)權(quán)利要求2所述的基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,其特征在于,在步驟1.4中,將每一所述文本塊的向量表示和對(duì)應(yīng)的文本數(shù)據(jù)存儲(chǔ)為索引。
5.根據(jù)權(quán)利要求1所述的基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,其特征在于,步驟2具體如下:
6.根據(jù)權(quán)利要求1所述的基于rag技術(shù)的專(zhuān)家系統(tǒng)的構(gòu)建方法,其特征在于,步驟3具體如下: