本發(fā)明涉及計算機(jī),尤其涉及一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法和系統(tǒng)。
背景技術(shù):
1、大型語言模型(llm,large?language?model,其本質(zhì)是生成式模型),如chatgpt(chat?generative?pre-trained?transformer,是openai機(jī)構(gòu)研發(fā)的聊天機(jī)器人程序),能夠為許多下游任務(wù)(例如面向任務(wù)的對話和問題解答)生成類似人類的流暢響應(yīng)。然而,將llm應(yīng)用于現(xiàn)實世界中的任務(wù)解決型應(yīng)用仍然具有挑戰(zhàn)性,主要原因是它們可能會產(chǎn)生與實際不符的回復(fù),以及無法使用外部知識作為參考進(jìn)行回復(fù)的生成。例如,對于“a市現(xiàn)在天氣如何”、“b貨幣兌c貨幣匯率”以及“從c位置到d位置需要多久”等問題,在回答時都需要實時的信息,而這些實時信息(例如實時時間、實時匯率、實時路況和實時交通信息等)根本無法單純依靠llm參數(shù)中蘊(yùn)含的知識來生成,均需要依賴于外部的知識才能生成出準(zhǔn)確的結(jié)果。
2、還有大語言模型存在幻覺問題,如在學(xué)術(shù)領(lǐng)域?qū)τ诨卮鸬臏?zhǔn)確性要求更高,并且希望回答的內(nèi)容可以找到相關(guān)引用信息,而目前的大語言模型甚至可能會編造一些引用信息,無法適用于學(xué)術(shù)領(lǐng)域的問答。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法和系統(tǒng)。
2、本發(fā)明的目的通過如下的技術(shù)方案來實現(xiàn):一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法,包括:
3、將輸入問題通過評判模型判斷是否需要進(jìn)行檢索;
4、若不需要進(jìn)行檢索,則大語言模型直接根據(jù)輸入問題生成答案;
5、若需要進(jìn)行檢索,則判斷輸入問題是否存在緩存數(shù)據(jù)庫中;
6、若存在緩存數(shù)據(jù)庫中,通過在向量空間中計算相似度距離來搜索與輸入問題相關(guān)的緩存問題和/或信息片段;
7、若不存在緩存數(shù)據(jù)庫中,則進(jìn)行網(wǎng)絡(luò)搜索;
8、將緩存數(shù)據(jù)庫搜索得到的信息片段或網(wǎng)絡(luò)搜索得到的信息片段,根據(jù)與輸入問題的關(guān)聯(lián)性進(jìn)行重排序,選取排序在前n個的信息片段;
9、將輸入問題和選取的信息片段輸入到大語言模型,生成答案。
10、進(jìn)一步地,所述網(wǎng)絡(luò)搜索,包括:
11、將輸入問題拆分為多個用于網(wǎng)絡(luò)搜索的子問題;對輸入問題和子問題進(jìn)行網(wǎng)絡(luò)搜索。
12、進(jìn)一步地,通過子問題拆分模型將輸入問題拆分為多個用于網(wǎng)絡(luò)搜索的子問題;所述子問題拆分模型為一種大語言模型。
13、進(jìn)一步地,還包括:將輸入問題和網(wǎng)絡(luò)搜索得到的信息片段進(jìn)行向量化得到向量數(shù)據(jù),將輸入問題和網(wǎng)絡(luò)搜索得到的信息片段及其對應(yīng)的向量數(shù)據(jù)加入緩存數(shù)據(jù)庫中。
14、進(jìn)一步地,通過重排序模型,將緩存數(shù)據(jù)庫搜索得到的信息片段或網(wǎng)絡(luò)搜索得到的信息片段,根據(jù)與輸入問題的關(guān)聯(lián)性進(jìn)行重排序。
15、進(jìn)一步地,所述重排序模型經(jīng)過如下訓(xùn)練:按學(xué)科均勻選取學(xué)術(shù)數(shù)據(jù),根據(jù)學(xué)術(shù)數(shù)據(jù)生成問題,形成問題-答案對,即正樣本;根據(jù)生成的問題檢索獲取正樣本外最相關(guān)的文本集合作為負(fù)樣本;將正負(fù)樣本一起送入重排序模型進(jìn)行訓(xùn)練,其中,正樣本logits?score大于一個批次內(nèi)的負(fù)樣本。
16、進(jìn)一步地,所述將輸入問題和選取的信息片段輸入到大語言模型,生成答案,還包括:
17、將輸入問題、選取的信息片段和指令提示一起組裝成提示詞送給大語言模型,確保大語言模型根據(jù)當(dāng)前提供的信息并結(jié)合固有知識進(jìn)行回答。
18、本發(fā)明還提供了一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的系統(tǒng),包括:
19、意圖理解模塊,用于將輸入問題通過評判模型判斷是否需要進(jìn)行檢索;若需要進(jìn)行檢索,則判斷輸入問題是否存在緩存數(shù)據(jù)庫中;
20、緩存查詢模塊,用于若存在緩存數(shù)據(jù)庫中,通過在向量空間中計算相似度距離來搜索與輸入問題相關(guān)的緩存問題和/或信息片段;
21、網(wǎng)絡(luò)搜索模塊,用于若不存在緩存數(shù)據(jù)庫中,則進(jìn)行網(wǎng)絡(luò)搜索;
22、重排序模塊,用于將緩存數(shù)據(jù)庫搜索得到的信息片段或網(wǎng)絡(luò)搜索得到的信息片段,根據(jù)與輸入問題的關(guān)聯(lián)性進(jìn)行重排序,選取排序在前n個的信息片段;
23、大語言模型生成模塊,用于若不需要進(jìn)行檢索,則大語言模型直接根據(jù)輸入問題生成答案;若需要進(jìn)行檢索,則將輸入問題和選取的信息片段輸入到大語言模型,生成答案。
24、本發(fā)明還提供了一種計算機(jī)設(shè)備,包括存儲器和處理器,存儲器中存儲有計算機(jī)程序,該處理器執(zhí)行計算機(jī)程序時實現(xiàn)上述的一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法。
25、本發(fā)明還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,所述程序被處理器執(zhí)行時實現(xiàn)上述的一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法。
26、本發(fā)明的有益效果如下:
27、傳統(tǒng)大語言模型通過使用網(wǎng)絡(luò)搜索相關(guān)內(nèi)容后向大語言模型提供相關(guān)資料,為大語言模型輸出提供更多信息,增強(qiáng)大模型回答的準(zhǔn)確性,及時性。同時,使用該方法可以降低成本,節(jié)省大模型預(yù)訓(xùn)練的龐大成本。該方法可以為大模型的輸出找到信息來源,有效減少大預(yù)言模型輸出“幻覺”的情況。最后,通過設(shè)計的緩存數(shù)據(jù)機(jī)制可顯著加速查詢響應(yīng)時間。
1.一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)絡(luò)搜索,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過子問題拆分模型將輸入問題拆分為多個用于網(wǎng)絡(luò)搜索的子問題;所述子問題拆分模型為一種大語言模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:將輸入問題和網(wǎng)絡(luò)搜索得到的信息片段進(jìn)行向量化得到向量數(shù)據(jù),將輸入問題和網(wǎng)絡(luò)搜索得到的信息片段及其對應(yīng)的向量數(shù)據(jù)加入緩存數(shù)據(jù)庫中。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過重排序模型,將緩存數(shù)據(jù)庫搜索得到的信息片段或網(wǎng)絡(luò)搜索得到的信息片段,根據(jù)與輸入問題的關(guān)聯(lián)性進(jìn)行重排序。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述重排序模型經(jīng)過如下訓(xùn)練:按學(xué)科均勻選取學(xué)術(shù)數(shù)據(jù),根據(jù)學(xué)術(shù)數(shù)據(jù)生成問題,形成問題-答案對,即正樣本;根據(jù)生成的問題檢索獲取正樣本外最相關(guān)的文本集合作為負(fù)樣本;將正負(fù)樣本一起送入重排序模型進(jìn)行訓(xùn)練,其中,正樣本logits?score大于一個批次內(nèi)的負(fù)樣本。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將輸入問題和選取的信息片段輸入到大語言模型,生成答案,還包括:
8.一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的系統(tǒng),其特征在于,包括:
9.一種計算機(jī)設(shè)備,包括存儲器和處理器,存儲器中存儲有計算機(jī)程序,其特征在于,該處理器執(zhí)行計算機(jī)程序時實現(xiàn)權(quán)利要求1-7任一項所述的一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法。
10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-7中任一項所述的一種使用網(wǎng)絡(luò)搜索增強(qiáng)大語言模型生成的方法。