面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法與流程

文檔序號：40535867發(fā)布日期：2025-01-03 10:55閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法與流程

本發(fā)明涉及大語言模型，特別是涉及到一種面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法。

背景技術(shù)：

1、隨著大語言模型(large?language?model,llm)的興起，利用其生成和涌現(xiàn)能力來解決專業(yè)領(lǐng)域問題已經(jīng)變得普遍。然而，由于對數(shù)據(jù)新鮮度的要求，llm對于一些時效性較強(qiáng)的問題可能會給出過時的答案。因此，通過檢索外部相關(guān)信息來增強(qiáng)llm的生成結(jié)果成為一種流行的解決方案，這種方案被稱為檢索增強(qiáng)llm或檢索增強(qiáng)生成rag(retr?i?evalaugmented?generat?i?on)。

2、信息檢索領(lǐng)域的研究者chengxi?ang?zhai和john?lafferty提出的檢索增強(qiáng)llm方法，就是給llm提供外部數(shù)據(jù)庫。對于用戶的問題(query)，通過信息檢索(informat?ionretr?i?eval,ir)技術(shù)，先從外部數(shù)據(jù)庫中檢索出與用戶問題相關(guān)的信息，然后讓llm結(jié)合這些相關(guān)信息來生成結(jié)果。利用檢索技術(shù)從大量外部數(shù)據(jù)中找出與輸入問題最相關(guān)的信息片段，不僅為llm生成回復(fù)提供參考，也在一定程度上過濾掉一些不相關(guān)信息的干擾。相比直接由llm生成答案，該方法提高了生成回復(fù)的準(zhǔn)確性。此外，上下文窗口越大，推理成本越高，因此引入相關(guān)信息檢索步驟也能降低不必要的推理成本。然而，對于一些復(fù)雜問題，這種通過一個步驟得到答案的方式可能會導(dǎo)致生成準(zhǔn)確率低的問題。

3、針對一些復(fù)雜問題，提出了多步驟問答。多步驟問答是自然語言處理(naturallanguage?proces?s,nlp)中的一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)，它在回答問題時通過多步驟的檢索和信息推理，從多個來源中獲取和整合信息。另外，在將外部數(shù)據(jù)庫劃分成塊的過程中，以往的傳統(tǒng)做法是通過設(shè)置一個最大長度，然后根據(jù)最大長度將外部數(shù)據(jù)庫劃分成多個塊。

4、對于多步驟的檢索問答，盡管改進(jìn)了rag，但在生成答案的過程中仍存在明顯的局限性。首先，如果多跳qa(mult?i-hop?qa)系統(tǒng)在推理或信息整合過程中產(chǎn)生了錯誤的假設(shè)或理解，這種錯誤迭代可能導(dǎo)致生成的答案不準(zhǔn)確或存在偏差。其次，對于一些語義復(fù)雜或具有歧義性的問題，由于系統(tǒng)對語境理解不足，可能難以正確獲取并整合信息，導(dǎo)致答案質(zhì)量下降。

5、在將外部數(shù)據(jù)庫通過設(shè)置大小轉(zhuǎn)存進(jìn)數(shù)據(jù)庫并劃分成塊的過程中，會導(dǎo)致字符較少的兩個章節(jié)被放在一個分塊中。在后續(xù)檢索過程中，這樣的分塊會被檢索到，并作為上下文提供給llm以指導(dǎo)其輸出。這無疑會引入過多的干擾信息，導(dǎo)致生成答案質(zhì)量降低。

6、綜上所述，相比直接使用llm生成，多步驟問答在兩個方面實(shí)現(xiàn)了迭代創(chuàng)新：1)檢索指導(dǎo)生成；2)采用多步驟策略。即便如此，對于一些語義復(fù)雜和具有歧義性的問題，該方法仍可能因理解不足而產(chǎn)生錯誤的過程，并且這種錯誤過程的迭代會導(dǎo)致最終答案出現(xiàn)明顯的質(zhì)量問題。此外，外部知識庫劃分的問題也會引入大量干擾信息。為此我們發(fā)明了一種新的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種應(yīng)用于通過檢索增強(qiáng)大語言模型的生成能力中的檢索過程的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法。

2、本發(fā)明的目的可通過如下技術(shù)措施來實(shí)現(xiàn)：面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法，該面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法包括：

3、步驟1，將輸入的問題分解為多個相關(guān)的子問題，通過構(gòu)建實(shí)體樹來確定子問題的求解順序；

4、步驟2，在每個檢索步驟中隨機(jī)加入子問題進(jìn)行檢索；

5、步驟3，通過將段落塊與對應(yīng)的標(biāo)題塊進(jìn)行關(guān)聯(lián)，形成層次化的外部知識庫；

6、步驟4，結(jié)合關(guān)鍵詞檢索和向量檢索，從外部知識庫中找到與輸入問題最相關(guān)的分塊作為提示詞；

7、步驟5，使用大語言模型基于提示詞處理問題，生成對原始問題的最終回答。

8、本發(fā)明的目的還可通過如下技術(shù)措施來實(shí)現(xiàn)：

9、步驟1包括：

10、步驟11，定位問句中的所有實(shí)體，并將這些實(shí)體作為實(shí)體樹的根節(jié)點(diǎn)；

11、步驟12，查找包含這些實(shí)體樹根節(jié)點(diǎn)的段落，并將同一句子中出現(xiàn)的這些實(shí)體與對應(yīng)的實(shí)體樹根節(jié)點(diǎn)關(guān)聯(lián)起來，作為其子節(jié)點(diǎn)；

12、步驟13，從這些子節(jié)點(diǎn)開始，重復(fù)上述過程，直到?jīng)]有新的子節(jié)點(diǎn)可以添加到樹中，形成實(shí)體樹；

13、步驟14，根據(jù)樹中的距離依次添加節(jié)點(diǎn)對應(yīng)的段落，從而得到過濾后的段落表示c_qetps；

14、步驟15，使用先進(jìn)的問答任務(wù)解決方案albertforquest?ionanswer?ing來回答每個子問題，并得到答案集。

15、在步驟13，為了防止干擾段落的影響，增加了查詢感知調(diào)節(jié)機(jī)制，只有查詢對應(yīng)句子中的子節(jié)點(diǎn)才能被添加；同時，使用最長公共子序列長度計算的f1值作為相似度，通過設(shè)置閾值來確定是否出現(xiàn)。

16、在步驟14，構(gòu)造實(shí)體樹后，認(rèn)為第i跳子問題的答案最有可能存在于與實(shí)體樹第i層節(jié)點(diǎn)相關(guān)聯(lián)的段落中；因此，根據(jù)樹中的距離依次添加節(jié)點(diǎn)對應(yīng)的段落，從而得到過濾后的段落表示c_qetps。

17、在步驟15，得到的答案集為：a＝{a_i}，

18、a_i＝reader(sq_i|c_qetps^i),i＝1,2,3,...

19、其中的i代表子問題的個數(shù)，a_i是第i個子答案，sq_i是第i個子問題，c_qetps^i是第i個過濾后的段落表示，reader是albertforquest?ionanswer?ing模型。

20、在步驟2，進(jìn)行多跳的每個檢索步驟中，基于防止推理幻覺的考慮，在每個檢索步驟中隨機(jī)加入一個子問題進(jìn)行檢索。

21、在步驟3，首先通過將標(biāo)題作為初始的分割部分，然后在每個標(biāo)題塊內(nèi)進(jìn)行段落級別的分割，可以同時保留標(biāo)題的主題結(jié)構(gòu)和段落的細(xì)節(jié)內(nèi)容；將分割得到的段落塊與其他相關(guān)的信息進(jìn)行關(guān)聯(lián)。

22、在步驟3，在讀取外部文檔并進(jìn)行分塊的過程中，每當(dāng)讀取到符合標(biāo)題特點(diǎn)的一行，則將其標(biāo)記為標(biāo)題；否則標(biāo)記為文本；當(dāng)讀取到下一個標(biāo)題時，將上一個標(biāo)題與對應(yīng)文本寫入分塊中；對于文本長度大于限定長度的分塊，將其拆分成多個固定大小的分塊，并在每個分塊中加入標(biāo)題，生成多個符合標(biāo)題-本文范式的分塊。

23、在步驟4，先用關(guān)鍵詞檢索標(biāo)題以得出最佳分塊，標(biāo)題即是每個分塊的第一行；因?yàn)殛P(guān)鍵詞檢索可以精準(zhǔn)匹配少量字符；接著，用向量檢索的方式對分塊中的文本進(jìn)行二次檢索；最后，將兩者的交集認(rèn)為是既有匹配關(guān)鍵詞又有語義匹配的最佳相關(guān)知識；再返回到子問題重新開始，直到生成中有答案是標(biāo)志時停止檢索。

24、在步驟5，將檢索到的知識作為大模型生成的提示，輸入到大語言模型中引導(dǎo)生成對原始問題的回答。

25、本發(fā)明中的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法，針對將外部知識庫轉(zhuǎn)存進(jìn)數(shù)據(jù)庫劃分成塊過程中產(chǎn)生的干擾信息問題，提出了一種標(biāo)題分塊與組合檢索的方法，該方法以標(biāo)題為分塊標(biāo)準(zhǔn)，將同一標(biāo)題下的段落放在一個分塊中，然后利用關(guān)鍵詞檢索和向量檢索組合的方式檢索出相關(guān)內(nèi)容。通過這種方法，不僅可以顯著提高檢索效率，還能夠在不同層次的細(xì)粒度和粗粒度檢索中取得理想的效果。在細(xì)粒度檢索方面，將同一標(biāo)題下的段落歸為一個分塊，并結(jié)合關(guān)鍵詞和向量檢索，可以對數(shù)據(jù)庫中的信息進(jìn)行精細(xì)化處理和分析，系統(tǒng)能夠識別和提取非常具體的細(xì)節(jié)信息，滿足用戶對高精度和詳細(xì)信息的需求。例如，用戶查詢特定問題時，系統(tǒng)能準(zhǔn)確定位到相關(guān)段落和句子，提供詳細(xì)且精確的答案。在粗粒度檢索方面，標(biāo)題分塊的方法有效減少檢索范圍，避免無關(guān)信息降低檢索效率，同時結(jié)合向量檢索，系統(tǒng)可以快速提取與用戶查詢相關(guān)的大量信息，提供總體趨勢和概要性結(jié)果。這對于需要快速了解大體情況或總體趨勢的用戶尤為重要，例如，在瀏覽某一主題的總體信息時，系統(tǒng)能迅速提供相關(guān)大塊內(nèi)容，提高用戶整體信息獲取效率。因此，這種方法不僅在提高檢索效率方面表現(xiàn)出色，而且在需要精細(xì)分析和快速概覽的不同場景中都能取得良好效果。

26、另一方面，針對一些語義復(fù)雜與歧義性較大的問題造成最終答案低質(zhì)量的問題，本發(fā)明提出了子問題增強(qiáng)檢索的方法，該方法將輸入的問題分解為多個子問題，然后每個步驟中添加子問題去引導(dǎo)檢索，取代了每個步驟中單一的用上次生成引導(dǎo)檢索，該方法的目的主要是從多個方面檢索，增加多樣性，防止思維定式。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳遠(yuǎn)明,王天穎,莊健,李棟棟
技術(shù)所有人：上海軒田智能科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種紙尿褲芯體擴(kuò)散測試裝置的制作方法
上一篇：一種適合鋰電池的過流保護(hù)電路的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法與流程