1.面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,該面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法包括:
2.根據(jù)權利要求1所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,步驟1包括:
3.根據(jù)權利要求2所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟13,為了防止干擾段落的影響,增加了查詢感知調節(jié)機制,只有查詢對應句子中的子節(jié)點才能被添加;同時,使用最長公共子序列長度計算的f1值作為相似度,通過設置閾值來確定是否出現(xiàn)。
4.根據(jù)權利要求2所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟14,構造實體樹后,認為第i跳子問題的答案最有可能存在于與實體樹第i層節(jié)點相關聯(lián)的段落中;因此,根據(jù)樹中的距離依次添加節(jié)點對應的段落,從而得到過濾后的段落表示c_qetps。
5.根據(jù)權利要求2所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟15,得到的答案集為:a={a_i},
6.根據(jù)權利要求1所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟2,進行多跳的每個檢索步驟時,基于防止推理幻覺的考慮,在每個檢索步驟中隨機加入一個子問題進行檢索。
7.根據(jù)權利要求1所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟3,首先通過將標題作為初始的分割部分,然后在每個標題塊內進行段落級別的分割,同時保留標題的主題結構和段落的細節(jié)內容;將分割得到的段落塊與其他相關的信息進行關聯(lián)。
8.根據(jù)權利要求7所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟3,在讀取外部文檔并進行分塊的過程中,每當讀取到符合標題特點的一行,則將其標記為標題;否則標記為文本;當讀取到下一個標題時,將上一個標題與對應文本寫入分塊中;對于文本長度大于限定長度的分塊,將其拆分成多個固定大小的分塊,并在每個分塊中加入標題,生成多個符合標題-本文范式的分塊。
9.根據(jù)權利要求1所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟4,先用關鍵詞檢索標題以得出最佳分塊,標題即是每個分塊的第一行,因為關鍵詞檢索可以精準匹配少量字符;接著,用向量檢索的方式對分塊中的文本進行二次檢索;最后,將兩者的交集認為是既有匹配關鍵詞又有語義匹配的最佳相關知識;再返回到子問題重新開始,直到生成中有答案是標志時停止檢索。
10.根據(jù)權利要求1所述的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強檢索方法,其特征在于,在步驟5,將檢索到的知識作為大模型生成的提示,輸入到大語言模型中引導生成對原始問題的回答。