本公開涉及計(jì)算機(jī)領(lǐng)域,更具體地講,涉及一種指令遵循對(duì)齊的檢索增強(qiáng)生成系統(tǒng)。
背景技術(shù):
1、在真實(shí)世界的用戶與模型的交互場(chǎng)景中,用戶在提出問題時(shí)往往不會(huì)遵循標(biāo)準(zhǔn)的交互模板,而是對(duì)模型輸出施加多樣化的指令以滿足特定任務(wù)需求。因此,具備強(qiáng)大的指令跟隨能力是大型語言模型和檢索增強(qiáng)生成系統(tǒng)(rag)的應(yīng)用基礎(chǔ)。指令跟隨的核心目標(biāo)是使模型能夠適應(yīng)用戶的多樣化意圖,這在大型語言模型社區(qū)中引起了廣泛關(guān)注?,F(xiàn)有的技術(shù)方案主要在大語言模型與檢索增強(qiáng)生成兩部分進(jìn)行探究。
2、大模型的指令跟隨對(duì)齊:指令遵循能力是大語言模型最為核心的基礎(chǔ)能力之一?,F(xiàn)有工作主要可以分為兩類。第一組重點(diǎn)關(guān)注如何評(píng)測(cè)全面性評(píng)測(cè)現(xiàn)有大模型的instruction?following能力,一些先驅(qū)工作如c-eval、mt-bench致力于全面性的評(píng)測(cè)模型面對(duì)通用自然指令的遵循能力。而以ifeval[1]為代表的系列工作旨在焦于特定指令約束的細(xì)粒度評(píng)測(cè),并基于規(guī)則進(jìn)行校驗(yàn),是目前最廣泛的大語言模型指令遵循評(píng)測(cè)基準(zhǔn)。進(jìn)一步的,followbench,infobench,cfbench,complexbench,refutebench從指令的難度、領(lǐng)域、組合類型,任務(wù)形式進(jìn)行了更復(fù)雜的設(shè)計(jì),為大模型指令遵循能力提出了更嚴(yán)格的標(biāo)準(zhǔn)。除了評(píng)測(cè)外,另一系列工作持續(xù)關(guān)注如何提升大模型的指令遵循對(duì)齊。最簡(jiǎn)單自然的方法是通過標(biāo)注員進(jìn)行手動(dòng)設(shè)計(jì)指令并撰寫回復(fù)。然而創(chuàng)建高度復(fù)雜和多樣化的指令對(duì)人類本就具有挑戰(zhàn)性,且高昂的標(biāo)注與校驗(yàn)成本也使得這一過程難以擴(kuò)展。為了緩解這一問題,另一類方法旨在先合成多樣化的指令數(shù)據(jù),并讓較弱的模型對(duì)高級(jí)語言模型如gpt4的回復(fù)進(jìn)行的行為模仿,進(jìn)而實(shí)現(xiàn)的strong-to-weak的指令遵循對(duì)齊。
3、檢索增強(qiáng)生成的對(duì)齊:檢索增強(qiáng)生成(rag)通過檢索相關(guān)事實(shí)信息來解決大語言模型中的知識(shí)幻覺問題,提供了一個(gè)有前景的解決方案。然而,高效地將檢索到的知識(shí)與大語言模型的偏好對(duì)齊仍然是一個(gè)挑戰(zhàn)。許多研究人員致力于研究了基于重排序器的方法,如lrl,prp等以減少噪聲信息來彌合這一差距。進(jìn)一步的,以filco為代表的方法通過訓(xùn)練數(shù)據(jù)篩選模型實(shí)現(xiàn)進(jìn)一步的對(duì)齊。除此以外,以knowpat為代表的偏好對(duì)齊方法,將大語言模型的偏好整合到訓(xùn)練目標(biāo)中以改進(jìn)對(duì)齊。selfrag與metarag使用多輪檢索和生成來優(yōu)化輸出并實(shí)現(xiàn)更好的對(duì)齊。盡管取得了這些進(jìn)展,檢索增強(qiáng)技術(shù)引入的多樣化知識(shí)對(duì)大語言模型處理復(fù)雜指令仍然構(gòu)成了重大挑戰(zhàn)。這突顯了在rag系統(tǒng)中實(shí)現(xiàn)有效指令跟隨對(duì)齊的進(jìn)一步探索的必要性。
4、現(xiàn)有的指令遵循技術(shù)雖然有一定的成果與進(jìn)展,然而,在復(fù)雜的檢索增強(qiáng)生成(rag)場(chǎng)景中,檢索增強(qiáng)技術(shù)引入的多樣化知識(shí)對(duì)llms有效處理復(fù)雜指令提出了重大挑戰(zhàn)。為了量化分析這一問題,我們對(duì)比了基礎(chǔ)模型與它微調(diào)了高質(zhì)量的通用和基于知識(shí)的問答數(shù)據(jù)集后的性能對(duì)比。微調(diào)版本的模型在指令遵循和檢索增強(qiáng)生成任務(wù)中都表現(xiàn)出強(qiáng)大的能力(mistral-base?vs.mistral-sft)。這些能力并不總是能很好地泛化到檢索增強(qiáng)生成場(chǎng)景下的指令跟隨任務(wù)中,甚至?xí)c其他基本能力產(chǎn)生沖突。遺憾的是,目前關(guān)于檢索增強(qiáng)生成系統(tǒng)中指令跟隨的研究仍然有限,嚴(yán)重阻礙了其在現(xiàn)實(shí)世界交互中的應(yīng)用。我們將以上的挑戰(zhàn)概括為以下兩點(diǎn):
5、(1)如何在檢索增強(qiáng)生成場(chǎng)景中全面評(píng)估復(fù)雜的指令跟隨能力。
6、(2)如何在檢索增強(qiáng)生成系統(tǒng)中實(shí)現(xiàn)可擴(kuò)展且可靠的指令跟隨對(duì)齊,同時(shí)避免與其基礎(chǔ)能力被沖突。
技術(shù)實(shí)現(xiàn)思路
1、本公開的實(shí)施例的目的在于提供一種指令遵循對(duì)齊的檢索增強(qiáng)生成系統(tǒng)。
2、在一個(gè)總的方面,提供一種指令遵循對(duì)齊的檢索增強(qiáng)生成系統(tǒng),包括兩部分:指令合成階段和指令查詢合成階段;指令合成階段接收小批量的文本限制指令,輸出經(jīng)過多重質(zhì)量校驗(yàn)的大批量文本限制;在指令查詢合成階段,外部輸入變量包括三個(gè)部分:用戶的查詢問題、在指令合成階段生成的限制指令,以及通過稠密檢索器召回的相關(guān)知識(shí),輸出以文本形式輸出滿足用戶復(fù)雜的指令限制的回答用戶的查詢問題;最終將合成的對(duì)齊數(shù)據(jù)構(gòu)建成通用對(duì)齊數(shù)據(jù)集;
3、所述指令合成階段首先進(jìn)行手寫種子指令,以人工方式為每種類型的約束手動(dòng)創(chuàng)建15條單一原子指令;之后進(jìn)行指令組合與驗(yàn)證,設(shè)計(jì)規(guī)則,自動(dòng)將原子指令組合成多重約束霍鏈?zhǔn)揭?guī)則約束的復(fù)雜指令,得到初始的種子指令集dseed;而后指令重寫與質(zhì)量驗(yàn)證,使用一個(gè)監(jiān)督模型gpt-4以每輪50個(gè)指令的批次,從初始的種子指令集dseed中迭代重寫指令,進(jìn)行k輪操作,生成增強(qiáng)指令集daug,并將種子樣本與增強(qiáng)樣本合并,形成合并后的指令集dins=dseed∪daug,并移除重復(fù)項(xiàng);之后驗(yàn)證自動(dòng)生成的指令質(zhì)量;
4、所述指令查詢合成階段,首先進(jìn)行隨機(jī)指令查詢組合,對(duì)于檢索增強(qiáng)生成領(lǐng)域,從混合qa數(shù)據(jù)源中隨機(jī)選擇一個(gè)查詢集q,混合qa數(shù)據(jù)源包括開放域多跳和知識(shí)庫qa場(chǎng)景,使用密集檢索器r從外部知識(shí)庫中為每個(gè)查詢q∈q檢索前k個(gè)相關(guān)文檔di,從而生成數(shù)據(jù)集為每條指令i隨機(jī)選擇drag中的k條查詢及其對(duì)應(yīng)的檢索文檔,并將它們結(jié)合得到帶有if約束的rag查詢集
5、對(duì)于通用領(lǐng)域,對(duì)于每條指令i∈dins,從sharegpt中隨機(jī)選擇k條查詢,并將其與指令結(jié)合,構(gòu)建通用領(lǐng)域的數(shù)據(jù)集dif-general,最終將這兩個(gè)領(lǐng)域的指令約束查詢集合并,形成vif-rag-qa的最終查詢集,表示為之后進(jìn)行指令查詢?cè)鰪?qiáng)與雙重校驗(yàn),采用拒絕采樣策略,使用監(jiān)督模型為每個(gè)指令-查詢對(duì)生成k個(gè)回復(fù)從而得到{x,yx}∈
6、dvif-rag,而后對(duì)指令查詢數(shù)據(jù)采用雙重驗(yàn)證過程:基于編譯器反饋:利用現(xiàn)有的驗(yàn)證函數(shù)評(píng)估增強(qiáng)輸出的遵從性;大模型一致性校驗(yàn):使用監(jiān)督模型對(duì)查詢與指令的匹配度進(jìn)行1到10的評(píng)分,過濾掉得分低于8的樣本;最終自動(dòng)獲得了大規(guī)模、高質(zhì)量的vif-rag-qa數(shù)據(jù)集。
7、所示驗(yàn)證自動(dòng)生成的指令質(zhì)量的具體過程為:對(duì)于每個(gè)指令i∈dins,使用監(jiān)督模型生成k個(gè)驗(yàn)證函數(shù)代碼及對(duì)應(yīng)的測(cè)試用例并通過分析執(zhí)行器e的輸出來評(píng)估指令的質(zhì)量;對(duì)于任一函數(shù)和測(cè)試用例其執(zhí)行結(jié)果為:
8、
9、那么根據(jù)k個(gè)測(cè)試樣本計(jì)算每個(gè)驗(yàn)證函數(shù)的準(zhǔn)確率accfunc,以及使用k個(gè)驗(yàn)證函數(shù)評(píng)估每個(gè)測(cè)試用例的準(zhǔn)確率acccase,其公式如下:
10、
11、基于上述交叉度量標(biāo)準(zhǔn),要求每個(gè)指令至少有一個(gè)accfunc和acccase超過0.5;最終,獲得自動(dòng)驗(yàn)證的指令集:
12、
13、丟棄其他不符合標(biāo)準(zhǔn)的樣本。
14、所述利用現(xiàn)有的驗(yàn)證函數(shù)評(píng)估增強(qiáng)輸出的遵從性過程的具體過程為,vif-rag數(shù)據(jù)集中的至少一個(gè)響應(yīng)必須在所有驗(yàn)證函數(shù)中達(dá)到超過0.5的準(zhǔn)確率,否則將該樣本舍棄。
15、本發(fā)明實(shí)施例的創(chuàng)新之處在于:
16、(1)為了實(shí)現(xiàn)檢索增強(qiáng)生成場(chǎng)景下的指令遵循對(duì)齊,提出檢索增強(qiáng)生成場(chǎng)景下的可驗(yàn)證自動(dòng)指令數(shù)據(jù)合成框架(vif-rag)。vif-rag結(jié)合了增強(qiáng)重寫與多樣化驗(yàn)證過程,包含基于編譯器反饋的校驗(yàn)與大模型一致性校驗(yàn),從極少的種子指令樣本(<100)合成高質(zhì)量的指令遵循對(duì)齊數(shù)據(jù),并擴(kuò)展到超過10萬條樣本。
17、(2)為了解決檢索增強(qiáng)生成場(chǎng)景缺少全面性評(píng)測(cè)的問題,設(shè)計(jì)一個(gè)魯棒性的基準(zhǔn)搭建流程,包含指令采樣與收集,檢索與重構(gòu),組合與校驗(yàn)三步流程。該框架獨(dú)特優(yōu)勢(shì)在于可以無縫銜接到多樣化的指令遵循與檢索增強(qiáng)生成評(píng)測(cè)基準(zhǔn),實(shí)現(xiàn)組合評(píng)測(cè)。
18、(3)基于上述基準(zhǔn)搭建框架,提出followrag,這是第一個(gè)旨在全面評(píng)估大語言模型在檢索增強(qiáng)生成(rag)任務(wù)中復(fù)雜指令跟隨能力的基準(zhǔn)。followrag包含近3000個(gè)測(cè)試樣本,涵蓋了4個(gè)知識(shí)密集型問答基準(zhǔn)和22種約束條件。