本發(fā)明涉及人工智能,具體涉及一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法、一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)系統(tǒng)、一種計(jì)算機(jī)設(shè)備、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及一種計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù),并不必然構(gòu)成現(xiàn)有技術(shù)。
2、rag(retrieval-augmented?generation,檢索增強(qiáng)生成)是一種結(jié)合了信息檢索和文本生成的自然語(yǔ)言處理方法。具體來(lái)說(shuō),rag首先通過(guò)檢索模塊從大型知識(shí)庫(kù)或文檔庫(kù)中提取與輸入問(wèn)題相關(guān)的文檔或信息片段;然后,這些檢索到的信息被輸入到生成模塊中,生成模塊利用這些信息來(lái)構(gòu)建更準(zhǔn)確和詳細(xì)的回答。rag技術(shù)的優(yōu)勢(shì)在于它能夠動(dòng)態(tài)地獲取最新的信息,擴(kuò)展模型的知識(shí)范圍,同時(shí)提升回答的準(zhǔn)確性和上下文相關(guān)性。因此,rag技術(shù)在需要實(shí)時(shí)更新知識(shí)和復(fù)雜信息處理的任務(wù)中表現(xiàn)尤為出色,例如問(wèn)答系統(tǒng)、對(duì)話生成和文本總結(jié)。
3、rag技術(shù)對(duì)于大模型的好處在于它通過(guò)結(jié)合檢索和生成的雙重機(jī)制,顯著提升了模型的知識(shí)覆蓋范圍和回答準(zhǔn)確性。大模型在生成文本時(shí),可以動(dòng)態(tài)地檢索到最新和最相關(guān)的信息,彌補(bǔ)了僅靠訓(xùn)練數(shù)據(jù)固有知識(shí)的局限性;此外,rag能夠減少大模型的參數(shù)規(guī)模需求,因?yàn)橹R(shí)庫(kù)中的信息不需要完全嵌入到模型參數(shù)中,而是通過(guò)檢索實(shí)時(shí)獲取。這不僅提高了模型的性能,還降低了存儲(chǔ)和計(jì)算資源的消耗,為了增強(qiáng)rag的性能,已經(jīng)提出了許多技術(shù),例如塊長(zhǎng)度、上下文中檢索塊的順序。
4、然而,與所有系統(tǒng)一樣,這些系統(tǒng)需要客觀指標(biāo)來(lái)衡量端到端系統(tǒng)的性能。評(píng)估rag系統(tǒng)很重要,因?yàn)樗_保了檢索方法與生成模型集成的有效性。評(píng)估rag系統(tǒng)的挑戰(zhàn)在于比較生成的答案與真實(shí)答案的事實(shí)性、與問(wèn)題的相關(guān)性和語(yǔ)義相似性,在整個(gè)端到端的評(píng)測(cè)過(guò)程中,如果需要人工生成相關(guān)測(cè)評(píng)的數(shù)據(jù)集則會(huì)耗費(fèi)大量的人力,即便是這樣,人工生成的文檔評(píng)測(cè)數(shù)據(jù)集也有可能存在無(wú)法覆蓋文檔較全和較廣的問(wèn)題。
5、最初對(duì)rag進(jìn)行評(píng)估的方法包括重新利用機(jī)器翻譯任務(wù)中使用的指標(biāo),例如bleu、rouge或meteor,文本生成使用bert?score進(jìn)行評(píng)估。
6、然而,上述的rag評(píng)測(cè)方式存在如下問(wèn)題:(1)沒(méi)有建立完善的rag評(píng)測(cè)系統(tǒng),rag系統(tǒng)較為復(fù)雜,有文檔處理、文檔檢索、答案生成三個(gè)環(huán)節(jié),而完善的rag評(píng)測(cè)系統(tǒng)需要對(duì)全部的環(huán)節(jié)進(jìn)行評(píng)測(cè);(2)評(píng)測(cè)數(shù)據(jù)集難以構(gòu)建,既然是評(píng)測(cè),那就要有相應(yīng)的數(shù)據(jù)集,而rag系統(tǒng)由于評(píng)測(cè)需要根據(jù)處理的文檔進(jìn)行變更,數(shù)據(jù)集的構(gòu)建是動(dòng)態(tài)的,所以很難固定單一數(shù)據(jù)集進(jìn)行評(píng)測(cè)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法及系統(tǒng),實(shí)現(xiàn)了文檔解析和問(wèn)答數(shù)據(jù)生成的自動(dòng)化,提供了高質(zhì)量的問(wèn)答對(duì)以用于rag系統(tǒng)的評(píng)測(cè);能夠自動(dòng)評(píng)估rag系統(tǒng)的問(wèn)答質(zhì)量和檢索質(zhì)量,使用多種評(píng)價(jià)指標(biāo)結(jié)合主成分分析方法得到了更為精準(zhǔn)的自動(dòng)化評(píng)測(cè)結(jié)果。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法。
4、一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法,包括以下過(guò)程:
5、獲取檢索增強(qiáng)生成系統(tǒng)的評(píng)測(cè)數(shù)據(jù)集,所述評(píng)測(cè)數(shù)據(jù)集中包括多個(gè)問(wèn)答對(duì),每個(gè)所述問(wèn)答對(duì)均包括問(wèn)題和答案;
6、將所述測(cè)評(píng)數(shù)據(jù)集中的每個(gè)問(wèn)題循環(huán)輸入到各個(gè)檢索增強(qiáng)生成系統(tǒng)中,以使得檢索增強(qiáng)生成系統(tǒng)生成對(duì)應(yīng)的答案;
7、針對(duì)檢索增強(qiáng)生成系統(tǒng)生成的答案以及所述測(cè)評(píng)數(shù)據(jù)集中的答案,采用不同的答案評(píng)價(jià)算法進(jìn)行評(píng)價(jià),得到多個(gè)算法評(píng)價(jià)指標(biāo);
8、計(jì)算各個(gè)檢索增強(qiáng)生成系統(tǒng)的多個(gè)整體評(píng)價(jià)指標(biāo),對(duì)全部的所述算法評(píng)價(jià)指標(biāo)和所述整體評(píng)價(jià)指標(biāo)進(jìn)行主成分分析,以選取的主成分的加權(quán)和作為檢索增強(qiáng)生成系統(tǒng)的評(píng)分,或者以選取的第一主成分作為檢索增強(qiáng)生成系統(tǒng)的評(píng)分。
9、作為本發(fā)明第一方面進(jìn)一步的限定,所述評(píng)測(cè)數(shù)據(jù)集的構(gòu)建,包括:
10、選擇需要進(jìn)行數(shù)據(jù)集構(gòu)建的文檔集,文檔集由n篇文檔,其中組成,;
11、將所有文檔轉(zhuǎn)換為txt類型,按照段落對(duì)txt類型的每個(gè)文檔進(jìn)行拆分,每個(gè)文檔可以拆分成若干個(gè)段落,其中,表示第個(gè)文檔中的第個(gè)段落,每個(gè)文檔的段落集,是文檔的段落數(shù),當(dāng)前文檔集d總的段落集合;
12、將拆分后的段落任選其中的s段形成一組段落組,總共生成n組段落組,其中,s為大于或等于1的整數(shù),,最終生成的n組段落組表示為;
13、將n組內(nèi)容按n次分別輸入強(qiáng)能力大模型,使用強(qiáng)能力大模型針對(duì)輸入的每組段落中的內(nèi)容生成可能的問(wèn)題以及針對(duì)該問(wèn)題的答案,;
14、在完成問(wèn)題生成和答案生成之后,篩選去除掉語(yǔ)義重復(fù)或者問(wèn)題或答案生成質(zhì)量差的問(wèn)答對(duì),將問(wèn)題、當(dāng)前段落組、答案形成總的數(shù)據(jù)集并且進(jìn)行存儲(chǔ):。
15、作為本發(fā)明第一方面進(jìn)一步的限定,采用rouge-1、rouge-2、rouge-l、bertscore、blue和meteor進(jìn)行評(píng)價(jià),得到多個(gè)算法評(píng)價(jià)指標(biāo)。
16、作為本發(fā)明第一方面進(jìn)一步的限定,所述整體評(píng)價(jià)指標(biāo),包括:上下文召回率、上下文精確度、回答語(yǔ)義相似性、忠誠(chéng)度和答案相關(guān)性。
17、作為本發(fā)明第一方面進(jìn)一步的限定,對(duì)全部的所述算法評(píng)價(jià)指標(biāo)和所述整體評(píng)價(jià)指標(biāo)進(jìn)行主成分分析,包括:
18、對(duì)所有指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣;
19、根據(jù)所述數(shù)據(jù)矩陣計(jì)算協(xié)方差矩陣,所述協(xié)方差矩陣為對(duì)稱矩陣,用于描述各個(gè)指標(biāo)之間的關(guān)系;
20、對(duì)所述協(xié)方差矩陣進(jìn)行特征值分解,得到特征值;
21、根據(jù)所述特征值計(jì)算累計(jì)解釋方差,選擇累計(jì)解釋方差比例較高的多個(gè)主成分;
22、將標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣投影到選擇的個(gè)主成分空間中,得到新的低維數(shù)據(jù)表示:;
23、以選取的主成分的加權(quán)和作為檢索增強(qiáng)生成系統(tǒng)的評(píng)分:,其中,是第個(gè)主成分,是對(duì)應(yīng)的權(quán)重;或者以選取的第一主成分作為檢索增強(qiáng)生成系統(tǒng)的評(píng)分。
24、作為本發(fā)明第一方面進(jìn)一步的限定,每個(gè)所述問(wèn)答對(duì)均包括問(wèn)題、當(dāng)前段落組及答案,且檢索增強(qiáng)生成系統(tǒng)能夠根據(jù)問(wèn)題輸出答案以及問(wèn)題來(lái)源段落。
25、第二方面,本發(fā)明提供了一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)系統(tǒng)。
26、一種檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)系統(tǒng),包括:
27、評(píng)測(cè)數(shù)據(jù)集獲取單元,被配置為:獲取檢索增強(qiáng)生成系統(tǒng)的評(píng)測(cè)數(shù)據(jù)集,所述評(píng)測(cè)數(shù)據(jù)集中包括多個(gè)問(wèn)答對(duì),每個(gè)所述問(wèn)答對(duì)均包括問(wèn)題和答案;
28、評(píng)測(cè)答案生成單元,被配置為:將所述測(cè)評(píng)數(shù)據(jù)集中的每個(gè)問(wèn)題循環(huán)輸入到各個(gè)檢索增強(qiáng)生成系統(tǒng)中,以使得檢索增強(qiáng)生成系統(tǒng)生成對(duì)應(yīng)的答案;
29、算法評(píng)價(jià)指標(biāo)生成單元,被配置為:針對(duì)檢索增強(qiáng)生成系統(tǒng)生成的答案以及所述測(cè)評(píng)數(shù)據(jù)集中的答案,采用不同的答案評(píng)價(jià)算法進(jìn)行評(píng)價(jià),得到多個(gè)算法評(píng)價(jià)指標(biāo);
30、主成分分析評(píng)測(cè)單元,被配置為:計(jì)算各個(gè)檢索增強(qiáng)生成系統(tǒng)的多個(gè)整體評(píng)價(jià)指標(biāo),對(duì)全部的所述算法評(píng)價(jià)指標(biāo)和所述整體評(píng)價(jià)指標(biāo)進(jìn)行主成分分析,以選取的主成分的加權(quán)和作為檢索增強(qiáng)生成系統(tǒng)的評(píng)分,或者以選取的第一主成分作為檢索增強(qiáng)生成系統(tǒng)的評(píng)分。
31、第三方面,本發(fā)明提供了一種計(jì)算機(jī)設(shè)備,包括:處理器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì);
32、處理器,適于執(zhí)行計(jì)算機(jī)程序;
33、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如本發(fā)明第一方面所述的檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法。
34、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序適于被處理器加載并執(zhí)行如本發(fā)明第一方面所述的檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法。
35、第五方面,本發(fā)明提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如本發(fā)明第一方面所述的檢索增強(qiáng)生成系統(tǒng)自動(dòng)化評(píng)測(cè)方法。
36、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
37、1、數(shù)據(jù)受限情況下的自動(dòng)化測(cè)評(píng)。本發(fā)明的rag自動(dòng)化評(píng)測(cè)系統(tǒng)在數(shù)據(jù)受限情況下展現(xiàn)出顯著的優(yōu)勢(shì),尤其是在構(gòu)建和使用專門(mén)的數(shù)據(jù)集進(jìn)行評(píng)測(cè)時(shí),能夠提供極大的便利和效益。rag系統(tǒng)評(píng)測(cè)的客觀性和全面性依賴于一個(gè)完整的數(shù)據(jù)集,然而,當(dāng)前rag系統(tǒng)的應(yīng)用場(chǎng)景大多集中在內(nèi)部數(shù)據(jù)和內(nèi)部資料的處理上,這些數(shù)據(jù)通常具有高度的保密性,導(dǎo)致無(wú)法輕易構(gòu)建開(kāi)放的數(shù)據(jù)集。傳統(tǒng)上,依靠人工方式構(gòu)建這些數(shù)據(jù)集不僅成本高昂,而且在時(shí)間和資源上也不可行。本發(fā)明的rag測(cè)評(píng)系統(tǒng)通過(guò)自動(dòng)化工具輔助用戶,能夠針對(duì)任何知識(shí)庫(kù)文件,快速高效地構(gòu)建完整的數(shù)據(jù)集,從而大幅降低了數(shù)據(jù)構(gòu)建的門(mén)檻和成本,這種能力不僅提升了rag系統(tǒng)評(píng)測(cè)的覆蓋范圍和精度,也保證了在受限數(shù)據(jù)環(huán)境下評(píng)測(cè)的可行性和實(shí)用性,最終為用戶提供了一個(gè)更加靈活、可擴(kuò)展的評(píng)測(cè)解決方案。
38、2、完整、全面的rag評(píng)測(cè)體系。本發(fā)明的rag評(píng)測(cè)系統(tǒng)提供了一套完整且全面的評(píng)測(cè)體系,涵蓋了rag全流程中的每一個(gè)關(guān)鍵環(huán)節(jié),與傳統(tǒng)評(píng)測(cè)系統(tǒng)形成了顯著差異。當(dāng)前市面上大多數(shù)的rag評(píng)測(cè)系統(tǒng)通常僅聚焦于最終答案的準(zhǔn)確性進(jìn)行評(píng)估,忽略了rag流程中其他重要的環(huán)節(jié),這種單一的評(píng)測(cè)方式可能導(dǎo)致系統(tǒng)的某些問(wèn)題被忽視,從而影響整體性能和用戶體驗(yàn)。相比之下,本發(fā)明的評(píng)測(cè)方式通過(guò)對(duì)rag流程中的各個(gè)步驟進(jìn)行細(xì)致的評(píng)估,包括文檔分割、文檔檢索、文檔排序以及答案輸出等,確保每一個(gè)環(huán)節(jié)的輸出都能得到準(zhǔn)確評(píng)估,這種全面的評(píng)測(cè)方式不僅能夠揭示rag系統(tǒng)在各個(gè)階段可能存在的不足,還能幫助開(kāi)發(fā)者精確定位問(wèn)題所在,從而針對(duì)性地優(yōu)化和改進(jìn)系統(tǒng)。通過(guò)這種全方位的評(píng)測(cè)機(jī)制,本發(fā)明的rag系統(tǒng)能夠更有效地提升整體性能,確保在每個(gè)環(huán)節(jié)都能達(dá)到最佳效果,最終為用戶提供更加可靠和高效的rag解決方案。
39、3、pca更加精準(zhǔn)的對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)。本發(fā)明的rag評(píng)測(cè)系統(tǒng)通過(guò)主成分分析(pca)實(shí)現(xiàn)了更加精準(zhǔn)的系統(tǒng)評(píng)價(jià);首先,pca的降維功能能夠有效減少數(shù)據(jù)中的冗余信息,從而使得評(píng)價(jià)指標(biāo)更加簡(jiǎn)潔明了,這種簡(jiǎn)化不僅有助于聚焦于最具影響力的因素,還提升了評(píng)估過(guò)程的效率;其次,pca的自動(dòng)化特性消除了人為設(shè)定權(quán)重的需要,主成分分析能夠自動(dòng)捕捉并提取數(shù)據(jù)中的主要信息,確保評(píng)估過(guò)程的客觀性和準(zhǔn)確性;最后,通過(guò)提取線性不相關(guān)的主成分,pca成功地消除了原始評(píng)價(jià)指標(biāo)之間的多重共線性問(wèn)題,這一特性確保了各評(píng)價(jià)指標(biāo)之間的獨(dú)立性,避免了因指標(biāo)之間的相關(guān)性而導(dǎo)致的評(píng)價(jià)偏差,從而使系統(tǒng)的整體評(píng)估結(jié)果更加可靠和精準(zhǔn),通過(guò)精簡(jiǎn)數(shù)據(jù)、自動(dòng)化評(píng)估以及消除多重共線性,顯著提高了系統(tǒng)評(píng)價(jià)的準(zhǔn)確性和可信度。
40、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。