本發(fā)明屬于大模型,具體涉及基于多維度評(píng)估和動(dòng)態(tài)權(quán)重調(diào)整的大語(yǔ)言模型選擇方法。
背景技術(shù):
1、當(dāng)前,大語(yǔ)言模型在各類自然語(yǔ)言處理任務(wù)中表現(xiàn)優(yōu)異,如生成文本、問(wèn)答系統(tǒng)和對(duì)話模擬,然而,隨著大語(yǔ)言模型的復(fù)雜性和應(yīng)用場(chǎng)景的多樣化,選擇最適合某一特定任務(wù)的大語(yǔ)言模型變得越來(lái)越困難。現(xiàn)有技術(shù)主要依賴于單一評(píng)估指標(biāo)或人工經(jīng)驗(yàn),無(wú)法全面、客觀地評(píng)估模型性能。例如,rouge指標(biāo)雖然能夠評(píng)估生成文本與參考文本之間的相似度,但無(wú)法評(píng)估文本質(zhì)量、語(yǔ)義相似度、生成內(nèi)容的安全性和合規(guī)性等多方面的性能,邏輯性雖然能檢查模型的回答是否與用戶的問(wèn)題相關(guān),是否能按照對(duì)話上下文進(jìn)行合理的回答,但不能全面評(píng)估大語(yǔ)言模型在實(shí)際對(duì)話場(chǎng)景中的表現(xiàn),無(wú)法確保其在不同應(yīng)用場(chǎng)景中的有效性和可靠性,此外還需要全面評(píng)估大語(yǔ)言模型在在線助手應(yīng)用中的表現(xiàn),確保其在實(shí)際應(yīng)用中的有效性和用戶滿意度;
2、并且,現(xiàn)有技術(shù)缺乏動(dòng)態(tài)調(diào)整評(píng)估權(quán)重的機(jī)制,無(wú)法根據(jù)實(shí)際應(yīng)用中的反饋不斷優(yōu)化評(píng)估標(biāo)準(zhǔn)。因此,如何建立一個(gè)多維度評(píng)估和動(dòng)態(tài)權(quán)重調(diào)整的自動(dòng)化大語(yǔ)言模型選擇方法,成為當(dāng)前技術(shù)領(lǐng)域的一個(gè)重要挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述現(xiàn)有技術(shù)的不足,本技術(shù)提供基于多維度評(píng)估和動(dòng)態(tài)權(quán)重調(diào)整的大語(yǔ)言模型選擇方法。
2、第一方面本技術(shù)提出了基于多維度評(píng)估和動(dòng)態(tài)權(quán)重調(diào)整的大語(yǔ)言模型選擇方法,包括以下步驟:
3、選取任意數(shù)量的預(yù)訓(xùn)練大語(yǔ)言模型作為待評(píng)估大語(yǔ)言模型;
4、對(duì)所述待評(píng)估大語(yǔ)言模型進(jìn)行文本生成功能評(píng)估、對(duì)話問(wèn)答功能評(píng)估和web應(yīng)用功能評(píng)估,并從各個(gè)評(píng)估過(guò)程中提取各個(gè)評(píng)估維度中的運(yùn)行過(guò)程數(shù)據(jù)作為待評(píng)估大語(yǔ)言模型的實(shí)際表現(xiàn)數(shù)據(jù),從各個(gè)評(píng)估結(jié)果中提取用戶評(píng)分?jǐn)?shù)據(jù)作為待評(píng)估大語(yǔ)言模型的用戶反饋數(shù)據(jù);
5、根據(jù)所述實(shí)際表現(xiàn)數(shù)據(jù)和所述用戶反饋數(shù)據(jù)對(duì)待評(píng)估大語(yǔ)言模型的各個(gè)評(píng)估維度進(jìn)行權(quán)重計(jì)算,根據(jù)計(jì)算結(jié)果對(duì)待評(píng)估大語(yǔ)言模型的各個(gè)評(píng)估維度的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整;
6、根據(jù)動(dòng)態(tài)調(diào)整后的權(quán)重計(jì)算待評(píng)估大語(yǔ)言模型的綜合評(píng)分,從所述待評(píng)估大語(yǔ)言模型選擇綜合評(píng)分最高的大語(yǔ)言模型作為最優(yōu)大語(yǔ)言模型。
7、在一些實(shí)施例中,所述對(duì)所述待評(píng)估大語(yǔ)言模型進(jìn)行文本生成功能評(píng)估、對(duì)話問(wèn)答功能評(píng)估和web應(yīng)用功能評(píng)估,所述文本生成功能評(píng)估包括:
8、通過(guò)待評(píng)估大語(yǔ)言模型生成一組文本數(shù)據(jù),對(duì)生成文本進(jìn)行rouge指標(biāo)評(píng)估、文本質(zhì)量評(píng)估、語(yǔ)義相似度評(píng)估、安全合規(guī)性評(píng)估和正面適宜性評(píng)估;
9、所述rouge指標(biāo)評(píng)估:通過(guò)計(jì)算生成文本和參考文本之間的n-gram重疊數(shù)量,量化生成文本的準(zhǔn)確性;
10、所述文本質(zhì)量評(píng)估:通過(guò)預(yù)訓(xùn)練的語(yǔ)言模型對(duì)生成文本進(jìn)行評(píng)估,得到對(duì)應(yīng)的文本質(zhì)量評(píng)分,量化語(yǔ)言流暢性和句法正確性;
11、所述語(yǔ)義相似度評(píng)估:使用預(yù)訓(xùn)練的語(yǔ)義相似度模型計(jì)算生成文本與參考文本之間的語(yǔ)義相似度,量化生成文本與參考文本在語(yǔ)義上的接近程度公式如下:
12、
13、其中,和分別為生成文本和參考文本的向量表示;
14、所述安全合規(guī)性評(píng)估:通過(guò)預(yù)訓(xùn)練的分類模型對(duì)生成文本進(jìn)行分類,判斷其是否包含敏感詞匯或違背政策的內(nèi)容,如果生成文本且強(qiáng)度不包含敏感詞匯或違背政策的內(nèi)容,則評(píng)分越高,反之則評(píng)分越低;
15、所述正面適宜性評(píng)估:將生成文本輸入情感分析模型,得到情感極性和情感強(qiáng)度評(píng)分,如果文本情感正面且強(qiáng)度符合預(yù)設(shè)標(biāo)準(zhǔn),則評(píng)分越高,如果文本情感負(fù)面或強(qiáng)度不符合預(yù)設(shè)標(biāo)準(zhǔn),則評(píng)分越低。
16、在一些實(shí)施例中,所述對(duì)所述待評(píng)估大語(yǔ)言模型進(jìn)行文本生成功能評(píng)估、對(duì)話問(wèn)答功能評(píng)估和web應(yīng)用功能評(píng)估,所述對(duì)話問(wèn)答功能評(píng)估包括問(wèn)答評(píng)估和對(duì)話評(píng)估:
17、所述問(wèn)答評(píng)估為:
18、準(zhǔn)備一組評(píng)估問(wèn)題和對(duì)應(yīng)的標(biāo)準(zhǔn)答案;
19、將所述評(píng)估問(wèn)題輸入到所述待評(píng)估大語(yǔ)言模型中,得到模型生成答案;
20、通過(guò)bleu指標(biāo)評(píng)估生成答案與標(biāo)準(zhǔn)答案之間的相似度,相似度越高對(duì)應(yīng)的評(píng)分就越高,反之則評(píng)分越低,通過(guò)用戶反饋收集用戶的問(wèn)答滿意度評(píng)分;
21、所述對(duì)話評(píng)估為:
22、設(shè)計(jì)一組模擬實(shí)際應(yīng)用場(chǎng)景的對(duì)話;
23、將設(shè)計(jì)的對(duì)話輸入到待評(píng)估大語(yǔ)言模型中進(jìn)行多輪對(duì)話,通過(guò)預(yù)訓(xùn)練的語(yǔ)言模型對(duì)對(duì)話的流暢性進(jìn)行評(píng)分,通過(guò)對(duì)話管理模型分析對(duì)話的一致性和邏輯合理性并進(jìn)行評(píng)分,通過(guò)用戶反饋收集用戶的對(duì)話滿意度評(píng)分。
24、在一些實(shí)施例中,所述對(duì)所述待評(píng)估大語(yǔ)言模型進(jìn)行文本生成功能評(píng)估、對(duì)話問(wèn)答功能評(píng)估和web應(yīng)用功能評(píng)估,所述web應(yīng)用功能評(píng)估包括在線客服評(píng)估和在線助手評(píng)估:
25、所述在線客服評(píng)估為:
26、設(shè)計(jì)多種用戶咨詢場(chǎng)景,將所述用戶咨詢場(chǎng)景輸入到待評(píng)估大語(yǔ)言模型中,模擬真實(shí)用戶與客服的對(duì)話,記錄所述待評(píng)估大語(yǔ)言模型生成回復(fù)的時(shí)間,完成響應(yīng)時(shí)間評(píng)估,檢查模型回答的準(zhǔn)確性,完成準(zhǔn)確性評(píng)估,通過(guò)用戶反饋收集用戶的客服滿意度評(píng)分;
27、所述在線助手評(píng)估為:
28、設(shè)定多種在線助手任務(wù),將所述在線助手任務(wù)輸入到待評(píng)估大語(yǔ)言模型中,模擬用戶與在線助手的交互過(guò)程,通過(guò)統(tǒng)計(jì)模型計(jì)算任務(wù)完成率,通過(guò)用戶反饋收集用戶的助手滿意度評(píng)分。
29、在一些實(shí)施例中,所述并從各個(gè)評(píng)估過(guò)程中提取各個(gè)評(píng)估維度中的運(yùn)行過(guò)程數(shù)據(jù)作為待評(píng)估大語(yǔ)言模型的實(shí)際表現(xiàn)數(shù)據(jù),從各個(gè)評(píng)估結(jié)果中提取用戶評(píng)分?jǐn)?shù)據(jù)作為待評(píng)估大語(yǔ)言模型的用戶反饋數(shù)據(jù),包括:
30、提取rouge指標(biāo)評(píng)估、文本質(zhì)量評(píng)估、語(yǔ)義相似度評(píng)估、安全合規(guī)性評(píng)估、正面適宜性評(píng)估、問(wèn)答評(píng)估、對(duì)話評(píng)估、在線客服評(píng)估和在線助手評(píng)估的運(yùn)行過(guò)程數(shù)據(jù)作為待評(píng)估大語(yǔ)言模型的實(shí)際表現(xiàn)數(shù)據(jù);
31、提取問(wèn)答滿意度評(píng)分、對(duì)話滿意度評(píng)分、客服滿意度評(píng)分和助手滿意度評(píng)分作為待評(píng)估大語(yǔ)言模型的用戶反饋數(shù)據(jù)。
32、在一些實(shí)施例中,所述根據(jù)所述實(shí)際表現(xiàn)數(shù)據(jù)和所述用戶反饋數(shù)據(jù)對(duì)待評(píng)估大語(yǔ)言模型的各個(gè)評(píng)估維度進(jìn)行權(quán)重計(jì)算,根據(jù)計(jì)算結(jié)果對(duì)待評(píng)估大語(yǔ)言模型的各個(gè)評(píng)估維度的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,包括:
33、對(duì)所述實(shí)際表現(xiàn)數(shù)據(jù)和所述用戶反饋數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與預(yù)處理,分別對(duì)處理后的實(shí)際表現(xiàn)數(shù)據(jù)和用戶反饋數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到評(píng)估維度統(tǒng)計(jì)結(jié)果和用戶反饋統(tǒng)計(jì)結(jié)果;
34、根據(jù)評(píng)估維度統(tǒng)計(jì)結(jié)果和用戶反饋統(tǒng)計(jì)結(jié)果計(jì)算每個(gè)評(píng)估維度的調(diào)整因子;
35、定義損失函數(shù)并結(jié)合適應(yīng)性矩估計(jì)進(jìn)行梯度計(jì)算,根據(jù)梯度計(jì)算結(jié)果動(dòng)態(tài)更新權(quán)重;
36、通過(guò)對(duì)更新后的權(quán)重進(jìn)行歸一化處理,完成權(quán)重動(dòng)態(tài)調(diào)整結(jié)果驗(yàn)證。
37、在一些實(shí)施例中,所述根據(jù)動(dòng)態(tài)調(diào)整后的權(quán)重計(jì)算待評(píng)估大語(yǔ)言模型的綜合評(píng)分,從所述待評(píng)估大語(yǔ)言模型選擇綜合評(píng)分最高的大語(yǔ)言模型作為最優(yōu)大語(yǔ)言模型,包括:
38、收集所述待評(píng)估大語(yǔ)言模型在各個(gè)評(píng)估維度下的評(píng)分記錄;
39、獲取動(dòng)態(tài)調(diào)整后的權(quán)重,根據(jù)綜合評(píng)分公式計(jì)算每個(gè)待評(píng)估大語(yǔ)言模型的綜合評(píng)分:
40、
41、其中,表示第個(gè)待評(píng)估大語(yǔ)言模型的綜合評(píng)分,表示第個(gè)評(píng)估維度的權(quán)重,表示第個(gè)待評(píng)估大語(yǔ)言模型在第個(gè)評(píng)估維度的評(píng)分記錄;
42、將計(jì)算出的所有待評(píng)估大語(yǔ)言模型的綜合評(píng)分進(jìn)行排序,選取綜合評(píng)分最高的大語(yǔ)言模型作為最優(yōu)大語(yǔ)言模型。
43、第二方面本技術(shù)提出基于多維度評(píng)估和動(dòng)態(tài)權(quán)重調(diào)整的大語(yǔ)言模型選擇系統(tǒng),包括模型抽取模塊、多維度評(píng)估模塊、權(quán)重調(diào)整模塊和模型評(píng)分模塊;
44、所述模型抽取模塊,用于選取任意數(shù)量的預(yù)訓(xùn)練大語(yǔ)言模型作為待評(píng)估大語(yǔ)言模型;
45、所述多維度評(píng)估模塊,用于對(duì)所述待評(píng)估大語(yǔ)言模型進(jìn)行文本生成功能評(píng)估、對(duì)話問(wèn)答功能評(píng)估和web應(yīng)用功能評(píng)估,并從各個(gè)評(píng)估過(guò)程中提取各個(gè)評(píng)估維度中的運(yùn)行過(guò)程數(shù)據(jù)作為待評(píng)估大語(yǔ)言模型的實(shí)際表現(xiàn)數(shù)據(jù),從各個(gè)評(píng)估結(jié)果中提取用戶評(píng)分?jǐn)?shù)據(jù)作為待評(píng)估大語(yǔ)言模型的用戶反饋數(shù)據(jù);
46、所述權(quán)重調(diào)整模塊,用于根據(jù)所述實(shí)際表現(xiàn)數(shù)據(jù)和所述用戶反饋數(shù)據(jù)對(duì)待評(píng)估大語(yǔ)言模型的各個(gè)評(píng)估維度進(jìn)行權(quán)重計(jì)算,根據(jù)計(jì)算結(jié)果對(duì)待評(píng)估大語(yǔ)言模型的各個(gè)評(píng)估維度的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整;
47、所述模型評(píng)分模塊,用于根據(jù)動(dòng)態(tài)調(diào)整后的權(quán)重計(jì)算待評(píng)估大語(yǔ)言模型的綜合評(píng)分,從所述待評(píng)估大語(yǔ)言模型選擇綜合評(píng)分最高的大語(yǔ)言模型作為最優(yōu)大語(yǔ)言模型。
48、第三方面本技術(shù)提出一種電子裝置,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并且可以在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述方法的步驟。
49、第四方面本技術(shù)提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述方法的步驟。
50、本發(fā)明的有益效果:
51、本發(fā)明旨在通過(guò)引入多維度評(píng)估機(jī)制,解決現(xiàn)有大語(yǔ)言模型中存在的文本生成質(zhì)量低、對(duì)話問(wèn)答不準(zhǔn)確和在線助手任務(wù)完成率低等問(wèn)題。具體來(lái)說(shuō),本發(fā)明將綜合考慮rouge指標(biāo)評(píng)估、文本質(zhì)量評(píng)估、語(yǔ)義相似度評(píng)估、安全合規(guī)性評(píng)估、正面適宜性評(píng)估、問(wèn)答評(píng)估、對(duì)話評(píng)估、在線客服評(píng)估和在線助手評(píng)估等多個(gè)評(píng)估維度,全面評(píng)估大語(yǔ)言模型的性能,通過(guò)分析運(yùn)行數(shù)據(jù)和用戶反饋,動(dòng)態(tài)調(diào)整各個(gè)評(píng)估維度的權(quán)重,以適應(yīng)不斷變化的應(yīng)用需求和用戶期望。最終,根據(jù)綜合評(píng)分,自動(dòng)選擇最優(yōu)的大語(yǔ)言模型,確保web服務(wù)的高質(zhì)量和用戶滿意度。這種方法不僅增強(qiáng)了系統(tǒng)的適應(yīng)性和用戶友好性,為自然語(yǔ)言處理技術(shù)的進(jìn)一步發(fā)展提供了新的方向和可能性。