本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、在保險領(lǐng)域模型訓(xùn)練過程中,如果訓(xùn)練樣本過于集中在某一個方向或場景,在垂直領(lǐng)域二次訓(xùn)練或微調(diào)中,模型可能會喪失一些原有的通用能力,變得只擅長處理當前訓(xùn)練場景的數(shù)據(jù),而對其他場景的處理能力下降,出現(xiàn)大模型“記憶遺失”,從而降低大模型的泛化能力。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法、裝置、設(shè)備及介質(zhì),用以解決現(xiàn)有技術(shù)中由于訓(xùn)練樣本過于集中導(dǎo)致模型出現(xiàn)“記憶遺失”的缺陷,實現(xiàn)通過獲取廣泛的數(shù)據(jù),對數(shù)據(jù)進行一系列處理,緩解模大模型“記憶遺失”,提高大模型的泛化能力。
2、本發(fā)明提供一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,包括:
3、獲取至少一個保險領(lǐng)域文本數(shù)據(jù)和至少一個通用文本數(shù)據(jù);所述通用文本數(shù)據(jù)是包含所述保險領(lǐng)域文本數(shù)據(jù)和除所述保險領(lǐng)域文本數(shù)據(jù)之外的其他領(lǐng)域的文本數(shù)據(jù);
4、對所述保險領(lǐng)域文本數(shù)據(jù)和所述通用文本數(shù)據(jù)進行過濾處理,得到第一訓(xùn)練數(shù)據(jù);
5、對所述第一訓(xùn)練數(shù)據(jù)進行聚類處理,得到第二訓(xùn)練數(shù)據(jù);
6、基于所述第二訓(xùn)練數(shù)據(jù),確定目標訓(xùn)練數(shù)據(jù);所述目標訓(xùn)練數(shù)據(jù)用于訓(xùn)練保險領(lǐng)域大模型。
7、根據(jù)本發(fā)明提供的一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,所述過濾處理包括去重和清洗,所述對所述保險領(lǐng)域文本數(shù)據(jù)和所述通用文本數(shù)據(jù)進行過濾處理,得到第一訓(xùn)練數(shù)據(jù),包括:確定綜合文本數(shù)據(jù)中任意兩個文本數(shù)據(jù)之間的相似度;所述綜合文本數(shù)據(jù)包括所有所述保險領(lǐng)域文本數(shù)據(jù)和所有所述通用文本數(shù)據(jù);基于所述相似度,對所述保險領(lǐng)域文本數(shù)據(jù)和所述通用文本數(shù)據(jù)進行去重,得到去重之后的文本數(shù)據(jù);基于清洗規(guī)則,對所述去重之后的文本數(shù)據(jù)進行清洗,得到所述第一訓(xùn)練數(shù)據(jù);所述清洗規(guī)則用于確定低質(zhì)量文本數(shù)據(jù)。
8、根據(jù)本發(fā)明提供的一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,所述對所述第一訓(xùn)練數(shù)據(jù)進行聚類處理,得到第二訓(xùn)練數(shù)據(jù),包括:將所述第一訓(xùn)練數(shù)據(jù)中的每個文本數(shù)據(jù)轉(zhuǎn)換成向量數(shù)據(jù);分別對所述向量數(shù)據(jù)進行正則化處理和降維處理,得到處理后的向量數(shù)據(jù);在所述處理后的向量數(shù)據(jù)中隨機選擇k個向量數(shù)據(jù)作為初始聚類中心;所述k為大于等于1的整數(shù);計算除所述初始聚類中心的每個向量數(shù)據(jù)與各所述初始聚類中心之間的距離;基于所述距離,對所述向量數(shù)據(jù)進行聚類處理,得到k個第一聚類結(jié)果;所述第一聚類結(jié)果用于表征所述初始聚類中心包含的文本數(shù)據(jù);基于所述k個第一聚類結(jié)果和所述初始聚類中心,確定所述第二訓(xùn)練數(shù)據(jù)。
9、根據(jù)本發(fā)明提供的一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,所述基于所述k個第一聚類結(jié)果和所述初始聚類中心,確定所述第二訓(xùn)練數(shù)據(jù):包括:基于所述k個第一聚類結(jié)果和所述初始聚類中心,確定各所述文本數(shù)據(jù)對應(yīng)的聚類類別;利用分類模型確定所述第一訓(xùn)練數(shù)據(jù)中的每個文本數(shù)據(jù)對應(yīng)的分類類別;基于所述分類類別,對所述聚類類別進行驗證,得到目標聚類結(jié)果;?基于所述目標聚類結(jié)果,確定所述第二訓(xùn)練數(shù)據(jù)。
10、根據(jù)本發(fā)明提供的一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,所述基于所述目標聚類結(jié)果,確定所述第二訓(xùn)練數(shù)據(jù),包括:確定所述目標聚類結(jié)果中每個聚類類別中包含的文本數(shù)據(jù)量;在所述文本數(shù)據(jù)量大于文本數(shù)據(jù)量閾值的情況下,對所述聚類類別中的文本數(shù)據(jù)進行下采樣,得到所述第二訓(xùn)練數(shù)據(jù)。
11、根據(jù)本發(fā)明提供的一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,所述基于所述第二訓(xùn)練數(shù)據(jù),確定目標訓(xùn)練數(shù)據(jù),包括:基于生成模型和第一映射關(guān)系,生成用戶的投保數(shù)據(jù);所述第一映射關(guān)系用于表征所述用戶的年齡狀態(tài)、用戶的健康狀態(tài)與所述用戶的投保數(shù)據(jù)之間的制定關(guān)系;基于所述生成模型和第二映射關(guān)系,生成用戶的理賠數(shù)據(jù);所述第二映射關(guān)系用于表征用戶的所投保險、用戶的病情狀態(tài)與所述用戶的理賠數(shù)據(jù)之間的制定關(guān)系;基于所述第二訓(xùn)練數(shù)據(jù)、所述投保數(shù)據(jù)和所述理賠數(shù)據(jù),確定所述目標訓(xùn)練數(shù)據(jù)。
12、根據(jù)本發(fā)明提供的一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,所述基于所述第二訓(xùn)練數(shù)據(jù)、所述投保數(shù)據(jù)和所述理賠數(shù)據(jù),確定所述目標訓(xùn)練數(shù)據(jù),包括:將所述第二訓(xùn)練數(shù)據(jù)、所述投保數(shù)據(jù)和所述理賠數(shù)據(jù)三者進行融合處理,得到第三訓(xùn)練數(shù)據(jù);調(diào)試所述第三訓(xùn)練數(shù)據(jù)中的通用文本數(shù)據(jù)和所述第三訓(xùn)練數(shù)據(jù)中的保險領(lǐng)域文本數(shù)據(jù)的占比,得到第四訓(xùn)練數(shù)據(jù);調(diào)整所述第四訓(xùn)練數(shù)據(jù)中的通用文本數(shù)據(jù)中的中英文占比和所述第四訓(xùn)練數(shù)據(jù)中的保險領(lǐng)域文本數(shù)據(jù)的中英文占比,得到所述目標訓(xùn)練數(shù)據(jù)。
13、本發(fā)明還提供一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定裝置,包括:
14、獲取模塊,用于獲取至少一個保險領(lǐng)域文本數(shù)據(jù)和至少一個通用文本數(shù)據(jù);所述通用文本數(shù)據(jù)是包含所述保險領(lǐng)域文本數(shù)據(jù)和除所述保險領(lǐng)域文本數(shù)據(jù)之外的其他領(lǐng)域的文本數(shù)據(jù);
15、過濾模塊,用于對所述保險領(lǐng)域文本數(shù)據(jù)和所述通用文本數(shù)據(jù)進行過濾處理,得到第一訓(xùn)練數(shù)據(jù);
16、聚類模塊,用于對所述第一訓(xùn)練數(shù)據(jù)進行聚類處理,得到第二訓(xùn)練數(shù)據(jù);
17、確定模塊,用于基于所述第二訓(xùn)練數(shù)據(jù),確定目標訓(xùn)練數(shù)據(jù);所述目標訓(xùn)練數(shù)據(jù)用于訓(xùn)練保險領(lǐng)域大模型。
18、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法。
19、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法。
20、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法。
21、本發(fā)明提供的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法、裝置、設(shè)備及介質(zhì),通過獲取至少一個保險領(lǐng)域文本數(shù)據(jù)和至少一個通用文本數(shù)據(jù),對保險領(lǐng)域文本數(shù)據(jù)和通用文本數(shù)據(jù)進行過濾處理、聚類處理等一系列處理,得到目標訓(xùn)練數(shù)據(jù),如此,既能學(xué)習(xí)新領(lǐng)域知識又能維持住通用能力,并且通過過濾處理提高文本數(shù)據(jù)的質(zhì)量,聚類處理得到文本數(shù)據(jù)的類別,增加訓(xùn)練數(shù)據(jù)的類別的多樣性,緩解大模型“記憶遺失”的問題,提高大模型的泛化能力。
1.一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,所述過濾處理包括去重和清洗,所述對所述保險領(lǐng)域文本數(shù)據(jù)和所述通用文本數(shù)據(jù)進行過濾處理,得到第一訓(xùn)練數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求1所述的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,所述對所述第一訓(xùn)練數(shù)據(jù)進行聚類處理,得到第二訓(xùn)練數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求3所述的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,所述基于所述k個第一聚類結(jié)果和所述初始聚類中心,確定所述第二訓(xùn)練數(shù)據(jù),包括:
5.根據(jù)權(quán)利要求4所述的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,所述基于所述目標聚類結(jié)果,確定所述第二訓(xùn)練數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求1至5任一項所述的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,所述基于所述第二訓(xùn)練數(shù)據(jù),確定目標訓(xùn)練數(shù)據(jù),包括:
7.根據(jù)權(quán)利要求6所述的保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法,其特征在于,所述基于所述第二訓(xùn)練數(shù)據(jù)、所述投保數(shù)據(jù)和所述理賠數(shù)據(jù),確定所述目標訓(xùn)練數(shù)據(jù),包括:
8.一種保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7任一項所述保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法。
10.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述保險領(lǐng)域大模型的訓(xùn)練數(shù)據(jù)確定方法。