本申請屬于模型,尤其涉及一種模型的訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、現(xiàn)有技術(shù)中,通常訓(xùn)練一個數(shù)據(jù)檢核模型,來完成對數(shù)據(jù)的檢核。而在數(shù)據(jù)檢核模型的訓(xùn)練過程中,常常是通過從業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù),對原始數(shù)據(jù)進(jìn)行多層分類抽樣和人工標(biāo)注,得到標(biāo)注數(shù)據(jù),隨后利用這些標(biāo)注數(shù)據(jù)進(jìn)行多折交叉驗(yàn)證,構(gòu)建多個分類器并進(jìn)行模型交叉驗(yàn)證。得到符合要求的數(shù)據(jù)檢核模型。
2、由于這種模型的訓(xùn)練方式需要采用多個分類模型進(jìn)行交叉驗(yàn)證,因此訓(xùn)練的過程較長,模型訓(xùn)練的效率較低。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供了一種模型的訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品,能夠解決現(xiàn)有的模型訓(xùn)練的效率較低的問題。
2、第一方面,本申請實(shí)施例提供一種模型的訓(xùn)練方法,方法包括:
3、獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中的每個數(shù)據(jù)帶有人工標(biāo)注的第一標(biāo)簽信息;
4、將所述第一數(shù)據(jù)集分為測試集和訓(xùn)練集,利用所述訓(xùn)練集對初始的第一模型進(jìn)行訓(xùn)練,得到第二模型;
5、將所述測試集中的數(shù)據(jù)輸入所述第二模型中,得到所述第二模型輸出的所述測試集中數(shù)據(jù)的第二標(biāo)簽信息;
6、根據(jù)所述測試集中數(shù)據(jù)的第一標(biāo)簽信息和第二標(biāo)簽信息,剔除所述測試集中的噪聲數(shù)據(jù),得到第二數(shù)據(jù)集;
7、基于所述第二數(shù)據(jù)集對所述第二模型進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)據(jù)檢核模型,所述數(shù)據(jù)檢核模型用于評估數(shù)據(jù)的質(zhì)量。
8、在一些實(shí)施例中,所述第一標(biāo)簽信息包括多個第一子標(biāo)簽,以及各第一子標(biāo)簽的第一分布概率,所述第二標(biāo)簽信息包括多個第二子標(biāo)簽,以及各第二子標(biāo)簽的第二分布概率;
9、所述根據(jù)所述測試集中數(shù)據(jù)的第一標(biāo)簽信息和第二標(biāo)簽信息,剔除所述測試集中的噪聲數(shù)據(jù),得到第二數(shù)據(jù)集之前,所述方法還包括:
10、根據(jù)所述測試集中數(shù)據(jù)的所述第一子標(biāo)簽、所述第一分布概率、所述第二子標(biāo)簽以及所述第二分布概率確定所述測試集中數(shù)據(jù)的聯(lián)合分布概率;
11、根據(jù)所述聯(lián)合分布概率確定所述測試集中的噪聲數(shù)據(jù)。
12、在一些實(shí)施例中,所述根據(jù)所述聯(lián)合分布概率確定所述測試集中的噪聲數(shù)據(jù),包括:
13、對所述測試集中任意一個第二測試數(shù)據(jù),確定所述第二測試數(shù)據(jù)的目標(biāo)子標(biāo)簽的第一分布概率和第二分布概率,所述目標(biāo)子標(biāo)簽為相同的第一子標(biāo)簽和第二子標(biāo)簽;
14、將所述第一分布概率和所述第二分布概率的乘積確定為所述目標(biāo)子標(biāo)簽的聯(lián)合分布概率;
15、在所述聯(lián)合分布概率小于概率分布閾值的情況下,將所述第二測試數(shù)據(jù)確定為所述噪聲數(shù)據(jù)。
16、在一些實(shí)施例中,所述所述根據(jù)所述測試集中數(shù)據(jù)的第一標(biāo)簽信息和第二標(biāo)簽信息,剔除所述測試集中的噪聲數(shù)據(jù),得到第二數(shù)據(jù)集之前,所述方法還包括:
17、對所述測試集中任意一個第一測試數(shù)據(jù),在所述第一測試數(shù)據(jù)的第一標(biāo)簽信息不同于第二標(biāo)簽信息的情況下,將所述第一測試數(shù)據(jù)確定為所述噪聲數(shù)據(jù)。
18、在一些實(shí)施例中,所述確基于所述第二數(shù)據(jù)集對所述第二模型進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)據(jù)檢核模型,包括:
19、在所述第二模型進(jìn)行i次訓(xùn)練之后,對所述第二模型進(jìn)行性能評估,得到i次訓(xùn)練后的所述第二模型的性能評分;
20、在所述性能評分小于評分閾值的情況下,對所述第二數(shù)據(jù)集再次進(jìn)行去噪處理;
21、利用去噪處理之后的第二數(shù)據(jù)集再次訓(xùn)練所述第二模型,直至訓(xùn)練后的第二模型的性能評分大于或等于所述評分閾值,停止訓(xùn)練所述第二模型,得到訓(xùn)練好的數(shù)據(jù)檢核模型。
22、在一些實(shí)施例中,所述獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中的每個數(shù)據(jù)帶有人工標(biāo)注的第一標(biāo)簽信息之前,所述方法還包括:
23、獲取未標(biāo)注數(shù)據(jù)集;
24、顯示所述未標(biāo)注數(shù)據(jù)集對應(yīng)的標(biāo)簽集合和標(biāo)注區(qū)間,以使用戶基于所述標(biāo)簽集合和所述標(biāo)注區(qū)間對所述未標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)簽;
25、響應(yīng)于用戶對所述未標(biāo)注數(shù)據(jù)集的打標(biāo)輸入,對所述未標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)添加第一標(biāo)簽信息,得到所述第一數(shù)據(jù)集。
26、第二方面,本申請實(shí)施例提供一種模型的訓(xùn)練裝置,裝置包括:
27、獲取模塊,用于獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中的每個數(shù)據(jù)帶有人工標(biāo)注的第一標(biāo)簽信息;
28、拆分模塊,用于將所述第一數(shù)據(jù)集分為測試集和訓(xùn)練集,利用所述訓(xùn)練集對初始的第一模型進(jìn)行訓(xùn)練,得到第二模型;
29、預(yù)訓(xùn)練模塊,用于將所述測試集中的數(shù)據(jù)輸入所述第二模型中,得到所述第二模型輸出的所述測試集中數(shù)據(jù)的第二標(biāo)簽信息;
30、去噪模塊,用于根據(jù)所述測試集中數(shù)據(jù)的第一標(biāo)簽信息和第二標(biāo)簽信息,剔除所述測試集中的噪聲數(shù)據(jù),得到第二數(shù)據(jù)集;
31、訓(xùn)練模塊,用于基于所述第二數(shù)據(jù)集對所述第二模型進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)據(jù)檢核模型,所述數(shù)據(jù)檢核模型用于評估數(shù)據(jù)的質(zhì)量。
32、第三方面,本申請實(shí)施例提供了一種模型的訓(xùn)練設(shè)備,設(shè)備包括:處理器以及存儲有計(jì)算機(jī)程序指令的存儲器;
33、處理器執(zhí)行計(jì)算機(jī)程序指令時(shí)實(shí)現(xiàn)如上的模型的訓(xùn)練方法。
34、第四方面,本申請實(shí)施例提供了一種計(jì)算機(jī)存儲介質(zhì),計(jì)算機(jī)存儲介質(zhì)上存儲有計(jì)算機(jī)程序指令,計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上的模型的訓(xùn)練方法。
35、第五方面,本申請實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上的模型的訓(xùn)練方法。
36、在本申請中,通過分步處理和剔除噪聲數(shù)據(jù),能得到更干凈的數(shù)據(jù)集,提升了數(shù)據(jù)集的質(zhì)量,從而提高了模型的訓(xùn)練效果。并且,在剔除噪聲數(shù)據(jù)后,模型在更干凈的數(shù)據(jù)集上進(jìn)行迭代訓(xùn)練,減少了因錯誤或異常數(shù)據(jù)導(dǎo)致的模型誤差。和現(xiàn)有技術(shù)相比,本申請通過直接剔除噪聲數(shù)據(jù)并對單一模型進(jìn)行迭代訓(xùn)練,避免了構(gòu)建和驗(yàn)證多個分類器的復(fù)雜性。這不僅簡化了模型訓(xùn)練過程,還減少了計(jì)算資源的消耗和時(shí)間成本,因此顯著提升了模型訓(xùn)練的速度,因而提升了模型訓(xùn)練的效率。
1.一種模型的訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的模型的訓(xùn)練方法,其特征在于,所述第一標(biāo)簽信息包括多個第一子標(biāo)簽,以及各第一子標(biāo)簽的第一分布概率,所述第二標(biāo)簽信息包括多個第二子標(biāo)簽,以及各第二子標(biāo)簽的第二分布概率;
3.根據(jù)權(quán)利要求2所述的模型的訓(xùn)練方法,其特征在于,所述根據(jù)所述聯(lián)合分布概率確定所述測試集中的噪聲數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求1所述的模型的訓(xùn)練方法,其特征在于,所述所述根據(jù)所述測試集中數(shù)據(jù)的第一標(biāo)簽信息和第二標(biāo)簽信息,剔除所述測試集中的噪聲數(shù)據(jù),得到第二數(shù)據(jù)集之前,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的模型的訓(xùn)練方法,其特征在于,所述確基于所述第二數(shù)據(jù)集對所述第二模型進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)據(jù)檢核模型,包括:
6.根據(jù)權(quán)利要求1所述的模型的訓(xùn)練方法,其特征在于,所述獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中的每個數(shù)據(jù)帶有人工標(biāo)注的第一標(biāo)簽信息之前,所述方法還包括:
7.一種模型的訓(xùn)練裝置,其特征在于,所述裝置包括:
8.一種模型的訓(xùn)練設(shè)備,其特征在于,所述模型的訓(xùn)練設(shè)備包括:處理器以及存儲有計(jì)算機(jī)程序指令的存儲器;
9.一種計(jì)算機(jī)存儲介質(zhì),其特征在于,所述計(jì)算機(jī)存儲介質(zhì)上存儲有計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的模型的訓(xùn)練方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-6中任一項(xiàng)所述的模型的訓(xùn)練方法。