本技術(shù)涉及自然語言處理,尤其涉及一種語言模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品。
背景技術(shù):
1、現(xiàn)有技術(shù)中,由于部分領(lǐng)域的訓(xùn)練數(shù)據(jù)較為罕見,例如含有嬰兒哭鬧信息的音頻數(shù)據(jù)或稀有動物的叫聲,附帶對應(yīng)含義注釋的音頻數(shù)據(jù)更是難以獲取,因此在訓(xùn)練語言模型時(shí)面臨數(shù)據(jù)稀缺的問題,限制了模型的訓(xùn)練效果,導(dǎo)致訓(xùn)練模型的性能不足而無法準(zhǔn)確識別對應(yīng)領(lǐng)域的數(shù)據(jù)。
2、為了提高對訓(xùn)練數(shù)據(jù)稀缺領(lǐng)域的語言模型訓(xùn)練準(zhǔn)確性,現(xiàn)有的方法中存在通過大型神經(jīng)網(wǎng)絡(luò)模型對訓(xùn)練數(shù)據(jù)稀缺領(lǐng)域的數(shù)據(jù)進(jìn)行識別的方法。然而,大型神經(jīng)網(wǎng)絡(luò)模型參數(shù)量較大,對計(jì)算資源要求較高,不便于在移動端部署應(yīng)用。此外,還有通過降低模型參數(shù)量和層數(shù),使其適用于移動端應(yīng)用的方法。然而,這種輕量級模型的性能相較于大型神經(jīng)網(wǎng)絡(luò)模型的性能有所下降。因此在移動端部署應(yīng)用中,對于訓(xùn)練數(shù)據(jù)稀缺領(lǐng)域的數(shù)據(jù)進(jìn)行識別時(shí),在識別性能和計(jì)算資源需求之間難以平衡。
3、因此,如何平衡訓(xùn)練數(shù)據(jù)稀缺領(lǐng)域的語言模型性能和計(jì)算資源需求,是目前亟需解決的一個(gè)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種語言模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品,旨在解決語言模型在訓(xùn)練數(shù)據(jù)稀缺的領(lǐng)域進(jìn)行處理時(shí),語言模型性能和計(jì)算資源需求之間難以平衡的技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,本技術(shù)提供一種語言模型訓(xùn)練方法,所述語言模型訓(xùn)練方法包括:
3、獲取訓(xùn)練數(shù)據(jù);
4、根據(jù)所述訓(xùn)練數(shù)據(jù)訓(xùn)練深層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型,所述深層卷積神經(jīng)網(wǎng)絡(luò)模型根據(jù)預(yù)設(shè)的統(tǒng)計(jì)池化層建立;
5、通過所述訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型對預(yù)設(shè)的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識蒸餾訓(xùn)練,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型;
6、對所述訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行量化處理,得到量化后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型。
7、在一實(shí)施例中,所述根據(jù)所述訓(xùn)練數(shù)據(jù)訓(xùn)練深層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型的步驟,包括:
8、基于所述統(tǒng)計(jì)池化層和所述深層卷積神經(jīng)網(wǎng)絡(luò)模型的全連接層對所述訓(xùn)練數(shù)據(jù)進(jìn)行特征提取和特征融合,得到所述訓(xùn)練數(shù)據(jù)的融合特征數(shù)據(jù);
9、獲取領(lǐng)域數(shù)據(jù);
10、根據(jù)所述融合特征數(shù)據(jù)和所述領(lǐng)域數(shù)據(jù)微調(diào)所述深層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型。
11、在一實(shí)施例中,所述基于所述統(tǒng)計(jì)池化層和所述深層卷積神經(jīng)網(wǎng)絡(luò)模型的全連接層對所述訓(xùn)練數(shù)據(jù)進(jìn)行特征提取和特征融合,得到所述訓(xùn)練數(shù)據(jù)的融合特征數(shù)據(jù)的步驟,包括:
12、通過所述統(tǒng)計(jì)池化層對所述訓(xùn)練數(shù)據(jù)進(jìn)行滑動窗口處理,得到所述訓(xùn)練數(shù)據(jù)的平均值和所述訓(xùn)練數(shù)據(jù)的方差;
13、通過所述深層卷積神經(jīng)網(wǎng)絡(luò)模型的全連接層對所述訓(xùn)練數(shù)據(jù)的平均值和所述訓(xùn)練數(shù)據(jù)的方差進(jìn)行特征融合,得到所述訓(xùn)練數(shù)據(jù)的融合特征數(shù)據(jù)。
14、在一實(shí)施例中,所述通過所述訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型對預(yù)設(shè)的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識蒸餾訓(xùn)練,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型的步驟,包括:
15、獲取領(lǐng)域數(shù)據(jù);
16、通過所述訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型對所述領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)測,得到目標(biāo)標(biāo)簽和目標(biāo)標(biāo)簽的概率分布;
17、通過所述訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型和所述領(lǐng)域數(shù)據(jù)對淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到目標(biāo)標(biāo)簽損失和目標(biāo)標(biāo)簽的概率分布損失;
18、根據(jù)所述目標(biāo)標(biāo)簽損失和所述目標(biāo)標(biāo)簽的概率分布損失計(jì)算損失函數(shù),并根據(jù)所述損失函數(shù)優(yōu)化所述淺層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型。
19、在一實(shí)施例中,所述根據(jù)所述目標(biāo)標(biāo)簽損失和所述目標(biāo)標(biāo)簽的概率分布損失計(jì)算損失函數(shù),并根據(jù)所述損失函數(shù)優(yōu)化所述淺層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型的步驟,包括:
20、根據(jù)所述目標(biāo)標(biāo)簽損失和所述目標(biāo)標(biāo)簽的概率分布損失進(jìn)行加權(quán)運(yùn)算,得到所述損失函數(shù);
21、根據(jù)所述損失函數(shù),反向傳播優(yōu)化所述淺層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型。
22、在一實(shí)施例中,所述對所述訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行量化處理,得到量化后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型的步驟,包括:
23、對所述訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行前向傳播處理,得到輸出統(tǒng)計(jì)信息和權(quán)重統(tǒng)計(jì)信息;
24、根據(jù)所述輸出統(tǒng)計(jì)信息和所述權(quán)重統(tǒng)計(jì)信息計(jì)算量化參數(shù),得到量化參數(shù);
25、根據(jù)所述量化參數(shù)和預(yù)設(shè)的量化策略,對所述訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行量化處理,得到量化后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型。
26、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提供一種語言模型訓(xùn)練裝置,所述語言模型訓(xùn)練裝置包括:
27、獲取模塊,用于獲取訓(xùn)練數(shù)據(jù);
28、第一模型訓(xùn)練模塊,用于根據(jù)所述訓(xùn)練數(shù)據(jù)訓(xùn)練深層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型,所述深層卷積神經(jīng)網(wǎng)絡(luò)模型根據(jù)預(yù)設(shè)的統(tǒng)計(jì)池化層建立;
29、第二模型訓(xùn)練模塊,用于通過所述訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型對預(yù)設(shè)的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識蒸餾訓(xùn)練,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型;
30、量化模塊,用于對所述訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行參數(shù)量化處理,得到量化后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型。
31、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提出一種語言模型訓(xùn)練設(shè)備,所述設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的語言模型訓(xùn)練方法的步驟。
32、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提供一種存儲介質(zhì),所述存儲介質(zhì)為計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有實(shí)現(xiàn)語言模型訓(xùn)練方法的程序,所述實(shí)現(xiàn)語言模型訓(xùn)練方法的程序被處理器執(zhí)行以實(shí)現(xiàn)如上所述語言模型訓(xùn)練方法的步驟。
33、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括實(shí)現(xiàn)語言模型訓(xùn)練方法的程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語言模型訓(xùn)練方法的步驟。
34、本技術(shù)提出的一個(gè)或多個(gè)技術(shù)方案,至少具有以下技術(shù)效果:
35、通過獲取訓(xùn)練數(shù)據(jù);根據(jù)所述訓(xùn)練數(shù)據(jù)訓(xùn)練深層卷積神經(jīng)網(wǎng)絡(luò)模型,得到訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型,所述深層卷積神經(jīng)網(wǎng)絡(luò)模型根據(jù)預(yù)設(shè)的統(tǒng)計(jì)池化層建立;深層卷積神經(jīng)網(wǎng)絡(luò)模型通常具有更高的性能,能夠捕獲訓(xùn)練數(shù)據(jù)中的復(fù)雜特征。通過訓(xùn)練深層卷積神經(jīng)網(wǎng)絡(luò)模型,可以確保從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到盡可能多的信息。預(yù)設(shè)的統(tǒng)計(jì)池化層有助于深層卷積神經(jīng)網(wǎng)絡(luò)模型更有效學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的共同特征和差異信息數(shù)據(jù),提高深層卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練效果。通過所述訓(xùn)練后的深層卷積神經(jīng)網(wǎng)絡(luò)模型對預(yù)設(shè)的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識蒸餾訓(xùn)練,得到訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型;知識蒸餾技術(shù)允許將深層卷積神經(jīng)網(wǎng)絡(luò)模型中的知識轉(zhuǎn)移到淺層卷積神經(jīng)網(wǎng)絡(luò)模型中,淺層卷積神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到深層卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到的數(shù)據(jù)結(jié)構(gòu)和模式,而無需進(jìn)行大量的訓(xùn)練或復(fù)雜的架構(gòu)設(shè)計(jì),能夠減少計(jì)算成本,提高淺層卷積神經(jīng)網(wǎng)絡(luò)模型的性能,使其接近深層卷積神經(jīng)網(wǎng)絡(luò)模型的性能。對所述訓(xùn)練后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行量化處理,得到量化后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型;量化處理可以顯著減少淺層卷積神經(jīng)網(wǎng)絡(luò)模型的存儲需求和計(jì)算成本,在保證淺層卷積神經(jīng)網(wǎng)絡(luò)模型性能的前提下,將計(jì)算過程中的數(shù)據(jù)類型變小,減少了計(jì)算量,量化后的淺層卷積神經(jīng)網(wǎng)絡(luò)模型可以加快模型推理速度,使淺層卷積神經(jīng)網(wǎng)絡(luò)模型更容易部署到資源受限的設(shè)備上,例如移動設(shè)備、嵌入式系統(tǒng)等。