基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明是有關(guān)于一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng),該方法包括:將大詞表拆分為多個(gè)小詞表;將每個(gè)小詞表對(duì)應(yīng)一個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,每個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸入維數(shù)相同且獨(dú)立進(jìn)行第一次訓(xùn)練;將各神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸出向量合并并進(jìn)行第二次訓(xùn)練;得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。該系統(tǒng)包括:輸入模塊、第一次訓(xùn)練模塊、第二次訓(xùn)練模塊和輸出模塊。本發(fā)明通過(guò)多個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)不同詞表,充分利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,大大降低對(duì)大詞表學(xué)習(xí)訓(xùn)練的時(shí)間,同時(shí)將大詞表的輸出進(jìn)行歸一化,實(shí)現(xiàn)多個(gè)神經(jīng)網(wǎng)絡(luò)的歸一和共享,使得NNLM盡可能學(xué)習(xí)更多的信息,從而提高大規(guī)模語(yǔ)音識(shí)別和機(jī)器翻譯等相關(guān)應(yīng)用任務(wù)中的準(zhǔn)確率。
【專利說(shuō)明】基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語(yǔ)言模型,特別是涉及一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)言模型在自然語(yǔ)言處理中有著非常重要的作用,特別是在大規(guī)模語(yǔ)音識(shí)別和機(jī)器翻譯中。當(dāng)前主流的語(yǔ)言模型為基于概率的統(tǒng)計(jì)語(yǔ)言模型,特別是基于n-gram的統(tǒng)計(jì)模型。隨著神經(jīng)網(wǎng)絡(luò)的興起,越來(lái)越多的人利用神經(jīng)網(wǎng)絡(luò)生成統(tǒng)計(jì)語(yǔ)言模型。
[0003]統(tǒng)計(jì)語(yǔ)言模型被廣泛應(yīng)用于各種自然語(yǔ)言處理問(wèn)題,如語(yǔ)言識(shí)別、分詞、機(jī)器翻譯、詞性標(biāo)注等。簡(jiǎn)單的說(shuō),統(tǒng)計(jì)語(yǔ)言模型就是用來(lái)計(jì)算一個(gè)句子的概率的模型,即
[0004]P (W1, W2,..., Wk)
[0005]已知一個(gè)句子(詞語(yǔ)序列)S=W1, W2,..., Wk,他們的概率可以表示為:
[0006]P (s) =p (W1, W2,…,wk) =p (W1)P (W21W1)...P (wk IW1, W2,..., W^1)
[0007]舉個(gè)簡(jiǎn)單的例子,輸入拼音串為nixianzaiganshenme,對(duì)應(yīng)的輸出可以有多種形式,如“你現(xiàn)在干什么”、“你西安再趕什么”,等等。那么到底哪個(gè)才是正確的轉(zhuǎn)換結(jié)果呢?利用語(yǔ)言模型,我們知道前者的概率大于后者,因此轉(zhuǎn)換成前者在多數(shù)情況下比較合理。
[0008]目前使用比較多的統(tǒng)計(jì)語(yǔ)言模型是n-gram語(yǔ)言模型,就是將上式中條件概率部分 pbklwpw^ …,Wlrf)簡(jiǎn)化為 P (Wk IW1, W2,..., Wn^1) O 實(shí)際應(yīng)用中 η—般取為 n=3 或 n=4,即三元和四元的n-gram語(yǔ)言模型。
[0009]基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型最早由Bengio等人在2001年發(fā)表在NIPS上的文章《ANeural Probabilistic Language Model))中提出。請(qǐng)參閱圖1 所不,Wj_n+1, Wj_n+2,…,Wj^1就是當(dāng)前詞W」的前η-1個(gè)詞?,F(xiàn)在需要根據(jù)這已知的η-1個(gè)詞預(yù)測(cè)詞%的概率,即計(jì)算:
[0010]P (Wj=i I hj) VlG[l.N]
[0011]首先,從輸入層到映射層(projectionlayer)由一個(gè)|V| Xm維的映射矩陣C(W)完成,其中|V|表示詞表的大小(語(yǔ)料中的總詞數(shù)),m表示映射空間的維度。
[0012]網(wǎng)絡(luò)的第一層(映射層)是將C(w」_n+1),C(w」_n+2),…,C(wj-l)這η-1個(gè)向量首尾相接拼起來(lái),形成一個(gè)維的向量,記為Q。網(wǎng)絡(luò)的第二層(隱藏層)由映射層經(jīng)過(guò)線性變換d+Hx附加一個(gè)激活函數(shù)tanh ()得到,其中d是一個(gè)偏置量,tanh ()定義如下:。
[0013]dj=tanh (Σ PjlCfbj)。
[0014]網(wǎng)絡(luò)的第三層(輸出層)一共有Ivl個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)71表示下一個(gè)詞為i的概率。該層由隱藏層輸出經(jīng)過(guò)線性變換后附加SOftmax激活函數(shù)進(jìn)行歸一化得到,計(jì)算公式為:
[0015]Oi= Σ j υ jjcl`j+kj
[0016]Pi=exp (Oi) / (Σ r (exp (or)))
[0017]相比于當(dāng)前主流的n-gram語(yǔ)言模型,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型(NNLM)對(duì)模型參數(shù)的共享更直接有效(共享映射矩陣),因而對(duì)低頻詞具有天然的光滑性,因此在建模能力上具有顯著優(yōu)勢(shì)。另一方面,NNLM也具有明顯的弱點(diǎn),,包括:[0018]I)訓(xùn)練效率低,耗時(shí)長(zhǎng),特別是當(dāng)詞表增大到超過(guò)IOw時(shí),訓(xùn)練時(shí)間難以接受;
[0019]2)解碼時(shí)間較長(zhǎng),不能滿足實(shí)際要求;
[0020]3)單個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)大詞表能力差,一旦需要學(xué)習(xí)的信息增多,單個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就無(wú)法滿足。
[0021]為了解決上述問(wèn)題,可以考慮利用分布式神經(jīng)網(wǎng)絡(luò)進(jìn)行大詞表語(yǔ)言模型學(xué)習(xí)。但是,基于現(xiàn)有技術(shù),在進(jìn)行多個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí),各個(gè)神經(jīng)網(wǎng)絡(luò)需要獨(dú)立學(xué)習(xí)不同詞匯,極易導(dǎo)致最后產(chǎn)生的語(yǔ)言模型的概率尺度不統(tǒng)一,即未歸一化。
[0022]因此,如何能同時(shí)解決大詞表神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)和多個(gè)神經(jīng)網(wǎng)絡(luò)之間的歸一化問(wèn)題,在大規(guī)模語(yǔ)音識(shí)別和機(jī)器翻譯中顯得尤為重要。
【發(fā)明內(nèi)容】
[0023]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng),使其能夠同時(shí)解決大詞表神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)和多個(gè)神經(jīng)網(wǎng)絡(luò)之間歸一化的問(wèn)題,從而克服現(xiàn)有的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)方法的不足。
[0024]為解決上述技術(shù)問(wèn)題,本發(fā)明提出一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法,包括以下步驟:將大詞表拆分為多個(gè)小詞表;將每個(gè)小詞表對(duì)應(yīng)一個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,每個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸入維數(shù)相同且獨(dú)立進(jìn)行第一次訓(xùn)練;將各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸出向量合并并進(jìn)行第二次訓(xùn)練;得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
[0025]作為本發(fā)明的一種改進(jìn),第二次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的輸出概率計(jì)算公式為:
[0026]
【權(quán)利要求】
1.一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法,其特征在于包括以下步驟: 將大詞表拆分為多個(gè)小詞表; 將每個(gè)小詞表對(duì)應(yīng)一個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,每個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸入維數(shù)相同且獨(dú)立進(jìn)行第一次訓(xùn)練; 將各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸出向量合并并進(jìn)行第二次訓(xùn)練; 得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
2.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法,其特征在于所述的第二次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的輸出概率計(jì)算公式為:
3.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法,其特征在于所述的第一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的輸出概率計(jì)算公式為:
4.一種應(yīng)用權(quán)利要求1-3中任一項(xiàng)所述方法的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練系統(tǒng),其特征在于包括: 輸入模塊,用于將大詞表拆分為多個(gè)小詞表; 第一次訓(xùn)練模塊,包括多個(gè)獨(dú)立的小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊,每個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊對(duì)應(yīng)輸入模塊的一個(gè)小詞表進(jìn)行獨(dú)立訓(xùn)練; 第二次訓(xùn)練模塊,用于將第一次訓(xùn)練模塊中各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊的輸出向量合并,并進(jìn)行第二次訓(xùn)練; 輸出模塊,用于輸出第二次訓(xùn)練模塊得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
5.根據(jù)權(quán)利要求4所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練系統(tǒng),其特征在于所述的第一次訓(xùn)練模塊中的各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊包括接收輸入量的映射層、進(jìn)行概率計(jì)算的隱藏層和輸出層。
【文檔編號(hào)】G10L15/06GK103810999SQ201410067916
【公開日】2014年5月21日 申請(qǐng)日期:2014年2月27日 優(yōu)先權(quán)日:2014年2月27日
【發(fā)明者】劉榮, 王東, 鄭方 申請(qǐng)人:清華大學(xué)