基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)的制作方法

文檔序號(hào)：2827307閱讀：318來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明是有關(guān)于一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)，該方法包括：將大詞表拆分為多個(gè)小詞表；將每個(gè)小詞表對(duì)應(yīng)一個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型，每個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸入維數(shù)相同且獨(dú)立進(jìn)行第一次訓(xùn)練；將各神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸出向量合并并進(jìn)行第二次訓(xùn)練；得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。該系統(tǒng)包括：輸入模塊、第一次訓(xùn)練模塊、第二次訓(xùn)練模塊和輸出模塊。本發(fā)明通過(guò)多個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)不同詞表，充分利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力，大大降低對(duì)大詞表學(xué)習(xí)訓(xùn)練的時(shí)間，同時(shí)將大詞表的輸出進(jìn)行歸一化，實(shí)現(xiàn)多個(gè)神經(jīng)網(wǎng)絡(luò)的歸一和共享，使得NNLM盡可能學(xué)習(xí)更多的信息，從而提高大規(guī)模語(yǔ)音識(shí)別和機(jī)器翻譯等相關(guān)應(yīng)用任務(wù)中的準(zhǔn)確率。
【專利說(shuō)明】基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語(yǔ)言模型，特別是涉及一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)言模型在自然語(yǔ)言處理中有著非常重要的作用，特別是在大規(guī)模語(yǔ)音識(shí)別和機(jī)器翻譯中。當(dāng)前主流的語(yǔ)言模型為基于概率的統(tǒng)計(jì)語(yǔ)言模型，特別是基于n-gram的統(tǒng)計(jì)模型。隨著神經(jīng)網(wǎng)絡(luò)的興起，越來(lái)越多的人利用神經(jīng)網(wǎng)絡(luò)生成統(tǒng)計(jì)語(yǔ)言模型。
[0003]統(tǒng)計(jì)語(yǔ)言模型被廣泛應(yīng)用于各種自然語(yǔ)言處理問(wèn)題，如語(yǔ)言識(shí)別、分詞、機(jī)器翻譯、詞性標(biāo)注等。簡(jiǎn)單的說(shuō)，統(tǒng)計(jì)語(yǔ)言模型就是用來(lái)計(jì)算一個(gè)句子的概率的模型，即
[0004]P (W1, W2,..., Wk)
[0005]已知一個(gè)句子(詞語(yǔ)序列)S=W1, W2,..., Wk,他們的概率可以表示為:
[0006]P (s) =p (W1, W2,…，wk) =p (W1)P (W21W1)...P (wk IW1, W2,..., W^1)
[0007]舉個(gè)簡(jiǎn)單的例子，輸入拼音串為nixianzaiganshenme,對(duì)應(yīng)的輸出可以有多種形式，如“你現(xiàn)在干什么”、“你西安再趕什么”，等等。那么到底哪個(gè)才是正確的轉(zhuǎn)換結(jié)果呢？利用語(yǔ)言模型，我們知道前者的概率大于后者，因此轉(zhuǎn)換成前者在多數(shù)情況下比較合理。
[0008]目前使用比較多的統(tǒng)計(jì)語(yǔ)言模型是n-gram語(yǔ)言模型，就是將上式中條件概率部分 pbklwpw^ …，Wlrf)簡(jiǎn)化為 P (Wk IW1, W2,..., Wn^1) O 實(shí)際應(yīng)用中 η—般取為 n=3 或 n=4,即三元和四元的n-gram語(yǔ)言模型。
[0009]基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型最早由Bengio等人在2001年發(fā)表在NIPS上的文章《ANeural Probabilistic Language Model))中提出。請(qǐng)參閱圖1 所不，Wj_n+1, Wj_n+2,…，Wj^1就是當(dāng)前詞W」的前η-1個(gè)詞?，F(xiàn)在需要根據(jù)這已知的η-1個(gè)詞預(yù)測(cè)詞％的概率，即計(jì)算:
[0010]P (Wj=i I hj) VlG[l.N]
[0011]首先，從輸入層到映射層(projectionlayer)由一個(gè)|V| Xm維的映射矩陣C(W)完成，其中|V|表示詞表的大小(語(yǔ)料中的總詞數(shù))，m表示映射空間的維度。
[0012]網(wǎng)絡(luò)的第一層(映射層)是將C(w」_n+1)，C(w」_n+2)，…，C(wj-l)這η-1個(gè)向量首尾相接拼起來(lái)，形成一個(gè)維的向量，記為Q。網(wǎng)絡(luò)的第二層(隱藏層)由映射層經(jīng)過(guò)線性變換d+Hx附加一個(gè)激活函數(shù)tanh ()得到,其中d是一個(gè)偏置量，tanh ()定義如下:。
[0013]dj=tanh (Σ PjlCfbj)。
[0014]網(wǎng)絡(luò)的第三層(輸出層)一共有Ivl個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)71表示下一個(gè)詞為i的概率。該層由隱藏層輸出經(jīng)過(guò)線性變換后附加SOftmax激活函數(shù)進(jìn)行歸一化得到，計(jì)算公式為:
[0015]Oi= Σ j υ jjcl`j+kj
[0016]Pi=exp (Oi) / (Σ r (exp (or)))
[0017]相比于當(dāng)前主流的n-gram語(yǔ)言模型，基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型(NNLM)對(duì)模型參數(shù)的共享更直接有效(共享映射矩陣)，因而對(duì)低頻詞具有天然的光滑性，因此在建模能力上具有顯著優(yōu)勢(shì)。另一方面，NNLM也具有明顯的弱點(diǎn)，，包括:[0018]I)訓(xùn)練效率低，耗時(shí)長(zhǎng)，特別是當(dāng)詞表增大到超過(guò)IOw時(shí)，訓(xùn)練時(shí)間難以接受；
[0019]2)解碼時(shí)間較長(zhǎng)，不能滿足實(shí)際要求；
[0020]3)單個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)大詞表能力差，一旦需要學(xué)習(xí)的信息增多，單個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就無(wú)法滿足。
[0021]為了解決上述問(wèn)題，可以考慮利用分布式神經(jīng)網(wǎng)絡(luò)進(jìn)行大詞表語(yǔ)言模型學(xué)習(xí)。但是，基于現(xiàn)有技術(shù)，在進(jìn)行多個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)，各個(gè)神經(jīng)網(wǎng)絡(luò)需要獨(dú)立學(xué)習(xí)不同詞匯，極易導(dǎo)致最后產(chǎn)生的語(yǔ)言模型的概率尺度不統(tǒng)一，即未歸一化。
[0022]因此，如何能同時(shí)解決大詞表神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)和多個(gè)神經(jīng)網(wǎng)絡(luò)之間的歸一化問(wèn)題，在大規(guī)模語(yǔ)音識(shí)別和機(jī)器翻譯中顯得尤為重要。

【發(fā)明內(nèi)容】

[0023]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)，使其能夠同時(shí)解決大詞表神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)和多個(gè)神經(jīng)網(wǎng)絡(luò)之間歸一化的問(wèn)題，從而克服現(xiàn)有的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)方法的不足。
[0024]為解決上述技術(shù)問(wèn)題，本發(fā)明提出一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法，包括以下步驟:將大詞表拆分為多個(gè)小詞表；將每個(gè)小詞表對(duì)應(yīng)一個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型，每個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸入維數(shù)相同且獨(dú)立進(jìn)行第一次訓(xùn)練；將各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸出向量合并并進(jìn)行第二次訓(xùn)練；得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
[0025]作為本發(fā)明的一種改進(jìn)，第二次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的輸出概率計(jì)算公式為:
[0026]
【權(quán)利要求】
1.一種基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法，其特征在于包括以下步驟: 將大詞表拆分為多個(gè)小詞表；將每個(gè)小詞表對(duì)應(yīng)一個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型，每個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸入維數(shù)相同且獨(dú)立進(jìn)行第一次訓(xùn)練；將各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的輸出向量合并并進(jìn)行第二次訓(xùn)練；得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
2.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法，其特征在于所述的第二次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的輸出概率計(jì)算公式為:
3.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法，其特征在于所述的第一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的輸出概率計(jì)算公式為:
4.一種應(yīng)用權(quán)利要求1-3中任一項(xiàng)所述方法的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練系統(tǒng)，其特征在于包括: 輸入模塊，用于將大詞表拆分為多個(gè)小詞表；第一次訓(xùn)練模塊，包括多個(gè)獨(dú)立的小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊，每個(gè)小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊對(duì)應(yīng)輸入模塊的一個(gè)小詞表進(jìn)行獨(dú)立訓(xùn)練；第二次訓(xùn)練模塊，用于將第一次訓(xùn)練模塊中各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊的輸出向量合并，并進(jìn)行第二次訓(xùn)練；輸出模塊，用于輸出第二次訓(xùn)練模塊得到歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。
5.根據(jù)權(quán)利要求4所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練系統(tǒng)，其特征在于所述的第一次訓(xùn)練模塊中的各小神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型模塊包括接收輸入量的映射層、進(jìn)行概率計(jì)算的隱藏層和輸出層。
【文檔編號(hào)】G10L15/06GK103810999SQ201410067916
【公開日】2014年5月21日申請(qǐng)日期:2014年2月27日優(yōu)先權(quán)日:2014年2月27日
【發(fā)明者】劉榮, 王東, 鄭方申請(qǐng)人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉榮;王東;鄭方
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

上一篇：一種信息處理方法、裝置及電子設(shè)備的制作方法
上一篇：用于檢測(cè)和弦的設(shè)備和方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型相關(guān)技術(shù)

循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于分布式神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型訓(xùn)練方法及其系統(tǒng)的制作方法