專利名稱:聯(lián)合非線性隨機投影、受限波爾茲曼機、以及基于批量的可并行優(yōu)化來使用的深凸網(wǎng)絡(luò)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及與自動分類有關(guān)的技術(shù)。
背景技術(shù):
語音識別已經(jīng)是大量研究和商業(yè)開發(fā)的課題。例如,語音識別系統(tǒng)已經(jīng)合并到移動電話、臺式計算機、汽車等等中以便提供對用戶所提供的語音輸入的特定響應(yīng)。例如,在配備有語音識別技術(shù)的移動電話中,用戶可以講出移動電話中所列出的聯(lián)系人的姓名,并且移動電話可以發(fā)起對該聯(lián)系人的呼叫。此外,許多公司當前正在使用語音識別技術(shù)來在標識公司雇員、標識產(chǎn)品或服務(wù)的問題等等方面幫助顧客。部分地被利用人類語音生成和感知系統(tǒng)中某些類似屬性的要求所激勵,對自動語音識別(ASR)的研究已經(jīng)開拓了分層的體系結(jié)構(gòu)來執(zhí)行語音識別。在這些研究中,對模型參數(shù)的學(xué)習(xí)已經(jīng)是最顯著且最困難的問題之一。與ASR研究中的發(fā)展并行,來自神經(jīng)網(wǎng)絡(luò)研究的學(xué)習(xí)方法中所取得的當前進展已經(jīng)點燃了對探查深度結(jié)構(gòu)化模型的興趣。一個具體的進步是深度信任網(wǎng)絡(luò)(DBN)的有效學(xué)習(xí)技術(shù)的開發(fā),該深度信任網(wǎng)絡(luò)是具有許多隱藏層的密集連接的、有向的信任網(wǎng)絡(luò)。一般而言,DBN可被認為是具有多層隱藏單元和至少一層可見單元的高度復(fù)雜的非線性特征提取器,其中隱藏單元的每一層進行學(xué)習(xí)來表示在原始輸入數(shù)據(jù)中捕捉更高階相關(guān)的特征。盡管DBN已經(jīng)顯示了在結(jié)合執(zhí)行識別/分類任務(wù)時很強大,但對DBN進行訓(xùn)練已經(jīng)證明是有點困難的。具體而言,用于訓(xùn)練DBN的常規(guī)技術(shù)涉及對隨機梯度下降學(xué)習(xí)算法的利用。盡管這一學(xué)習(xí)算法已經(jīng)顯示了在結(jié)合對分配給DBN的權(quán)重進行微調(diào)時很強大,但這樣的學(xué)習(xí)算法極其難以在各機器之間并行化,從而使得學(xué)習(xí)有點冗長。
發(fā)明內(nèi)容
以下是在本文詳細描述的主題的簡要的發(fā)明內(nèi)容。本發(fā)明內(nèi)容不旨在是關(guān)于權(quán)利要求的范圍的限制。本文描述了與自動分類有關(guān)的各種技術(shù)。更具體而言,本文描述了與自動語音識別(ASR)和自動字符識別有關(guān)的各種技術(shù)。再具體一點,本文描述了與通過利用凸優(yōu)化來訓(xùn)練深凸網(wǎng)絡(luò)有關(guān)的各種技術(shù)。深凸網(wǎng)絡(luò)包括多個已分層模塊,其中每一模塊包括包含單個隱藏層的專用神經(jīng)網(wǎng)絡(luò)。更具體而言,深凸網(wǎng)絡(luò)中的最低模塊包括第一線性層、非線性層和第二線性層,該第一線性層包括多個線性輸入單元,該非線性層包含多個非線性隱藏單元,該第二線性層包括通過將原始訓(xùn)練數(shù)據(jù)饋送到該模塊而產(chǎn)生的多個線性輸出單元。例如,如果結(jié)合對圖像進行分析來使用深凸網(wǎng)絡(luò),則該多個輸入單元可以對應(yīng)于圖像中的多個像素(或所提取的特征),并且可至少部分地基于與各像素相對應(yīng)的強度值、RGB值等來向這些輸入單元分配值。在另一示例中,如果結(jié)合ASR來使用深凸網(wǎng)絡(luò),該多個輸入單元可對應(yīng)于音頻文件的各樣本,其中分配給輸入單元的值基于相應(yīng)樣本的特性,或?qū)?yīng)于從語音波形中提取的特征(如功率譜或倒譜系數(shù))。最低模塊的隱藏層包括通過第一權(quán)重矩陣來映射到各輸入單元的多個非線性單元。例如,權(quán)重矩陣可包括0和I之間的多個隨機生成的值。非線性單元可以是被配置成對來自輸入單元的已加權(quán)輸出(根據(jù)第一權(quán)重矩陣進行了加權(quán))執(zhí)行非線性操作的S (sigmoidal)單兀。第二線性層包括表示分類任務(wù)的目標的多個輸出單元。例如,如果深凸網(wǎng)絡(luò)被配置成執(zhí)行圖像形式或語音形式的數(shù)字識別(例如,數(shù)字1-10),則該多個輸出單元可以表示值1、2、3等等,直至10。類似地,如果深凸網(wǎng)絡(luò)被配置成執(zhí)行音素識別(或更一般地,大詞匯量語音識別),則該多個輸出單元可以表示單音素、上下文相關(guān)音素或音素狀態(tài)。該多個非線性單元可通過第二權(quán)重矩陣來映射到該多個輸出單元。該第二權(quán)重矩陣可通過基于批 量的學(xué)習(xí)過程來習(xí)得,使得學(xué)習(xí)可以并行進行。具體而言,可以結(jié)合學(xué)習(xí)第二權(quán)重矩陣來使用凸優(yōu)化。作為示例,第二權(quán)重矩陣可以至少部分基于第一權(quán)重矩陣、分類的目標值、以及輸入單兀的值來學(xué)習(xí)。如上所示,深凸網(wǎng)絡(luò)包括多個已分層模塊,其中每一模塊包括上述三個層(包括多個線性輸入單元的第一線性層、包括多個非線性單元的隱藏層、以及包括多個線性輸出單元的第二線性層)。各模塊在本文中被稱為已分層的,因為在深凸網(wǎng)絡(luò)中,較低模塊的輸出單元是相鄰較高模塊的輸入單元的子集。更具體而言,在深凸網(wǎng)絡(luò)中直接處于最低模塊之上的第二模塊中,輸入單元可包括最低模塊的輸出單元。輸入單元可另外包括與原始訓(xùn)練數(shù)據(jù)相對應(yīng)的輸入單元一換言之,最低模塊的輸出單元可以附加在第二模塊的輸入單元上,使得第二模塊的輸入單元還包括最低模塊的輸出單元。如上所述,第二模塊中的與原始訓(xùn)練數(shù)據(jù)相對應(yīng)的輸入單元可通過第一權(quán)重矩陣來映射到多個隱藏層。第二模塊中的作為最低模塊的輸出單元的輸入單元可通過第三權(quán)重矩陣來映射到多個隱藏層,其中這些權(quán)重可以在預(yù)訓(xùn)練階段習(xí)得。此后,可通過凸優(yōu)化來再次學(xué)習(xí)上述第二權(quán)重矩陣(其描述第二模塊的隱藏單元與線性輸出單元之間的連接的權(quán)重)。將較低模塊的輸出單元作為深凸網(wǎng)絡(luò)中相鄰的較高模塊的輸入單元的一部分來包括并隨后經(jīng)由凸優(yōu)化來學(xué)習(xí)描述隱藏單元和線性輸出單元之間的連接權(quán)重的權(quán)重矩陣的這一模式可針對多個模塊(例如,數(shù)十到數(shù)百模塊)繼續(xù)進行。所得的學(xué)習(xí)到的深凸網(wǎng)絡(luò)隨后可結(jié)合自動分類/標識任務(wù)來部署。在閱讀并理解了附圖和描述后,可以明白其他方面。
圖I示出包括多個已分層模塊的示例性深凸網(wǎng)絡(luò)。圖2示出深凸網(wǎng)絡(luò)中的示例性最低模塊。圖3示出深凸網(wǎng)絡(luò)中的示例性第N模塊。圖4示出便于通過并行計算來學(xué)習(xí)深凸網(wǎng)絡(luò)中的權(quán)重矩陣的示例性系統(tǒng)的功能框圖。圖5是示出用于以基于批量的方式來訓(xùn)練深凸網(wǎng)絡(luò)的示例性方法的流程圖。圖6是示出用于通過凸優(yōu)化來學(xué)習(xí)深凸網(wǎng)絡(luò)中的矩陣權(quán)重的示例性方法的流程圖。圖7是不例性計算系統(tǒng)。
具體實施例方式現(xiàn)在將參考附圖來描述關(guān)于深凸網(wǎng)絡(luò)(DCN)的各種技術(shù),在全部附圖中相同的附圖標記表示相同的元素。另外,本文出于解釋的目的示出并描述了各示例系統(tǒng)的若干功能框圖;然而可以理解,被描述為由特定系統(tǒng)組件執(zhí)行的功能可以由多個組件來執(zhí)行。類似地,例如可以將一組件配置為執(zhí)行被描述為由多個組件執(zhí)行的功能,并且在此所述的方法中的一些步驟可以被省略、重排序、或者組合。參考圖1,示出了示例性DCN 100,其中DCN(在進行了訓(xùn)練之后)可結(jié)合執(zhí)行自動分類/識別來使用。根據(jù)一示例,DCN 100可被用于執(zhí)行自動語音識別(ASR)。在另一示例 中,DCN 100可被用于執(zhí)行字符識別(手寫識別)。在又一示例中,DCN 100可被用于執(zhí)行臉部識別。在又一示例中,DCN 100可被用于執(zhí)行文本到一個或多個主題的分類。自動分類/識別領(lǐng)域的技術(shù)人員將容易理解DCN 100的其他應(yīng)用。DCN 100包括多個已分層模塊102-104,其中DCN 100中的已分層模塊的數(shù)量可取決于應(yīng)用、被用于訓(xùn)練DCN 100和/或利用DCN 100來進行自動分類/識別的計算裝置中的可用計算資源(例如,處理和存儲器資源)而變化。例如,模塊的數(shù)量可以是數(shù)十、或數(shù)百、或數(shù)千。模塊102-104中的每一個模塊可以是具有單個隱藏層的神經(jīng)網(wǎng)絡(luò),其中可通過凸優(yōu)化來學(xué)習(xí)該模塊中的權(quán)重矩陣,如將在下文更詳細地描述的。這便于以基于批量的方式來訓(xùn)練DCN 100,使得對DCN 100的訓(xùn)練(對模塊102-104的權(quán)重矩陣進行學(xué)習(xí))可以跨多個計算設(shè)備來并行化。另外,模塊102-104中的每一個模塊可包括圍繞該單個隱藏層的一組線性層。這些線性層可分別包括多個輸入單元和多個輸出單元。隱藏層包括多個非線性單元。利用在一個或多個權(quán)重矩陣中定義的權(quán)重,輸入單元被映射到隱藏單元,并且利用由按需習(xí)得的權(quán)重矩陣所定義的權(quán)重,隱藏單元被映射到輸出單元。將在下文更詳細地描述對定義DCN100中的模塊的隱藏單元與輸出單元之間的連接的權(quán)重的權(quán)重矩陣的學(xué)習(xí)。更具體而言,第一模塊102 (DCN 100中的最低模塊)包括包含多個線性輸入單元的底部線性層108、包含多個非線性單元的隱藏層110、以及包含多個線性輸出單元的頂部線性層112。第一線性層108中的多個線性輸入單元可對應(yīng)于原始數(shù)據(jù)的各參數(shù)。例如,如果DCN 100被配置成分析數(shù)字圖像以識別其中的字符,則原始數(shù)據(jù)可包括大約800個像素。線性層108中的各線性輸入單元中的每一個可對應(yīng)于圖像中的單個像素,使得線性層108包括800個線性輸入單元。這些輸入單元的值可以是與對應(yīng)于像素的強度值、對應(yīng)于像素的梯度,等等。在另一示例中,如果DCN 100被配置成分析音頻信號以識別一個或多個音素,則原始數(shù)據(jù)可以是被采樣成多個分開的樣本的音頻信號。因此,底部線性層108中的線性輸入單元的數(shù)量可對應(yīng)于樣本的數(shù)量,并且這些輸入的值可對應(yīng)于樣本的特定特征。底部線性層108的線性輸入單元可全連接到第一模塊102的隱藏層110中的非線性單元,其中權(quán)重矩陣Wean表示分配給線性輸入單元與非線性單元之間的連接的權(quán)重。對于第一模塊102,這樣的權(quán)重矩陣Wean可以通過利用隨機數(shù)生成器來生成,其中Wkan的值是在O和I之間隨機分布的,例如均勻分布或高斯分布。構(gòu)想了用于在對應(yīng)于原始訓(xùn)練數(shù)據(jù)的輸入單元與非線性單元之間分配權(quán)重的其他機制,并且這些機制旨在落在所附權(quán)利要求書的范圍內(nèi)。如上所述,隱藏層110包括被配置成對與輸入單元相對應(yīng)的已加權(quán)值執(zhí)行非線性數(shù)學(xué)計算的多個非線性單元。根據(jù)一示例,非線性單元可以是S單元,它可以是O (X) = I/(1+exp (-x))的形式,其中X是輸入單元的加權(quán)和。頂部線性層112中的多個輸出單元可以表示學(xué)習(xí)的目標。例如,如果DCN100被配置成執(zhí)行數(shù)字(例如,1-10)識別,則頂部線性層112中的輸出單元可以表示數(shù)字1、2、3等等,直至10(例如,存在10個輸出單元)。在另一示例中,如果DCN 100被配置成執(zhí)行音素識別,則頂部線性層112中的輸出單元可以表示可能的音素。隱藏層110中的多個非線性單元可以全連接到頂部線性層112的多個輸入單元,其中這些連接的權(quán)重由另一權(quán)重矩陣U來定義,其中U是按需習(xí)得的。對于第一模塊102,U可至少部分基于Wkan來習(xí)得。更具體而言,可結(jié)合學(xué)習(xí)U來利用凸優(yōu)化。例如,可使用偽 逆操作來學(xué)習(xí)u,其中U = Pinv(H)T,其中pinv是偽逆操作,T表示訓(xùn)練集中要學(xué)習(xí)的所有目標(受監(jiān)督的輸出值),H = O ( E WkanX),其中X表示訓(xùn)練集中的所有輸入值,并且上述S函數(shù)是在元素級應(yīng)用的。分配給頂部線性層112中的輸出單元的值可至少部分基于權(quán)重矩陣U。如上所述,DCN 100包括多個已分層模塊-換言之,第一模塊102的輸出單元作為輸入單元包括在第二模塊104的底部線性層114中。第二模塊104可包括隱藏層116和頂部線性層118,這些層包括與第一模塊102基本上類似的(等同的)單元。第二模塊102的底部線性層114中的輸入單元還包括同原始訓(xùn)練數(shù)據(jù)相對應(yīng)的、與被包括在第一模塊102的底部線性層108中的輸入單元相同的輸入單元。因此,第一模塊102的頂部線性層112中的輸出單元被附加到與原始數(shù)據(jù)相對應(yīng)的輸入單元,以形成第二模塊104的底部線性層114,并且這兩組單元可被共同稱為第二模塊104的輸入單元。第二模塊104還包括包含全連接到第二模塊104的底部層114的輸入單元的多個非線性單元的單個隱藏層116。底部線性層114中的輸入單元與隱藏層116中的非線性單元之間的連接的權(quán)重可被定義為一組權(quán)重矩陣=Wkan和Webm,其中Wkbm表示受限波爾茲曼機。Wean可擔(dān)當對應(yīng)于原始數(shù)據(jù)的輸入單元與隱藏層116中的多個非線性單元之間的連接的權(quán)重,而Wkbm是與RBM相關(guān)聯(lián)的權(quán)重且可擔(dān)當從第一模塊102接收到的輸入單元(第一模塊102的輸出單元)與隱藏層116中的多個非線性單元之間的連接的權(quán)重。以下描述對Webm的學(xué)習(xí)。同樣,對定義第二模塊104的隱藏層116中的多個非線性單元與頂部線性層118中的多個輸出單元之間的連接的權(quán)重的權(quán)重矩陣U進行學(xué)習(xí)是合乎需要的。在DCN 110中的非最低模塊(除第一模塊102之外的任何模塊)的情況下,可以至少部分基于Wean和Webm來計算U。根據(jù)一示例,可如下計算U :U = pinv (H) t,其中H = o ( E WX),其中上文中已經(jīng)描述了 T和X(在此,X是第二模塊的底部線性層114中的所有輸入單元),W是Wean和Webm的串接,且O ( E WX) = I/(1+exp (- E WX))是在元素級應(yīng)用的。第二模塊104中的頂部線性層118中的輸出單元的值隨后可至少部分基于第二模塊的習(xí)得的U來計算。這些輸出單元隨后可作為又一模塊的底部線性層中的輸入單元來包括。因而,多個模塊能以此方式來被分層,并且可學(xué)習(xí)每一已分層模塊的U。簡要參考圖2,示出了便于學(xué)習(xí)第一模塊102的U的系統(tǒng)200如上所述,第一模塊104包括底部線性層108、隱藏層110、以及頂部線性層112。底部線性層包括輸入單元202,其對應(yīng)于上述原始訓(xùn)練數(shù)據(jù)。隱藏層包括多個非線性單元204,其可以是S單元。輸入單元202全連接到非線性單元204。分配給輸入單元202與非線性單元204之間的連接的權(quán)重由Wkan來定義。根據(jù)一示例,隨機數(shù)生成器208可被配置成生成Wkan,其中Wkan的值可隨機分布在預(yù)定義范圍(如0到I)上。非線性單元204對輸入單元202的按Wean 206中的權(quán)重加權(quán)了的值執(zhí)行非線性計算。Wkan可部分或全部被Webm所替代。
第一模塊102的頂部線性層112包括全連接到隱藏層110中的非線性單元204的多個輸出單元210。如上所述,學(xué)習(xí)非線性單元204與輸出單元210之間的連接的權(quán)重矩陣U 212是合乎需要的。學(xué)習(xí)組件214可以從隨機數(shù)生成器208(或從數(shù)據(jù)存儲)接收Wean206,可以從非線性單元204接收輸出計算h,輸入單元202的值x (原始訓(xùn)練數(shù)據(jù)),學(xué)習(xí)的目標的身份t (輸出單元210的身份),并可以通過利用凸優(yōu)化算法至少部分基于這些來計算U 212。已在上文中描述了示例性凸優(yōu)化算法。隨后至少部分基于權(quán)重矩陣U 212來向輸出單元210分配各值。另外,盡管學(xué)習(xí)組件214被示為直接從第一模塊104接收某些數(shù)據(jù),但將理解,Wkan 206、X、以及t可以是預(yù)先知道的,并且學(xué)習(xí)組件214可以在需要時檢索這些數(shù)據(jù)(在非線性單元204計算了 h之后立即檢索)。現(xiàn)在參考圖3,示出了便于學(xué)習(xí)第二模塊104的U的示例性系統(tǒng)300。盡管在系統(tǒng)300中示出了第二模塊104,但將理解,系統(tǒng)300可被用于學(xué)習(xí)DCN100中的不是最低模塊(例如,第一模塊102)的任何模塊的U。系統(tǒng)300包括第二模塊104,它包括底部線性層114、隱藏層116、以及頂部線性層118。底部線性層114包括兩組輸入節(jié)點輸入單元202以及第二組輸入單元302,輸入單元202也是第一模塊102的輸入單元,輸入單元302是來自第一模塊102的輸出單兀210。第二模塊104的隱藏層116包括多個非線性單元304,它基本上類似于第一模塊102的隱藏層110中的非線性單元204。底部線性層114中的第一組輸入單元202全連接到隱藏層116中的非線性單元304,其中各連接的權(quán)重由Wkan 206來定義。另外,底部線性層114中的第二組輸入單元302也全連接到隱藏層116中的非線性單元304,其中各連接的權(quán)重由Webm 305來定義,它可在預(yù)訓(xùn)練階段中被預(yù)先計算?,F(xiàn)在描述第二組輸入單元302的Wkbm 305的計算。DCN 100的一模塊中的一對層可被當作受限波爾茲曼機(RBM)。更具體地,RBM是具有一層(通常為柏努利)隨機隱藏單元和一層(通常為柏努利或高斯)隨機可見單元的特定類型的馬爾可夫隨機場(MRF)。RBM可被表示為二分圖,因為全部可見單元都被連接到全部隱藏單元,但不存在可見-可見或隱藏-隱藏的連接。在RBM中,給定模型參數(shù)0,可見單元V和隱藏單元q上的聯(lián)合分布p(v,q; 0)可按照以下算法的能量函數(shù)E (v,q;0)來定義
(e.\-p{ E(v,q;e;i)p(V, U; B =-----
丨、^ JZ(I)其中Z = E v E qexp(-E(v,q; 0))是歸一化因子或分割函數(shù),并且該模型分配給可見矢量V的邊緣概率可如下定義
權(quán)利要求
1.ー種方法,包括以下計算機可執(zhí)行動作 接收用于訓(xùn)練包括多個互連的模塊的深凸網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),其中所述多個互連的模塊中的每ー模塊包括線性層和非線性層;以及 使得處理器至少部分基于所述訓(xùn)練數(shù)據(jù)來以基于批量的方式來訓(xùn)練所述深凸網(wǎng)絡(luò)的一部分,其中訓(xùn)練所述深凸網(wǎng)絡(luò)包括學(xué)習(xí)與至少ー個模塊的非線性層的輸出相對應(yīng)的權(quán)重矩陣。
2.如權(quán)利要求I所述的方法,其特征在于,每ー模塊是單隱藏層神經(jīng)網(wǎng)絡(luò)。
3.如權(quán)利要求2所述的方法,其特征在于,所述單隱藏層神經(jīng)網(wǎng)絡(luò)中的隱藏層包括多個S單元。
4.如權(quán)利要求I所述的方法,其特征在于,所述深凸網(wǎng)絡(luò)包括最低模塊,并且其中所述最低模塊的輸入是原始訓(xùn)練數(shù)據(jù)。
5.如權(quán)利要求4所述的方法,其特征在干,所述深凸網(wǎng)絡(luò)包括與所述最低模塊互連的較高模塊,并且其中所述較高模塊的輸入包括較低模塊的輸出加上所述原始訓(xùn)練數(shù)據(jù)。
6.如權(quán)利要求5所述的方法,其特征在于,關(guān)于所述原始訓(xùn)練所對應(yīng)的線性層中的各單元與所述較高模塊中的非線性層中的各單元之間的連接的第一權(quán)重矩陣包括由隨機數(shù)生成器生成的隨機數(shù),其中關(guān)于來自所述最低模塊的各輸出單元所對應(yīng)的線性層中的各單元與所述較高模塊中的非線性層中的各單元之間的連接的第二權(quán)重矩陣包括分開訓(xùn)練的受限波爾茲曼機的權(quán)重,并且其中關(guān)于所述較高模塊的非線性層中的各単元與其各輸出單元之間的連接的第三權(quán)重矩陣是通過凸優(yōu)化來習(xí)得的。
7.如權(quán)利要求6所述的方法,其特征在于,被用來執(zhí)行所述凸優(yōu)化的算法是U=Pinv(H)T,其中H= O ( E WX),其中T表示所述訓(xùn)練數(shù)據(jù)中的受監(jiān)瞀的輸出值,W是各輸入模塊與所述非線性層中的各単元之間的權(quán)重矩陣,且X表示與所述原始訓(xùn)練數(shù)據(jù)相對應(yīng)的輸入單元,并且其中0 ( E WX) = l/(l+exp(- E WX))是在元素級應(yīng)用的。
8.一種系統(tǒng),包括 處理器(702);以及 包括能由所述處理器執(zhí)行的多個組件的存儲器(704),所述多個組件包括 接收訓(xùn)練數(shù)據(jù)的數(shù)據(jù)接收機組件(410);以及 至少部分基于所述訓(xùn)練數(shù)據(jù)以批量訓(xùn)練的方式來訓(xùn)練深凸網(wǎng)絡(luò)的學(xué)習(xí)組件(214),其中所述深凸網(wǎng)絡(luò)包括多個互連的模塊,每ー互連的模塊包括包含多個輸入?yún)g元的線性層和包含多個隱藏単元的非線性層,其中第一模塊的輸入單元包括第二模塊中的多個隱藏単元所輸出的単元。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述訓(xùn)練組件通過利用凸優(yōu)化來學(xué)習(xí)與所述第一模塊的多個隱藏単元相對應(yīng)的第一權(quán)重矩陣和所述第一模塊的多個隱藏単元。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述第一權(quán)重矩陣至少部分基于第二權(quán)重矩陣,所述第二權(quán)重矩陣被分配給所述第一模塊的輸入單元與所述第一模塊的隱藏單元之間的連接。
全文摘要
本發(fā)明涉及結(jié)合非線性隨機投影、受限波爾茲曼機、以及基于批量的可并行優(yōu)化來使用的深凸網(wǎng)絡(luò)。本文公開了一種包括以下動作的方法使得處理器訪問深結(jié)構(gòu)化的、已分層的、或分等級的模型(稱為深凸網(wǎng)絡(luò),被保持在計算機可讀介質(zhì)中),其中該深結(jié)構(gòu)化的模型包括具有所分配的權(quán)重的多個層。這一已分層模型可以產(chǎn)生輸出,該輸出擔(dān)當用于與隱馬爾科夫模型中的各狀態(tài)之間的轉(zhuǎn)移概率相組合的分數(shù),以及擔(dān)當用于形成全語音識別器的語言模型分數(shù)。該方法聯(lián)合使用非線性隨機投影和RBM權(quán)重,并且它將較低模塊的輸出與原始數(shù)據(jù)進行堆疊以建立它的緊接的較高模塊。執(zhí)行基于批量的凸優(yōu)化來學(xué)習(xí)深凸網(wǎng)絡(luò)的權(quán)重的一部分,從而使它適于并行計算來完成訓(xùn)練。該方法還可包括使用基于序列而非一組不相關(guān)幀的優(yōu)化準則來對該深度結(jié)構(gòu)化的模型的權(quán)重、轉(zhuǎn)移概率和語言模型分數(shù)進行聯(lián)合地充分優(yōu)化的動作。
文檔編號G06N3/08GK102737278SQ201210089488
公開日2012年10月17日 申請日期2012年3月30日 優(yōu)先權(quán)日2011年3月31日
發(fā)明者A·埃西羅, D·余, L·鄧 申請人:微軟公司