語(yǔ)音識(shí)別設(shè)備和方法與流程

文檔序號(hào)：12159459閱讀：461來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

技術(shù)領(lǐng)域

下面的描述涉及語(yǔ)音識(shí)別技術(shù)。

背景技術(shù)：

電子裝置或服務(wù)器的語(yǔ)音識(shí)別引擎通常包括聲學(xué)模型、語(yǔ)言模型和解碼器。聲學(xué)模型可以是靜態(tài)模型，該靜態(tài)模型基于輸入音頻信號(hào)的發(fā)音及其連接性輸出輸入音頻信號(hào)的音素和發(fā)音的概率。語(yǔ)言模型是靜態(tài)模型，該靜態(tài)模型可基于獨(dú)立地訓(xùn)練或指導(dǎo)的音素、發(fā)音、詞語(yǔ)、句子等的連接性獨(dú)立地輸出與音素、發(fā)音、詞語(yǔ)、句子等關(guān)聯(lián)的信息。解碼器對(duì)聲學(xué)模型和語(yǔ)言模型的輸出進(jìn)行解碼以基于聲學(xué)模型和語(yǔ)言模型的輸出返回輸入音頻信號(hào)的最終識(shí)別結(jié)果。高斯混合模型(GMM)已通常在過(guò)去被用于聲學(xué)模型，但最近，已通過(guò)使用深度神經(jīng)網(wǎng)絡(luò)(DNN)聲學(xué)模型來(lái)提高語(yǔ)音識(shí)別性能。如上所述，這種語(yǔ)音識(shí)別技術(shù)使用已被彼此獨(dú)立地訓(xùn)練的聲學(xué)模型和語(yǔ)言模型。另外，維特比解碼方案已通常被用在聲學(xué)模型中。

技術(shù)實(shí)現(xiàn)要素：

一個(gè)或多個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別設(shè)備，所述語(yǔ)音識(shí)別設(shè)備包括：第一識(shí)別器，被配置為通過(guò)使用聲學(xué)模型以第一語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第一識(shí)別結(jié)果；第二識(shí)別器，被配置為通過(guò)使用語(yǔ)言模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第二識(shí)別結(jié)果；和組合器，被配置為組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果從而以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的最終識(shí)別結(jié)果并且在語(yǔ)言模型中反映最終識(shí)別結(jié)果。

第二識(shí)別器可被配置為通過(guò)使用反映最終識(shí)別結(jié)果的語(yǔ)言模型來(lái)以第二語(yǔ)言單位產(chǎn)生隨后的音頻信號(hào)的第二識(shí)別結(jié)果，其中組合器還可被配置為組合由聲學(xué)模型產(chǎn)生的隨后的音頻信號(hào)的第一識(shí)別結(jié)果和隨后的音頻信號(hào)的第二識(shí)別結(jié)果作為隨后的音頻信號(hào)的最終識(shí)別結(jié)果。

聲學(xué)模型可以是基于注意機(jī)制的模型，并且第一識(shí)別結(jié)果可表示不基于針對(duì)語(yǔ)言識(shí)別單位的連接時(shí)間分類的音頻信號(hào)的語(yǔ)言識(shí)別單位的概率，其中第二識(shí)別結(jié)果可表示基于音頻信號(hào)的識(shí)別的語(yǔ)言識(shí)別單位之間的時(shí)間連接性的概率。

第一語(yǔ)言識(shí)別單位可與第二語(yǔ)言識(shí)別單位是相同的語(yǔ)言單位類型。

第一識(shí)別器可被配置為通過(guò)使用第一聲學(xué)模型來(lái)以第一語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的識(shí)別結(jié)果并且通過(guò)使用被提供按照第一語(yǔ)言識(shí)別單位的音頻信號(hào)的識(shí)別結(jié)果的第二聲學(xué)模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第一識(shí)別結(jié)果。

第一識(shí)別結(jié)果和第二識(shí)別結(jié)果可包括關(guān)于第一語(yǔ)言識(shí)別單位和第二語(yǔ)言識(shí)別單位的各自概率或狀態(tài)的信息。

組合器可將第一識(shí)別結(jié)果和第二識(shí)別結(jié)果輸入到統(tǒng)一模型中，統(tǒng)一模型的結(jié)果是最終識(shí)別結(jié)果。

可在同一神經(jīng)網(wǎng)絡(luò)中表示第一識(shí)別器、第二識(shí)別器和統(tǒng)一模型，神經(jīng)網(wǎng)絡(luò)被配置為將表示聲學(xué)模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)和表示語(yǔ)言模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)連接到表示統(tǒng)一模型的輸入的神經(jīng)網(wǎng)絡(luò)的各節(jié)點(diǎn)。

神經(jīng)網(wǎng)絡(luò)可被配置為將表示提供最終識(shí)別結(jié)果的統(tǒng)一模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)連接到表示語(yǔ)言模型的輸入的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)。

表示統(tǒng)一模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)的數(shù)量可取決于表示語(yǔ)言模型的輸入的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)的數(shù)量。

神經(jīng)網(wǎng)絡(luò)被配置為已基于包括反向傳播學(xué)習(xí)算法的學(xué)習(xí)算法在學(xué)習(xí)處理中被訓(xùn)練。

神經(jīng)網(wǎng)絡(luò)被配置為已使用訓(xùn)練數(shù)據(jù)在學(xué)習(xí)處理中被訓(xùn)練，其中學(xué)習(xí)處理包括同時(shí)訓(xùn)練聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型。

第一識(shí)別器可基于注意機(jī)制執(zhí)行基于神經(jīng)網(wǎng)絡(luò)的解碼以確定以第一語(yǔ)言識(shí)別單位的第一識(shí)別結(jié)果。

一個(gè)或多個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別方法，所述語(yǔ)音識(shí)別方法包括：通過(guò)使用聲學(xué)模型以第一語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第一識(shí)別結(jié)果；通過(guò)使用語(yǔ)言模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第二識(shí)別結(jié)果；組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果從而以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的最終識(shí)別結(jié)果；以及在語(yǔ)言模型中反映最終識(shí)別結(jié)果。

第一語(yǔ)言識(shí)別單位可與第二語(yǔ)言識(shí)別單位是相同的語(yǔ)言單位類型。

第一識(shí)別結(jié)果的產(chǎn)生可包括通過(guò)使用第一聲學(xué)模型來(lái)以第一語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的識(shí)別結(jié)果并且通過(guò)使用被提供按照第一語(yǔ)言識(shí)別單位的音頻信號(hào)的識(shí)別結(jié)果的第二聲學(xué)模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第一識(shí)別結(jié)果。

第一識(shí)別結(jié)果和第二識(shí)別結(jié)果可包括關(guān)于第一語(yǔ)言識(shí)別單位和第二語(yǔ)言識(shí)別單位的各自概率或狀態(tài)的信息。

最終識(shí)別結(jié)果的產(chǎn)生可包括將第一識(shí)別結(jié)果和第二識(shí)別結(jié)果輸入到統(tǒng)一模型中，統(tǒng)一模型的結(jié)果是最終識(shí)別結(jié)果。

可在同一神經(jīng)網(wǎng)絡(luò)中表示聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型，神經(jīng)網(wǎng)絡(luò)被配置為將表示聲學(xué)模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)和表示語(yǔ)言模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)連接到表示統(tǒng)一模型的輸入的神經(jīng)網(wǎng)絡(luò)的各節(jié)點(diǎn)。

神經(jīng)網(wǎng)絡(luò)被配置為已基于包括反向傳播學(xué)習(xí)算法的學(xué)習(xí)算法在學(xué)習(xí)處理中被訓(xùn)練。

該方法還可包括：在第一識(shí)別結(jié)果的產(chǎn)生和第二識(shí)別結(jié)果的產(chǎn)生之前，使用訓(xùn)練數(shù)據(jù)在學(xué)習(xí)處理中同時(shí)訓(xùn)練聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型。

第一識(shí)別結(jié)果的產(chǎn)生可包括基于注意機(jī)制執(zhí)行基于神經(jīng)網(wǎng)絡(luò)的解碼以確定第一識(shí)別結(jié)果。

一個(gè)或多個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別設(shè)備，所述語(yǔ)音識(shí)別設(shè)備包括：第一識(shí)別器，被配置為通過(guò)使用第一聲學(xué)模型來(lái)以第一語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的識(shí)別結(jié)果并且通過(guò)使用被提供按照第一語(yǔ)言識(shí)別單位的音頻信號(hào)的識(shí)別結(jié)果的第二聲學(xué)模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生第一識(shí)別結(jié)果；第二識(shí)別器，被配置為通過(guò)使用語(yǔ)言模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生第二識(shí)別結(jié)果；和組合器，被配置為組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果以產(chǎn)生音頻信號(hào)的最終識(shí)別結(jié)果。

組合器可將第一識(shí)別結(jié)果和第二識(shí)別結(jié)果輸入到統(tǒng)一模型中，統(tǒng)一模型的結(jié)果是最終識(shí)別結(jié)果。

可在同一神經(jīng)網(wǎng)絡(luò)中表示第一識(shí)別器、第二識(shí)別器和統(tǒng)一模型，神經(jīng)網(wǎng)絡(luò)被配置為將表示第二聲學(xué)模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)和表示語(yǔ)言模型的輸出的神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)連接到表示統(tǒng)一模型的輸入的神經(jīng)網(wǎng)絡(luò)的各節(jié)點(diǎn)。

一個(gè)或多個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別系統(tǒng)，所述語(yǔ)音識(shí)別設(shè)備包括：第一識(shí)別器，被配置為使用第一語(yǔ)言識(shí)別單位和聲學(xué)模型產(chǎn)生音頻信號(hào)的第一識(shí)別結(jié)果；第二識(shí)別器，被配置為通過(guò)使用語(yǔ)言模型來(lái)以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的第二識(shí)別結(jié)果；和組合器，被配置為使用被配置為實(shí)現(xiàn)統(tǒng)一模型的神經(jīng)網(wǎng)絡(luò)組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果，統(tǒng)一模型以第二語(yǔ)言識(shí)別單位產(chǎn)生音頻信號(hào)的最終識(shí)別結(jié)果并提供最終識(shí)別結(jié)果以反映在語(yǔ)言模型中。

聲學(xué)模型和語(yǔ)言模型可以是使用獨(dú)立訓(xùn)練處理預(yù)先訓(xùn)練的模型，并且統(tǒng)一模型可以是使用使用訓(xùn)練數(shù)據(jù)與預(yù)先訓(xùn)練的聲學(xué)模型和語(yǔ)言模型的并將最終識(shí)別結(jié)果反映在語(yǔ)言模型中以進(jìn)一步訓(xùn)練語(yǔ)言模型的訓(xùn)練處理訓(xùn)練的模型。

一個(gè)或多個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別設(shè)備，所述語(yǔ)音識(shí)別設(shè)備包括：語(yǔ)音接收器，被配置為捕獲用戶的音頻并且基于捕獲的音頻產(chǎn)生音頻信號(hào)；包括一個(gè)或多個(gè)處理器中的第一處理器的語(yǔ)音識(shí)別器，被配置為將考慮音頻信號(hào)的發(fā)音的聲學(xué)模型和考慮音頻信號(hào)的語(yǔ)言單位的連接性的語(yǔ)言模型的結(jié)果提供給統(tǒng)一模型，并且輸出統(tǒng)一模型的結(jié)果作為音頻信號(hào)的最終識(shí)別結(jié)果；和一個(gè)或多更個(gè)處理器中的第二處理器，被配置為執(zhí)行預(yù)定操作并且基于輸出的最終識(shí)別結(jié)果執(zhí)行所述預(yù)定操作中的特定操作。

語(yǔ)音識(shí)別器還可被配置為在語(yǔ)言模型中反映最終識(shí)別結(jié)果，以訓(xùn)練語(yǔ)言模型。

第一處理器和第二處理器可以是所述一個(gè)或多個(gè)處理器中的相同的處理器。

在語(yǔ)音識(shí)別器中，可在同一神經(jīng)網(wǎng)絡(luò)中表示聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型，神經(jīng)網(wǎng)絡(luò)被配置為已通過(guò)使用包括反向傳播學(xué)習(xí)算法的學(xué)習(xí)算法在學(xué)習(xí)處理中被訓(xùn)練。

第一處理器可被配置為執(zhí)行下面的至少一項(xiàng)操作：控制通過(guò)所述設(shè)備的揚(yáng)聲器以聽覺方式或通過(guò)所述設(shè)備的顯示器以文本格式輸出最終識(shí)別結(jié)果，將最終識(shí)別結(jié)果翻譯成另一語(yǔ)言，以及通過(guò)第二處理器處理用于控制所述特定操作的執(zhí)行的命令。

在下面的描述中將會(huì)部分地闡述另外和/或替代的方面，并且這些方面部分地將會(huì)通過(guò)描述而變得清楚，或者通過(guò)實(shí)施提供的實(shí)施例可學(xué)習(xí)這些方面。

附圖說(shuō)明

圖1是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備的方框圖。

圖2是示出由根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備執(zhí)行的語(yǔ)音識(shí)別的示圖。

圖3是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備的方框圖。

圖4是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別方法的流程圖。

圖5是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別方法的流程圖。

圖6是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備的方框圖。

在附圖和詳細(xì)描述中，除非另外描述，否則相同的附圖標(biāo)號(hào)將會(huì)被理解為始終表示相同或相似的元件、特征和結(jié)構(gòu)。這些元件的相對(duì)尺寸和描述可為了清楚、說(shuō)明和方便而被夸大。

具體實(shí)施方式

下面的詳細(xì)描述被提供用于輔助閱讀者獲得對(duì)這里描述的方法、設(shè)備和/或系統(tǒng)的全面理解。然而，在對(duì)本公開的理解之后，這里描述的方法、設(shè)備和/或系統(tǒng)的各種改變、變型和等同物可隨后對(duì)于本領(lǐng)域普通技術(shù)人員而言變得清楚。在對(duì)本公開的理解之后，對(duì)于本領(lǐng)域普通技術(shù)人員而言將會(huì)清楚的是，除了必須以某種次序發(fā)生的操作之外，這里描述的操作的順序僅是示例，并且不限于這里闡述的那些順序，而是可改變。此外，在對(duì)本公開的不同方面的理解之后，為了更加清楚和簡(jiǎn)潔，可在一些描述中省略可理解的功能和構(gòu)造的描述。

除非另外定義，否則這里使用的所有術(shù)語(yǔ)(包括技術(shù)和科學(xué)術(shù)語(yǔ))具有與各實(shí)施例所屬于的領(lǐng)域的普通技術(shù)人員通常所理解的含義相同的含義。還將會(huì)理解，除非在這里明確地這樣定義，否則術(shù)語(yǔ)(諸如，在常用詞典中定義的那些術(shù)語(yǔ))應(yīng)該被解釋為具有與在相關(guān)技術(shù)和本公開的情況下的它們的含義一致的含義并且將不會(huì)在理想化或過(guò)度正式意義上被解釋。

可對(duì)實(shí)施例做出各種改變和修改，一些改變和修改將會(huì)被詳細(xì)地示出在附圖和詳細(xì)描述中。然而，應(yīng)該理解，這些實(shí)施例不被解釋為局限于本公開和示出的形式并且應(yīng)該被理解為包括本公開的構(gòu)思和技術(shù)范圍內(nèi)的所有改變、等同物和替代物。

因此，這里描述的特征可被以不同形式實(shí)現(xiàn)，并且不應(yīng)該被解釋為局限于這里描述的示例。相反地，已提供這里描述的示例，以使得本公開將會(huì)是徹底的，并且將會(huì)將本公開的范圍傳達(dá)給本領(lǐng)域普通技術(shù)人員。

圖1是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備的方框圖。

參照?qǐng)D1，語(yǔ)音識(shí)別設(shè)備100包括例如第一識(shí)別器110、第二識(shí)別器120和組合器130。

第一識(shí)別器110可通過(guò)使用聲學(xué)模型(AM)來(lái)以語(yǔ)言識(shí)別單位輸出輸入音頻信號(hào)的第一識(shí)別結(jié)果。在這種情況下，僅作為示例，并且需要注意的是，在不同實(shí)施例中存在替代方案，音頻信號(hào)可通過(guò)從音頻信號(hào)提取特征的一個(gè)或多個(gè)預(yù)處理過(guò)程而被轉(zhuǎn)換成音頻幀(例如，每秒100幀)，音頻幀可被輸入到語(yǔ)音識(shí)別設(shè)備100。這里，對(duì)可被輸入到聲學(xué)模型的音頻信號(hào)的提及例如應(yīng)該被視為提及下面的任何一項(xiàng)：輸入音頻信號(hào)、轉(zhuǎn)換成數(shù)字形式的音頻信號(hào)、轉(zhuǎn)換成音頻幀的音頻信號(hào)、已被以其它方式預(yù)處理的音頻信號(hào)和獨(dú)立音頻幀(或其較小部分)或由這種其它預(yù)處理產(chǎn)生的這種獨(dú)立音頻幀。同樣地，并且僅作為示例，對(duì)先前音頻信號(hào)、當(dāng)前音頻信號(hào)或隨后的音頻信號(hào)的提及也應(yīng)該被視為分別提及一個(gè)或多個(gè)先前音頻幀、當(dāng)前音頻幀或隨后的音頻幀，諸如用于表示識(shí)別操作的時(shí)間順序和未來(lái)識(shí)別操作對(duì)當(dāng)前和/或先前識(shí)別結(jié)果的依賴或僅表示當(dāng)前識(shí)別操作對(duì)先前識(shí)別結(jié)果的依賴。

另外，這里，語(yǔ)言識(shí)別單位表示語(yǔ)言中的基本單位之中將要被識(shí)別的預(yù)定語(yǔ)言單位，諸如音素、音節(jié)、語(yǔ)素、詞語(yǔ)、短語(yǔ)、句子、段落等。這里，僅作為示例，音素、音節(jié)、語(yǔ)素、詞語(yǔ)、短語(yǔ)、句子和段落可分別被視為不同類型的語(yǔ)言單位。另外，語(yǔ)言單位可根據(jù)語(yǔ)言而不同，從而可基于每種語(yǔ)言的各自已知特征預(yù)先確定語(yǔ)言識(shí)別單位。另外，這里，被稱為大于另一語(yǔ)言單位類型的一個(gè)語(yǔ)言單位類型對(duì)應(yīng)于具有預(yù)定分級(jí)體系的不同語(yǔ)言單位類型。僅作為這種預(yù)定分級(jí)體系的示例，在一個(gè)或多個(gè)實(shí)施例中，音節(jié)語(yǔ)言單位類型大于音素語(yǔ)言單位類型，語(yǔ)素語(yǔ)言單位類型大于音節(jié)語(yǔ)言單位類型，詞語(yǔ)語(yǔ)言單位類型大于語(yǔ)素語(yǔ)言單位類型，短語(yǔ)語(yǔ)言單位類型大于詞語(yǔ)語(yǔ)言單位類型，句子語(yǔ)言單位類型大于短語(yǔ)語(yǔ)言單位類型，并且段落語(yǔ)言單位類型大于句子語(yǔ)言單位類型，再一次需要注意的是，這僅是示例語(yǔ)言單位類型的這種預(yù)定分級(jí)體系的一個(gè)示例。

在一個(gè)或多個(gè)實(shí)施例中，語(yǔ)言識(shí)別單位可以是字母和/或音節(jié)單位。以下，僅為了解釋的方便而使用字母或音節(jié)單位，并且語(yǔ)言識(shí)別單位不限于此。

第一識(shí)別器110可將例如通過(guò)預(yù)處理轉(zhuǎn)換的音頻幀輸入到聲學(xué)模型中，并且可以/針對(duì)特定語(yǔ)言識(shí)別單位輸出音頻幀的第一識(shí)別結(jié)果。在這種情況下，第一識(shí)別結(jié)果可包括音頻幀的語(yǔ)言識(shí)別單位，諸如字母或音節(jié)概率或狀態(tài)信息。例如，第一識(shí)別結(jié)果可包括用于一個(gè)或多個(gè)不同語(yǔ)言識(shí)別單位類型中的每個(gè)語(yǔ)言識(shí)別單位類型的一個(gè)或多個(gè)語(yǔ)言識(shí)別單位的識(shí)別信息和對(duì)應(yīng)概率。

在一個(gè)或多個(gè)實(shí)施例中，聲學(xué)模型可通常輸出每個(gè)輸入音頻幀的作為語(yǔ)言識(shí)別單位的音素的概率。根據(jù)一個(gè)或多個(gè)實(shí)施例，可基于神經(jīng)網(wǎng)絡(luò)或由神經(jīng)網(wǎng)絡(luò)表示的聲學(xué)模型可通過(guò)使用基于神經(jīng)網(wǎng)絡(luò)的解碼方法來(lái)以字母或音節(jié)單位輸出概率或狀態(tài)信息。該神經(jīng)網(wǎng)絡(luò)和這里討論的其它神經(jīng)網(wǎng)絡(luò)可包括但不限于深度神經(jīng)網(wǎng)絡(luò)(DNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、雙向遞歸深度神經(jīng)網(wǎng)絡(luò)(BRDNN)等。

在一個(gè)或多個(gè)實(shí)施例中，基于神經(jīng)網(wǎng)絡(luò)的解碼方法可包括注意機(jī)制。通過(guò)表示基于注意機(jī)制的輸入音頻數(shù)據(jù)的一種或多種聲學(xué)模型解碼的神經(jīng)網(wǎng)絡(luò)，可以字母或音節(jié)單位(包括這種字母或音節(jié)單位的概率)輸出音頻幀的識(shí)別結(jié)果。注意機(jī)制表示通過(guò)選擇數(shù)據(jù)的一些部分來(lái)順序地觀察數(shù)據(jù)，而非立刻觀察所有的數(shù)據(jù)。例如，在給定圖像中，注意機(jī)制表示在觀察圖像的一部分之后觀察圖像的另一部分，而非立刻識(shí)別整個(gè)圖像。通過(guò)使用基于注意機(jī)制的神經(jīng)網(wǎng)絡(luò)解碼方法，可使由于分段而發(fā)生的信息的損失最小化。

第二識(shí)別器120可通過(guò)使用語(yǔ)言模型(LM)來(lái)以語(yǔ)言識(shí)別單位輸出第二識(shí)別結(jié)果，其中第二識(shí)別結(jié)果可包括語(yǔ)言識(shí)別單位，例如字母或音節(jié)概率信息或狀態(tài)信息。例如，第二識(shí)別結(jié)果可包括用于一個(gè)或多個(gè)不同語(yǔ)言識(shí)別單位類型中的每個(gè)語(yǔ)言識(shí)別單位類型的一個(gè)或多個(gè)語(yǔ)言識(shí)別單位的識(shí)別信息和對(duì)應(yīng)概率。

語(yǔ)言模型可例如基于用于先前音頻數(shù)據(jù)的對(duì)應(yīng)識(shí)別操作的最終識(shí)別結(jié)果對(duì)音素、字母表字母、音節(jié)、詞語(yǔ)等的先前序列建模，并且產(chǎn)生或輸出用于當(dāng)前音頻數(shù)據(jù)的當(dāng)前音素、字母、音節(jié)、詞語(yǔ)等的信息。根據(jù)一個(gè)或多個(gè)實(shí)施例，語(yǔ)言模型可基于神經(jīng)網(wǎng)絡(luò)，并且因此，可諸如在聲學(xué)模型中以字母或音節(jié)單位輸出概率或狀態(tài)信息。語(yǔ)言模型可被提供用于示例組合器130的一次或多次先前最終語(yǔ)言單位識(shí)別的語(yǔ)言單位信息，因此語(yǔ)言模型可對(duì)一個(gè)或多個(gè)語(yǔ)言單位類型的這種序列建模以提供用于當(dāng)前語(yǔ)言單位(諸如，用于當(dāng)前字母或音節(jié)單位)的概率。在一個(gè)或多個(gè)實(shí)施例中，語(yǔ)音識(shí)別設(shè)備包括內(nèi)存以緩存組合器130的先前最終識(shí)別結(jié)果。僅作為示例，組合器130或第二識(shí)別器120可表示一個(gè)或多個(gè)處理裝置和用于緩存組合器130的這種先前最終識(shí)別結(jié)果的內(nèi)存。例如，如果組合器130存儲(chǔ)這種信息，則組合器130可在知道第一識(shí)別器110正在操作新的或下一輸入音頻信號(hào)的同時(shí)將這種先前結(jié)果信息提供給第二識(shí)別器120，或者獨(dú)立于第一識(shí)別器110的操作，第二識(shí)別器120可獨(dú)立地操作并且在組合器130獲得這種最終識(shí)別結(jié)果之后立即或在某個(gè)時(shí)間自動(dòng)地產(chǎn)生這種語(yǔ)言單位概率。

組合器130可組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果，并且可以以特定語(yǔ)言識(shí)別單位輸出音頻信號(hào)的最終識(shí)別結(jié)果。例如，組合器130可將第一識(shí)別結(jié)果和第二識(shí)別結(jié)果輸入到預(yù)定統(tǒng)一模型中，并且可以示例字母或音節(jié)單位提供所述預(yù)定統(tǒng)一模型的結(jié)果或輸出作為最終識(shí)別結(jié)果。

類似于聲學(xué)模型和語(yǔ)言模型，統(tǒng)一模型可基于神經(jīng)網(wǎng)絡(luò)。另外，在一個(gè)或多個(gè)實(shí)施例中，聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型可由一個(gè)網(wǎng)絡(luò)(例如，單個(gè)神經(jīng)網(wǎng)絡(luò))集成和表示。例如，在一個(gè)或多個(gè)實(shí)施例中，神經(jīng)網(wǎng)絡(luò)的表示聲學(xué)模型的輸出的節(jié)點(diǎn)和神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸出的節(jié)點(diǎn)連接到神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸入的節(jié)點(diǎn)，由此形成單個(gè)神經(jīng)網(wǎng)絡(luò)。僅作為示例，神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸入的節(jié)點(diǎn)的數(shù)量可等于神經(jīng)網(wǎng)絡(luò)的表示聲學(xué)模型和語(yǔ)言模型的各輸出的節(jié)點(diǎn)的數(shù)量。

一旦以字母或音節(jié)單位輸出音頻信號(hào)的最終識(shí)別結(jié)果，例如，一旦確定音頻幀的字母表字母或音節(jié)的概率或關(guān)于其的狀態(tài)信息，組合器130可在語(yǔ)言模型中反映該輸出結(jié)果。因此，例如，語(yǔ)言模型是反映來(lái)自一個(gè)或多個(gè)聲學(xué)模型以及一個(gè)或多個(gè)語(yǔ)言模型的一個(gè)或多個(gè)幀的先前統(tǒng)一模型結(jié)果的識(shí)別結(jié)果的動(dòng)態(tài)模型或?qū)W習(xí)模型，這增強(qiáng)當(dāng)前音頻幀的識(shí)別結(jié)果。為此，在一個(gè)或多個(gè)實(shí)施例中，前述單個(gè)神經(jīng)網(wǎng)絡(luò)可被以這種方式配置，即神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸出的節(jié)點(diǎn)的數(shù)量等于或取決于神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸入的節(jié)點(diǎn)的數(shù)量，或者被以這種方式配置，即神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸入的節(jié)點(diǎn)的數(shù)量取決于神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸出的節(jié)點(diǎn)的數(shù)量。

如上所述，基于先前的識(shí)別操作，組合器130在語(yǔ)言模型中反映或已反映先前音頻幀的輸出最終識(shí)別結(jié)果，由此能夠使第二識(shí)別器120通過(guò)考慮先前音頻幀的最終識(shí)別結(jié)果來(lái)計(jì)算和輸出當(dāng)前音頻幀的當(dāng)前字母或音節(jié)概率或狀態(tài)信息。因此，在一個(gè)或多個(gè)實(shí)施例中，在第一識(shí)別器110將音頻信號(hào)的當(dāng)前幀輸入到聲學(xué)模型中以產(chǎn)生第一識(shí)別結(jié)果的同時(shí)，第二識(shí)別器120可通過(guò)組合器130來(lái)將先前幀的最終識(shí)別結(jié)果輸入到語(yǔ)言模型中以產(chǎn)生第二識(shí)別結(jié)果。

另外，在一個(gè)或多個(gè)實(shí)施例中，聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型被預(yù)先訓(xùn)練以例如以預(yù)定語(yǔ)言識(shí)別單位輸出概率或狀態(tài)信息。在這種情況下，可通過(guò)使用學(xué)習(xí)算法(諸如，反向傳播學(xué)習(xí)算法)并且使用目標(biāo)函數(shù)來(lái)在學(xué)習(xí)或訓(xùn)練處理中共同訓(xùn)練聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型。例如，一個(gè)或多個(gè)實(shí)施例包括例如基于相同的訓(xùn)練數(shù)據(jù)同時(shí)訓(xùn)練聲學(xué)模型和語(yǔ)言模型，并且還可包括統(tǒng)一模型在語(yǔ)言模型中反映最終識(shí)別結(jié)果以用于隨后由語(yǔ)言模型考慮。以這種方式，可通過(guò)單個(gè)訓(xùn)練操作訓(xùn)練所有的聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型。然而，訓(xùn)練不限于此。例如，一個(gè)或多個(gè)實(shí)施例包括基于相同或不同的訓(xùn)練數(shù)據(jù)預(yù)先彼此分開地(例如，獨(dú)立地)訓(xùn)練聲學(xué)模型和語(yǔ)言模型，并且還可包括組合統(tǒng)一模型與聲學(xué)模型和語(yǔ)言模型以基于聲學(xué)模型和語(yǔ)言模型的訓(xùn)練結(jié)果訓(xùn)練統(tǒng)一模型。替代地，一個(gè)或多個(gè)實(shí)施例包括部分獨(dú)立地并且部分依賴地訓(xùn)練聲學(xué)模型和語(yǔ)言模型。

在一個(gè)或多個(gè)實(shí)施例中，與聲學(xué)模型和語(yǔ)言模型被彼此分開地訓(xùn)練并且隨后組合的實(shí)施例相比，當(dāng)聲學(xué)模型和語(yǔ)言模型被例如共同地訓(xùn)練從而建模角色不交疊時(shí)，每個(gè)模型可更高效地執(zhí)行它的功能，由此可以能夠?qū)崿F(xiàn)更準(zhǔn)確的語(yǔ)音識(shí)別。例如，盡管先前的聲學(xué)模型技術(shù)可能諸如通過(guò)實(shí)現(xiàn)的連接時(shí)間分類(CTC)已明確考慮語(yǔ)言單位之間的連接性,但在一個(gè)或多個(gè)實(shí)施例中，聲學(xué)模型沒有實(shí)現(xiàn)CTC。在一個(gè)示例中，聲學(xué)模型可僅考慮輸入音頻數(shù)據(jù)中的可能的語(yǔ)言單位的發(fā)音。這里，可能存在一些通過(guò)聲學(xué)模型考慮的隱含連接信息，諸如，可基于聲學(xué)模型被設(shè)置為識(shí)別的語(yǔ)言單位的類型的隱含連接信息。相反，在一個(gè)或多個(gè)實(shí)施例中，僅語(yǔ)言模型可明確依賴這種連接信息或語(yǔ)言單位之間的連接。

圖2是示出由根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備(諸如，圖1的語(yǔ)音識(shí)別設(shè)備)執(zhí)行的語(yǔ)音識(shí)別的示圖。這里，接收或捕獲的示例語(yǔ)音或音頻由與諸如由用戶發(fā)出或來(lái)自先前的記錄等的語(yǔ)音“My name is Steve”對(duì)應(yīng)的音頻信號(hào)(AS)表示。以下，雖然將參照?qǐng)D1的語(yǔ)音識(shí)別設(shè)備討論圖2，但圖2應(yīng)該被理解為不限于此。

參照?qǐng)D2，第一識(shí)別器110以幀為單位將實(shí)際音頻信號(hào)(AS)輸入到聲學(xué)模型中，并且針對(duì)在音頻信號(hào)中考慮的每個(gè)語(yǔ)言單位(例如針對(duì)每個(gè)音頻幀)第一識(shí)別器110輸出26個(gè)字母表字母中的一個(gè)或多個(gè)的概率作為聲學(xué)模型的結(jié)果。例如，音頻幀可通過(guò)(諸如經(jīng)由語(yǔ)音接收器或其他預(yù)處理器)將音頻信號(hào)中的語(yǔ)言單位中的每個(gè)分割為單獨(dú)的音頻幀已經(jīng)被獲得?？蛇x擇地，若干音頻幀可用于音頻信號(hào)中的單個(gè)語(yǔ)言單位，或者音頻信號(hào)中的兩個(gè)或更多個(gè)語(yǔ)言單位可被包括在同一音頻幀中。因此，僅作為示例，隨著音頻信號(hào)中的每個(gè)語(yǔ)言單位被分割為單獨(dú)的音頻幀，第一識(shí)別器110的每個(gè)輸出結(jié)果被輸入到組合器130。在這種情況下，在從示例26個(gè)字母表字母之中選擇時(shí)，聲學(xué)模型可指示每個(gè)音頻幀的最高可能字母表字母，其依次可以是例如m、a、i、n、e、i、m、i、s、s、t、i和v。伴隨針對(duì)每個(gè)音頻幀的來(lái)自聲學(xué)模型的最高可能結(jié)果中的至少一個(gè)，第一識(shí)別器110還可向組合器130提供由聲學(xué)模型確定的指示的最高可能識(shí)別語(yǔ)言單位的相應(yīng)概率和每個(gè)音頻幀的其他狀態(tài)信息。

第二識(shí)別器120可例如基于第二識(shí)別器120(諸如，通過(guò)語(yǔ)音識(shí)別設(shè)備100的共享內(nèi)存、通過(guò)從組合器130提供或通過(guò)共享的神經(jīng)網(wǎng)絡(luò))可獲得的先前最終識(shí)別結(jié)果，考慮到字母表字母的連接關(guān)系而輸出字母概率，并且可將輸出的語(yǔ)言模型結(jié)果字母概率提供給組合器130。因此，因?yàn)樵谡Z(yǔ)言模型中反映由組合器130產(chǎn)生的先前音頻幀的最終識(shí)別結(jié)果，所以可考慮到先前音頻幀的最終識(shí)別結(jié)果中所包括的字母表字母而輸出當(dāng)前音頻幀的準(zhǔn)確識(shí)別結(jié)果。

組合器130可將由第一識(shí)別器110輸出或使其可用的第一音頻幀的示例26個(gè)字母表字母的概率輸入到統(tǒng)一模型中，并且可將由第二識(shí)別器120輸出或使其可用的第一音頻幀的示例26個(gè)字母表字母的概率輸入到統(tǒng)一模型中，以由統(tǒng)一模型輸出當(dāng)前最終識(shí)別結(jié)果，即字母表字母‘m’具有與第一音頻幀匹配的最高概率。在這種情況下，組合器130可在語(yǔ)言模型中反映針對(duì)第一音頻幀輸出的字母‘m’和對(duì)應(yīng)概率信息。

如上所述，可由組合器130將被第一識(shí)別器110確定為具有最高概率的字母表字母“mai neim is stiv”中的每個(gè)與第二識(shí)別器120的各最高概率識(shí)別結(jié)果組合，以便將音頻信號(hào)準(zhǔn)確地識(shí)別/理解為對(duì)應(yīng)于“My name is Steve”。

圖3是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備的方框圖。

參照?qǐng)D3，語(yǔ)音識(shí)別設(shè)備300包括例如第一識(shí)別器310、第二識(shí)別器320和組合器330。

第一識(shí)別器310可以以大于第一語(yǔ)言識(shí)別單位的第二語(yǔ)言識(shí)別單位輸出第一識(shí)別結(jié)果。在這種情況下，第一語(yǔ)言識(shí)別單位和第二語(yǔ)言識(shí)別單位是如上所述的語(yǔ)言單位中的任何一種語(yǔ)言單位。例如，第一語(yǔ)言識(shí)別單位可以是字母或音節(jié)單位，并且第二語(yǔ)言識(shí)別單位可大于字母或音節(jié)單位。以下，為了解釋的方便，第一語(yǔ)言識(shí)別單位是字母或音節(jié)單位，并且第二語(yǔ)言識(shí)別單位是詞語(yǔ)單位。然而，僅作為示例討論這些特定語(yǔ)言識(shí)別單位，并且實(shí)施例不限于此。

在一個(gè)或多個(gè)實(shí)施例中，第一識(shí)別器310可包括第一聲學(xué)模型和第二聲學(xué)模型。在這種情況下，使用第一聲學(xué)模型，第一識(shí)別器310可以以第一語(yǔ)言識(shí)別單位提供音頻信號(hào)的識(shí)別結(jié)果，僅作為示例，第一語(yǔ)言識(shí)別單位可包括字母或音節(jié)單位的語(yǔ)言單位。另外，通過(guò)將這個(gè)識(shí)別結(jié)果(例如，與相應(yīng)概率和/或狀態(tài)信息一起)提供給第二聲學(xué)模型，第一識(shí)別器310可以以第二語(yǔ)言識(shí)別單位產(chǎn)生第一識(shí)別結(jié)果，僅作為示例，第二語(yǔ)言識(shí)別單位可包括詞語(yǔ)的語(yǔ)言單位。因此，按照第一語(yǔ)言識(shí)別單位的第一聲學(xué)模型的識(shí)別結(jié)果可包括例如字母或音節(jié)概率或狀態(tài)信息，并且按照第二語(yǔ)言識(shí)別單位的第二聲學(xué)模型的第一識(shí)別結(jié)果可包括例如詞語(yǔ)的概率或狀態(tài)信息。盡管按順序僅示出兩個(gè)聲學(xué)模型，但是實(shí)施例不限于此，因?yàn)榭纱嬖诙嘤趦蓚€(gè)級(jí)別的聲學(xué)建模(或多于一個(gè)級(jí)別的語(yǔ)言建模)，在每一級(jí)別中可存在多于一個(gè)使用的聲學(xué)模型(或語(yǔ)言模型)，例如，并行使用和/或諸如針對(duì)個(gè)性化模型或基于個(gè)人習(xí)語(yǔ)的模型或基于不同方言或語(yǔ)言選擇性使用聲學(xué)模型(或語(yǔ)言模型)。在一個(gè)實(shí)施例中，例如，不同語(yǔ)言識(shí)別單位類型的聲學(xué)模型的兩個(gè)級(jí)別可按照聲學(xué)模型的順序，順序地減小時(shí)間分辨率。此外，盡管聲學(xué)模型的示例的兩個(gè)級(jí)別對(duì)相鄰等級(jí)的語(yǔ)言識(shí)別單位類型(例如，第二語(yǔ)言識(shí)別單位類型大于第一語(yǔ)言識(shí)別單位類型)進(jìn)行建模，但是實(shí)施例不限于此，另外地或者可選擇地，可通過(guò)相繼的聲學(xué)模型對(duì)非相鄰語(yǔ)言識(shí)別單位類型(諸如音節(jié)和短語(yǔ))進(jìn)行建模。另外，在一個(gè)或多個(gè)實(shí)施例中，第一聲學(xué)模型和第二聲學(xué)模型由語(yǔ)音識(shí)別設(shè)備中的一個(gè)或多個(gè)神經(jīng)網(wǎng)絡(luò)表示，例如，神經(jīng)網(wǎng)絡(luò)的表示第一聲學(xué)模型的輸出的節(jié)點(diǎn)連接到神經(jīng)網(wǎng)絡(luò)的表示第二聲學(xué)模型的輸入的節(jié)點(diǎn)以形成單個(gè)神經(jīng)網(wǎng)絡(luò)。僅作為示例，當(dāng)向第一聲學(xué)模型提供表示小于第一語(yǔ)言識(shí)別單位類型的單個(gè)語(yǔ)言單位的音頻幀時(shí)，第一聲學(xué)模型的識(shí)別結(jié)果可包括指示第一聲學(xué)模型的狀態(tài)的狀態(tài)信息(例如，第一聲學(xué)模型未完成識(shí)別操作)，當(dāng)針對(duì)剩余的特定語(yǔ)言單位更多個(gè)的幀被接收并且第一語(yǔ)言識(shí)別單位被確定時(shí)，第一聲學(xué)模型可將第一識(shí)別結(jié)果輸出到第二聲學(xué)模型。第二聲學(xué)模型和第二識(shí)別器320的語(yǔ)言模型可類似地輸出操作的各個(gè)狀態(tài)的狀態(tài)信息，包括準(zhǔn)備好下一信號(hào)、數(shù)據(jù)或幀，當(dāng)前識(shí)別操作的程度和對(duì)應(yīng)語(yǔ)言單位的識(shí)別的完成。

如上所述，當(dāng)通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)時(shí)，僅作為示例，模型或神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)注意機(jī)制。例如，對(duì)于注意機(jī)制，神經(jīng)網(wǎng)絡(luò)的較高/隨后的級(jí)別(例如，聲學(xué)或語(yǔ)言模型級(jí)別)的輸入可以是較低/先前級(jí)別的輸出的匯總，其中，通過(guò)輸入的加權(quán)和來(lái)獲得匯總，權(quán)重為“注意”。為了進(jìn)一步說(shuō)明該示例，當(dāng)示例較低級(jí)別的輸出為5維向量并且較低級(jí)別根據(jù)時(shí)間順序被操作/運(yùn)行7次(例如，7個(gè)連續(xù)音頻幀)時(shí)，第7操作的輸出可以是5x7矩陣。這里，“注意”可以是7維向量作為權(quán)重的示例。因此，較高級(jí)別可作為輸入獲得(或較低級(jí)別可作為輸出產(chǎn)生)，5維向量作為7個(gè)5維向量的加權(quán)和。

第二識(shí)別器320可通過(guò)使用例如已反映先前音頻數(shù)據(jù)、幀或信號(hào)的最終識(shí)別結(jié)果的語(yǔ)言模型來(lái)以第二語(yǔ)言識(shí)別單位輸出第二識(shí)別結(jié)果。在這種情況下，按照第二語(yǔ)言識(shí)別單位的第二識(shí)別結(jié)果可包括例如最高可能的詞的概率或不同高可能的詞語(yǔ)的概率或狀態(tài)信息。根據(jù)實(shí)施例并且如以上所討論，該語(yǔ)言模型也可由神經(jīng)網(wǎng)絡(luò)表示，并且在一個(gè)或多個(gè)實(shí)施例中可被或已被訓(xùn)練從而以第二語(yǔ)言識(shí)別單位輸出識(shí)別結(jié)果。

組合器330可被配置為組合第一識(shí)別器310的第一識(shí)別結(jié)果和第二識(shí)別器320的第二識(shí)別結(jié)果從而以第二語(yǔ)言識(shí)別單位輸出音頻數(shù)據(jù)、幀或信號(hào)的最終識(shí)別結(jié)果。例如，組合器330可將第一識(shí)別結(jié)果和第二識(shí)別結(jié)果輸入到例如表示為組合器330中的神經(jīng)網(wǎng)絡(luò)的預(yù)定統(tǒng)一模型中，所述預(yù)定統(tǒng)一模型產(chǎn)生輸入音頻信號(hào)的每個(gè)示例詞語(yǔ)的最終識(shí)別結(jié)果。因此，組合器330可輸出每個(gè)詞語(yǔ)的最終識(shí)別結(jié)果。

另外，在這里的一個(gè)或多個(gè)實(shí)施例中，聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型被集成并且表示為一個(gè)神經(jīng)網(wǎng)絡(luò)。例如，神經(jīng)網(wǎng)絡(luò)的表示第二聲學(xué)模型的輸出的節(jié)點(diǎn)和神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸出的節(jié)點(diǎn)可連接到神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸入的節(jié)點(diǎn)，以形成單個(gè)神經(jīng)網(wǎng)絡(luò)。在這里的替代實(shí)施例中，一個(gè)或多個(gè)聲學(xué)模型、一個(gè)或多個(gè)語(yǔ)言模型和/或統(tǒng)一模型可由分開的或集成的神經(jīng)網(wǎng)絡(luò)表示。例如，所述一個(gè)或多個(gè)聲學(xué)模型中的每個(gè)聲學(xué)模型可由分開的神經(jīng)網(wǎng)絡(luò)表示或者組合/集成為單個(gè)神經(jīng)網(wǎng)絡(luò)，并且神經(jīng)網(wǎng)絡(luò)可表示這種一個(gè)或多個(gè)聲學(xué)模型以及僅在單個(gè)神經(jīng)網(wǎng)絡(luò)中表示語(yǔ)言模型或統(tǒng)一模型之一，其余統(tǒng)一模型或語(yǔ)言模型由分開的神經(jīng)網(wǎng)絡(luò)表示，或者一個(gè)或多個(gè)聲學(xué)模型可由與共同地表示其余聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型的神經(jīng)網(wǎng)絡(luò)分開的神經(jīng)網(wǎng)絡(luò)表示，再一次需要注意的是，也存在替代方案。根據(jù)實(shí)施例，如以下更詳細(xì)所討論，這種單個(gè)或分開的神經(jīng)網(wǎng)絡(luò)中的任何一個(gè)、組合或全部可由一個(gè)或多個(gè)專門控制或配置的處理裝置、處理器或計(jì)算機(jī)實(shí)現(xiàn)。另外，這種專門控制或配置的處理裝置、處理器或計(jì)算機(jī)還可被專門控制或配置為執(zhí)行接收或捕獲的音頻的一個(gè)或多個(gè)預(yù)處理操作(諸如，以上討論的非限制性預(yù)處理)，或者預(yù)處理可由語(yǔ)音識(shí)別設(shè)備或系統(tǒng)的替代硬件和/或一個(gè)或多個(gè)專門控制或配置的處理裝置、處理器或計(jì)算機(jī)執(zhí)行。

在這種語(yǔ)音識(shí)別系統(tǒng)實(shí)施例中，這種單個(gè)或分開的神經(jīng)網(wǎng)絡(luò)中的任何一個(gè)、組合或全部可由一個(gè)或多個(gè)服務(wù)器中的一個(gè)或多個(gè)專門控制或配置的處理裝置、處理器或計(jì)算機(jī)實(shí)現(xiàn)，其余神經(jīng)網(wǎng)絡(luò)由遠(yuǎn)處或遠(yuǎn)程裝置的一個(gè)或多個(gè)專門控制或配置的處理裝置、處理器或計(jì)算機(jī)實(shí)現(xiàn)，諸如具有用戶接口的電子裝置，該用戶接口接收或捕獲諸如用于命令或搜索請(qǐng)求或其它操作的用戶的語(yǔ)音，該用戶接口被配置為將接收或捕獲的音頻傳送給所述一個(gè)或多個(gè)服務(wù)器，并且該用戶接口被配置為從服務(wù)器接收由所述一個(gè)或多個(gè)服務(wù)器的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的統(tǒng)一模型的輸出或者由所述一個(gè)或多個(gè)服務(wù)器的一個(gè)或多個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的一個(gè)或多個(gè)聲學(xué)模型和一個(gè)或多個(gè)語(yǔ)言模型之一或二者的輸出。電子裝置還可包括這樣的統(tǒng)一模型，所述統(tǒng)一模型可(例如，規(guī)律地或在特定時(shí)間)被全部或部分地更新為與一個(gè)或多個(gè)服務(wù)器的訓(xùn)練的統(tǒng)一模型對(duì)應(yīng)，例如從而當(dāng)這種服務(wù)器中的一個(gè)或多個(gè)不可用時(shí)，電子裝置可執(zhí)行識(shí)別操作。在該示例中，當(dāng)一個(gè)或多個(gè)服務(wù)器順序地變?yōu)榭捎脮r(shí)，電子裝置可向服務(wù)器通知電子裝置的統(tǒng)一模型的任何改變。還可針對(duì)可由電子裝置實(shí)施的聲學(xué)模型和語(yǔ)言模型共同地執(zhí)行這樣的操作。例如，在聲學(xué)模型和語(yǔ)言模型一起被訓(xùn)練的實(shí)施例中，為了從而一起識(shí)別語(yǔ)音，模型可被一起更新。相反，在聲學(xué)模型將獨(dú)立于語(yǔ)言模型的訓(xùn)練被訓(xùn)練或不同聲學(xué)模型也被獨(dú)立訓(xùn)練的先前方法中，模型的任何更新也將基于各個(gè)強(qiáng)制排列信息被獨(dú)立執(zhí)行。

返回圖3，一旦針對(duì)當(dāng)前音頻數(shù)據(jù)、幀或信號(hào)以示例詞語(yǔ)單位輸出音頻信號(hào)的最終識(shí)別結(jié)果，組合器330可在語(yǔ)言模型中反映該輸出。以這種方式，第二識(shí)別器320可其后通過(guò)考慮當(dāng)前音頻信號(hào)的反映的最終識(shí)別結(jié)果，來(lái)計(jì)算和輸出輸入到或?qū)⑤斎氲降谝蛔R(shí)別器310的隨后的音頻數(shù)據(jù)、幀或信號(hào)的隨后的詞語(yǔ)的概率或關(guān)于其的狀態(tài)信息。為此，并且僅作為示例，前述單個(gè)網(wǎng)絡(luò)(例如，單個(gè)神經(jīng)網(wǎng)絡(luò))可被以這種方式配置：神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸出的節(jié)點(diǎn)的數(shù)量等于或取決于神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸入的節(jié)點(diǎn)的數(shù)量。

在這種情況下，如以上所討論，一個(gè)或多個(gè)實(shí)施例包括通過(guò)使用學(xué)習(xí)或訓(xùn)練算法(諸如，反向傳播學(xué)習(xí)算法)來(lái)在學(xué)習(xí)/訓(xùn)練處理中共同地并且同時(shí)/共同地訓(xùn)練聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型。僅作為示例，一個(gè)或多個(gè)實(shí)施例包括通過(guò)使用包括主要用于用作或包括語(yǔ)音識(shí)別設(shè)備300的電子裝置實(shí)施例的詞語(yǔ)或短語(yǔ)的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練統(tǒng)一模型，但訓(xùn)練不限于此，并且可替代地包括獨(dú)立地或分開地訓(xùn)練聲學(xué)模型和語(yǔ)言模型，然后通過(guò)獲得和/或更新例如由用于整個(gè)網(wǎng)絡(luò)的所述一個(gè)或多個(gè)聲學(xué)模型和語(yǔ)言模型提供的用于各訓(xùn)練識(shí)別結(jié)果的權(quán)重、權(quán)重值等來(lái)訓(xùn)練和/或更新統(tǒng)一模型，以使得由統(tǒng)一模型執(zhí)行的最后語(yǔ)音識(shí)別可被優(yōu)化。不管聲學(xué)模型和語(yǔ)言模型被共同地訓(xùn)練、與統(tǒng)一模型共同地訓(xùn)練還是分開地訓(xùn)練，統(tǒng)一模型可將不同權(quán)重施加到從聲學(xué)模型和語(yǔ)言模型提供的各個(gè)結(jié)果，例如，從而相比于其他聲學(xué)模型或語(yǔ)言模型，聲學(xué)模型中的一個(gè)或多個(gè)的結(jié)果被給予更高的可靠性或置信權(quán)重，或者例如，相比于其他模型，語(yǔ)言模型被給予更高的可靠性或置信權(quán)重。權(quán)重可以是固定的或者動(dòng)態(tài)的，并且在訓(xùn)練和/或模型的使用期間改變，并且僅作為示例可基于被應(yīng)用的模型、語(yǔ)言單位的類型或先前語(yǔ)言單位的識(shí)別。權(quán)重可以簡(jiǎn)單地是不同地施加到來(lái)自模型中的一個(gè)或多個(gè)的結(jié)果的單個(gè)權(quán)重參數(shù)，或者是更復(fù)雜的矩陣權(quán)重，如對(duì)本公開的理解之后將理解的那樣。

圖4是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別方法的流程圖。僅作為示例，可通過(guò)使用根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備(諸如，圖1的語(yǔ)音識(shí)別設(shè)備100)來(lái)實(shí)現(xiàn)圖4中示出的語(yǔ)音識(shí)別方法，但不限于此。類似地，雖然將會(huì)參照?qǐng)D1的語(yǔ)音識(shí)別設(shè)備100討論圖4的語(yǔ)音識(shí)別方法，但這僅是為了方便解釋并且不應(yīng)該局限于此。

在操作410中，語(yǔ)音識(shí)別設(shè)備100可通過(guò)使用聲學(xué)模型來(lái)以語(yǔ)言識(shí)別單位輸出音頻信號(hào)的第一識(shí)別結(jié)果。在這種情況下，音頻信號(hào)可通過(guò)從音頻信號(hào)提取特征的預(yù)處理過(guò)程而被轉(zhuǎn)換成音頻幀，并且音頻信號(hào)可被以音頻幀為單位輸入到聲學(xué)模型以輸出第一識(shí)別結(jié)果。按照語(yǔ)言識(shí)別單位的第一識(shí)別結(jié)果可包括例如音頻幀的字母或音節(jié)概率或狀態(tài)信息。如以上所討論，可通過(guò)被配置為例如以字母或音節(jié)單位提供概率或狀態(tài)信息的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)聲學(xué)模型。

在操作420中，語(yǔ)音識(shí)別設(shè)備100可通過(guò)使用語(yǔ)言模型來(lái)以語(yǔ)言識(shí)別單位輸出第二識(shí)別結(jié)果。例如，第二識(shí)別結(jié)果可包括字母或音節(jié)概率或狀態(tài)信息。如以上所討論，可通過(guò)被配置為以字母或音節(jié)單位提供概率或狀態(tài)信息的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語(yǔ)言模型。在一個(gè)或多個(gè)實(shí)施例中，根據(jù)實(shí)施例，操作420可在操作410開始之后開始，操作420可在操作410之前開始，或者它們可同時(shí)開始。

隨后，在操作430中，語(yǔ)音識(shí)別設(shè)備100可組合音頻信號(hào)的第一識(shí)別結(jié)果和第二識(shí)別結(jié)果，并且可以以語(yǔ)言識(shí)別單位產(chǎn)生或輸出最終識(shí)別結(jié)果。例如，通過(guò)與聲學(xué)模型和語(yǔ)言模型一起使用統(tǒng)一模型或使用集成/組合聲學(xué)模型和語(yǔ)言模型的統(tǒng)一模型，語(yǔ)音識(shí)別設(shè)備100可組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果，并且可以示例字母或音節(jié)單位輸出最終識(shí)別結(jié)果。

類似于聲學(xué)模型和語(yǔ)言模型，統(tǒng)一模型可基于神經(jīng)網(wǎng)絡(luò)。聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型可由一個(gè)網(wǎng)絡(luò)(例如，一個(gè)神經(jīng)網(wǎng)絡(luò))集成和表示。例如，神經(jīng)網(wǎng)絡(luò)的表示聲學(xué)模型的輸出的節(jié)點(diǎn)和神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸出的節(jié)點(diǎn)可連接到神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的各輸入的節(jié)點(diǎn)。

一旦產(chǎn)生或輸出音頻信號(hào)的最終識(shí)別結(jié)果，語(yǔ)音識(shí)別設(shè)備100還在操作430中在語(yǔ)言模型中反映最終識(shí)別結(jié)果，因此語(yǔ)言模型在操作420的隨后的實(shí)現(xiàn)方式中通過(guò)考慮反映的當(dāng)前音頻幀的識(shí)別結(jié)果來(lái)產(chǎn)生隨后的音頻幀的隨后的第二識(shí)別結(jié)果。

圖5是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別方法的流程圖。僅作為示例，可通過(guò)使用根據(jù)一個(gè)或多個(gè)實(shí)施例的語(yǔ)音識(shí)別設(shè)備(諸如，圖3的語(yǔ)音識(shí)別設(shè)備300)來(lái)實(shí)現(xiàn)圖5中示出的語(yǔ)音識(shí)別方法，但不限于此。類似地，雖然將會(huì)參照?qǐng)D3的語(yǔ)音識(shí)別設(shè)備300討論圖5的語(yǔ)音識(shí)別方法，但這僅是為了方便解釋并且不應(yīng)該局限于此。

在操作510中，語(yǔ)音識(shí)別設(shè)備300可通過(guò)使用第一聲學(xué)模型來(lái)以第一語(yǔ)言識(shí)別單位產(chǎn)生輸入音頻信號(hào)的識(shí)別結(jié)果。然后，在操作520中，語(yǔ)音識(shí)別設(shè)備300可通過(guò)使用第二聲學(xué)模型來(lái)以第二語(yǔ)言識(shí)別單位(例如，以詞語(yǔ)單位)產(chǎn)生第一識(shí)別結(jié)果。第二語(yǔ)言識(shí)別單位可大于第一語(yǔ)言識(shí)別單位。例如，第一語(yǔ)言識(shí)別單位可以是字母或音節(jié)單位，并且第二語(yǔ)言識(shí)別單位可以是詞語(yǔ)單位。另外，第一聲學(xué)模型和第二聲學(xué)模型可基于神經(jīng)網(wǎng)絡(luò)。例如，神經(jīng)網(wǎng)絡(luò)的表示第一聲學(xué)模型的輸出的節(jié)點(diǎn)可連接到神經(jīng)網(wǎng)絡(luò)的表示第二聲學(xué)模型的輸入的節(jié)點(diǎn)，從而產(chǎn)生的第一聲學(xué)模型的結(jié)果可被輸入到第二聲學(xué)模型。

在操作530中，可通過(guò)使用反映或已反映先前音頻信號(hào)的最終識(shí)別結(jié)果的語(yǔ)言模型來(lái)輸出按照第二語(yǔ)言識(shí)別單位的第二識(shí)別結(jié)果。例如，第二識(shí)別結(jié)果可包括詞語(yǔ)的概率或狀態(tài)信息。在這種情況下，語(yǔ)言模型可基于神經(jīng)網(wǎng)絡(luò)，并且在一個(gè)或多個(gè)實(shí)施例中，表示語(yǔ)言模型的神經(jīng)網(wǎng)絡(luò)可被訓(xùn)練以便例如考慮到包括反映的先前音頻信號(hào)、數(shù)據(jù)或幀的最終識(shí)別結(jié)果的音頻信號(hào)的語(yǔ)言單位和/或不同語(yǔ)言單位類型之間的預(yù)期連接性而以第二語(yǔ)言識(shí)別單位輸出識(shí)別結(jié)果。在一個(gè)或多個(gè)實(shí)施例中，根據(jù)實(shí)施例，操作530可在操作510或520中的任一操作開始之后、在操作510和520之前開始，或者操作530可與操作510或520中的任一操作同時(shí)開始。

然后，語(yǔ)音識(shí)別設(shè)備300可組合第一識(shí)別結(jié)果和第二識(shí)別結(jié)果，并且可以以第二語(yǔ)言識(shí)別單位輸出音頻信號(hào)的最終識(shí)別結(jié)果。例如，語(yǔ)音識(shí)別設(shè)備300可將第一識(shí)別結(jié)果和第二識(shí)別結(jié)果輸入到預(yù)定統(tǒng)一模型中，所述預(yù)定統(tǒng)一模型被配置為考慮第一識(shí)別結(jié)果和第二識(shí)別結(jié)果并且以示例性詞語(yǔ)單位產(chǎn)生最終識(shí)別結(jié)果。

類似于聲學(xué)模型和語(yǔ)言模型，統(tǒng)一模型可基于神經(jīng)網(wǎng)絡(luò)。聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型可由一個(gè)神經(jīng)網(wǎng)絡(luò)集成和表示。例如，神經(jīng)網(wǎng)絡(luò)的表示第二聲學(xué)模型的輸出的節(jié)點(diǎn)和神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸出的節(jié)點(diǎn)可連接到神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸入的節(jié)點(diǎn)，由此形成單個(gè)網(wǎng)絡(luò)。如上所述，這個(gè)單個(gè)神經(jīng)網(wǎng)絡(luò)也可表示第一聲學(xué)模型，例如，神經(jīng)網(wǎng)絡(luò)的表示第一聲學(xué)模型的輸出的節(jié)點(diǎn)連接到神經(jīng)網(wǎng)絡(luò)的表示第二聲學(xué)模型的輸入的節(jié)點(diǎn)。

接下來(lái)，一旦以詞語(yǔ)單位產(chǎn)生或輸出音頻信號(hào)的最終識(shí)別結(jié)果，語(yǔ)音識(shí)別設(shè)備300可在語(yǔ)言模型中反映該最終識(shí)別結(jié)果。為此，前述單個(gè)網(wǎng)絡(luò)可被以這種方式配置：神經(jīng)網(wǎng)絡(luò)的表示統(tǒng)一模型的輸出的節(jié)點(diǎn)的數(shù)量等于或取決于神經(jīng)網(wǎng)絡(luò)的表示語(yǔ)言模型的輸入的節(jié)點(diǎn)的數(shù)量。

圖6是示出根據(jù)一個(gè)或多個(gè)實(shí)施例的作為電子裝置600的語(yǔ)音識(shí)別設(shè)備的方框圖。

在一個(gè)或多個(gè)實(shí)施例中，電子裝置600可包括語(yǔ)音識(shí)別裝置，諸如圖1的語(yǔ)音識(shí)別設(shè)備100和圖3的語(yǔ)音識(shí)別設(shè)備300之一或二者。僅作為非限制性示例，電子裝置600可以是電視機(jī)、機(jī)頂盒、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、翻譯機(jī)器、智能電話、平板PC、智能手表、可穿戴裝置、車輛的電子控制裝置等中的任何裝置，并且可通過(guò)使用例如安裝/包括的語(yǔ)音識(shí)別裝置來(lái)處理用戶的各種需求。然而，電子裝置600不限于此，并且也可使用在語(yǔ)音識(shí)別的任何或所有應(yīng)用中使用的其它電子裝置。

參照?qǐng)D6，在實(shí)施例中，電子裝置600包括語(yǔ)音接收器610、語(yǔ)音識(shí)別器620和處理器630，其中語(yǔ)音識(shí)別器620可分別對(duì)應(yīng)于圖1的語(yǔ)音識(shí)別設(shè)備100和圖3的語(yǔ)音識(shí)別設(shè)備300之一或二者。語(yǔ)音識(shí)別器620是這樣的硬件：該硬件可由諸如以上討論的特定一個(gè)或多個(gè)處理裝置實(shí)現(xiàn)，或者可由如以上所討論的也被配置為響應(yīng)于通過(guò)語(yǔ)音識(shí)別器620的識(shí)別結(jié)果識(shí)別的命令或詢問(wèn)來(lái)控制電子裝置600的其它操作(諸如，其它用戶接口操作)的特定一個(gè)或多個(gè)處理裝置實(shí)現(xiàn)，但實(shí)施例不限于此。

語(yǔ)音接收器610可接收通過(guò)電子裝置600中所包括的也由語(yǔ)音接收器610表示的麥克風(fēng)等輸入的用戶的音頻信號(hào)。替代地，在一個(gè)或多個(gè)實(shí)施例中，語(yǔ)音接收器610可被包括在對(duì)應(yīng)語(yǔ)音識(shí)別系統(tǒng)實(shí)施例的單獨(dú)裝置中，諸如被配置為將接收或捕獲的音頻和/或當(dāng)語(yǔ)音接收器610還被配置為實(shí)現(xiàn)以上討論的接收/捕獲的音頻的預(yù)處理時(shí)的接收/捕獲的音頻的對(duì)應(yīng)預(yù)處理的音頻傳送給語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別裝置的有線或無(wú)線麥克風(fēng)或控制器。如圖6中所示，用戶的音頻信號(hào)可與詞語(yǔ)、短語(yǔ)或句子相關(guān)以便被翻譯成用于控制電視機(jī)、駕駛車輛等的另一語(yǔ)言或命令。另外，再一次僅作為示例，預(yù)處理可包括：將例如由用戶輸入的接收或捕獲的模擬音頻信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)，將數(shù)字信號(hào)劃分成多個(gè)音頻幀，并且將音頻幀例如作為預(yù)處理的音頻幀數(shù)據(jù)傳送給語(yǔ)音識(shí)別器620。如上所述，在一個(gè)或多個(gè)實(shí)施例中，聲學(xué)模型、語(yǔ)言模型和統(tǒng)一模型中的一個(gè)或多個(gè)可由一個(gè)或多個(gè)遠(yuǎn)程服務(wù)器實(shí)現(xiàn)為語(yǔ)音識(shí)別器620，并且電子裝置600可被配置為傳送例如捕獲的音頻并且基于所述傳送的音頻從聲學(xué)模型和/或語(yǔ)言模型神經(jīng)網(wǎng)絡(luò)中的一個(gè)或多個(gè)接收合適的輸出或接收表示對(duì)應(yīng)統(tǒng)一模型的一個(gè)或多個(gè)神經(jīng)網(wǎng)絡(luò)的輸出。

因此，在不同實(shí)施例中，語(yǔ)音識(shí)別器620可將聲學(xué)模型和語(yǔ)言模型的結(jié)果輸入到統(tǒng)一模型中，并且可基于統(tǒng)一模型的輸出結(jié)果輸出音頻信號(hào)的最終識(shí)別結(jié)果。

除了這種處理器630被專門控制或配置為包括或用作語(yǔ)音識(shí)別器620的實(shí)施例之外，處理器630還可控制和/或執(zhí)行電子裝置600的另外的操作，例如包括可響應(yīng)于由語(yǔ)音識(shí)別器620返回的最終識(shí)別結(jié)果而控制電子裝置600的當(dāng)前或另外的操作的操作。例如，處理器630可通過(guò)電子裝置600的揚(yáng)聲器等以處理器產(chǎn)生的語(yǔ)音輸出由用戶輸入的語(yǔ)音的識(shí)別結(jié)果，或者可在電子裝置600的顯示器上以文本格式提供識(shí)別結(jié)果，這樣用于起草消息或文件，或僅由電子裝置600顯示。另外，處理器630可被配置為控制和執(zhí)行用于處理關(guān)于電子裝置600的命令(例如，通電/斷電、音量控制等)的操作。僅作為非限制性示例，接口640表示揚(yáng)聲器、電子裝置600的一個(gè)或多個(gè)用戶接口(諸如，顯示器、鍵盤或觸摸屏幕)和/或諸如用于與示例服務(wù)器執(zhí)行以上提及的傳送的電子裝置600的一個(gè)或多個(gè)通信硬件模塊。在一個(gè)示例中，接口640還可表示產(chǎn)生由語(yǔ)音識(shí)別器610預(yù)先處理的音頻信號(hào)的麥克風(fēng)。

另外，在一個(gè)或多個(gè)實(shí)施例中，當(dāng)電子裝置600被配置為執(zhí)行翻譯時(shí)，諸如在語(yǔ)音接收器610從電子裝置600的內(nèi)存或從另一服務(wù)器/裝置獲得來(lái)自實(shí)時(shí)或記錄的音頻的音頻數(shù)據(jù)的情況下，以及諸如在將最終識(shí)別結(jié)果翻譯成另一語(yǔ)言的情況下，僅作為示例，處理器630還被配置為例如基于存儲(chǔ)在電子裝置600的內(nèi)存中或通過(guò)從另一裝置或服務(wù)器傳送而可用的一個(gè)或多個(gè)詞典將以文本格式輸出的最終識(shí)別結(jié)果翻譯成所述另一語(yǔ)言，并且諸如在電子裝置600的顯示器上以語(yǔ)音和/或以文本格式輸出翻譯的結(jié)果。然而，處理器630不限于此，并且可被用于電子裝置600的各種應(yīng)用。例如，電子裝置的存儲(chǔ)器還可存儲(chǔ)聲學(xué)模型和語(yǔ)言模型、可選擇的聲學(xué)模型和語(yǔ)言模型、用于訓(xùn)練模型的數(shù)據(jù)、以及由語(yǔ)音識(shí)別器620使用或產(chǎn)生的任何信息。存儲(chǔ)器還可存儲(chǔ)可執(zhí)行指令，從而電子裝置600的一個(gè)或多個(gè)處理器可實(shí)現(xiàn)上述操作中的任何一個(gè)。

除了圖1-3和6的設(shè)備、模塊、元件、裝置和其它組件是硬件元件(任何硬件元件可實(shí)現(xiàn)圖2和4-5的方法)之外，僅作為示例，圖2和4-5的方法可由硬件組件執(zhí)行，所述硬件組件包括電子裝置或系統(tǒng)實(shí)施例中所包括的任何以上討論的示例硬件元件。僅作為示例，硬件組件的示例包括電阻器、電容器、電感器、電源、頻率發(fā)生器、運(yùn)算放大器、功率放大器、低通濾波器、高通濾波器、帶通濾波器、模數(shù)轉(zhuǎn)換器、數(shù)模轉(zhuǎn)換器、控制器、傳感器、發(fā)電機(jī)、內(nèi)存、驅(qū)動(dòng)器、電路和/或被配置為執(zhí)行圖2和4-5的上述方法中的任何方法的本領(lǐng)域普通技術(shù)人員已知的任何其它電子組件。在一個(gè)示例中，硬件組件由一個(gè)或多個(gè)處理裝置或處理器或計(jì)算機(jī)實(shí)現(xiàn)。處理裝置、處理器或計(jì)算機(jī)由一個(gè)或多個(gè)處理元件(諸如，邏輯門陣列、控制器和算術(shù)邏輯器件、數(shù)字信號(hào)處理器、微型計(jì)算機(jī)、可編程邏輯控制器、現(xiàn)場(chǎng)可編程門陣列、可編程邏輯陣列、微處理器或者能夠以定義的方式對(duì)指令做出響應(yīng)并且執(zhí)行指令以實(shí)現(xiàn)想要的結(jié)果的本領(lǐng)域普通技術(shù)人員已知的任何其它裝置或裝置的組合)實(shí)現(xiàn)。在一個(gè)示例中，處理裝置、處理器或計(jì)算機(jī)包括或連接到存儲(chǔ)計(jì)算機(jī)可讀代碼、指令或軟件的一個(gè)或多個(gè)內(nèi)存，所述計(jì)算機(jī)可讀代碼、指令或軟件由處理裝置、處理器或計(jì)算機(jī)執(zhí)行并且可控制處理裝置、處理器或計(jì)算機(jī)執(zhí)行這里描述的一個(gè)或多個(gè)方法。僅作為示例，由處理裝置、處理器或計(jì)算機(jī)例如通過(guò)執(zhí)行計(jì)算機(jī)執(zhí)行代碼、指令或軟件(諸如，操作系統(tǒng)(OS)和在OS上運(yùn)行的一個(gè)或多個(gè)軟件應(yīng)用)來(lái)實(shí)現(xiàn)的硬件組件可執(zhí)行這里參照?qǐng)D2和4-5描述的操作。硬件組件也響應(yīng)于指令或軟件的執(zhí)行而訪問(wèn)、操縱、處理、創(chuàng)建和存儲(chǔ)數(shù)據(jù)。為了簡(jiǎn)單，可在這里描述的示例的描述中使用單數(shù)術(shù)語(yǔ)“處理裝置”、“處理器”或“計(jì)算機(jī)”，但在其它示例中，使用多個(gè)處理裝置、處理器或計(jì)算機(jī)，或者處理裝置、處理器或計(jì)算機(jī)包括多個(gè)處理元件或多種類型的處理元件或者處理裝置、處理器或計(jì)算機(jī)包括多個(gè)處理元件并且包括多種類型的處理元件。在一個(gè)示例中，硬件組件包括多個(gè)處理器，并且在另一示例中，硬件組件包括處理器和控制器。硬件組件具有不同處理結(jié)構(gòu)中的任何一種或多種處理結(jié)構(gòu)，其示例包括單個(gè)處理器、獨(dú)立處理器、并行處理器、遠(yuǎn)程處理環(huán)境、單指令單數(shù)據(jù)(SISD)多處理、單指令多數(shù)據(jù)(SIMD)多處理、多指令單數(shù)據(jù)(MISD)多處理和多指令多數(shù)據(jù)(MIMD)多處理。另外，以上稱為設(shè)備的各種附圖中示出的任何連接線或連接器旨在表示各種硬件元件之間的示例功能關(guān)系和/或物理或邏輯耦合，許多替代或另外的功能關(guān)系、物理連接或邏輯連接可存在于對(duì)應(yīng)裝置實(shí)施例中。

通過(guò)如上所述的專門控制或配置的處理裝置、處理器或計(jì)算機(jī)執(zhí)行處理器或計(jì)算機(jī)可讀代碼、指令或軟件以執(zhí)行這里描述的操作，可執(zhí)行執(zhí)行這里描述的操作的圖2和4-5中示出的方法。

用于控制處理裝置、處理器或計(jì)算機(jī)實(shí)現(xiàn)硬件組件并且執(zhí)行如上所述的方法的處理器或計(jì)算機(jī)可讀代碼、指令或軟件可被編寫為計(jì)算機(jī)程序、代碼段、指令或其任何組合，所述計(jì)算機(jī)程序、代碼段、指令或其任何組合用于個(gè)別地或共同地指示或配置處理裝置、處理器或計(jì)算機(jī)以用作用于執(zhí)行由硬件組件執(zhí)行的操作和如上所述的方法的機(jī)器或?qū)Ｓ糜?jì)算機(jī)。在一個(gè)示例中，處理器或計(jì)算機(jī)可讀代碼、指令或軟件包括由處理裝置、處理器或計(jì)算機(jī)直接執(zhí)行的機(jī)器代碼，諸如由編譯器產(chǎn)生的機(jī)器代碼。在另一示例中，處理器或計(jì)算機(jī)可讀代碼、指令或軟件包括由處理裝置、處理器或計(jì)算機(jī)使用解釋器執(zhí)行的高級(jí)代碼，諸如利用任何編程或腳本語(yǔ)言(諸如，C、C++、Java、匯編程序等)實(shí)現(xiàn)的高級(jí)代碼，利用數(shù)據(jù)結(jié)構(gòu)、對(duì)象、處理、例程或其它編程元件的任何組合實(shí)現(xiàn)各種算法?；谶@里的公開，并且僅在對(duì)該公開的理解之后，本領(lǐng)域普通程序員可基于公開用于執(zhí)行由硬件組件執(zhí)行的操作和如上所述的方法的算法的附圖中示出的方框圖和流程圖以及說(shuō)明書中的對(duì)應(yīng)描述容易地編寫處理器或計(jì)算機(jī)可讀代碼、指令或軟件。

用于控制處理裝置、處理器或計(jì)算機(jī)實(shí)現(xiàn)諸如在圖1-3和6中的任何附圖中討論的硬件組件并且執(zhí)行如以上在圖2和4-5中的任何附圖中所述的方法的處理器或計(jì)算機(jī)可讀代碼、指令或軟件和任何關(guān)聯(lián)的數(shù)據(jù)、數(shù)據(jù)文件和數(shù)據(jù)結(jié)構(gòu)被記錄、存儲(chǔ)或固定在一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中或者被記錄、存儲(chǔ)或固定在一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上。非暫時(shí)性處理器或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的示例包括只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、閃存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁帶、軟盤、磁光數(shù)據(jù)存儲(chǔ)裝置、光學(xué)數(shù)據(jù)存儲(chǔ)裝置、硬盤、固態(tài)盤和能夠以非暫時(shí)性方式存儲(chǔ)處理器或計(jì)算機(jī)可讀代碼、指令或軟件和任何關(guān)聯(lián)的數(shù)據(jù)、數(shù)據(jù)文件和數(shù)據(jù)結(jié)構(gòu)并且向處理裝置、處理器或計(jì)算機(jī)提供處理器或計(jì)算機(jī)可讀代碼、指令或軟件和任何關(guān)聯(lián)的數(shù)據(jù)、數(shù)據(jù)文件和數(shù)據(jù)結(jié)構(gòu)以使得處理裝置、處理器或計(jì)算機(jī)能夠執(zhí)行指令的本領(lǐng)域普通技術(shù)人員已知的任何裝置。在一個(gè)示例中，處理器或計(jì)算機(jī)可讀代碼、指令或軟件和任何關(guān)聯(lián)的數(shù)據(jù)、數(shù)據(jù)文件和數(shù)據(jù)結(jié)構(gòu)分布在聯(lián)網(wǎng)的計(jì)算機(jī)系統(tǒng)上，以使得由處理裝置、處理器或計(jì)算機(jī)以分布式方式存儲(chǔ)、訪問(wèn)和執(zhí)行指令和軟件和任何關(guān)聯(lián)的數(shù)據(jù)、數(shù)據(jù)文件和數(shù)據(jù)結(jié)構(gòu)。

僅作為非窮舉示例，并且除了諸如以上參照?qǐng)D1-3和6中的任何附圖描述和/或被配置為實(shí)現(xiàn)參照?qǐng)D2和4-5中的任何附圖描述的方法的這里的語(yǔ)音識(shí)別設(shè)備和電子裝置實(shí)施例的可能的硬件實(shí)現(xiàn)方式的以上解釋中的任何解釋之外，也可以是：移動(dòng)裝置，諸如蜂窩電話、可穿戴智能裝置(諸如，示例智能手表)、其它可穿戴裝置、便攜式個(gè)人計(jì)算機(jī)(PC)(諸如，示例膝上型計(jì)算機(jī)、筆記本、亞筆記本、上網(wǎng)本或超級(jí)移動(dòng)PC(UMPC)、示例平板PC(平板計(jì)算機(jī)))、平板手機(jī)、個(gè)人數(shù)字助手(PDA)、數(shù)字照相機(jī)、便攜式游戲控制臺(tái)、MP3播放器、便攜式/個(gè)人多媒體播放器(PMP)、手持式電子書、全球定位系統(tǒng)(GPS)導(dǎo)航裝置或傳感器；或固定裝置，諸如示例臺(tái)式PC、示例TV(諸如，高清晰度電視(HDTV))、DVD播放器、Blu-ray播放器、示例機(jī)頂盒或家用電器；或能夠?qū)崿F(xiàn)無(wú)線或網(wǎng)絡(luò)通信的任何其它移動(dòng)或固定裝置。在一個(gè)或多個(gè)實(shí)施例中，電子裝置或電子裝置系統(tǒng)實(shí)施例包括顯示器、一個(gè)或多個(gè)揚(yáng)聲器、用戶接口、用于存儲(chǔ)數(shù)據(jù)或記錄的音頻/視頻的內(nèi)存或其它非暫時(shí)性介質(zhì)和/或音頻輸入裝置(諸如，一個(gè)或多個(gè)麥克風(fēng))。

盡管本公開包括特定示例，但對(duì)于本領(lǐng)域普通技術(shù)人員而言將會(huì)清楚的是，在不脫離權(quán)利要求及其等同物的精神和范圍的情況下，可在這些示例中做出各種形式和細(xì)節(jié)上的變化。應(yīng)該僅在描述性意義上而非為了限制的目的考慮這里描述的示例。對(duì)每個(gè)示例中的特征或方面的描述應(yīng)該被視為適用于其它示例中的類似特征或方面。如果描述的技術(shù)被以不同次序執(zhí)行，和/或如果描述的系統(tǒng)、架構(gòu)、裝置或電路中的組件被以不同方式組合和/或由其它組件或其等同物替換或補(bǔ)充，則可實(shí)現(xiàn)合適的結(jié)果。因此，本公開的范圍不由詳細(xì)描述限制，而是另外由權(quán)利要求及其等同物支持，并且權(quán)利要求及其等同物的范圍內(nèi)的所有變化應(yīng)該被解釋為被包括在本公開中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3