語音識別裝置及其控制方法

文檔序號：9867721閱讀：1191來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別裝置及其控制方法
【專利說明】語音識別裝置及其控制方法
[0001]相關(guān)申請的交叉引用
[0002]本申請要求于2014年11月21日在韓國知識產(chǎn)權(quán)局提交的韓國專利申請N0.10-2014-0163670的優(yōu)先權(quán)，并在此引入其全部公開的內(nèi)容。
技術(shù)領(lǐng)域
[0003]下文描述涉及語音識別裝置及其控制方法，更具體地，涉及通過針對用戶話語來生成令牌網(wǎng)絡(luò)來校正用戶話語的識別誤差的語音識別裝置，及控制該語音識別裝置的方法。
【背景技術(shù)】
[0004]由于電子技術(shù)的發(fā)展以及各種的用戶需求，已經(jīng)開發(fā)了各種類型的電子裝置。近幾年，已經(jīng)出現(xiàn)了用于通過用戶語音來控制電子裝置的技術(shù)。已經(jīng)開發(fā)出了各種交互接口來通過用戶話語控制電子裝置，并且該各種交互接口已經(jīng)用于各種電子裝置。
[0005]—般而言，語音識別裝置可以執(zhí)行通過語音識別器來識別用戶話語的處理。由于在語音識別器中產(chǎn)生的用戶話語識別中的誤差，該誤差會傳播到隨后的使用該識別器的識別結(jié)果的處理過程，并因此可能向用戶提供錯誤服務(wù)。
[0006]為了校正語音識別裝置中的語音識別誤差，已經(jīng)提出了通過以下方式來校正語音識別誤差的方法:應(yīng)用用于網(wǎng)頁瀏覽等的對拼寫中的打字錯誤進(jìn)行校正的技術(shù)，或使用一種噪聲信道來構(gòu)成語音識別結(jié)果和原始用戶話語。
[0007]然而，因為語音識別裝置中的語音識別誤差是響應(yīng)于用戶實(shí)際上說出的詞被錯誤地識別為與該詞相似的另一個詞而導(dǎo)致的，該被錯誤識別的詞可能未被錯誤拼寫。因此，用于網(wǎng)頁瀏覽的對拼寫錯誤的表達(dá)進(jìn)行校正的技術(shù)可能未被正確地應(yīng)用。構(gòu)成噪聲信道的方法不能校正關(guān)于在噪聲信道的訓(xùn)練中未被使用的表達(dá)的錯誤。
[0008]因此，需要一種響應(yīng)于即使在語音識別裝置中產(chǎn)生語音識別誤差也校正語音識別誤差的技術(shù)。

【發(fā)明內(nèi)容】

[0009]示例實(shí)施例克服了上述缺點(diǎn)和上文未描述的其它缺點(diǎn)。此外，并不需要示例實(shí)施例來克服上述缺點(diǎn)，并且示例實(shí)施例可以并不克服任何上述問題。
[0010]—個或多個示例實(shí)施例涉及能夠?qū)τ捎谧R別用戶話語導(dǎo)致的話語識別誤差進(jìn)行校正的語音識別裝置及其控制方法。
[0011]根據(jù)示例實(shí)施例的方案，控制語音識別裝置的方法包括:通過識別用戶話語來生成多個識別令牌;從多個預(yù)存的令牌中搜索與識別令牌中的每一個相似的相似令牌和具有與識別令牌一起使用的歷史的外圍令牌;使用識別令牌、相似令牌和外圍令牌來生成令牌網(wǎng)絡(luò)；以及，計算構(gòu)成令牌網(wǎng)絡(luò)的令牌之間的轉(zhuǎn)移概率并且使用計算出的轉(zhuǎn)移概率來生成針對已校正的用戶話語的文本數(shù)據(jù)。
[0012]可以通過按令牌的預(yù)定的單位劃分內(nèi)容列表、語言資料庫、話語日志來生成多個預(yù)存的令牌。搜索可以包括:響應(yīng)于在多個預(yù)存的令牌中存在識別令牌，使用預(yù)存的令牌之間的預(yù)存的相似度來搜索相似令牌。
[0013]搜索可以包括:響應(yīng)于在多個預(yù)存的令牌中不存在識別令牌，使用字符串搜索算法來搜索相似令牌。
[0014]搜索可以包括:響應(yīng)于在多個預(yù)存的令牌中不存在識別令牌，搜索外圍令牌。
[0015]生成多個識別令牌可以包括:通過識別用戶話語來生成針對用戶話語的文本數(shù)據(jù)；以及，通過按預(yù)定的單位劃分所生成的針對用戶話語的文本數(shù)據(jù)來生成多個識別令牌。生成令牌網(wǎng)絡(luò)可以包括:通過將相似令牌和外圍令牌布置為與多個識別令牌中的每一個相對應(yīng)來生成令牌網(wǎng)絡(luò)。
[0016]生成針對已校正的用戶話語的文本數(shù)據(jù)可以包括:使用針對預(yù)存的內(nèi)容列表、語言資料庫和話語日志的語言模型來計算令牌之間的轉(zhuǎn)移概率。
[0017]生成針對已校正的用戶話語的文本數(shù)據(jù)可以包括:通過向語言模型指派預(yù)定的權(quán)重來計算令牌之間的轉(zhuǎn)移概率；以及基于計算出的令牌之間的轉(zhuǎn)移概率來搜索令牌網(wǎng)絡(luò)上的最佳路徑。
[0018]搜索最佳路徑可以包括:使用Viterbi和A星算法中的至少一個來搜索最佳路徑。
[0019]方法還可以包括:計算出現(xiàn)已校正的用戶話語的概率；以及響應(yīng)于出現(xiàn)已校正的用戶話語的概率小于或等于預(yù)定值，輸出再次講話請求消息。
[0020]根據(jù)示例實(shí)施例的方案，語音識別裝置包括:語音識別器，被配置為識別用戶話語;存儲單元，被配置為存儲多個令牌;令牌網(wǎng)絡(luò)生成器，被配置為根據(jù)識別出的用戶話語來生成多個識別令牌，在存儲在存儲單元中的多個令牌中搜索與識別令牌中的每一個相似的相似令牌和具有與識別令牌一起使用的歷史的外圍令牌，以及使用識別令牌、類似令牌和外圍令牌來生成令牌網(wǎng)絡(luò)；以及處理器，被配置為響應(yīng)于通過語音識別器識別用戶話語來控制令牌網(wǎng)絡(luò)生成器生成令牌網(wǎng)絡(luò)，計算構(gòu)成令牌網(wǎng)絡(luò)的令牌之間的轉(zhuǎn)移概率，以及使用計算出的轉(zhuǎn)移概率來生成針對已校正的用戶話語的文本數(shù)據(jù)。
[0021]存儲單元可以存儲通過按令牌的預(yù)定的單位劃分內(nèi)容列表、語言資料庫、話語日志來生成的多個令牌以及令牌之間的相似度，并且令牌網(wǎng)絡(luò)生成器可以響應(yīng)于在多個令牌中存在識別令牌來使用令牌之間的相似度搜索相似令牌。
[0022]令牌網(wǎng)絡(luò)生成器可以響應(yīng)于在多個令牌中不存在識別令牌來使用字符串搜索算法搜索相似令牌。
[0023]令牌網(wǎng)絡(luò)生成器可以響應(yīng)于在多個令牌中不存在識別令牌來搜索外圍令牌。
[0024]處理器可以響應(yīng)于通過語音識別器識別用戶話語來生成針對用戶話語的文本數(shù)據(jù)，并且令牌網(wǎng)絡(luò)生成器可以通過按預(yù)定的單位劃分所生成的針對用戶話語的文本數(shù)據(jù)來生成多個識別令牌，并且通過將相似令牌和外圍令牌布置為與多個識別令牌中的每一個相對應(yīng)來生成令牌網(wǎng)絡(luò)。
[0025]存儲單元還可以存儲針對內(nèi)容列表、語言資料庫和話語日志的語言模型，并且處理器可以使用存儲的語言模型來計算令牌之間的轉(zhuǎn)移概率。
[0026]處理器可以通過向語言模型指派預(yù)定的權(quán)重來計算令牌之間的轉(zhuǎn)移概率，并且通過基于計算出的令牌之間的轉(zhuǎn)移概率搜索令牌網(wǎng)絡(luò)上的最佳路徑來生成針對已校正的用戶話語的文本數(shù)據(jù)。
[0027]處理器可以使用Viterbi和A星算法中的至少一個來搜索最佳路徑。
[0028]語音識別裝置還可以包括被配置為顯示圖像的顯示器和被配置為輸出聲音的音頻輸出單元中的至少一個。處理器可以計算出現(xiàn)已校正的用戶話語的概率，并且響應(yīng)于出現(xiàn)已校正的用戶話語的概率小于或等于預(yù)定值，控制顯示器和音頻輸出單元中的至少一個輸出再次講話請求消息。
[0029]根據(jù)各種示例實(shí)施例，可以準(zhǔn)確并高效地校正由于在語音識別裝置中識別用戶話語而導(dǎo)致的各種類型的話語識別誤差。
[0030]在【具體實(shí)施方式】部分中將闡述示例實(shí)施例的附加方案和優(yōu)點(diǎn)，并且根據(jù)【具體實(shí)施方式】部分，示例實(shí)施例的附加方案和優(yōu)點(diǎn)將變得明顯，或者，通過示例實(shí)施例的實(shí)踐可以認(rèn)識到示例實(shí)施例的附加方案和優(yōu)點(diǎn)。
【附圖說明】
[0031]通過參照附圖描述特定示例實(shí)施例，本公開的上述和/或其它方案將會更加清楚，在附圖中:
[0032]圖1是示出了根據(jù)示例實(shí)施例的語音識別裝置的配置的框圖；
[0033]圖2是示出了根據(jù)示例實(shí)施例的語音識別裝置的配置的框圖；
[0034]圖3是示出了根據(jù)示例實(shí)施例的語音識別裝置的配置的詳細(xì)框圖；
[0035]圖4是示出了根據(jù)示例實(shí)施例的識別令牌和相似令牌的圖；
[0036]圖5是示出了根據(jù)示例性實(shí)施例的識別令牌、相似令牌和外圍令牌的圖；
[0037]圖6是示出了根據(jù)示例實(shí)施例的令牌網(wǎng)絡(luò)的圖；
[0038]圖7是示出了根據(jù)示例實(shí)施例的在令牌網(wǎng)絡(luò)上的最佳搜索結(jié)果的圖；
[0039]圖8是示出了根據(jù)示例實(shí)施例的語音識別裝置的配置的框圖；
[0040]圖9是示出了根據(jù)示例實(shí)施例的語音識別裝置的控制方法的流程圖；
[0041]圖10是示出了根據(jù)示例實(shí)施例的語音識別裝置的控制方法的流程圖；
[0042]圖11是示出了根據(jù)示例實(shí)施例的識別令牌和相似令牌的圖；
[0043]圖12是示出了根據(jù)示例實(shí)施例的識別令牌、相似令牌和外圍令牌的圖；
[0044]圖13是示出了根據(jù)示例性實(shí)施例的令牌網(wǎng)絡(luò)的圖；以及
[0045]圖14是示出了根據(jù)示例性實(shí)施例的在令牌網(wǎng)絡(luò)上的最佳搜索結(jié)果的圖。
【具體實(shí)施方式】
[0046]下面將詳細(xì)參考示例實(shí)施例，示例實(shí)施例的示例在附圖中示出，其中全文中相同的附圖標(biāo)記指代相同的元件。下文通過參照附圖描述實(shí)施例以解釋本公開。
[0047]本文中參照屬于示例實(shí)施例(以及中間結(jié)構(gòu))的示意性說明的典型實(shí)現(xiàn)來描述示例性實(shí)施例。因此，示例實(shí)施例不應(yīng)當(dāng)被解釋為對本文中示出的區(qū)域的具體形狀的限制。然而，這些發(fā)明構(gòu)思按不同的形式來實(shí)現(xiàn)，并且本領(lǐng)域技術(shù)人員可以認(rèn)識到，在不背離發(fā)明構(gòu)思的原則和精神的前提下可以實(shí)現(xiàn)這些示例實(shí)施例的修改本發(fā)明構(gòu)思的范圍由權(quán)利要求及其等同體來限定。另外，由于不必要的細(xì)節(jié)會模糊本公開，因此不對熟知的功能或結(jié)構(gòu)進(jìn)行詳細(xì)描述。
[0048]處理器通?？梢员慌渲脼樨?fù)責(zé)對裝置進(jìn)行控制，并且可以與中央處理單元(CPU)、微處理器、控制器等等混合使用。處理器可以被配置為控制裝置的全部操作，并且可以通過單片系統(tǒng)(SOC)或片上系統(tǒng)(SoC)來實(shí)現(xiàn)。
[0049]圖1是示出了根據(jù)示例實(shí)施例的語音識別裝置的配置的框圖。參照圖1，語音識別裝置100可以包括語音識別器110、處理器120、令牌(token)網(wǎng)絡(luò)生成器130和存儲單元140。
[0050]語音識別器110可以識別用戶話語。例如，響應(yīng)于輸入用戶話語，語音識別器110可以識別用戶話語并且向處理器120提供識別結(jié)果。處理器120可以生成針對用戶話語的文本數(shù)據(jù)。在該示例中，語音識別器110可以包括語音識別傳感器，該語音識別傳感器包括麥克風(fēng)等等。通過語音識別器110來識別用戶話語的詳細(xì)方法可以使用現(xiàn)有技術(shù)。因此，將省略語音識別的詳細(xì)描述。
[0051]存儲單元140可以存儲信息，例如語音識別裝置的操作需要的各種程序或數(shù)據(jù)。例如，存儲單元140可以存儲作為在語音

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5