語音識別系統(tǒng)及其語音識別方法
【專利摘要】一種語音識別系統(tǒng)及其語音識別方法。一種裝置通過使用喚醒關(guān)鍵字模型從接收到的用戶的語音信號中檢測喚醒關(guān)鍵字,向語音識別服務(wù)器發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的用戶的語音信號。語音識別服務(wù)器通過根據(jù)喚醒關(guān)鍵字被檢測到或未被檢測到設(shè)置語音識別模型來對用戶的語音信號執(zhí)行識別處理。
【專利說明】語音識別系統(tǒng)及其語音識別方法
[0001 ] 本申請要求2015年3月13日提交的第62/132,909號美國臨時(shí)專利申請和2016年I月29日提交到韓國知識產(chǎn)權(quán)局的第10-2016-0011838號韓國專利申請的權(quán)利,其公開的內(nèi)容全部通過引用被合并于此。
技術(shù)領(lǐng)域
[0002]與示例性實(shí)施例一致的設(shè)備和方法涉及語音識別,更具體地,涉及基于喚醒關(guān)鍵字的語音識別。
【背景技術(shù)】
[0003]具有語音識別的智能裝置的數(shù)量正穩(wěn)定地增加,其中,所述語音識別用于使裝置的功能能夠通過使用用戶的語音信號而被執(zhí)行。
[0004]為了啟用裝置的語音識別功能,需要激活裝置的語音識別功能。通過使用固定的喚醒關(guān)鍵字來激活相關(guān)技術(shù)的語音識別功能。相應(yīng)地,當(dāng)具有相同的語音識別功能的多個(gè)裝置彼此接近地存在時(shí),無意的裝置的語音識別功能會被使用固定的喚醒關(guān)鍵字的用戶激活。
[0005]此外,相關(guān)技術(shù)的語音識別功能分別處理用戶的喚醒關(guān)鍵字和語音命令。因此,在輸入喚醒關(guān)鍵字之后,用戶需要在裝置的語音識別功能被激活之后輸入語音命令。如果用戶針對相同的裝置或不同的裝置連續(xù)地或大體上同時(shí)輸入喚醒關(guān)鍵字和語音命令,則相關(guān)技術(shù)的語音識別功能會不被正確激活或被正確激活,或者雖然語音識別功能被激活但是會發(fā)生針對輸入語音命令的語音識別錯(cuò)誤。
[0006]因此,需要在可靠地發(fā)起裝置的語音識別功能時(shí)能夠準(zhǔn)確地識別用戶語音命令的方法和裝置。
【發(fā)明內(nèi)容】
[0007]示例性實(shí)施例至少解決上面的問題和/或上面的缺點(diǎn)和未在上面描述的其他缺點(diǎn)。此外,不要求示例性實(shí)施例克服上面描述的缺點(diǎn),示例性實(shí)施例可不克服上面描述的任何問題。
[0008]—個(gè)或更多個(gè)示例性實(shí)施例提供連續(xù)地識別個(gè)性化的喚醒關(guān)鍵字和語音命令的連續(xù)和準(zhǔn)確的語音識別功能。
[0009]—個(gè)或更多個(gè)示例性實(shí)施例提供通過使用個(gè)性化的喚醒關(guān)鍵字而被更有效地激活的語音識別功能。
[0010]—個(gè)或更多個(gè)示例性實(shí)施例提供通過根據(jù)基于裝置的環(huán)境信息使用個(gè)性化的喚醒關(guān)鍵字而被更有效地激活的語音識別功能。
[0011 ]根據(jù)示例性實(shí)施例的一方面,一種裝置包括:音頻輸入單元,被配置為接收用戶的語音信號;存儲器,被配置為存儲喚醒關(guān)鍵字模型;通信器,被配置為與語音識別服務(wù)器通信;處理器,被配置為當(dāng)通過音頻輸入單元接收到用戶的語音信號時(shí),通過使用喚醒關(guān)鍵字模型從用戶的語音信號中識別喚醒關(guān)鍵字,經(jīng)由通信器向語音識別服務(wù)器發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號,經(jīng)由通信器從語音識別服務(wù)器接收語音識別結(jié)果,并根據(jù)語音識別結(jié)果控制裝置。
[0012]根據(jù)示例性實(shí)施例的一方面,一種語音識別服務(wù)器包括:通信器,被配置為與至少一個(gè)裝置通信;存儲器,被配置為存儲喚醒關(guān)鍵字模型和語音識別模型;處理器,被配置為當(dāng)經(jīng)由通信器從至少一個(gè)裝置中選擇的一個(gè)裝置接收喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號時(shí)設(shè)置與喚醒關(guān)鍵字模型相組合的語音識別模型,通過使用設(shè)置的語音識別模型來識別用戶的語音信號,將喚醒關(guān)鍵字從針對用戶的語音信號的語音識別結(jié)果中移除,并經(jīng)由通信息向裝置發(fā)送喚醒關(guān)鍵字被移除的語音識別結(jié)果。
[0013]根據(jù)示例性實(shí)施例的一方面,一種語音識別系統(tǒng)包括:裝置,被配置為從用戶的語音信號中檢測喚醒關(guān)鍵字;語音識別服務(wù)器,被配置為當(dāng)從裝置接收到喚醒關(guān)鍵字被檢測至IJ/未被檢測到信號和用戶的語音信號時(shí)設(shè)置與喚醒關(guān)鍵字模型相組合的語音識別模型,通過使用設(shè)置的語音識別模型來識別用戶的語音信號,并向裝置發(fā)送語音識別結(jié)果。
[0014]根據(jù)示例性實(shí)施例的一方面,一種由裝置執(zhí)行的語音識別方法,包括:當(dāng)用戶的語音信號被接收到時(shí),通過使用喚醒關(guān)鍵字模型從用戶的語音信號中檢測喚醒關(guān)鍵字;向語音識別服務(wù)器發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號;從語音識別服務(wù)器接收識別用戶的語音信號的結(jié)果;根據(jù)識別用戶的語音信號的結(jié)果來控制裝置。
[0015]根據(jù)示例性實(shí)施例的一方面,一種由語音識別服務(wù)器執(zhí)行的語音識別方法,包括:從裝置接收喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號;根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型;通過使用設(shè)置的語音識別模型來識別用戶的語音信號;將喚醒關(guān)鍵字從識別用戶的語音信號的結(jié)果中移除;向裝置發(fā)送喚醒關(guān)鍵字被移除的識別用戶的語音信號的結(jié)果。
[0016]喚醒關(guān)鍵字模型是基于各種各樣的環(huán)境信息的多個(gè)喚醒關(guān)鍵字模型中的一個(gè)喚醒關(guān)鍵字模型,所述方法還包括:從裝置接收與裝置有關(guān)的環(huán)境信息,設(shè)置語音識別模型的步驟包括:設(shè)置與多個(gè)喚醒關(guān)鍵字模型中對應(yīng)于裝置的環(huán)境信息的喚醒關(guān)鍵字模型相組合的語音識別模型。
[0017]所述方法還包括從裝置接收用戶的標(biāo)識信息,其中,設(shè)置語音識別模型的步驟包括:設(shè)置與基于裝置的環(huán)境信息和用戶的標(biāo)識信息的喚醒關(guān)鍵字模型相組合的語音識別模型。
[0018]根據(jù)示例性實(shí)施例的一方面,一種由語音識別系統(tǒng)執(zhí)行的語音識別方法,包括:在裝置和語音識別服務(wù)器中登記喚醒關(guān)鍵字模型;當(dāng)通過裝置接收到用戶的語音信號時(shí)通過使用喚醒關(guān)鍵字模型從用戶的語音信號中檢測喚醒關(guān)鍵字;將喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號從裝置發(fā)送到語音識別服務(wù)器;由語音識別服務(wù)器根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型;由語音識別服務(wù)器通過使用設(shè)置的語音識別模型來識別用戶的語音信號;由語音識別服務(wù)器將喚醒關(guān)鍵字從識別用戶的語音信號的結(jié)果中移除;將喚醒關(guān)鍵字被移除的識別用戶的語音信號的結(jié)果從語音識別服務(wù)器發(fā)送到裝置;由裝置根據(jù)接收到的識別用戶的語音信號的結(jié)果來控制裝置。
[0019]根據(jù)示例性實(shí)施例的一方面,一種裝置,包括:音頻輸入接收器,被配置為從用戶接收音頻信號,所述音頻信號包括喚醒關(guān)鍵字;存儲器,被配置為存儲用于從接收到的音頻信號中識別喚醒關(guān)鍵字的喚醒關(guān)鍵字模型;處理器,被配置為執(zhí)行以下操作:通過將包括在接收到的音頻信號中的喚醒關(guān)鍵字與存儲的喚醒關(guān)鍵字模型相匹配從接收到的音頻信號中檢測喚醒關(guān)鍵字,基于匹配的結(jié)果來產(chǎn)生指示喚醒關(guān)鍵字是否已經(jīng)被檢測到的檢測值,向服務(wù)器發(fā)送檢測值和接收到的音頻信號,從服務(wù)器接收基于檢測值轉(zhuǎn)化的音頻信號的語音識別結(jié)果,并基于語音識別結(jié)果在執(zhí)行裝置功能時(shí)控制裝置的可執(zhí)行應(yīng)用。
[0020]檢測值指示已經(jīng)在接收到的音頻信號中檢測到喚醒關(guān)鍵字,處理器被配置為接收包括用于執(zhí)行應(yīng)用的用戶命令的語音識別結(jié)果,其中,在語音識別結(jié)果中不存在喚醒關(guān)鍵字本身。
[0021]音頻輸入接收器被配置為預(yù)先接收包含各個(gè)關(guān)鍵字的各個(gè)用戶輸入,其中,所述各個(gè)關(guān)鍵字與對裝置的可執(zhí)行應(yīng)用的控制相關(guān),并且存儲器被配置為存儲基于接收到的各個(gè)關(guān)鍵字的喚醒關(guān)鍵字模型。
[0022]根據(jù)示例性實(shí)施例的一方面,一種方法包括:在第一存儲器中存儲用于識別喚醒關(guān)鍵字的喚醒關(guān)鍵字模型;從用戶接收音頻信號,所述音頻信號包括喚醒關(guān)鍵字;通過將包括在接收到的音頻信號中的喚醒關(guān)鍵字與存儲的喚醒關(guān)鍵字模型相匹配從接收到的音頻信號中檢測喚醒關(guān)鍵字;基于匹配的結(jié)果來產(chǎn)生指示喚醒關(guān)鍵字是否已經(jīng)被檢測到的檢測值;向服務(wù)器發(fā)送檢測值和接收到的音頻信號;從服務(wù)器接收基于檢測值轉(zhuǎn)化的音頻信號的語音識別結(jié)果;基于語音識別結(jié)果在執(zhí)行裝置應(yīng)用時(shí)控制裝置的可執(zhí)行應(yīng)用。
[0023]所述方法還包括:在第二存儲器中存儲用于轉(zhuǎn)化用戶的音頻信號的語音識別模型和與存儲在第一存儲器中的喚醒關(guān)鍵字模型同步的喚醒關(guān)鍵字模型,其中,接收語音識別結(jié)果的步驟包括:由裝置從檢測值中識別音頻信號是否包含喚醒關(guān)鍵字;由服務(wù)器響應(yīng)于指示音頻信號包含喚醒關(guān)鍵字的檢測值基于組合模型將音頻信號轉(zhuǎn)化為語音識別結(jié)果,其中,在組合模型中語音識別模型與各自的喚醒關(guān)鍵字模型相組合。
[0024]接收語音識別結(jié)果的步驟還包括:由服務(wù)器通過將喚醒關(guān)鍵字從語音識別結(jié)果中移除來產(chǎn)生語音識別結(jié)果,從服務(wù)器接收喚醒關(guān)鍵字已經(jīng)被移除的音頻信號的語音識別結(jié)果;其中,控制的步驟包括:根據(jù)喚醒關(guān)鍵字已經(jīng)被移除的語音識別結(jié)果來控制裝置的可執(zhí)行應(yīng)用。
[0025]所述轉(zhuǎn)化的步驟包括:響應(yīng)于指示音頻信號不包含喚醒關(guān)鍵字的檢測值,通過僅使用語音識別模型將音頻信號轉(zhuǎn)化為語音識別結(jié)果。
【附圖說明】
[0026]上述和/或其他方面將通過參照附圖描述特定的示例性實(shí)施例而變得更加清楚,在附圖中:
[0027]圖1是描述根據(jù)示例性實(shí)施例的語音識別系統(tǒng)的示圖;
[0028]圖2是根據(jù)示例性實(shí)施例的語音識別方法的流程圖,其中,基于包括在語音識別系統(tǒng)中的裝置和語音識別服務(wù)器來執(zhí)行所述語音識別方法;
[0029]圖3是根據(jù)示例性實(shí)施例的在語音識別方法中登記喚醒關(guān)鍵字模型的處理的流程圖;
[0030]圖4是根據(jù)示例性實(shí)施例的在語音識別方法中登記喚醒關(guān)鍵字模型的另一處理的流程圖;
[0031]圖5A和圖5B示出根據(jù)示例性實(shí)施例的顯示在包括在語音識別系統(tǒng)中的裝置的顯示器上的候選喚醒關(guān)鍵字模型的示例;
[0032]圖6和圖7是根據(jù)示例性實(shí)施例的語音識別方法的流程圖,其中,基于包括在語音識別系統(tǒng)中的裝置和語音識別服務(wù)器來執(zhí)行所述語音識別方法;
[0033]圖8是根據(jù)示例性實(shí)施例的由裝置執(zhí)行的語音識別方法的流程圖;
[0034]圖9和圖10是根據(jù)示例性實(shí)施例的包括在語音識別系統(tǒng)中的裝置的配置示圖;
[0035]圖11是根據(jù)示例性實(shí)施例的包括在語音識別系統(tǒng)中的語音識別服務(wù)器的配置示圖;
[0036]圖12是根據(jù)示例性實(shí)施例的語音識別系統(tǒng)的配置示圖。
【具體實(shí)施方式】
[0037]下面將參照附圖更詳細(xì)地描述特定的示例性實(shí)施例。
[0038]在下面的描述中,即使在不同的附圖中,同樣的附圖標(biāo)號用于同樣的元件。提供在描述中限定的事項(xiàng)(諸如,詳述的構(gòu)造和元件)以幫助全面理解示例性實(shí)施例。然而,顯然可在不存在那些具體限定的事項(xiàng)的情況下來實(shí)施示例性實(shí)施例。此外,由于公知的功能或構(gòu)造將在不必要的細(xì)節(jié)上使描述模糊,因此不詳細(xì)描述公知的功能或構(gòu)造。
[0039]如這里所使用,術(shù)語“和/或”包括一個(gè)或多個(gè)相關(guān)聯(lián)的列出的項(xiàng)目的任何及所有組合。
[0040]將理解,當(dāng)區(qū)域被稱為“被連接到”或“被耦合到”另一區(qū)域時(shí),區(qū)域可被直接連接或耦合到所述另一區(qū)域或者可存在居間區(qū)域。將理解,當(dāng)在這里被使用時(shí),諸如“包括”和“具有”的術(shù)語指定存在聲明的元件,但不排除存在或附加一個(gè)或更多個(gè)其他元件。
[0041]這里使用的術(shù)語“喚醒關(guān)鍵字”指的是能夠激活或發(fā)起語音識別功能的信息。這里使用的喚醒關(guān)鍵字可指的是喚醒單詞。這里使用的喚醒關(guān)鍵字可基于用戶的語音信號,但不限于此。例如,這里使用的喚醒關(guān)鍵字可包括基于用戶的手勢的聲音(或音頻信號)。
[0042 ]基于用戶的手勢的聲音可包括例如當(dāng)用戶使他/她的手指撞擊在一起時(shí)產(chǎn)生的聲音。基于用戶的手勢的聲音可包括例如當(dāng)用戶哂他/她的舌頭時(shí)產(chǎn)生的聲音?;谟脩舻氖謩莸穆曇艨砂ɡ缬脩舻臍g笑的聲音?;谟脩舻氖謩莸穆曇艨砂ɡ绠?dāng)用戶的嘴唇顫抖時(shí)產(chǎn)生的聲音?;谟脩舻氖謩莸穆曇艨砂ɡ缬脩舻目谏诘穆曇??;谟脩舻氖謩莸穆曇舨幌抻谏鲜龅哪切┞曇?。
[0043]當(dāng)這里使用的喚醒關(guān)鍵字包括基于用戶的手勢的聲音時(shí),喚醒關(guān)鍵字可指示喚醒關(guān)鍵字信號。
[0044]這里使用的喚醒關(guān)鍵字模型指的是被預(yù)登記在裝置和/或語音識別服務(wù)器中的喚醒關(guān)鍵字,以便檢測或識別喚醒關(guān)鍵字。喚醒關(guān)鍵字模型可包括個(gè)性化聽覺模型和/或個(gè)性化語言模型,但不限于此。聽覺模型將用戶的語音的信號特征(或基于用戶的手勢的聲音)建模。語言模型將單詞的語言順序或與識別詞匯相應(yīng)的音節(jié)建模。
[0045]由于登記在裝置中的喚醒關(guān)鍵字模型用于檢測喚醒關(guān)鍵字,所以這里使用的喚醒關(guān)鍵字模型可指的是用于喚醒關(guān)鍵字檢測的模型。由于登記在語音識別服務(wù)器中的喚醒關(guān)鍵字模型用于檢測喚醒關(guān)鍵字,所以這里使用的喚醒關(guān)鍵字模型可指示用于喚醒關(guān)鍵字識別的模型。
[0046]用于關(guān)鍵字檢測的模型和用于喚醒關(guān)鍵字識別的模型可彼此相同或彼此不同。例如,當(dāng)用戶喚醒關(guān)鍵字檢測的模型包括與個(gè)性化的喚醒關(guān)鍵字“你好”相應(yīng)的聽覺模型時(shí),用于喚醒關(guān)鍵字識別的模型可包括例如與個(gè)性化的喚醒關(guān)鍵字“你好”和與喚醒關(guān)鍵字相關(guān)聯(lián)并標(biāo)識喚醒關(guān)鍵字的標(biāo)簽(例如,“!”)相應(yīng)的聽覺模型。用于喚醒關(guān)鍵字檢測的模型和用于喚醒關(guān)鍵字識別的模型不限于上面描述的那些模型。
[0047]用于喚醒關(guān)鍵字檢測的模型和用于喚醒關(guān)鍵字識別的模型可被稱為喚醒關(guān)鍵字模型。然而,登記在裝置中的喚醒關(guān)鍵字模型可被理解為用于喚醒關(guān)鍵字檢測的模型,登記在語音識別服務(wù)器中的喚醒關(guān)鍵字模型可被理解為用于喚醒關(guān)鍵字識別的模型。
[0048]可由裝置或語音識別服務(wù)器來產(chǎn)生喚醒關(guān)鍵字模型。裝置或語音識別服務(wù)器可發(fā)送和接收數(shù)據(jù),從而彼此共享產(chǎn)生的喚醒關(guān)鍵字模型。
[0049]這里使用的語音識別功能可的是將用戶的語音信號轉(zhuǎn)換為字符串或文本。文本可以是人類可感知的短語、句子或一組單詞。用戶的語音信號可包括語音命令。語音命令可執(zhí)行裝置的具體功能。
[0050]這里使用的裝置的具體功能可包括執(zhí)行設(shè)置在裝置中的可執(zhí)行應(yīng)用,但不限于此。
[0051]例如,當(dāng)裝置是智能電話時(shí),應(yīng)用的執(zhí)行操作可包括電話呼叫、路線尋找、互聯(lián)網(wǎng)瀏覽、鬧鐘設(shè)置和/或在智能電話中可用的任何其他合適的可執(zhí)行功能。當(dāng)裝置是智能電視機(jī)(TV)時(shí),應(yīng)用的執(zhí)行操作可包括程序搜索、頻道搜索、互聯(lián)網(wǎng)瀏覽和/或可在智能TV中獲得的任何其他合適的可執(zhí)行功能。當(dāng)裝置是智能烤箱時(shí),應(yīng)用的執(zhí)行操作可包括食譜搜索等。當(dāng)裝置是智能冰箱時(shí),應(yīng)用的執(zhí)行操縱可包括制冷狀態(tài)檢查、冷凍狀態(tài)檢查等。當(dāng)裝置是智能車輛時(shí),應(yīng)用的執(zhí)行操作可包括自動啟動、自動巡航、自動停車、自動媒體裝置開啟和關(guān)閉、自動空氣控制等。可執(zhí)行應(yīng)用的上述示例不限于此。
[0052]這里使用的語音命令可以是單詞、句子或短語。這里使用的語音識別模型可包括個(gè)性化的聽覺模型和/或個(gè)性化的語言模型。
[0053]圖1是用于描述根據(jù)示例性實(shí)施例的語音識別系統(tǒng)10的示圖。語音識別系統(tǒng)10可包括裝置100和語音識別服務(wù)器110。
[0054]裝置100可從用戶101接收語音信號,其中,語音信號可包括喚醒關(guān)鍵字和語音命令。裝置100可通過使用喚醒關(guān)鍵字模型從接收到的用戶101的語音信號中檢測喚醒關(guān)鍵字。裝置100可預(yù)先產(chǎn)生喚醒關(guān)鍵字模型并且在裝置100中登記并存儲產(chǎn)生的喚醒關(guān)鍵字模型。裝置100可向語音識別服務(wù)器110發(fā)送產(chǎn)生的喚醒關(guān)鍵字模型。作為另一示例,裝置100可存儲已經(jīng)從語音識別服務(wù)器110接收到的喚醒關(guān)鍵字模型。
[0055]裝置100可使用登記的喚醒關(guān)鍵字模型或喚醒關(guān)鍵字模型從接收到的用戶101的語音信號中檢測喚醒關(guān)鍵字。然而,從裝置100接收到的用戶101的語音信號可能不包括喚醒關(guān)鍵字或者裝置100可能不能夠?qū)拘殃P(guān)鍵字與存儲的喚醒關(guān)鍵字模型相匹配。
[0056]裝置100可產(chǎn)生喚醒關(guān)鍵字被檢測到/未被檢測到信號,并向語音識別服務(wù)器110發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的用戶101的語音信號。喚醒關(guān)鍵字被檢測到/未被檢測到信號是指示是否已經(jīng)中接收到的用戶101的語音信號中檢測到喚醒關(guān)鍵字的信號。
[0057]裝置100可用二進(jìn)制數(shù)據(jù)來表示喚醒關(guān)鍵字被檢測到/未被檢測到信號。當(dāng)已經(jīng)從接收到的用戶101的語音信號中檢測到喚醒關(guān)鍵字時(shí),裝置100可用例如“O”來表示喚醒關(guān)鍵字被檢測到/未被檢測到信號。當(dāng)尚未從接收到的用戶101的語音信號中檢測到喚醒關(guān)鍵字時(shí),裝置100可用例如“I”來表示喚醒關(guān)鍵字被檢測到/未被檢測到信號。
[0058]語音識別服務(wù)器110可從裝置100接收喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶101的語音信號。從裝置100接收到的用戶101的語音信號可大體上與由裝置100接收到的用戶101的語音信號相同。另外,裝置100可發(fā)送喚醒關(guān)鍵字模型。
[0059]語音識別服務(wù)器110可根據(jù)接收到的喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型。當(dāng)喚醒關(guān)鍵字被檢測到/未被檢測到信號指示喚醒關(guān)鍵字被包括在用戶101的語音信號中,語音識別服務(wù)器110可通過使用組合模型來設(shè)置語音識別模型以識別用戶101的語音信號,其中,在組合模型中語音識別模型與由服務(wù)器110存儲或接收到的喚醒關(guān)鍵字模型相組合。
[0060]在語音識別服務(wù)器110中,與語音識別模型相組合的喚醒關(guān)鍵字模型與由裝置100檢查到的喚醒關(guān)鍵字相匹配。例如,當(dāng)由裝置100檢測到的喚醒關(guān)鍵字是“你好”時(shí),語音是比服務(wù)器110可通過使用“你好+語音識別模型(例如,播放音樂)”來設(shè)置語音識別模型以識別用戶101的語音信號。當(dāng)喚醒關(guān)鍵字模型與語音識別模型相組合時(shí),語音識別服務(wù)器110可考慮喚醒關(guān)鍵字模型和語音識別模型之間的靜默持續(xù)時(shí)間。
[0061]如上所述,語音識別服務(wù)器110可通過對喚醒關(guān)鍵字和包括在用戶101的語音信號中的語音命令連續(xù)執(zhí)行識別處理來穩(wěn)定地保護(hù)用戶101的語音信號,從而提高語音識別系統(tǒng)10的語音識別性能。
[0062]當(dāng)喚醒關(guān)鍵字被檢測到/未被檢測到信號指示喚醒關(guān)鍵字未被包括在用戶101的語音信號中時(shí),語音識別服務(wù)器110可通過使用不與喚醒關(guān)鍵字模型相組合的語音識別模型來設(shè)置用于識別用戶101的語音信號的語音識別模型??蛇x擇地,語音識別服務(wù)器110可驗(yàn)證喚醒關(guān)鍵字被包括或未被包括在接收到的用戶101的語音信號中。
[0063]語音識別服務(wù)器110可根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號來動態(tài)配置(或切換)用于識別用戶101的語音的語音識別模型。因此,由語音識別服務(wù)器110執(zhí)行的根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型的操作可以是根據(jù)喚醒關(guān)鍵字被檢測到或未被檢測到來確定語音識別模型的配置。
[0064]在語音識別服務(wù)器110中設(shè)置語音識別模型的操作可包括加載語音識別模型。相應(yīng)地,喚醒關(guān)鍵字被檢測到/未被檢測到信號可被理解為包括語音識別模型加載請求信號、語音信號模型設(shè)置請求信號或語音識別模型加載觸發(fā)信號。對于這里使用的喚醒關(guān)鍵字被檢測到/未被檢測到信號的表達(dá)不限于上面描述的那些表達(dá)。
[0065]語音識別服務(wù)器110可產(chǎn)生用于識別語音命令的語音識別模型。語音識別模型可包括聽覺模型和語言模型。聽覺模型將語音的信號特征建模。語言模型將單詞的語言順序關(guān)系或與識別詞匯相應(yīng)的音節(jié)建模。
[0066]語音識別服務(wù)器110可僅從接收到的用戶101的語音信號中檢測語言部分。語音識別服務(wù)器110可從檢測到的語音部分中提取語音特征。語音識別服務(wù)器110可通過使用提取出的語音特征、預(yù)登記的聽覺模型的特征和語言模型來對于接收到的用戶101的語音信號執(zhí)行語音識別處理。語音識別服務(wù)器110可通過將提取出的語音特征與預(yù)登記的聽覺模型相比較來執(zhí)行語音識別處理。由語音識別服務(wù)器110對接收到的用戶101的語音信號執(zhí)行的語音識別處理不限于上面描述的那些語音識別處理。
[0067]語音識別服務(wù)器110可將喚醒關(guān)鍵字從語音識別處理的語音識別結(jié)果中移除。語音識別服務(wù)器110可向裝置110發(fā)送喚醒關(guān)鍵字被移除的語音識別結(jié)果。
[0068]語音識別服務(wù)器110可產(chǎn)生喚醒關(guān)鍵字模型。語音識別服務(wù)器110可向裝置100發(fā)送產(chǎn)生的喚醒關(guān)鍵字模型,同時(shí)在語音識別服務(wù)器110中登記(或存儲)產(chǎn)生的喚醒關(guān)鍵字模型。相應(yīng)地,裝置100和語音識別服務(wù)器110可彼此共享喚醒關(guān)鍵字模型。
[0069]裝置100可根據(jù)從語音識別服務(wù)器110接收到的語音識別結(jié)果來控制裝置100的功會K。
[0070]當(dāng)裝置100或語音識別服務(wù)器110產(chǎn)生多個(gè)喚醒關(guān)鍵字模型時(shí),裝置100或語音識別服務(wù)器110可將標(biāo)識信息分配給喚醒關(guān)鍵字模型中的每個(gè)喚醒關(guān)鍵字模型。當(dāng)標(biāo)識信息被分配給喚醒關(guān)鍵字模型中的每個(gè)喚醒關(guān)鍵字模型時(shí),從裝置100發(fā)送到語音識別服務(wù)器110的喚醒關(guān)鍵字被檢測到/未被檢測到信號可包括與檢測到的喚醒關(guān)鍵字有關(guān)的標(biāo)識信息。
[0071]當(dāng)裝置100是便攜式裝置時(shí),裝置100可包括以下多個(gè)項(xiàng)中的至少一個(gè)裝置:智能電話、筆記本計(jì)算機(jī)、智能圖板、平板個(gè)人計(jì)算機(jī)(PC)、手持裝置、手持計(jì)算機(jī)、多媒體播放器、電子書裝置和個(gè)人數(shù)字助理(PDA),但不限于此。
[0072]當(dāng)裝置100是可穿戴裝置時(shí),裝置100可包括以下多個(gè)項(xiàng)中的至少一個(gè)裝置:智能眼鏡、智能手表、智能帶狀物(例如,智能腰帶、智能發(fā)帶等)、各種智能配件(例如,智能戒指、智能手鐲、智能腳鐲、智能發(fā)夾、智能夾子、智能項(xiàng)鏈等)、各種身體保護(hù)裝置(例如,智能護(hù)膝、智能護(hù)肘等)、智能鞋、智能手套、智能服裝、智能帽子、智能人造腿和智能人造手,但不限于此。
[0073]裝置100可包括基于機(jī)器對機(jī)器(M2M)或物聯(lián)(1T)網(wǎng)的裝置(例如,智能家用電器、智能傳感器等)、車輛和車輛導(dǎo)航裝置,但不限于此。
[0074]裝置100和語音識別服務(wù)器110可經(jīng)由有線和/或無線網(wǎng)絡(luò)被彼此連接。裝置100和語音識別服務(wù)器110可經(jīng)由短距離無線網(wǎng)絡(luò)和/或長距離無線網(wǎng)絡(luò)被彼此連接。
[0075]圖2是根據(jù)示例性實(shí)施例的語音識別方法的流程圖,其中,基于包括在語音識別系統(tǒng)10中的裝置100和語音識別服務(wù)器110來執(zhí)行語音識別方法。圖2示出基于用戶101的語音信號來執(zhí)行語音識別的情況。
[0076]參照圖2,在操作S201中,如下面參照圖3和圖4的詳細(xì)描述,裝置100可登記喚醒關(guān)鍵字模型。
[0077]圖3是根據(jù)示例性實(shí)施例的在語音識別方法中登記喚醒關(guān)鍵字模型的流程圖。
[0078]參照圖3,在操作S301中,裝置100可接收用戶101的語音信號。在操作S301中接收到的用戶101的語音信號用于登記喚醒關(guān)鍵字模型。在操作S301中,裝置100可接收基于用戶101的具體手勢而不是用戶101的語音信號的聲音(或音頻信號)。
[0079]在操作S302中,裝置100可通過使用語音識別模型來識別用戶101的語音信號。語音識別模型可包括基于自動語音識別(ASR)的聽覺模型和/或語言模型,但不限于此。
[0080]在操作S303中,裝置100可基于用戶101的語音信號的語音匹配率來確定接收到的用戶101的語音信號是否有效作為喚醒關(guān)鍵字模型。
[0081]例如,在裝置100識別用戶101的語音信號兩次或更多次并比較識別結(jié)果的情況下,如果一致的結(jié)果出現(xiàn)預(yù)設(shè)次數(shù)或更多次數(shù),則裝置100可確定接收到的用戶101的語音信號作為喚醒關(guān)鍵字模型是有效的。
[0082]當(dāng)在操作S303中確定接收到的用戶101的語音信號是有效的作為喚醒關(guān)鍵字模型時(shí),在操作S304中,裝置100在裝置100中產(chǎn)生和/或登記喚醒關(guān)鍵字模型。對于喚醒關(guān)鍵字模型的登記的步驟可意指在裝置100中存儲喚醒關(guān)鍵字模型。
[0083]在操作S303中,在裝置100識別用戶101的語音信息號兩次或更多次并比較識別結(jié)果的情況下,如果一致的識別結(jié)果的次數(shù)低于預(yù)設(shè)次數(shù),則裝置100可確定接收到的用戶101的語音信號作為喚醒關(guān)鍵字模型是無效的。
[0084]當(dāng)在操作S303中確定接收到的用戶101的語音信號作為喚醒關(guān)鍵字模型是無效的時(shí),裝置100不將接收到的用戶101的語音信號登記為喚醒關(guān)鍵字模型。
[0085]當(dāng)在操作S303中確定接收到的用戶101的語音信號作為喚醒關(guān)鍵字模型是無效的時(shí),裝置100可輸出通知消息。通知消息可具有各種形式和內(nèi)容。例如,通知消息可包括指示“當(dāng)前輸入的用戶101的語音信號未被登記為喚醒關(guān)鍵字模型”的消息。通知消息可包括引導(dǎo)用戶101輸入可被登記為喚醒關(guān)鍵字模型的語音信號。
[0086]圖4是根據(jù)示例性實(shí)施例的在語音識別方法中登記喚醒關(guān)鍵字模型的流程圖。
[0087]在操作S401中,裝置100可請求這里存儲的候選喚醒關(guān)鍵字模型。對于候選關(guān)鍵字模型的請求可基于用戶101的語音信號,但不限于此。例如,裝置100可根據(jù)裝置100的具體按鈕控制(或?qū)S冒粹o)或基于觸摸的輸入來接收請求候選喚醒關(guān)鍵字模型的用戶輸入。
[0088]在操作S402中,裝置100可輸出候選喚醒關(guān)鍵字模型。裝置100可通過裝置100的顯示器來輸出候選喚醒關(guān)鍵字模型。
[0089 ]圖5A和圖5B示出根據(jù)示例性實(shí)施例的在語音識別系統(tǒng)1中所包括的裝置100的顯示器上顯示的候選喚醒關(guān)鍵字模型的示例。
[0090]圖5A示出顯示在裝置100的顯示器98上的候選喚醒關(guān)鍵字模型列表的示例。參照圖5A,以文本的形式提供候選喚醒關(guān)鍵字模型。
[0091]當(dāng)基于圖5A中示出的候選喚醒關(guān)鍵字模型列表選擇第一候選喚醒關(guān)鍵字模型的基于觸摸的輸入被接收到時(shí),如圖5B中所示,裝置100可輸出與被選擇的第一候選喚醒關(guān)鍵字相應(yīng)的音頻信號,同時(shí)顯示選擇的第一候選喚醒關(guān)鍵字模型的語音波形。相應(yīng)地,在選擇喚醒關(guān)鍵字模型之前,用戶101可確認(rèn)將被選擇的候選關(guān)鍵字模型。
[0092]在操作S402中,裝置100可通過裝置100的音頻輸出發(fā)送器(例如,揚(yáng)聲器)來輸出候選喚醒關(guān)鍵字模型。
[0093]當(dāng)在操作S403中選擇候選喚醒關(guān)鍵字模型中的一個(gè)候選喚醒關(guān)鍵字模型的選擇信號被接收到時(shí),在操作S404中,裝置100可自動產(chǎn)生和/或登記選擇的候選喚醒關(guān)鍵字模型。作為另一示例,裝置100可請求與選擇的候選喚醒關(guān)鍵字模型相應(yīng)的用戶101的語音信號的輸入,產(chǎn)生接收到的用戶101的語音信號作為喚醒關(guān)鍵字模型,并且/或者登記喚醒關(guān)鍵字模型。
[0094]再次參照圖2,在操作S201中,裝置100可為語音識別服務(wù)器110設(shè)置通信信道,并在經(jīng)由設(shè)置的通信信道向語音識別服務(wù)器110發(fā)送接收到的用戶101的語音信號的同時(shí)請求喚醒關(guān)鍵字模型。相應(yīng)地,裝置100可接收由語音識別服務(wù)器110產(chǎn)生的喚醒關(guān)鍵字模型。
[0095]在操作S202中,語音識別服務(wù)器110可登記喚醒關(guān)鍵字模型。在操作S202中,語音識別服務(wù)器110可登記從裝置100接收到的喚醒關(guān)鍵字模型,但是,在語音識別服務(wù)器110中登記喚醒關(guān)鍵字模型的方法不限于上面描述的那些方法。
[0096]例如,語音識別服務(wù)器110可請求裝置100發(fā)送喚醒關(guān)鍵字模型并接收喚醒關(guān)鍵字模型。為此,語音識別服務(wù)器110可監(jiān)控裝置100。語音識別服務(wù)器110可周期性地監(jiān)控裝置100。
[0097]在操作S202中,當(dāng)喚醒關(guān)鍵字模型被登記時(shí),語音識別服務(wù)器110可向喚醒關(guān)鍵字模型添加標(biāo)識喚醒關(guān)鍵字的標(biāo)簽??捎锰貏e的符號(例如,!)來表示標(biāo)簽,但不限于此。
[0098]在操作S202中,登記在語音識別服務(wù)器110中的喚醒關(guān)鍵字模型可與登記在裝置100中的喚醒關(guān)鍵字模型同步。當(dāng)?shù)怯浽谘b置100中的喚醒關(guān)鍵字模型被更新時(shí),登記在語音識別服務(wù)器110中的喚醒關(guān)鍵字模型可被更新。
[0099]作為另一示例,在操作S202中,在操作S201之前,語音識別服務(wù)器110可從裝置100
接收用戶101的語音信號并且產(chǎn)生并登記喚醒關(guān)鍵字模型。如上面參照圖3或圖4的描述,語音識別服務(wù)器110可產(chǎn)生喚醒關(guān)鍵字模型。
[0100]在操作S203中,裝置100可接收用戶101的語音信號。在操作S204中,裝置100可通過使用登記的喚醒關(guān)鍵字模型從接收到的用戶100的語音信號中檢測喚醒關(guān)鍵字。裝置100可通過在登記的喚醒關(guān)鍵字模型和接收到的用戶101的語音信號之間比較信號特征相比較來檢測喚醒關(guān)鍵字。
[0101]在操作S205中,裝置100可向語音識別服務(wù)器110發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的用戶101的語音信號。
[0102]在操作S206中,語音識別服務(wù)器110可根據(jù)接收到的喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型。對于語音識別模型的設(shè)置可與參照圖1的描述相同。也就是說,當(dāng)喚醒關(guān)鍵字被檢測到/未被檢測到信號指示喚醒關(guān)鍵字已經(jīng)被檢測到時(shí),語音識別服務(wù)器110可設(shè)置與喚醒關(guān)鍵字模型相組合的語音識別模型。當(dāng)喚醒關(guān)鍵字被檢測到/未被檢測到信號指示喚醒關(guān)鍵字尚未被檢測到時(shí),語音識別服務(wù)器110可設(shè)置不與喚醒關(guān)鍵字模型相組合的語音識別模型。
[0103]在操作S207中,語音識別服務(wù)器110可通過使用設(shè)置的語音識別模型來識別接收到的用戶101的語音信號。在操作S208中,語音識別服務(wù)器110可將喚醒關(guān)鍵字從語音識別結(jié)果中移除。當(dāng)喚醒關(guān)鍵字模型被登記時(shí),語音識別服務(wù)器110可通過使用被添加到喚醒關(guān)鍵字的標(biāo)簽來將喚醒關(guān)鍵字從語音識別結(jié)果中移除。
[0104]在操作S209中,語音識別服務(wù)器110可向裝置100發(fā)送喚醒關(guān)鍵字被移除的語音識別結(jié)果。在操作S210中,裝置100可根據(jù)接收到的語音識別結(jié)果來控制裝置100。
[0105]圖6是根據(jù)示例性實(shí)施例的語音識別方法的流程圖,其中,基于包括在語音識別系統(tǒng)10中的裝置100和語音識別服務(wù)器110來執(zhí)行語音識別方法。圖6示出通過使用根據(jù)基于裝置100的環(huán)境信息的喚醒關(guān)鍵字模型來執(zhí)行的語音識別的示例。
[0106]在操作S601中,裝置100可基于環(huán)境信息來登記多個(gè)喚醒關(guān)鍵字模型。環(huán)境信息可包括位置信息。位置信息可包括物理位置信息和邏輯位置信息。物理位置信息指示由瑋度和經(jīng)度表示的信息。邏輯位置信息指示由語義信息(諸如,家、辦公室或咖啡廳)表示的信息。環(huán)境信息可包括天氣信息。環(huán)境信息可包括時(shí)間信息。環(huán)境信息可包括日程信息。環(huán)境信息可包括位置、時(shí)間、天氣和/或日程信息。環(huán)境信息不限于此,環(huán)境信息可包括直接或間接影響用戶1I的狀況信息或情況信息。
[0107]例如,裝置100可以以不同方式登記當(dāng)裝置100的位置是家時(shí)的喚醒關(guān)鍵字模型和當(dāng)裝置100的位置是辦公室時(shí)的喚醒關(guān)鍵字模型。裝置100可以以不同方式登記當(dāng)由裝置100檢測到的時(shí)間是午前6點(diǎn)時(shí)的喚醒關(guān)鍵字模型和當(dāng)由裝置100檢測到的時(shí)間是午后6點(diǎn)時(shí)的喚醒關(guān)鍵字模型。裝置100可以以不同方式登記當(dāng)由裝置100檢測到的天氣是晴時(shí)的喚醒關(guān)鍵字模型和當(dāng)由裝置100檢測到的天氣是雨時(shí)的喚醒關(guān)鍵字模型。裝置100可根據(jù)由裝置100檢測到的用戶101的日程來登記不同的喚醒關(guān)鍵字模型。
[0108]在操作S601中,裝置100基于環(huán)境信息從語音識別服務(wù)器110接收多個(gè)喚醒關(guān)鍵字模型,并且如操作S201中的描述,登記多個(gè)喚醒關(guān)鍵字模型。
[0109]在操作S602中,語音識別服務(wù)器110可基于環(huán)境信息登記多個(gè)喚醒關(guān)鍵字模型。
[0110]登記在語音識別服務(wù)器110中的多個(gè)喚醒關(guān)鍵字模型可與登記在裝置100中的多個(gè)喚醒關(guān)鍵字模型實(shí)時(shí)同步。相應(yīng)地,每當(dāng)?shù)怯浽谘b置100中的多個(gè)喚醒關(guān)鍵字模型被更新時(shí),登記在語音識別服務(wù)器110中的多個(gè)喚醒關(guān)鍵字模型可被更新。
[0111]在操作S602中,語音識別服務(wù)器110可登記從裝置100接收到的多個(gè)喚醒關(guān)鍵字模型。在操作S602中,語音識別服務(wù)器110可請求裝置100將發(fā)送多個(gè)喚醒關(guān)鍵字模型并從裝置100接收多個(gè)喚醒關(guān)鍵字模型。
[0112]在操作S602中,如操作S202中的描述,語音識別服務(wù)器110可設(shè)置裝置100和語音識別服務(wù)器110之間的通信信道并通過使用經(jīng)由設(shè)置的通信信道從裝置100接收到的用戶101的語音信號來登記基于上述環(huán)境信息的多個(gè)喚醒關(guān)鍵字模型。語音識別服務(wù)器110可向裝置100提供登記的多個(gè)喚醒關(guān)鍵字模型。
[0113]在操作S603中,裝置100可接收用戶101的語音信號。在操作S604中,裝置100可檢測基于裝置100的環(huán)境信息。裝置100可通過使用包括在裝置100中的傳感器或設(shè)置在裝置100中的應(yīng)用來檢測基于裝置100的環(huán)境信息。
[0114]例如,裝置100可通過使用包括在裝置100中的位置傳感器(例如,全球定位系統(tǒng)(GPS)傳感器)來檢測位置信息。裝置100可通過使用設(shè)置在裝置100中的計(jì)時(shí)器應(yīng)用來檢測事件信息。裝置100可通過使用設(shè)置在裝置100中的天氣應(yīng)用來檢測天氣信息。裝置100可通過使用設(shè)置在裝置100中的日程應(yīng)用來檢測用戶101的日程。
[0115]在操作S605中,裝置100可通過使用登記的多個(gè)喚醒關(guān)鍵字模型中與檢測到的環(huán)境信息相應(yīng)的喚醒關(guān)鍵字模型從接收到的用戶101的語音信號中檢測喚醒關(guān)鍵字。
[0116]例如,在家中的喚醒關(guān)鍵字模型是“你好”并且辦公室中的喚醒關(guān)鍵字模型是“很好”的情況下,如果由裝置100檢測到的裝置100的位置是辦公室,則裝置100可通過使用“很好”從接收到的用戶101的語音信號中檢測喚醒關(guān)鍵字。
[0117]在操作S606中,裝置100可向語音識別服務(wù)器110發(fā)送檢測到的環(huán)境信息、喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的用戶101的語音信號。
[0118]在操作S607中,語音識別服務(wù)器110可根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的基于裝置100的環(huán)境信息來確定喚醒關(guān)鍵字模型,并且設(shè)置與確定的喚醒關(guān)鍵字模型組合的語音識別模型。
[0119]在操作S608中,語音識別服務(wù)器110可通過使用設(shè)置的語音識別模型來識別接收到的用戶101的語音信號。在操作S609中,語音識別服務(wù)器110可將喚醒關(guān)鍵字從語音識別結(jié)果中移除。當(dāng)喚醒關(guān)鍵字模型被登記時(shí),語音識別服務(wù)器110可通過使用添加到喚醒關(guān)鍵字的標(biāo)簽來將喚醒關(guān)鍵字從語音識別結(jié)果中移除。
[0120]在操作S610中,語音識別服務(wù)器110可向裝置100發(fā)送喚醒關(guān)鍵字被移除的語音識別結(jié)果。在操作S611中,裝置100可根據(jù)接收到的語音識別結(jié)果來控制裝置100。
[0121]圖7是根據(jù)示例性實(shí)施例的語音識別方法的流程圖,其中,基于包括在語音識別系統(tǒng)10中的裝置100和語音識別服務(wù)器110來執(zhí)行語音識別方法。圖7示出通過根據(jù)用戶101的標(biāo)識信息、基于裝置100的環(huán)境信息和喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型來執(zhí)行的語音識別的示例。
[0122]在操作S701中,裝置100可基于環(huán)境信息登記多個(gè)喚醒關(guān)鍵字模型。環(huán)境信息可大體上與圖6的操作S601中的描述相同,但不限于此。在操作S701中,裝置100可登記從語音識別服務(wù)器110接收到的多個(gè)喚醒關(guān)鍵字模型。
[0123]在操作S702中,語音識別服務(wù)器110可基于環(huán)境信息和用戶101的標(biāo)識信息來登記多個(gè)喚醒關(guān)鍵字模型。例如,語音識別服務(wù)器110可基于針對用戶101的標(biāo)識信息A的環(huán)境信息來登記多個(gè)喚醒關(guān)鍵字模型。語音識別服務(wù)器110可基于針對用戶101的標(biāo)識信息B的環(huán)境信息來登記多個(gè)喚醒關(guān)鍵字模型。
[0124]可針對每個(gè)用戶將登記在語音識別服務(wù)器110中的多個(gè)喚醒關(guān)鍵字模型同步。例如,當(dāng)用戶A的多個(gè)喚醒關(guān)鍵字模型被更新時(shí),登記在語音識別服務(wù)器110中的多個(gè)喚醒關(guān)鍵字模型中的用戶A的多個(gè)喚醒關(guān)鍵字模型也被更新。
[0125]在操作S702中,語音識別服務(wù)器110可基于從裝置100接收到的用戶101的語音信號來登記喚醒關(guān)鍵字模型。在這樣的情況下,語音識別服務(wù)器110可向裝置100提供登記的多個(gè)喚醒關(guān)鍵字模型。
[0126]在操作S703中,裝置100可接收用戶101的語音信號。在操作S704中,裝置100可檢測基于裝置100的環(huán)境信息。在操作S705中,裝置100可基于接收到的用戶101的語音信號來獲取用戶101的標(biāo)識信息。用戶101的標(biāo)識信息可包括用戶101的昵稱、性別、和姓名,但不限于此。
[0127]在操作S705中,可通過使用指紋識別技術(shù)或虹膜識別技術(shù)來獲取用戶101的標(biāo)識
?目息O
[0128]在操作S706中,裝置100可通過使用登記的多個(gè)喚醒關(guān)鍵字模型中與檢測到的環(huán)境信息相應(yīng)的喚醒關(guān)鍵字模型從接收到的用戶101的語音信號中檢測喚醒關(guān)鍵字。
[0129]在操作S707中,裝置100可向語音識別服務(wù)器110發(fā)送檢測到的環(huán)境信息、用戶101的標(biāo)識信息、喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的用戶101的語音信號。
[0130]在操作S708中,語音識別服務(wù)器110可根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號、接收到的基于裝置100的環(huán)境信息和用戶101的標(biāo)識信息來確定喚醒關(guān)鍵字模型,并且設(shè)置與確定的喚醒關(guān)鍵字模型相組合的語音識別模型。
[0131]在操作S709中,語音識別服務(wù)器110可通過使用設(shè)置的語音識別模型來識別接收到的用戶101的語音信號。在操作S710中,語音識別服務(wù)器110可將喚醒關(guān)鍵字從語音識別結(jié)果中移除。當(dāng)喚醒關(guān)鍵字模型被登記時(shí),語音識別服務(wù)器110可通過使用被添加到喚醒關(guān)鍵字的標(biāo)簽來將喚醒關(guān)鍵字從語音識別結(jié)果中移除。
[0132]在操作S711中,語音識別服務(wù)器110可向裝置100發(fā)送喚醒關(guān)鍵字被移除的語音識別結(jié)果。在操作S712中,裝置100可根據(jù)接收到的語音識別結(jié)果來控制裝置100。
[0133]圖8是根據(jù)示例性實(shí)施例的由裝置100執(zhí)行的語音識別方法的流程圖。圖8示出由裝置100執(zhí)行語音識別而不考慮語音識別服務(wù)器110的情況。
[0134]在操作S801中,裝置100可登記喚醒關(guān)鍵字模型。當(dāng)喚醒關(guān)鍵字模型被登記時(shí),裝置100可將標(biāo)簽添加到喚醒關(guān)鍵字以便標(biāo)識喚醒關(guān)鍵字。在操作S801中,裝置100可從語音識別服務(wù)器110接收喚醒關(guān)鍵字模型并登記接收到的喚醒關(guān)鍵字模型。
[0135]在操作S802中,裝置100可接收用戶101的語音信號。在操作S803中,裝置100可通過使用喚醒關(guān)鍵字模型從用戶101的語音信號中檢測喚醒關(guān)鍵字。
[0136]當(dāng)在操作S804中確定喚醒關(guān)鍵字被檢測到時(shí),裝置100進(jìn)入操作S805以設(shè)置與喚醒關(guān)鍵字模型相組合的語音識別模型。在操作S806中,裝置100可通過使用語音識別模型對接收到的用戶101的語音信號執(zhí)行語音識別處理。
[0137]在操作S807中,裝置100可將喚醒關(guān)鍵字從語音識別結(jié)果中移除。裝置100可通過使用標(biāo)識喚醒關(guān)鍵字的標(biāo)簽來將喚醒關(guān)鍵字從語音識別結(jié)果中移除。在操作S808中,裝置100可根據(jù)喚醒關(guān)鍵字被移除的語音識別結(jié)果來控制裝置100。
[0138]當(dāng)在操作S804中確定喚醒關(guān)鍵字未被檢測到時(shí),裝置100進(jìn)入操作S809以設(shè)置與不與喚醒關(guān)鍵字模型相組合的語音識別模型。在操作S810中,裝置100可通過使用語音識別模型來對接收到的用戶101的語音信號執(zhí)行語音識別處理。在操作S811中,裝置100可根據(jù)語音識別結(jié)果來控制裝置100。
[0139]圖8的語音識別方法可被修改為如參照圖6描述的基于環(huán)境信息來登記多個(gè)喚醒關(guān)鍵字模型并識別語音信號。
[0140]圖2、圖6、圖7和/或圖8的語音識別方法可被修改為不考慮環(huán)境信息地登記多個(gè)關(guān)鍵字模型并且識別語音信號??舍槍γ總€(gè)用戶設(shè)置多個(gè)喚醒關(guān)鍵字模型。當(dāng)多個(gè)喚醒關(guān)鍵字模型被登記時(shí),喚醒關(guān)鍵字模型中的每個(gè)可包括能夠標(biāo)識喚醒關(guān)鍵字的標(biāo)識信息。
[0141 ]圖9是根據(jù)示例性實(shí)施例的裝置100的功能框圖。
[0142]參照圖9,裝置100可包括音頻輸入接收器910、通信器920、處理器930、顯示器940、用戶輸入接收器950和存儲器960。
[0143]音頻輸入接收器910可接收用戶101的語音信號。音頻輸入接收器910可接收基于用戶101的具體手勢的聲音(音頻信號)。
[0144]音頻輸入接收器910可接收從裝置100的外部輸入的音頻信號。音頻輸入接收器910可將接收的音頻信號轉(zhuǎn)換為電音頻信號并向處理器930發(fā)送電音頻信號。音頻出入接收器910可被配置為執(zhí)行基于各種去噪算法的操作,其中,所述去噪算法用于移除在接收外部聽覺信號的處理中產(chǎn)生的噪聲。音頻輸入接收器910可包括麥克風(fēng)。
[0145]通信器920可被配置為經(jīng)由有線和/或無線網(wǎng)絡(luò)將裝置100連接到語音識別服務(wù)器110。通信器920可被實(shí)現(xiàn)為具有大體上與將參照圖10描述的通信器1040相同的配置。
[0146]處理器930可以是控制裝置100的操作的控制器。處理器930可控制音頻輸入接收器910、通信器920、顯示器940、用戶輸入接收器950和存儲器960。當(dāng)通過音頻輸入接收器910接收到用戶101的語音信號時(shí),處理器930可使用喚醒關(guān)鍵字模型實(shí)時(shí)執(zhí)行語音識別處理。
[0147]處理器930可在存儲器960中登記喚醒關(guān)鍵字模型。處理器可在存儲器960中登記經(jīng)由通信器920從語音識別服務(wù)器110接收到的喚醒關(guān)鍵字模型。處理器930可基于用戶101的語音信號來請求喚醒關(guān)鍵字模型,同時(shí)向語音識別服務(wù)器110發(fā)送經(jīng)由音頻輸入接收器910接收到的用戶的語音信號,。
[0148]處理器930可經(jīng)由通信器920向語音識別服務(wù)器110發(fā)送登記在存儲器960中的喚醒關(guān)鍵字模型。當(dāng)經(jīng)由通信器920從語音識別服務(wù)器110接收到喚醒關(guān)鍵字模型請求信號時(shí),處理器930可向語音識別服務(wù)器110發(fā)送登記的喚醒關(guān)鍵字模型。當(dāng)在存儲器960中登記喚醒關(guān)鍵字模型的同時(shí),處理器930可向語音識別服務(wù)器110發(fā)送登記的喚醒關(guān)鍵字模型。
[0149]當(dāng)通過音頻輸入接收器910接收到用戶101的語音信號時(shí),處理器930可通過使用登記在存儲器960中的喚醒關(guān)鍵字模型從接收到的用戶101的語音信號中檢測喚醒關(guān)鍵字。處理器930可經(jīng)由通信器920向語音識別服務(wù)器110發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和接收到的用戶101的語音信號。
[0150]處理器930可經(jīng)由通信器920從語音識別服務(wù)器110接收語音識別結(jié)果。處理器930可根據(jù)接收到的語音識別結(jié)果來控制裝置100。
[0151]當(dāng)通過音頻輸入接收器910接收到用于登記喚醒關(guān)鍵字模型的音頻信號時(shí),如上所述,處理器930可基于音頻信號的匹配率來確定音頻信號是否可用作喚醒關(guān)鍵字模型。
[0152]處理器930可根據(jù)通過用戶輸入接收器950接收到的用戶輸入在存儲器960中登記從存儲在存儲器960中的候選喚醒關(guān)鍵字模型中選出的候選喚醒關(guān)鍵字模型。
[0153]根據(jù)裝置100的實(shí)現(xiàn)類型,處理器930可包括主處理器和子處理器。子處理器可被設(shè)置為低功率處理器。
[0154]顯示器940可被配置為在處理器930的控制下顯示由用戶101請求的候選喚醒關(guān)鍵字。顯示器940可包括液晶顯示器(IXD)、薄膜晶體管液晶顯示器(TFT-1XD)、有機(jī)發(fā)光二極管(OLED)、柔性顯示器、三維(3D)顯示器或電泳顯示器(EPD)。顯示器940可包括例如觸摸屏,但不限于此。
[0155]用戶輸入接收器950可被配置為接收針對裝置100的用戶輸入。用戶輸入接收器可接收請求登記喚醒關(guān)鍵字的用戶輸入,從多個(gè)候選關(guān)鍵字中選擇一個(gè)候選關(guān)鍵字的用戶輸入,和/或登記選擇的候選喚醒關(guān)鍵字的用戶輸入。通過用戶輸入接收器950接收的用戶輸入不限于此。用戶輸入接收器950可向處理器930發(fā)送接收到的用戶輸入。
[0156]存儲器960可存儲喚醒關(guān)鍵字模型。存儲器960可存儲用于處理和處理器930的控制的程序。存儲在存儲器960中的程序可包括操作系統(tǒng)(OS)和各種應(yīng)用程序。各種應(yīng)用程序可包括語音識別程序和相機(jī)程序。存儲器960可存儲有應(yīng)用程序管理的信息(例如,用戶101的喚醒關(guān)鍵字使用歷史信息)、用戶101的日程信息和/或用戶101的配置信息。
[0157]存儲在存儲器960中的程序根據(jù)其功能可包括多個(gè)模塊。所述多個(gè)模塊可包括例如移動通信模塊、無線保真(W1-Fi)模塊、藍(lán)牙模塊、數(shù)字多媒體播放(DMB)模塊、相機(jī)模塊、傳感器模塊、GPS模塊、視頻再現(xiàn)模塊、音頻再現(xiàn)模塊、電源模塊、觸摸屏模塊、用戶界面(UI)模塊和/或應(yīng)用模塊。
[0158]存儲器960可包括閃速存儲器、硬盤、多媒體卡微型存儲器、卡式存儲器(例如,SD或XD存儲器)、隨機(jī)存取存儲器(RAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、可編程只讀存儲器(PROM)、磁存儲器、磁盤或光盤。
[0159]圖10是根據(jù)示例性實(shí)施例的裝置100的框圖。
[0160]參照圖10,裝置100可包括傳感器組1010、UI 1020、存儲器1030、通信器1040、圖像處理器1050、音頻輸出發(fā)送器1060、音頻輸入接收器1070、相機(jī)1080和處理器1090。
[0161]裝置100可包括電池。電池可被包括在裝置100內(nèi)部或可被可拆卸地包括在裝置100中。電池可向包括在裝置100中的所有元件供電。可經(jīng)由通信器1040從外部電源(未示出)向裝置100供電。裝置100還可包括可連接到外部電源的連接器。
[0162]圖10中示出的包括在UI 1020中的處理器1090、顯示器1021和用戶輸入裝置1022、以及存儲器1030、音頻輸入接收器1070和通信器1040可大體上與圖9中示出的處理器930、音頻輸入接收器910、通信器920、顯示器940、用戶出入接收器950和存儲器960相似或相同。
[0163]存儲在存儲器1030中的程序根據(jù)其功能可包括多個(gè)模塊。例如,存儲在存儲器1030中的程序可包括UI模塊1031、通知模塊1032和應(yīng)用模塊1033,但不限于此。例如,如在圖9的存儲器960中,存儲在存儲器1030中的程序可包括多個(gè)模塊。
[0164]UI模塊1031可為處理器1090提供用于登記語音識別的喚醒關(guān)鍵字的圖形UI(GUI)信息、指示語音識別結(jié)果的GUI信息(例如,文本信息)和指示語音識別波形的GUI信息。處理器1090可基于從UI模塊1031接收到的GUI信息在顯示器1021上顯示屏幕。UI模塊1031可向處理器1090提供針對安裝在裝置100中的每個(gè)應(yīng)用專門化的UI和/或GUI。
[0165]通知模塊1032可提供基于語音識別的通知、基于喚醒關(guān)鍵字的登記的通知、基于喚醒關(guān)鍵字的錯(cuò)誤輸入的通知或基于喚醒關(guān)鍵字的識別的通知,但不限于此。
[0166]通知模塊1032可通過顯示器1021以視頻信號來輸出通知信號或可通過視頻輸出發(fā)送器1060以音頻信號來輸出通知信號,但不限于此。
[0167]應(yīng)用模塊1033可包括除了上面描述的語音識別應(yīng)用之外的各種應(yīng)用。
[0168]通信器1040可包括用于裝置100和至少一個(gè)外部裝置(例如,語音識別服務(wù)器110、智能TV、智能表、智能鏡子和/或基于1T網(wǎng)絡(luò)的裝置等)之間的通信的一個(gè)或更多個(gè)元件。例如,通信器1040可包括短距離無線通信器1041、移動通信器1042和廣播接收器1043中的至少一個(gè),但不限于此。
[0169]短距離無線通信器1041可包括藍(lán)牙通信模塊、低功耗藍(lán)牙(BLE)通信模塊、近場通信(NFC)模塊、無線局域網(wǎng)(WLAN)(WiFi)通信模塊、紫峰(Zigbee)通信模塊、Ant+通信模塊、W1-Fi直連(WFD)通信模塊、信標(biāo)通信模塊和超寬帶(UWB)通信模塊中的至少一個(gè),但不限于此。例如,短距離無線通信器1041可包括紅外數(shù)據(jù)協(xié)會(IrDA)通信模塊。
[0170]移動通信器1042可經(jīng)由無線通信網(wǎng)絡(luò)與基站、外部裝置和服務(wù)器中的至少一個(gè)發(fā)送并接收無線信號。根據(jù)對于文本/多媒體消息的發(fā)送和接收,無線信號可包括語音呼叫信號、視頻呼叫信號或各種該類型的數(shù)據(jù)。
[0171]廣播接收器1043可經(jīng)由廣播信道從外部接收廣播信號和/或與廣播相關(guān)的信息。
[0172]廣播信道可包括為行信道、地上信道和無線信道中的至少一個(gè)信道,但不限于此。
[0173]在示例性實(shí)施例中,通信器1040可向至少一個(gè)外部裝置發(fā)送由裝置100產(chǎn)生的至少一條信息,或可從至少一個(gè)外部裝置接收信息。
[0174]傳感器組1010可包括:接近傳感器1011,被配置為感測用戶101向裝置100的接近;生物傳感器1012(例如,心跳傳感器、血流計(jì)、糖尿病傳感器、血壓傳感器和/或應(yīng)力傳感器),被配置為感測裝置100的用戶101的健康信息;照度傳感器1013(例如,發(fā)光二極管(LED)傳感器),被配置為感測裝置100的環(huán)境照度;情緒范圍傳感器1014,被配置為感測裝置10的用戶1I的情緒;活動傳感器1015,被配置為感測活動;位置傳感器1016 (例如,GPS接收器)被配置為檢測裝置100的位置;陀螺儀傳感器1017,被配置為測量裝置100的方位角;加速計(jì)傳感器1018,被配置為測量裝置100相對于地球表面的傾斜度和加速度;和/或地磁傳感器1019,被配置為感測裝置100的方位朝向,但不限于此。
[0175]例如,傳感器組1010可包括溫度/濕度傳感器、重力傳感器、高度傳感器、化學(xué)傳感器(例如,氣味傳感器)、氣壓傳感器、細(xì)小灰塵測量傳感器、紫外傳感器、臭氧傳感器、二氧化碳(CO2)傳感器和/或網(wǎng)絡(luò)傳感器(例如,基于W1-F1、藍(lán)牙、3G、長期演進(jìn)(LTE)和/或NFC的網(wǎng)絡(luò)傳感器),但不限于此。
[0176]傳感器組1010可包括壓力傳感器(例如,觸摸傳感器、壓電傳感器、物理按鈕等)、狀態(tài)傳感器(例如,耳機(jī)終端、DMB天線等)、標(biāo)準(zhǔn)終端(例如,能夠識別是否正在進(jìn)行充電的終端、能夠識別PC是否被連接的終端、能夠識別擴(kuò)展塢是否被連接的終端等)和/或時(shí)間傳感器,但不限于此。
[0177]傳感器組1010可包括比圖10中示出的傳感器少的傳感器。例如,傳感器組1010可僅包括位置傳感器1016。在傳感器組1010僅包括位置傳感器1016的狀態(tài)下,傳感器組1010可被稱作GPS接收器。
[0178]由傳感器組1010感測到的結(jié)果(或感測值)可被發(fā)送到處理器1090。當(dāng)從傳感器組1010接收到的感測值是指示位置的值時(shí),傳感器1090可基于接收到的感測值來確定裝置100的當(dāng)前位置是在家還是在辦公室。
[0179]處理器1090可作為被配置為控制裝置100的整體操作的控制器。例如,處理器1090可通過執(zhí)行存儲在存儲器1030中的程序來控制傳感器組1010、存儲器1030、UI 1020、圖像處理器1050、音頻輸出發(fā)送器1060、音頻輸入接收器1070、相機(jī)1080和/或發(fā)送器1040。
[0180]處理器1090可同樣地用作圖9的處理器930。針對從存儲器1030中讀取數(shù)據(jù)的操作,處理器1090可執(zhí)行經(jīng)由通信器1040從外部裝置接收數(shù)據(jù)的操作。針對向存儲器1030寫入數(shù)據(jù)的操作,存儲器1090可執(zhí)行經(jīng)由通信器1040向外部裝置發(fā)送數(shù)據(jù)的操作。
[0181]處理器1090可執(zhí)行上面參照圖2、圖3和圖4至圖8描述的至少一個(gè)操作。處理器1090可以是被配置為控制上述操作的控制器。
[0182]圖像處理器1050可被配置為在顯示器1021上顯示從通信器1040接收到的圖像數(shù)據(jù)或存儲在存儲器1030中的圖像數(shù)據(jù)。
[0183]音頻輸出發(fā)送器1060可輸出從通信器1040接收到的音頻數(shù)據(jù)或存儲在存儲器1030中的音頻輸出。音頻輸出發(fā)送器1060可輸出與由裝置100執(zhí)行的功能相關(guān)的音頻信號(例如,通知聲音)。
[0184]音頻輸出發(fā)送器1060可包括揚(yáng)聲器和蜂鳴器,但不限于此。
[0185]圖11是根據(jù)示例性實(shí)施例的語音識別服務(wù)器110的功能框圖。
[0186]參照圖11,語音識別服務(wù)器110可包括通信器1110、處理器1120和存儲器1130,但不限于此。語音識別服務(wù)器110可包括比圖11中更是出的元件少或多的元件。
[0187]通信器1110可與圖10中示出的通信器1040大體上相同。通信器1110可向裝置100發(fā)送與語音識別相關(guān)的信號并從裝置100接收與語音識別相關(guān)的信號。
[0188]處理器1120可執(zhí)行上面參照圖2、圖6和圖7描述的語音識別服務(wù)器110的操作。
[0189]存儲器1130可在處理器1120的控制下存儲喚醒關(guān)鍵字模型1131和語音識別模型1132,并且可向處理器1120提供喚醒關(guān)鍵字模型1131和語音識別模型1132。語音是比模型1132可被稱作用于識別語音命令的模型。
[0190]可根據(jù)經(jīng)由通信器1110接收到的信息來更新存儲在存儲器1130中的喚醒關(guān)鍵字模型1131和語音識別模型1132??筛鶕?jù)由操作者輸入的信息來更新存儲在存儲器1130中的喚醒關(guān)鍵字模型1131和語音識別模型1132。
[0191]圖12是根據(jù)示例性實(shí)施例的語音識別系統(tǒng)1200的配置圖。圖12示出語音識別服務(wù)器110識別從多個(gè)裝置1208接收到的用戶101的語音信號的情況。
[0192]多個(gè)裝置1028可包括移動終端100、可穿戴眼鏡1210、智能手表1220、1T裝置1230、1T傳感器1240和/或智能TV 1250。
[0193]多個(gè)裝置1208的用戶可以是相同的人或不同的人。當(dāng)多個(gè)裝置1208的用戶是相同的人時(shí),語音識別服務(wù)器110可為每個(gè)裝置登記喚醒關(guān)鍵字模型,并執(zhí)行語音識別功能。當(dāng)多個(gè)裝置1208的用戶是不同的人時(shí),語音識別服務(wù)器110可通過使用每個(gè)裝置的裝置標(biāo)識信息和用戶標(biāo)識信息來登記喚醒關(guān)鍵字模型,并執(zhí)行語音識別功能。相應(yīng)地,語音識別系統(tǒng)1200可提供各種各樣并且更準(zhǔn)確的語音識別服務(wù)。語音識別服務(wù)器110可向多個(gè)裝置1208提供登記的喚醒關(guān)鍵字模型。
[0194]此外,語音識別服務(wù)器110可根據(jù)對于喚醒關(guān)鍵字和語音命令的連續(xù)識別處理通過使用語音信號以及喚醒關(guān)鍵字來估計(jì)多個(gè)裝置1208周圍的噪聲級或識別環(huán)境信息。語音識別服務(wù)器110可通過向多個(gè)裝置1208提供估計(jì)的噪聲級和識別的環(huán)境信息以及語音識別結(jié)果來向用戶提供用戶控制多個(gè)裝置1208而使用、估計(jì)或識別的信息。
[0195]網(wǎng)絡(luò)1260可以是有線網(wǎng)絡(luò)和/或無線網(wǎng)網(wǎng)絡(luò)。網(wǎng)絡(luò)1260可使數(shù)據(jù)能夠基于上面結(jié)合圖10中示出的通信器1040描述的通信方法中的至少一個(gè)通信方法在多個(gè)裝置1208和服務(wù)器110之間被發(fā)送并被接收。
[0196]可由計(jì)算機(jī)程序來實(shí)現(xiàn)上面參照圖2、圖3和圖4至圖8描述的方法。例如,在圖2中示出的裝置100的操作可由安裝在裝置100上的語音識別應(yīng)用來執(zhí)行。圖2中示出的語音識別服務(wù)器110的操作可由安裝在語音識別服務(wù)器110上的語音識別應(yīng)用來執(zhí)行。計(jì)算機(jī)程序可運(yùn)行在安裝在裝置100上的OS環(huán)境下。計(jì)算機(jī)程序可運(yùn)行在安裝在語音識別服務(wù)器110上的OS環(huán)境中。裝置100可將計(jì)算機(jī)程序?qū)懭氪鎯橘|(zhì)并可從存儲介質(zhì)中讀取計(jì)算機(jī)程序。語音識別服務(wù)器110可將計(jì)算機(jī)程序?qū)懭氪鎯橘|(zhì)并可從存儲介質(zhì)中讀取計(jì)算機(jī)程序。
[0197]根據(jù)示例性實(shí)施例,裝置100可包括:音頻輸入接收器910,被配置為從用戶接收音頻信號,其中,音頻信號包括喚醒關(guān)鍵字;存儲器960,被配置為存儲用于從接收到的語音信號中識別喚醒關(guān)鍵字的喚醒關(guān)鍵字模型;處理器930,被配置為執(zhí)行通過以下操作從接收到的音頻信號中檢測喚醒關(guān)鍵字:將包括在接收到的音頻信號中的喚醒關(guān)鍵字與存儲的喚醒關(guān)鍵字模型相匹配,基于匹配的結(jié)果產(chǎn)生指示喚醒關(guān)鍵字是否已經(jīng)被檢測到或尚未被檢測到的檢測值,向服務(wù)器發(fā)送檢測值和接收到的音頻信號,從服務(wù)器接收基于檢測值轉(zhuǎn)化的音頻信號的語音識別結(jié)果,基于語音識別結(jié)果在執(zhí)行裝置功能時(shí)控制裝置的可執(zhí)行應(yīng)用。
[0198]檢測值指示已經(jīng)在接收到的語音信號中檢測到喚醒關(guān)鍵字,處理器930被配置為接收包括用于執(zhí)行應(yīng)用的用戶命令的語音識別結(jié)果,其中,在語音識別結(jié)果中不存在喚醒關(guān)鍵字本身。
[0199]音頻輸入接收器910被配置為預(yù)先接收各個(gè)用戶輸入,其中,所述各個(gè)用戶輸入包含與裝置100的可執(zhí)行應(yīng)用的控制相關(guān)的各個(gè)關(guān)鍵字;存儲器960,被配置為基于接收到的各個(gè)關(guān)鍵字存儲喚醒關(guān)鍵字模型。
[0200]根據(jù)示例性實(shí)施例,一種方法可包括:在第一存儲器中存儲用于標(biāo)識喚醒關(guān)鍵字的喚醒關(guān)鍵字模型;從用戶接收包括喚醒關(guān)鍵字的語音信號;通過以下操作從接收到的音頻信號中檢測喚醒關(guān)鍵字:將包括在接收到的音頻信號中的喚醒關(guān)鍵字與存儲的喚醒關(guān)鍵字模型相匹配,基于匹配的結(jié)果產(chǎn)生指示喚醒關(guān)鍵字是否已經(jīng)被檢測到或尚未被檢測到的檢測值,向服務(wù)器發(fā)送檢測值和接收到的音頻信號,從服務(wù)器接收基于檢測值轉(zhuǎn)化的音頻信號的語音識別結(jié)果,基于語音識別結(jié)果在執(zhí)行裝置功能時(shí)控制裝置的可執(zhí)行應(yīng)用。
[0201]所述方法還包括:在第二存儲器中存儲用于轉(zhuǎn)化用戶的音頻信號的語音識別模型和與存儲在第一存儲器中的喚醒關(guān)鍵字模型同步的喚醒關(guān)鍵字模型,其中,接收語音識別結(jié)果的步驟包括:由服務(wù)器從檢測值中識別音頻信號是否包含喚醒關(guān)鍵字;由服務(wù)器響應(yīng)于指示音頻信號好漢喚醒關(guān)鍵字的檢測值基于組合模型來將音頻信號轉(zhuǎn)化為語音識別結(jié)果,其中,語音識別模型與各個(gè)喚醒關(guān)鍵字模型相組合。第一存儲器和第二存儲器可被包括在存儲器960中。
[0202]接收語音識別結(jié)果的步驟還包括:由服務(wù)器通過將喚醒關(guān)鍵字從語音識別結(jié)果中移除來產(chǎn)生語音識別結(jié)果;從服務(wù)器110接收喚醒關(guān)鍵字已經(jīng)被移除的音頻信號的語音識別結(jié)果;其中,控制的步驟包括:根據(jù)喚醒關(guān)鍵字已經(jīng)被移除的語音識別結(jié)果來控制裝置100的可執(zhí)行應(yīng)用。
[0203]所述轉(zhuǎn)化的步驟包括:響應(yīng)于指示音頻信號不包含喚醒關(guān)鍵字的檢測結(jié)果通過僅使用語音識別模型來將音頻信號轉(zhuǎn)化為語音識別結(jié)果。
[0204]可在包括可由計(jì)算機(jī)執(zhí)行的指令代碼的存儲介質(zhì)(諸如,由計(jì)算機(jī)執(zhí)行的程序模塊)中實(shí)施示例性實(shí)施例。計(jì)算機(jī)可讀介質(zhì)可以是可被計(jì)算機(jī)訪問并可包括任何易失性/非易失性介質(zhì)和任何可移除/不可移除介質(zhì)的任何可用的介質(zhì)。另外,計(jì)算機(jī)可讀介質(zhì)可包括任何計(jì)算機(jī)存儲器和通信介質(zhì)。計(jì)算機(jī)存儲介質(zhì)可包括可由特定方法或技術(shù)實(shí)施的任何易失性/非易失性和可移除/不可移除介質(zhì),其中,所述特定方法或技術(shù)用于存儲諸如計(jì)算機(jī)可讀指令代碼、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)的信息。通信介質(zhì)可包括計(jì)算機(jī)可讀指令代碼、數(shù)據(jù)結(jié)構(gòu)、程序模塊、調(diào)制的數(shù)據(jù)信號的其他數(shù)據(jù)或其他傳輸機(jī)制,并可包括任何信息傳輸介質(zhì)。
[0205]前述示例性實(shí)施例和優(yōu)點(diǎn)僅僅是示例性的并且不被理解為限制。本教導(dǎo)可被容易地應(yīng)用到其他類型的應(yīng)用。另外,對于示例性實(shí)施例的描述意圖是說明性的,并不限制權(quán)利要求的范圍,許多可選方案、修改和變化將對本領(lǐng)域技術(shù)人員將是清楚的。
【主權(quán)項(xiàng)】
1.一種裝置,包括: 音頻輸入接收器,被配置為接收用戶的語音信號; 存儲器,被配置為存儲喚醒關(guān)鍵字模型; 通信器,被配置為與語音識別服務(wù)器通信; 處理器,被配置為響應(yīng)于接收到用戶的語音信號通過使用喚醒關(guān)鍵字模型從用戶的語音信號檢測喚醒關(guān)鍵字,經(jīng)由通信器向語音識別服務(wù)器發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號,經(jīng)由通信器從語音識別服務(wù)器接收基于喚醒關(guān)鍵字被檢測至IJ/未被檢測到信號的語音信號的語音識別結(jié)果,并根據(jù)語音識別結(jié)果來控制裝置。2.如權(quán)利要求1所述的裝置,還包括:環(huán)境信息傳感器,被配置為感測關(guān)于裝置的環(huán)境信息, 其中,喚醒關(guān)鍵字模型是基于各種環(huán)境信息的多個(gè)喚醒關(guān)鍵字模型中的一個(gè)喚醒關(guān)鍵字模型, 處理器還被配置為通過使用所述多個(gè)喚醒關(guān)鍵字模型中的與感測到的裝置的環(huán)境信息相應(yīng)的喚醒關(guān)鍵字模型,從接收到的用戶的語音信號檢測喚醒關(guān)鍵字。3.如權(quán)利要求2所述的裝置,其中,處理器還被配置為:基于接收到的用戶的語音信號獲取用戶的標(biāo)識信息,經(jīng)由通信器向語音識別服務(wù)器發(fā)送用戶的標(biāo)識信息和裝置的環(huán)境信息,并從語音識別服務(wù)器接收基于以下項(xiàng)中的至少兩項(xiàng)的語音識別結(jié)果:喚醒關(guān)鍵字被檢測到/未被檢測到信號、用戶的標(biāo)識信息和裝置的環(huán)境信息。4.如權(quán)利要求1所述的裝置,其中,當(dāng)通過音頻輸入單元接收到用于登記喚醒關(guān)鍵字模型的音頻信號時(shí),處理器還被配置為基于音頻信號的識別的匹配率來確定音頻信號作為喚醒關(guān)鍵字模型是否有效。5.如權(quán)利要求1所述的裝置,還包括:用戶輸入接收器,被配置為接收用戶輸入, 其中,存儲器被配置為存儲候選喚醒關(guān)鍵字模型, 處理器還被配置為根據(jù)通過用戶輸入接收器接收到的用戶輸入來登記從存儲的候選關(guān)鍵字模型中選擇出的候選喚醒關(guān)鍵字模型。6.—種語音識別服務(wù)器,包括: 通信器,被配置為與裝置通信; 存儲器,被配置為存儲喚醒關(guān)鍵字模型和語音識別模型; 處理器,被配置為響應(yīng)于經(jīng)由通信器從裝置接收到喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號來設(shè)置與喚醒關(guān)鍵字模型組合的語音識別模型,通過使用設(shè)置的語音識別模型來識別用戶的語音信號并產(chǎn)生語音信號的語音識別結(jié)果,從用戶的語音信號的語音識別結(jié)果移除喚醒關(guān)鍵字,并經(jīng)由通信器向裝置發(fā)送喚醒關(guān)鍵字已經(jīng)被移除的語音識別結(jié)果。7.如權(quán)利要求6所述的語音識別服務(wù)器,其中,喚醒關(guān)鍵字模型是基于各種環(huán)境信息的多個(gè)喚醒關(guān)鍵字模型中的一個(gè)喚醒關(guān)鍵字模型, 處理器還被配置為響應(yīng)于經(jīng)由通信器接收到裝置的環(huán)境信息來設(shè)置語音識別模型,并基于裝置的環(huán)境信息來產(chǎn)生語音識別結(jié)果,其中,所述語音識別模型與所述多個(gè)喚醒關(guān)鍵字模型中的與裝置的環(huán)境信息相應(yīng)的喚醒關(guān)鍵字模型相組合。8.如權(quán)利要求7所述的語音識別服務(wù)器,其中,處理器還被配置為響應(yīng)于經(jīng)由通信器接收到用戶的標(biāo)識信息來設(shè)置與用戶的標(biāo)識信息以及對應(yīng)于裝置的環(huán)境信息的喚醒關(guān)鍵字模型相組合的語音識別模型,并還基于用戶的標(biāo)識信息來產(chǎn)生語音識別結(jié)果。9.一種由裝置執(zhí)行的語音識別方法,所述語音識別方法包括: 接收用戶的語音信號; 通過使用喚醒關(guān)鍵字模型從接收到的用戶的語音信號檢測喚醒關(guān)鍵字; 向語音識別服務(wù)器發(fā)送喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號;從語音識別服務(wù)器接收基于喚醒關(guān)鍵字被檢測到/未被檢測到信號識別用戶的語音信號的結(jié)果; 根據(jù)識別用戶的語音信號的結(jié)果來控制裝置。10.—種由語音識別服務(wù)器執(zhí)行的語音識別方法,所述語音識別方法包括: 從裝置接收喚醒關(guān)鍵字被檢測到/未被檢測到信號和用戶的語音信號; 根據(jù)喚醒關(guān)鍵字被檢測到/未被檢測到信號來設(shè)置語音識別模型; 通過使用設(shè)置的語音識別模型來識別用戶的語音信號并產(chǎn)生語音信號的語音識別結(jié)果; 從語音識別結(jié)果移除喚醒關(guān)鍵字; 向裝置發(fā)送喚醒關(guān)鍵字已經(jīng)被移除的語音識別結(jié)果。
【文檔編號】G10L15/183GK105976813SQ201610144748
【公開日】2016年9月28日
【申請日】2016年3月14日
【發(fā)明人】金兌潤, 金想荷, 韓昌玗, 李在原
【申請人】三星電子株式會社