語音控制裝置和語音控制方法與流程

文檔序號(hào)：11679116閱讀：430來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本案是申請(qǐng)日為2012年11月27日、申請(qǐng)?zhí)枮?01210491178.1、發(fā)明名稱為“語音控制裝置和語音控制方法”的發(fā)明專利申請(qǐng)的分案申請(qǐng)。本發(fā)明涉及一種語音控制裝置和語音控制方法，特別是涉及使用預(yù)設(shè)的短語喚醒語音控制裝置的方法。
背景技術(shù)：
：：目前，越來越多的電子裝置開始使用語音控制。語音控制今后將成為大多數(shù)電子裝置常用的使用者界面。但是，對(duì)于使用電池的移動(dòng)電子裝置來說，語音引擎的能耗是很高的。讓系統(tǒng)的語音引擎一直處于運(yùn)行狀態(tài)，將快速地消耗系統(tǒng)的電能。因此目前的移動(dòng)電子裝置均使用按鍵或類似的機(jī)制來觸發(fā)語音引擎。既然是語音控制，還需要用手來按一下按鈕開始，對(duì)使用者來說很不方便。如果一直啟動(dòng)語音引擎，又會(huì)導(dǎo)致不必要的能量消耗。技術(shù)實(shí)現(xiàn)要素：本發(fā)明提供一種語音控制裝置和語音控制方法，可方便地啟動(dòng)語音功能，而且平時(shí)可保持低功耗，以解決語音引擎的啟動(dòng)和能源消耗的矛盾。本發(fā)明提出一種語音控制裝置，包括聲音采集器、聲音轉(zhuǎn)換器、語音識(shí)別器、以及中央處理單元(cpu:centralprocessingunit)。聲音采集器采集第一聲音信號(hào)。聲音轉(zhuǎn)換器耦接聲音采集器，將第一聲音信號(hào)從模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。語音識(shí)別器耦接聲音轉(zhuǎn)換器，自第一聲音信號(hào)識(shí)別第一語音信號(hào)，進(jìn)行第一語音信號(hào)和第二語音信號(hào)的第一次比對(duì)，并根據(jù)上述第一次比對(duì)產(chǎn)生喚醒信號(hào)。中央處理單元耦接聲音轉(zhuǎn)換器和語音識(shí)別器，當(dāng)接收喚醒信號(hào)時(shí)，自睡眠狀態(tài)進(jìn)入工作狀態(tài)，進(jìn)行第一語音信號(hào)和第二語音信號(hào)的第二次比對(duì)，并根據(jù)上述第二次比對(duì)接管來自聲音采集器和聲音轉(zhuǎn)換器的語音輸入。本發(fā)明另提出一種語音控制方法，用于語音控制裝置，上述的語音控制方法包括下列步驟：采集第一聲音信號(hào)；自第一聲音信號(hào)識(shí)別第一語音信號(hào)；進(jìn)行第一語音信號(hào)和第二語音信號(hào)的第一次比對(duì)，并根據(jù)上述第一次比對(duì)產(chǎn)生喚醒信號(hào)。回應(yīng)上述喚醒信號(hào)，上述語音控制裝置的中央處理單元自睡眠狀態(tài)進(jìn)入工作狀態(tài)，進(jìn)行第一語音信號(hào)和第二語音信號(hào)的第二次比對(duì)，并根據(jù)上述第二次比對(duì)接管語音控制裝置的語音輸入。為使本發(fā)明的上述特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉實(shí)施例，并結(jié)合附圖詳細(xì)說明如下。附圖說明圖1是依照本發(fā)明一實(shí)施例的一種語音控制裝置的示意圖。圖2a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖。圖2b繪示圖1的語音控制裝置對(duì)應(yīng)圖2a的方法流程的信號(hào)傳送流程。圖3a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖。圖3b繪示圖1的語音控制裝置對(duì)應(yīng)圖3a的方法流程的信號(hào)傳送流程。附圖符號(hào)說明100：語音控制裝置110：聲音采集器120：聲音轉(zhuǎn)換器130：語音識(shí)別器140：中央處理單元210～230、305～375：方法步驟具體實(shí)施方式圖1是依照本發(fā)明一實(shí)施例的一種語音控制裝置100的示意圖。語音控制裝置100可以是任何移動(dòng)終端，比如移動(dòng)電話、個(gè)人數(shù)字助理(pda:personaldigitalassistant)、平板計(jì)算機(jī)(tabletcomputer)、筆記型計(jì)算機(jī)(notebookcomputer)、也可為桌上型計(jì)算機(jī)之類的任何一種可用語音控制的電子裝置。語音控制裝置100包括聲音采集器110、聲音轉(zhuǎn)換器120、語音識(shí)別器130、以及中央處理單元140。其中聲音轉(zhuǎn)換器120耦接聲音采集器110，語音識(shí)別器130耦接聲音轉(zhuǎn)換器120，中央處理單元140耦接聲音轉(zhuǎn)換器120和語音識(shí)別器130。本實(shí)施例的語音控制裝置100可藉由預(yù)設(shè)的語音啟動(dòng)其語音控制功能。簡(jiǎn)單的說，聲音采集器110采集周遭環(huán)境的所有聲音，包括使用者發(fā)出的聲音，輸出采集所得的聲音信號(hào)。聲音采集器110可以是麥克風(fēng)(microphone)或類似的收音裝置。聲音轉(zhuǎn)換器120將上述聲音信號(hào)從模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。語音識(shí)別器130和中央處理單元140比對(duì)上述的聲音信號(hào)和預(yù)設(shè)的另一個(gè)聲音信號(hào)，以決定是否啟動(dòng)語音控制裝置100的語音控制功能。圖2a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖，此方法是關(guān)于如何設(shè)置用來啟動(dòng)語音控制裝置100的預(yù)設(shè)語音，此方法可由語音控制裝置100執(zhí)行。圖2b繪示語音控制裝置100對(duì)應(yīng)圖2a的方法流程的信號(hào)傳送流程。上述的預(yù)設(shè)語音通常是一個(gè)短詞或短句，例如簡(jiǎn)短的口令或密碼?；蛘咭部梢越o語音控制裝置100起一個(gè)名字，用這個(gè)名字做為上述的預(yù)設(shè)語音。使用者說出這個(gè)預(yù)設(shè)語音之后，在步驟210，聲音采集器110采集聲音信號(hào)，聲音轉(zhuǎn)換器120將此聲音信號(hào)從模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。聲音轉(zhuǎn)換器120也可放大此聲音信號(hào)。這個(gè)聲音信號(hào)包括來自使用者的語音和周遭環(huán)境的雜音。中央處理單元140在步驟220自此聲音信號(hào)識(shí)別來自使用者的預(yù)設(shè)語音信號(hào)(以下稱為vsd)。然后在步驟230中央處理單元140自預(yù)設(shè)語音信號(hào)vsd提取其預(yù)設(shè)語音特征(以下稱為vcd)。中央處理單元140可儲(chǔ)存預(yù)設(shè)語音信號(hào)vsd和預(yù)設(shè)預(yù)設(shè)語音特征vcd。中央處理單元140也可將預(yù)設(shè)語音信號(hào)vsd傳送至語音識(shí)別器130，以供語音識(shí)別器130儲(chǔ)存。預(yù)設(shè)語音信號(hào)vsd就是用來啟動(dòng)語音控制裝置100的預(yù)設(shè)語音。圖3a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖，此方法是關(guān)于上述的預(yù)設(shè)語音的比對(duì)，此方法可由語音控制裝置100執(zhí)行。圖3b繪示語音控制裝置100對(duì)應(yīng)圖3a的方法流程的信號(hào)傳送流程。首先，在步驟305，語音控制裝置100處于初始狀態(tài)，也就是中央處理單元140處于睡眠狀態(tài)，不處理語音輸入，由處于工作狀態(tài)的語音識(shí)別器130處理語音輸入。中央處理單元140具有工作狀態(tài)和睡眠狀態(tài)，語音識(shí)別器130也具有工作狀態(tài)和睡眠狀態(tài)。工作狀態(tài)是指正常工作的狀態(tài)，有正常的能量消耗。睡眠狀態(tài)是指不工作而等待被喚醒的狀態(tài)，此時(shí)的能量消耗非常低。接下來，聲音采集器110在步驟310采集聲音信號(hào)。聲音轉(zhuǎn)換器120可將此聲音信號(hào)從模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。聲音轉(zhuǎn)換器120也可以放大此聲音信號(hào)。這個(gè)聲音信號(hào)包括來自使用者的語音和周遭環(huán)境的雜音。語音識(shí)別器130在步驟315自此聲音信號(hào)識(shí)別來自使用者的輸入語音信號(hào)(以下稱為vsi)。接下來，語音識(shí)別器130在步驟320進(jìn)行輸入語音信號(hào)vsi和預(yù)設(shè)語音信號(hào)vsd的第一次比對(duì)，在步驟325判斷這兩個(gè)語音信號(hào)是否符合。如果輸入語音信號(hào)vsi不符合預(yù)設(shè)語音信號(hào)vsd，流程返回步驟305。如果輸入語音信號(hào)vsi符合預(yù)設(shè)語音信號(hào)vsd，則語音識(shí)別器130在步驟330產(chǎn)生一個(gè)喚醒信號(hào)以喚醒中央處理單元140。中央處理單元140在步驟335接收喚醒信號(hào)，在步驟340自睡眠狀態(tài)進(jìn)入工作狀態(tài)。中央處理單元140自語音識(shí)別器130接收輸入語音信號(hào)vsi，然后在步驟345至365進(jìn)行輸入語音信號(hào)vsi和預(yù)設(shè)語音信號(hào)vsd的第二次比對(duì)。中央處理單元140在步驟345比對(duì)輸入語音信號(hào)vsi和預(yù)設(shè)語音信號(hào)vsd，在步驟350判斷這兩個(gè)語音信號(hào)是否符合。如果輸入語音信號(hào)vsi不符合預(yù)設(shè)語音信號(hào)vsd，則中央處理單元140重新進(jìn)入睡眠狀態(tài)，流程返回步驟305。如果輸入語音信號(hào)vsi符合預(yù)設(shè)語音信號(hào)vsd，則中央處理單元140在步驟355自輸入語音信號(hào)vsi提取其輸入語音特征(以下稱為vci)，在步驟360比對(duì)輸入語音特征vci和預(yù)設(shè)語音特征vcd，然后在步驟365判斷這兩組語音特征是否符合。如果輸入語音特征vci不符合預(yù)設(shè)語音特征vcd，則中央處理單元140重新進(jìn)入睡眠狀態(tài)，流程返回步驟305。如果輸入語音特征vci符合預(yù)設(shè)語音特征vcd，則中央處理單元140在步驟370接管語音控制裝置100的語音輸入，也就是來自聲音采集器110和聲音轉(zhuǎn)換器120的語音輸入。語音識(shí)別器130在此時(shí)自工作狀態(tài)進(jìn)入睡眠狀態(tài)。中央處理單元140執(zhí)行語音控制裝置100的語音引擎，所以步驟370就是啟動(dòng)語音控制裝置100的語音引擎和語音控制功能。接下來，中央處理單元140在步驟375檢查是否中央處理單元140在進(jìn)入工作狀態(tài)之后的一段預(yù)設(shè)時(shí)間內(nèi)未自上述的語音輸入識(shí)別出任何語音信號(hào)。如果中央處理器140有在預(yù)設(shè)時(shí)間內(nèi)識(shí)別出語音信號(hào)，則流程返回步驟370。如果中央處理器140沒有在預(yù)設(shè)時(shí)間內(nèi)識(shí)別出任何語音信號(hào)，表示使用者沒有在預(yù)設(shè)時(shí)間內(nèi)發(fā)出任何語音指令，則中央處理單元140重新進(jìn)入睡眠狀態(tài)，而語音識(shí)別器130則重新進(jìn)入工作狀態(tài)，流程返回步驟305。在本實(shí)施例中，語音識(shí)別器130和中央處理單元140各進(jìn)行一次輸入語音信號(hào)vsi和預(yù)設(shè)語音信號(hào)vsd的比對(duì)。因?yàn)檎Z音識(shí)別器130是超低功耗的低成本電路，上述比對(duì)的錯(cuò)誤識(shí)別率高于中央處理單元140。而且聲音采集器110必須連續(xù)不斷地采集聲音信號(hào)，所以語音識(shí)別器130必須自連續(xù)不斷的聲音信號(hào)中識(shí)別來自使用者的語音，這會(huì)進(jìn)一步提高語音識(shí)別器130的錯(cuò)誤識(shí)別率。所以本實(shí)施例在語音識(shí)別器130的初次比對(duì)之后，讓中央處理單元140再次確認(rèn)。中央處理單元140具有較高的運(yùn)算能力，可使用更準(zhǔn)確的演算法來比對(duì)輸入語音信號(hào)vsi和預(yù)設(shè)語音信號(hào)vsd，以降低錯(cuò)誤識(shí)別率。在本實(shí)施例中，語音信號(hào)的比對(duì)是為了確認(rèn)使用者說出正確的預(yù)設(shè)語音，語音特征的比對(duì)則是為了確認(rèn)使用者的身份，因?yàn)槊總€(gè)人的語音特征各不相同。比對(duì)語音特征可限制只有特定的使用者能啟動(dòng)語音控制裝置100的語音引擎。如果不需要限制使用者身份，則可省略圖2a的步驟230和圖3a的步驟355至365，在此情況下，如果步驟350的結(jié)果為符合，則流程直接進(jìn)入步驟370。語音識(shí)別器130就是一個(gè)簡(jiǎn)化版的低功耗語音識(shí)別引擎，專門識(shí)別一個(gè)可預(yù)設(shè)的簡(jiǎn)短語音，當(dāng)識(shí)別到這個(gè)預(yù)設(shè)語音時(shí)，啟動(dòng)中央處理單元140所執(zhí)行的正規(guī)語音引擎。語音識(shí)別器130只需要做單獨(dú)一個(gè)簡(jiǎn)短語音的發(fā)音匹配，不需要聲學(xué)詞典和語言模型，因此規(guī)模與功耗遠(yuǎn)小于正規(guī)的語音識(shí)別引擎。這樣，即可以達(dá)到很低的待機(jī)功耗，又讓使用者可以直接用語音來啟動(dòng)語音控制，使語音控制裝置更好用，更方便。因此，以上實(shí)施例可解決語音引擎的啟動(dòng)和能源消耗的矛盾。雖然本發(fā)明已以實(shí)施例揭示如上，然其并非用以限定本發(fā)明，本領(lǐng)域的技術(shù)人員，在不脫離本發(fā)明的精神和范圍的前提下，可作若干的更動(dòng)與潤(rùn)飾，故本發(fā)明的保護(hù)范圍是以本發(fā)明的權(quán)利要求為準(zhǔn)。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2