使用說話者檢驗(yàn)的背景語音辨識(shí)助理的制作方法
【專利說明】使用說話者檢驗(yàn)的背景語音辨識(shí)助理
[0001 ] 分案申請(qǐng)的相關(guān)信息
[0002]本申請(qǐng)是分案申請(qǐng)。該分案申請(qǐng)的母案是申請(qǐng)日為2012年9月20日、申請(qǐng)?zhí)枮?01280047262.2、發(fā)明名稱為“使用說話者檢驗(yàn)的背景語音辨識(shí)助理”的發(fā)明專利申請(qǐng)案。
[0003]相關(guān)申請(qǐng)案的交叉參考
[0004]本申請(qǐng)案主張2011年12月16日提出申請(qǐng)的針對(duì)“使用說話者檢驗(yàn)的背景語音辨識(shí)助理(Background Speech Recognit1n Assistant Using Speaker Verificat1n),,的第13/329,017號(hào)美國(guó)專利申請(qǐng)案的優(yōu)先權(quán),所述美國(guó)專利申請(qǐng)案主張2011年9月27日提出申請(qǐng)的針對(duì)“背景語音辨識(shí)助理(Background Speech Recognit1n Assistant)” 的第13/246,666號(hào)美國(guó)專利申請(qǐng)案的優(yōu)先權(quán),所述美國(guó)專利申請(qǐng)案的內(nèi)容以全文引用的方式并入本文中。
【背景技術(shù)】
[0005]特定實(shí)施例一般來說涉及語音辨識(shí)。
[0006]語音辨識(shí)試圖經(jīng)由口頭查詢及命令而使信息存取較容易且較簡(jiǎn)單。這些查詢歷史上通過裝置(例如智能電話)上的按鈕按下而激活。使用口頭查詢?cè)试S用戶在不鍵入查詢的情況下做出查詢。此在用戶忙碌時(shí)(例如在用戶開車或僅不想鍵入查詢時(shí))使信息存取較容易。在接收到按鈕按下之后,語音辨識(shí)器傾聽查詢并試圖適當(dāng)?shù)刈鞒鲰憫?yīng)。即使使用按鈕按下較容易,但有時(shí)對(duì)于用戶來說,使用戶按下按鈕來激活語音辨識(shí)器是不方便的。舉例來說,用戶可能忙于其它活動(dòng),在此情況下,使用其手來執(zhí)行按鈕按下可是不可能的,例如用戶可能正在開車。
[0007]其它方法用使用激活詞來激活語音辨識(shí)器的免提方法來代替按鈕按下。舉例來說,使用觸發(fā)短語來激活語音辨識(shí)器,所述語音辨識(shí)器可在接收到觸發(fā)短語之后接著解讀查詢并提供適當(dāng)響應(yīng)。然而,用戶必須總是觸發(fā)語音辨識(shí)器。另外,從用戶觸發(fā)辨識(shí)器起,用戶通常不容許辨識(shí)或響應(yīng)中的錯(cuò)誤。
[0008]在所有這些方法中,用戶決定何時(shí)發(fā)出查詢或命令??隙ǖ丶せ钫Z音辨識(shí)器且接著用戶預(yù)期響應(yīng)。由于用戶預(yù)期響應(yīng),因此可能不容許語音辨識(shí)中的錯(cuò)誤。此外,由于語音辨識(shí)器在激活之后僅傾聽內(nèi)容,因此語音辨識(shí)器將忽略對(duì)話中的特定語境及重點(diǎn)。
[0009]另外,即使在向用戶輸出響應(yīng)時(shí),所述響應(yīng)也是通用響應(yīng)。舉例來說,語音辨識(shí)器可使用所辨識(shí)的關(guān)鍵字來執(zhí)行網(wǎng)絡(luò)搜索。此關(guān)鍵字搜索將被輸出到正在說話的任何用戶。
【發(fā)明內(nèi)容】
[0010]在一個(gè)實(shí)施例中,一種方法包含在語音辨識(shí)器處接收聲輸入信號(hào)?;谒雎曒斎胄盘?hào)而識(shí)別正在說話的用戶。接著,所述方法確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息且基于所述所辨識(shí)聲輸入信號(hào)及針對(duì)所述用戶的所述說話者特定信息而確定一組響應(yīng)。確定是否應(yīng)輸出所述響應(yīng),且如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
[0011]在一個(gè)實(shí)施例中,一種方法包含:基于使用第一語音辨識(shí)算法辨識(shí)聲輸入信號(hào)及將所述聲輸入信號(hào)的部分分類到多個(gè)類別中的一類別中而從第一級(jí)辨識(shí)器接收信號(hào),所述第一級(jí)辨識(shí)器經(jīng)配置而以始終接通模式辨識(shí)所述聲輸入信號(hào);由計(jì)算裝置在接收到所述信號(hào)后即刻激活第二級(jí)辨識(shí)器以辨識(shí)所述聲輸入信號(hào),所述第二級(jí)辨識(shí)器經(jīng)配置以使用第二語音辨識(shí)算法;基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶;確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息;基于所述說話者特定信息而確定對(duì)所述所辨識(shí)聲輸入信號(hào)的響應(yīng);基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng);及如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
[0012]在一個(gè)實(shí)施例中,一種系統(tǒng)包含:第一級(jí)辨識(shí)器,其經(jīng)配置而以始終接通模式使用第一語音辨識(shí)算法來辨識(shí)聲輸入信號(hào),所述第一級(jí)辨識(shí)器經(jīng)配置以:接收聲輸入信號(hào);基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶;確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息;使用第一語音辨識(shí)算法將所述聲輸入信號(hào)的部分分類到不同類別中;基于對(duì)類別的選擇而確定應(yīng)觸發(fā)第二級(jí)辨識(shí)器,所述選擇是基于正以所述選定類別分類的經(jīng)分類部分及所述說話者特定信息;及第二級(jí)辨識(shí)器,其經(jīng)配置以:從所述第一級(jí)辨識(shí)器接收用以激活所述第二級(jí)辨識(shí)器的信號(hào);在接收到所述信號(hào)后即刻激活所述第二級(jí)辨識(shí)器以辨識(shí)所述聲輸入信號(hào),所述第二級(jí)辨識(shí)器經(jīng)配置以使用不同于所述第一語音辨識(shí)算法的第二語音辨識(shí)算法來辨識(shí)所述聲輸入信號(hào);使用所述說話者特定信息來確定對(duì)所述所辨識(shí)聲輸入信號(hào)的響應(yīng);基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng);及如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
[0013]以下詳細(xì)說明及附圖提供對(duì)本發(fā)明的性質(zhì)及優(yōu)點(diǎn)的較好理解。
【附圖說明】
[0014]圖1A描繪根據(jù)一個(gè)實(shí)施例的語音辨識(shí)系統(tǒng)的實(shí)例系統(tǒng)。
[0015]圖1B描繪根據(jù)一個(gè)實(shí)施例的用于提供兩級(jí)語音辨識(shí)器的實(shí)例系統(tǒng)。
[0016]圖2描繪根據(jù)一個(gè)實(shí)施例的級(jí)I辨識(shí)器的較詳細(xì)實(shí)例。
[0017]圖3描繪根據(jù)一個(gè)實(shí)施例的級(jí)2辨識(shí)器的較詳細(xì)實(shí)例。
[0018]圖4描繪根據(jù)一個(gè)實(shí)施例的用于使用兩個(gè)級(jí)來執(zhí)行語音辨識(shí)的方法的簡(jiǎn)化流程圖。
[0019]圖5描繪根據(jù)一個(gè)實(shí)施例的用于在級(jí)2辨識(shí)器處處理聲輸入信號(hào)的方法的簡(jiǎn)化流程圖。
[0020]圖6描繪根據(jù)一個(gè)實(shí)施例的用于在單個(gè)裝置中操作級(jí)I辨識(shí)器及級(jí)2辨識(shí)器的方法的簡(jiǎn)化流程圖。
[0021]圖7展示根據(jù)一個(gè)實(shí)施例的包含級(jí)I辨識(shí)器及級(jí)2辨識(shí)器兩者的裝置的實(shí)例。
[0022]圖8展示根據(jù)一個(gè)實(shí)施例的用于使用兩個(gè)不同裝置來執(zhí)行語音辨識(shí)的系統(tǒng)。
【具體實(shí)施方式】
[0023]本文中描述背景語音辨識(shí)器的技術(shù)。出于闡釋的目的,在以下說明中,陳述眾多實(shí)例及特定細(xì)節(jié)以便提供對(duì)本發(fā)明的實(shí)施例的徹底理解。如由權(quán)利要求書所定義,特定實(shí)施例可單獨(dú)地或連同下文所描述的其它特征一起包含這些實(shí)例中的特征中的一些或全部特征,且可進(jìn)一步包含本文中所描述的特征及概念的修改形式及等效物。
[0024]圖1A描繪根據(jù)一個(gè)實(shí)施例的語音辨識(shí)系統(tǒng)的實(shí)例系統(tǒng)100。系統(tǒng)100包含“始終接通”且傾聽所接收到的聲輸入信號(hào)的語音辨識(shí)器101。因此,語音辨識(shí)器101在后臺(tái)中工作。語音辨識(shí)器101不傾聽用以接通的觸發(fā)短語。而是,語音辨識(shí)器101從日常對(duì)話收集真實(shí)含義及意圖。由于語音辨識(shí)器101始終接通及傾聽,因此可依據(jù)在語音辨識(shí)器101必須基于觸發(fā)而激活的情況下通常不可辨識(shí)的短語而確定含義及意圖。在另一實(shí)施例中,語音辨識(shí)器101通過觸發(fā)短語而接通。傾聽將在語音辨識(shí)器101被接通時(shí)開始。
[0025]說話者檢驗(yàn)管理器106檢驗(yàn)?zāi)囊挥脩粽谡f話。舉例來說,各個(gè)用戶可能在不同時(shí)間說話,例如在家庭中,父親、母親、兒子及女兒可一起說話或在不同時(shí)間說話。說話者檢驗(yàn)管理器106包含用以識(shí)別哪一說話者當(dāng)前正在說話的算法。舉例來說,說話者檢驗(yàn)管理器106可使用用于確定說話者的文本無關(guān)算法。在此算法中,用戶可在允許說話者檢驗(yàn)管理器106 了解每一用戶的語音的簽名的訓(xùn)練過程中訓(xùn)練說話者檢驗(yàn)管理器106。所屬領(lǐng)域的技術(shù)人員將了解如何訓(xùn)練說話者檢驗(yàn)管理器106來辨識(shí)用戶的語音。在訓(xùn)練之后,當(dāng)語音辨識(shí)器101處于始終接通模式中時(shí),說話者檢驗(yàn)管理器106確定誰正在說話。使用文本無關(guān)算法允許說話者檢驗(yàn)管理器106在以始終接通模式操作時(shí)識(shí)別誰正在說話,此不需要用戶觸發(fā)語音辨識(shí)器1I。
[0026]另外,文本相關(guān)方法可用于檢驗(yàn)說話者。舉例來說,語音辨識(shí)器101并非始終接通,而是由接通語音辨識(shí)器101的觸發(fā)詞觸發(fā),且語音辨識(shí)器101開始傾聽。接著可執(zhí)行檢驗(yàn)用戶的文本相關(guān)方法。舉例來說,用戶可能已訓(xùn)練語音辨識(shí)器101辨識(shí)觸發(fā)詞。接著,語音辨識(shí)器101可基于針對(duì)觸發(fā)詞的先前訓(xùn)練而檢驗(yàn)用戶。此外,用戶可在說出觸發(fā)短語之后說出額外詞,且所述詞用于識(shí)別說話者。
[0027]在另一實(shí)施例中,在初始檢驗(yàn)之后,可隨著發(fā)生可為文本無關(guān)或文