用戶專用的自動(dòng)語音識(shí)別的制作方法
【專利摘要】描述了一種多模式聲音控制的用戶接口。該用戶接口適用于與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話,并且包括廣泛傾聽模式,其不使用空間過濾,從可能的說話者接收語音輸入;和選擇性傾聽模式,其使用空間過濾將語音輸入限制到特定說話者。該用戶接口響應(yīng)于一個(gè)或多個(gè)切換提示,切換傾聽模式。
【專利說明】用戶專用的自動(dòng)語音識(shí)別
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于計(jì)算機(jī)系統(tǒng)的用戶接口,更確切地,涉及一種使用自動(dòng)語音識(shí)別的用戶專用的、多模式的、聲音控制的接口。
【背景技術(shù)】
[0002]在聲音控制的設(shè)備中,通常使用一鍵通(push-to-talk,PTT)按鈕來觸發(fā)自動(dòng)語音識(shí)別(ASR)。按下PTT按鈕使得該系統(tǒng)對(duì)任何說出的詞輸入作出響應(yīng),而不考慮是誰發(fā)出的語音。在遠(yuǎn)距離的通話應(yīng)用例如聲控電視或計(jì)算機(jī)游戲控制臺(tái)中,PTT按鈕可以被激活詞命令所替代。另外,可能會(huì)有多個(gè)用戶潛在地想要進(jìn)行聲音控制。
[0003]通常ASR系統(tǒng)配備有用于克服干擾和噪音的信號(hào)預(yù)處理器。常常使用多個(gè)麥克風(fēng),特別是對(duì)于遠(yuǎn)距離通話接口,其中語音增強(qiáng)算法在空間上被操縱指向假定的說話者的方向(波束成形)。因此,來自于其它方向的干擾將被抑制。這對(duì)于所期望的說話者而言提高了 ASR性能,但是對(duì)于其他人而言降低了 ASR性能。因而,ASR性能依賴于說話者相對(duì)于麥克風(fēng)陣列的空間位置,以及波束成形算法的操縱方向。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的實(shí)施例是針對(duì)采用至少一個(gè)硬件實(shí)現(xiàn)的計(jì)算機(jī)處理器的自動(dòng)語音識(shí)別(ASR)系統(tǒng)的多模式聲音控制的用戶接口,以及使用這一接口相應(yīng)的方法。該用戶接口適用于與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話,并且包括廣泛傾聽模式,其接收可能的說話者的語音輸入而不進(jìn)行空間過濾,以及選擇性傾聽模式,其使用空間過濾將語音輸入限定為特定說話者。該用戶接口響應(yīng)于一個(gè)或多個(gè)切換提示切換傾聽模式。
[0005]廣泛傾聽模式可能使用相關(guān)聯(lián)的廣泛模式識(shí)別詞匯表,而選擇性傾聽模式使用不同的相關(guān)聯(lián)的選擇性模式識(shí)別詞匯表。該切換提示能夠包括來自于語音輸入的一個(gè)或多個(gè)模式切換詞,在語音對(duì)話中的一個(gè)或多個(gè)對(duì)話狀態(tài),和/或來自于可能說話者的一個(gè)或多個(gè)視覺提示。選擇性傾聽模式可以使用聲學(xué)說話者位置和/或圖像處理以用于空間過濾。
[0006]在選擇性傾聽模式,對(duì)于多個(gè)被選擇的說話者的每個(gè)而言,用戶接口能夠同時(shí)并行操作。此外或可替換地,該接口可以被適應(yīng)為在兩個(gè)傾聽模式下并行操作,此時(shí)接口在廣泛傾聽模式下接收來自房間內(nèi)的任何用戶的語音輸入,與此同時(shí)在選擇性傾聽模式下接收僅僅來自于一個(gè)被選擇的說話者的語音輸入。
[0007]本發(fā)明的實(shí)施例還包括用于自動(dòng)語音識(shí)別(ASR)的設(shè)備,其包括采用至少一個(gè)硬件實(shí)現(xiàn)的計(jì)算機(jī)處理器的語音控制的用戶接口。該用戶接口適用于與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話。用戶選擇模塊與用戶接口進(jìn)行通信,以用于基于可能的說話者的圖像處理使用空間過濾來限制用戶接口,以便僅響應(yīng)來自于一個(gè)特定說話者的聲音輸入。
[0008]空間過濾可以進(jìn)一步基于多個(gè)麥克風(fēng)的選擇性的波束成形。用戶接口可以進(jìn)一步適用于提供視覺反饋來指示特定說話者的方向和/或特定說話者的身份。圖像處理可以包括執(zhí)行可能說話者的視覺圖像的手勢(shì)識(shí)別和/或可能說話者的面部的視覺圖像的面部識(shí)別。
【專利附圖】
【附圖說明】
[0009]圖1示出了根據(jù)本發(fā)明的實(shí)施例的用于使用語音控制的用戶接口的布置。
[0010]圖2示出了根據(jù)本發(fā)明的實(shí)施例的用于用戶專用語音控制的用戶接口的狀態(tài)圖。
[0011]圖3示出了使用聲學(xué)和內(nèi)容信息來選擇給定說話者作為活躍用戶。
[0012]圖4示出了使用視覺信息來選擇給定說話者作為活躍用戶。
[0013]圖5示出了使用視覺、聲學(xué)和內(nèi)容信息的結(jié)合來選擇給定說話者作為活躍用戶。
[0014]圖6示出了具有順序可交替的操作模式的聲音控制接口的順序布置。
[0015]圖7示出了用于具有同步并行操作模式的聲音控制接口的并行布置。
【具體實(shí)施方式】
[0016]本發(fā)明的實(shí)施例是針對(duì)用戶專用ASR,其將語音控制功能限制在一個(gè)被選擇的用戶上,而不是恰巧在附近的任意用戶。這可以基于,例如,用戶說調(diào)用用戶限制功能的特定的激活詞。之后,該系統(tǒng)可以仍然專用于所指定的用戶,直至特定對(duì)話結(jié)束或某些其它模式切換事件發(fā)生。在運(yùn)行在用戶專用模式時(shí),該系統(tǒng)不響應(yīng)來自于其它用戶(干擾說話者)的任何說出的輸入。
[0017]更確切地,本發(fā)明的實(shí)施例包括用戶專用的、多模式的、語音控制的接口,其使用自動(dòng)語音識(shí)別,具有兩個(gè)不同種類的傾聽模式:(I)廣泛傾聽模式,其響應(yīng)于來自于任何方向的任何用戶的語音輸入;和(2)選擇性傾聽模式,其將語音輸入限定到特定位置上的特定說話者。該接口系統(tǒng)可以基于不同的切換提示來切換模式:對(duì)話狀態(tài),某些激活詞,或視覺手勢(shì)。不同的傾聽模式也可以使用不同的識(shí)別詞匯表,例如,廣泛傾聽模式下的受限的詞匯表和選擇性傾聽模式下的較大的識(shí)別詞匯表。為了將語音輸入限制為特定說話者,該系統(tǒng)可以使用聲學(xué)說話者位置和/或視頻處理單元來確定說話者位置。
[0018]本發(fā)明的實(shí)施例還包括用于自動(dòng)語音識(shí)別(ASR)的布置,其被專用于特定用戶,對(duì)其他任何用戶不作出響應(yīng)。使用來自于一個(gè)或多個(gè)攝像機(jī)的圖像通過圖像處理的單元檢測出潛在用戶。圖像處理根據(jù)對(duì)一個(gè)或多個(gè)用戶提示的檢測來確定并選擇專用用戶,例如,手勢(shì)識(shí)別,面部識(shí)別等等?;谠撚脩暨x擇的結(jié)果,聲學(xué)空間過濾器的操縱方向能夠被控制,并持續(xù)依賴于正在發(fā)生的視覺信息。用戶反饋(經(jīng)由GUI)可以被給出來以標(biāo)識(shí)方向和/或所選擇的專用用戶的身份,例如,指示系統(tǒng)的空間操縱方向。
[0019]根據(jù)本發(fā)明的實(shí)施例,圖1示出了聲音控制的用戶接口 100布置。該聲音控制的用戶接口 100包括至少兩個(gè)不同的操作模式。有廣泛傾聽模式,其中聲音控制的用戶接口100廣泛地接收來自于房間101內(nèi)的多個(gè)說話者102的任何一個(gè)的語音輸入,而不進(jìn)行任何的空間過濾。在廣泛傾聽模式中,聲音控制的用戶接口 100使用受限的廣泛模式識(shí)別詞匯表,其包括選擇性模式激活詞。當(dāng)聲音控制的用戶接口 100檢測到激活詞,其進(jìn)入選擇性傾聽模式,該模式使用擴(kuò)展的選擇性模式的識(shí)別詞匯表,使用空間過濾將語音輸入限制為房間101內(nèi)的特定說話者102。例如,被選擇的特定說話者可以使用接著對(duì)話過程的選擇性傾聽模式中的聲音控制的用戶接口 100,來控制一個(gè)或多個(gè)設(shè)備,例如電視機(jī)105和/或計(jì)算機(jī)游戲控制臺(tái)106。
[0020]圖2示出了用于操作聲音控制的用戶接口 100的狀態(tài)圖。從圖2的左側(cè)的廣泛傾聽模式開始,最左邊的閉合圓弧示出了只要激活詞未被檢測出來并且特定說話者還沒有被標(biāo)識(shí),那么聲音控制的用戶接口 100就停留在廣泛傾聽模式中。圖2上部圓弧示出,當(dāng)聲音控制的用戶接口 100檢測到激活詞已經(jīng)被說出來并且特定說話者被成功地標(biāo)識(shí)時(shí),從廣泛傾聽模式到選擇性傾聽模式的轉(zhuǎn)變就會(huì)出現(xiàn)。當(dāng)在選擇性傾聽模式時(shí),圖2最右側(cè)的閉合圓弧示出了,只要特定說話者位置已知,那么聲音控制的用戶接口 100就停留在選擇性傾聽模式中,直到和說話者的對(duì)話過程結(jié)束,或者一些其他事件將模式返回到廣泛傾聽模式,如跨越圖2中的底部圓弧所不。
[0021]在選擇性傾聽模式中執(zhí)行的對(duì)特定說話者的空間過濾可以基于內(nèi)容信息與聲學(xué)信息的組合,如圖3中所示。當(dāng)激活詞在廣泛傾聽模式中被發(fā)現(xiàn)時(shí),就會(huì)出現(xiàn)內(nèi)容信息。當(dāng)由接口執(zhí)行聲學(xué)說話者定位,以便從房間中的多個(gè)麥克風(fēng)選擇語音輸入,并且對(duì)麥克風(fēng)信號(hào)執(zhí)行選擇性的波束成形以便語音輸入定位為特定說話者,此時(shí)會(huì)出現(xiàn)聲學(xué)信息。
[0022]如圖4中所示出的,還可以基于使用帶有空間過濾的圖像處理進(jìn)入選擇性傾聽模式。一旦激活詞在廣泛傾聽模式中被檢測出來,接口使用來自于攝像機(jī)和/或視頻處理引擎的視覺圖像信息來確定看得見多少人,和他們相對(duì)于麥克風(fēng)陣列的位置。該接口可以通過使用圖像處理與手勢(shì)識(shí)別一起來識(shí)別特定手勢(shì),并結(jié)合激活詞來選擇特定說話者。使用圖像處理的實(shí)施例可以在即使沒有命令被說出的情況下跟蹤特定說話者的位置。并且如圖5中所示出的,一些實(shí)施例可以使用聲學(xué)、圖像和內(nèi)容信息的組合來執(zhí)行空間過濾。
[0023]圖6示出了在多模式聲音控制的用戶接口中的功能性框圖,其可以在傾聽模式之間順序切換。在這一布置中,響應(yīng)于在選擇性傾聽模式中特定說話者完成了與接口的語音對(duì)話,可以使用廣泛傾聽模式,從而接口可以在傾聽模式之間順序轉(zhuǎn)換。其結(jié)果是,一次只有一個(gè)用戶能夠操作該接口。在廣泛傾聽模式中,接口中的控制模塊使用模式選擇開關(guān)來選擇房間內(nèi)的單個(gè)麥克風(fēng)來接收來自于房間的任何人的語音輸入。通過應(yīng)用降噪(NR),可以使用包括了選擇性模式激活詞的受限的廣泛模式識(shí)別詞匯表(識(shí)別模型的有限集合)來執(zhí)行自動(dòng)語音識(shí)別(ASR)。當(dāng)ASR檢測出激活詞時(shí),從ASR將反饋信號(hào)提供給控制模塊。然后控制模塊使用視覺信息和對(duì)話狀態(tài)信息通過時(shí)間延遲估計(jì)(TDE)和用戶特定波束成形(BF1, BF2等等)對(duì)麥克風(fēng)陣列輸入進(jìn)行空間過濾,來保持接口專注于所選擇的特定說話者,則該說話者被確定只要用戶對(duì)話持續(xù),則已經(jīng)激活了選擇性傾聽模式。
[0024]圖7示出了多模式聲音控制的用戶接口下的功能性框圖,其在不同傾聽模式下操作的同時(shí)能夠并行處理用戶語音輸入。因而,該接口在廣泛傾聽模式下操作以便使用受限的廣泛模式識(shí)別詞匯表廣泛傾聽模式接收來自于房間內(nèi)的任何用戶的語音輸入,與此同時(shí),還可以在用于一個(gè)或多個(gè)特定說話者的選擇性傾聽模式下操作以便使用擴(kuò)展的選擇性傾聽模式識(shí)別詞匯表來接收語音輸入。即使當(dāng)一個(gè)使用者在選擇的模式中已操作該系統(tǒng),該接口對(duì)于其他使用者在廣泛和/或選擇性傾聽模式中是開放的。因而,另一個(gè)使用者可以開啟第二個(gè)選擇性模式實(shí)例,舉例來講,來啟動(dòng)單獨(dú)的對(duì)話或參加當(dāng)前已經(jīng)存在的對(duì)話(例如,用于計(jì)算機(jī)游戲),而多個(gè)方向的感測波束可以朝向每一個(gè)說話者。這能夠支持與多個(gè)說話者的對(duì)話,例如在問答比賽-游戲應(yīng)用中。
[0025]依靠傾聽模式,可以在ASR引擎中使用不同的聲學(xué)模型,或者甚至是采用不同的ASR引擎。不管怎樣,當(dāng)切換傾聽模式時(shí),需要切換ASR語法。對(duì)于多個(gè)用戶M中的一些而言,接口可以使用N = M波束,N < M波束或N= I波束。
[0026]當(dāng)設(shè)備在選擇性傾聽模式并且只傾聽特定說話者時(shí),對(duì)于接口而言,與特定說話者通信是有用的。有一些不同的方法可以實(shí)現(xiàn)這一點(diǎn)。例如,視覺顯示可以示出具有用戶高亮顯示的房間場景的示意圖,以標(biāo)識(shí)所選擇的特定說話者的位置。或者更簡單地,光條顯示(light bar display)被亮度編碼以便指示選擇的特定說話者的空間方向?;蛘咛摂M人可以被用于傳送傾聽模式反饋,作為與用戶對(duì)話的一部分。
[0027]舉例來講,前述的有用的應(yīng)用可以是,在控制電視或游戲控制臺(tái)的特定背景中,基于帶有廣泛和選擇性傾聽模式的用戶專用ASR,其中潛在用戶和他們的空間位置由一個(gè)或多個(gè)攝像機(jī)的單元檢測。初始時(shí),接口系統(tǒng)處于廣泛傾聽模式中,潛在用戶信息被提供給空間聲音活動(dòng)檢測過程,其檢查活躍聲音的說話者位置。當(dāng)廣泛傾聽模式檢測到了模式切換提示,例如,激活詞,此時(shí)空間聲音活動(dòng)檢測過程提供關(guān)于是誰提供了那個(gè)切換提示的信息。之后,接口系統(tǒng)通過空間過濾(波束成形和/或盲源分離)切換到選擇性傾聽模式,并且將ASR專用/限定到那個(gè)用戶。用戶反饋也可以通過GUI被提供到傾聽方向,從那時(shí)開始,由一個(gè)或多個(gè)攝像機(jī)跟隨專用用戶的空間位置。依靠對(duì)話狀態(tài)或另一個(gè)切換提示,模式轉(zhuǎn)移回到廣泛傾聽模式。
[0028]本發(fā)明的實(shí)施例可以全部的或部分的由任何常規(guī)計(jì)算機(jī)程序語言例如VHDL、SystemC、Verilog、ASM等來實(shí)現(xiàn)。本發(fā)明的其它的實(shí)施例能夠作為預(yù)編程硬件元件,其它相關(guān)的元件,或者硬件和軟件部件的組合的形式實(shí)現(xiàn)。
[0029]實(shí)施例的全部或部分可以作為供計(jì)算機(jī)系統(tǒng)使用的計(jì)算機(jī)程序產(chǎn)品來實(shí)現(xiàn)。這一實(shí)現(xiàn)可以包括一系列計(jì)算機(jī)指令,該指令要么被固定在有形介質(zhì)上,例如計(jì)算機(jī)可讀介質(zhì)(例如,磁盤、⑶-ROM、ROM、或固定盤),要么經(jīng)由調(diào)制解調(diào)器或其它接口設(shè)備(例如通過介質(zhì)連接到網(wǎng)絡(luò)的通信適配器)被發(fā)送到計(jì)算機(jī)系統(tǒng)。該介質(zhì)可以是有形介質(zhì)(例如,光的或模擬通信線)或者使用無線技術(shù)(例如,微波,紅外的或其它傳輸技術(shù))實(shí)現(xiàn)的介質(zhì)。這一系列計(jì)算機(jī)指令體現(xiàn)本文先前所描述的與系統(tǒng)有關(guān)的功能的全部或部分。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,這些計(jì)算機(jī)指令可以被寫成多種編程語言以便能夠與許多計(jì)算機(jī)架構(gòu)或操作系統(tǒng)配合使用。進(jìn)一步地,這些指令可以被存儲(chǔ)于任何存儲(chǔ)器設(shè)備中,例如半導(dǎo)體,磁的,光的或其它存儲(chǔ)器設(shè)備,還可以使用任何通信技術(shù),例如光的,紅外的,微波,或其它傳輸技術(shù)被傳輸??梢灶A(yù)見,這一計(jì)算機(jī)程序產(chǎn)品可以作為帶有附帶打印的或電子文檔(例如,套裝軟件)、預(yù)裝有計(jì)算機(jī)系統(tǒng)(例如在系統(tǒng)ROM或固定盤)的可移動(dòng)介質(zhì)而分發(fā),或者從服務(wù)器或電子公告板通過網(wǎng)絡(luò)(例如,因特網(wǎng)或萬維網(wǎng))分發(fā)。當(dāng)然,本發(fā)明的一些實(shí)施例可以作為軟件(例如,計(jì)算機(jī)程序產(chǎn)品)和硬件兩者的組合被實(shí)現(xiàn)。本發(fā)明的其它實(shí)施例仍然作為全部為硬件,或者全部為軟件(例如,計(jì)算機(jī)程序產(chǎn)品)而實(shí)現(xiàn)。
[0030]盡管本發(fā)明的各種示例性實(shí)施例已經(jīng)被公開,對(duì)于本領(lǐng)域技術(shù)人員而言顯而易見的是:可以做出將實(shí)現(xiàn)本發(fā)明的一些優(yōu)點(diǎn)的各種改變和修改,而不偏離本發(fā)明真實(shí)范圍。
【權(quán)利要求】
1.一種用于自動(dòng)語音識(shí)別(ASR)的設(shè)備,包括: 采用至少一個(gè)硬件實(shí)現(xiàn)的計(jì)算機(jī)處理器的多模式聲音控制的用戶接口,其中所述用戶接口適用于與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話,并且包括: a.廣泛傾聽模式,其不使用空間過濾,從所述可能的說話者接收語音輸入;和 b.選擇性傾聽模式,其使用空間過濾,將語音輸入限制到特定說話者; 其中所述用戶接口響應(yīng)于一個(gè)或多個(gè)切換提示,切換傾聽模式。
2.如權(quán)利要求1所述的設(shè)備,其中所述廣泛傾聽模式使用相關(guān)聯(lián)的廣泛模式識(shí)別詞匯表,所述選擇性傾聽模式使用不同的、相關(guān)聯(lián)的選擇性模式識(shí)別詞匯表。
3.如權(quán)利要求1所述的設(shè)備,其中所述切換提示包括來自于所述語音輸入的一個(gè)或多個(gè)模式切換詞。
4.如權(quán)利要求1所述的設(shè)備,其中所述切換提示包括在所述語音對(duì)話中的一個(gè)或多個(gè)對(duì)話狀態(tài)。
5.如權(quán)利要求1所述的設(shè)備,其中所述切換提示包括來自于所述可能的說話者的一個(gè)或多個(gè)視覺提示。
6.如權(quán)利要求1所述的設(shè)備,其中所述選擇性傾聽模式使用聲學(xué)說話者定位以用于所述空間過濾。
7.如權(quán)利要求1所述的設(shè)備,其中所述選擇性傾聽模式使用圖像處理以用于所述空間過濾。
8.如權(quán)利要求1所述的設(shè)備,其中在選擇性傾聽模式中,對(duì)于多個(gè)被選擇的說話者中的每一個(gè)而言,所述用戶接口同時(shí)并行操作。
9.如權(quán)利要求1所述的設(shè)備,其中所述接口適用于在這兩個(gè)傾聽模式中并行操作,由此,所述接口在所述廣泛傾聽模式中接收來自于房間內(nèi)任何用戶的語音輸入,與此同時(shí)在所述選擇性傾聽模式中,接收僅來自于一個(gè)被選擇說話者的語音輸入。
10.—種在非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)中編碼的、用于操作自動(dòng)語音識(shí)別(ASR)系統(tǒng)的計(jì)算機(jī)程序產(chǎn)品,所述產(chǎn)品包括: 用于經(jīng)由多模式聲音控制的用戶接口與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話的程序代碼,所述用戶接口適用于: a.在廣泛傾聽模式中,不使用空間過濾,從所述可能的說話者接收語音輸入;以及 b.在選擇性傾聽模式中,使用空間過濾,將語音輸入限制到特定說話者; 其中所述用戶接口響應(yīng)于一個(gè)或多個(gè)切換提示,切換傾聽模式。
11.一種用于自動(dòng)語音識(shí)別(ASR)的設(shè)備,包括: 采用至少一個(gè)硬件實(shí)現(xiàn)的計(jì)算機(jī)處理器的聲音控制的用戶接口,其中所述用戶接口適用于與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話;以及 與所述用戶接口進(jìn)行通信的用戶選擇模塊,所述用戶選擇模塊用于基于對(duì)所述可能的說話者的圖像處理,使用空間過濾來限制所述用戶接口,以便僅響應(yīng)來自于一個(gè)特定說話者的語音輸入。
12.如權(quán)利要求11所述的設(shè)備,其中所述空間過濾進(jìn)一步基于多個(gè)麥克風(fēng)的選擇性的波束成形。
13.如權(quán)利要求11所述的設(shè)備,其中所述用戶接口進(jìn)一步適用于提供視覺反饋以指示所述特定說話者的方向。
14.如權(quán)利要求11所述的設(shè)備,其中所述用戶接口進(jìn)一步適用于提供視覺反饋以指示所述特定說話者的身份。
15.如權(quán)利要求11所述的設(shè)備,其中所述圖像處理包括執(zhí)行所述可能的說話者的視覺圖像的手勢(shì)識(shí)別。
16.如權(quán)利要求11所述的設(shè)備,其中所述圖像處理包括執(zhí)行所述可能的說話者的面部的視覺圖像的面部識(shí)別。
17.—種在非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)中編碼的、用于操作自動(dòng)語音識(shí)別(ASR)系統(tǒng)的計(jì)算機(jī)程序產(chǎn)品,所述產(chǎn)品包括: 用于聲音控制的用戶接口的程序代碼,所述用戶接口適用于與一個(gè)或多個(gè)可能的說話者進(jìn)行語音對(duì)話;以及 用于與所述用戶接口進(jìn)行通信的用戶選擇模塊的程序代碼,所述用戶選擇模塊用于基于對(duì)所述可能的說話者的圖像處理,使用空間過濾來限制所述用戶接口,以便僅響應(yīng)來自于一個(gè)特定說話者的語音輸入。
【文檔編號(hào)】G10L15/22GK104488025SQ201280071506
【公開日】2015年4月1日 申請(qǐng)日期:2012年3月16日 優(yōu)先權(quán)日:2012年3月16日
【發(fā)明者】T·沃爾夫, M·布克, T·豪利克, 蘇哈迪 申請(qǐng)人:紐昂斯通訊公司