本專利申請要求于2014年6月19日提交的標(biāo)題為“ROBUST END-POINTING OF SPEECH SIGNALS USING SPEAKER RECOGNITION”的美國臨時(shí)申請序列號62/014,571,以及于2015年4月30日提交的標(biāo)題為“ROBUST END-POINTING OF SPEECH SIGNALS USING SPEAKER RECOGNITION”的美國非臨時(shí)申請序列號14/701,147的優(yōu)先權(quán),上述專利申請據(jù)此其全文以引用方式并入本文以用于所有目的。
技術(shù)領(lǐng)域
本發(fā)明整體涉及語音處理,并且更具體地涉及使用說話者識(shí)別的對語音信號的起點(diǎn)或終點(diǎn)檢測。
背景技術(shù):
智能自動(dòng)化助理(或虛擬助理)在人類用戶與電子設(shè)備之間提供有利的界面。此類助理允許用戶使用口頭和/或文本形式的自然語言來與設(shè)備或系統(tǒng)進(jìn)行交互。例如,用戶可通過向與電子設(shè)備相關(guān)聯(lián)的虛擬助理提供口頭用戶請求來訪問電子設(shè)備的服務(wù)。該虛擬助理可根據(jù)口頭用戶請求來解釋用戶意圖,并將用戶意圖實(shí)踐為任務(wù)。然后可通過執(zhí)行電子設(shè)備的一個(gè)或多個(gè)服務(wù)來執(zhí)行任務(wù),并且可按自然語言的形式來將相關(guān)輸出返回給用戶。
通常,口頭用戶請求混有各種背景噪聲。該背景噪聲可包括例如雜散對話、音樂、機(jī)械噪聲和環(huán)境噪聲。為了解釋口頭用戶請求,虛擬助理可確定所接收的音頻輸入內(nèi)的用戶語音的起始與終止。檢測用戶語音的起始與終止分別稱為起點(diǎn)指示和終點(diǎn)指示。起點(diǎn)指示和終點(diǎn)指示可用于識(shí)別包含口頭用戶請求的音頻輸入的一部分。另外,終點(diǎn)指示還可用于確定何時(shí)停止接收音頻輸入。為了使虛擬助理能夠快速準(zhǔn)確地解釋和處理音頻輸入,期望得到穩(wěn)健的起點(diǎn)指示和終點(diǎn)指示。
傳統(tǒng)的終點(diǎn)指示算法依賴能量特征(諸如,短時(shí)能量和過零率),以區(qū)分音頻輸入中的用戶語音與背景噪聲。然而,當(dāng)用戶語音與雜散背景對話重疊時(shí),起點(diǎn)指示和終點(diǎn)指示可受到顯著影響。雜散背景對話還可被稱為多路重合噪聲。該多路重合噪聲可與用戶語音共享相同的頻譜,并因此可產(chǎn)生同信道干擾,從而使得難以確定音頻輸入內(nèi)的用戶語音何時(shí)開始或結(jié)束。沒有準(zhǔn)確的起點(diǎn)指示和終點(diǎn)指示,虛擬助理可能難以準(zhǔn)確處理音頻輸入,這可導(dǎo)致輸出錯(cuò)誤、執(zhí)行不正確的動(dòng)作和/或出現(xiàn)澄清用戶意圖的繁冗請求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種使用說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示的系統(tǒng)和過程。在一個(gè)示例性過程中,可接收具有口頭用戶請求的音頻流??纱_定音頻流包括用戶語音的第一可能性。第一可能性可至少部分地基于音頻流的能量水平??纱_定該音頻流包括由授權(quán)用戶說出的用戶語音的第二可能性??芍辽俨糠值鼗诘谝豢赡苄院偷诙赡苄詠泶_定口頭用戶請求的起點(diǎn)或終點(diǎn)。
附圖說明
圖1示出了根據(jù)各種示例的使用說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示的示例性過程。
圖2A示出了根據(jù)各種示例的表示時(shí)域中的示例性音頻流的波形。
圖2B示出了根據(jù)各種示例的表示音頻流包括用戶語音的示例性第一可能性的波形。
圖2C示出了根據(jù)各種示例的表示音頻流包括由授權(quán)用戶說出的用戶語音的示例性第二可能性的波形。
圖2D示出了根據(jù)各種示例的表示音頻流包括用戶語音的示例性組合可能性的波形。
圖3示出了根據(jù)各種示例的用于執(zhí)行使用說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示的各個(gè)方面的示例性系統(tǒng)和環(huán)境。
圖4示出了根據(jù)各種示例的使用說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示的各個(gè)方面的示例用戶設(shè)備。
圖5示出了根據(jù)各種示例的示例性電子設(shè)備的功能框圖。
具體實(shí)施方式
在以下對示例的描述中將引用附圖,在附圖中以例示的方式示出了可被實(shí)施的特定示例。應(yīng)當(dāng)理解,在不脫離各個(gè)示例的范圍的情況下,可使用其他示例并且可作出結(jié)構(gòu)性變更。
本發(fā)明涉及一種使用說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示的系統(tǒng)和過程。在一個(gè)示例性過程中,可接收帶有口頭用戶請求的音頻流??纱_定音頻流包括用戶語音的第一可能性。第一可能性可至少部分地基于音頻流的能量水平??纱_定音頻流包括授權(quán)用戶說出的用戶語音的第二可能性。在一些示例中,可通過對音頻流執(zhí)行說話者認(rèn)證來確定第二可能性,以將授權(quán)用戶的用戶語音與其他人類語音區(qū)分開。說話者認(rèn)證可至少部分地基于一個(gè)或多個(gè)語音模型。可至少部分地基于第一可能性和第二可能性來確定口頭用戶請求的起點(diǎn)或終點(diǎn)。
在一些示例中,確定第一可能性可包括將音頻流劃分為音頻幀,并分析用戶語音的每個(gè)音頻幀。每個(gè)音頻幀的幀寬度可以是5ms-40ms,從而使得分析的分辨率更高并精確識(shí)別起點(diǎn)或終點(diǎn)。然而,如上所述,第一可能性的準(zhǔn)確度可由于音頻流中存在多路重合噪聲而下降。因此,在普遍存在多路重合噪聲的應(yīng)用中(例如,個(gè)人移動(dòng)設(shè)備,諸如,蜂窩電話、平板電腦、便攜式媒體播放器或可穿戴數(shù)字設(shè)備),僅利用第一可能性來識(shí)別起點(diǎn)或終點(diǎn)可能是不可取的。
在一些示例中,確定第二可能性可包括將音頻流劃分為音頻段,并分析授權(quán)用戶說出的用戶語音的每個(gè)音頻段。每個(gè)音頻段的段寬可為100ms-300ms,以便在分析中實(shí)現(xiàn)足夠高的置信度。然而,100ms-300ms的段寬可對識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)的分辨率和精度產(chǎn)生不利影響。因此,在需要精確穩(wěn)健地確定起點(diǎn)或終點(diǎn)的應(yīng)用中,僅基于第二可能性來識(shí)別起點(diǎn)或終點(diǎn)可能是不可取的。
在識(shí)別起點(diǎn)或終點(diǎn)時(shí),同時(shí)利用第一可能性和第二可能性兩者能獲得更大的知識(shí)庫。第一可能性可用于精確識(shí)別起點(diǎn)和終點(diǎn),而第二可能性可用于將授權(quán)用戶的語音與其他人類語音(例如,多路重合噪聲)區(qū)分開。因此,至少部分地基于第一可能性和第二可能性來識(shí)別起點(diǎn)或終點(diǎn)可得到更高的準(zhǔn)確性和穩(wěn)健性。
1.語音信號的穩(wěn)健起點(diǎn)指示或終點(diǎn)指示過程
圖1示出了使用說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示的示例性過程100。圖2A-圖2D示出了表示使用本文所描述的說話者識(shí)別的語音信號的穩(wěn)健端點(diǎn)指示過程的各個(gè)方面的波形。同時(shí)參見圖1和圖2A-圖2D描述過程100。
在過程100的框102處可接收音頻流。音頻流還可以稱為音頻輸入。音頻流可作為原聲波、音頻文件或者以代表性音頻信號(模擬或數(shù)字)的形式被接收。在一些示例中,可在用戶設(shè)備(例如,下文描述的用戶設(shè)備302)處接收音頻流。在其他示例中,可在遠(yuǎn)程系統(tǒng)諸如服務(wù)器(例如,下文描述的服務(wù)器系統(tǒng)310或虛擬助理服務(wù)器314)處接收音頻流。音頻流可包括用戶語音,諸如,口頭用戶請求。用戶語音可包括授權(quán)用戶的口頭用戶請求。在一個(gè)示例中,授權(quán)用戶可以是與接收音頻流的用戶設(shè)備密切相關(guān)聯(lián)的用戶(例如,用戶設(shè)備的所有者或主要使用者)。在另一個(gè)示例中,授權(quán)用戶可以是與語音模型相關(guān)聯(lián)的用戶,該語音模型在過程100的框106處用于確定第二可能性。在另一個(gè)示例中,授權(quán)用戶可以是共享用戶設(shè)備的一組有限的注冊用戶中的一者。音頻流可還包括背景噪聲,諸如,音樂、機(jī)械噪聲、環(huán)境噪聲和多路重合噪聲。背景噪聲可至少部分地與用戶語音重疊。
圖2A示出了波形202,該波形表示可在過程100的框102處接收到的時(shí)域中的示例性音頻流。在該示例中,音頻流包括第一部分206、第二部分204和第三部分208。如波形202所示,從時(shí)間220到時(shí)間218的音頻流第一部分206可既不包括用戶語音,也不包括多路重合噪聲。從時(shí)間218到時(shí)間222的第一部分206的其余部分可包括多路重合噪聲。多路重合噪聲可與用戶語音享有相同的頻譜。
如波形202所示,從時(shí)間222到時(shí)間224的音頻流第二部分204可包括用戶語音。具體地講,用戶語音可包括來自用戶設(shè)備授權(quán)用戶的口頭用戶請求。在一些情況下,第二部分204可包括與用戶語音重疊的多路重合噪聲。在該示例中,第一部分206的多路重合噪聲和第二部分204的用戶語音或多路重合噪聲可以是連續(xù)的。在音頻流第三部分208,多路重合噪聲可在時(shí)間224到時(shí)間214時(shí)最小,并且可在時(shí)間214到時(shí)間226變得較為顯著。在時(shí)間226,多路重合噪聲可結(jié)束,并且第三部分208的剩余部分可既不包括多路重合噪聲,也不包括用戶語音。
在過程100的框104處,可確定音頻流包括用戶語音的第一可能性。在一些示例中,第一可能性可由用戶設(shè)備(例如,下文描述的用戶設(shè)備302)確定。在其他示例中,第一可能性可由遠(yuǎn)程系統(tǒng)來確定,該遠(yuǎn)程系統(tǒng)為諸如服務(wù)器(例如,下文描述的服務(wù)器系統(tǒng)310或虛擬助理服務(wù)器314)。第一可能性可表示音頻流包括用戶語音的概率或確定性。第一可能性的范圍可在上限(例如,一)和下限(例如,零)之間。上限可表示音頻流肯定包括用戶語音,而下限可表示音頻流肯定不包括用戶語音。
可至少部分地基于音頻流的一個(gè)或多個(gè)特征諸如時(shí)域和/或頻域特征來確定第一可能性。時(shí)域特征可包括例如過零率、短時(shí)能量、頻譜能量、頻譜平坦度和自相關(guān)。頻域特征可包括例如梅爾頻率倒譜系數(shù)、線性預(yù)測倒譜系數(shù)和梅爾頻率離散小波系數(shù)。
在一些示例中,可至少部分地基于音頻流的能量水平來確定第一可能性。在一個(gè)示例中,可基于能量水平小于或等于下限閾值能量水平來確定第一可能性等于下限。相似地,基于能量水平大于或等于上限閾值能量水平,可確定第一可能性等于上限。對介于上限閾值能量水平和下限閾值能量水平之間的能量水平,可確定第一可能性介于上限和下限之間,其中針對較高能量水平所確定的第一可能性較高。在一些情況下,能量水平可指預(yù)先確定的頻率范圍內(nèi)的能量水平(例如,頻譜能量)。預(yù)先確定的頻率范圍可包括例如人類語音的頻率范圍(例如,50-500Hz)。
確定第一可能性可包括將音頻流的一個(gè)或多個(gè)特征與一個(gè)或多個(gè)預(yù)先確定的模型進(jìn)行比較。例如,第一可能性可至少部分地基于預(yù)先確定的靜音/背景模型和人類語音模型。具有更加類似于人類語音模型的特征的音頻流部分,可被確定為包括用戶語音的第一可能性更高。相反地,具有更加類似于靜音/背景模型模型的特征的音頻流部分,可被確定為包括用戶語音的第一可能性更低。人類語音模型可至少部分地基于一個(gè)或多個(gè)先前接收到的人類語音樣本。在一個(gè)示例中,人類語音模型可至少部分地基于先前接收到的用戶語音樣本。具體地講,人類語音模型可以是使用從人類語音的一個(gè)或多個(gè)音頻樣本提取的特征來構(gòu)建的高斯混合模型。靜音/背景模型可至少部分地基于一個(gè)或多個(gè)先前接收到的背景噪聲的音頻樣本。在一個(gè)示例中,靜音/背景模型可至少部分地基于不包含用戶語音的音頻流的第一部分(例如,音頻流的前5ms-20ms)。具體地講,靜音/背景模型可以是使用從一個(gè)或多個(gè)靜音和/或背景噪聲的音頻樣本提取的特征來構(gòu)建的高斯混合模型。在一些示例中,第一可能性可以是基于一個(gè)或多個(gè)預(yù)先確定的模型的輸出的對數(shù)似然比。
如上所述,確定第一可能性可包括對音頻流執(zhí)行短時(shí)頻譜分析。例如,至少一部分音頻流可被劃分為音頻幀,其中每個(gè)音頻幀都具有預(yù)先確定的幀寬度。幀寬度是指每幀音頻的持續(xù)時(shí)間。在一個(gè)示例中,每個(gè)音頻幀預(yù)先確定的幀寬度可以是5ms-40ms。該持續(xù)時(shí)間內(nèi)的幀寬度在提供更大分析分辨率方面可以是有利的,從而使得端點(diǎn)檢測精度更高。音頻幀可按預(yù)先確定的量移位,從而使得相鄰的音頻幀彼此重疊。在一個(gè)示例中,音頻幀可移位約5ms-15ms,并且相鄰的音頻幀可彼此重疊約15ms-25ms??芍辽俨糠值鼗谝粋€(gè)或多個(gè)時(shí)域或頻域特征來分析用戶語音的每幀音頻。因此,確定第一可能性可包括針對音頻流的每個(gè)音頻幀確定該音頻幀包括用戶語音的可能性。在特定示例中,確定第一可能性可包括確定多個(gè)音頻幀中的音頻幀包括用戶語音的可能性。
圖2B示出了表示可在過程100的框104處確定的示例性第一可能性的波形210。第一可能性可以是由波形202表示的音頻流包括用戶語音的可能性。在該示例中,第一可能性可至少部分地基于在人類語音頻率范圍內(nèi)的音頻流的能量水平。
在本示例中,第一閾值L1 212可以是基于第一可能性來確定音頻流是否包括用戶語音的預(yù)先確定的閾值。例如,第一可能性大于或等于第一閾值L1 212長于閾值持續(xù)時(shí)間的音頻流部分可被確定為包括用戶語音。
如波形210所示,當(dāng)音頻流能量水平由于用戶語音和多路重合噪聲兩者都不存在而為最小時(shí),第一可能性可被確定為明顯低于時(shí)間220到時(shí)間218的第一閾值L1 212。在時(shí)間218,由于存在多路重合噪聲,第一可能性可增大并超過第一閾值L1 212。對于第一部分206的剩余部分,多路重合噪聲可繼續(xù)存在,因此在整個(gè)該時(shí)間段內(nèi)第一可能性可保持高于第一閾值L1 212。如上所述,多路重合噪聲與用戶語音可包含類似的頻譜能量,因此該時(shí)間段內(nèi)的多路重合噪聲可被錯(cuò)誤地確定為用戶語音。另外,如果起點(diǎn)指示僅基于第一可能性,則第一可能性在時(shí)間218從低于第一閾值L1 212過渡到高于該第一閾值的情況可被錯(cuò)誤地識(shí)別為起點(diǎn)。
在從時(shí)間222到時(shí)間224的音頻流的第二部分204,由于音頻流中存在用戶語音,第一可能性可被確定為超過第一閾值L1 212。因?yàn)榈诙糠?04的用戶語音與第一部分206的多路重合噪聲是連續(xù)的,所以從時(shí)間218到時(shí)間222第一可能性沒有明顯變化。因此,僅基于第一可能性,可能難以在時(shí)間222準(zhǔn)確識(shí)別實(shí)際起點(diǎn)。
如波形210所示,從時(shí)間224到時(shí)間214,當(dāng)用戶語音結(jié)束并且多路重合噪聲最小時(shí),第一可能性可略低于第一閾值L1 212。由于第一可能性的下降是短暫且不明顯的,因此可能難以確定該下降是用戶語音中的自然停頓還是用戶語音的終點(diǎn)。因此,僅基于第一可能性,可能難以識(shí)別在時(shí)間224的實(shí)際終點(diǎn)。
在時(shí)間214到時(shí)間226,由于音頻流中存在大量的多路重合噪聲,第一可能性可超過第一閾值L1 212。如上所述,多路重合噪聲與用戶語音可具有類似的頻譜能量,因此該時(shí)間段內(nèi)的多路重合噪聲可被錯(cuò)誤地確定為用戶語音。在時(shí)間226,當(dāng)多路重合噪聲結(jié)束并且不存在用戶語音時(shí),第一可能性可降低至明顯低于第一閾值L1 212的值,并在第三部分208的其余部分保持在較低值。如果終點(diǎn)指示僅基于第一可能性,則第一可能性在時(shí)間226從高于第一閾值L1 212過渡到低于該第一閾值的情況可被錯(cuò)誤地識(shí)別為終點(diǎn)。
雖然在該示例中,第一可能性可與第一閾值L1 212進(jìn)行比較來確定音頻流是否包括用戶語音,但是應(yīng)當(dāng)認(rèn)識(shí)到,在其他示例中,可對第一可能性應(yīng)用任何預(yù)先確定的規(guī)則或邏輯條件來確定音頻流是否包括用戶語音。
此外,在一些示例中,可僅針對音頻流的一部分或多個(gè)部分而確定第一可能性。在一個(gè)此類示例中,可利用音頻流的第一部分來確定音頻流的基線能量水平。第一部分可包括音頻流中存在用戶語音的可能性原本較低的一部分。例如,第一部分可包括音頻流的首個(gè)5ms-20ms。因此,可僅針對音頻流第一部分之后的第二部分而確定第一可能性。在一些情況下,可利用基線能量水平來生成靜音/背景模型。
在過程100的框106處,可確定音頻流包括授權(quán)用戶說出的用戶語音的第二可能性。在一些示例中,第二可能性可由用戶設(shè)備(例如,如下所述的用戶設(shè)備302)來確定。在其他示例中,第二可能性可由遠(yuǎn)程系統(tǒng)來確定,該遠(yuǎn)程系統(tǒng)為諸如服務(wù)器(例如,如下所述的服務(wù)器系統(tǒng)310或虛擬助理服務(wù)器314)。第二可能性可表示音頻流包括授權(quán)用戶說出的用戶語音的概率或確定性。如上所述,授權(quán)用戶可以是與用于確定第二可能性的語音模型相關(guān)聯(lián)的用戶。在一些示例中,授權(quán)用戶可以是與接收音頻流的用戶設(shè)備密切相關(guān)聯(lián)的用戶(例如,用戶設(shè)備的所有者或主要使用者)。在其他示例中,授權(quán)用戶可以是共享用戶設(shè)備的一組有限的注冊用戶中的一者。在某些情況下,該組有限的注冊用戶少于10個(gè)用戶。在其他情況下,該組有限的注冊用戶少于5個(gè)用戶。
第二可能性可通過執(zhí)行語音認(rèn)證來確定。例如,確定第二可能性可包括將音頻流的特征與一個(gè)或多個(gè)語音模型(例如,高斯混合模型、隱馬爾可夫模型或神經(jīng)網(wǎng)絡(luò))的特征進(jìn)行比較。在一個(gè)示例中,第二可能性可至少部分地基于預(yù)先確定的通用背景模型和預(yù)先確定的授權(quán)用戶語音模型。對于更加類似于語音模型的音頻流部分,可確定較高的第二可能性。相反地,對于更加類似于通用背景模型的音頻流部分,可確定較低的第二可能性。通用背景模型可表示一般的人類語音特征,并且可至少部分地基于各種人類語音。語音模型可表示授權(quán)用戶的個(gè)體語音特征,并且可至少部分地基于授權(quán)用戶的語音。具體地講,語音模型可至少部分地基于在接收到音頻流之前接收到的授權(quán)用戶的語音。在一些示例中,第二可能性可以是對數(shù)似然比或線性邏輯回歸,其基于通用背景模型和語音模型之間的可能性比較。
如上所述,確定第二可能性可包括將音頻流劃分為具有預(yù)先確定的片段寬度的音頻片段。段寬度是指每個(gè)音頻片段的持續(xù)時(shí)間。相鄰片段可按預(yù)先確定的量重疊,以便能夠在整個(gè)音頻流進(jìn)行連續(xù)采樣。在一些示例中,可分析每個(gè)音頻段來確定該音頻段包括授權(quán)用戶說出的用戶語音的可能性。在這些示例中,可通過將音頻段的特征與一個(gè)或多個(gè)語音模型的特征進(jìn)行比較,來分析授權(quán)用戶說出的用戶語音的每個(gè)音頻段的特征。每個(gè)音頻段的特征可為時(shí)域特征或頻域特征。因此,確定第二可能性可包括針對每個(gè)音頻段確定該音頻段包括授權(quán)用戶說出的用戶語音的可能性。具體地講,確定第二可能性可包括確定多個(gè)音頻段中的音頻段包括用戶語音的可能性。
在其他示例中,每段音頻可包括多個(gè)音頻幀。在這些示例中,可分析每個(gè)音頻段內(nèi)的每個(gè)音頻幀,以確定該音頻幀包括授權(quán)用戶說出的用戶語音的可能性。然后可基于所確定的每個(gè)音頻段內(nèi)的音頻幀的可能性來確定音頻段包括授權(quán)用戶說出的用戶語音的可能性。在一個(gè)此類示例中,可通過對音頻段內(nèi)音頻幀所確定的可能性求平均數(shù)來確定音頻段包括授權(quán)用戶說出的用戶語音的可能性。
段寬度可影響所確定的第二可能性的置信度以及起點(diǎn)指示或終點(diǎn)指示的精度。小于50ms的段寬度可導(dǎo)致每個(gè)音頻段中出現(xiàn)顯著噪聲,并因此導(dǎo)致所確定的第二可能性的置信度較低。然而,大于500ms的段寬度可導(dǎo)致分析分辨率差,從而導(dǎo)致起點(diǎn)指示或終點(diǎn)指示的不確定性更大。在一個(gè)示例中,用于確定第二可能性的預(yù)先確定的段寬度可比用于確定第一可能性的預(yù)先確定的幀寬度至少大五倍。在另一個(gè)示例中,每段音頻預(yù)先確定的段寬度可為100ms-300ms。
圖2C示出了表示可在過程100的框106處確定的示例性第二可能性的波形230。波形230所示的第二可能性可以是由波形202表示的音頻流包括授權(quán)用戶說出的用戶語音的可能性。在該示例中,第二可能性可至少部分地基于一個(gè)或多個(gè)語音模型,諸如預(yù)先確定的通用背景模型和預(yù)先確定的授權(quán)用戶語音模型。
在本示例中,第二閾值L2 216可以是基于第二可能性來確定音頻流是否包括授權(quán)用戶說出的用戶語音的預(yù)先確定的閾值。例如,第二可能性大于或等于第二閾值L2 216長于閾值持續(xù)時(shí)間的音頻流部分可被確定為包括授權(quán)用戶說出的用戶語音。
如波形230所示,在從時(shí)間220到時(shí)間222的音頻流第一部分206的大部分中,第二可能性可明顯低于第二閾值L2 216。要注意的是,與第一可能性不同,盡管在時(shí)間218至?xí)r間222之間音頻流中存在多路重合噪聲,但第二可能性仍然可保持為明顯低于第二閾值L2 216。如先前所述,多路重合噪聲的語音特征可與授權(quán)用戶的語音特征完全不同。因此,由于音頻流中的多路重合噪聲與授權(quán)用戶的語音模型匹配不佳,故而在該時(shí)間段第二可能性可較低。
在時(shí)間222,由于多路重合噪聲停止而用戶語音開始出現(xiàn),因此第二可能性可增大并超過第二閾值L2 216。用戶語音的語音特征可與授權(quán)用戶語音模型的語音特征十分匹配。因此,如波形230所示,當(dāng)音頻流包括授權(quán)人的用戶語音時(shí),第二可能性可在時(shí)間222至?xí)r間224保持高于第二閾值L2 216。
如波形230所示,當(dāng)用戶語音結(jié)束時(shí),第二可能性在時(shí)間224處降低至明顯低于第二閾值L2 216。要注意的是,與第一可能性不同,即使多路重合噪聲很大,第二可能性也可在時(shí)間214至?xí)r間226保持在較低程度。如先前所述,多路重合噪聲的語音特征可與授權(quán)用戶的語音特征完全不同。因此,由于音頻流中的多路重合噪聲與授權(quán)用戶的語音模型匹配不佳,故而在該時(shí)間段第二可能性可較低。
雖然在該示例中,第二可能性可與第二閾值L1 212進(jìn)行比較來確定音頻流是否包括授權(quán)用戶說出的用戶語音,但是應(yīng)當(dāng)認(rèn)識(shí)到,在其他示例中,可對第二可能性應(yīng)用任何預(yù)先確定的規(guī)則或邏輯條件來確定音頻流是否包括授權(quán)用戶說出的用戶語音。
此外,在一些示例中,可僅針對音頻流的一部分或多個(gè)部分而確定第二可能性??芍辽俨糠值鼗诘谝豢赡苄詠磉x擇音頻流中要確定第二可能性的一部分或多個(gè)部分。在一個(gè)示例中,可確定第一可能性超過上限閾值長于從第一時(shí)間開始的閾值持續(xù)時(shí)間。在這樣的示例中,可僅針對音頻流中第一時(shí)間之后的部分而確定第二可能性。在另一個(gè)示例中,可僅在音頻流中的某些部分中確定第二可能性,其中第一可能性針對所述部分被確定為超過上限閾值長于閾值持續(xù)時(shí)間。
在一些示例中,可在獨(dú)立的時(shí)間開始確定第一可能性和第二可能性。在一個(gè)此類示例中,可在確定音頻流一部分的第一可能性之后開始確定第二可能性。具體地講,只有在確定音頻幀包括用戶語音的第一可能性之后,才可確定任何音頻段包括授權(quán)用戶說出的用戶語音的第二可能性。
在其他示例中,僅當(dāng)滿足預(yù)先確定的條件時(shí)才可確定第二可能性。在一個(gè)此類示例中,可響應(yīng)于音頻流能量水平超過閾值能量水平長于閾值持續(xù)時(shí)間限制來確定第二可能性。在另一個(gè)示例中,可響應(yīng)于第一可能性超過上限閾值水平長于閾值持續(xù)時(shí)間來確定第二可能性。在又一個(gè)示例中,可響應(yīng)于音頻流能量水平超過閾值能量水平長于閾值持續(xù)時(shí)間而對音頻流執(zhí)行說話者認(rèn)證。執(zhí)行說話者認(rèn)證可包括確定音頻流包括授權(quán)用戶說出的用戶語音的第二可能性。
在過程100的框108處,可至少部分地基于第一可能性和第二可能性來識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。在一些示例中,框108可由用戶設(shè)備(例如,如下所述的用戶設(shè)備302)來執(zhí)行。在其他示例中,框108可由遠(yuǎn)程系統(tǒng)來執(zhí)行,該遠(yuǎn)程系統(tǒng)為諸如服務(wù)器(例如,如下所述的服務(wù)器系統(tǒng)310或虛擬助理服務(wù)器314)。如先前所述,第一可能性和第二可能性可提供更大的知識(shí)庫,因此可更加準(zhǔn)確穩(wěn)健地識(shí)別起點(diǎn)或終點(diǎn)。
在一些示例中,可至少部分地基于第一可能性和第二可能性來確定組合可能性。組合可能性可表示音頻流包括授權(quán)用戶說出的用戶語音的概率或確定性。在組合可能性是第一可能性和第二可能性的函數(shù)的情況下,組合可能性可以是第一可能性和第二可能性的數(shù)學(xué)組合。在一些示例中,組合可能性可以是第一可能性和第二可能性的加權(quán)平均值。在計(jì)算加權(quán)平均值時(shí),應(yīng)用于第一可能性的權(quán)重可不同于應(yīng)用于第二可能性的權(quán)重。作為另外一種選擇,應(yīng)用于第一可能性的權(quán)重可等于應(yīng)用于第二可能性的權(quán)重。應(yīng)用于第一可能性和第二可能性的權(quán)重可根據(jù)用于執(zhí)行過程100的設(shè)備而變化。
在一些示例中,在確定組合可能性時(shí)應(yīng)用于第一可能性和第二可能性的權(quán)重可基于第一可能性和第二可能性的相對值而變化。例如,當(dāng)?shù)诙赡苄耘c第一可能性正相關(guān)時(shí),與第二可能性相比,可對第一可能性應(yīng)用更大的權(quán)重。第二可能性與第一可能性正相關(guān)的一個(gè)示例是,在第一可能性跨第一閾值轉(zhuǎn)變之前或之后,第二可能性在預(yù)先確定的持續(xù)時(shí)間(例如,100ms-800ms)內(nèi)跨第二閾值轉(zhuǎn)變。由于第一可能性更加精確的性質(zhì),因此對第一可能性應(yīng)用更大的權(quán)重可使組合可能性更精確。在另一個(gè)示例中,當(dāng)?shù)诙赡苄耘c第一可能性負(fù)相關(guān)時(shí),與第一可能性相比,可對第二可能性應(yīng)用更大的權(quán)重。與第一可能性負(fù)相關(guān)的第二可能性的一個(gè)示例是,在第一可能性跨第一閾值轉(zhuǎn)變之前或之后,第二可能性在預(yù)先確定的持續(xù)時(shí)間(例如,100ms-800ms)內(nèi)不跨第二閾值轉(zhuǎn)變。由于第二可能性更準(zhǔn)確的性質(zhì),對第二可能性應(yīng)用更大的權(quán)重可使組合可能性更準(zhǔn)確。
可基于組合可能性來識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。在一個(gè)示例中,可部分地基于將組合可能性與預(yù)先確定的閾值進(jìn)行比較來識(shí)別起點(diǎn)或終點(diǎn)。例如,可基于組合可能性從低于預(yù)先確定的閾值轉(zhuǎn)變到高于預(yù)先確定的閾值、并保持高于預(yù)先確定的閾值長于預(yù)先確定的持續(xù)時(shí)間的時(shí)間來確定起點(diǎn)。相似地,可基于組合可能性從高于預(yù)先確定的閾值轉(zhuǎn)變到低于預(yù)先確定的閾值、并保持低于預(yù)先確定的閾值長于預(yù)先確定的持續(xù)時(shí)間的時(shí)間來確定終點(diǎn)。在另一個(gè)示例中,可部分地基于組合可能性的變化的速率來識(shí)別起點(diǎn)或終點(diǎn)。例如,可基于組合可能性在預(yù)先確定的持續(xù)時(shí)間內(nèi)增大超過預(yù)先確定的量的時(shí)間來識(shí)別起點(diǎn)。相似地,可基于組合可能性在預(yù)先確定的持續(xù)時(shí)間內(nèi)降低超過預(yù)先確定的量的時(shí)間來識(shí)別終點(diǎn)。應(yīng)當(dāng)理解,可對組合可能性應(yīng)用任何合適的預(yù)先確定的規(guī)則或邏輯條件,以識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。
參見圖2D,波形232可表示第一可能性(圖2B)和第二可能性(圖2C)的組合可能性。在過程100的框108處,識(shí)別起點(diǎn)或終點(diǎn)可至少部分地基于波形232所示的組合可能性。在該示例中,可基于比較組合可能性與第三閾值L3 234來識(shí)別起點(diǎn)或終點(diǎn)。例如,如上所述,可基于組合可能性從低于第三閾值L3 234轉(zhuǎn)變到高于第三閾值、并保持高于第三閾值L3 234長于預(yù)先確定的持續(xù)時(shí)間的時(shí)間來識(shí)別起點(diǎn)。相似地,可基于組合可能性從高于第三閾值L3 234轉(zhuǎn)變到低于第三閾值、并保持低于第三閾值L3 234長于預(yù)先確定的持續(xù)時(shí)間的時(shí)間來識(shí)別終點(diǎn)。
可同時(shí)參見圖2B-圖2D來描述波形232。從時(shí)間220到時(shí)間218,第一可能性(波形210)和第二可能性(波形230)可分別明顯低于第一閾值L1 212和第二閾值L2 216。初始權(quán)重可應(yīng)用于第一可能性和第二可能性,以確定組合可能性。應(yīng)用于第一可能性的初始權(quán)重可等于或不同于應(yīng)用于第二可能性的權(quán)重。如波形232所示,基于第一可能性和第二可能性,可確定組合可能性在時(shí)間220到時(shí)間218明顯低于第三閾值L3 234。
在時(shí)間218,當(dāng)多路重合噪聲開始出現(xiàn)時(shí),第一可能性可從低于第一閾值L1 212轉(zhuǎn)變到高于第一閾值,并在時(shí)間218到時(shí)間222期間保持高于第一閾值L1 212。在此期間,由于多路重合噪聲與授權(quán)用戶的語音模型之間匹配不佳,因此第二可能性可保持為明顯低于第二閾值L2 216。因此,第二可能性可與第一可能性負(fù)相關(guān),其中第二可能性在時(shí)間218之前或之后的預(yù)先確定的持續(xù)時(shí)間內(nèi)不從低于第二閾值L2 216轉(zhuǎn)變?yōu)楦哂谠摰诙撝?。因此,在時(shí)間218或在時(shí)間218之前50ms-500ms開始確定組合可能性時(shí),相比于第一可能性可對第二可能性應(yīng)用更大的權(quán)重。因此,盡管在此期間第一可能性超過第一閾值L1 212,但可確定組合可能性在時(shí)間218到時(shí)間222期間保持為明顯低于第三閾值L3 234。
在時(shí)間222,當(dāng)用戶語音開始出現(xiàn)時(shí),由于用戶語音與授權(quán)用戶的語音模型十分匹配,因此第二可能性可從低于第二閾值L2 216轉(zhuǎn)變?yōu)楦哂谠摰诙撝?。由于對第二可能性?yīng)用了較大的權(quán)重,因此可確定組合可能性在時(shí)間222從低于第三閾值L3 234增大到高于該第三閾值。如波形232所示,基于在此期間第一可能性和第二可能性分別高于第一閾值L1 212和第二可能性,組合可能性在第二部分204可保持高于第三閾值L3 234。基于組合可能性在時(shí)間222從低于第三閾值L3 234轉(zhuǎn)變到高于該第三閾值、并保持高于第三閾值L3 234長于預(yù)先確定的持續(xù)時(shí)間,可將音頻流中的口頭用戶請求的起點(diǎn)準(zhǔn)確地識(shí)別為時(shí)間222。
在時(shí)間224,當(dāng)用戶語音結(jié)束時(shí),第一可能性可略微下降,從而使得其從高于第一閾值L1 212轉(zhuǎn)變到低于該第一閾值。第二可能性與第一可能性正相關(guān),其中第二可能性在時(shí)間224之前或之后的預(yù)先確定的持續(xù)時(shí)間內(nèi)從低于第二閾值L2 216轉(zhuǎn)變到高于該第二閾值。因此,在時(shí)間224或在時(shí)間224之前50ms-500ms開始確定組合可能性時(shí),相比于第二可能性可對第一可能性應(yīng)用更大的權(quán)重。這對更高精度的實(shí)現(xiàn)起點(diǎn)或終點(diǎn)檢測可能是可取的。如波形232所示,可確定組合可能性在時(shí)間224從高于第三閾值L3 234轉(zhuǎn)變到低于該第三閾值,并在時(shí)間224到時(shí)間214期間保持低于第三閾值L3 234。因此,基于組合可能性在時(shí)間224從高于第三閾值L3 234轉(zhuǎn)變到低于該第三閾值、并保持低于第三閾值L3 234長于預(yù)先確定的持續(xù)時(shí)間,可將音頻流中的口頭用戶請求的終點(diǎn)準(zhǔn)確地識(shí)別為時(shí)間224。
在時(shí)間214,由于存在多路重合噪聲,第一可能性可從低于第一閾值L1 212轉(zhuǎn)變到高于該第一閾值。相比之下,由于多路重合噪聲與授權(quán)用戶的語音模型之間匹配不佳,因此第二可能性在時(shí)間214可保持為明顯低于第二閾值L2 216。因此,第二可能性與第一可能性負(fù)相關(guān),其中第二可能性在時(shí)間214之前或之后的預(yù)先確定的持續(xù)時(shí)間內(nèi)不從低于第二閾值L2 216轉(zhuǎn)變?yōu)楦哂谠摰诙撝怠R虼?,在時(shí)間214或在時(shí)間214之前50ms-500ms開始確定組合可能性時(shí),相比于第一可能性可對第二可能性應(yīng)用更大的權(quán)重。這對實(shí)現(xiàn)更高準(zhǔn)確度的起點(diǎn)或終點(diǎn)檢測可能是可取的。因此,盡管在此期間第一可能性超過第一閾值L1 212,但可確定組合可能性在時(shí)間214到時(shí)間226期間保持為明顯低于第三閾值L3 234。
在時(shí)間226,當(dāng)多路重合噪聲結(jié)束時(shí),第一可能性可從高于第一閾值L1 212轉(zhuǎn)變到低于該第一閾值,并且在部分208的其余部分保持低于第一閾值L1 212。第二可能性在第三部分208中保持為明顯低于第二閾值L2 216。如波形232所示,基于第一可能性和第二可能性在從時(shí)間226到時(shí)間228分別明顯低于第一閾值L1 212和第二閾值L2 216,可確定組合可能性在此期間保持為明顯低于第三閾值L3 234。
雖然在上述示例中,基于第二可能性與第一可能性是正相關(guān)還是負(fù)相關(guān),應(yīng)用于確定組合可能性的第一可能性與第二可能性的權(quán)重可在整個(gè)音頻流上變化,但是應(yīng)當(dāng)認(rèn)識(shí)到,在其他示例中,權(quán)重可基于優(yōu)化起點(diǎn)和終點(diǎn)檢測準(zhǔn)確度和精度所需的各種其他因素。在一些示例中,應(yīng)用于第一可能性和第二可能性的權(quán)重可在整個(gè)音頻流上恒定不變。另外,應(yīng)當(dāng)認(rèn)識(shí)到,可利用各種其他合適的定義來確定第二可能性與第一可能性是正相關(guān)還是負(fù)相關(guān)。
此外,應(yīng)當(dāng)認(rèn)識(shí)到,當(dāng)口頭用戶請求由授權(quán)用戶說出時(shí),至少部分地基于第一可能性和第二可能性來識(shí)別起點(diǎn)或終點(diǎn)可能更有利。當(dāng)口頭用戶請求由未經(jīng)授權(quán)的用戶說出時(shí),至少部分地基于第一可能性和第二可能性來識(shí)別起點(diǎn)和終點(diǎn)所產(chǎn)生的結(jié)果可能不太理想。這可能是因?yàn)榈诙赡苄詫⑹跈?quán)用戶說出的語音與其他人類語音進(jìn)行了區(qū)分,從而導(dǎo)致未經(jīng)授權(quán)的用戶的口頭用戶請求的第二可能性低,從而導(dǎo)致組合可能性也低。因此,至少部分地基于第一可能性和第二可能性來識(shí)別起點(diǎn)或終點(diǎn),對具有大量通用用戶的設(shè)備可能不太適合,而對其中與設(shè)備(例如,個(gè)人移動(dòng)設(shè)備)密切相關(guān)聯(lián)的授權(quán)用戶數(shù)目有限的設(shè)備更加適用。
雖然在圖1中以特定順序示出了過程100的框102、104、106和108,但應(yīng)當(dāng)理解,這些框可按任何順序執(zhí)行。例如,在一些示例中,可在框104之前執(zhí)行框106。此外,雖然上文參見框102、104、106和108描述了過程100,但應(yīng)當(dāng)理解,在一些情況下,過程100的一個(gè)或多個(gè)框可以是可選的,并且還可執(zhí)行附加的框。例如,在一些示例中,過程100可包括接收開始記錄音頻流的信號。在一個(gè)示例中,可響應(yīng)于接收到開始記錄音頻流的信號而在框102處執(zhí)行音頻流的接收。在特定示例中,可響應(yīng)于用戶設(shè)備接收到開始記錄音頻流的信號,而由用戶設(shè)備在框102處執(zhí)行音頻流的接收。
在其他示例中,過程100可包括在框102處接收停止記錄音頻流的信號。在一個(gè)示例中,在框102處,可響應(yīng)于接收到停止記錄的信號而停止接收音頻流。在特定示例中,在框102處,響應(yīng)于用戶設(shè)備接收到停止記錄的信號,該用戶設(shè)備可停止接收音頻流。在一個(gè)示例中,可響應(yīng)于識(shí)別口頭用戶請求的終點(diǎn)而接收停止記錄的信號。在另一個(gè)示例中,可響應(yīng)于框102處的音頻流超過預(yù)先確定的持續(xù)時(shí)間而接收停止記錄的信號。音頻流可以指用戶設(shè)備在從接收到開始記錄的信號至接收到停止記錄的信號的時(shí)間內(nèi)所接收的音頻輸入。
另外,過程100可包括基于音頻流第一部分的能量水平來確定音頻流的基線能量水平。例如,當(dāng)存在用戶語音可能性原本較低時(shí),可基于音頻流前5ms-20ms的能量水平來確定基線能量水平。在一些示例中,在框104處,可基于音頻流第二部分的能量水平來確定第一可能性。第二部分可以是音頻流第一部分之后的音頻流的一部分。
在一些示例中,過程100可還包括響應(yīng)于基線能量水平超過閾值能量水平,從而對音頻流第二部分執(zhí)行說話者認(rèn)證。可執(zhí)行說話者認(rèn)證來確定音頻流包括授權(quán)用戶說出的語音的第二可能性。在一些情況下,說話者認(rèn)證可包括確定音頻流包括授權(quán)用戶說出的語音的第二可能性。
如上所述,參見過程100的框106,第二可能性可至少部分地基于一個(gè)或多個(gè)語音模型,諸如通用背景模型和授權(quán)用戶的語音模型。在一些情況下,過程100可包括至少部分地基于音頻流的一部分來更新語音模型。例如,可至少部分地基于第一可能性和第二可能性來識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。然后可至少部分地基于口頭用戶請求來更新授權(quán)用戶的語音模型。
2.系統(tǒng)和環(huán)境
圖3示出了根據(jù)各種示例的示例性系統(tǒng)300,該系統(tǒng)用于執(zhí)行為有效的語音和音樂識(shí)別而分析音頻輸入的各個(gè)方面。系統(tǒng)300可能夠?qū)崿F(xiàn)使用說話者識(shí)別的語音信號的穩(wěn)健起點(diǎn)指示或終點(diǎn)指示。具體地講,系統(tǒng)300能夠識(shí)別音頻流中的口頭用戶請求的起點(diǎn)或終點(diǎn)。例如,系統(tǒng)300可實(shí)現(xiàn)能夠執(zhí)行上述過程100的虛擬助理。術(shù)語“虛擬助理”、“數(shù)字助理”、“智能自動(dòng)化助理”或“自動(dòng)數(shù)字助理”可以是指可解釋口頭和/或文本形式的自然語言輸入以推斷用戶意圖,并基于推斷出的用戶意圖來執(zhí)行動(dòng)作的任何信息處理系統(tǒng)(例如,系統(tǒng)300)。
虛擬助理能夠分析包括口頭用戶請求的音頻流。具體地講,虛擬助理可識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn),并對口頭用戶請求執(zhí)行語音識(shí)別,以便獲得口頭用戶請求的文本表示??煞治鑫谋颈硎緛硗茢嘤脩粢鈭D。然后,虛擬助理可對推斷出的用戶意圖進(jìn)行操作,該操作通過執(zhí)行以下內(nèi)容中的一個(gè)或多個(gè):通過設(shè)計(jì)用以實(shí)現(xiàn)所推斷出的用戶意圖的步驟和參數(shù)來識(shí)別任務(wù)流,將來自推斷出的用戶意圖的具體要求輸入到任務(wù)流中;通過調(diào)用程序、方法、服務(wù)、API等來執(zhí)行任務(wù)流;以及生成對用戶的聽覺(例如,語音)和/或視覺形式的輸出響應(yīng)。
在申請人于2011年1月10日提交的標(biāo)題為“Intelligent Automated Assistant”的美國實(shí)用新型申請序列號12/987,982中描述了虛擬助理的一個(gè)示例,該專利的全部公開內(nèi)容以引用方式并入本文。
如圖3所示,在一些示例中,虛擬助理可根據(jù)客戶端-服務(wù)器模型來實(shí)施。虛擬助理可包括在用戶設(shè)備302上執(zhí)行的客戶端側(cè)部分,以及在服務(wù)器系統(tǒng)310上執(zhí)行的服務(wù)器側(cè)部分。用戶設(shè)備302可包括任何電子設(shè)備,諸如,移動(dòng)電話、平板電腦、便攜式媒體播放器、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、PDA、電視、電視機(jī)頂盒、可穿戴電子設(shè)備等,并且可通過一個(gè)或多個(gè)網(wǎng)絡(luò)308與服務(wù)器系統(tǒng)310通信,該服務(wù)器系統(tǒng)可包括因特網(wǎng)、內(nèi)聯(lián)網(wǎng)或任何其他有線或無線公共或?qū)S镁W(wǎng)絡(luò)。下文參見圖4提供了用戶設(shè)備302的詳細(xì)描述。在用戶設(shè)備302上執(zhí)行的客戶端側(cè)部分可提供客戶端側(cè)功能,諸如,面向用戶的輸入和輸出處理以及與服務(wù)器系統(tǒng)310的通信。服務(wù)器系統(tǒng)310可為任意數(shù)量的客戶端提供服務(wù)器側(cè)功能,所述任意數(shù)量的客戶端各自位于相應(yīng)的用戶設(shè)備302上。
服務(wù)器系統(tǒng)310可包括一個(gè)或多個(gè)虛擬助理服務(wù)器314。如圖3所示,虛擬助理服務(wù)器314包括存儲(chǔ)器328、一個(gè)或多個(gè)處理器326、面向客戶端的I/O接口322和到外部服務(wù)的I/O接口316。虛擬助理服務(wù)器314的各種部件可通過一個(gè)或多個(gè)通信總線或信號線耦接在一起。存儲(chǔ)器328或存儲(chǔ)器328的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可包括一個(gè)或多個(gè)處理模塊318及數(shù)據(jù)和模型存儲(chǔ)器320。一個(gè)或多個(gè)處理模塊318可包括各種程序和指令。一個(gè)或多個(gè)處理器326可執(zhí)行一個(gè)或多個(gè)處理模塊328的程序和指令,并且向/從數(shù)據(jù)和模型存儲(chǔ)器320讀出/寫入。在本文的上下文中,“非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”可以是可包含或存儲(chǔ)程序以供指令執(zhí)行系統(tǒng)、裝置和設(shè)備使用或與其結(jié)合的任何介質(zhì)。
在一些示例中,一個(gè)或多個(gè)處理模塊318可包括用于執(zhí)行上述過程100的各個(gè)方面的各種程序和指令。具體地講,一個(gè)或多個(gè)處理模塊318可包括音頻預(yù)處理模塊、語音轉(zhuǎn)文本處理模塊、自然語言處理模塊、任務(wù)流處理模塊和服務(wù)處理模塊。音頻預(yù)處理模塊可包括用于執(zhí)行上述過程100的各個(gè)方面的指令。語音轉(zhuǎn)文本處理模塊可包括用于轉(zhuǎn)錄音頻輸入中的語音話語的指令,并且自然語言處理模塊可包括用于從轉(zhuǎn)錄的語音話語中推斷用戶意圖的指令。任務(wù)流處理模塊和服務(wù)處理模塊可包括指令,該指令用于識(shí)別完成推斷出的用戶意圖的任務(wù)流、將來自推斷出的用戶意圖的特定要求輸入任務(wù)流中、執(zhí)行任務(wù)流并生成與語音話語相關(guān)的輸出響應(yīng)。數(shù)據(jù)和模型320可包括在執(zhí)行過程100的多個(gè)方面時(shí)可訪問或參考的各種用戶數(shù)據(jù)和模型(例如,人類語音模型、授權(quán)用戶的語音模型、靜音/背景模型、通用背景模型、任務(wù)流模型和服務(wù)模型)。
在一些示例中,虛擬助理服務(wù)器314可通過用于完成任務(wù)或獲取信息的網(wǎng)絡(luò)308而與外部服務(wù)324通信,該外部服務(wù)為諸如電話服務(wù)、日歷服務(wù)、信息服務(wù)、消息服務(wù)、導(dǎo)航服務(wù)等。到外部服務(wù)的I/O接口316可促成此類通信。服務(wù)器系統(tǒng)310可在一個(gè)或多個(gè)獨(dú)立式數(shù)據(jù)處理設(shè)備或計(jì)算機(jī)的分布式網(wǎng)絡(luò)上實(shí)施。在一些示例中,服務(wù)器系統(tǒng)310可采用第三方服務(wù)提供方(例如,第三方云服務(wù)提供方)的各種虛擬設(shè)備和/或服務(wù)來提供服務(wù)器系統(tǒng)310的潛在計(jì)算資源和/或基礎(chǔ)結(jié)構(gòu)資源。
盡管在該示例中,系統(tǒng)300被描述為能夠通過虛擬助理來執(zhí)行過程100的各個(gè)方面,但是應(yīng)當(dāng)認(rèn)識(shí)到,在其他示例中,系統(tǒng)300可實(shí)現(xiàn)能夠執(zhí)行過程100的各個(gè)方面的各種其他語音處理應(yīng)用。
此外,雖然在圖3中示出虛擬助理的功能既包括客戶端側(cè)部分,也包括服務(wù)器側(cè)部分,但在一些示例中,助理的功能(包括上述過程100的功能)可作為安裝在用戶設(shè)備上的獨(dú)立應(yīng)用而實(shí)現(xiàn)。此外,虛擬助理的客戶端部分與服務(wù)器部分之間的功能劃分在不同的示例中可變化。例如,在一些示例中,一個(gè)或多個(gè)處理模塊318以及數(shù)據(jù)和模型320可被存儲(chǔ)在用戶設(shè)備302的存儲(chǔ)器中,以使得用戶設(shè)備302能夠執(zhí)行與虛擬助理相關(guān)聯(lián)的更大比例的功能或所有的功能(以及過程100)。在其他示例中,在用戶設(shè)備302上執(zhí)行的客戶端可為僅提供面向用戶的輸入和輸出處理功能,且將虛擬助理(和過程100)的所有其他功能委派給后端服務(wù)器的瘦客戶端。
3.用戶設(shè)備
圖4為根據(jù)各種示例的用戶設(shè)備302的功能框圖。如圖所示,用戶設(shè)備302可包括存儲(chǔ)器接口402、一個(gè)或多個(gè)處理器404、以及外圍設(shè)備接口406。用戶設(shè)備302中的各種部件可由一條或多條通信總線或信號線耦接到一起。用戶設(shè)備302可還包括各種傳感器、子系統(tǒng)、以及耦接至外圍設(shè)備接口406的外圍設(shè)備。傳感器、子系統(tǒng)、以及外圍設(shè)備采集信息并且/或者促成用戶設(shè)備302的各種功能。
例如,用戶設(shè)備302可包括運(yùn)動(dòng)傳感器410、光傳感器412、以及接近傳感器414,該接近傳感器耦接至外圍設(shè)備接口406以方便取向、照明和接近感測功能。一個(gè)或多個(gè)其他傳感器416,諸如定位系統(tǒng)(例如,GPS接收器)、溫度傳感器、生物計(jì)量傳感器、陀螺儀、指南針、加速度計(jì)等,也連接至外圍設(shè)備接口406,以促成相關(guān)功能。
在一些示例中,照相機(jī)子系統(tǒng)420和光學(xué)傳感器422可用于促成相機(jī)功能,諸如拍攝照片和記錄視頻剪輯。可通過一個(gè)或多個(gè)有線和/或無線通信子系統(tǒng)424來促進(jìn)通信功能,該無線通信子系統(tǒng)可包括各種通信端口、射頻接收器和發(fā)射器、和/或光學(xué)(例如,紅外)接收器和發(fā)射器??蓪⒁纛l子系統(tǒng)426耦接到揚(yáng)聲器428和麥克風(fēng)430以方便啟用音頻的功能,諸如語音識(shí)別、音樂識(shí)別、語音復(fù)制、數(shù)字記錄和電話功能。例如,在過程100的框102處,用戶設(shè)備302可經(jīng)由麥克風(fēng)430接收音頻流。麥克風(fēng)430可將音頻流轉(zhuǎn)換為代表性音頻信號(數(shù)字或模擬)。在經(jīng)音頻分析或處理之前,代表性音頻信號可被臨時(shí)存儲(chǔ)在存儲(chǔ)緩沖器中。存儲(chǔ)緩沖器可包括存儲(chǔ)器450,或者可包括音頻子系統(tǒng)426的獨(dú)立存儲(chǔ)器。
在一些示例中,用戶設(shè)備302可還包括耦接到外圍設(shè)備接口406的I/O子系統(tǒng)440。I/O子系統(tǒng)440可包括觸摸屏控制器442和/或其他輸入控制器444。觸摸屏控制器442可耦接至觸摸屏446。觸摸屏446和觸摸屏控制器442例如可使用多種觸摸靈敏度技術(shù)中的任一種來檢測接觸和移動(dòng)或它們的間斷,所述多種觸摸靈敏度技術(shù)諸如電容技術(shù)、電阻技術(shù)、紅外技術(shù)、表面聲波技術(shù)、接近傳感器陣列等。可將其他輸入控制器444耦接到其他輸入/控制設(shè)備448,例如一個(gè)或多個(gè)按鈕、搖臂開關(guān)、拇指滾輪、紅外端口、USB端口和/或指針設(shè)備(如觸筆)。在一些示例中,用戶設(shè)備402可經(jīng)由到觸摸屏446(例如,虛擬按鈕)或其他輸入/控制設(shè)備448的輸入來接收開始或停止接收音頻輸入的信號。
在一些示例中,用戶設(shè)備302可還包括耦接到存儲(chǔ)器450的存儲(chǔ)器接口402。存儲(chǔ)器450可包括任一種電子、磁性、光學(xué)、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置或設(shè)備,便攜式計(jì)算機(jī)磁盤(磁性)、隨機(jī)存取存儲(chǔ)器(RAM)(磁性)、只讀存儲(chǔ)器(ROM)(磁性)、可擦除可編程只讀存儲(chǔ)器(EPROM)(磁性)、便攜式光盤諸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW,或閃存存儲(chǔ)器諸如緊湊型閃存卡、安全數(shù)字卡、USB存儲(chǔ)設(shè)備、記憶棒等。在一些示例中,存儲(chǔ)器450的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可用于存儲(chǔ)指令(例如,用于執(zhí)行上述過程100),以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備諸如基于計(jì)算機(jī)的系統(tǒng)、包含處理器的系統(tǒng)或可從指令執(zhí)行系統(tǒng)、裝置或設(shè)備獲取指令并執(zhí)行指令的其他系統(tǒng)使用或與其結(jié)合。在其他示例中,指令(例如,用于執(zhí)行上述過程100的指令)可存儲(chǔ)在服務(wù)器系統(tǒng)310的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上,或者被分開存儲(chǔ)在存儲(chǔ)器450的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和服務(wù)器系統(tǒng)310的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上。
在一些示例中,存儲(chǔ)器450可存儲(chǔ)操作系統(tǒng)452、通信模塊454、圖形用戶界面模塊456、傳感器處理模塊458、電話模塊460和應(yīng)用程序462。操作系統(tǒng)452可包括用于處理基礎(chǔ)系統(tǒng)服務(wù)以及用于執(zhí)行硬件相關(guān)任務(wù)的指令。通信模塊454可促成與一個(gè)或多個(gè)附加設(shè)備、一個(gè)或多個(gè)計(jì)算機(jī)和/或一個(gè)或多個(gè)服務(wù)器的通信。圖形用戶界面模塊456可促成圖形用戶界面的處理。傳感器處理模塊458可促成與傳感器相關(guān)的處理和功能。電話模塊460可促成與電話相關(guān)的過程和功能。應(yīng)用程序模塊462可促成用戶應(yīng)用程序的各種功能,諸如電子消息傳送、網(wǎng)頁瀏覽、媒體處理、導(dǎo)航、成像和/或其他過程和功能。
如本文所述,存儲(chǔ)器450可還存儲(chǔ)客戶端側(cè)虛擬助理指令(例如,在虛擬助理客戶端模塊464中)和各種用戶數(shù)據(jù)和模型466,以提供虛擬助理的客戶端側(cè)功能。用戶數(shù)據(jù)和模型466可包括特定于用戶的詞匯數(shù)據(jù)、偏好數(shù)據(jù)和/或其他數(shù)據(jù),諸如,用戶的電子通訊錄、待辦事項(xiàng)列表、購物清單等。另外,用戶數(shù)據(jù)和模型466可包括人類語音模型、用戶設(shè)備302的授權(quán)用戶的語音模型、靜音/背景模型、通用背景模型、任務(wù)流模型和服務(wù)模型。虛擬助理客戶端模塊464可包括用于執(zhí)行上述過程100各個(gè)方面的模塊、指令和程序。在一些情況下,用于執(zhí)行過程100各個(gè)方面的指令可存儲(chǔ)在存儲(chǔ)器450中的獨(dú)立模塊中。例如,應(yīng)用程序模塊可包括利用語音處理的程序。此類程序可包括執(zhí)行過程100各個(gè)方面的指令。
在各種示例中,虛擬助理客戶端模塊464可包括指令,該指令用于通過用戶設(shè)備104的各種用戶界面(例如,I/O子系統(tǒng)440、音頻子系統(tǒng)426等)接受音頻輸入(例如,語音和/音樂輸入)、文本輸入、觸摸輸入和/或手勢輸入。虛擬助理客戶端模塊464可還包括用于提供音頻(例如,語音和/音樂輸出)、視覺和/或觸覺形式的輸出的指令。例如,可將輸出提供為語音、音樂、聲音、警報(bào)、文本消息、菜單、圖形、視頻、動(dòng)畫、振動(dòng)、和/或以上兩者或更多者的組合。在操作期間,用戶設(shè)備302可使用通信子系統(tǒng)424與虛擬助理服務(wù)器通信,以執(zhí)行與虛擬助理相關(guān)聯(lián)的功能。
在各種示例中,存儲(chǔ)器450可包括另外的指令或更少的指令。此外,可在硬件和/或固件中包括在一個(gè)或多個(gè)信號處理和/或?qū)S眉呻娐分袌?zhí)行用戶設(shè)備302的各種功能。
4.電子設(shè)備
圖5示出了根據(jù)各種所述示例的原理進(jìn)行配置的電子設(shè)備500的功能框圖。該設(shè)備的功能塊可任選地由執(zhí)行各種所述示例的原理的硬件、軟件、或硬件和軟件的組合來實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,圖5中所述的功能塊可任選地被組合或被分離為子塊,以便實(shí)現(xiàn)各種所述示例的原理。因此,本文的描述任選地支持本文所述的功能塊的任何可能的組合或分離或進(jìn)一步限定。
如圖5所示,電子設(shè)備500可包括被配置為顯示用戶界面和接收觸摸輸入的觸摸屏顯示單元502,以及被配置為接收音頻輸入的音頻接收單元504。在一些示例中,電子設(shè)備500可包括被配置為生成聲音的揚(yáng)聲器單元506,以及被配置為接收用戶輸入并響應(yīng)于接收到用戶輸入而生成信號的輸入單元507。例如,信號可以是使用音頻接收單元504開始記錄音頻輸入的信號。電子設(shè)備500可還包括耦接到觸摸屏顯示單元502和音頻接收單元504(并且可選地耦接到揚(yáng)聲器單元506和輸入單元507)的處理單元508。在一些示例中,處理單元508可包括接收單元510、第一可能性確定單元512、第二可能性確定單元514和起點(diǎn)或終點(diǎn)識(shí)別單元516。在一些示例中,處理單元508可還包括語音模型更新單元518、信號接收單元520和基線能量確定單元522。
處理單元508可被配置為接收包括口頭用戶請求(例如,來自音頻接收單元504并使用接收單元510)的音頻流。處理單元508可被配置為(例如,使用第一可能性確定單元512)確定音頻流包括用戶語音的第一可能性。處理單元508可被配置為(例如,使用第二可能性確定單元514)確定音頻流包括電子設(shè)備500的授權(quán)用戶說出的用戶語音的第二可能性。處理單元508可還被配置為(例如,使用起點(diǎn)或終點(diǎn)識(shí)別單元516)至少部分地基于第一可能性和第二可能性來識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。
在一些示例中,音頻流可包括多個(gè)音頻幀。在這些示例中,處理單元508可被配置為(例如,使用第一可能性確定單元512)確定多個(gè)音頻幀中的音頻幀包括用戶語音的可能性。此外,音頻流可包括多個(gè)音頻段。在這些示例中,處理單元508可被配置為(例如,使用第二可能性確定單元514)確定多個(gè)音頻段中的音頻段包括授權(quán)用戶說出的用戶語音的可能性。在一些示例中,音頻段的持續(xù)時(shí)間可長于音頻幀的持續(xù)時(shí)間。在一個(gè)此類示例中,音頻段的持續(xù)時(shí)間可比音頻幀的持續(xù)時(shí)間長至少五倍。
在一些示例中,確定音頻幀包括用戶語音的可能性可在確定多個(gè)音頻段中的任何音頻段包括授權(quán)用戶說出的用戶語音的可能性之前執(zhí)行。
在一些示例中,第一可能性可至少部分地基于音頻流的能量水平。
在一些示例中,第二可能性可至少部分地基于授權(quán)用戶的語音模型。語音模型可至少部分地基于在接收到音頻流之前接收到的授權(quán)用戶的語音。在一些示例中,處理單元508可被配置為(例如,使用語音模型更新單元518)至少部分地基于音頻流的一部分來更新語音模型。
在一些示例中,授權(quán)用戶可以是電子設(shè)備500的若干授權(quán)用戶中的一個(gè)授權(quán)用戶。
在一些示例中,處理單元508可被配置為(例如,使用第一可能性確定單元512)至少部分地基于音頻流的能量水平來確定音頻流包括用戶語音的第一可能性。響應(yīng)于能量水平超過閾值能量水平長于閾值持續(xù)時(shí)間,處理單元508可被配置為(例如,使用第二可能性確定單元514)對音頻流執(zhí)行說話者認(rèn)證來確定音頻流包括電子設(shè)備的授權(quán)用戶說出的語音的第二可能性。處理單元508可被配置為(例如,使用起點(diǎn)或終點(diǎn)識(shí)別單元516)至少部分地基于第一可能性和第二可能性來識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。
在一些示例中,處理單元508可被配置為(例如,由輸入單元507產(chǎn)生并使用信號接收單元520)接收開始記錄包括口頭用戶請求的音頻輸入或音頻流的信號。處理單元508可被配置為(例如,使用基線能量確定單元522)基于音頻輸入的第一部分的能量水平來確定音頻輸入的基線能量水平。處理單元508可被配置為(例如,使用第一可能性確定單元512)基于音頻輸入的第二部分的能量水平來確定音頻輸入包括用戶語音的第一可能性。響應(yīng)于基線能量水平超過閾值能量水平,處理單元508可被配置為(例如,使用第二可能性確定單元514)對音頻輸入的第二部分執(zhí)行說話者認(rèn)證來確定音頻輸入包括電子設(shè)備的授權(quán)用戶說出的語音的第二可能性。處理單元508可被配置為(例如,使用起點(diǎn)或終點(diǎn)識(shí)別單元516)至少部分地基于第一可能性和第二可能性來識(shí)別口頭用戶請求的起點(diǎn)或終點(diǎn)。
雖然參照附圖對示例進(jìn)行了全面的描述,但應(yīng)注意,各種變化和修改對于本領(lǐng)域內(nèi)的技術(shù)人員而言將變得顯而易見。應(yīng)當(dāng)理解,此類變化和修改被認(rèn)為包括在由所附權(quán)利要求所限定的各種示例的范圍內(nèi)。
在一些情況下,上述系統(tǒng)、過程和設(shè)備可包括采集和使用得自各種來源的數(shù)據(jù),以改進(jìn)向用戶遞送其可能感興趣的啟發(fā)內(nèi)容或任何其他內(nèi)容。本公開預(yù)期,在一些實(shí)例中,這些所采集的數(shù)據(jù)可包括唯一地識(shí)別或可用于聯(lián)系或定位特定人員的個(gè)人信息數(shù)據(jù)。此類個(gè)人信息數(shù)據(jù)可包括人口數(shù)據(jù)、基于位置的數(shù)據(jù)、電話號碼、電子郵件地址、家庭地址或任何其他識(shí)別信息。
本公開認(rèn)識(shí)到結(jié)合上述系統(tǒng)、過程和設(shè)備使用此類個(gè)人信息數(shù)據(jù)可用于使用戶受益。例如,該個(gè)人信息數(shù)據(jù)可用于遞送用戶較感興趣的目標(biāo)內(nèi)容。因此,使用此類個(gè)人信息數(shù)據(jù)使得能夠?qū)λf送的內(nèi)容進(jìn)行有計(jì)劃的控制。此外,本公開還預(yù)期個(gè)人信息數(shù)據(jù)有益于用戶的其他用途。
本公開還預(yù)期負(fù)責(zé)此類個(gè)人信息數(shù)據(jù)的收集、分析、公開、傳輸、存儲(chǔ)或其他用途的實(shí)體將遵守已確立的隱私政策和/或隱私實(shí)踐。具體地,此類實(shí)體應(yīng)當(dāng)實(shí)行并堅(jiān)持使用被公認(rèn)為滿足或超出對維護(hù)個(gè)人信息數(shù)據(jù)的隱私性和安全性的行業(yè)或政府要求的隱私政策和實(shí)踐。例如,來自用戶的個(gè)人信息應(yīng)當(dāng)被收集用于實(shí)體的合法且合理的用途,并且不在這些合法使用之外共享或出售。另外,此類收集應(yīng)當(dāng)僅在用戶知情同意之后進(jìn)行。另外,此類實(shí)體應(yīng)采取任何所需的步驟,以保障和保護(hù)對此類個(gè)人信息數(shù)據(jù)的訪問,并且確保能夠訪問個(gè)人信息數(shù)據(jù)的其他人遵守他們的隱私政策和程序。另外,這種實(shí)體可使其本身經(jīng)受第三方評估以證明其遵守廣泛接受的隱私政策和實(shí)踐。
不管上述情況如何,本公開還預(yù)期用戶選擇性地阻止使用或訪問個(gè)人信息數(shù)據(jù)的示例。即本公開預(yù)期可提供硬件元件和/或軟件元件,以防止或阻止對此類個(gè)人信息數(shù)據(jù)的訪問。例如,就廣告遞送服務(wù)而言,上述系統(tǒng)和設(shè)備可被配置為在注冊服務(wù)期間允許用戶選擇“加入”或“退出”參與對個(gè)人信息數(shù)據(jù)的收集。又如,用戶可選擇不為目標(biāo)內(nèi)容遞送服務(wù)提供位置信息。再如,用戶可選擇不提供精確的位置信息,但準(zhǔn)許傳輸位置區(qū)域信息。
因此,雖然本公開廣泛地覆蓋了使用個(gè)人信息數(shù)據(jù)來實(shí)現(xiàn)一個(gè)或多個(gè)各種所公開的示例,但本公開還預(yù)期各種示例也可在無需訪問此類個(gè)人信息數(shù)據(jù)的情況下被實(shí)現(xiàn)。即,本文所公開的各種示例不會(huì)由于缺少此類個(gè)人信息數(shù)據(jù)的全部或一部分而無法正常進(jìn)行。例如,可通過基于非個(gè)人信息數(shù)據(jù)或絕對最低限度的個(gè)人信息,諸如與用戶相關(guān)聯(lián)的設(shè)備所請求的內(nèi)容、對內(nèi)容傳送服務(wù)可用的其他非個(gè)人信息或公開可用信息來推斷偏好來選擇內(nèi)容并傳送給用戶。