從低功率始終偵聽模式到高功率語音識別模式的轉(zhuǎn)換的制作方法
【技術(shù)領(lǐng)域】
[0001 ]本文所描述的實施例一般涉及將計算設(shè)備從低功率和/或低功能狀態(tài)轉(zhuǎn)換到較高功率和/或較高功能狀態(tài)。更特別地,所公開的實施例涉及使用低功率語音觸發(fā)來無縫地發(fā)起主處理器從低功率和/或低功能狀態(tài)到其中可以執(zhí)行多通道語音識別的較高功率狀態(tài)和/或較高功能狀態(tài)的轉(zhuǎn)換。
【背景技術(shù)】
[0002]語音識別一般地在計算設(shè)備中,并且特別地在諸如智能電話、平板電腦和膝上型計算機之類的移動計算設(shè)備中正在變得普遍。目前,發(fā)起語音識別應(yīng)用通常要求用戶操縱致動器(例如按動按鈕)并且在用戶能夠說出命令(諸如“今天天氣如何?”)之前等待指示計算設(shè)備準(zhǔn)備好偵聽的提示(例如音頻音調(diào)和/或用戶接口顯示麥克風(fēng))。換言之,當(dāng)前語音識別是多步過程,包括由用戶的發(fā)起步驟,接著是由計算設(shè)備的提示步驟之前的停頓。只有在提示步驟之后用戶才能夠繼續(xù)進行以提供命令和/或以其它方式與計算設(shè)備的語音識別應(yīng)用對接。
【附圖說明】
[0003]圖1是根據(jù)一個實施例的計算設(shè)備的示意圖。
[0004]圖2是根據(jù)一個實施例的數(shù)字信號處理器的示意圖。
[0005]圖3是根據(jù)一個實施例的計算設(shè)備的關(guān)系圖。
[0006]圖4A和4B是根據(jù)一個實施例的將計算設(shè)備從低功率模式轉(zhuǎn)換到較高功率模式的方法的流程圖。
【具體實施方式】
[0007]目前,為了發(fā)起計算設(shè)備上的語音識別應(yīng)用,利用多步過程。例如,首先,要求用戶操縱致動器(例如按動按鈕)或說出觸發(fā)短語以警告和/或喚醒主處理器語音識別功能,并且其次,在用戶能夠說出命令或以其它方式與計算設(shè)備的語音識別功能對接之前,用戶必須等待計算設(shè)備提供指示計算設(shè)備準(zhǔn)備好偵聽的提示。此示例過程至少包括由用戶的發(fā)起步驟,接著是由計算設(shè)備的提示步驟。在提示步驟之后,用戶可以繼續(xù)進行以提供命令和/或以其它方式與計算設(shè)備的語音識別功能對接。
[0008]本發(fā)明人已經(jīng)認識到,語音識別的多步發(fā)起是麻煩且不自然的。用戶體驗受等待計算設(shè)備轉(zhuǎn)換到較高功能模式并且提供提示以指示準(zhǔn)備好施行語音識別的時間所影響。所公開的實施例提供主處理器和/或計算設(shè)備從低功能模式(其可以是低功率模式和/或有限特征模式)到高功能模式(其可以是其中可以完成單通道和/或多通道音頻處理和完整詞匯語音識別的較高功率模式和/或較高特征模式)的無縫、單步和語音觸發(fā)的轉(zhuǎn)換。所公開的實施例通過使得實現(xiàn)系統(tǒng)從低功能模式到高功能模式的單步(或“一次性(one-shot)”)無縫轉(zhuǎn)換來使得實現(xiàn)更加自然的語音交互。
[0009]在某些實施例中,低功能模式是低功率模式。低功率模式可以包括低功率始終偵聽功能。在某些這樣的實施例中,低功能模式還可以是有限特征模式,其中主處理器的某些特征是不活動的或者以其它方式是不可用的。在其它實施例中,低功能模式是有限特征模式,其中主處理器的某些特征是不活動的或者以其它方式是不可用的。在某些實施例中,高功能模式是高(或較高)功率模式和/或較高特征模式,其中相比于在低功能模式中,主處理器的更多特征是活動的或者以其它方式可操作。高功能模式可以包括大詞匯語音識別功會K。
[0010]所公開的實施例可以在主處理器處于低功能模式中時通過低功率音頻處理器來捕獲第一音頻樣本。低功率音頻處理器可以識別第一音頻樣本中的預(yù)定的音頻模式(pattern)(例如喚醒短語,諸如“嗨助理”)。低功率音頻處理器可以在識別到預(yù)定的音頻模式時,觸發(fā)主處理器轉(zhuǎn)換到高功能模式。跟隨預(yù)定的音頻模式的端點的第一音頻樣本的端部可以被拷貝或以其它方式被存儲在主處理器可訪問的系統(tǒng)存儲器中。后續(xù)音頻樣本或第二音頻樣本被捕獲并且被與第一音頻樣本的端部一起存儲在系統(tǒng)存儲器中。一旦主處理器喚醒并且從低功能模式轉(zhuǎn)換到高功能模式,則第一音頻樣本和第二音頻樣本的端部可以由主處理器在高功能模式中處理。高功能模式中的主處理器可以執(zhí)行完整詞匯語音識別以識別命令并且基于所檢測的命令執(zhí)行功能并且以其它方式能夠?qū)崿F(xiàn)語音交互。
[0011]圖1是根據(jù)一個實施例的計算設(shè)備100的示意圖。計算設(shè)備100包括主處理器102、低功率音頻處理器104或其它專用硬件、一個或多個音頻輸入106(例如麥克風(fēng)或麥克風(fēng)端口)、音頻輸出108(例如揚聲器或揚聲器端口)和存儲器110。計算設(shè)備100可以是移動設(shè)備,諸如智能電話、平板電腦、膝上型電腦、超極本?、個人數(shù)字助理等。在其它實施例中,計算設(shè)備100還可以是臺式計算機、多合一或可穿戴設(shè)備(例如手表)。在又一實施例中,計算設(shè)備100可以是機動車的儀表盤單元或其它處理單元。計算設(shè)備100可以被配置成使得在處于低功率和/或低功能狀態(tài)中的時實現(xiàn)語音識別應(yīng)用的無縫或一步激活。
[0012]主處理器102可以是計算設(shè)備100的中央處理單元(CPU)或應(yīng)用處理器,或者可以是任何類型的處理器,諸如微處理器、嵌入式處理器、數(shù)字信號處理器(DSP)、網(wǎng)絡(luò)處理器或執(zhí)行代碼的其它設(shè)備。主處理器102可以包括一個或多個處理元件或核。主處理器102具有低功能模式(例如低功率模式或狀態(tài)和/或低功能模式或狀態(tài)),諸如待機模式、休眠模式、或睡眠模式,其可以在例如主處理器102未被使用時節(jié)省功率和電池壽命。主處理器102還可以具有一個或多個較高功能模式(例如較高功率模式或狀態(tài)和/或較高功能模式或狀態(tài)),諸如操作模式或全功率模式,其中主處理器102可以執(zhí)行指令以執(zhí)行例如計算和/或數(shù)據(jù)處理任務(wù)。例如,主處理器102可以被激活或觸發(fā)以從低功能模式醒來(或“喚醒”)并且可以能夠執(zhí)行大詞匯語音識別。如可以被認識到的,主處理器102可以能夠執(zhí)行其它計算任務(wù),諸如媒體內(nèi)容回放。
[0013]低功率音頻處理器104可以是第二處理器(或其它硬件),其以比主處理器102的(多個)高功能模式更少的功率進行操作。低功率音頻處理器104可以是數(shù)字信號處理器。低功率音頻處理器104可以檢測預(yù)定的音頻模式的說出并且觸發(fā)主處理器102從低功能模式轉(zhuǎn)換到高功能模式。低功率音頻處理器104可以使得實現(xiàn)從低功能模式和低功率小詞匯語音識別到高功能模式和完整詞匯語音識別的單個步驟和/或無縫轉(zhuǎn)換。
[0014]低功率音頻處理器104可以配置成對通過音頻輸入106接收(諸如經(jīng)由麥克風(fēng))的音頻信號進行采樣。麥克風(fēng)可以是板載麥克風(fēng)(例如板載計算設(shè)備100)或可以是經(jīng)由音頻輸入端口 106耦合到計算設(shè)備100的另一設(shè)備(諸如耳機)的麥克風(fēng)。
[0015]低功率音頻處理器104可以存儲來自音頻信號的音頻樣本。音頻樣本可以被存儲在低功率音頻處理器104的存儲設(shè)備(例如緩沖器)中。例如,低功率音頻處理器104可以包括緊密耦合的靜態(tài)隨機存取存儲器(SRAM)。作為另一示例,低功率音頻處理器104的存儲設(shè)備可以是數(shù)據(jù)緊密耦合存儲器(DCCM)。循環(huán)緩沖器(circular buffer)可以被配置在存儲設(shè)備中并且可以在低功率音頻處理器104對音頻信號進行采樣時恒定地寫入和蓋寫有音頻樣本。在其它實施例中,音頻樣本可以被存儲在低功率音頻處理器104外部和/或以其它方式對主處理器102可訪問的存儲器110中。
[0016]—檢測到噪聲,低功率音頻處理器104就可以發(fā)起低功率語音識別模式以分析或以其它方式處理音頻樣本以識別預(yù)定的音頻模式。預(yù)定的音頻模式可以是語音觸發(fā)或者預(yù)配置的喚醒短語。例如,語音觸發(fā)或喚醒短語可以是“嗨助理”。預(yù)定的音頻模式可以由用戶可配置。系統(tǒng)可以識別的預(yù)定的音頻模式的數(shù)目可能是有限的,使得低功率音頻處理器104僅需要執(zhí)行小詞匯語音識別并且不需要執(zhí)行大詞匯語音識別。例如,低功率音頻處理器104可以能夠識別預(yù)定的音頻模式的小集合,諸如五個語音觸發(fā)。識別此小集合的預(yù)定音頻模式之一的小詞匯語音識別可以利用有限量的處理和/或功率來完成。除了限制預(yù)定音頻模式的數(shù)目之外或者作為對其的替換,預(yù)定的音頻模式可以消耗的時間量可以例如被限制到大約兩秒??梢栽趹?yīng)用層處強加限制以確保到達硬件的音頻樣本可用來完成低功率語音識另O。例如,當(dāng)終端用戶說道“嗨助理”作為喚醒短語時,音頻樣本的第一集合的持續(xù)時間可以被限制到兩秒。
[0017]一旦檢測到預(yù)定的音頻模式,低功率音頻處理器104就可以觸發(fā)主處理器102以喚醒或者從低功能模式轉(zhuǎn)換到高功能模式。低功率音頻處理器104繼續(xù)捕獲音頻樣本??梢约せ盍硗獾囊纛l輸入106,諸如另外的板載麥克風(fēng)。在主處理器102和/或計算設(shè)備100喚醒并且從低功能模式轉(zhuǎn)換到高功能模式所花費的時段期間,可以發(fā)生預(yù)處理。預(yù)處理可以包括聲學(xué)回波消除、噪聲抑制等以凈化音頻樣本并且從而增強大詞匯語音識別。在預(yù)定音頻模式的端點之后的第一音頻樣本的部分和第二音頻樣本可以被沖刷(flush)到系統(tǒng)存儲器110。例如,第二音頻樣本和第一音頻樣本的端部可以被拷貝到系統(tǒng)存儲器110中的環(huán)形緩沖器。
[0018]存儲器110對主處理器102可訪問。根據(jù)一個實施例,系統(tǒng)存儲器110可以包括雙數(shù)據(jù)速率同步動態(tài)隨機存取存儲器(DDR SDRAD0
[0019]一旦主處理器102已經(jīng)轉(zhuǎn)換到高功能模式,預(yù)定音頻模式被低功率音頻處理器104檢測到的通知就可以被主處理器接收。通知可以經(jīng)由中斷、過程間通信(IPC)、門鈴寄存器或