欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于增強(qiáng)話音識別準(zhǔn)確度的有地理標(biāo)記的環(huán)境音頻的制作方法

文檔序號:2832745閱讀:334來源:國知局
專利名稱:用于增強(qiáng)話音識別準(zhǔn)確度的有地理標(biāo)記的環(huán)境音頻的制作方法
技術(shù)領(lǐng)域
本說明書涉及話音識別。
背景技術(shù)
如在本說明書中所用,“搜索查詢”包括當(dāng)用戶請求搜索引擎執(zhí)行搜索查詢時用戶向搜索引擎提交的一個或者多個查詢檢索詞,其中“檢索詞”或者“查詢檢索詞”包括一個 或者多個完全或者部分字詞、字符或者字符串。搜索查詢的“結(jié)果”(或者“搜索結(jié)果”)包括統(tǒng)一資源定位符(URI)以及其它內(nèi)容,該URI引用搜索引擎確定響應(yīng)于搜索查詢的資源。搜索結(jié)果可以包括其它事物、比如標(biāo)題、預(yù)覽圖像、用戶評分、地圖或者方向、對應(yīng)資源的描述或者已經(jīng)從對應(yīng)資源自動或者人工提取的或者以別的方式與對應(yīng)資源關(guān)聯(lián)的文字摘錄。在其它方式之中,用戶可以通過在鍵盤上鍵入或者在話音查詢的上下文中通過向移動設(shè)備的麥克風(fēng)中口述查詢來錄入搜索查詢的查詢檢索詞。當(dāng)提交語音查詢時,移動設(shè)備的麥克風(fēng)除了用戶的口述話語之外還可能記錄環(huán)境噪聲或者聲音或者“環(huán)境音頻”。例如,環(huán)境音頻可以包括處于用戶周圍的其他人的背景聊天或者談話或者自然(例如,狗吠)或者人造物體(例如,辦公室、機(jī)場或者公路噪聲或者建筑活動)生成的噪聲。環(huán)境音頻可能部分地遮蔽用戶的語音從而使得自動化話音識別(“ASR”)引擎難以準(zhǔn)確識別口述話語。

發(fā)明內(nèi)容
一般而言,可以在用于ASR引擎為地理區(qū)域適配、訓(xùn)練、選擇或者另外生成噪聲模型并且用于將這一噪聲模型應(yīng)用于從位于這一地理區(qū)域中或者附近的移動設(shè)備接收的“有地理標(biāo)記的”音頻信號(或者“采樣”或者“波形”)的方法中體現(xiàn)本說明書中描述的主題內(nèi)容的一個創(chuàng)新方面。如本說明書所用,“有地理標(biāo)記的”音頻信號指代已經(jīng)與地理位置元數(shù)據(jù)或者地理空間元數(shù)據(jù)關(guān)聯(lián)或者用地理位置元數(shù)據(jù)或者地理空間元數(shù)據(jù)“標(biāo)記”的信號。位置元數(shù)據(jù)可以包括導(dǎo)航坐標(biāo)如緯度和經(jīng)度、海拔信息、方位或者指向信息或者與位置相關(guān)聯(lián)的名稱或者地址以及其它內(nèi)容。更具體而言,方法包括接收與由多個移動設(shè)備在多個地理位置記錄的環(huán)境音頻對應(yīng)的有地理標(biāo)記的首頻/[目號;存儲有地理標(biāo)記的首頻/[目號;以及使用有地理標(biāo)記的首頻信號的所選子集來針對特定地理區(qū)域生成噪聲模型。在接收移動設(shè)備在特定地理區(qū)域內(nèi)或者附近記錄的話語時,ASR引擎可以使用針對特定地理區(qū)域生成的噪聲模型來對音頻信號執(zhí)行噪聲補(bǔ)償,并且可以對噪聲補(bǔ)償?shù)囊纛l信號執(zhí)行話音識別。注意,可以在接收話語之前、期間或者之后生成用于特定地理區(qū)域的噪聲模型。
一般而言,可以在包括以下動作的方法中體現(xiàn)本說明書中描述的主題內(nèi)容的另一創(chuàng)新方面接收與由多個移動設(shè)備在多個地理位置記錄的環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號;接收與由特定移動設(shè)備記錄的話語對應(yīng)的音頻信號;確定與特定移動設(shè)備相關(guān)聯(lián)的特定地理位置;使用有地理標(biāo)記的音頻信號的子集來針對特定地理位置生成噪聲模型,其中使用已經(jīng)針對特定地理位置生成的噪聲模型來對與話語對應(yīng)的音頻信號執(zhí)行噪聲補(bǔ)
\-ZX O這些方面的其它實(shí)施例包括被配置成執(zhí)行方法的動作的對應(yīng)系統(tǒng)、裝置和計(jì)算機(jī)程序,所述計(jì)算機(jī)程序編碼在計(jì)算機(jī)存儲設(shè)備上。這些和其它實(shí)施例可以各自可選地包括以下特征中的一個或者多個特征。在各種示例中,使用噪聲補(bǔ)償?shù)囊纛l信號來對話語執(zhí)行話音識別;生成噪聲模型還包括在接收與話語對應(yīng)的音頻信號之前生成噪聲模型;生成噪聲模型還包括在接收與話語對應(yīng)的音頻信號之后生成噪聲模型;為每個有地理標(biāo)記的音頻信號,確定在特定地理位置和與有地理標(biāo)記的音頻信號相關(guān)聯(lián)的地理位置之間的距離,以及選擇與在特定地理位置的預(yù)定距離內(nèi)的 地理位置相關(guān)聯(lián)、或者與在N個與特定地理位置最近的地理位置之中的地理位置相關(guān)聯(lián)的有地理標(biāo)記的音頻信號作為有地理標(biāo)記的音頻信號的子集;選擇與特定地理位置相關(guān)聯(lián)的有地理標(biāo)記的音頻信號作為有地理標(biāo)記的音頻信號的子集;基于特定地理位置、并且基于與話語關(guān)聯(lián)的上下文數(shù)據(jù)選擇有地理標(biāo)記的音頻信號的子集;上下文數(shù)據(jù)包括引用移動設(shè)備何時記錄話語時的時間或者日期的數(shù)據(jù)、引用特定移動設(shè)備在記錄話語時測量的速度或者運(yùn)動量的數(shù)據(jù)、引用移動設(shè)備的設(shè)置的數(shù)據(jù)、或者引用移動設(shè)備的類型的數(shù)據(jù);話語代表語音搜索查詢,或者向數(shù)字口授應(yīng)用或者對話系統(tǒng)的輸入;確定特定地理位置還包括從移動設(shè)備接收引用特定地理位置的數(shù)據(jù);確定特定地理位置還包括確定與設(shè)備相關(guān)聯(lián)的以往地理位置或者默認(rèn)地理位置;生成噪聲模型包括使用有地理標(biāo)記的音頻信號的子集作為訓(xùn)練集來訓(xùn)練高斯混合模型(GMM);生成話語的一個或者多個候選轉(zhuǎn)錄,使用一個或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢;處理接收的有地理標(biāo)記的音頻信號以排除環(huán)境音頻的、包括多個移動設(shè)備的用戶的語音的部分;從針對多個地理位置生成的多個噪聲模型之中選擇針對特定地理位置生成的噪聲模型;限定圍繞特定地理位置的區(qū)域,從多個噪聲模型之中選擇與區(qū)域內(nèi)的地理位置相關(guān)聯(lián)的多個噪聲模型,生成選擇的噪聲模型的加權(quán)組合,其中使用選擇的噪聲模型的加權(quán)組合來執(zhí)行噪聲補(bǔ)償;生成噪聲模型還包括使用有地理標(biāo)記的音頻信號的子集以及使用音頻信號的與話語對應(yīng)的環(huán)境音頻部分來為特定地理位置生成噪聲模型;以及/或者區(qū)域被限定為圍繞特定地理位置,以及選擇在區(qū)域內(nèi)記錄的有地理標(biāo)記的音頻信號作為有地理標(biāo)記的音頻信號的子集可以實(shí)現(xiàn)本說明書中描述的主題內(nèi)容的具體實(shí)施例以實(shí)現(xiàn)以下優(yōu)點(diǎn)中的一個或者多個優(yōu)點(diǎn)。ASR引擎可以提供音頻信號的更好噪聲抑制??梢蕴岣咴捯糇R別準(zhǔn)確度??梢允褂铆h(huán)境音頻信號來生成噪聲模型,這些環(huán)境音頻信號準(zhǔn)確反映地理區(qū)域中的實(shí)際環(huán)境噪聲。可以在服務(wù)器側(cè)而不是在客戶端設(shè)備上執(zhí)行話音識別和噪聲模型生成,以允許更好的過程優(yōu)化并且增加計(jì)算效率。在附圖和下文描述中闡述本說明書中描述的主題內(nèi)容的一個或者多個實(shí)施例的細(xì)節(jié)。主題內(nèi)容的其它潛在特征、方面和優(yōu)點(diǎn)將從說明書、附圖和權(quán)利要求中變得容易理解。


圖I是使用有地理標(biāo)記的環(huán)境音頻以增強(qiáng)話音識別準(zhǔn)確度的示例系統(tǒng)的圖。圖2是過程的示例的流程圖。圖3是過程的另一示例的流程圖。圖4是過程的示例的泳道(swim lane)圖。各種附圖中的相似標(biāo)號指示相似要素。
具體實(shí)施例方式圖I是使用有地理標(biāo)記的環(huán)境音頻以增強(qiáng)話音識別準(zhǔn)確度的示例系統(tǒng)100的圖。圖I還圖示了在狀態(tài)(a)至狀態(tài)⑴期間在系統(tǒng)100內(nèi)的數(shù)據(jù)流以及在狀態(tài)⑴期間在移 動設(shè)備104上顯示的用戶接口 158。更具體而言,系統(tǒng)100包括通過一個或者多個網(wǎng)絡(luò)110與包括移動設(shè)備102和移動設(shè)備104的移動客戶端通信設(shè)備通信的服務(wù)器106和ASR引擎108。服務(wù)器106可以是搜索引擎、口授引擎、對話系統(tǒng)或者是使用轉(zhuǎn)錄的話音的任何其它引擎或者系統(tǒng)。網(wǎng)絡(luò)110可以包括無線蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)(WLAN)或者Wi-Fi網(wǎng)絡(luò)、第三代(3G)或者第四代(4G)移動電信網(wǎng)絡(luò)、專用網(wǎng)絡(luò)(如內(nèi)聯(lián)網(wǎng))、公用網(wǎng)絡(luò)(如因特網(wǎng))或者其任何適當(dāng)組合。狀態(tài)(a)至狀態(tài)⑴描繪了當(dāng)系統(tǒng)100執(zhí)行示例過程時出現(xiàn)的數(shù)據(jù)流。狀態(tài)(a)至狀態(tài)(i)可以是時序狀態(tài),或者它們可以在與所圖示序列不同的序列中出現(xiàn)。簡言之,根據(jù)圖I中所示示例過程,ASR引擎108從移動設(shè)備102接收有地理標(biāo)記的環(huán)境音頻信號130并且針對多個地理位置生成地理特有噪聲模型112。當(dāng)接收與移動設(shè)備104記錄的話語對應(yīng)的音頻信號138時,確定與移動設(shè)備104(或者移動設(shè)備104的用戶)相關(guān)聯(lián)的特定地理位置。ASR引擎108使用與特定地理位置匹配的或者以別的方式適合于特定地理位置的地理特有噪聲模型來轉(zhuǎn)錄話語,并且從ASR引擎108向服務(wù)器106傳達(dá)一個或者多個候選轉(zhuǎn)錄146。當(dāng)服務(wù)器106是搜索引擎時,服務(wù)器106使用候選轉(zhuǎn)錄146來執(zhí)行一個或者多個搜索查詢、生成搜索結(jié)果152并且向移動設(shè)備104傳達(dá)搜索結(jié)果152用于顯示。更具體而言,在狀態(tài)(a)期間,移動設(shè)備102通過網(wǎng)絡(luò)110向ASR引擎108傳達(dá)包括環(huán)境音頻的有地理標(biāo)記的音頻信號130(本說明書稱之為“環(huán)境音頻信號”)。一般而言,環(huán)境音頻可以包括(自然地或者以別的方式)出現(xiàn)于特定位置的任何環(huán)境聲音。環(huán)境音頻通常排除移動設(shè)備的用戶的聲音、話語或者語音。設(shè)備102a傳達(dá)已經(jīng)用引用“位置A”的元數(shù)據(jù)132a標(biāo)記的音頻信號130a,設(shè)備102b傳達(dá)已經(jīng)用引用“位置B”的元數(shù)據(jù)132b標(biāo)記的音頻信號130b,以及設(shè)備102c傳達(dá)已經(jīng)用也引用“位置B”的元數(shù)據(jù)132c標(biāo)記的音頻信號130c。如圖所示,移動設(shè)備102可以將元數(shù)據(jù)132與音頻信號130進(jìn)行關(guān)聯(lián),或者ASR引擎108或者另一服務(wù)器可以在推斷移動設(shè)備102的(或者移動設(shè)備102的用戶的)位置之后關(guān)聯(lián)元數(shù)據(jù)與音頻信號130。環(huán)境音頻信號130可以各自包括相對高質(zhì)量音頻(如十六千赫茲無損音頻信號)的兩秒(或者更多)摘錄。環(huán)境音頻信號130可以與元數(shù)據(jù)相關(guān)聯(lián),該元數(shù)據(jù)引用相應(yīng)移動設(shè)備102在記錄、捕獲或者獲得環(huán)境音頻時的地理位置。
可以從移動設(shè)備102向ASR引擎108人工上傳環(huán)境音頻信號130。例如,可以與生成并且向公用圖像數(shù)據(jù)庫或者貯存庫傳達(dá)圖像結(jié)合生成并且傳達(dá)環(huán)境音頻信號130。備選地,對于選擇參與的用戶,可以自動獲得并且從移動設(shè)備102向ASR引擎108傳達(dá)環(huán)境音頻信號130而在向ASR引擎108傳達(dá)每個環(huán)境音頻信號之前不請求顯式用戶致動。元數(shù)據(jù)132可以用任何數(shù)目的不同格式或者細(xì)節(jié)或者粒度水平描述位置。例如,元數(shù)據(jù)132a可以包括與移動設(shè)備102a的當(dāng)時存在位置相關(guān)聯(lián)的緯度和經(jīng)度,并且元數(shù)據(jù)132c可以包括與移動設(shè)備102c的當(dāng)時存在位置相關(guān)聯(lián)的地址或者地理區(qū)域。另外,由于將移動設(shè)備102b圖示為在移動的交通工具中,所以元數(shù)據(jù)132b可以描述交通工具的路徑(例如,包括起點(diǎn)和終點(diǎn)以及運(yùn)動數(shù)據(jù))。此外,元數(shù)據(jù)132可以按照位置類型描述位置(例如,“移動交通工具”、“在海灘上”、“在餐館中”、“在高建筑物中”、“南亞”、“農(nóng)村區(qū)域”、“有建筑噪聲的某處”、“游樂園”、“在船艇上”、“室內(nèi)”、“地下”、“在街道上”、“森林”)。單個音頻信號可以與描述一個或者多個位置的元數(shù)據(jù)相關(guān)聯(lián)。與音頻信號138相關(guān)聯(lián)的地理位置可以代之以按照界定區(qū)域來描述、表達(dá)為限定界定區(qū)域的坐標(biāo)集。備選的,可以使用區(qū)域標(biāo)識符(比如,州名或者標(biāo)識符、城市名、慣用名 (例如,“中央公園”)、國名或者任意限定的區(qū)域的標(biāo)識符(例如“隔間/區(qū)域ABC 123”))來限定地理位置。在將位置與環(huán)境音頻信號進(jìn)行關(guān)聯(lián)之前,移動設(shè)備102或者ASR引擎108可以處理元數(shù)據(jù)以調(diào)整位置信息的細(xì)節(jié)水平(例如,以確定與特定坐標(biāo)集相關(guān)聯(lián)的州),或者可以離散化位置信息(例如通過選擇沿著路徑的具體點(diǎn)或者與路徑相關(guān)聯(lián)的區(qū)域)。也可以通過指定或者添加位置型元數(shù)據(jù)、例如通過向其的關(guān)聯(lián)地理坐標(biāo)與海灘位置相關(guān)聯(lián)的環(huán)境音頻信號添加“在海灘上”標(biāo)記或者通過向包括在背景中交談的多個人的聲音的環(huán)境音頻信號添加“有許多人的某處”標(biāo)記來調(diào)整元數(shù)據(jù)的細(xì)節(jié)水平。在狀態(tài)(b)期間,ASR引擎108從移動設(shè)備102接收有地理標(biāo)記的環(huán)境音頻信號130,并且在數(shù)據(jù)存儲庫111中在環(huán)境音頻信號的匯集114中存儲有地理標(biāo)記的音頻信號(或者其部分)。如下文描述的那樣,匯集用于訓(xùn)練、適配或者生成一個或者多個地理位置特有(或者“地理特有”)噪聲模型112。由于匯集114中的環(huán)境音頻信號不應(yīng)包括用戶的語音,所以ASR引擎108可以使用語音活動檢測器以驗(yàn)證環(huán)境音頻信號的匯集114僅包括與環(huán)境噪聲對應(yīng)的音頻信號130或者濾除或者標(biāo)識或者排除音頻信號130 (或者音頻信號130的部分),這些音頻信號包括移動設(shè)備102的各種用戶的語音。ASR引擎108存儲的環(huán)境音頻信號的匯集114可以包括數(shù)以百計(jì)、數(shù)以千計(jì)、數(shù)以百萬計(jì)或者數(shù)以千萬計(jì)的環(huán)境音頻信號。在所圖示示例中,有地理標(biāo)記的環(huán)境音頻信號130a的部分或者全部可以存儲于匯集114中作為環(huán)境音頻信號124,有地理標(biāo)記的環(huán)境音頻信號130b的部分或者全部可以存儲于匯集114中作為環(huán)境音頻信號126a,并且有地理標(biāo)記的環(huán)境音頻信號130c的部分或者全部可以存儲于匯集114中作為環(huán)境音頻信號120b。在匯集中存儲環(huán)境音頻信號130可以包括確定用戶的語音是否在音頻信號130中被編碼,并且分別基于確定用戶的語音在音頻信號130中被或者未被編碼來確定存儲或者確定不存儲環(huán)境音頻信號130。備選地,在匯集中存儲環(huán)境音頻信號130可以包括標(biāo)識環(huán)境音頻信號130的包括用戶的語音的部分、通過去除包括用戶的語音的部分或者通過關(guān)聯(lián)對包括用戶的語音的部分進(jìn)行引用的元數(shù)據(jù)來變更環(huán)境音頻信號130并且在匯集中存儲變更的環(huán)境音頻信號130。與環(huán)境音頻信號130關(guān)聯(lián)的其它上下文數(shù)據(jù)或者元數(shù)據(jù)也可以存儲于匯集114中。例如,在匯集114中包括的環(huán)境音頻信號在一些實(shí)現(xiàn)中可以包括其它元數(shù)據(jù)標(biāo)記、比如指示背景語音(例如,自助餐廳聊天)是否存在于環(huán)境音頻內(nèi)的標(biāo)記、標(biāo)識獲得特定環(huán)境音頻信號的日期的標(biāo)記(例如,用來確定采樣年齡)或者標(biāo)識特定環(huán)境音頻信號是否以某一方式從匯集的在相同或者相似位置獲得的其它環(huán)境音頻信號偏離的標(biāo)記。以這一方式,可以可選地過濾環(huán)境音頻信號的匯集114以排除滿足或者未滿足特定標(biāo)準(zhǔn)的特定環(huán)境音頻信號、比如排除比某個年齡更老的或者包括背景聊天的特定環(huán)境音頻信號,該背景聊天可以標(biāo)識個人或者本質(zhì)上為專有或者私密的。在附加示例中,可以在與環(huán)境音頻信號關(guān)聯(lián)的元數(shù)據(jù)中標(biāo)記如下數(shù)據(jù),該數(shù)據(jù)引用匯集114的環(huán)境音頻信號是否被人工或者自動上傳。例如,可以僅使用自動上傳的或者人工上傳的那些環(huán)境音頻信號來生成噪聲模型112,或者可以在生成噪聲模型期間向每個 上傳類別分配不同加權(quán)。雖然已經(jīng)描述匯集114的環(huán)境音頻信號為包括標(biāo)識相應(yīng)地理位置的顯式標(biāo)記,但是在其它實(shí)現(xiàn)中,比如當(dāng)可以推導(dǎo)在音頻信號與地理位置之間的關(guān)聯(lián)性時,無需顯式使用標(biāo)記。例如,可以通過處理(例如用服務(wù)器106存儲的)搜索日志來隱式關(guān)聯(lián)地理位置與環(huán)境音頻信號以確定用于特定環(huán)境音頻信號的地理位置信息。因而ASR引擎108接收有地理標(biāo)記的環(huán)境音頻信號可以包括獲得未明確包括地理標(biāo)記的環(huán)境音頻信號,并且推導(dǎo)和關(guān)聯(lián)用于環(huán)境音頻信號的一個或者多個地理標(biāo)記。在狀態(tài)(c)期間,通過網(wǎng)絡(luò)110從移動設(shè)備104向ASR引擎108傳達(dá)音頻信號138。雖然圖示了移動設(shè)備102為與移動設(shè)備104不同的設(shè)備,但是在其它實(shí)現(xiàn)中,從提供有地理標(biāo)記的環(huán)境音頻信號130的移動設(shè)備104之一傳達(dá)音頻信號138。音頻信號138包括移動設(shè)備104 (例如,當(dāng)用戶隱式或者顯式發(fā)起語音搜索查詢時)記錄的話語140( “紐約體育館”)。音頻信號138包括引用地理位置“位置B”的元數(shù)據(jù)139。除了包括話語140之外,音頻信號138還可以包括環(huán)境音頻摘錄、比如在口述話語140之前或者之后記錄的環(huán)境音頻的兩秒摘錄。盡管如在圖I中所示將話語140描述為語音查詢,但是在其它示例實(shí)現(xiàn)中,話語可以是向口授系統(tǒng)或者向?qū)υ捪到y(tǒng)輸入的語音??梢允褂门c匯集114中包括的環(huán)境音頻信號相關(guān)聯(lián)的地理位置相同或者不同的細(xì)節(jié)水平來限定與音頻信號138相關(guān)聯(lián)的地理位置(“位置B”)。例如,與匯集114中包括的環(huán)境音頻信號相關(guān)聯(lián)的地理位置可以對應(yīng)于地理區(qū)域,而與音頻信號138相關(guān)聯(lián)的地理位置可以對應(yīng)于特定地理坐標(biāo)。當(dāng)細(xì)節(jié)水平不同時,ASR引擎108可以處理地理元數(shù)據(jù)139或者與匯集114的環(huán)境音頻信號相關(guān)聯(lián)的元數(shù)據(jù)以對準(zhǔn)細(xì)節(jié)水平,從而可以執(zhí)行子集選擇過程。移動設(shè)備104(或者移動設(shè)備104的用戶)可以基于當(dāng)記錄話語140時當(dāng)前的位置信息將元數(shù)據(jù)139與音頻信號138相關(guān)聯(lián),并且可以從移動設(shè)備104將元數(shù)據(jù)139與音頻信號138—起向ASR引擎108傳達(dá)。備選地,ASR引擎108可以基于ASR引擎108推斷的用于移動設(shè)備104(或者移動設(shè)備104的用戶)的地理位置將元數(shù)據(jù)與音頻信號138相關(guān)聯(lián)。
ASR引擎108可以使用用戶的日歷時間表、用戶偏好(例如,如存儲于ASR引擎108或者服務(wù)器106的用戶賬戶中或者如從移動設(shè)備104傳達(dá))、默認(rèn)位置、以往位置(例如,移動設(shè)備104的GPS模塊計(jì)算的最新位置)、用戶在提交語音搜索查詢時顯式提供的信息、根據(jù)話語104本身、三角測量(例如,WiFi或者小區(qū)塔三角測量)、移動設(shè)備104中的GPS模塊或者推算定位(dead reckoning)來推斷地理位置。元數(shù)據(jù)139可以包括準(zhǔn)確度信息,該信息指定地理位置確定的準(zhǔn)確度,從而表示移動設(shè)備104在記錄話語140時的時間實(shí)際上在元數(shù)據(jù)139指定的特定地理位置的可能性。還可以與音頻信號138 —起包括其它元數(shù)據(jù)。例如,與音頻信號一起包括的元數(shù)據(jù)可以包括與相應(yīng)移動設(shè)備102相關(guān)聯(lián)的位置或者場所。例如,場所信息可以描述其中注冊移動設(shè)備102的區(qū)域或者移動設(shè)備102的用戶的語言或者方言以及其它可選參數(shù)。話音識別模塊118可以使用這一信息以選擇、訓(xùn)練、適配或者生成與移動設(shè)備104的上下文匹配的噪聲、話音、聲學(xué)、流行度或者其它模型。在狀態(tài)⑷中,ASR引擎108選擇匯集114中的環(huán)境音頻信號的子集并且使用噪 聲模型生成模塊116以使用環(huán)境音頻信號的子集、例如通過使用環(huán)境音頻信號的子集作為用于噪聲模型的訓(xùn)練集來訓(xùn)練、適配或者生成一個或者多個噪聲模型112(例如高斯混合模型(GMM))。子集可以包括匯集114中的環(huán)境音頻信號中的所有或者比所有更少的環(huán)境音
頻信號。一般而言,噪聲模型112與話音模型、聲學(xué)模型、流行度模型和/或其它模型一起應(yīng)用于音頻信號138以將口述話語140轉(zhuǎn)譯或者轉(zhuǎn)錄成一個或者多個文字后續(xù)轉(zhuǎn)錄146,并且向候選轉(zhuǎn)錄生成話音識別置信度分?jǐn)?shù)。具體地,噪聲模型用于噪聲抑制或者噪聲補(bǔ)償以增強(qiáng)口述話語140對于ASR引擎108的可理解性。更具體而言,噪聲模型生成模塊116可以使用音頻信號、具體針對在被地理標(biāo)記為已經(jīng)在與音頻信號138關(guān)聯(lián)的地理位置(“位置B”)或者附近或者在相同或者相似類型的位置記錄的環(huán)境音頻信號126a和126b的匯集114來為該地理位置生成噪聲模型120b。由于音頻信號138與這一地理位置(“位置B”)相關(guān)聯(lián),所以除了環(huán)境音頻信號126a和126b之外或者替代地,在音頻信號138本身中包括的環(huán)境音頻也可以用來針對該地理位置生成噪聲模型。類似地,噪聲模型生成模塊116可以使用被地理標(biāo)記為已經(jīng)在另一地理位置(“位置A”)或者附近在相同或者相似類型的位置記錄的環(huán)境音頻信號124來為該另一地理位置生成噪聲模型120a。如果噪聲模型生成模塊116被配置成選擇被地理標(biāo)記為已經(jīng)在與音頻信號138相關(guān)聯(lián)的地理位置附近記錄的環(huán)境音頻信號,并且如果“位置A”在“位置B”附近,則噪聲模型生成模塊116還可以使用環(huán)境音頻信號124來為“位置B”生成噪聲模型120b。除了有地理標(biāo)記的位置之外,與匯集114的環(huán)境音頻信號相關(guān)聯(lián)的其它上下文數(shù)據(jù)還可以用來選擇環(huán)境音頻信號的子集以用于生成噪聲模型112或者調(diào)整特定音頻信號將對生成具有的權(quán)值或者影響。例如,ASR引擎108可以選擇匯集114中的環(huán)境音頻信號的子集,該子集的環(huán)境音頻信號的上下文信息指示它們比預(yù)定時間段更長或者更短或者它們滿足某個質(zhì)量或者近因標(biāo)準(zhǔn)。另外,ASR引擎108可以選擇匯集114中的如下環(huán)境音頻信號作為子集,這些環(huán)境音頻信號的上下文信息指示它們是使用具有與移動設(shè)備104相似的音頻子系統(tǒng)的移動設(shè)備來記錄的。
可以用來從匯集114選擇環(huán)境音頻信號的子集的其它上下文數(shù)據(jù)在一些示例中可以包括時間信息、日期信息、對特定移動設(shè)備在記錄期間測量的速度或者運(yùn)動量進(jìn)行引用的數(shù)據(jù)、其它設(shè)備傳感器數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù)(例如,藍(lán)牙耳機(jī)、揚(yáng)聲器電話或者傳統(tǒng)輸入方法)、如果用戶選擇提供用戶標(biāo)識符則包括標(biāo)識符或者標(biāo)識移動設(shè)備類型或者機(jī)型的信息。上下文數(shù)據(jù)例如可以提供在音頻信號138的記錄周圍的條件的指示。在一個示例中,移動設(shè)備104與音頻信號138 —起供應(yīng)的上下文數(shù)據(jù)可以指示移動設(shè)備104沿著與高速公路相關(guān)聯(lián)的路徑在高速公路速度行駛。ASR 108可以推斷音頻信號138被記錄在交通工具內(nèi),并且可以選擇匯集114中的環(huán)境音頻信號的與“在移動交通工具以內(nèi)”位置類型相關(guān)聯(lián)的子集。在另一示例中,移動設(shè)備104與音頻信號138 —起供應(yīng)的上下文數(shù)據(jù)可以指示移動設(shè)備104在農(nóng)村區(qū)域中并且話語140記錄于周日上午6點(diǎn)。基于這一上下文數(shù)據(jù),ASR 108可以推斷如果子集包括在高峰時段期間在農(nóng)村區(qū)域中記錄的環(huán)境音頻信號,則不會提高話音識別的準(zhǔn)確度。因而上下文數(shù)據(jù)可以由噪聲模型生成模塊116用來在生成噪聲模型112時過濾環(huán)境音頻信號的匯集114或者由話音識別模塊118用來為特定話語選擇適當(dāng)噪聲模型112。 在一些實(shí)現(xiàn)中,噪聲模型生成模塊116可以基于與音頻信號關(guān)聯(lián)的地理位置鄰近于與音頻信號138關(guān)聯(lián)的地理位置來選擇匯集114的環(huán)境音頻信號的加權(quán)組合。噪聲模型生成模塊116還可以使用音頻信號138本身中包括的環(huán)境音頻(例如,在口述話語之前或者之后或者在話語之間的停頓期間記錄的環(huán)境音頻)來生成噪聲模型112。例如,噪聲模型生成模塊116可以首先相對于音頻信號138中包括的環(huán)境音頻的質(zhì)量確定存儲于匯集114中的環(huán)境音頻信號的質(zhì)量,并且可以選擇僅使用存儲于匯集114中的音頻信號、僅使用音頻信號138中包括的環(huán)境音頻或者其任何適當(dāng)加權(quán)或者未加權(quán)組合來生成噪聲模型。例如,噪聲模型生成模塊116可以確定音頻信號138包括非大量環(huán)境音頻或者在匯集114中為該特定地理位置存儲高質(zhì)量環(huán)境音頻,并且可以選擇生成噪聲模型而未使用音頻信號138中包括的環(huán)境音頻(或者向該環(huán)境音頻給予小權(quán)值)。在一些實(shí)現(xiàn)中,噪聲模型生成模塊116從匯集114選擇與N(例如,五、二十或者五十)個地理位置相關(guān)聯(lián)的環(huán)境音頻信號作為子集,這些地理位置最接近于與音頻信號138相關(guān)聯(lián)的地理位置。當(dāng)與音頻信號138相關(guān)聯(lián)的地理位置時描述點(diǎn)或者地點(diǎn)(例如,坐標(biāo))時,可以相對于該地理位置限定幾何形狀(例如,圓形或者方形),并且噪聲模型生成模塊116可以從匯集114選擇與完全或者部分位于限定的地理形狀內(nèi)的地理區(qū)域相關(guān)聯(lián)的音頻信號作為子集。如果已經(jīng)按照位置類型(例如,“在海灘上”、“城市”)限定與音頻信號138相關(guān)聯(lián)的地理位置,則ASR引擎108仍然可以選擇與相同或者相似位置類型關(guān)聯(lián)的環(huán)境音頻信號,即使與所選音頻信號關(guān)聯(lián)的物理地理位置在物理上未在與音頻信號138關(guān)聯(lián)的地理位置附近。例如,可以用“在海灘上”元數(shù)據(jù)為在佛羅里達(dá)海灘上記錄的音頻信號標(biāo)記噪聲模型,并且噪聲模型生成模塊116可以從匯集114選擇如下環(huán)境音頻信號作為子集,這些環(huán)境音頻信號的相關(guān)聯(lián)元數(shù)據(jù)指示它們也記錄于海灘上,盡管事實(shí)是它們記錄于澳大利亞、夏威夷或者冰島的海灘上。如果與音頻信號138相關(guān)聯(lián)的地理位置未匹配于與匯集114的任何環(huán)境音頻信號相關(guān)聯(lián)的任何物理地理位置(或者沒有與該任何物理地理位置的高質(zhì)量匹配),則噪聲模型生成模塊116可以恢復(fù)基于匹配位置類型、而不是匹配實(shí)際物理地理位置來選擇子集。其它匹配過程如集群(clusting)算法可以用來匹配音頻信號與環(huán)境音頻信號。除了生成一般的地理特有噪聲模型112之外,噪聲模型生成模塊116還可以生成以其它標(biāo)準(zhǔn)為目標(biāo)或者其它標(biāo)準(zhǔn)特有的地理特有噪聲模型、比如不同設(shè)備類型或者一天不同時間特有的地理特有噪聲模型??梢曰跈z測到已經(jīng)滿足閾值標(biāo)準(zhǔn)、比如確定匯集114的閾值數(shù)目的環(huán)境音頻信號引用相同地理位置并且共享另一相同或者相似上下文(例如,一天中的某個時間、一周中的某天、運(yùn)動特性、設(shè)備類型等)來生成作為目標(biāo)的子模型。可以在已經(jīng)接收話語140之前、期間或者之后生成噪聲模型112。例如可以與處理話語140并行處理來自與話語相同或者相似的位置的多個環(huán)境音頻信號,并且這些環(huán)境音頻信號可以用來實(shí)時或者接近實(shí)時生成噪聲模型112以更好地逼近圍繞移動設(shè)備104的實(shí)況噪聲條件。在狀態(tài)(e)中,ASR引擎108的話音識別模塊118使用用于與音頻信號138相關(guān)·聯(lián)的地理位置的地理特有噪聲模型120b來對音頻信號138執(zhí)行噪聲補(bǔ)償以增強(qiáng)話音識別的準(zhǔn)確度,并且隨后對噪聲補(bǔ)償?shù)囊纛l信號執(zhí)行話音識別。當(dāng)音頻信號138包括描述移動設(shè)備104的設(shè)備類型的元數(shù)據(jù)時,ASR引擎108可以應(yīng)用與音頻信號關(guān)聯(lián)的地理位置和移動設(shè)備104的設(shè)備類型二者特有的噪聲模型122。話音識別模塊118可以生成與在音頻信號138中編碼的話語匹配的一個或者多個候選轉(zhuǎn)錄和用于候選轉(zhuǎn)錄的話音識別置信度值。在狀態(tài)(f)期間,從ASR引擎108向服務(wù)器106傳達(dá)話音識別模塊118生成的候選轉(zhuǎn)錄146中的一個或者多個候選轉(zhuǎn)錄。當(dāng)服務(wù)器106是搜索引擎時,可以使用候選轉(zhuǎn)錄作為候選查詢檢索詞以執(zhí)行一個或者多個搜索查詢。ASR引擎108可以在向服務(wù)器106發(fā)送候選轉(zhuǎn)錄146之前按照它們的相應(yīng)話音識別置信度分?jǐn)?shù)對它們排序。通過轉(zhuǎn)錄口述話語并且向服務(wù)器106提供候選轉(zhuǎn)錄,ASR引擎108可以向移動設(shè)備104提供話音搜索查詢能力、口授能力或者對話系統(tǒng)能力。服務(wù)器106可以使用候選查詢檢索詞來執(zhí)行一個或者多個搜索查詢、生成引用搜索結(jié)果160的文件152。服務(wù)器106在一些示例中可以包括用來在因特網(wǎng)內(nèi)發(fā)現(xiàn)引用的網(wǎng)上搜索引擎、用來發(fā)現(xiàn)企業(yè)或者個人的電話簿型搜索引擎或者另一專門化搜索引擎(例如,提供對諸如餐館和電影娛樂信息、醫(yī)療和藥品信息等娛樂清單的引用的搜索引擎)。在狀態(tài)(h)期間,服務(wù)器106向移動設(shè)備104提供引用搜索結(jié)果160的文件152。文件152可以是標(biāo)記語言文件、比如可擴(kuò)展標(biāo)記語言(XML)或者超文本標(biāo)記語言(HTML)文件。在狀態(tài)⑴期間,移動設(shè)備104在用戶接口 158上顯示搜索結(jié)果160。具體而言,用戶接口包括搜索框157,其顯示具有最高話音識別置信度分?jǐn)?shù)的候選查詢檢索詞(“紐約體育館”);備選查詢檢索詞建議區(qū)域159,其顯示話語140可能已經(jīng)預(yù)計(jì)的候選查詢檢索詞的另一替代(“Jim Newark”);搜索結(jié)果160a,其包括指向用于“紐約健身房” 160a的資源的鏈接;以及搜索結(jié)果160b,其包括指向用于“曼哈頓塑體”160b的鏈接。搜索結(jié)果160a還可以包括在被選擇時可以由移動設(shè)備104撥號的電話號碼的鏈接。圖2是過程200的示例的流程圖。簡言之,過程200包括接收一個或者多個有地理標(biāo)記的環(huán)境音頻信號、接收與地理位置相關(guān)聯(lián)的話語并且至少部分基于地理位置生成噪聲模型??梢詫σ纛l信號執(zhí)行噪聲補(bǔ)償,因?yàn)樵肼暷P痛偈固岣咴捯糇R別準(zhǔn)確度。
更具體而言,當(dāng)過程200開始時,接收與環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號(202)。移動設(shè)備可以在特定地理位置記錄有地理標(biāo)記的音頻信號。有地理標(biāo)記的音頻信號可以包括關(guān)聯(lián)上下文數(shù)據(jù)、諸如在記錄有地理標(biāo)記的音頻信號期間測量的時間、日期、速度或者運(yùn)動量,或者記錄有地理標(biāo)記的音頻信號的設(shè)備類型??梢蕴幚斫邮盏挠械乩順?biāo)記的音頻信號以排除環(huán)境音頻的如下部分,這些部分包括移動設(shè)備的用戶的語音。可以接收并且存儲在一個或者多個地理位置記錄的多個有地理標(biāo)記的音頻信號。接收特定移動設(shè)備記錄的話語(204)。話語可以包括語音搜索查詢或者可以是向口授或者對話應(yīng)用或者系統(tǒng)的輸入。話語可以包括關(guān)聯(lián)上下文數(shù)據(jù),諸如在記錄有地理標(biāo)記的音頻信號期間測量的時間、日期、速度或者運(yùn)動量,或者記錄有地理標(biāo)記的音頻信號的設(shè)備類型。確定與移動設(shè)備相關(guān)聯(lián)的特定地理位置(206)。例如,可以從移動設(shè)備接收引用特定地理位置的數(shù)據(jù),或者可以確定與移動設(shè)備相關(guān)聯(lián)的以往地理位置或者默認(rèn)地理位置。使用有地理標(biāo)記的音頻信號的子集來針對特定地理位置生成噪聲模型(208)???以通過為每個有地理標(biāo)記的音頻信號確定在特定地理位置和與有地理標(biāo)記的音頻信號相關(guān)聯(lián)的地理位置之間的距離;以及選擇在特定地理位置的預(yù)定距離內(nèi)的或者與在N個與特定地理位置最近的地理位置之中的地理位置相關(guān)聯(lián)的那些有地理標(biāo)記的音頻信號來選擇有地理標(biāo)記的音頻信號的子集。可以通過標(biāo)識與特定地理位置相關(guān)聯(lián)的有地理標(biāo)記的音頻信號,以及/或者通過標(biāo)識在聲學(xué)上與話語相似的有地理標(biāo)記的音頻信號來選擇有地理標(biāo)記的音頻信號的子集。可以基于特定地理位置并且基于與話語相關(guān)聯(lián)的上下文數(shù)據(jù)來選擇有地理標(biāo)記的音頻信號的子集。生成噪聲模型可以包括使用有地理標(biāo)記的音頻信號的子集作為訓(xùn)練集來訓(xùn)練GMM。一些噪聲減少或者分離算法如非負(fù)矩陣因式分解(NMF)可以使用特征矢量本身而不是高斯分量代表的平均值。其它算法如Alqonquin可以在有人為變化時使用GMM或者特征矢量本身。使用已經(jīng)針對特定地理位置生成的噪聲模型對與話語對應(yīng)的音頻信號執(zhí)行噪聲補(bǔ)償以增強(qiáng)音頻信號或者減少話語由于噪聲所致的不確定性(210)。對噪聲補(bǔ)償?shù)囊纛l信號執(zhí)行話音識別(212)。執(zhí)行話音識別可以包括生成話語的一個或者多個候選轉(zhuǎn)錄??梢允褂靡粋€或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢,或者可以提供候選轉(zhuǎn)錄中的一個或者多個候選轉(zhuǎn)錄作為數(shù)字口授應(yīng)用的輸出。備選地,可以提供候選轉(zhuǎn)錄中的一個或者多個候選轉(zhuǎn)錄作為向?qū)υ捪到y(tǒng)的輸入以允許計(jì)算機(jī)系統(tǒng)與特定移動設(shè)備的用戶對話。圖3是過程300的示例的流程圖。簡言之,過程300包括采集有地理標(biāo)記的音頻信號并且至少部分基于與每個有地理標(biāo)記的音頻信號相關(guān)聯(lián)的特定地理位置生成多個噪聲模型。可以在對話語執(zhí)行話音識別時至少部分基于與話語相關(guān)聯(lián)的地理位置選擇這些噪聲模型中的一個或者多個噪聲模型。更具體而言,當(dāng)過程300開始時,接收與環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號(302)。移動設(shè)備可以在特定地理位置記錄有地理標(biāo)記的音頻信號??梢蕴幚斫邮盏挠械乩順?biāo)記的音頻信號以排除環(huán)境音頻的如下部分,這些部分包括移動設(shè)備的用戶的語音??梢越邮詹⑶掖鎯υ谝粋€或者多個地理位置記錄的多個有地理標(biāo)記的音頻信號??蛇x地,接收與有地理標(biāo)記的音頻信號關(guān)聯(lián)的上下文數(shù)據(jù)(304)。有地理標(biāo)記的音頻信號可以包括關(guān)聯(lián)上下文數(shù)據(jù)、諸如在記錄有地理標(biāo)記的音頻信號期間測量的時間、日期、速度或者運(yùn)動量或者記錄有地理標(biāo)記的音頻信號的設(shè)備類型。生成一個或者多個噪聲模型(306)??梢允褂糜械乩順?biāo)記的音頻信號的子集來針對特定地理位置,或者可選地針對位置類型生成每個噪聲模型??梢酝ㄟ^為每個有地理標(biāo)記的音頻信號確定在特定地理位置和與有地理標(biāo)記的音頻信號相關(guān)聯(lián)的地理位置之間的距離,并且選擇在特定地理位置的預(yù)定距離內(nèi)的、或者與在N個與特定地理位置最近的地理位置之中的地理位置相關(guān)聯(lián)的那些有地理標(biāo)記的音頻信號來選擇有地理標(biāo)記的音頻信號的子集。可以通過標(biāo)識與特定地理位置相關(guān)聯(lián)的有地理標(biāo)記的音頻信號來選擇有地理標(biāo)記的音頻信號的子集??梢曰谔囟ǖ乩砦恢貌⑶一谂c有地理標(biāo)記的音頻信號相關(guān)聯(lián)的上下文數(shù)據(jù)選擇有地理標(biāo)記的音頻信號的子集。生成噪聲模型可以包括使用有地理標(biāo)記的音頻信號的子集來訓(xùn)練高斯混合模型(GMM)。接收特定移動設(shè)備記錄的話語(308)。話語可以包括語音搜索查詢。話語可以包括關(guān)聯(lián)上下文數(shù)據(jù),諸如在記錄有地理標(biāo)記的音頻信號期間測量的時間、日期、速度或者運(yùn)動量,或者記錄有地理標(biāo)記的音頻信號的設(shè)備類型。檢測地理位置(310)。例如,可以從移動設(shè)備的GPS模塊接收引用特定地理位置的數(shù)據(jù)。選擇噪聲模型(312)??梢詮尼槍Χ鄠€地理位置生成的多個噪聲模型之中選擇噪聲模型。上下文數(shù)據(jù)可以可選地促成從針對特定地理位置的多個噪聲模型之中選擇特定的噪聲模型。使用所選噪聲模型對話語執(zhí)行話音識別(314)。執(zhí)行話音識別可以包括生成話語的一個或者多個候選轉(zhuǎn)錄。可以使用一個或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢。圖4示出了用于使用有地理標(biāo)記的環(huán)境音頻來增強(qiáng)話音識別準(zhǔn)確度的過程400的示例的泳道圖。過程400可以由移動設(shè)備402、ASR引擎404和搜索引擎406來實(shí)現(xiàn)。移動設(shè)備402可以向ASR引擎404提供音頻信號、比如環(huán)境音頻信號或者與話語對應(yīng)的音頻信號。雖然僅圖不了一個移動設(shè)備402,但是移動設(shè)備402可以代表向過程400貢獻(xiàn)環(huán)境音頻信號和語音查詢的大量移動設(shè)備402。ASR引擎404可以基于環(huán)境音頻信號生成噪聲模型,并且可以在執(zhí)行話音識別時將一個或者多個噪聲模型應(yīng)用于傳入語音搜索查詢。ASR引擎404可以向搜索引擎406提供語音搜索查詢內(nèi)的話語的轉(zhuǎn)錄以完成語音搜索查詢請求。過程400始于移動設(shè)備402向ASR引擎404提供408有地理標(biāo)記的音頻信號。音頻信號可以包括環(huán)境音頻以及關(guān)于記錄環(huán)境音頻的位置的指示。可選地,有地理標(biāo)記的音頻信號可以包括例如形式為元數(shù)據(jù)的上下文數(shù)據(jù)。ASR引擎404可以在環(huán)境音頻數(shù)據(jù)存儲庫中存儲有地理標(biāo)記的音頻信號。移動設(shè)備402向ASR引擎404提供410話語。話語例如可以包括語音搜索查詢。話語的記錄可以可選地包括例如在記錄話語之前或者之后短暫記錄的環(huán)境音頻采樣。移動設(shè)備402向ASR引擎404提供412地理位置。移動設(shè)備在一些示例中可以提供使用GPS模塊來檢測的導(dǎo)航坐標(biāo)、最新(但是未必與記錄并行)GPS讀數(shù)、默認(rèn)位置、根據(jù)先前提供的話語派生的位置或者通過發(fā)射塔的推算定位或者三角測量來估計(jì)的位置。移動設(shè)備402可以可選地向ASR引擎404提供上下文數(shù)據(jù)、比如傳感器數(shù)據(jù)、設(shè)備機(jī)型標(biāo)識或者設(shè)備設(shè)置。ASR引擎404生成414噪聲模型??梢圆糠滞ㄟ^訓(xùn)練GMM來生成噪聲模型??梢曰谝苿釉O(shè)備402提供的地理位置生成噪聲模型。例如,從在移動設(shè)備402的位置或者附近的位置提交的有地理標(biāo)記的音頻信號可以促成噪聲模型??蛇x地,移動設(shè)備402提供的上下文數(shù)據(jù)可以用來過濾有地理標(biāo)記的音頻信號以選擇與記錄話語的條件最適合的有地理標(biāo)記的音頻信號。例如,可以按照一周中的某天或者一天中的某個時間來過濾在移動設(shè)備402提供的地理位置附近的有地理標(biāo)記的音頻信號。如果環(huán)境音頻采樣與移動設(shè)備402提供的話語一起包括,則可以可選地在噪聲模型中包括環(huán)境音頻采樣。ASR引擎404對提供的話語執(zhí)行話音識別416。使用由ASR引擎404生成的噪聲模型,可以將移動設(shè)備402提供的話語轉(zhuǎn)錄成一個或者多個查詢檢索詞集合。ASR引擎404向搜索引擎406轉(zhuǎn)發(fā)418生成的轉(zhuǎn)錄。如果ASR引擎404生成多個轉(zhuǎn)錄,則可以可選地以置信度為序?qū)D(zhuǎn)錄排序。ASR引擎404可以可選地向搜索引擎406提·供上下文數(shù)據(jù)、比如地理位置,搜索引擎406可以使用該上下文數(shù)據(jù)對搜索結(jié)果過濾或者排序。搜索引擎406使用轉(zhuǎn)錄來執(zhí)行420搜索操作。搜索引擎406可以對與轉(zhuǎn)錄檢索詞有關(guān)的一個或者多個URI定位。搜索引擎406向移動設(shè)備402提供422搜索查詢結(jié)果。例如,搜索引擎406可以轉(zhuǎn)發(fā)如下HTML代碼,該代碼生成定位的URI的可視清單。已經(jīng)描述多個實(shí)現(xiàn)。然而,將理解可以進(jìn)行各種修改而未脫離公開內(nèi)容的精神實(shí)質(zhì)和范圍。例如,可以在重新排序、添加或者去除步驟時使用上文所示流程的各種形式。因而其它實(shí)現(xiàn)在所附權(quán)利要求的范圍內(nèi)??梢栽跀?shù)字電子電路中或者在包括本說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等效物的計(jì)算機(jī)軟件、固件或者硬件中或者在它們中的一項(xiàng)或者多項(xiàng)的組合中實(shí)現(xiàn)本說明書中描述的實(shí)施例和所有功能操作。實(shí)施例可以被實(shí)現(xiàn)為一個或者多個計(jì)算機(jī)程序產(chǎn)品、即在計(jì)算機(jī)可讀介質(zhì)上編碼的用于由數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置的操作的計(jì)算機(jī)程序指令的一個或者多個模塊。計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可讀存儲設(shè)備、機(jī)器可讀存儲基板、存儲器設(shè)備、實(shí)現(xiàn)機(jī)器可讀傳播信號的物質(zhì)組成或者它們中的一項(xiàng)或者多項(xiàng)的組合。術(shù)語“數(shù)據(jù)處理裝置”涵蓋了用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī)器、例如包括一個可編程處理器、一個計(jì)算機(jī)或者多個處理器或者計(jì)算機(jī)。裝置除了包括硬件之外還可以包括為討論的計(jì)算機(jī)程序創(chuàng)建執(zhí)行環(huán)境的代碼、例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或者它們中的一項(xiàng)或者多項(xiàng)的組合的代碼。傳播信號是人為生成的信號、例如由機(jī)器生成的電、光學(xué)或者電磁信號,該信號被生成以用于對信息進(jìn)行編碼以用于向適當(dāng)接收器裝置發(fā)送。可以用包括編譯或者解釋語言的任何形式的編程語言編寫計(jì)算機(jī)程序(也稱為程序、軟件、軟件應(yīng)用、腳本或者代碼),并且可以用任何形式部署它、包括作為獨(dú)立程序或者作為適合用于在計(jì)算環(huán)境中使用的模塊、部件、子例程或者其它單元。計(jì)算機(jī)程序不一定對應(yīng)于文件系統(tǒng)中的文件。程序可以存儲于保持其它程序或者數(shù)據(jù)的文件的部分中(例如存儲于標(biāo)記語言文檔中的一個或者多個腳本)、專用于討論的程序的單個文件中或者多個協(xié)同文件(例如存儲一個或者多個模塊、子程序或者代碼部分的文件)中。計(jì)算機(jī)程序可以被部署成在一個計(jì)算機(jī)上或者在位于一個地點(diǎn)或者分布于多個地點(diǎn)并且由通信網(wǎng)絡(luò)互連的多個計(jì)算機(jī)上執(zhí)行。在本說明書中描述的過程和邏輯流程可以由一個或者多個可編程處理器執(zhí)行,該處理器執(zhí)行一個或者多個計(jì)算機(jī)程序以通過對輸入數(shù)據(jù)操作并且生成輸出來執(zhí)行功能。過程和邏輯流程也可以由專用邏輯電路如FPGA (現(xiàn)場可編程門陣列)或者ASIC (專用集成電路)執(zhí)行,并且裝置也可以實(shí)現(xiàn)為該專用邏輯電路。適合于執(zhí)行計(jì)算機(jī)程序的處理器例如包括通用和專用微處理器和任何種類的數(shù)字計(jì)算機(jī)的任何一個或者多個處理器。一般而言,處理器將從只讀存儲器或者隨機(jī)存取存儲器或者這二者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本單元是用于執(zhí)行指令的處理器以及用于存儲指令和數(shù)據(jù)的一個或者多個存儲器設(shè)備。一般而言,計(jì)算機(jī)也將包括用于存儲數(shù)據(jù)的一個或者多個海量存儲設(shè)備如磁盤、光磁盤或者光盤或者操作地耦合成從該海量存儲設(shè)備接收數(shù)據(jù)或者向該海量存儲設(shè)備傳送數(shù)據(jù)或者這二者。然而計(jì)算機(jī)無需具有這樣的設(shè)備。另夕卜,計(jì)算機(jī)可以嵌入于另一設(shè)備中,僅舉數(shù)例,該另一設(shè)備例如是寫字板計(jì)算機(jī)、移動電話、 個人數(shù)字助理(PDA)、移動音頻播放器、全球定位系統(tǒng)(GPS)接收器。適合于存儲計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性存儲器、介質(zhì)和存儲器設(shè)備、例如包括半導(dǎo)體存儲器設(shè)備如EPROM、EEPROM和閃存設(shè)備;磁盤如內(nèi)部硬盤或者可拆卸盤;光磁盤;以及CD ROM和DVD-ROM盤。處理器和存儲器可以由專用邏輯電路補(bǔ)充或者并入于專用邏輯電路中。為了提供與用戶的交互,實(shí)施例可以實(shí)限于計(jì)算機(jī)上,該計(jì)算機(jī)具有用于向用戶顯示信息的顯示器設(shè)備如CRT (陰極射線管)或者LCD (液晶顯示器)監(jiān)視器以及用戶可以用來向計(jì)算機(jī)提供輸入的鍵盤和指點(diǎn)設(shè)備如鼠標(biāo)或者跟蹤球。其它種類的設(shè)備也可以用來提供與用戶的交互;例如向用戶提供的反饋可以是任何形式的感官反饋如視覺反饋、聽覺反饋或者觸覺反饋;并且可以用包括聲音、話音或者觸覺輸入的任何形式接收來自用戶的輸入。實(shí)施例可以實(shí)現(xiàn)于計(jì)算系統(tǒng)中,該計(jì)算系統(tǒng)包括后端部件如作為數(shù)據(jù)服務(wù)器或者包括中間件部件如應(yīng)用服務(wù)器或者包括前端部件、例如具有如下圖形用戶界面或者網(wǎng)上瀏覽器的客戶端計(jì)算機(jī)或者這樣的后端、中間件或者前端部件中的一個或者多個部件的任何組合,用戶可以通過該圖形用戶界面或者網(wǎng)上瀏覽器與實(shí)現(xiàn)交互。系統(tǒng)的部件可以由任何數(shù)字?jǐn)?shù)據(jù)通信形式或者介質(zhì)如通信網(wǎng)絡(luò)互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“LAN”)和廣域網(wǎng)(“WAN”)如因特網(wǎng)。計(jì)算系統(tǒng)可以包括客戶端和服務(wù)器。客戶端和服務(wù)器一般相互遠(yuǎn)離并且通常通過通信網(wǎng)絡(luò)交互。客戶端和服務(wù)器的關(guān)系借助計(jì)算機(jī)程序來發(fā)生,這些計(jì)算機(jī)程序在相應(yīng)計(jì)算機(jī)上運(yùn)行并且相互具有客戶端-服務(wù)器關(guān)系。盡管本說明書包含許多細(xì)節(jié),但是這些不應(yīng)解釋為對公開內(nèi)容的范圍或者可以要求保護(hù)的內(nèi)容的范圍的限制、而應(yīng)當(dāng)作為對具體實(shí)現(xiàn)特有的特征的描述。也可以在單個實(shí)施例組合實(shí)施本說明書中在單獨(dú)實(shí)施例的上下文中描述的某些特征。反言之,也可以在多個實(shí)施例中單獨(dú)或者在任何適當(dāng)子組合中實(shí)施在單個實(shí)施例的上下文中描述的各種特征。另外雖然上文可以將特征描述為在某些實(shí)施例中作用并且甚至起初這樣要求保護(hù),但是在一些情況下可以從要求保護(hù)的組合中去除來自該組合的一個或者多個特征,并且要求保護(hù)的組合可以涉及子組合或者子組合的變體。類似地,盡管在附圖中以特定順序描繪操作,但是這不應(yīng)理解為要求以所示特定順序或者以序列順序執(zhí)行這樣的操作或者執(zhí)行所有所示操作以實(shí)現(xiàn)希望的結(jié)果。在某些境況中,多任務(wù)和并行處理可以是有利的。另外,在上文描述的實(shí)施例中分離各種系統(tǒng)部件不應(yīng)理解為在所有實(shí)施例中要求這樣的分離,并且應(yīng)當(dāng)理解描述的程序部件和系統(tǒng)一般可以一起集成于單個軟件產(chǎn)品中或者封裝到多個軟件產(chǎn)品中。在其中提到HTML文件的每個實(shí)例中,可以替換為其它文件類型或者格式。例如HTML文件可以替換為XML、JS0N、明文或者其它類型的文件。另外當(dāng)提到表或者散列表時,可以使用其它數(shù)據(jù)結(jié)構(gòu)(比如電子數(shù)據(jù)表、關(guān)系數(shù)據(jù)庫或者結(jié)構(gòu)化文件)。這樣已經(jīng)描述特 定實(shí)施例。其它實(shí)施例在所附權(quán)利要求的范圍內(nèi)。例如在權(quán)利要求中記載的動作可以按不同順序來執(zhí)行并且仍然獲得希望的結(jié)果。
權(quán)利要求
1.一種系統(tǒng),包括 一個或者多個計(jì)算機(jī);以及 計(jì)算機(jī)可讀介質(zhì),耦合到所述一個或者多個計(jì)算機(jī),所述計(jì)算機(jī)可讀介質(zhì)具有存儲于其上的指令,所述指令在由所述一個或者多個計(jì)算機(jī)執(zhí)行時使所述一個或者多個計(jì)算機(jī)執(zhí)行操作,所述操作包括 接收與由多個移動設(shè)備在多個地理位置記錄的環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號, 接收與由特定移動設(shè)備記錄的話語對應(yīng)的音頻信號, 確定與所述特定移動設(shè)備相關(guān)聯(lián)的特定地理位置, 使用所述有地理標(biāo)記的音頻信號的子集來針對所述特定地理位置生成噪聲模型,以及 使用已經(jīng)針對所述特定地理位置生成的所述噪聲模型來對與所述話語對應(yīng)的所述音頻信號執(zhí)行噪聲補(bǔ)償。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括使用所述噪聲補(bǔ)償?shù)囊纛l信號來對所述話語執(zhí)行話音識別。
3.根據(jù)權(quán)利要求I所述的系統(tǒng),其中生成所述噪聲模型還包括在接收與所述話語對應(yīng)的所述音頻信號之前生成所述噪聲模型。
4.根據(jù)權(quán)利要求I所述的系統(tǒng),其中生成所述噪聲模型還包括在接收與所述話語對應(yīng)的所述音頻信號之后生成所述噪聲模型。
5.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括 為每個所述有地理標(biāo)記的音頻信號確定在所述特定地理位置和與所述有地理標(biāo)記的音頻信號相關(guān)聯(lián)的地理位置之間的距離;以及 選擇與在所述特定地理位置的預(yù)定距離內(nèi)的地理位置相關(guān)聯(lián)、或者與在N個與所述特定地理位置最近的地理位置之中的地理位置相關(guān)聯(lián)的所述有地理標(biāo)記的音頻信號作為所述有地理標(biāo)記的音頻信號的所述子集。
6.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括 選擇與所述特定地理位置相關(guān)聯(lián)的所述有地理標(biāo)記的音頻信號作為所述有地理標(biāo)記的音頻信號的所述子集。
7.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括基于所述特定地理位置、并且基于與所述話語相關(guān)聯(lián)的上下文數(shù)據(jù)選擇所述有地理標(biāo)記的音頻信號的所述子集。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述上下文數(shù)據(jù)包括引用所述移動設(shè)備何時記錄所述話語的時間或者日期的數(shù)據(jù)、引用所述特定移動設(shè)備在記錄所述話語時測量的速度或者運(yùn)動量的數(shù)據(jù)、引用所述移動設(shè)備的設(shè)置的數(shù)據(jù)、或者引用所述移動設(shè)備的類型的數(shù)據(jù)。
9.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述話語代表語音搜索查詢,或者向數(shù)字口授應(yīng)用或者對話系統(tǒng)的輸入。
10.根據(jù)權(quán)利要求I所述的系統(tǒng),其中確定所述特定地理位置還包括從所述移動設(shè)備接收引用所述特定地理位置的數(shù)據(jù)。
11.根據(jù)權(quán)利要求I所述的系統(tǒng),其中確定所述特定地理位置還包括確定與所述設(shè)備相關(guān)聯(lián)的以往地理位置或者默認(rèn)地理位置。
12.根據(jù)權(quán)利要求I所述的系統(tǒng),其中生成所述噪聲模型包括使用所述有地理標(biāo)記的音頻信號的所述子集作為訓(xùn)練集來訓(xùn)練高斯混合模型(GMM)。
13.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括 生成所述話語的一個或者多個候選轉(zhuǎn)錄;以及 使用所述一個或者多個候選轉(zhuǎn)錄來執(zhí)行搜索查詢。
14.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括 處理所述接收的有地理標(biāo)記的音頻信號以排除所述環(huán)境音頻的、包括所述多個移動設(shè)備的用戶的語音的部分。
15.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括從針對所述多個地理位置生成的多個噪聲模型之中選擇針對所述特定地理位置生成的所述噪聲模型。
16.根據(jù)權(quán)利要求14所述的系統(tǒng),其中 所述操作還包括 限定圍繞所述特定地理位置的區(qū)域, 從所述多個噪聲模型之中選擇與所述區(qū)域內(nèi)的地理位置相關(guān)聯(lián)的多個噪聲模型,以及 生成所述選擇的噪聲模型的加權(quán)組合;并且 使用所述選擇的噪聲模型的加權(quán)組合來執(zhí)行所述噪聲補(bǔ)償。
17.根據(jù)權(quán)利要求I所述的系統(tǒng),其中生成所述噪聲模型還包括使用所述有地理標(biāo)記的音頻信號的所述子集以及使用所述音頻信號的與所述話語對應(yīng)的環(huán)境音頻部分來針對所述特定地理位置生成所述噪聲模型。
18.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述操作還包括 限定圍繞所述特定地理位置的區(qū)域;以及 選擇在所述區(qū)域內(nèi)記錄的所述有地理標(biāo)記的音頻信號作為所述有地理標(biāo)記的音頻信號的所述子集。
19.一種用計(jì)算機(jī)程序編碼的計(jì)算機(jī)存儲介質(zhì),所述程序包括指令,所述指令在由一個或者多個計(jì)算機(jī)執(zhí)行時使得所述一個或者多個計(jì)算機(jī)執(zhí)行操作,所述操作包括 接收與由多個移動設(shè)備在多個地理位置記錄的環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號; 接收與由特定移動設(shè)備記錄的話語對應(yīng)的音頻信號; 確定與所述特定移動設(shè)備相關(guān)聯(lián)的特定地理位置; 使用所述有地理標(biāo)記的音頻信號的子集來針對所述特定地理位置生成噪聲模型;以及使用已經(jīng)針對所述特定地理位置生成的所述噪聲模型來對與所述話語對應(yīng)的所述音頻信號執(zhí)行噪聲補(bǔ)償。
20.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 接收與由多個移動設(shè)備在多個地理位置記錄的環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號; 接收與由特定移動設(shè)備記錄的話語對應(yīng)的音頻信號; 確定與所述特定移動設(shè)備相關(guān)聯(lián)的特定地理位置; 使用所述有地理標(biāo)記的音頻信號的子集來針對所述特定地理位置生成噪聲模型;以及使用已經(jīng)針對所述特定地理位置生成的所述噪聲模型來對與所述話語對應(yīng)的所述音頻信號執(zhí)行噪聲補(bǔ)償。
全文摘要
用于增強(qiáng)話音識別準(zhǔn)確度的方法、系統(tǒng)和裝置、包括在計(jì)算機(jī)存儲介質(zhì)上編碼的計(jì)算機(jī)程序。在一個方面,一種方法包括接收與由多個移動設(shè)備在多個地理位置記錄的環(huán)境音頻對應(yīng)的有地理標(biāo)記的音頻信號;接收與由特定移動設(shè)備記錄的話語對應(yīng)的音頻信號;確定與特定移動設(shè)備相關(guān)聯(lián)的特定地理位置;使用有地理標(biāo)記的音頻信號的子集來針對特定地理位置生成噪聲模型,其中使用已經(jīng)針對特定地理位置生成的噪聲模型來對與話語對應(yīng)的音頻信號執(zhí)行噪聲補(bǔ)償。
文檔編號G10L21/0208GK102918591SQ201180019038
公開日2013年2月6日 申請日期2011年3月22日 優(yōu)先權(quán)日2010年4月14日
發(fā)明者T·克里斯特詹森, M·I·洛伊德 申請人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
甘德县| 华阴市| 鄂托克旗| 全椒县| 抚顺市| 临邑县| 银川市| 永平县| 三门峡市| 循化| SHOW| 梅河口市| 福建省| 布尔津县| 新兴县| 吉木萨尔县| 双桥区| 韶关市| 响水县| 临泽县| 凌云县| 黄石市| 普宁市| 芦山县| 玛多县| 沾益县| 库尔勒市| SHOW| 章丘市| 营口市| 长垣县| 新沂市| 嘉荫县| 平塘县| 徐汇区| 自贡市| 丽水市| 台山市| 女性| 旌德县| 宁晋县|