相關(guān)申請的交叉引用
本申請要求于2015年10月19日提交的美國臨時申請?zhí)?2/243,463的權(quán)益,其內(nèi)容通過引用并入本文。
本公開大體上涉及語音識別,并且一個特定實(shí)施方式涉及對話音進(jìn)行端點(diǎn)確定。
背景技術(shù):
自然語言處理系統(tǒng)通常使用端點(diǎn)器來確定用戶何時已經(jīng)開始和結(jié)束說話。在確定何時話語開始或者結(jié)束時,一些傳統(tǒng)的端點(diǎn)器評價詞之間的停頓的持續(xù)時間。例如,如果用戶說“whatis<longpause>fordinner(晚餐<長停頓>吃什么)”,則傳統(tǒng)的端點(diǎn)器可以在長停頓處對語音輸入分段,并且可以指令自然語言處理系統(tǒng)嘗試處理不完整的短語“whatis(吃什么)”而非完整短語“whatisfordinner(晚餐吃什么)”。如果端點(diǎn)器指定語音輸入的不正確的起始點(diǎn)或者結(jié)束點(diǎn),則使用自然語言處理系統(tǒng)處理語音輸入的結(jié)果可能不精確或者不盡人意。
技術(shù)實(shí)現(xiàn)要素:
不同用戶對于在他們的移動設(shè)備上使用語音輸入可能具有不同的舒適水平。一些用戶可能頻繁地使用語音輸入特征并且能夠在說話期間不猶豫地形成語音查詢。其它用戶可能不那么經(jīng)常地使用語音輸入特征,或者可能無法在不猶豫的情況下快速地構(gòu)思出查詢。較有經(jīng)驗(yàn)的用戶可能受益于在測量出用戶語音中的短停頓之后就開始處理用戶的語音查詢的系統(tǒng)。經(jīng)驗(yàn)較少的用戶可能受益于在測量出用戶語音中的較長停頓之后開始處理用戶的語音查詢來確保經(jīng)驗(yàn)較少的用戶已經(jīng)完成說話的系統(tǒng)。
為了確定應(yīng)用于特定用戶的語音查詢的停頓長度,系統(tǒng)分析該特定用戶的先前的語音查詢。對于特定用戶,系統(tǒng)考慮語音查詢頻率、先前的語音查詢的詞之間的停頓長度、先前的語音查詢的完整性、以及先前的語音查詢的長度。與不那么頻繁說出語音查詢的用戶相比,更頻繁說出語音查詢的用戶可能受益于對用戶的語音查詢應(yīng)用的較短停頓長度。與詞之間具有較長平均停頓長度的用戶相比,先前的語音查詢的詞之間具有短平均停頓長度的用戶可能受益于較短的停頓長度。與較不頻繁說出完整查詢的用戶相比,更經(jīng)常說出完整語音查詢的用戶可能受益于較短的停頓長度。與說出較短語音查詢的用戶相比,說出較長語音查詢的用戶可能受益于較短的停頓長度。一旦系統(tǒng)計(jì)算出應(yīng)用于特定用戶的語音查詢的適當(dāng)停頓長度,則系統(tǒng)可以使用該特定用戶的停頓長度來在該特定用戶的將來話語期間生成端點(diǎn)。
大體上,本說明書中所述的主題的另一新穎方面可以被實(shí)現(xiàn)在方法中,所述方法包括:訪問包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù);基于包括特定用戶說出的該語音查詢的語音查詢?nèi)罩緮?shù)據(jù),從包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值;從該特定用戶接收話語;確定該特定用戶已經(jīng)在至少等于停頓閾值的時間段內(nèi)停止說話;以及基于確定該特定用戶已經(jīng)在至少等于停頓閾值的時間段內(nèi)停止說話,將該話語處理為語音查詢。
這些和其它實(shí)施例均能夠可選地包括一個或多個下列特征。從包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值的動作包括將該特定用戶分類為語音識別系統(tǒng)的專家用戶或者語音識別系統(tǒng)的新手用戶;以及基于將該特定用戶分類為語音識別系統(tǒng)的專家用戶或者語音識別系統(tǒng)的新手用戶,確定停頓閾值。語音查詢?nèi)罩緮?shù)據(jù)包括與每個語音查詢相關(guān)聯(lián)的時間戳、指示每個語音查詢是否完整的數(shù)據(jù)、以及與每個語音查詢相關(guān)聯(lián)的語音停頓間隔。從包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值的動作包括基于與每個語音查詢相關(guān)聯(lián)的該時間戳、指示每個語音查詢是否完整的該數(shù)據(jù)、以及與每個語音查詢相關(guān)聯(lián)的該語音停頓間隔來確定停頓閾值。
所述動作進(jìn)一步包括基于語音查詢?nèi)罩緮?shù)據(jù),確定特定用戶每天說出的語音查詢的平均數(shù)目。確定停頓閾值的動作進(jìn)一步基于特定用戶每天說出的語音查詢的該平均數(shù)目。所述動作還包括基于該語音查詢?nèi)罩緮?shù)據(jù),確定特定用戶說出的語音查詢的該平均長度。確定該停頓閾值的動作進(jìn)一步基于特定用戶說出的語音查詢的平均長度。所述動作進(jìn)一步包括基于語音查詢?nèi)罩緮?shù)據(jù),確定特定用戶說出的語音查詢的平均停頓間隔。確定停頓閾值的動作進(jìn)一步基于特定用戶說出的語音查詢的該平均停頓間隔。
本方面的其它實(shí)施例包括相對應(yīng)的系統(tǒng)、裝置、以及記錄在計(jì)算機(jī)存儲設(shè)備上的計(jì)算機(jī)程序,其每個都被配置來執(zhí)行所述方法的操作。
本說明書中所述的主題的特定實(shí)施例能夠被實(shí)現(xiàn)為實(shí)現(xiàn)一個或多個下列優(yōu)點(diǎn)。用戶可以使用計(jì)算設(shè)備的語音輸入能力,并且以對于該用戶舒適的語速說話??梢栽谠捳Z的所意圖的端處對該話語確定端點(diǎn),導(dǎo)致更為精確或期望的自然語言處理輸出,并且導(dǎo)致自然語言處理系統(tǒng)更快速地處理。
在附圖和以下描述中闡述了本說明書中所述的主題的一個或多個實(shí)施例的細(xì)節(jié)。本主題的其它特征、方面、和優(yōu)點(diǎn)從說明書、附圖、和權(quán)利要求書將顯而易見。
附圖說明
圖1是對于特定用戶來確定用戶是否已經(jīng)完成說出語音查詢所使用的示例話語和信號的視圖。
圖2是基于特定用戶對語音輸入的經(jīng)驗(yàn)而對特定用戶進(jìn)行分類的示例系統(tǒng)的視圖。
圖3是基于特定用戶對語音輸入的經(jīng)驗(yàn)來對特定用戶進(jìn)行分類并且確定該特定用戶是否已經(jīng)完成說出語音查詢的示例過程的視圖。
圖4是可以在其上實(shí)現(xiàn)本文所述的過程或者其部分的計(jì)算設(shè)備的框圖。
各附圖中,相似參考數(shù)字和名稱指示相似的元件。
具體實(shí)施方式
圖1是對于特定用戶來確定用戶是否已經(jīng)完成說出語音查詢所使用的示例話語和信號的視圖100。大體上,視圖100圖示了當(dāng)計(jì)算設(shè)備121正在處理傳入的音頻輸入時由計(jì)算設(shè)備121生成或者檢測出的信號103-118。計(jì)算設(shè)備121通過計(jì)算設(shè)備121的麥克風(fēng)或者其它音頻輸入設(shè)備來接收與話語124相對應(yīng)的音頻數(shù)據(jù),并且依賴于被指派給用戶127的用戶簡檔來生成話語124的轉(zhuǎn)錄。
話語定時130表示用戶127說出話語124(在圖1中為“textmomloveyou(發(fā)短信給媽媽說愛你)”)的各個詞語的定時。用戶127以每個詞之間的漸增的停頓長度來說出每個詞。每個詞之間的點(diǎn)的數(shù)目與每個詞之間的停頓長度成正比。每個點(diǎn)可以表示特定時間段,諸如100毫秒。第一詞133“text”之后是可以與300毫秒相對應(yīng)的三個點(diǎn)的停頓136。第二個詞139“mom”之后是可以與800毫秒相對應(yīng)的八個點(diǎn)的停頓142。第三個詞145“l(fā)ove”之后是可以與1.2秒相對應(yīng)的12個點(diǎn)的停頓128。第四個詞151“you”之后是停頓154。在圖1中,停頓154為可以與2秒相對應(yīng)的20個停頓。由于詞151位于話語124的終點(diǎn),所以詞語151之后的停頓可以比停頓154長很多,因?yàn)橛脩?27已經(jīng)停止說話。這些停頓和下文所述的其它停頓表示兩個詞之間的自然沉默時段,并且不是用戶主動停止說話。
在一些實(shí)施方式中,計(jì)算設(shè)備121可以在不將用戶127的任何特性作為因素的情況下生成普通端點(diǎn)信號103和完整查詢信號106。完整查詢信號106表示由計(jì)算設(shè)備121執(zhí)行的對所生成的話語130的轉(zhuǎn)錄表示完整話語的估計(jì)。計(jì)算設(shè)備121將所生成的轉(zhuǎn)錄與用戶127和其它用戶先前已經(jīng)說出的一個或更多完整話語進(jìn)行比較。計(jì)算設(shè)備121可以在計(jì)算設(shè)備121的語音識別器已經(jīng)識別出新詞后將所生成的轉(zhuǎn)錄與該完整話語進(jìn)行比較。例如,在用戶127說出詞133后,計(jì)算設(shè)備121的語音識別器生成轉(zhuǎn)錄“text”。計(jì)算設(shè)備121將“text”與其它完整話語進(jìn)行比較,并且確定“text”不是完整話語。在用戶127說出詞139后,語音識別器生成轉(zhuǎn)錄“textmom”,計(jì)算設(shè)備121將其識別為完整的。在詞語151之后做出類似的確定。在用戶127說出詞145之后,語音識別器生成轉(zhuǎn)錄“textmomlove”,計(jì)算設(shè)備121將其識別為不完整的。
普通端點(diǎn)信號103表示由計(jì)算設(shè)備121執(zhí)行的對用戶127已經(jīng)結(jié)束說話的估計(jì)。計(jì)算設(shè)備121可以基于語音音頻之間的停頓長度來生成普通端點(diǎn)信號103。計(jì)算設(shè)備121可以在不生成話語124的轉(zhuǎn)錄的情況下生成普通端點(diǎn)信號103。例如,計(jì)算設(shè)備121可以接收與詞133相對應(yīng)的音頻數(shù)據(jù)。在停頓136期間,計(jì)算設(shè)備121隨著停頓136期間的時間的流逝來測量時間。停頓136可能僅持續(xù)300毫秒。如果普通端點(diǎn)閾值比300毫秒長,諸如600毫秒,則計(jì)算設(shè)備121將不觸發(fā)普通端點(diǎn)器。在計(jì)算設(shè)備121接收到與詞139相對應(yīng)的音頻數(shù)據(jù)之后,計(jì)算設(shè)備121測量停頓142的時間。在停頓142已經(jīng)流逝了600毫秒之后,計(jì)算設(shè)備121觸發(fā)普通端點(diǎn)器,并且普通端點(diǎn)信號103指示已經(jīng)達(dá)到端點(diǎn)。利用指示話語124的端點(diǎn)的普通端點(diǎn)信號103以及指示話語124完整的完整查詢信號106,計(jì)算設(shè)備生成話語124的轉(zhuǎn)錄157“textmom”。
在一些實(shí)施方式中,計(jì)算設(shè)備121可以在識別話語124的端點(diǎn)時將用戶127的特性作為因素。一方面,有可能由于新手用戶可能不熟悉向計(jì)算設(shè)備121說出什么詞項(xiàng)最好,因此新手用戶可能以在詞語之間更長的停頓來說話。另一方面,由于專家用戶可能對計(jì)算設(shè)備121的語音輸入技術(shù)更舒適和熟悉,因此專家用戶可以以詞語之間較短的停頓來說話。因而,計(jì)算設(shè)備121可以依賴于計(jì)算設(shè)備121如何對用戶分類來在其識別出停頓之前延長或者縮短時間量。
新手停頓檢測器信號109圖示了計(jì)算設(shè)備121對與話語124相對應(yīng)的音頻數(shù)據(jù)中的停頓進(jìn)行檢測,其中所檢測的停頓長度比與普通端點(diǎn)器相對應(yīng)的停頓長度更長。例如,計(jì)算設(shè)備121可以在用戶127被分類為新手用戶時檢測出具有一秒長度的停頓。通過將這種停頓閾值應(yīng)用于話語124,計(jì)算設(shè)備121在停頓136和124期間不會檢測到新手長度停頓,因?yàn)槟切┩nD分別具有300毫秒和800毫秒的長度。計(jì)算設(shè)備121在停頓148和154期間確實(shí)檢測出新手長度停頓。如新手停頓檢測器信號109中所示,計(jì)算設(shè)備121在用戶127說出詞145之后的停頓148期間檢測出一秒的停頓。計(jì)算設(shè)備121在用戶說出詞151之后的停頓154期間也檢測出一秒的停頓。
當(dāng)計(jì)算設(shè)備將用戶分類為新手時,計(jì)算設(shè)備121基于新手停頓檢測器信號109和完整查詢信號106來確定話語124的語音端點(diǎn)。當(dāng)計(jì)算設(shè)備121在停頓148期間檢測出諸如新手停頓檢測器信號109的停頓時,計(jì)算設(shè)備121確定話語124是否完整。在停頓148期間,完整查詢信號106指示話語124不完整。即使計(jì)算設(shè)備121檢測出新手長度的停頓,話語124也不完整,所以計(jì)算設(shè)備121繼續(xù)處理話語124的音頻數(shù)據(jù)。在停頓154期間,計(jì)算設(shè)備121檢測新手長度停頓并且完整查詢信號106指示話語完整,并且因此生成由新手端點(diǎn)信號112指示的話語124的端點(diǎn)。當(dāng)用戶127被分類為新手時,話語124的端點(diǎn)在詞151之后,并且話語124的轉(zhuǎn)錄160為“textmomloveyou”。
專家停頓檢測器信號115圖示了計(jì)算設(shè)備121對與話語124相對應(yīng)的音頻數(shù)據(jù)中的停頓進(jìn)行檢測,其中所檢測的停頓長度比與普通端點(diǎn)器相對應(yīng)的停頓長度更短。例如,計(jì)算設(shè)備121可以在用戶127被分類為專家用戶時檢測具有300毫秒長度的停頓。通過將這種停頓閾值應(yīng)用于話語124,計(jì)算設(shè)備121在停頓136、142、148、和154期間檢測到專家長度停頓。由于沒有停頓小于300毫秒,所以話語124中的停頓的全部都包括專家長度停頓檢測。
當(dāng)計(jì)算設(shè)備將用戶分類為專家時,計(jì)算設(shè)備121組合專家停頓檢測器信號115和完整查詢信號106來確定話語124的語音端點(diǎn)。當(dāng)計(jì)算設(shè)備121在停頓136期間檢測出諸如專家停頓檢測器信號115的停頓時,計(jì)算設(shè)備121確定話語124是否完整。在停頓136期間,完整查詢信號106指示話語124不完整。即使計(jì)算設(shè)備121檢測出專家長度的停頓,話語124也不完整,所以計(jì)算設(shè)備121繼續(xù)處理話語124的音頻數(shù)據(jù)。在停頓142期間,計(jì)算設(shè)備121檢測專家長度停頓并且完整查詢信號106指示話語完整,并且因此生成由專家端點(diǎn)信號118指示的話語124的端點(diǎn)。當(dāng)用戶127被分類為專家時,話語124的端點(diǎn)在詞語139之后,并且話語124的轉(zhuǎn)錄163為“textmom”。
圖2是基于特定用戶對語音輸入的經(jīng)驗(yàn)而對特定用戶進(jìn)行分類的示例系統(tǒng)200的視圖。在一些實(shí)施方式中,系統(tǒng)200被包括在特定用戶用來進(jìn)行語音輸入的計(jì)算設(shè)備中,諸如計(jì)算設(shè)備121中。在一些實(shí)施方式中,系統(tǒng)可以被包括在處理語音輸入的轉(zhuǎn)錄的服務(wù)器中。
系統(tǒng)200包括語音查詢205。語音查詢?nèi)罩?05存儲用戶向系統(tǒng)200提供的先前的語音查詢。語音查詢?nèi)罩?05可以包括搜索查詢,例如“catvideos(貓視頻)”,以及命令查詢,例如“callmom(打電話給媽媽)”。語音查詢?nèi)罩?05可以對于每個所存儲的語音查詢包括時間戳、指示詞之間的每個停頓的持續(xù)時間的數(shù)據(jù)、以及基于與其它語音查詢的比較來指示語音查詢完整或者不完整的數(shù)據(jù)。
查詢?nèi)罩?10圖示了用戶bob所提供的語音查詢。查詢?nèi)罩?10中的語音查詢包括三個語音查詢,并且每個都包括完整指示符“[c]”或者不完整指示符“[i]”。每個語音查詢都包括記錄bob說出語音查詢的日期和時間的時間戳。每個語音查詢都包括指示所說的詞之間的停頓間隔的數(shù)據(jù)。例如,“catvideos”可以包括指示bob在“cat”和“videos”之間停頓200毫秒的數(shù)據(jù)。“call...mom”可以包括指示bob在“call”和“mom”之間停頓一秒的數(shù)據(jù)。
查詢?nèi)罩?15圖示了用戶alice所提供的語音查詢。查詢?nèi)罩?15中的語音查詢包括五個語音查詢,并且每個都包括完整指示符“[c]”或者不完整指示符“[i]”。每個語音查詢都包括記錄數(shù)據(jù)以及alice說出語音查詢的日期和時間的時間戳。每個語音查詢都包括指示所說的詞之間的停頓間隔的數(shù)據(jù)。例如,“textsallythati’llbetenminuteslate(發(fā)短信給sally說我會晚十分鐘)”可以包括指示alice在“text”和“sally”之間停頓了1毫秒,在“sally”和“that”之間停頓了300毫秒,并且在“that”和“i’ll”之間停頓了1.5秒,以及其它詞之間的停頓間隔的數(shù)據(jù)?!癱allmom”可以包括指示alice在“call”和“mom”之間停頓了3毫秒的數(shù)據(jù)。
語音查詢處理器220處理從語音查詢?nèi)罩?05接收的語音查詢。語音查詢處理器220為每個用戶生成語音查詢經(jīng)驗(yàn)分值。語音查詢經(jīng)驗(yàn)分值指示特定用戶對語音查詢所具有的經(jīng)驗(yàn)水平。語音查詢經(jīng)驗(yàn)分值越高指示特定用戶可能對說出語音查詢具有越多的經(jīng)驗(yàn)。例如,為了生成bob的語音查詢經(jīng)驗(yàn)分值,語音查詢處理器220處理查詢?nèi)罩?10。
語音查詢處理器220包括查詢完整性處理器225。查詢完整性處理器225訪問每個用戶的每個語音查詢的完整性數(shù)據(jù),并且調(diào)整用戶的語音查詢經(jīng)驗(yàn)分值。如果特定用戶具有較多的完整語音查詢和較少的不完整語音查詢,則查詢完整性處理器225提高語音查詢經(jīng)驗(yàn)分值。如果特殊用戶具有較多的不完整語音查詢和較少的完整語音查詢,則查詢完整性處理器225降低語音查詢經(jīng)驗(yàn)分值。查詢完整性處理器225可以將完整查詢和不完整查詢的比例與完整性比例閾值進(jìn)行比較來確定是否提高或者降低語音查詢經(jīng)驗(yàn)分值。例如,bob具有一個不完整語音查詢和兩個完整查詢?;谠撔畔?,查詢完整性處理器225可以降低bob的語音查詢經(jīng)驗(yàn)分值。alice不具有不完整語音查詢和五個完整查詢?;谠撔畔?,查詢完整性處理器225可以提高alice的語音查詢經(jīng)驗(yàn)分值。
語音查詢處理器220包括查詢長度處理器230。查詢長度處理器230計(jì)算每個用戶的每個語音查詢的長度,并且調(diào)整用戶的語音查詢經(jīng)驗(yàn)分值。如果特定用戶具有較多的長語音查詢和較少的短語音查詢,則語音查詢處理器220提高語音查詢經(jīng)驗(yàn)分值。如果特定用戶具有較多的短語音查詢和較少的長語音查詢,則語音查詢處理器220降低語音查詢經(jīng)驗(yàn)分值。查詢長度處理器230可以使用閾值來確定語音查詢是長還是短。查詢長度處理器230可以將長查詢和短查詢的比例與長度比例閾值進(jìn)行比較,來確定是否提高或降低語音查詢經(jīng)驗(yàn)分值。例如,bob具有一個不完整語音查詢和兩個完整查詢?;谠撔畔?,查詢完整性處理器225可以降低bob的語音查詢經(jīng)驗(yàn)分值。alice不具有不完整語音查詢和五個完整查詢?;谠撔畔ⅲ樵兺暾蕴幚砥?25可以增大alice的語音查詢經(jīng)驗(yàn)分值。
語音查詢處理器220包括停頓間隔處理器235。停頓間隔處理器225計(jì)算每個用戶的用戶語音查詢的詞語之間平均停頓長度。停頓間隔處理器235可以將每個用戶的平均停頓長度與停頓閾值進(jìn)行比較,來確定提高還是降低該用戶的語音查詢經(jīng)驗(yàn)分值。平均停頓長度高于停頓閾值則降低語音查詢經(jīng)驗(yàn)分值。平均停頓長度低于停頓閾值則提高語音查詢經(jīng)驗(yàn)分值。例如,bob可能具有1.2秒的平均停頓長度。alice可能具有200毫秒的平均停頓長度。如果停頓閾值為1秒,則停頓間隔處理器235提高alice的語音查詢經(jīng)驗(yàn)分值,并且降低bob的語音查詢經(jīng)驗(yàn)分值。
語音查詢處理器220包括查詢計(jì)數(shù)器240。查詢計(jì)數(shù)器240計(jì)算每個用戶的所提交的語音查詢的數(shù)目,并且調(diào)整語音查詢經(jīng)驗(yàn)分值。如果特定用戶提供了許多語音查詢,則語音查詢處理器220提高語音查詢經(jīng)驗(yàn)分值。如果特定用戶提供了較少語音查詢,則語音查詢處理器220降低語音查詢經(jīng)驗(yàn)分值。查詢長度處理器230可以使用每日語音查詢閾值,并且將該閾值與語音查詢的平均每日數(shù)目進(jìn)行比較,來確定用戶提交了許多的語音查詢還是很少的語音查詢。例如,每日語音查詢閾值為每天一個查詢?;诓樵?nèi)罩?10,bob每天提交了少于一個查詢。因此,查詢計(jì)數(shù)器240降低bob的語音查詢經(jīng)驗(yàn)分值?;诓樵?nèi)罩?15,alice具有多于每天一個的查詢。因此,查詢計(jì)數(shù)器240提高alice的語音查詢經(jīng)驗(yàn)分值。
語音查詢處理器220中所包括的處理器中的每個一個都可以將用戶的語音查詢經(jīng)驗(yàn)分值提高或者降低與閾值和相對應(yīng)的用戶的值之間的差成比例的量。例如,alice平均有每天2.5個語音查詢,并且bob平均有每天0.125個語音查詢。利用每天一個查詢的每日語音查詢閾值,alice比閾值高1.5,并且bob比閾值低0.875。查詢計(jì)數(shù)器240用某個系數(shù)乘1.5來提高alice的語音查詢經(jīng)驗(yàn)分值,并且用某個系數(shù)乘0.875來降低bob的語音查詢經(jīng)驗(yàn)分值。
語音查詢處理器220向用戶簡檔器245提供每個用戶的語音查詢經(jīng)驗(yàn)分值。用戶簡檔器245基于用戶的語音查詢經(jīng)驗(yàn)分值來將語音查詢經(jīng)驗(yàn)簡檔指派給每個用戶。語音簡檔器245訪問簡檔閾值250來將每個用戶的語音查詢經(jīng)驗(yàn)分值與語音查詢經(jīng)驗(yàn)簡檔匹配。每個語音查詢經(jīng)驗(yàn)簡檔都可以相應(yīng)于語音查詢經(jīng)驗(yàn)分值的范圍。例如,專家簡檔可以相應(yīng)于80至100的范圍。新手簡檔可以相應(yīng)于0至20的范圍。其它簡檔可以存在于20至80的語音查詢經(jīng)驗(yàn)分值之間。在圖2中的示例中,bob可以具有語音查詢經(jīng)驗(yàn)分值18并且alice可以具有語音查詢經(jīng)驗(yàn)分值88。因此,bob被分類為新手,并且alice被分類為專家。然后,用戶簡檔器245在簡檔存儲255中存儲每個用戶的語音查詢經(jīng)驗(yàn)簡檔。簡檔260圖示了存儲在簡檔存儲255內(nèi)的alice和bob的簡檔。
當(dāng)生成將來話語的端點(diǎn)時,每個語音查詢經(jīng)驗(yàn)簡檔都相應(yīng)于系統(tǒng)200隨后使用的不同停頓長度閾值。如圖1中所示和上文所描述的,專家簡檔相應(yīng)于被用于對話語確定端點(diǎn)的300毫秒停頓長度閾值。新手簡檔相應(yīng)于1秒的停頓長度閾值。系統(tǒng)200可以利用600毫秒的停頓長度閾值來限定其它簡檔,諸如中間簡檔。在一些實(shí)施方式中,系統(tǒng)200可以將停頓長度閾值指派給用戶,而無需將簡檔指派給用戶。系統(tǒng)可以生成語音查詢經(jīng)驗(yàn)分值,并且計(jì)算與語音查詢經(jīng)驗(yàn)分值成反比的停頓長度閾值。
圖3是基于特定用戶對語音輸入的經(jīng)驗(yàn)來對特定用戶進(jìn)行分類并且確定該特定用戶是否已經(jīng)完成說出語音查詢的示例過程300的視圖。過程300可以由計(jì)算設(shè)備來執(zhí)行,諸如圖1的計(jì)算設(shè)備121或者圖2的計(jì)算設(shè)備200。過程300分析用戶的先前的語音查詢來確定停頓閾值以用于確定用戶何時已經(jīng)完成說出將來的查詢。
計(jì)算設(shè)備訪問語音查詢?nèi)罩緮?shù)據(jù)(310)。計(jì)算設(shè)備確定特定用戶的停頓閾值(320)。計(jì)算設(shè)備從特定用戶接收話語(330)。計(jì)算設(shè)備確定特定用戶已經(jīng)在停頓閾值內(nèi)停止說話(340)。計(jì)算設(shè)備將話語處理為語音查詢(350)。
圖4是可以被用于作為客戶端或者作為服務(wù)器或多個服務(wù)器來實(shí)現(xiàn)本文檔所描述的系統(tǒng)和方法的計(jì)算設(shè)備400的框圖。計(jì)算設(shè)備400意圖表示各種形式的數(shù)字計(jì)算機(jī),諸如筆記本電腦、臺式機(jī)、工作站、個人數(shù)字助理、服務(wù)器、刀片服務(wù)器、大型機(jī)、和其它適當(dāng)?shù)挠?jì)算機(jī)。
計(jì)算設(shè)備400包括處理器402、存儲器404、存儲設(shè)備406、連接至存儲器404和高速擴(kuò)展端口410的高速接口408,以及連接至低速總線414和存儲設(shè)備406的低速接口412。組件402、404、406、408、410和412中的每一個都使用各種總線被互連,并且可以被安裝在公共主板上,或者視需要來以其它方式安裝。處理器402能夠處理用于在計(jì)算設(shè)備400內(nèi)執(zhí)行的指令——包括被存儲在存儲器404中或者存儲設(shè)備406上的指令——以在諸如耦合至高速接口408的顯示器416的外部輸入/輸出設(shè)備上顯示gui的圖形信息。在其它實(shí)施方式中,可以視需要來使用多個處理器和/或多個總線,連同多個存儲器和多種類型的存儲器。此外,多個計(jì)算設(shè)備400可以與提供多個必要操作的部分的每個設(shè)備連接,例如作為服務(wù)器庫、刀片服務(wù)器群組、或者多處理器系統(tǒng)。
計(jì)算設(shè)備400可以以如圖所示的多個不同形式來被實(shí)現(xiàn)。例如,計(jì)算設(shè)備400可以被實(shí)現(xiàn)為標(biāo)準(zhǔn)服務(wù)器420,或者在這樣的服務(wù)器的群組中多次實(shí)現(xiàn)。計(jì)算設(shè)備400也可以被實(shí)現(xiàn)為機(jī)架服務(wù)器系統(tǒng)424的一部分。此外,計(jì)算設(shè)備400可以在個人計(jì)算機(jī)——諸如膝上型計(jì)算機(jī)422中實(shí)現(xiàn)。替選地,來自計(jì)算設(shè)備400的組件可以與移動設(shè)備(未示出)中的其它組件組合。這些設(shè)備中的每個設(shè)備都可以包含一個或多個計(jì)算設(shè)備400,并且整個系統(tǒng)可以由彼此通信的多個計(jì)算設(shè)備400組成。
此處所描述的系統(tǒng)和方法的各個實(shí)施方式能夠以數(shù)字電子電路、集成電路、專用asic(應(yīng)用程序?qū)S眉呻娐?、計(jì)算機(jī)硬件、固件、軟件、和/或這樣的實(shí)現(xiàn)的組合來實(shí)現(xiàn)。各種這些實(shí)施方式能夠包括一個或多個計(jì)算機(jī)程序中的實(shí)施方式,這些計(jì)算機(jī)程序可在可編程系統(tǒng)上執(zhí)行和/或解釋,所述可編程系統(tǒng)包括:至少一個專用或者通用的可編程處理器,其被耦合以從存儲系統(tǒng)接收數(shù)據(jù)和指令以及向其傳送數(shù)據(jù)和指令;至少一個輸入設(shè)備;以及至少一個輸出設(shè)備。
此處所述的系統(tǒng)和技術(shù)能夠在計(jì)算系統(tǒng)中實(shí)現(xiàn),該計(jì)算系統(tǒng)包括后端組件——例如數(shù)據(jù)服務(wù)器,或者包括中間件組件——例如應(yīng)用服務(wù)器,或者包括前端組件——例如具有用戶能夠通過其能夠與此處所述的系統(tǒng)和技術(shù)的實(shí)現(xiàn)交互的圖形用戶界面或者web瀏覽器的客戶端計(jì)算機(jī),或者這樣的后端、中間件、或者前端組件的任何組合。系統(tǒng)的組件能夠通過例如通信網(wǎng)絡(luò)的任何形式或者介質(zhì)的數(shù)字?jǐn)?shù)據(jù)通信互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“l(fā)an”)、廣域網(wǎng)(“wan”)、和互聯(lián)網(wǎng)。
已經(jīng)描述了多個實(shí)施例。然而,應(yīng)理解,在不偏離本發(fā)明的精神和范圍的情況下,可以做出各種修改。此外,圖中所描繪的邏輯流程不需要按照所示的特殊順序或者連續(xù)順序來實(shí)現(xiàn)期望的結(jié)果。此外,可以提供其它步驟,或者可以從所述流程刪去一些步驟,并且可以將其它組件添加至所述系統(tǒng),或者從其中去除其它組件。因而,其它實(shí)施例在下面的權(quán)利要求書的范圍內(nèi)。