用于增量地生成的語音識(shí)別假設(shè)的增強(qiáng)的穩(wěn)定性預(yù)測(cè)的制作方法
【專利摘要】包括在計(jì)算機(jī)存儲(chǔ)介質(zhì)上被編碼的計(jì)算機(jī)程序在內(nèi)的用于預(yù)測(cè)語音識(shí)別結(jié)果的穩(wěn)定性的方法、系統(tǒng)和裝置。在一個(gè)方面,一種方法包括確定詞保持在增量語音識(shí)別器的頂端假設(shè)中的時(shí)間長(zhǎng)度或者時(shí)機(jī)數(shù)量,并且基于該時(shí)間長(zhǎng)度或者時(shí)機(jī)數(shù)量向該詞分配穩(wěn)定性度量。
【專利說明】用于增量地生成的語音識(shí)別假設(shè)的增強(qiáng)的穩(wěn)定性預(yù)測(cè)
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求2011年11月I日提交的第61/554,039號(hào)美國(guó)臨時(shí)專利申請(qǐng)以及2012年5月2日提交的第13/461,033號(hào)美國(guó)專利申請(qǐng)的權(quán)益,它們通過引用結(jié)合于此。
【技術(shù)領(lǐng)域】
[0003]本說明書總體上涉及語音識(shí)別。
【背景技術(shù)】
[0004]在某些自動(dòng)語音識(shí)別(ASR)實(shí)施方式中,用戶在識(shí)別結(jié)果被顯示或者被遵照?qǐng)?zhí)行之前完成講話。
【發(fā)明內(nèi)容】
[0005]在增量語音識(shí)別(incremental speech recognition)中,能夠在用戶講話的同時(shí)從識(shí)別器流輸出部分結(jié)果,因此例如實(shí)現(xiàn)用于口頭語言接口的若干有用特征。例如,識(shí)別器能夠在假設(shè)(hypothesis)完全形成之前遵照該假設(shè)執(zhí)行或者向用戶顯示該假設(shè)。此外,在識(shí)別結(jié)果完全確定之前預(yù)先計(jì)算響應(yīng)可以具有計(jì)算上的優(yōu)勢(shì)。連同這些特征和其它有用的特征,口頭語言界面能夠感覺更自然并且對(duì)用戶易于響應(yīng)。
[0006]根據(jù)本說明書所描述主題的一個(gè)總體實(shí)施方式,一種系統(tǒng)可以基于例如與持續(xù)時(shí)間相關(guān)的特征的各種特征向增量語音識(shí)別結(jié)果的分段(segment)分配穩(wěn)定性度量(stability metric)。代替估計(jì)該分段已經(jīng)被識(shí)別器正確解碼的概率或者除此之外,該系統(tǒng)能夠估計(jì)直至并包括最近解碼的分段的增量結(jié)果中的分段穩(wěn)定(即,將保持在未來的增量結(jié)果中而沒有變化)的概率。表現(xiàn)出所期望的穩(wěn)定性特性的分段例如能夠被顯示給用戶。
[0007]總體上,本說明書中所描述主題的一個(gè)方面可以體現(xiàn)在如下的方法中,這些方法包括如下動(dòng)作:接收各自表示增量語音識(shí)別器在不同時(shí)間點(diǎn)的頂端增量語音識(shí)別假設(shè)的多個(gè)部分增量語音識(shí)別假設(shè),并且從該多個(gè)部分增量語音識(shí)別假設(shè)之一識(shí)別分段。該方法還包括從該多個(gè)部分增量語音識(shí)別假設(shè)確定該分段在增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久,并且由一個(gè)或多個(gè)計(jì)算機(jī)基于該分段在增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久來向該分段分配穩(wěn)定性度量。
[0008]總體上,本說明書中所描述主題的另一個(gè)方面可以體現(xiàn)在如下的方法中,這些方法包括如下動(dòng)作:識(shí)別在特定時(shí)間點(diǎn)、在語音識(shí)別器的輸出中出現(xiàn)的詞或子詞,確定該詞或子詞在語音識(shí)別器的輸出中出現(xiàn)而沒有后續(xù)變化的最早時(shí)間點(diǎn),并且基于該特定時(shí)間點(diǎn)和最早時(shí)間點(diǎn)計(jì)算該詞或子詞的壽命度量(age metric)。
[0009]總體上,本說明書中所描述主題的另一個(gè)方面可以體現(xiàn)在如下的方法中,這些方法包括如下動(dòng)作:確定詞保持在增量語音識(shí)別器的頂端假設(shè)中的時(shí)間長(zhǎng)度或者時(shí)機(jī)數(shù)量,并且基于該時(shí)間長(zhǎng)度或者時(shí)機(jī)數(shù)量向該詞分配穩(wěn)定性度量。[0010]這些方面的其它實(shí)施例包括對(duì)應(yīng)的系統(tǒng)、裝置,以及在計(jì)算機(jī)存儲(chǔ)設(shè)備上被編碼的、被配置為執(zhí)行該方法的動(dòng)作的計(jì)算機(jī)程序。
[0011]這些實(shí)施例和其它實(shí)施例各自可以可選地包括一個(gè)或多個(gè)以下特征。例如,向分段分配穩(wěn)定性度量進(jìn)一步基于該分段的右側(cè)上下文;該分段是詞或子詞;確定該分段持續(xù)了多久包括確定該分段在沒有變化的情況下持續(xù)了多久;穩(wěn)定性度量在所識(shí)別的、包括該分段的特定增量語音識(shí)別假設(shè)從增量語音識(shí)別器輸出之后被分配給該分段;該方法包括接收與話語(utterance)相對(duì)應(yīng)的音頻信號(hào),并且對(duì)該音頻信號(hào)執(zhí)行增量語音識(shí)別以生成多個(gè)部分增量語音識(shí)別假設(shè);該方法包括確定穩(wěn)定性度量是否滿足閾值,并且基于確定穩(wěn)定性度量是否滿足閾值來改變用戶界面上該分段的表示的視覺特征;該方法包括確定穩(wěn)定性度量是否滿足閾值,并且基于確定穩(wěn)定性度量是否滿足閾值來將該分段翻譯為不同語言;該方法包括確定穩(wěn)定性度量是否滿足閾值,并且基于確定穩(wěn)定性度量是否滿足閾值來將該分段作為搜索查詢的一部分提交至搜索引擎;該方法包括確定穩(wěn)定性度量是否滿足閾值,并且基于確定穩(wěn)定性度量是否滿足閾值來在用戶界面上顯示該分段的表示;以及/或者該接收、識(shí)別、確定和分配由一個(gè)或多個(gè)計(jì)算機(jī)來執(zhí)行。
[0012]該說明書中所描述主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中給出。主題的其它可能的特征、方面和優(yōu)勢(shì)將從描述、附圖和權(quán)利要求變得顯而易見。
【專利附圖】
【附圖說明】
[0013]圖1是能夠評(píng)估增量地生成的語音識(shí)別假設(shè)的穩(wěn)定性的示例系統(tǒng)的示圖。
[0014]圖2A是由增量語音識(shí)別器在各個(gè)時(shí)刻生成的頂端假設(shè)的示例。
[0015]圖2B圖示了用于確定對(duì)應(yīng)于來自圖2A的頂端假設(shè)的分段的穩(wěn)定性度量是否滿足閾值的樣本過程。
[0016]圖3是用于基于分段的持續(xù)時(shí)間向其分配穩(wěn)定性度量的示例過程的流程圖。
[0017]圖4是用于基于詞或子詞首次被識(shí)別而沒有后續(xù)變化的時(shí)間來計(jì)算該詞或子詞的壽命度量的示例過程的流程圖。
[0018]圖5是用于基于詞的時(shí)間長(zhǎng)度向其分配穩(wěn)定性度量的示例過程的流程圖。
[0019]圖6和圖7圖示了作為樣本測(cè)試集合的延遲的函數(shù)的穩(wěn)定性改進(jìn)。
[0020]圖8圖示了使用相對(duì)圖6和圖7的樣本測(cè)試集合的真實(shí)分布而繪制的、使用壽命特征得出的示例回歸曲線。
[0021]各附圖中同樣的附圖標(biāo)記表示同樣的要素。
【具體實(shí)施方式】
[0022]圖1是能夠評(píng)估增量地生成的語音識(shí)別假設(shè)的穩(wěn)定性的示例系統(tǒng)100的示圖。例如,示例系統(tǒng)100可以從用戶102所說的話語112增量地生成語音識(shí)別假設(shè),評(píng)估該假設(shè)內(nèi)的分段的穩(wěn)定性,并且輸出滿足穩(wěn)定性閾值的分段。圖1還圖示了在狀態(tài)(a)至狀態(tài)(d)期間、系統(tǒng)100內(nèi)的數(shù)據(jù)流的示例,以及在狀態(tài)(d)期間、在用戶設(shè)備106上顯示的用戶界面104a、104b。狀態(tài)(a)至狀態(tài)⑷可以是時(shí)間順序的狀態(tài),或者它們可以以不同于圖示順序的順序出現(xiàn)。
[0023]更為詳細(xì)地,系統(tǒng)100包括與自動(dòng)語音識(shí)別(ASR)引擎108通信的用戶設(shè)備106。用戶設(shè)備106可以是任意適當(dāng)類型的計(jì)算設(shè)備,包括但不限于移動(dòng)電話、智能電話、PDA、音樂播放器、電子書閱讀器、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)或臺(tái)式計(jì)算機(jī),或者包括一個(gè)或多個(gè)處理器和計(jì)算機(jī)可讀介質(zhì)的其它固定設(shè)備或便攜設(shè)備。ASR引擎108可以是移動(dòng)設(shè)備106的組件。在一些實(shí)施方式中,ASR引擎108可以處于用戶設(shè)備106之外,并且用戶設(shè)備106和ASR引擎108之間的通信可以通過電話和/或計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行,該計(jì)算機(jī)網(wǎng)絡(luò)包括無線蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)(WLAN)或W1-Fi網(wǎng)絡(luò)、第三代(3G)或第四代(4G)移動(dòng)電信網(wǎng)絡(luò)或者其任意適當(dāng)?shù)慕M合。
[0024]參考示例數(shù)據(jù)流,在狀態(tài)(a)期間,音頻信號(hào)110被發(fā)送至ASR引擎108。例如,當(dāng)用戶 102 開始說出句子(例如,“peter piper picked a peck of pickled peppers”)時(shí),話語112被編碼并且作為音頻信號(hào)110被傳達(dá)至ASR引擎108。在一些實(shí)施方式中,例如在寫電子郵件時(shí),話語112可以表示到用戶設(shè)備106的基于語音的輸入。除此之外或可替換地,話語112可以表示被發(fā)送至搜索引擎、命令引擎、對(duì)話系統(tǒng)或者使用經(jīng)轉(zhuǎn)錄的語音或者調(diào)用使用經(jīng)轉(zhuǎn)錄的語音的軟件應(yīng)用以執(zhí)行一些動(dòng)作的任意其它引擎或系統(tǒng)。
[0025]在狀態(tài)(b)期間,ASR引擎108接收并處理音頻信號(hào)110。ASR引擎108可以被配置為執(zhí)行與各種軟件組件(例如,模塊、對(duì)象、庫、服務(wù)等)相關(guān)聯(lián)的應(yīng)用代碼,以實(shí)施穩(wěn)定的分段生成系統(tǒng)114,分段生成系統(tǒng)114包括識(shí)別器116、增量識(shí)別器緩沖器118、穩(wěn)定性評(píng)估器120和輸出模塊122。
[0026]當(dāng)ASR引擎108接收音頻信號(hào)110時(shí),識(shí)別器116增量地識(shí)別話語112并且將其轉(zhuǎn)換成文本。經(jīng)增量地轉(zhuǎn)換的文本可以表示識(shí)別器116的頂端增量語音識(shí)別假設(shè),并且能夠被存儲(chǔ)在增量識(shí)別器緩沖器118中。在示例系統(tǒng)100中,增量識(shí)別器緩沖器118在頂端增量語音識(shí)別假設(shè)124隨時(shí)間而變?yōu)閺淖R(shí)別器116可用時(shí)保持對(duì)它們的追蹤。如以下更為詳細(xì)描述的,穩(wěn)定性評(píng)估器120隨后增量地識(shí)別頂端增量語音識(shí)別假設(shè)124的分段并且確定每個(gè)分段的穩(wěn)定性。穩(wěn)定性評(píng)估器120已經(jīng)將其評(píng)估為穩(wěn)定的分段被發(fā)送至輸出模塊122。在這里,分段或前綴可以指的是子詞、詞或一組詞。
[0027]對(duì)于圖1中所示的頂端增量語音識(shí)別假設(shè)124,如果所有未來的增量結(jié)構(gòu)包括相同的分段,則可以認(rèn)為處于特定時(shí)幀(例如,如所圖示的以毫秒被時(shí)間排序的時(shí)幀(I)、
(10)、(20)等)的分段表現(xiàn)出期望的穩(wěn)定性特征。例如,最佳路徑線126指示不隨后續(xù)增量分段被增加到頂端假設(shè)124而變化的穩(wěn)定分段的輪廓。在一些實(shí)施方式中,穩(wěn)定性評(píng)估器120可以使用計(jì)時(shí)器128來測(cè)量特定詞在頂端假設(shè)中持續(xù)了多久(S卩,持久性(persistence)或壽命),并且隨后可以基于該測(cè)量結(jié)果來分配穩(wěn)定性度量。例如,穩(wěn)定性評(píng)估器120可以被配置為在特定詞或分段在頂端假設(shè)124中持續(xù)了 IOOms或者更長(zhǎng)時(shí)間而沒有變化的情況下確定其是穩(wěn)定的。如以下進(jìn)一步討論的,穩(wěn)定性評(píng)估器120能夠使用用于確立穩(wěn)定性的其它穩(wěn)定性度量和方法。
[0028]在狀態(tài)(C)期間,來自輸出122的一個(gè)或多個(gè)穩(wěn)定分段作為轉(zhuǎn)錄130被傳達(dá)至用戶設(shè)備106。轉(zhuǎn)錄130可以以預(yù)定的時(shí)間間隔發(fā)送至用戶設(shè)備106,或者隨著頂端增量語音識(shí)別假設(shè)124內(nèi)的穩(wěn)定分段被ASR引擎108的穩(wěn)定分段生成系統(tǒng)114識(shí)別而實(shí)時(shí)地發(fā)送。在一些實(shí)施方式中,轉(zhuǎn)錄130可以包括頂端假設(shè)124的穩(wěn)定分段和不穩(wěn)定分段兩者。
[0029]在狀態(tài)(d)期間,用戶界面104a、104b顯示由用戶設(shè)備106接收的轉(zhuǎn)錄130。在示出的示例中,用戶界面104a、104b僅增量地顯示頂端假設(shè)124內(nèi)、穩(wěn)定性評(píng)估器120已經(jīng)確定其穩(wěn)定的分段。對(duì)于以上所提到的IOOms或更大的示例穩(wěn)定性閾值而言,用戶界面104a在時(shí)刻(230)指示“PETER PIPER”是穩(wěn)定的。這是因?yàn)殡m然識(shí)別器116在時(shí)刻(230)已經(jīng)生成了假設(shè)“peter piper picked a stack”,但是僅“peter”和“piper”在頂端假設(shè)124中持續(xù)了 IOOms或更長(zhǎng)而沒有發(fā)生變化(分別為190ms和130ms)。類似地,用戶界面104b 在時(shí)刻(250)指示 “PETER PIPER PICKED” 是穩(wěn)定的,因?yàn)閮H有 “peter”、“piper” 和“picked”在頂端假設(shè)124中持續(xù)了 IOOms或更長(zhǎng)而沒有發(fā)生變化(分別為210ms、150ms和100ms)。除此之外或可替換地,用戶界面104a、104b能夠在具體時(shí)幀顯示整個(gè)頂端增量假設(shè),同時(shí)在視覺上在穩(wěn)定部分和不穩(wěn)定部分之間進(jìn)行區(qū)分。例如,具有高穩(wěn)定性的詞可以以黑色示出,而低穩(wěn)定性的詞則能夠以灰色示出。在一些實(shí)施方式中,所顯示的詞的暗度能夠響應(yīng)于該詞的特定穩(wěn)定性數(shù)值而變化。
[0030]圖2A是由增量語音識(shí)別器在各個(gè)時(shí)刻所生成的頂端假設(shè)200的示例。例如,用戶102 所說出的句子(例如,“peter piper picked a peck of pickled peppers”)可以被識(shí)別器116增量地解碼,并且如以上關(guān)于圖1中所示的頂端假設(shè)124所描述的,作為頂端假設(shè)200而被存儲(chǔ)在增量識(shí)別器緩沖器118中。頂端假設(shè)200包括在特定時(shí)幀(例如,經(jīng)時(shí)間排序的、以毫秒進(jìn)行測(cè)量的時(shí)幀(I)、(10)、(20)等)的頂端增量假設(shè)。
[0031]圖2B圖示了用于確定對(duì)應(yīng)于來自圖2A的頂端假設(shè)200的分段的穩(wěn)定性度量是否滿足閾值的樣本過程。作為示例,穩(wěn)定性評(píng)估圖202圖示了對(duì)應(yīng)于來自圖2A的頂端假設(shè)200的詞“piper”的樣本穩(wěn)定性度量的依賴于時(shí)間的變化。
[0032]在示例圖202中,穩(wěn)定性曲線206表示詞“piper”在增量語音識(shí)別過程期間的各個(gè)時(shí)刻的穩(wěn)定性。這里,例如由圖1所示的穩(wěn)定性評(píng)估器120和計(jì)時(shí)器128通過測(cè)量詞或分段在頂端假設(shè)200中持續(xù)了多久而沒有變化來評(píng)估頂端假設(shè)200內(nèi)的詞或分段的穩(wěn)定性或穩(wěn)定性度量。在一些實(shí)施方式中,穩(wěn)定性度量可以進(jìn)一步考慮除分段的壽命或持久性以外的測(cè)量。例如,如以下進(jìn)一步討論的,可以基于持久性以及分段的右側(cè)上下文來評(píng)估穩(wěn)定性度量,其中右側(cè)上下文是指自首次識(shí)別該分段以來所流逝的總時(shí)間。
[0033]參考圖2A和圖2B兩者,詞“piper”在時(shí)刻(10)和時(shí)刻(20)還沒有被識(shí)別。結(jié)果,穩(wěn)定性曲線206在該時(shí)間間隔期間指示最小穩(wěn)定性數(shù)值(例如,零或空值)。在時(shí)刻(30),詞“piper”被首次識(shí)別,但是穩(wěn)定性曲線206在此時(shí)刻仍然指示最小穩(wěn)定性數(shù)值,因?yàn)樵撛~還沒有在頂端假設(shè)200內(nèi)持續(xù)任何時(shí)間跨度。在時(shí)刻(40),“piper”現(xiàn)在在頂端假設(shè)200中持續(xù)了 IOms而沒有變化。所導(dǎo)致的穩(wěn)定性增加被指示為穩(wěn)定性曲線206在時(shí)刻(40)的上升。類似地,在時(shí)刻(50) ,“piper”在頂端假設(shè)200中持續(xù)了 20ms而沒有變化。結(jié)果,穩(wěn)定性曲線206在時(shí)刻(50)繼續(xù)增加。雖然示例圖202將穩(wěn)定性閾值示為以IOms的間隔采樣,但是例如可以根據(jù)ASR引擎108的約束條件和/或要求而更為頻繁或更不頻繁地對(duì)穩(wěn)定性進(jìn)行評(píng)估。
[0034]在時(shí)刻(60)的頂端假設(shè)200中,之前所識(shí)別的詞“piper”已經(jīng)被更新為“pipeper”。結(jié)果,穩(wěn)定性曲線206在時(shí)刻(60)下降回到最小穩(wěn)定性數(shù)值,因?yàn)樵~語“piper”不再出現(xiàn)在頂端假設(shè)中。在時(shí)刻(70),再次識(shí)別詞“piper”。即使詞“piper”在時(shí)刻(70)被再次識(shí)別之前早在時(shí)刻(30)被識(shí)別過,但是與詞“piper”相關(guān)聯(lián)的穩(wěn)定性數(shù)值不高于時(shí)刻
(70)處的穩(wěn)定性閾值,因?yàn)椤皃iper”在時(shí)亥Ij (60)變?yōu)榱?“pipe per”,因此在時(shí)刻(70)變回到“piper”之前重新設(shè)置相關(guān)聯(lián)的持久性數(shù)值。在時(shí)刻(70)被識(shí)別之后,詞“piper”保持在頂端假設(shè)200中直至?xí)r刻(100)。結(jié)果,穩(wěn)定性曲線206在時(shí)刻(70)開始升高并且繼續(xù)升高直至?xí)r刻(100)?;诜€(wěn)定性閾值線204所指示的穩(wěn)定性閾值,詞“piper”在時(shí)刻(90)和時(shí)刻(100)之間的某時(shí)被首次評(píng)估為是穩(wěn)定的,此時(shí)穩(wěn)定性曲線206與穩(wěn)定性閾值線204相交。一旦詞或分段的穩(wěn)定性超過了穩(wěn)定性閾值,則無論所識(shí)別的詞或分段是否已經(jīng)像用戶102所預(yù)期的那樣被識(shí)別器116正確地識(shí)別,該特定詞或分段都能夠被認(rèn)為是穩(wěn)定的。
[0035]圖3是用于基于分段的持久性來對(duì)其分配穩(wěn)定性度量的示例過程300的流程圖。簡(jiǎn)言之,過程300包括在各個(gè)時(shí)幀存儲(chǔ)可能的語音識(shí)別結(jié)果(302),從語音識(shí)別結(jié)果選擇感興趣時(shí)幀處的一個(gè)或多個(gè)分段(303),測(cè)量每個(gè)所選擇的分段的持久性(304),并且使用基于該分段的持久性所計(jì)算的穩(wěn)定性數(shù)值來標(biāo)記每個(gè)所選擇的分段(305)。在一些實(shí)施方式中,過程300可以由系統(tǒng)100執(zhí)行并且因此將在下文出于清楚的目的而進(jìn)行描述。
[0036]更為詳細(xì)地,過程300在音頻信號(hào)110被ASR引擎108接收并且被識(shí)別器116解碼時(shí)開始(301)。每個(gè)時(shí)幀處的頂端假設(shè)隨后由增量語音識(shí)別器緩沖器118接收并且存儲(chǔ)為頂端增量語音識(shí)別假設(shè),其反映了每個(gè)時(shí)幀處最可能的語音識(shí)別結(jié)果(302)。
[0037]在感興趣時(shí)幀處,從頂端增量語音識(shí)別假設(shè)中識(shí)別一個(gè)或多個(gè)分段(303)。例如,特定時(shí)幀處的頂端假設(shè)中的每個(gè)詞可以單獨(dú)地被選擇為多個(gè)分段??商鎿Q地或者除此之夕卜,出現(xiàn)在頂端假設(shè)中的一組詞可以共同地被選擇為單個(gè)分段。
[0038]確定一個(gè)或多個(gè)分段在頂端假設(shè)中持續(xù)了多久(304)。如以上關(guān)于圖1所討論的,能夠通過測(cè)量識(shí)別該分段的感興趣時(shí)幀和該分段首次出現(xiàn)在頂端假設(shè)中而后續(xù)沒有變化的時(shí)幀之間的時(shí)間間隔來獲得分段的持久性。例如,暫時(shí)往回參考圖2A,所識(shí)別的分段“piper”在時(shí)刻(30)首次出現(xiàn)在頂端假設(shè)中但是隨后在時(shí)刻(60)變?yōu)椤皃ipe per”。直到“piper”再次出現(xiàn)在頂端假設(shè)中的時(shí)刻(70),該分段才能夠被認(rèn)為首次出現(xiàn)而后續(xù)沒有變化。在一些實(shí)施方式中,可以通過對(duì)分段在識(shí)別該分段的感興趣幀與該分段首次出現(xiàn)在頂端假設(shè)中而后續(xù)沒有變化的較早幀之間出現(xiàn)在頂端假設(shè)中的次數(shù)計(jì)數(shù)來獲得該分段的持久性。
[0039]在(303)中所選擇的一個(gè)或多個(gè)分段各自基于持久性測(cè)量被分配以穩(wěn)定性度量(305)。此外,可以使用分段的其它與持續(xù)時(shí)間相關(guān)的特征(諸如其右側(cè)上下文)來向該分段分配穩(wěn)定性數(shù)值。在分配穩(wěn)定性數(shù)值時(shí),還可以使用分段的與持續(xù)時(shí)間不相關(guān)的特征。在一些實(shí)施方式中,可以使用分段的各個(gè)與持續(xù)時(shí)間相關(guān)的特征之間的與持續(xù)時(shí)間相關(guān)和與持續(xù)時(shí)間無關(guān)的簡(jiǎn)單加權(quán)插值??商鎿Q地,如以下進(jìn)一步描述的,給定其各種特征,能夠使用回歸(例如邏輯回歸)來估計(jì)分段的穩(wěn)定性。過程300可以在已經(jīng)被評(píng)估為穩(wěn)定的分段被發(fā)送至輸出模塊122時(shí)結(jié)束(306)。
[0040]圖4是用于基于詞或子詞首次被識(shí)別而沒有后續(xù)變化的時(shí)刻來計(jì)算詞或子詞的壽命度量的示例過程400的流程圖。簡(jiǎn)言之,過程400包括在具體時(shí)幀從頂端增量語音識(shí)別假設(shè)來選擇詞或子詞(402),找出該詞或子詞首次被識(shí)別而沒有后續(xù)變化時(shí)的第一時(shí)幀(403),并且基于該具體時(shí)巾貞和第一時(shí)巾貞評(píng)估該詞或子詞的壽命度量(404)。在一些實(shí)施方式中,過程400可以由系統(tǒng)100執(zhí)行并且因此將在下文出于清楚的目的進(jìn)行描述。
[0041]更為詳細(xì)地,過程400在識(shí)別器116開始將音頻信號(hào)110解碼為增量語音識(shí)別假設(shè)時(shí)開始(401)。如以上關(guān)于圖3所描述的,來自識(shí)別器116的解碼輸出能夠在增量時(shí)幀被存儲(chǔ)在增量識(shí)別器緩沖器118中。
[0042]在感興趣的時(shí)幀,識(shí)別出現(xiàn)在識(shí)別器116的輸出中的詞或子詞或者一組詞或子詞(402)。例如,增量輸出中在特定時(shí)幀處的每個(gè)詞或子詞能夠被單獨(dú)地識(shí)別??商鎿Q地或者除此之外,增量輸出中的一組詞或子詞可以被共同地識(shí)別。
[0043]確定以上所識(shí)別的詞或子詞在(402)中被識(shí)別之前出現(xiàn)在輸出中而沒有后續(xù)變化的最早時(shí)間點(diǎn)(403)。例如,如果詞或子詞在時(shí)刻(80)被識(shí)別,首次出現(xiàn)在時(shí)刻(20),在時(shí)刻(40)被修改為另一個(gè)詞或子詞,并且隨后在時(shí)刻(60)變回為所識(shí)別的詞或子詞,則時(shí)刻(60)被確定為該詞或子詞出現(xiàn)而沒有后續(xù)變化的最早時(shí)間點(diǎn)。在該示例中,該詞或子詞的持久性將為(80)-(60)或者20ms。
[0044]基于特定感興趣時(shí)幀和最早時(shí)間點(diǎn)計(jì)算所識(shí)別的詞或子詞的壽命度量(404)。例如,如果通過找出特定時(shí)幀與最早時(shí)幀之間的時(shí)間差來計(jì)算壽命度量,則該壽命度量等于該特定時(shí)幀處的所識(shí)別的詞或子詞的壽命或持久性。在一些實(shí)施方式中,壽命度量等于穩(wěn)定性度量??商鎿Q地,壽命度量可以與其它度量相結(jié)合以規(guī)定穩(wěn)定性度量。過程400能夠在已經(jīng)計(jì)算了增量假設(shè)內(nèi)、在特定時(shí)幀處的所有詞或子詞的壽命度量時(shí)結(jié)束(405)。
[0045]圖5是用于基于詞的時(shí)間長(zhǎng)度來向其分配穩(wěn)定性度量的示例過程500的流程圖。簡(jiǎn)言之,過程500包括確定詞出現(xiàn)在頂端增量語音識(shí)別假設(shè)中的時(shí)間長(zhǎng)度或出現(xiàn)次數(shù)(502),并且使用基于該時(shí)間長(zhǎng)度或出現(xiàn)次數(shù)的穩(wěn)定性度量來標(biāo)記該詞(503)。在一些實(shí)施方式中,過程500可以由系統(tǒng)100執(zhí)行并且因此將在下文出于清楚的目的而進(jìn)行描述。
[0046]更為詳細(xì)地,過程500當(dāng)如在(303)和(402)中識(shí)別頂端增量語音識(shí)別假設(shè)內(nèi)的詞時(shí)開始(501)。確定該詞保留在頂端假設(shè)中的時(shí)間長(zhǎng)度或者該詞在頂端假設(shè)中顯露的出現(xiàn)次數(shù)(502)。與詞的壽命或持久性相比,相關(guān)聯(lián)的時(shí)間長(zhǎng)度衡量了詞出現(xiàn)在頂端假設(shè)中的總時(shí)間長(zhǎng)度。例如,如果詞或子詞在時(shí)刻(80)被識(shí)別,首次出現(xiàn)在時(shí)刻(20),在時(shí)刻(40)被修改為另一詞或子詞,并且隨后在時(shí)刻(60)變回為所識(shí)別的詞或子詞,則所識(shí)別的詞或子詞保持在頂端假設(shè)中的時(shí)間長(zhǎng)度將為[(40)-(20)]+ [(80)-(60)]或40ms。出現(xiàn)次數(shù)的測(cè)量通常是不依賴于時(shí)間的特征,該特征對(duì)特定詞在頂端假設(shè)中出現(xiàn)的次數(shù)計(jì)數(shù)。
[0047]來自(502)的詞基于所計(jì)算的時(shí)間長(zhǎng)度而被分配以穩(wěn)定性度量(503)。此外,該詞的其它與持續(xù)時(shí)間相關(guān)的特征(諸如其持久性和/或右側(cè)上下文)可以被用來向該詞分配穩(wěn)定性數(shù)值。過程500能夠在該詞及其穩(wěn)定性度量被發(fā)送至輸出模塊122時(shí)結(jié)束(504)。
[0048]在以上關(guān)于圖1-圖5所描述的樣本過程中,當(dāng)給定一組與增量假設(shè)內(nèi)的前綴相關(guān)聯(lián)的特征時(shí),能夠使用回歸來估計(jì)增量結(jié)果的前綴穩(wěn)定的概率。例如,能夠使用邏輯回歸。給定<wt,yt>形式的數(shù)據(jù),其中&是增量假設(shè)內(nèi)的詞并且yt是二進(jìn)制響應(yīng),大小為M的特征
矢量f OO能夠被填充以訓(xùn)練參數(shù)集合Hm。單個(gè)幀可以從訓(xùn)練集合的增量結(jié)果中的每個(gè)假設(shè)詞被隨機(jī)采樣,并且能夠計(jì)算該幀處的特征f (wt)??梢杂涗浂M(jìn)制響應(yīng)yt以表示在wt中結(jié)束的前綴的真實(shí)穩(wěn)定性。
[0049]一旦參數(shù)被訓(xùn)練,就能夠通過使用等式(I)來預(yù)測(cè)穩(wěn)定性統(tǒng)計(jì)s:
[0050]s = logit-1 (^f (Wt)).(I)
[0051]穩(wěn)定性評(píng)估器120隨后能夠使用穩(wěn)定性閾值來提取增量結(jié)果的穩(wěn)定前綴。為了防止在穩(wěn)定性圍繞閾值振蕩的情況下可能出現(xiàn)的虛假刪除,能夠做出關(guān)于是否允許詞的穩(wěn)定性隨時(shí)間減小的設(shè)計(jì)決策??商鎿Q地或者除此之外,能夠做出確保穩(wěn)定性在增量結(jié)果中從左向右減小的設(shè)計(jì)決策。
[0052]圖6和圖7圖示了作為樣本測(cè)試集合的延時(shí)的函數(shù)的穩(wěn)定性改善。即使在理想的語音識(shí)別條件下,在用戶102講出詞的時(shí)刻與該詞可從識(shí)別器116獲得的時(shí)刻之間也可能存在某種程度的延時(shí)。圖6的圖600反映了例如表示由用戶在計(jì)算機(jī)、移動(dòng)設(shè)備等上執(zhí)行基于語音的搜索時(shí)形成的話語112的樣本測(cè)試集合。圖7的圖700反映了例如表示由用戶102在向計(jì)算機(jī)、移動(dòng)設(shè)備等提供基于語音的輸入時(shí)形成的話語112的樣本測(cè)試集合。來自圖6的樣本中的示例話語通常比來自圖7的樣本中的示例話語更長(zhǎng)。
[0053]參考圖6和圖7,諭示(oracle)穩(wěn)定性點(diǎn)601、701表示測(cè)試集合中的增量結(jié)果的理想前綴集合的穩(wěn)定性和延時(shí)。曲線602、603、604、702、703、704表示處于從三個(gè)不同特征集合學(xué)習(xí)的回歸上的穩(wěn)定性閾值掃描。由曲線602、702所指示的第一特征集合為Cw(或者詞的右側(cè)上下文)。由曲線603、703所指示的第二特征集合為aw(或者詞的壽命)。在生成圖600、700時(shí),針對(duì)這些單特征集合中的每一個(gè)集合上的回歸允許截距項(xiàng)(intercept term)。在圖6和圖7的示例中,壽命通常比右側(cè)上下文更多地表示穩(wěn)定性。該結(jié)果可能是直觀的,因?yàn)榧词乖~具有大量的右側(cè)上下文,但是年輕的壽命能夠暗示該詞在近期發(fā)生過變化并且可能再次變化。除了基于持續(xù)時(shí)間的特征之外,還可以使用諸如詞級(jí)后部(posterior)之類的其它與詞相關(guān)的特征。例如,能夠從表示當(dāng)前假設(shè)的點(diǎn)陣(lattice)計(jì)算給定聲學(xué)證據(jù)的詞正確的概率Pw并且進(jìn)行計(jì)分直至所解碼的最后幀。除此之外或者可替換地,能夠捕捉詞w出現(xiàn)的確切時(shí)刻的搜索空間大小的簡(jiǎn)單度量sw。這樣的特征能夠大致捕捉搜索空間相對(duì)于其過去的大小有多大。
[0054]考慮到基于圖600、700,壽命能夠比右側(cè)上下文更多地指示穩(wěn)定性,所以壽命能夠與第三特征集合中的其它特征相結(jié)合。除了諸如曰¥\卩¥和awX Sw之類的交互項(xiàng)之外,還能夠包括之前所提到的其它與詞相關(guān)的特征。包括基于后部(P)、壽命(A)、詞(W)和搜索統(tǒng)計(jì)(S)的特征的該特征選擇可以被稱作PAWS特征集合,并且由曲線604、704所指示。
[0055]對(duì)于圖6所示的樣本測(cè)試集合,PAWS特征集合實(shí)現(xiàn)了最接近于諭示點(diǎn)601的操作點(diǎn)。然而,對(duì)于圖7所示的樣本測(cè)試集合,改進(jìn)似乎是微不足道的。兩個(gè)樣本測(cè)試集合的話語長(zhǎng)度的差可能是這種變化的原因。雖然圖6和圖7所示的權(quán)衡分析能夠提供閾值前綴的語料庫的穩(wěn)定性與所引入的延時(shí)如何相關(guān)的清晰畫面,但是其可能未明確示出穩(wěn)定性自身是多么地準(zhǔn)確。
[0056]圖8圖示了使用相對(duì)圖6和圖7的樣本測(cè)試集合的真實(shí)分布所繪制的壽命特征而得出的示例回歸曲線801。樣本測(cè)試集合802對(duì)應(yīng)于來自圖6的語音搜索話語,并且樣本測(cè)試集合803對(duì)應(yīng)于來自圖7的語音輸入話語。在樣本圖800中,來自以與訓(xùn)練集合相同的方式采樣的測(cè)試集合的前綴被示出為根據(jù)其壽命被裝箱(binned)。每個(gè)均勻間隔的箱子(bin)的平均壽命相對(duì)在該箱子中穩(wěn)定的前綴的小數(shù)而被繪制。被裝箱的測(cè)試數(shù)據(jù)顯示經(jīng)學(xué)習(xí)的曲線801總體上擬合真實(shí)數(shù)據(jù)802、803。例如,樣本圖800顯示低于大約0.9的概率可能被低估,而較高的概率則更準(zhǔn)確。
[0057]能夠通過對(duì)特征空間自身裝箱來獲得更準(zhǔn)確的估計(jì)。此外,存在能夠被使用的許多特征表示。邏輯回歸框架能夠靈活地處理大量的特征,同時(shí)在出現(xiàn)數(shù)據(jù)稀疏問題時(shí)魯棒地對(duì)其進(jìn)行處理。
[0058]本說明書中所描述的主題、功能操作和過程的實(shí)施例能夠以數(shù)字電子電路、以有形地體現(xiàn)的計(jì)算機(jī)軟件或固件、以計(jì)算機(jī)硬件來實(shí)施,或者以它們中的一個(gè)或多個(gè)的組合來實(shí)施,該計(jì)算機(jī)硬件包括在該說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)的等同形式。本說明書中所描述主題的實(shí)施例能夠被實(shí)施為一個(gè)或多個(gè)計(jì)算機(jī)程序,即在有形的非易失性程序載體上被編碼用于由數(shù)據(jù)處理裝置執(zhí)行或者用于控制其操作的計(jì)算機(jī)程序指令的一個(gè)或多個(gè)模塊??商鎿Q地或者除此之外,該程序指令能夠在人為生成的傳播信號(hào)(例如機(jī)器生成的電信號(hào)、光信號(hào)或電磁信號(hào))上被編碼,其被生成以對(duì)信息進(jìn)行編碼,用于傳輸?shù)竭m當(dāng)接收器裝置以供數(shù)據(jù)處理裝置執(zhí)行。計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是機(jī)器可讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)襯底、隨機(jī)或串行存取存儲(chǔ)器設(shè)備或者它們中的一個(gè)或多個(gè)的組合。
[0059]術(shù)語“數(shù)據(jù)處理裝置”包含用于處理數(shù)據(jù)的所有類型的裝置、設(shè)備和機(jī)器,通過示例包括可編程處理器、計(jì)算機(jī)或者多個(gè)處理器或計(jì)算機(jī)。該裝置可以包括專用邏輯電路,例如FPGA(現(xiàn)場(chǎng)可編程門陣列)或ASIC(專用集成電路)。除了硬件之外,該裝置還可以包括創(chuàng)建用于所討論的計(jì)算機(jī)程序的執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或者它們中的一個(gè)或多個(gè)的組合的代碼。
[0060]計(jì)算機(jī)程序(也可以被稱作或描述為程序、軟件、軟件應(yīng)用、模塊、軟件模塊、腳本或代碼)可以以任意形式的編程語言(包括編譯語言或解釋語言,或者聲明語言或過程語言)進(jìn)行編寫,并且其能夠以任意形式部署,包括作為獨(dú)立程序或者作為模塊、組件、子程序或者適用于計(jì)算環(huán)境中的其它單元。計(jì)算機(jī)程序可以(但不需要)對(duì)應(yīng)于文件系統(tǒng)中的文件。程序可以存儲(chǔ)在文件中保存其它程序或數(shù)據(jù)的部分中(例如,存儲(chǔ)在標(biāo)記語言文檔中的一個(gè)或多個(gè)腳本),存儲(chǔ)在專用于所討論的程序的單個(gè)文件中,或者存儲(chǔ)在多個(gè)協(xié)同文件(例如,存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或代碼部分的文件)中。計(jì)算機(jī)程序能夠被部署為在一臺(tái)計(jì)算機(jī)上或者在多臺(tái)計(jì)算機(jī)上執(zhí)行,該多臺(tái)計(jì)算機(jī)位于一個(gè)地點(diǎn)或者跨多個(gè)地點(diǎn)分布,并且通過通信網(wǎng)絡(luò)互連。
[0061]該說明書中所描述的過程和邏輯流程能夠由一個(gè)或多個(gè)可編程計(jì)算機(jī)來執(zhí)行,該一個(gè)或多個(gè)可編程計(jì)算機(jī)執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以通過對(duì)輸入數(shù)據(jù)進(jìn)行操作并且生成輸出來執(zhí)行功能。過程和邏輯流程還能夠由專用邏輯電路來執(zhí)行,并且裝置也能夠被實(shí)施為專用邏輯電路(例如,F(xiàn)PGA(現(xiàn)場(chǎng)可編程門陣列)或ASIC(專用集成電路)。
[0062]通過示例,適于執(zhí)行計(jì)算機(jī)程序的計(jì)算機(jī)包括能夠基于通用或?qū)S梦⑻幚砥骰蛘咂涠?,或者任意其它類型的中央處理單元。一般地,中央處理單元將從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或者其二者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本要素是用于執(zhí)行或?qū)嵤┲噶畹闹醒胩幚韱卧约坝糜诖鎯?chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。一般地,計(jì)算機(jī)還將包括用于存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)海量存儲(chǔ)設(shè)備(例如磁盤、磁性光盤或光盤),或者被操作地耦合以從其接收數(shù)據(jù)或者向其傳送數(shù)據(jù)或者此二者。然而,計(jì)算機(jī)不需要具有這樣的設(shè)備。此夕卜,計(jì)算機(jī)可以嵌入另一設(shè)備(給出幾個(gè)示例,例如移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻或視頻播放器、游戲機(jī)、全球定位系統(tǒng)(GPS)接收器或者便攜式存儲(chǔ)設(shè)備(例如通用串行總線(USB)閃存驅(qū)動(dòng)器))中。
[0063]適于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性存儲(chǔ)器、介質(zhì)和存儲(chǔ)器設(shè)備,通過示例包括半導(dǎo)體存儲(chǔ)器設(shè)備,例如EPROM、EEPROM和閃存設(shè)備;磁盤,例如內(nèi)部硬盤或可移動(dòng)盤;磁性光盤;以及⑶ROM和DVD-ROM盤。處理器和存儲(chǔ)器可以被補(bǔ)充以專用邏輯電路或者被整合在其中。[0064]為了提供與用戶的交互,該說明書中所描述主題的實(shí)施例可以在具有用于向用戶顯示信息的顯示設(shè)備(例如CRT (陰極射線管)監(jiān)視器或LCD (液晶顯示器)監(jiān)視器)以及用戶能夠通過其向計(jì)算機(jī)提供輸入的鍵盤和指點(diǎn)設(shè)備(例如鼠標(biāo)或軌跡球)的計(jì)算機(jī)上實(shí)施。也能夠使用其它類型的設(shè)備來提供與用戶的交互;例如,向用戶提供的反饋可以是任意形式的感官反饋,例如視覺反饋、聽覺反饋或觸覺反饋;并且來自用戶的輸入可以以任意形式(包括聲學(xué)輸入、語音輸入或觸覺輸入)被接收。此外,計(jì)算機(jī)能夠通過往來于用戶所使用的設(shè)備發(fā)送和接收文檔而與用戶交互;例如,通過響應(yīng)于從web瀏覽器接收的請(qǐng)求向用戶的客戶端設(shè)備上的web瀏覽器發(fā)送網(wǎng)頁。
[0065]本說明書中所描述主題的實(shí)施例能夠在計(jì)算系統(tǒng)中實(shí)施,該計(jì)算系統(tǒng)包括例如作為數(shù)據(jù)服務(wù)器的后端組件或者包括例如應(yīng)用服務(wù)器的中間件組件,或者包括例如客戶端計(jì)算機(jī)的前端組件,或者一個(gè)或多個(gè)這樣的后端組件、中間件組件或前端組件的任意組合,該客戶端計(jì)算機(jī)具有用戶能夠通過其與本說明書中所描述主題的實(shí)施方式交互的圖形用戶界面或Web瀏覽器。該系統(tǒng)的組件能夠通過任意形式或介質(zhì)的數(shù)字?jǐn)?shù)據(jù)通信(例如通信網(wǎng)絡(luò))互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(LAN)以及廣域網(wǎng)(WAN)(例如互聯(lián)網(wǎng))。
[0066]計(jì)算系統(tǒng)可以包括客戶端和服務(wù)器。客戶端和服務(wù)器通常彼此遠(yuǎn)離并且典型地通過通信網(wǎng)絡(luò)交互。客戶端和服務(wù)器的關(guān)系憑借在各自的計(jì)算機(jī)上運(yùn)行并且互相具有客戶端-服務(wù)器關(guān)系的計(jì)算機(jī)程序而產(chǎn)生。
[0067]雖然本說明書包含許多具體的實(shí)施細(xì)節(jié),但是這些細(xì)節(jié)不應(yīng)當(dāng)被理解為對(duì)可能請(qǐng)求保護(hù)的范圍的限制,而是作為可能特定于特定實(shí)施例的特征的描述。在該說明書中以單獨(dú)的實(shí)施例為背景所描述的某些特征還可以在單個(gè)實(shí)施例中組合實(shí)施。相反地,以單個(gè)實(shí)施例為背景所描述的各種特征還能夠在多個(gè)實(shí)施例中單獨(dú)地或者以任意適當(dāng)?shù)淖咏M合來實(shí)施。此外,雖然特征可以在上文被描述為以某種組合的方式起作用并且甚至最初如此要求保護(hù),但是來自所要求保護(hù)的組合的一個(gè)或多個(gè)特征在某些情況下可以與該組合脫離,并且所要求保護(hù)的組合可以針對(duì)子組合或者子組合的變化形式。
[0068]類似地,雖然在圖中以特定順序描繪了操作,但是這不應(yīng)當(dāng)被理解為要求這樣的操作應(yīng)當(dāng)以所示出的特定順序或者以連續(xù)的順序來執(zhí)行,或者所有圖示的操作應(yīng)當(dāng)被執(zhí)行以實(shí)現(xiàn)所期望的結(jié)果。在某些情況下,多任務(wù)和并行處理可能是有利的。此外,上述實(shí)施例中各種系統(tǒng)組件的劃分不應(yīng)當(dāng)被理解為在所有實(shí)施例中要求這樣的劃分,并且應(yīng)當(dāng)理解的是,所描述的程序組件和系統(tǒng)一般可以在單個(gè)軟件產(chǎn)品中被集成在一起,或者被封裝到多個(gè)軟件產(chǎn)品之中。
[0069]已經(jīng)對(duì)主題的特定實(shí)施例進(jìn)行了描述。其它實(shí)施例處于以下權(quán)利要求的范圍之內(nèi)。例如,權(quán)利要求中所記載的動(dòng)作能夠以不同的順序執(zhí)行并且仍然實(shí)現(xiàn)所期望的結(jié)果。作為一個(gè)示例,附圖中描繪的過程并非必然要求所示出的特定順序或連續(xù)順序來實(shí)現(xiàn)所期望的結(jié)果。在某些實(shí)施方式中,多任務(wù)和并行處理可能是有利的??梢蕴峁┢渌襟E,或者可以從所描述的過程中去除步驟。因此,其它實(shí)施方式處于以下權(quán)利要求的范圍之內(nèi)。
【權(quán)利要求】
1.一種計(jì)算機(jī)實(shí)施的方法,包括: 接收各自表示增量語音識(shí)別器在不同時(shí)間點(diǎn)的頂端增量語音識(shí)別假設(shè)的多個(gè)部分增量語音識(shí)別假設(shè); 從所述多個(gè)部分增量語音識(shí)別假設(shè)之一識(shí)別分段; 從所述多個(gè)部分增量語音識(shí)別假設(shè)確定所述分段在所述增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久;并且 由一個(gè)或多個(gè)計(jì)算機(jī)基于所述分段在所述增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久來向所述分段分配穩(wěn)定性度量。
2.根據(jù)權(quán)利要求1所述的方法,其中向所述分段分配所述穩(wěn)定性度量進(jìn)一步基于所述分段的右側(cè)上下文。
3.根據(jù)權(quán)利要求1所述的方法,其中所述分段包括詞或子詞。
4.根據(jù)權(quán)利要求1所述的方法,其中確定所述分段持續(xù)了多久包括確定所述分段在沒有變化的情況下持續(xù)了多久。
5.根據(jù)權(quán)利要求1所述的方法,其中所述穩(wěn)定性度量在所識(shí)別的、包括所述分段的特定增量語音識(shí)別假設(shè)從所述增量語音識(shí)別器輸出之后被分配給所述分段。
6.根據(jù)權(quán)利要求1所述的方法,包括: 接收與話語相對(duì)應(yīng)的音頻信號(hào);并且 對(duì)所述音頻信號(hào)執(zhí)行增量語音識(shí)別以生成所述多個(gè)部分增量語音識(shí)別假設(shè)。
7.根據(jù)權(quán)利要求1所述的方法,包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來改變用戶界面上所述分段的表示的視覺特征。
8.根據(jù)權(quán)利要求1所述的方法,包括: 確定所述穩(wěn)定性度量是否滿足閾值,并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段翻譯為不同語言。
9.根據(jù)權(quán)利要求1所述的方法,包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段作為搜索查詢的一部分提交至搜索引擎。
10.根據(jù)權(quán)利要求1所述的方法,包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來在用戶界面上顯示所述分段的表示。
11.根據(jù)權(quán)利要求1所述的方法,其中所述接收、識(shí)別、確定和分配由一個(gè)或多個(gè)計(jì)算機(jī)來執(zhí)行。
12.—種系統(tǒng),包括: 一個(gè)或多個(gè)計(jì)算機(jī)以及存儲(chǔ)指令的一個(gè)或多個(gè)存儲(chǔ)設(shè)備,如果被所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行,所述指令可操作為使得所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行操作,所述操作包括: 接收各自表示增量語音識(shí)別器在不同時(shí)間點(diǎn)的頂端增量語音識(shí)別假設(shè)的多個(gè)部分增量語音識(shí)別假設(shè);從所述多個(gè)部分增量語音識(shí)別假設(shè)之一識(shí)別分段; 從所述多個(gè)部分增量語音識(shí)別假設(shè)確定所述分段在所述增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久;并且 基于所述分段在沒有變化的情況下在所述增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久來向所述分段分配穩(wěn)定性度量。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中向所述分段分配所述穩(wěn)定性度量進(jìn)一步基于所述分段的右側(cè)上下文。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述分段包括詞或子詞。
15.根據(jù)權(quán)利要求12所述的系統(tǒng),其中確定所述分段持續(xù)了多久包括確定所述分段在沒有變化的情況下持續(xù)了多久。
16.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述穩(wěn)定性度量在所識(shí)別的、包括所述分段的特定增量語音識(shí)別假設(shè)從所述增量語音識(shí)別器輸出之后被分配給所述分段。
17.根據(jù)權(quán)利要求 12所述的系統(tǒng),其中所述操作包括: 接收與話語相對(duì)應(yīng)的音頻信號(hào);并且 對(duì)所述音頻信號(hào)執(zhí)行增量語音識(shí)別以生成所述多個(gè)部分增量語音識(shí)別假設(shè)。
18.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來改變用戶界面上所述分段的表示的視覺特征。
19.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值,并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段翻譯為不同語言。
20.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段作為搜索查詢的一部分提交至搜索引擎。
21.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來在用戶界面上顯示所述分段的表示。
22.—種計(jì)算機(jī)可讀介質(zhì),其存儲(chǔ)包括可由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的指令的軟件,所述指令在這樣執(zhí)行時(shí)使得所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行操作,所述操作包括: 接收各自表示增量語音識(shí)別器在不同時(shí)間點(diǎn)的頂端增量語音識(shí)別假設(shè)的多個(gè)部分增量語音識(shí)別假設(shè); 從所述多個(gè)部分增量語音識(shí)別假設(shè)之一識(shí)別分段; 從所述多個(gè)部分增量語音識(shí)別假設(shè)確定所述分段在所述增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久;并且 基于所述分段在沒有變化的情況下在所述增量語音識(shí)別器的頂端增量語音識(shí)別假設(shè)中持續(xù)了多久來向所述分段分配穩(wěn)定性度量。
23.根據(jù)權(quán)利要求22所述的介質(zhì),其中向所述分段分配所述穩(wěn)定性度量進(jìn)一步基于所述分段的右側(cè)上下文。
24.根據(jù)權(quán)利要求22所述的介質(zhì),其中所述分段包括詞或子詞。
25.根據(jù)權(quán)利要求22所述的介質(zhì),其中確定所述分段持續(xù)了多久包括確定所述分段在沒有變化的情況下持續(xù)了多久。
26.根據(jù)權(quán)利要求22所述的介質(zhì),其中所述穩(wěn)定性度量在所識(shí)別的、包括所述分段的特定增量語音識(shí)別假設(shè)從所述增量語音識(shí)別器輸出之后被分配給所述分段。
27.根據(jù)權(quán)利要求22所述的介質(zhì),其中所述操作包括: 接收與話語相對(duì)應(yīng)的音頻信號(hào);并且 對(duì)所述音頻信號(hào)執(zhí)行增量語音識(shí)別以生成所述多個(gè)部分增量語音識(shí)別假設(shè)。
28.根據(jù)權(quán)利要求22所述的介質(zhì),其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來改變用戶界面上所述分段的表示的視覺特征。
29.根據(jù)權(quán)利要求22所述的介質(zhì),其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值;并且 基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段作為搜索查詢的一部分提交至搜索引擎。
30.一種計(jì)算機(jī)實(shí)施的方法,包括: 識(shí)別語音識(shí)別器的輸出中在特定時(shí)間點(diǎn)出現(xiàn)的詞或子詞; 確定所述詞或所述子詞在所述增量語音識(shí)別器的所述輸出中出現(xiàn)而沒有后續(xù)變化的最早時(shí)間點(diǎn);并且 基于所述特定時(shí)間點(diǎn)和所述最早時(shí)間點(diǎn)來計(jì)算所述詞或所述子詞的壽命度量。
【文檔編號(hào)】G10L15/22GK103918026SQ201280053938
【公開日】2014年7月9日 申請(qǐng)日期:2012年8月13日 優(yōu)先權(quán)日:2011年11月1日
【發(fā)明者】I·C·麥格勞, A·H·格倫斯坦 申請(qǐng)人:谷歌公司