專利名稱:Computer implemented method for interacting with user via speech-based user ...的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及自動語音識別系統(tǒng),更具體地涉及針對該系統(tǒng)的用戶交互界
背景技術(shù):
使用自動語音識別(ASR)的應用需要基于語音的用戶界面來與用戶進行交互。一 般地講,用戶可以使用口述式用戶輸入執(zhí)行兩類任務。第一種任務類型與利用查詢的信息 檢索(IR)有關(guān)。在這種任務中,用戶希望從存儲在數(shù)據(jù)庫中的大的項目集合(如互聯(lián)網(wǎng)的 網(wǎng)頁)中檢索項目,如文件、圖片、唱片等。另一任務類型是針對支持語音的命令與控制。此 處,用戶希望進行一些操作。這兩種任務都涉及將可能是用戶所說的話的范圍變窄。在IR的情況下,通常通過如圖1所示的對話來完成,其中豎軸表示時間。在圖1 中,用戶101的步驟顯示在左側(cè),系統(tǒng)102的步驟顯示在右側(cè)。系統(tǒng)具有某種根狀態(tài)R 120。 用戶101提供口述式輸入110,例如用來檢索項目??谑鍪捷斎?10被解釋為與狀態(tài)集合X 124有關(guān),而不是與另一些狀態(tài)集合Y和Z 123有關(guān)。作為響應,系統(tǒng)進入下一狀態(tài)\125, 并或許對用戶進行提示。用戶提供另外的輸入110。例如,在基于語音的目的地輸入系統(tǒng)中,在被允許說出 目的地街道名稱之前,用戶可能首先需要選擇國家,然后在單獨的步驟中選擇城市。過程 124反復地、繼續(xù)地使系統(tǒng)改變(126)狀態(tài)128-129,直至交互完成,并檢索到了相關(guān)項目 127。通常,每個系統(tǒng)狀態(tài)具有有限的狀態(tài)專用語法、詞匯和/或語言模型,僅通過涉及 有限狀態(tài)機(FSM dinite-state machine)中的兩個或更多個應用狀態(tài)的遍歷的多個步驟 處理就可以獲得狀態(tài)(如128-129)。如圖2所示,面向命令的方法通常涉及“載體”短語,其中命令字與特定的修飾詞 (modifier word)和/或變量存在于相同的短語130中。系統(tǒng)將給出的載體短語的含義解 釋(122)為短語130中的修飾語和變量,并進入狀態(tài)集合X 124。如果載體短語與例如狀態(tài) &129有關(guān),則系統(tǒng)可以立即進入該狀態(tài),或者在進入該狀態(tài)之前請求來自用戶的確認132。 使用口頭的或物理的交互形態(tài)139可以完成用戶部分133的確認或取消137??梢酝懊?一樣重復過程124。其它的方法也是常見的。例如,可以在沒有命令的情況下說出變量,或者,命令可 以啟動對話狀態(tài),在該狀態(tài)下僅變量是可用的。利用諸如短語“發(fā)現(xiàn)藝術(shù)家Vanilla Ice” 中的載體詞(carrier word)也可以完成搜索任務。然而,在各情況下,各狀態(tài)的詞匯、短語 語法和/或語言模式都是固定的。通常,這兩個不同的界面彼此不兼容。也就是,IR界面不能處理命令,控制界面不 能處理查詢。
發(fā)明內(nèi)容
語音界面需要以一個多或更多個字的短語形式的口述式輸入。確定該短語是查詢 還是命令。如果該短語是查詢,則從數(shù)據(jù)庫中搜索由該短語所指定的相關(guān)項目,如該短語是 命令則執(zhí)行操作。
圖1為用于信息檢索的、現(xiàn)有技術(shù)的基于語音的界面的框圖;圖2為用于命令和控制的、現(xiàn)有技術(shù)的基于語音的界面的框圖;圖3為根據(jù)本發(fā)明實施方式的口述式用戶界面的框圖;圖4為根據(jù)本發(fā)明實施方式的域的示意圖;圖5為構(gòu)建圖4的域的過程的示意圖;以及圖6為根據(jù)本發(fā)明實施方式的域結(jié)構(gòu)示例的示意圖。
具體實施例方式本發(fā)明的實施方式提供了一種通過基于語音的界面與用戶交互的方法。任意的口 述式輸入要么與信息檢索有關(guān),要么與命令和控制有關(guān),后者可以包括從菜單或功能的分 級體系中進行選擇。與具有有限的詞匯和語法的傳統(tǒng)的口述式用戶界面相比,我們的界面具有本質(zhì)上 不受限的詞匯和語法。這意味著可以以任何順序說出任何字詞。這大大增強了口述式界面 的操作的靈活性和有效性。界面結(jié)構(gòu)和操作圖3示出了根據(jù)本發(fā)明的實施方式的基于語音的用戶界面。豎軸表示時間。用戶 101的操作在左邊示出,系統(tǒng)102的操作在右邊示出。用戶通過以一個或更多個字的短語的形式提供非結(jié)構(gòu)化的(unstructured)或半 結(jié)構(gòu)化(semi-structured)的口述式輸入133。不同于傳統(tǒng)的界面,該輸入既可以是查詢又 可以是命令。除了命令字詞以外,在命令短語中還可以包括變量或修飾語。也就是,該界面允許 用戶說任何話。不是象傳統(tǒng)的界面中那樣進入有限狀態(tài)機(FSM),諸如在美國專利6877001中所 描述的,本系統(tǒng)使用基于語音的IR系統(tǒng)對該口述式輸入進行一系列的多域查找和相關(guān)分 析135,在此以引用的方式將該專利的全部內(nèi)容合并于此。口述式輸入和任意下層索引以及數(shù)據(jù)庫都可以使用如在同時待審的和相關(guān)的美 國專利申請SN. 12/036,681中所描述和示出的粒子(particle)。查找和相關(guān)的評分可以在 各域中出現(xiàn),與傳統(tǒng)的命令和控制界面中的一樣,這些域中的一些屬于命令,而這些域中的 其它域?qū)儆诳伤阉鲀?nèi)容(如文件或音樂集)或?qū)Ш较到y(tǒng)中的興趣點(POI)??梢詫玫牟煌δ苄詤^(qū)域(如音頻/視頻和導航)內(nèi)的狀態(tài)分開進行索引, 以形成一個或更多個相區(qū)分開的命令域。命令域和查詢域在命令域的情況下,由IR引擎檢索到的“項目”為指向給定的FSM狀態(tài)的指針,這些項目可以包括有關(guān)于由該狀態(tài)和由可從該項目的狀態(tài)到達的其它狀態(tài)所預期的任何輸 入的信息。如果所需的輸入沒有包括針對命令項目的IR索引中,則可以通過對照傳統(tǒng)的有 限狀態(tài)語法(FSG,其包括變量和/或修飾語的占位符)重新識別語音輸入,或者通過提示用 戶進行額外的闡明輸入來提取出該輸入。在內(nèi)容域的情況下,檢索到的“項目”為指向可搜索內(nèi)容(如藝術(shù)家、相冊、或音樂 收集中的歌曲、或附近餐館Ρ0Ι)的單獨節(jié)點的指針。系統(tǒng)確定口述式輸入是查詢還是命令(136)。如果最匹配的域為內(nèi)容域,則向用戶 展示結(jié)果列表137,用戶選擇激活哪個內(nèi)容項目(140)。如果輸入短語為命令,則可以向用 戶展示最匹配的一個或更多個命令以進行確認,或者如果存在明確的最匹配命令,則可以 立即進行執(zhí)行(138)。如果需要,可以輸入額外的短語來改進或完善命令或查詢。結(jié)果提示可以以多種不同的方式向用戶提示相關(guān)命令或相關(guān)項目??梢园从蚍珠_來自不同 域的相關(guān)匹配,域每次以相同的順序或者按照與給定的查詢的相關(guān)度的降序出現(xiàn)。另選地, 可以將來自所有域的匹配混合成合并的結(jié)果列表。相關(guān)域確定某一語音輸入短語可能在多個域中的各域中得到匹配。為了確定輸入短語的最相 關(guān)的域,我們確定這些匹配中的哪一個最沒有可能通過隨機選取而被得到。該可能性可以 常規(guī)地被計算出來。圖4示出了所有域中的項目I的集合406。在該集合中項目I的數(shù)目為T。子集 I1, I2等表示來自域1,2等的項目,并且T1, T2等表示這些子集中各子集中的項目數(shù)。子集 可以相互交叉,見子集407-408。用戶輸入短語U檢索N個項目,其中N1個項目來自子集I1,N2個項目來自子集12, 等等。為了確定這些檢索的相關(guān)度,我們確定出概率TVw^CAO, TV)。也就是,如果我們要從 集合I中隨機地選出N個項目,則N1個項目來自子集D1。類似地,我們確定出概率Ρ/αλκ/(Α/"2,Λ/)。也就是,如果我們要從集合I中隨機地選 出N個文件,則N2個屬于子集12??偟恼f,概率TVw^iVi, TV)為從第i個域中得到的項目數(shù) 也可以通過從集合I中隨機選取N個文件來得到的概率。于是,針對輸入短語U的域具有 最小的概率iV"W(^,A0,即Domain( U) = argmin, P[and(Nh N)上述方法確定了哪個域最不可能被隨機得到,并且將相應的域選擇為該輸入短語 的最相關(guān)的域。此外,可以將附加的關(guān)于概率的閾值一起用于完全地拒絕輸入短語。上述方法的其它變型也是可能的,可以將隨機選取N個文件的實際概率計算在 內(nèi),或者使用公式內(nèi)PZw^iVi, AO的上限或下限?;谖募挠虻臉?gòu)建如在相關(guān)的美國專利申請中所表述的,可以通過對各項目進行索引來構(gòu)建域中的 項目。例如,項目為文本文件,諸如操作者手冊510。該文件可以明確地或暗含地帶有格式, 并可以以可機讀或可人讀的形式而被提供。索引處理將文件分割為較小的段520,并識別可 能由檢索給定的段的用戶所講的詞句(term)或短語。
5
有好幾種使用文件結(jié)構(gòu)(如章節(jié)標題和子章節(jié))來識別這些詞句的手段??梢葬?對整體和針對各章節(jié),將對字詞和短語的出現(xiàn)的統(tǒng)計進行匯編??梢园炊螌ι婕拔募w 的各個術(shù)語分配權(quán)重。這就使得能夠識別出與IR的目的更相關(guān)的詞句??梢詫Ψ侵匾~句(如非常短或常用的字,如“該”)的手動或機器生成的“非用 詞表”進行合并。但是,如果非用詞表上的術(shù)語被發(fā)現(xiàn)在某些段以很高的頻率出現(xiàn),而在其 它段不這樣,則將該術(shù)語從非用詞表中移出并移到相關(guān)項目的列表??梢栽谕x詞詞典中對出現(xiàn)在章節(jié)或子章節(jié)標題中的相關(guān)或有區(qū)別的術(shù)語進行 查找,如果找到了,也將該同義詞添加到針對給定的段的相關(guān)或有區(qū)別的項目列表中。圖6示出了用戶輸入133的分層形式的域的結(jié)構(gòu)、一組搜索域610、一組命令域 620和項目的各種子集,它們中的一些可以交叉。盡管參照優(yōu)選實施方式的示例描述了本發(fā)明,但應當理解,可以在本發(fā)明的精神 和范圍內(nèi)作出的許多其它的適應和修改。因此,所附的權(quán)利要求的目的在于涵蓋落入本發(fā) 明的真正精神和范圍內(nèi)的所有這樣的變型和修改。
權(quán)利要求
一種計算機執(zhí)行的通過基于語音的用戶界面與用戶交互的方法,該方法包括如下步驟獲取來自用戶的一個或更多個字的短語形式的口述式輸入;使用多個不同的域確定所述短語是查詢還是命令;如果所述短語為查詢,則從多個數(shù)據(jù)庫中檢索并展示相關(guān)項目;以及如果所述短語是命令,則執(zhí)行操作。
2.根據(jù)權(quán)利要求1所述的方法,其中如果所述短語是命令,則所述短語包括變量和修 飾語。
3.根據(jù)權(quán)利要求1所述的方法,其中所述短語為粒子的形式,并且對所述項目的索引 為粒子的形式。
4.根據(jù)權(quán)利要求1所述的方法,其中按域?qū)λ鱿嚓P(guān)項目進行分離。
5.根據(jù)權(quán)利要求1所述的方法,其中按照相關(guān)度的順序來展示所述相關(guān)項目。
6.根據(jù)權(quán)利要求1所述的方法,其中將所述相關(guān)項目混合在合并的結(jié)果列表中。
7.根據(jù)權(quán)利要求1所述的方法,其中所有可能的項目形成項目集合,該方法還包括如 下步驟將所述集合中的項目分組為項目子集,其中各項目子集形成所述多個域中的一個域; 響應于所述查詢,從所述多個域中的一個或更多個域中檢索所述項目;以及 如果檢索到的項目最不可能通過從整個項目集合中進行隨機選取而獲得,則選擇特定 的域作為與所述查詢最相關(guān)的域。
全文摘要
文檔編號G10L15/18GK101952883SQ20098010624
公開日2011年1月19日 申請日期2009年2月25日 優(yōu)先權(quán)日2008年2月25日
發(fā)明者Schmidt-Nielsen Bent, Ramakrishnan Bhiksha, weinberg Garrett, Bret A Harsham 申請人:Mitsubishi Electric Corp