用于上下文語音識別的眼睛凝視的制作方法

文檔序號：2823576閱讀：279來源：國知局

專利名稱：用于上下文語音識別的眼睛凝視的制作方法
技術(shù)領域：
本發(fā)明涉及語音識別，更具體地說，涉及增強用戶口授、用戶語音命令和文本之間的區(qū)別的方法。
背景技術(shù)：
語音識別是計算機把麥克風接收的聲信號轉(zhuǎn)換成文本的過程。識別的文本隨后可在各種計算機應用軟件中用于諸如文檔準備、數(shù)據(jù)輸入和命令及控制之類的用途。語音口授系統(tǒng)還向用戶提供一種不需用手的計算機系統(tǒng)操作方法。
就電子文檔準備來說，目前可用的語音識別系統(tǒng)提供使用戶能夠選擇電子文檔中一部分文本的用戶語音命令。這種用戶語音命令一般采用諸如“SELECT<文本>”之類的語法，這里用戶語音命令“SELECT”表示在該命令之后的文本應被選擇或突出顯示。在選擇一部分文本之后，用戶可對選擇的文本進行一系列后續(xù)操作中的任意操作。
從而，如果用戶說“SELECT how are you”，則語音口授系統(tǒng)將在電子文檔的文本主體內(nèi)搜索文本短語“how are you”。一旦在文本主體中確定該短語的位置，則可選擇或突出顯示該短語。隨后，用戶可對選擇的文本進行操作，例如刪除操作，加粗/傾斜/下劃線操作或者校正操作。就進一步舉例說明來說，一旦突出顯示文本“how areyou”，則可用來源于后續(xù)用戶話語的不同文本替換用戶選擇的文本部分。按照這種方式，用戶可以不用手校正電子文檔。
目前，“SELECT”命令，或者用于選擇文本的其它類似用戶語音命令的已知實現(xiàn)方式存在幾個缺點。一個缺點是文本主體內(nèi)，用戶想選擇的短語或單詞可能多次出現(xiàn)。例如，在文本主體內(nèi)，可能多次出現(xiàn)單詞“the”。從而，如果用戶說“SELECT the”，則語音口授系統(tǒng)不能確定用戶想要選擇單詞“the”的哪一次出現(xiàn)。
就解決該問題而論，常規(guī)的語音口授系統(tǒng)依賴于確定用戶想要選擇哪一次出現(xiàn)的用戶所需單詞或短語的一套規(guī)則。例如，語音口授系統(tǒng)可從活動窗口的頂部開始，選擇該單詞或短語的第一次出現(xiàn)。但是，如果用戶不想選擇該單詞或短語的第一次出現(xiàn)，則常規(guī)的語音口授系統(tǒng)可向用戶提供選擇該單詞的另一次出現(xiàn)的能力。特別地，某些常規(guī)語音口授系統(tǒng)提供諸如“NEXT”或者“PREVIOUS”之類的導航語音命令。
通過發(fā)出語音命令“NEXT”，用戶指示語音口授系統(tǒng)定位并選擇所需單詞或短語的下一次出現(xiàn)。類似地，命令“PREVIOUS”指示語音口授系統(tǒng)定位并選擇所需單詞或短語的上一次出現(xiàn)。雖然這樣的常規(guī)系統(tǒng)使用戶能夠到達特定單詞或短語的所需出現(xiàn)位置，但是用戶必須研究到達所需出現(xiàn)位置的策略。這會導致時間的浪費和使用戶受挫，尤其是在用戶發(fā)覺語音口授系統(tǒng)不準確或者效率不高的情況下。
常規(guī)的語音口授系統(tǒng)內(nèi)，常規(guī)的文本選擇方法的另一缺點是當搜索用戶指定的單詞或短語時，這種語音口授系統(tǒng)一般搜索出現(xiàn)在用戶屏幕上的整個文本主體。在語音口授系統(tǒng)語法中，出現(xiàn)在用戶屏幕上的每個單詞被激活，在語音口授系統(tǒng)看來是可能性相同的候選者。由于用戶只需要單個單詞或短語，激活并搜索出現(xiàn)在用戶屏幕上的整個文本主體效率不高。此外，該技術(shù)會增大發(fā)生誤識別的概率。
常規(guī)語音口授系統(tǒng)內(nèi)，常規(guī)的文本選擇方法的又一缺點是，對于語音口授系統(tǒng)來說，用戶是在語音口授過程中發(fā)音一個單詞還是在發(fā)出一個語音命令，例如激活下拉菜單的語音命令，常常不太明顯。例如，如果用戶發(fā)出單詞“File”，根據(jù)情況，用戶可能打算激活菜單條中的File菜單或者在電子文檔中插入單詞“File”。因此，對于常規(guī)的語音口授系統(tǒng)來說，用戶話語是語音命令還是語音口述并不總是很明顯。
因此，盡管目前可用的語音口授系統(tǒng)提供與計算機交互作用，從而以語音方式命令應用程序、提供電子文檔中的語音口述以及選擇電子文檔內(nèi)的文本的方法，但是仍然需要一種區(qū)別用戶語音命令、用戶口述、文本和它們的組合的改進方法。

發(fā)明內(nèi)容
于是，這里公開的本發(fā)明提供一種通過結(jié)合語音口授系統(tǒng)利用眼睛跟蹤系統(tǒng)，區(qū)分電子文檔中文本的不同出現(xiàn)位置，以及區(qū)分語音命令情形和語音口述情形的方法和設備。本發(fā)明的方法和設備可包括和語音口授系統(tǒng)協(xié)同使用，以便在語音口授系統(tǒng)中確定用戶凝視的焦點的眼睛跟蹤系統(tǒng)(ETS)。特別地，ETS與語音口授系統(tǒng)的協(xié)同應用可提高“SELECT”用戶語音命令功能，或者在語音口授系統(tǒng)中用于選擇文本主體內(nèi)一部分文本的其它任意用戶語音命令的準確性。本發(fā)明中ETS的應用還可通過簡化用戶口述和語音命令的區(qū)分來提高系統(tǒng)的性能。
相應地，在第一方面，本發(fā)明提供一種在電子文檔中搜索匹配文本的方法，所述方法可包括識別用戶界面中的焦點，并且確定焦點周圍的環(huán)繞區(qū)。特別地，環(huán)繞區(qū)可包括配置成接收語音口授文本的用戶界面對象內(nèi)的文本主體。另外，該方法還可包括接收用于選擇電子文檔內(nèi)的指定文本的語音命令，搜索包含在環(huán)繞區(qū)中的文本主體以匹配所述指定文本。重要的是，搜索可局限于該環(huán)繞區(qū)中的文本主體。
如果在搜索步驟中，在文本主體中沒有找到指定文本的匹配文本，則搜索電子文檔中的匹配文本的方法最好還可包括擴展環(huán)繞區(qū)，使之包括用戶界面中的附加區(qū)域。特別地，借助所述擴展包括進來的附加區(qū)域可包括附加文本。因此，可搜索所述附加文本，尋找所述指定文本的匹配文本。最后，如前所述，搜索可局限于所述文本主體和所述附加文本。
擴展步驟最好可包括把環(huán)繞區(qū)從焦點向外擴大預定的增量?；蛘?，擴展步驟可包括把環(huán)繞區(qū)擴大固定數(shù)量的與文本主體相鄰的文本。最后，擴展步驟可包括把環(huán)繞區(qū)從焦點向外擴大一個可變的增量。
相應地，在第二方面，本發(fā)明提供一種區(qū)分語音命令情形和語音口述情形的方法，可包括識別用戶界面中的焦點；確定焦點周圍的環(huán)繞區(qū)；識別環(huán)繞區(qū)中的用戶界面對象；在所識別的用戶界面對象中，進一步識別配置成接受語音口授文本的那些用戶界面對象和未被配置成接受語音口授文本的那些用戶界面對象；根據(jù)已被進一步識別為配置成接受語音口授文本的那些用戶界面對象，和已被進一步識別為未配置成接受語音口授文本的那些用戶界面對象，計算概率；接收語音輸入；和根據(jù)計算的概率，使語音輸入是語音命令還是語音口述的決定傾向一方。另外，該方法可包括在用戶界面之外確定一個焦點；并且根據(jù)默認概率，使語音輸入是語音命令還是語音口述的決定傾向一方。
相應地，在第三方面，本發(fā)明提供一種機器可讀的存儲器，所述存儲器上保存有用于在電子文檔中搜索匹配文本的計算機程序，所述計算機程序具有可由機器執(zhí)行的，使機器執(zhí)行下述步驟的若干代碼段識別用戶界面中的焦點；確定所述焦點周圍的環(huán)繞區(qū)，所述環(huán)繞區(qū)包括配置成接收語音口授文本的用戶界面對象內(nèi)的文本主體；接收在電子文檔內(nèi)選擇指定文本的語音命令；和在環(huán)繞區(qū)中的所述文本主體中搜索所述指定文本的匹配文本，所述搜索局限于所述環(huán)繞區(qū)中的所述文本主體。
相應地，在第四方面，本發(fā)明提供一種機器可讀的存儲器，所述存儲器上保存有用于區(qū)分語音命令情形和語音口述情形的計算機程序，所述計算機程序具有可由機器執(zhí)行的，使機器執(zhí)行下述步驟的若干代碼段識別用戶界面中的焦點；確定所述焦點周圍的環(huán)繞區(qū)；識別所述環(huán)繞區(qū)中的用戶界面對象；進一步在所述識別的用戶界面對象中，識別配置成接受語音口授文本的那些用戶界面對象和未被配置成接受語音口授文本的那些用戶界面對象；根據(jù)已被進一步識別為配置成接受語音口授文本的那些用戶界面對象，和已被進一步識別為未配置成接受語音口授文本的那些用戶界面對象，計算概率；接收語音輸入；和根據(jù)計算的概率，使所述語音輸入是語音命令還是語音口述的決定偏向一方。
相應地，在第五方面，本發(fā)明提供一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括保存在計算機可讀存儲介質(zhì)上的計算機程序代碼，當在計算機上被執(zhí)行時，所述計算機程序代碼執(zhí)行如上所述的方法。

下面將參考附圖中圖解說明的本發(fā)明的優(yōu)選實施例，舉例說明本發(fā)明，其中圖1是與這里公開的本發(fā)明交互作用的用戶的例證描述。
圖2是圖解說明適合于本發(fā)明之用的計算機系統(tǒng)的方框圖。
圖3是表示圖1的計算機系統(tǒng)的典型高級架構(gòu)的方框圖。
圖4是表示包括語音識別引擎的典型組件的方框圖。
圖5A和5B一起構(gòu)成圖解說明通過結(jié)合語音口授系統(tǒng)，利用眼睛跟蹤系統(tǒng)，區(qū)別電子文檔中文本的不同出現(xiàn)和區(qū)別語音命令情形和語音口述情形的方法的流程圖。
具體實施例方式
結(jié)合語音口授系統(tǒng)使用眼睛跟蹤系統(tǒng)(ETS)可改進語音口授系統(tǒng)的性能。具體地說，根據(jù)本發(fā)明的方案，ETS可幫助語音口授系統(tǒng)區(qū)別文本主體內(nèi)文本的多次出現(xiàn)。另外，ETS可幫助語音口授系統(tǒng)分析語音輸入，從而區(qū)別語音命令和語音口述?？赏ㄟ^在ETS中檢測用戶凝視的焦點的屏幕位置實現(xiàn)這種改進。有利的是，屏幕位置(在或不在屏幕上)可被傳送給語音口授系統(tǒng)。根據(jù)用戶凝視焦點的位置，可確定焦點周圍的區(qū)域(稱為“環(huán)繞區(qū)”)，該區(qū)域可幫助區(qū)分語音輸入是語音命令還是語音口述。另外，環(huán)繞區(qū)可用于識別用戶指定選擇的文本的特定出現(xiàn)。
圖1舉例描述了與這里公開的發(fā)明交互作用的用戶。在圖1中，用戶凝視視頻顯示終端(VDT)32上的某一位置。用位于VDT32的屏幕上的星號表示用戶凝視的焦點。圖中另外還描述了具有頭戴式硬件接口29的ETS。在眼睛跟蹤和測量領域中，ETS眾所周知。ETS目前可從市場上購得，比如由Virginia的Fairfax的LC Technologies公司生產(chǎn)的THE EYEGAZE DEVELOPMENT SYSTEM，以及均由Massachusetts，Boston的SensoMotoric Instruments公司(“SensoMotoric Instruments”是SensoMotoric Instruments公司的商標)生產(chǎn)的EYEMOUSE(“Eyemouse”是SensoMotoricInstruments公司的商標)和EYELINK(“Eyelink”是SR ResearchLtd公司的商標)。
ETS的配置可包括眼睛跟蹤硬件接口29和圖像處理系統(tǒng)34。眼睛跟蹤硬件接口29可以是可從LC Technologies公司獲得的桌面安裝裝置。圖2中表示了例證的桌面安裝的眼睛跟蹤裝置。或者，眼睛跟蹤硬件接口29可以是可從SensoMotoric Instruments公司獲得的如圖1中所示的頭戴式裝置。無論是桌面安裝裝置還是頭戴式裝置，眼睛跟蹤硬件接口29均可把關于用戶眼睛的信息傳送給圖像處理系統(tǒng)34。
圖像處理系統(tǒng)可以是獨立的圖像處理系統(tǒng)，或者可存在于常規(guī)的計算機之內(nèi)。在圖像處理系統(tǒng)存在于常規(guī)的計算機之內(nèi)的情況下，常規(guī)計算機可利用圖像處理電路和圖像處理軟件的組合完成圖像處理系統(tǒng)的功能。本領域的技術(shù)人員應認識到本發(fā)明并不受選用的ETS的限制。相反，可采用能夠把用戶凝視焦點的位置傳送給計算機的任何適當?shù)腅TS。
圖2圖解說明了當圖像處理系統(tǒng)34是基于常規(guī)計算機的圖像處理系統(tǒng)時的情況。特別地，圖像處理系統(tǒng)34可包括常規(guī)計算機20，常規(guī)計算機20包括中央處理器(CPU)，一個或多個存儲器和相關電路。常規(guī)計算機20可包括計算機存儲器27，存儲器27最好由電子隨機存取存儲器27A和諸如磁盤驅(qū)動器之類的批量數(shù)據(jù)存儲介質(zhì)27B組成。最后，計算機20可包括指示器21，例如鼠標，以及與之工作連接的至少一個用戶界面顯示器32，例如視頻數(shù)據(jù)終端(VDT)。
特別地，計算機20可被配置成執(zhí)行語音識別及文本-語音(TTS)轉(zhuǎn)換。因此，計算機20還可包括音頻輸入裝置30，例如麥克風。另外，計算機20可包括音頻輸出裝置23，例如揚聲器。音頻輸入裝置30和音頻輸出裝置23都可通過適當?shù)慕涌陔娐坊颉奥暱?Soundboard)”(未示出)與計算機20工作連接。這樣，通過音頻輸入裝置30，用戶語音可被接收到計算機20中，通過音頻輸出裝置23，可向用戶提供合成語音及其它音頻。利用可從市場上購得的多種高速多媒體個人計算機中的任意一種，可滿足關于如上所述的常規(guī)計算機20的各種硬件要求。
根據(jù)本發(fā)明，計算機20還可包括通過計算機20的通信端口(未示出)與計算機20工作連接，并且通過適當?shù)膱D像處理電路和軟件與計算機20通信鏈接的眼睛跟蹤硬件接口29(這里圖示的是桌面型)。具體地說，圖像處理電路和軟件可確定用戶凝視焦點的位置，并且可把該信息傳送給與圖像處理軟件通信連接的計算機應用程序。本發(fā)明中，語音口授系統(tǒng)可與圖像處理軟件通信連接，語音口授系統(tǒng)可從所述圖像處理軟件接收指示用戶凝視焦點的位置的數(shù)據(jù)。
圖3圖解說明了包含ETS的有語音能力的計算機系統(tǒng)的典型架構(gòu)，其中計算機系統(tǒng)被配置成區(qū)分電子文檔中文本的不同出現(xiàn)，以及區(qū)分語音命令情形和語音口述情形。如圖3所示，計算機系統(tǒng)20在存儲器27中可包括操作系統(tǒng)24、語音口授系統(tǒng)26和眼睛跟蹤系統(tǒng)22。在所示例子中，還提供了語音文本處理應用程序28。但是，本發(fā)明并不局限于這方面，語音口授系統(tǒng)26可和有語音能力的任何應用程序一起使用。
圖2中，語音口授系統(tǒng)26、語音文本處理程序28和眼睛跟蹤系統(tǒng)22被表示成單獨的應用程序。但是，應注意本發(fā)明并不局限于此，這些不同的應用程序可被實現(xiàn)成單一的更復雜的應用程序。例如，語音口授系統(tǒng)26可與語音文本處理應用程序28結(jié)合，或者和與語音口授系統(tǒng)一起使用的其它任意應用程序結(jié)合。另外，眼睛跟蹤系統(tǒng)22可作為包含在計算機20中的應用程序，或者可存在于能夠通過數(shù)據(jù)鏈路與計算機20通信的獨立ETS之內(nèi)。系統(tǒng)還可包括語音導航應用程序(未示出)，以便針對其它應用程序的語音操作協(xié)調(diào)語音口授系統(tǒng)的操作，不過對這里所述的本發(fā)明的操作來說不是必需的。
圖4是表示舉例說明語音口授系統(tǒng)26中語音信號的語音-文本轉(zhuǎn)換的典型組件的方框圖。一般來說，通過如圖2中所示的音頻輸入裝置可接收模擬語音信號，并在音頻電路中將其處理成數(shù)字語音信號。具體地說，通過以固定的頻率，一般為每10-20毫秒對語音信號采樣，可把語音信號轉(zhuǎn)換成數(shù)字化數(shù)據(jù)集。隨后，音頻電路可把數(shù)字化的語音信號傳送給語音口授系統(tǒng)26。
“表達”方框35可接收數(shù)字化的語音信號，并且能夠產(chǎn)生數(shù)字化語音信號的表達，所述表達可在語音識別過程的后續(xù)階段中用于確定一部分語音信號對應于特定語音事件的概率。該過程用來強調(diào)從操作系統(tǒng)接收的語音信號的對知覺重要的、和揚聲器無關的特征。
在“建立模型/分類”方框36中，算法可進一步處理語音信號，使和揚聲器無關的聲學模型適應當前揚聲器的聲學模型。最后，在搜索方框38中，使用搜索算法把搜索引擎引導到對應于語音信號的最可能單詞。在聲學模型40、詞匯模型42、語言模型44和訓練數(shù)據(jù)46的幫助下，進行搜索方框38中的搜索過程。
最好，本發(fā)明提供一種區(qū)分電子文檔中文本的不同出現(xiàn)，以及區(qū)分語音命令情形和語音口述情形的方法和設備。本發(fā)明的方法和設備可包括ETS和語音口授系統(tǒng)的協(xié)同應用。特別地，這種組合可提高語音口授系統(tǒng)中“SELECT”用戶語音命令功能，或者在文本主體內(nèi)選擇一部分文本的其它任意用戶語音命令的精度。通過幫助語音口授系統(tǒng)把語音輸入解釋為語音口述或語音命令，這種組合還可提高語音口授系統(tǒng)性能。
通過根據(jù)檢測到的用戶凝視焦點，計算時間上最接近用戶凝視的語音輸入是語音口述或語音命令之一的概率，實現(xiàn)對語音口授系統(tǒng)的上述提高。計算的概率可用于使語音口授系統(tǒng)傾向于把語音輸入解釋為語音口述或語音命令之一。具體地說，語音口授系統(tǒng)可確定環(huán)繞所檢測到的焦點的一個可調(diào)整屏幕區(qū)(“環(huán)繞區(qū)”)，其結(jié)果是語音口授系統(tǒng)可連續(xù)捕捉并更新和位于環(huán)繞區(qū)內(nèi)的文本和對象有關的信息。
當接收語音輸入時，語音口授系統(tǒng)可確定環(huán)繞區(qū)是否主要包含用戶界面對象或者文本輸入?yún)^(qū)。如果環(huán)繞區(qū)主要包含文本輸入?yún)^(qū)，則語音口授系統(tǒng)可推斷語音輸入應被理解為插入文本輸入?yún)^(qū)的語音口授。相反，如果環(huán)繞區(qū)主要包括用戶界面對象，則語音口授系統(tǒng)可把語音輸入理解為語音命令。最后，在語音輸入被理解為在文本輸入?yún)^(qū)中選擇文本主體中的文本的語音命令的情況下，語音口授系統(tǒng)可根據(jù)環(huán)繞區(qū)中的文本，而不是文本輸入?yún)^(qū)中的整個文本確定要選擇的文本。按照這種方式，可更高效地把語音口授系統(tǒng)資源專用于較小的文本區(qū)域，而不是電子文檔中的整個文本主體。
圖5A和5B一起構(gòu)成圖解說明區(qū)分電子文檔中文本的不同出現(xiàn)，以及區(qū)分語音命令情形和語音口述情形的方法的流程圖?？山Y(jié)合為語音口授系統(tǒng)和ETS的使用而配置的計算機系統(tǒng)執(zhí)行所述方法。圖5A開始于步驟50，在步驟50中，在向語音口授系統(tǒng)提供語音輸入的同時，用戶自然地凝視VDT32上的不同位置(在屏幕上)或者凝視在VDT32之外(脫離屏幕)。
在步驟55中，ETS確定用戶凝視的焦點的位置。借助圖像處理電路和軟件的幫助，ETS確定用戶凝視的焦點是在屏幕上的位置還是在屏幕之外。無論如何，ETS把該信息傳送給語音口授系統(tǒng)。在步驟60中，語音口授系統(tǒng)從ETS接收用戶的焦點位置。如果用戶凝視焦點的位置在屏幕上，則系統(tǒng)進行到步驟70。否則，系統(tǒng)進行到步驟65。
如果在步驟60中確定焦點的位置在屏幕上，則ETS已確定用戶凝視焦點的屏幕位置。從而，在步驟70中，可在焦點周圍確定一個環(huán)繞區(qū)。在一個代表性的實施例中，可根據(jù)從焦點向外延伸的規(guī)定半徑，用周界確定該環(huán)繞區(qū)?；蛘撸赏ㄟ^把預定的幾何區(qū)域覆蓋在焦點上來確定環(huán)繞區(qū)。
同樣，本發(fā)明并不局限于計算環(huán)繞區(qū)的上述方法。相反，計算環(huán)繞區(qū)的任意適當方法都可滿足本發(fā)明的目的。此外，本領域的技術(shù)人員要認識到，和如何確定環(huán)繞區(qū)或者環(huán)繞區(qū)的最終形狀無關，外周界內(nèi)的區(qū)域的默認面積或大小可以是用戶可調(diào)整的數(shù)值。例如，用戶可指定默認面積，或者另一方面，用戶可規(guī)定環(huán)繞區(qū)從焦點向外延伸的半徑。
在步驟75中，在確定環(huán)繞區(qū)之后，可捕捉和環(huán)繞區(qū)內(nèi)的文本和對象相關的信息，供確定語音輸入應被理解為語音口述還是理解為語音命令之用，以及供識別電子文檔中指定文本的特定出現(xiàn)之用。特別地，捕捉的信息可包括，例如專用于顯示不適于接收語音口述文本的用戶界面對象的象素的數(shù)目，以及專用于顯示適于接收語音口述文本的用戶界面對象的象素的數(shù)目。應認識到，通過確定語音口授系統(tǒng)可將其資源投入其中的有限區(qū)域，語音口授系統(tǒng)可實現(xiàn)更高的效率。例如，語音口授系統(tǒng)只需激活包含在環(huán)繞區(qū)內(nèi)找到的文本的部分語音口授文法，而不是整個語音口授語法。
在步驟80中，可根據(jù)哪個語音口述可被理解為語音命令或者語音口述，計算概率。具體地說，可通過計算環(huán)繞區(qū)的可口授面積和環(huán)繞區(qū)的總面積的比值，計算概率。例如，如果70％的環(huán)繞區(qū)可接收用戶口授，則概率為70％或者0.70。同樣，本發(fā)明并不局限于計算概率的上述特定方式。事實上，概率的其它計算可以基于例如環(huán)繞區(qū)內(nèi)的文本或者口授單詞的數(shù)目和環(huán)繞區(qū)內(nèi)適合于用戶語音命令的對象的數(shù)目的比值。但是，無論如何計算概率，都應認識到概率最好既不為零，又不為1(指示后續(xù)用戶話語絕對是用戶口述或者用戶語音命令)。禁止這種極端概率值使得當用戶凝視屏幕之外時，希望向語音口授系統(tǒng)口授語音成為可能。
如果在判定步驟60中，確定用戶凝視的焦點在屏幕之外，在步驟65中，系統(tǒng)可向概率賦予默認值。該默認值被稱為默認概率，并可由用戶預先配置。默認概率指示當用戶凝視屏幕之外時，后續(xù)語音輸入是語音口述或語音命令之一的統(tǒng)計可能性。因此，基于默認概率的統(tǒng)計分析可指示當用戶注視屏幕之外時，用戶打算使語音輸入被理解為語音口授的可能性。
默認概率可具有從零(0.00)到1(1.00)變化的可調(diào)數(shù)值。特別地，本領域的技術(shù)人員應認識到向默認概率賦予較高的數(shù)值表示在語音口授過程中，用戶不需注視屏幕的假定。但是，默認值最好不指示當用戶注視屏幕之外時提供的語音輸入應被絕對理解為語音口述或者語音命令。這樣的確定概率會在語音口授系統(tǒng)內(nèi)導致錯誤。
在步驟85中，在計算概率或者依賴默認概率之后，可接收語音輸入。根據(jù)在ETS的幫助下得到的概率，可分析語音輸入，從而確定語音輸入是應被理解為語音口述還是應被理解為語音命令。隨后，該方法可繼續(xù)處理該語音輸入，通過跳轉(zhuǎn)圓圈A到達圖5B的判定步驟95。
在判定步驟95中，可確定在步驟85中接收的語音輸入是“SELECT”語音命令還是在電子文檔內(nèi)選擇文本的其它類似語音命令。如果語音輸入未被理解為SELECT命令，則該方法進行到步驟97，在步驟97中可發(fā)生兩種操作之一。首先，如果語音輸入，雖然不是SELECT語音命令，但被確定為另一語音命令，則可如同在常規(guī)的有語音功能的應用程序中那樣執(zhí)行該語音命令。其次，如果語音輸入被確定為語音口述，則語音識別引擎可把該語音輸入轉(zhuǎn)換成文本。隨后，可把轉(zhuǎn)換文本插入配置成接收轉(zhuǎn)換文本的用戶界面對象中。在任一種情況下，該方法都可通過跳轉(zhuǎn)圓圈C返回圖5A的步驟50，重復上述過程。
返回判定步驟95。如果確定在步驟85接收的語音輸入是SELECT語音命令或者在電子文檔內(nèi)選擇文本的其它類似語音命令，則在步驟100中，可確定SELECT命令指定的文本是否位于包含在環(huán)繞區(qū)中的文本主體中。例如，如果語音輸入已被理解為SELECT命令“SELECT mouse”，則可確定包含在環(huán)繞區(qū)中的文本主體是否包括單詞“mouse”。如果對于指定文本，在步驟100中找到了匹配，則方法可前進到步驟105。否則，方法可在步驟110中繼續(xù)。
如果根據(jù)步驟100找到了指定文本的匹配，則在步驟105中，可選擇指定文本的最恰當?shù)钠ヅ?。更具體地說，如果在環(huán)繞區(qū)中的文本主體內(nèi)只存在一個匹配，則可選擇該文本的所述單一匹配文本，一般通過突出顯示該文本的匹配出現(xiàn)來實現(xiàn)。相反，如果在環(huán)繞區(qū)中的文本主體內(nèi)多次出現(xiàn)匹配文本，則可確定環(huán)繞區(qū)中文本主體內(nèi)指定文本的哪一次出現(xiàn)最接近焦點。從而用戶凝視的焦點可用于確定應選擇哪一個匹配文本。同樣，本發(fā)明并不局限于此，也可采用在匹配文本的多次出現(xiàn)中選擇一個匹配文本的其它適當方法。這樣的備選方法包括在環(huán)繞區(qū)中的文本主體內(nèi)選擇首先出現(xiàn)的匹配文本。
一旦確定了指定文本的適當出現(xiàn)，則可選定被確定的文本，一般通過在視覺上突出顯示該文本來實現(xiàn)。應認識到在選擇了指定文本的不正確或不合乎需要的出現(xiàn)的情況下，可使用諸如“PREVIOUS”或者“NEXT”之類常規(guī)語音命令定位到環(huán)繞區(qū)中指定文本的其它出現(xiàn)位置。在任何情況下，該方法可通過跳轉(zhuǎn)圓圈C返回圖5A的步驟50，重新開始該過程。從而，通過重復該過程，該方法可再次計算環(huán)繞區(qū)，確定隨后接收的語音輸入是語音口述還是語音命令的概率。
現(xiàn)在返回判定步驟110，如果在環(huán)繞區(qū)中的文本主體內(nèi)沒有找到任何匹配，則可確定環(huán)繞區(qū)是否包括被配置成接收語音口授的整個可視用戶界面。如果是，則可確定在屏幕上的文本主體中不存在任何匹配，可如步驟115中那樣通知用戶。在未在圖5B中描述的另一實施例中，在屏幕上不存在任何匹配的情況下，系統(tǒng)可向用戶提供繼續(xù)以及進一步擴展針對用戶指定文本的搜索的附加選擇。例如，可詢問用戶是否希望搜索當前打開的電子文檔的其它部分?；蛘?，可向用戶提供更多的有針對性的選擇，例如在環(huán)繞區(qū)之前或者之后使環(huán)繞區(qū)擴展預定或者用戶可調(diào)數(shù)目的單詞或段落。在任何情況下，隨后方法可通過跳轉(zhuǎn)圓圈C返回圖5A的步驟50，重新開始該過程。
相反，如果在步驟100中確定環(huán)繞區(qū)不包含被配置成接收語音口授的整個可視用戶界面，則不能假定在屏幕上的文本主體中不存在任何匹配。從而，繼續(xù)進行步驟120，可擴展環(huán)繞區(qū)所覆蓋的面積以便包括更多的文本。執(zhí)行環(huán)繞區(qū)的擴展的任意適當方法都可滿足需要。例如，可從用戶焦點沿所有方向把環(huán)繞區(qū)的外周界向外延伸相同的預定的或者動態(tài)計算的數(shù)值?；蛘?，可從焦點把環(huán)繞區(qū)向外延伸一個代表一面積值的預定數(shù)值。
在本發(fā)明的一個實施例中，默認預定值可用于確定擴展的程度。默認值可以是可調(diào)的，以便提供微調(diào)能力。按照這種方式，用戶可規(guī)定在重復搜索過程中，環(huán)繞區(qū)應增長多大。以前一例子為例，如果在環(huán)繞區(qū)中的文本主體內(nèi)沒有找到用戶指定的文本“mouse”，則可從焦點沿所有方向把環(huán)繞區(qū)的周界向外擴大1厘米。或者，可把環(huán)繞區(qū)擴大5平方厘米或者特定數(shù)目的象素的預定面積。
在擴大環(huán)繞區(qū)之后，在步驟125中，可計算、收集并保存和新擴大的環(huán)繞區(qū)內(nèi)的對象和文本有關的信息，以供本發(fā)明的方法未來之用。另外，在語音口授系統(tǒng)文法內(nèi)，可激活新擴大的環(huán)繞區(qū)內(nèi)的新的文本主體。另外，可確定存在于新擴大的環(huán)繞區(qū)內(nèi)的對象的屬性。在識別新擴大的環(huán)繞區(qū)內(nèi)的文本和對象之后，通過跳轉(zhuǎn)圓圈B從步驟100開始，可重復文本主體中匹配文本的搜索。按照這種方式，該方法可系統(tǒng)地并且遞增地把對文本主體內(nèi)用戶指定文本的搜索擴大到并超出文本主體的屏幕部分之外。
特別地，可用硬件、軟件或者硬件和軟件的組合實現(xiàn)本發(fā)明。可在一個計算機系統(tǒng)中以集中方式實現(xiàn)本發(fā)明，或者按照其中不同的部件分散在幾個互連計算機系統(tǒng)中的分布方式實現(xiàn)本發(fā)明。適合于執(zhí)行這里描述的方法的任意類型的計算機系統(tǒng)或其它設備都是適宜的。硬件和軟件的典型組合可以是一個通用計算機系統(tǒng)加上計算機程序，當程序被加載并被執(zhí)行時，其控制計算機系統(tǒng)，使其執(zhí)行這里描述的方法。
本發(fā)明還可嵌入計算機程序產(chǎn)品中，所述計算機程序產(chǎn)品包括使這里描述的方法的實現(xiàn)成為可能的所有特征，并且當被載入計算機系統(tǒng)時，能夠執(zhí)行這些方法。本文中，計算機程序方法或計算機程序意指一組指令的采用任何語言、代碼或符號的任何表達，所述一組指令用來使具有信息處理能力的系統(tǒng)直接或者在下述任一或兩種操作之后執(zhí)行特定功能a)轉(zhuǎn)換為另一語言、代碼或符號；b)以不同的材料形式復制。
雖然上面的說明書舉例說明了本發(fā)明的優(yōu)選實施例，但是要明白本發(fā)明并不局限于這里公開的具體結(jié)構(gòu)。在不脫離本質(zhì)屬性的情況下，可以其它具體形式體現(xiàn)本發(fā)明。因此，本發(fā)明的范圍只應由下述權(quán)利要求限定，而不是由前述說明書限定。
權(quán)利要求
1.一種在電子文檔中搜索匹配文本的方法，包括識別用戶界面中的焦點；確定一個圍繞所述焦點的環(huán)繞區(qū)，所述環(huán)繞區(qū)包括配置成接收語音口授文本的用戶界面對象內(nèi)的文本主體；接收選擇電子文檔內(nèi)的指定文本的語音命令；和在包含在所述環(huán)繞區(qū)中的所述文本主體中搜索所述指定文本的匹配文本，所述搜索局限于所述環(huán)繞區(qū)中的所述文本主體。
2.按照權(quán)利要求1所述的方法，還包括如果在所述搜索步驟中，在所述文本主體中沒有找到所述指定文本的匹配，則擴展所述環(huán)繞區(qū)，使之包括所述用戶界面的一個附加區(qū)域，所述附加區(qū)域包括附加文本；和在所述附加文本中搜索所述指定文本的匹配，所述搜索局限于所述文本主體和所述附加文本。
3.按照權(quán)利要求2所述的方法，其中所述擴展步驟包括從所述焦點把所述環(huán)繞區(qū)向外擴大預定的增量。
4.按照權(quán)利要求2所述的方法，其中所述擴展步驟包括把所述環(huán)繞區(qū)擴大固定數(shù)量的與所述文本主體相鄰的文本。
5.按照權(quán)利要求2所述的方法，其中所述擴展步驟包括從所述焦點把所述環(huán)繞區(qū)向外擴大一個可變的增量。
6.一種區(qū)分語音命令情形和語音口述情形的方法，包括識別用戶界面中的焦點；確定一個圍繞所述焦點的環(huán)繞區(qū)；識別所述環(huán)繞區(qū)中的用戶界面對象；在所述識別的用戶界面對象中，進一步識別配置成接受語音口授文本的那些用戶界面對象和未被配置成接受語音口授文本的那些用戶界面對象；根據(jù)已被進一步識別為配置成接受語音口授文本的那些用戶界面對象和已被進一步識別為未配置成接受語音口授文本的那些用戶界面對象，計算概率；接收語音輸入；和根據(jù)計算的所述概率，使所述語音輸入是語音命令還是語音口述的判斷偏向一方。
7.按照權(quán)利要求6所述的方法，還包括識別位于所述用戶界面之外的焦點；和根據(jù)默認概率，使所述語音輸入是語音命令還是語音口述的決定偏向一方。
8.一種機器可讀存儲器，所述存儲器上保存有用于在電子文檔中搜索匹配文本的計算機程序，所述計算機程序具有可由機器執(zhí)行的，使機器執(zhí)行下述步驟的若干代碼段識別用戶界面中的焦點；確定一個圍繞所述焦點的環(huán)繞區(qū)，所述環(huán)繞區(qū)包括配置成接收語音口授文本的用戶界面對象內(nèi)的文本主體；接收在電子文檔內(nèi)選擇指定文本的語音命令；和在包含在所述環(huán)繞區(qū)中的所述文本主體中搜索所述指定文本的匹配，所述搜索局限于所述環(huán)繞區(qū)中的所述文本主體。
9.按照權(quán)利要求8所述的機器可讀存儲器，還包括如果在所述搜索步驟中，在所述文本主體中沒有找到所述指定文本的匹配，則擴展所述環(huán)繞區(qū)，使之包括所述用戶界面的一個附加區(qū)域，所述附加區(qū)域包括附加文本；和在所述附加文本中搜索所述指定文本的匹配，所述搜索局限于所述文本主體和所述附加文本。
10.按照權(quán)利要求9所述的機器可讀存儲器，其中所述擴展步驟包括從所述焦點把所述環(huán)繞區(qū)向外擴大預定的增量。
11.按照權(quán)利要求9所述的機器可讀存儲器，其中所述擴展步驟包括把所述環(huán)繞區(qū)擴大固定數(shù)量的與所述文本主體相鄰的文本。
12.按照權(quán)利要求9所述的機器可讀存儲器，其中所述擴展步驟包括從所述焦點把所述環(huán)繞區(qū)向外擴大一個可變的增量。
13.一種機器可讀存儲器，所述存儲器上保存有用于區(qū)分語音命令情形和語音口述情形的計算機程序，所述計算機程序具有可由機器執(zhí)行的，使機器執(zhí)行下述步驟的若干代碼段識別用戶界面中的焦點；確定圍繞所述焦點的環(huán)繞區(qū)；識別所述環(huán)繞區(qū)中的用戶界面對象；在所述識別的用戶界面對象中，進一步識別配置成接受語音口授文本的那些用戶界面對象和未被配置成接受語音口授文本的那些用戶界面對象；根據(jù)已被進一步識別為配置成接受語音口授文本的那些用戶界面對象和已被進一步識別為未配置成接受語音口授文本的那些用戶界面對象，計算概率；接收語音輸入；和根據(jù)計算的所述概率，使所述語音輸入是語音命令還是語音口述的判斷偏向一方。
14.按照權(quán)利要求13所述的機器可讀存儲器，還包括識別位于所述用戶界面之外的焦點；和根據(jù)默認概率，使所述語音輸入是語音命令還是語音口述的判斷偏向一方。
15.一種包括保存在計算機可讀存儲介質(zhì)上的計算機程序代碼的計算機程序產(chǎn)品，當在計算機上被執(zhí)行時，所述計算機程序代碼執(zhí)行按照權(quán)利要求1-7任一所述的方法。
全文摘要
一種區(qū)分語音命令情形和語音口述情形的方法，包括識別用戶界面中的焦點；確定圍繞焦點的環(huán)繞區(qū)；識別環(huán)繞區(qū)中的用戶界面對象；在識別的用戶界面對象中，進一步識別配置成接受語音口授文本的那些用戶界面對象和未被配置成接受語音口授文本的那些用戶界面對象；根據(jù)已被進一步識別為配置成接受語音口授文本的那些用戶界面對象和已被進一步識別為未配置成接受語音口授文本的那些用戶界面對象，計算概率；接收語音輸入；根據(jù)計算的所述概率，使語音輸入是語音命令還是語音口述的判斷偏向一方。另外，該方法還可包括識別位于用戶界面之外的焦點；根據(jù)默認概率，使語音輸入是語音命令還是語音口述的判斷偏向一方。
文檔編號G10L15/00GK1449558SQ01814689
公開日2003年10月15日申請日期2001年9月13日優(yōu)先權(quán)日2000年9月20日
發(fā)明者詹姆斯·劉易斯, 科里·奧特伽申請人:國際商業(yè)機器公司

完整全部詳細技術(shù)資料下載