欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用模糊模式搜索的拼寫的制作方法

文檔序號:2825658閱讀:238來源:國知局
使用模糊模式搜索的拼寫的制作方法
【專利摘要】提供了被配置成接收拼寫字符序列形式的用戶輸入的多媒體系統(tǒng)。在一個實現(xiàn)中,啟動拼寫模式,并且用戶拼寫字符序列。多媒體系統(tǒng)執(zhí)行拼寫識別,并識別出具有由于任何用戶和/或系統(tǒng)差錯而產(chǎn)生的可能歧義的字符表示序列。具有可能歧義的字符表示序列產(chǎn)生多個搜索鍵。多媒體系統(tǒng)通過基于該多個搜索鍵對來自目標(biāo)項的有限數(shù)據(jù)集的每一個目標(biāo)項進(jìn)行打分來執(zhí)行模糊模式搜索。對一個或多個相關(guān)項進(jìn)行排名并將其呈現(xiàn)給用戶以供選擇,每一個相關(guān)項都是超過相關(guān)性閾值的目標(biāo)項。用戶從一個或多個相關(guān)項中選擇所意指的字符序列。
【專利說明】使用模糊模式搜索的拼寫
[0001]背景
[0002]許多現(xiàn)代多媒體環(huán)境具有有限的用戶輸入源和顯示模態(tài)。例如,許多游戲控制臺不包括用于容易地輸入數(shù)據(jù)的鍵盤或其它設(shè)備。此外,在現(xiàn)代多媒體環(huán)境中具有有限的用戶輸入源和用戶接口向?qū)で笤跀?shù)據(jù)條目的較大有限集合中進(jìn)行搜索并從中進(jìn)行選擇的用戶提出了挑戰(zhàn)。
[0003]語音識別使用戶能夠與多媒體環(huán)境對接。然而,在多媒體環(huán)境中存在有其中通過常規(guī)語音識別技術(shù)來輸入的數(shù)據(jù)產(chǎn)生差錯的越來越多的上下文。例如,存在其中用戶未正確地發(fā)出單詞的發(fā)音或者用戶不確定如何發(fā)出字符序列的發(fā)音的許多上下文。在這類上下文中,用戶拼寫字符序列可以是有效的。然而,對于多媒體環(huán)境和其它語音識別接口而言,正確地識別出拼寫出的字符序列是一個挑戰(zhàn)。常規(guī)的語音識別接口(例如使用無上下文語法)無法有效地適應(yīng)任何用戶差錯。此外,許多字符發(fā)音相似(例如,包括B、C、D、E、G、P、T、V和Z的E集合字母),從而使得語音識別接口產(chǎn)生誤識別差錯。因此,多媒體環(huán)境缺乏使用戶能夠輸入拼寫字符序列以便從大型固定數(shù)據(jù)庫中檢索數(shù)據(jù)的有效用戶接口。
[0004]概述
[0005]此處描述且要求保護(hù)的實現(xiàn)通過提供一種多媒體系統(tǒng)來解決上述問題,該多媒體系統(tǒng)被配置成接收拼寫字符序列形式的用戶輸入,該拼寫字符序列可以是口述的或手寫的。在一個實現(xiàn)中,在多媒體系統(tǒng)中啟動拼寫模式,并且用戶拼寫字符序列。拼寫出的字符序列可能包含用戶差錯和/或系統(tǒng)差錯。用戶差錯包括但不限于誤拼寫、省略字符、添加字符或誤發(fā)音,而系統(tǒng)差錯包括但不限于語音或手寫識別差錯。多媒體系統(tǒng)執(zhí)行拼寫識別,并識別出具有由于任何用戶和/或系統(tǒng)差錯而產(chǎn)生的可能歧義的字符表示序列。具有可能歧義的字符表示序列產(chǎn)生多個搜索鍵。多媒體系統(tǒng)通過基于該多個搜索鍵對來自目標(biāo)項的有限數(shù)據(jù)集的一個或多個目標(biāo)項進(jìn)行打分來執(zhí)行模糊模式搜索。對一個或多個相關(guān)項進(jìn)行排名并將其呈現(xiàn)給用戶以供選擇,每一個相關(guān)項都是超過相關(guān)性閾值的目標(biāo)項。用戶從一個或多個相關(guān)項中選擇拼寫字符序列。
[0006]在一些實現(xiàn)中,作為計算機(jī)程序產(chǎn)品提供了制品。計算機(jī)程序產(chǎn)品的一個實現(xiàn)提供了可由計算機(jī)系統(tǒng)讀取的并且對處理器可執(zhí)行程序進(jìn)行編碼的有形計算機(jī)程序存儲介質(zhì)。此處還描述和列舉了其他實現(xiàn)。
[0007]提供本概述是為了以簡化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的選擇的概念。本概述并不旨在標(biāo)識所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護(hù)主題的范圍。
[0008]附圖簡述
[0009]圖1示出了使用語音搜索的多媒體環(huán)境的示例實現(xiàn)。
[0010]圖2示出了使用模糊模式搜索的聽寫系統(tǒng)的示例實現(xiàn)。
[0011]圖3示出了使用模糊模式搜索的拼寫系統(tǒng)的示例實現(xiàn)。
[0012]圖4示出了六個示例列舉數(shù)據(jù)庫源的示例實現(xiàn)。
[0013]圖5示出了使用模糊模式搜索的拼寫的示例操作。[0014]圖6示出了可在拼寫識別、搜索和分析系統(tǒng)中使用的捕捉設(shè)備的示例實現(xiàn)。
[0015]圖7示出可用于解釋拼寫識別、搜索和分析系統(tǒng)中的一個或多個字符序列的計算環(huán)境的示例實現(xiàn)。
[0016]圖8示出了可以對實現(xiàn)此處所描述的技術(shù)有用的示例系統(tǒng)。
[0017]詳細(xì)描述
[0018]圖1示出了使用語音搜索的多媒體環(huán)境100的示例實現(xiàn)。多媒體環(huán)境100依靠用戶接口 104從多媒體系統(tǒng)102延伸出,該用戶接口可包括圖形顯示器、觸敏顯示器、掃描儀、話筒和/或音頻系統(tǒng)。多媒體系統(tǒng)102可以是但不限于游戲控制臺、移動電話、導(dǎo)航系統(tǒng)、計算機(jī)系統(tǒng)、機(jī)頂盒、汽車控制系統(tǒng)或能夠響應(yīng)于來自用戶106的口頭、手寫或其它輸入來檢索數(shù)據(jù)的任何其它設(shè)備。
[0019]為了捕捉用戶106的語音,用戶接口 104和/或多媒體系統(tǒng)102包括話筒或話筒陣列,該話筒或話筒陣列使用戶106能夠提供包括單詞、音素或音素片段的一個或多個字符序列形式的口頭輸入。另外,用戶接口 104和/或多媒體系統(tǒng)102可被配置成接收手寫作為來自用戶106的一種形式的輸入。例如,用戶106可使用指示筆來在用戶接口 104的觸敏顯示器上書寫字符序列,可采用掃描儀來輸入具有手寫字符序列的文檔,或者可利用相機(jī)來捕捉手寫字符序列的圖像。此外,多媒體系統(tǒng)102可采用經(jīng)由用戶接口 104來顯示的虛擬鍵盤,這使用戶106能夠使用例如控制器來輸入一個或多個字符序列。字符序列可包括但不限于字母數(shù)字字符(例如,字母A到Z以及數(shù)字O到9)、標(biāo)點字符、控制字符(例如,換行字符)、數(shù)學(xué)字符、字符子序列(例如,單詞和術(shù)語)以及其它符號。在一個實現(xiàn)中,字符序列可對應(yīng)于搜索項、單詞或其它數(shù)據(jù)條目的拼寫實例。
[0020]多媒體系統(tǒng)102被配置成例如通過執(zhí)行如在圖1中的虛線框中示出的示例操作108來識別、分析和響應(yīng)來自用戶106的口頭或其它輸入。在示例實現(xiàn)中,用戶106通過說出單詞“Cherry Creek”來向多媒體系統(tǒng)102提供口頭輸入。這些單詞可以指玩家標(biāo)簽、電子郵件、聯(lián)系人、社交網(wǎng)絡(luò)、文本、搜索項、應(yīng)用命令、位置、對象或其它數(shù)據(jù)條目。多媒體系統(tǒng)102接收到該口頭輸入并通過使用可利用聲音模型的自動化語音識別(ASR)組件來將用戶106的口頭輸入轉(zhuǎn)換成查詢形式(即文本)來執(zhí)行語音識別。在一個實現(xiàn)中,針對一個或多個特定用戶的語音特性來定制ASR組件。
[0021]ASR組件可使用例如準(zhǔn)許用戶輸入形式方面的靈活性的統(tǒng)計語言模型(SLM),諸如η元模型。例如,用戶106可能未正確地發(fā)出單詞或字符序列的發(fā)音。另外,用戶106可能省略一個或多個字符或單詞。在一個實現(xiàn)中,SLM基于包含固定數(shù)據(jù)集的列舉數(shù)據(jù)庫來訓(xùn)練,該固定數(shù)據(jù)集包括但不限于詞典、社交網(wǎng)絡(luò)信息、文本消息、游戲信息(例如玩家標(biāo)簽)、應(yīng)用信息、電子郵件和聯(lián)系人列表。詞典可包括常見誤拼寫的字符序列、用戶添加的字符序列、常用字符序列或首字母縮寫(例如,0MG、L0L、BTW、TTYL等)或其它單詞或字符序列。此夕卜,列舉數(shù)據(jù)庫可包括定位數(shù)據(jù),包括但不限于對應(yīng)于不同區(qū)域、國家或語言的信息。
[0022]ASR組件返回一個或多個經(jīng)解碼的語音識別假設(shè),每一個語音識別假設(shè)都包括字符表示序列,該字符表示序列是ASR組件將其識別為用戶輸入的字符或單詞。語音識別假設(shè)可以是例如對所輸入的字符序列或單詞的η個最佳概率識別的集合??赏ㄟ^根據(jù)與η個最佳概率識別中的每一個相關(guān)聯(lián)的概率或置信度的最小閾值來固定η,以限制該η個最佳概率識別。這些假設(shè)被用來從列舉數(shù)據(jù)庫中標(biāo)識一個或多個可能匹配。[0023]在一個實現(xiàn)中,多媒體系統(tǒng)102從一個或多個可能匹配中選擇一個或多個字符表示序列以便呈現(xiàn)給用戶106。例如,多媒體系統(tǒng)102可選擇具有最高置信度分?jǐn)?shù)的可能匹配。在圖1所示的示例實現(xiàn)中,多媒體系統(tǒng)102將用戶106 口述的單詞識別為“CherryQueen”。多媒體系統(tǒng)102經(jīng)由用戶接口 104向用戶106呈現(xiàn)所選字符表示序列(例如,“Cherry Queen,,)。
[0024]可啟動拼寫模式來執(zhí)行一遍糾正。在一個實現(xiàn)中,用戶106通過命令來啟動拼寫模式,該命令包括但不限于說出命令(例如,說出“spell (拼寫)”)、做出姿勢、按壓按鈕以及選擇誤識別的字符表示序列(例如,“Queen”)。在另一實現(xiàn)中,用戶106通過口頭拼寫出或手寫出經(jīng)糾正的字符序列(例如,“Creek”)來啟動拼寫模式。另外,用戶106可通過經(jīng)由虛擬鍵盤輸入經(jīng)糾正的字符序列來啟動拼寫模式。在又一實現(xiàn)中,多媒體系統(tǒng)102例如響應(yīng)于來自用戶106或內(nèi)置處理器的一個或多個字符表示序列包含差錯的反饋來提示用戶106啟動拼寫模式。
[0025]在圖1所示的示例實現(xiàn)中,用戶106說出被多媒體系統(tǒng)102誤識別為“Queen”的字符序列“C-R-E-E-K”形式的拼寫輸入。多媒體系統(tǒng)102接收到該拼寫輸入并執(zhí)行語音識另O。在一個實現(xiàn)中,多媒體系統(tǒng)102標(biāo)識提供拼寫輸入來進(jìn)行糾正的字符表示序列(例如,提供拼寫輸入“C-R-E-E-K”來糾正字符表示序列“Queen”)。在另一實現(xiàn)中,用戶106選擇提供拼寫輸入來進(jìn)行糾正的被誤識別的單詞。拼寫出的字符序列可能包含用戶差錯和/或系統(tǒng)差錯。用戶差錯包括但不限于誤拼寫、省略字符、添加字符或誤發(fā)音,而系統(tǒng)差錯包括但不限于語音或手寫識別差錯。例如,用戶106可能省略字符、誤拼寫字符序列和/或多媒體系統(tǒng)102可能誤識別拼寫輸入中的字符。此外’音素混淆的字母丨例如^^^^^^和C)可被合并到減小的字符集中以提高總體語音識別準(zhǔn)確性。
[0026]語音識別產(chǎn)生一個或多個經(jīng)解碼的語音拼寫識別假設(shè),這些假設(shè)是被識別為用戶輸入的字符。語音識別假 設(shè)可以是例如對拼寫輸入字符序列的η個最佳概率識別的集合??赏ㄟ^根據(jù)與η個最佳概率識別中的每一個相關(guān)聯(lián)的概率或置信度的最小閾值來固定η,來限制該η個最佳概率識別。這些假設(shè)被用來從列舉數(shù)據(jù)庫中標(biāo)識一個或多個可能匹配。從這些可能匹配中識別出拼寫輸入字符表示序列。拼寫字符表示序列可具有可能的歧義。歧義可基于用戶和/或系統(tǒng)差錯,包括但不限于常見的誤拼寫字符序列、字符發(fā)音相似性、字符替換、字符省略、字符添加、替代的可能拼寫。在圖1所示的示例實現(xiàn)中,多媒體系統(tǒng)102將拼寫字符表示序列識別為具有歧義的“R-E-E-K”。拼寫字符表示序列中的歧義產(chǎn)生多個搜索鍵,每一個搜索鍵都包括字符序列。
[0027]為了解決可能的歧義,多媒體系統(tǒng)102執(zhí)行模糊語音搜索以標(biāo)識超過相關(guān)性閾值的一個或多個可能匹配。在一個實現(xiàn)中,模糊語音搜索是動態(tài)的,以使得模糊語音搜索在用戶106說出每一個字符時實時完成。在另一實現(xiàn)中,模糊語音搜索在用戶106說出拼寫輸入中的所有字符后開始。
[0028]模擬語音搜索將多個搜索鍵與基于列舉數(shù)據(jù)庫來填充的搜索表中所包含的目標(biāo)項的有限數(shù)據(jù)集進(jìn)行比較。列舉數(shù)據(jù)庫的數(shù)據(jù)包括但不限于詞典、社交網(wǎng)絡(luò)信息、文本消息、諸如玩家標(biāo)簽等游戲信息、應(yīng)用信息、電子郵件和聯(lián)系人列表。此外,列舉數(shù)據(jù)庫可包括定位數(shù)據(jù),包括但不限于對應(yīng)于不同區(qū)域、國家或語言的信息。每一個目標(biāo)項都包括字符序列。在一個實現(xiàn)中,每一個目標(biāo)項還包括字符子序列的集合。字符子序列的集合包括具有多個相鄰字符的子序列,包括二元字符和三元字符。每一個字符子序列開始于目標(biāo)項的不同字符位置。
[0029]從拼寫字符表示序列中生成多個搜索鍵??赡艿淖址蛄锌砂ǘ鄠€相鄰字符,包括二元字符和三元字符。模糊語音搜索還可從多個搜索鍵中移除一個或多個字符。在一個實現(xiàn)中,從多個搜索鍵中移除諸如標(biāo)點字符或單詞邊界等非字母數(shù)字字符。在一個實現(xiàn)中,音素混淆的字符(例如,B、P、V、D、E、T和C)可被合并到減小的搜索字符集中以考慮可能的語音誤識別。減小的搜索字符集準(zhǔn)許語音識別在不分離音素混淆的字符組的情況下執(zhí)行。在一個實現(xiàn)中,來自減小的搜索字符集的字符被來自該集合的另一字符替換,并且放松對該字符的識別以便進(jìn)一步包括該集合中的另一字符的發(fā)音。例如,一般而言,無法可靠地區(qū)分字母“B”和字母“V”。為了將混淆字符合并到減小的搜索字符集中,用“B”來替換“V”,并且放松“V”的預(yù)期發(fā)音以便也包括“V”的發(fā)音。因此,可基于音素相似性來生成多個搜索鍵,音素相似性表示與說出的字符相關(guān)聯(lián)的聲音單元的相似性?;蛘?,在手寫實現(xiàn)中,圖形混淆的字母可被合并到減小的搜索字符集中以考慮可能的圖案誤識別??苫谧址蜃中蜗嗨菩詠砩啥鄠€搜索鍵,字符或字形相似性表示與書寫的字符相關(guān)聯(lián)的外觀的相似性。
[0030]多媒體系統(tǒng)通過基于該多個搜索鍵為每一個目標(biāo)項打分來執(zhí)行模糊語音搜索。在一個實現(xiàn)中,每一個目標(biāo)項是基于該目標(biāo)項是否匹配多個搜索鍵中的至少一個來打分。目標(biāo)項根據(jù)增加的相關(guān)性來打分和排名,該相關(guān)性與每一個目標(biāo)項與拼寫字符表示序列的相似性相關(guān)。例如,在固定長度的搜索鍵出現(xiàn)在目標(biāo)項中的任何位置范圍內(nèi)或者固定長度的搜索鍵開始于與目標(biāo)項相同的初始字符位置的情況下,目標(biāo)項的相關(guān)性值更高。另外,利用可特定于用戶106的上下文信息來對目標(biāo)項進(jìn)行打分和排名。
[0031]另外,可采用排名算法來基于搜索鍵在搜索表中的普遍性進(jìn)一步對目標(biāo)項進(jìn)行打分和排名。例如,可使用術(shù)語頻率一逆文檔頻率(TF-1DF)排名算法,該算法基于搜索鍵出現(xiàn)在目標(biāo)項中的頻率來增加目標(biāo)項的分?jǐn)?shù),并基于搜索鍵出現(xiàn)在搜索表數(shù)據(jù)庫中的所有目標(biāo)項中的頻率來減少分?jǐn)?shù)。
[0032]基于目標(biāo)項的分?jǐn)?shù),標(biāo)識滿足相關(guān)性閾值的一個或多個相關(guān)項。在一個實現(xiàn)中,標(biāo)識一個相關(guān)項并將其呈現(xiàn)給用戶106。在另一實現(xiàn)中,標(biāo)識兩個或更多相關(guān)項并經(jīng)由用戶接口 104將這些相關(guān)項呈現(xiàn)給用戶106以供選擇。相關(guān)項可根據(jù)每一個相關(guān)項的分?jǐn)?shù)來被呈現(xiàn)在用戶接口 104上。用戶106可以例如通過用戶命令來從所呈現(xiàn)的相關(guān)項中選擇所意指的字符序列,該用戶命令包括但不限于說出命令、做出姿勢、按壓按鈕、書寫命令和使用選擇器工具。
[0033]在圖1所示的示例實現(xiàn)中,生成針對拼寫字符表示序列“R-E-E-K”的多個搜索鍵并將其與目標(biāo)項進(jìn)行比較?;谀繕?biāo)項的分?jǐn)?shù),將“Creek”標(biāo)識為相關(guān)項。在一個實現(xiàn)中,多媒體系統(tǒng)102將“Creek”標(biāo)識為對于“Queen”的替換字符序列并將“Cherry Creek”呈現(xiàn)給用戶106。在另一實現(xiàn)中,多媒體系統(tǒng)102將“Creek”標(biāo)識為對于“Queen”的可能替換字符序列并經(jīng)由用戶接口 104在可能的替換字符序列集中呈現(xiàn)“Cherry Creek”。用戶106可以從可能的替換字符序列集中選擇“Cherry Creek”。
[0034]圖2示出了使用模糊模式搜索的聽寫系統(tǒng)200的示例實現(xiàn)。聽寫系統(tǒng)200包括聽寫引擎204,該聽寫引擎接收用戶輸入202。用戶輸入202可以是包括單詞、音素或音素片段的一個或多個字符序列形式的口頭輸入。另外,用戶輸入202可以是手寫形式的字符序列。此外,用戶輸入202可以是經(jīng)由虛擬鍵盤輸入的字符序列。字符序列可包括但不限于字母數(shù)字字符(例如,字母A到Z以及數(shù)字O到9 )、標(biāo)點字符、控制字符(例如,換行字符)、數(shù)學(xué)字符、字符子序列(例如,單詞和術(shù)語)以及其它符號。在一個實現(xiàn)中,字符序列可對應(yīng)于搜索項、單詞或其它數(shù)據(jù)條目的拼寫實例。在圖2所示的示例實現(xiàn)中,用戶輸入202是單詞"Cherry Creek”。這些單詞可以指玩家標(biāo)簽、電子郵件、聯(lián)系人、社交網(wǎng)絡(luò)、文本、搜索項、應(yīng)用命令、位置、對象或其它數(shù)據(jù)條目。
[0035]聽寫引擎204接收到用戶輸入202并通過使用例如自動化語音識別(ASR)組件或手寫轉(zhuǎn)換組件來將用戶輸入202轉(zhuǎn)換成查詢形式(即文本)來執(zhí)行模式識別。在一個實現(xiàn)中,針對一個或多個特定用戶的語音或手寫特性來定制聽寫引擎204。
[0036]聽寫引擎204可使用例如準(zhǔn)許用戶輸入形式方面的靈活性的統(tǒng)計語言模型(SLM),諸如η元模型。例如,用戶可能未正確地發(fā)出單詞或字符序列的發(fā)音。另外,用戶可能省略一個或多個字符或單詞。在一個實現(xiàn)中,SLM基于包含固定數(shù)據(jù)集的列舉數(shù)據(jù)庫來訓(xùn)練,該固定數(shù)據(jù)集包括但不限于詞典、社交網(wǎng)絡(luò)信息、文本消息、游戲信息(例如玩家標(biāo)簽)、應(yīng)用信息、電子郵件和聯(lián)系人列表。詞典可包括常見誤拼寫的字符序列、用戶添加的字符序列、常用字符序列或首字母縮寫(例如,0MG、L0L、BTW、TTYL等)或其它單詞或字符序列。此夕卜,列舉數(shù)據(jù)庫可包括定位數(shù)據(jù),包括但不限于對應(yīng)于不同區(qū)域、國家或語言的信息。
[0037]聽寫引擎204返回一個或多個經(jīng)解碼的語音識別假設(shè),每一個語音識別假設(shè)都包括字符表示序列,該字符表示序列是聽寫引擎204將其識別為用戶輸入的字符或單詞。語音識別假設(shè)可以是例如對所輸入的字符序列或單詞的η個最佳概率識別的集合??赏ㄟ^根據(jù)與η個最佳概率識別中的每一個相關(guān)聯(lián)的概率或置信度的最小閾值來固定η,以限制該η個最佳概率識別。這些假設(shè)被用來從列舉數(shù)據(jù)庫中標(biāo)識一個或多個可能匹配。在圖2所示的示例實現(xiàn)中,聽寫引擎204返回對用戶輸入202的第一字符序列(S卩“Cherry”)的四個假設(shè)以及對用戶輸入202的第二字符序列(即“Creek”)的六個假設(shè)。
[0038]在一個實現(xiàn)中,聽寫引擎204從一個或多個可能匹配中選擇一個或多個字符表示序列并輸出聽寫結(jié)果206。例如,聽寫引擎204可選擇具有最高置信度分?jǐn)?shù)的可能匹配。在圖2所示的示例實現(xiàn)中,聽寫引擎204輸出“Cherry Queen”作為聽寫結(jié)果206。
[0039]在一個實現(xiàn)中,多媒體系統(tǒng)經(jīng)由用戶接口向用戶呈現(xiàn)聽寫結(jié)果206。可執(zhí)行一遍糾正以解決聽寫結(jié)果206中的任何用戶和/或系統(tǒng)差錯。用戶差錯包括但不限于誤拼寫、省略字符、添加字符或誤發(fā)音,而系統(tǒng)差錯包括但不限于聽寫引擎204的語音或手寫識別差錯。在該遍糾正期間,用戶提供用戶輸入208。在一個實現(xiàn)中,用戶重新說出、重寫或重新鍵入被誤識別的字符序列作為用戶輸入208(例如“Creek”)。在另一實現(xiàn)中,用戶拼寫出被誤識別的字符序列作為用戶輸入208 (例如,“C-R-E-E-K”)。在又一實現(xiàn)中,多媒體系統(tǒng)向用戶呈現(xiàn)一個或多個字符表示序列以供選擇,并且用戶選擇所意指的字符序列作為用戶輸入208。例如,在圖2所示的示例實現(xiàn)中,用戶提供被誤識別的單詞“Creek”作為用戶輸入208?;谟脩糨斎?08,多媒體系統(tǒng)呈現(xiàn)選擇結(jié)果210。在該示例實現(xiàn)中,選擇結(jié)果210呈現(xiàn)匹配用戶輸入202所提供的單詞的單詞“Cherry Creek”。
[0040]圖3示出了使用模糊模式搜索的拼寫系統(tǒng)300的示例實現(xiàn)。拼寫系統(tǒng)300包括拼寫模型引擎304,該拼寫模型引擎接收用戶輸入302。用戶輸入302可以是包括單詞、音素或音素片段的一個或多個字符序列形式的口頭輸入。另外,用戶輸入302可以是手寫形式的字符序列。此外,用戶輸入302可以是經(jīng)由虛擬鍵盤輸入的字符序列。字符序列可包括但不限于字母數(shù)字字符(例如,字母A到Z以及數(shù)字O到9)、標(biāo)點字符、控制字符(例如,換行字符)、數(shù)學(xué)字符、字符子序列(例如,單詞和術(shù)語)以及其它符號。在一個實現(xiàn)中,字符序列可對應(yīng)于搜索項、單詞或其它數(shù)據(jù)條目的拼寫實例。在圖3所示的示例實現(xiàn)中,用戶輸入302是拼寫字符序列“C-R-E-E-K”。該字符序列可以指玩家標(biāo)簽、電子郵件、聯(lián)系人、社交網(wǎng)絡(luò)、文本、搜索項、應(yīng)用命令、位置、對象或其它數(shù)據(jù)條目。
[0041]拼寫模型引擎304接收到用戶輸入302并通過使用自動化語音識別(ASR)組件或手寫轉(zhuǎn)換組件來將用戶輸入302轉(zhuǎn)換成查詢形式(即文本)來執(zhí)行模式識別。在一個實現(xiàn)中,針對一個或多個特定用戶的語音或手寫特性來定制拼寫模型引擎304。
[0042]用戶輸入302可能包含用戶差錯和/或系統(tǒng)差錯。用戶差錯包括但不限于誤拼寫、省略字符、添加字符或誤發(fā)音,而系統(tǒng)差錯包括但不限于模式識別(例如,語音或手寫識別)差錯。例如,用戶輸入302可包含省略或添加的字符、誤拼寫的字符序列和/或拼寫模型引擎304可能誤識別用戶輸入302中的字符。此外,音素混淆的字母(例如,B、P、V、D、E、T和C)可被合并到減小的字符集中以提高總體模式識別準(zhǔn)確性。
[0043]拼寫模型引擎304輸出包括一個或多個經(jīng)解碼的拼寫識別假設(shè)的模式識別結(jié)果306。模式識別結(jié)果306是被拼寫模型引擎304識別為用戶輸入302的字符。模式識別假設(shè)可以是例如對用戶輸入302的η個最佳概率識別的集合??赏ㄟ^根據(jù)與η個最佳概率識別中的每一個相關(guān)聯(lián)的概率或置信度的最小閾值來固定η,以限制該η個最佳概率識別。這些假設(shè)被用來從列舉數(shù)據(jù)庫中標(biāo)識一個或多個可能匹配。從可能匹配中識別出可具有可能歧義的拼寫字符表示序列。歧義可基于差錯,包括但不限于常見的誤拼寫字符序列、字符或字符序列發(fā)音相似性、字符替換、字符省略、字符添加以及替代的可能拼寫。在圖3所示的示例實現(xiàn)中,模式識別結(jié)果306包括具有歧義的拼寫字符表示序列“R-E-E-K”。拼寫字符表示序列中的歧義產(chǎn)生多個搜索鍵308,每一個搜索鍵308都包括字符序列。
[0044]為了解決可能歧義,將從模式識別結(jié)果306中生成的多個搜索鍵308輸入到搜索引擎310中,該搜索引擎310執(zhí)行模糊模式搜索以標(biāo)識超過相關(guān)性閾值的一個或多個可能匹配。在一個實現(xiàn)中,搜索引擎310是動態(tài)的,以使得模糊模式搜索在用戶提供用戶輸入302中的每一個字符時實時完成。在另一實現(xiàn)中,搜索引擎310在用戶提供用戶輸入302中的所有字符之后開始模糊模式搜索。
[0045]搜索引擎310將多個搜索鍵308與基于列舉數(shù)據(jù)庫來填充的搜索表中所包含的目標(biāo)項312的有限數(shù)據(jù)集進(jìn)行比較。列舉數(shù)據(jù)庫的數(shù)據(jù)包括但不限于詞典、社交網(wǎng)絡(luò)信息、文本消息、諸如玩家標(biāo)簽等游戲信息、應(yīng)用信息、電子郵件和聯(lián)系人列表。此外,列舉數(shù)據(jù)庫可包括定位數(shù)據(jù),包括但不限于對應(yīng)于不同區(qū)域、國家或語言的信息。每一個目標(biāo)項312都包括字符序列。在一個實現(xiàn)中,每一個目標(biāo)項312包括字符子序列的集合。字符子序列的集合包括具有多個相鄰字符的子序列,包括二元字符和三元字符。每一個字符子序列開始于目標(biāo)項的不同字符位置。
[0046]從模式識別結(jié)果306中生成多個搜索鍵308。多個搜索鍵308可包括多個相鄰字符,包括二元字符和三元字符。搜索引擎310還可從多個搜索鍵308中移除一個或多個字符。在一個實現(xiàn)中,從多個搜索鍵308中移除諸如標(biāo)點字符或單詞邊界等非字母數(shù)字字符。在一個實現(xiàn)中,音素混淆的字符(例如,B、P、V、D、E、T和C)可被合并到減小的搜索字符集中以考慮可能的模式誤識別。減小的搜索字符集準(zhǔn)許模式識別在不分離音素或圖形混淆的字符組的情況下執(zhí)行。在一個實現(xiàn)中,來自減小的搜索字符集的字符被來自該集合的另一字符替換,并且放松對該字符的識別以便進(jìn)一步包括該集合中的另一字符。例如,一般而言,無法可靠地區(qū)分字母“B”和字母“V”。為了將混淆字符合并到減小的搜索字符集中,用“B”來替換“V”,并且放松“V”的預(yù)期發(fā)音以便也包括“V”的發(fā)音。因此,可基于音素相似性來生成多個搜索鍵,音素相似性表示與說出的字符相關(guān)聯(lián)的聲音單元的相似性。或者,在手寫實現(xiàn)中,圖形混淆的字母可被合并到減小的搜索字符集中以考慮可能的圖案誤識別。可基于字符或字形來生成多個搜索鍵,字符或字形相似性表示與書寫的字符相關(guān)聯(lián)的外觀的相似性。
[0047]搜索引擎310通過基于多個搜索鍵308對每一個目標(biāo)項312進(jìn)行打分來執(zhí)行模糊模式搜索。在一個實現(xiàn)中,每一個目標(biāo)項312基于該目標(biāo)項是否匹配多個搜索鍵308中的至少一個來打分。目標(biāo)項312根據(jù)增加的相關(guān)性來打分和排名,該相關(guān)性與每一個目標(biāo)項312與模式識別結(jié)果306中的拼寫字符表示序列的相似性相關(guān)。例如,在固定長度的搜索鍵308出現(xiàn)在搜索字符序列312中的任何位置范圍內(nèi)或者固定長度的搜索鍵308開始于與目標(biāo)項312相同的初始字符位置的情況下,目標(biāo)項312的相關(guān)性值更高。另外,利用可特定于用戶的上下文信息來對目標(biāo)項312進(jìn)行打分和排名。
[0048]另外,可采用排名算法來基于搜索鍵308在目標(biāo)項312的搜索表數(shù)據(jù)集中的普遍性進(jìn)一步對目標(biāo)項312進(jìn)行打分和排名。例如,可使用術(shù)語頻率一逆文檔頻率(TF-1DF)排名算法,該算法基于搜索鍵308出現(xiàn)在目標(biāo)項312中的頻率來增加目標(biāo)項312的分?jǐn)?shù),并基于搜索鍵308出現(xiàn)在搜索表數(shù)據(jù)集中的所有目標(biāo)項312中的頻率來減少分?jǐn)?shù)。
[0049]搜索引擎310輸出包括目標(biāo)項312和對應(yīng)分?jǐn)?shù)的經(jīng)打分的搜索結(jié)果314。基于經(jīng)打分的搜索結(jié)果314中的目標(biāo)項312的分?jǐn)?shù),在相關(guān)性結(jié)果316中標(biāo)識滿足相關(guān)性閾值的一個或多個相關(guān)項。在一個實現(xiàn)中,標(biāo)識一個相關(guān)項并將其呈現(xiàn)給用戶。在另一實現(xiàn)中,標(biāo)識兩個或更多相關(guān)性并將其呈現(xiàn)給用戶以供選擇。用戶可以例如通過用戶命令來從所呈現(xiàn)的相關(guān)項中選擇所意指的字符序列,該用戶命令包括但不限于口頭命令、姿勢、按壓按鈕和使用選擇器工具。在圖3所示的示例實現(xiàn)中,將在相關(guān)性結(jié)果316中的“Creek”標(biāo)識為相關(guān)項。
[0050]圖4示出了六個示例列舉數(shù)據(jù)庫源的示例實現(xiàn)。在一個實現(xiàn)中,列舉數(shù)據(jù)庫402包括從社交網(wǎng)絡(luò)404、游戲信息406、文本消息408、聯(lián)系人列表410、電子郵件412和詞典414輸入的信息。然而,構(gòu)想諸如應(yīng)用信息和因特網(wǎng)等其它源。此外,列舉數(shù)據(jù)庫402可包括定位數(shù)據(jù),包括但不限于對應(yīng)于不同區(qū)域、國家或語言的信息。定位數(shù)據(jù)可被結(jié)合到列舉數(shù)據(jù)庫402源中的一個或多個中。在一個實現(xiàn)中,針對一個或多個特定用戶定制列舉數(shù)據(jù)庫402。例如,來自社交網(wǎng)絡(luò)404、游戲信息406、文本消息408、聯(lián)系人列表410和電子郵件412的數(shù)據(jù)全都可包含一個或多個特定用戶的個人信息。因此,列舉數(shù)據(jù)庫402中的字符序列是針對一個或多個特定用戶定制的。在另一實現(xiàn)中,列舉數(shù)據(jù)庫402隨著列舉數(shù)據(jù)庫402源中的一個或多個中的數(shù)據(jù)改變而動態(tài)更新。
[0051]列舉數(shù)據(jù)庫402被用來訓(xùn)練用于語音識別操作的統(tǒng)計語言模型(SLM)并且用目標(biāo)項和對應(yīng)的上下文信息來填充搜索表。目標(biāo)項可包括但不限于字母數(shù)字字符(例如,字母A到Z以及數(shù)字O到9)、標(biāo)點字符、控制字符(例如,換行字符)、數(shù)學(xué)字符、字符子序列(例如,單詞和術(shù)語)以及其它符號。在一個實現(xiàn)中,目標(biāo)項可對應(yīng)于搜索項、單詞或其它數(shù)據(jù)條目的拼寫實例。在另一實現(xiàn)中,目標(biāo)項基于針對特定用戶定制的信息。
[0052]每一個目標(biāo)項都包括字符序列集。在一個實現(xiàn)中,字符序列集包括具有多個相鄰字符的子序列,包括二元字符和三元字符。每一個字符子序列開始于字符序列的不同字符位置。每一個目標(biāo)項根據(jù)字符序列集和對應(yīng)的上下文信息來索引。
[0053]圖5示出了使用模糊模式搜索的拼寫的示例操作500。在一個實現(xiàn)中,操作500由軟件執(zhí)行。然而,構(gòu)想其它實現(xiàn)。 [0054]在接收操作502期間,多媒體系統(tǒng)接收拼寫查詢。在一個實現(xiàn)中,用戶經(jīng)由用戶接口向多媒體系統(tǒng)提供輸入。用戶輸入可以是包括單詞、音素或音素片段的一個或多個字符序列形式的口頭輸入。另外,用戶輸入可以是手寫形式的字符序列。此外,用戶輸入可以是經(jīng)由虛擬鍵盤輸入的字符序列。字符序列可包括但不限于字母數(shù)字字符(例如,字母A到Z以及數(shù)字O到9)、標(biāo)點字符、控制字符(例如,換行字符)、數(shù)學(xué)字符、字符子序列(例如,單詞和術(shù)語)以及其它符號。在一個實現(xiàn)中,字符序列可對應(yīng)于搜索項、單詞或其它數(shù)據(jù)條目的拼與實例。
[0055]在接收操作502期間,多媒體系統(tǒng)接收到用戶輸入,并使用例如自動化語音識別(ASR)組件或手寫轉(zhuǎn)換組件來將該用戶輸入轉(zhuǎn)換成拼寫查詢(即文本)。拼寫查詢可能包含用戶差錯和/或系統(tǒng)差錯。用戶差錯包括但不限于誤拼寫、省略字符、添加字符或誤發(fā)音,而系統(tǒng)差錯包括但不限于語音或手寫識別差錯。
[0056]識別操作504執(zhí)行對在接收操作502期間接收到的拼寫查詢的模式識別。識別操作504返回一個或多個經(jīng)解碼的拼寫識別假設(shè),該一個或多個經(jīng)解碼的拼寫識別假設(shè)是被多媒體系統(tǒng)識別為用戶輸入的拼寫輸入字符序列的字符。拼寫識別假設(shè)可以是例如對拼寫輸入字符序列的η個最佳概率識別的集合。可通過根據(jù)與η個最佳概率識別中的每一個相關(guān)聯(lián)的概率或置信度的最小閾值來固定η,以限制該η個最佳概率識別。這些假設(shè)被用來從列舉數(shù)據(jù)庫中標(biāo)識一個或多個可能匹配。從這些可能匹配中識別出拼寫字符表示序列。拼寫字符表示序列可具有可能的歧義。歧義可基于用戶和/或系統(tǒng)差錯,包括但不限于常見的誤拼寫字符序列、字符發(fā)音相似性、字符替換、字符省略、字符添加、替代的可能拼寫。拼寫字符表示序列中的歧義產(chǎn)生多個搜索鍵,每一個搜索鍵都包括字符序列。
[0057]搜索操作506將多個搜索鍵與基于列舉數(shù)據(jù)庫來填充的搜索表中所包含的目標(biāo)項的有限數(shù)據(jù)集進(jìn)行比較。列舉數(shù)據(jù)庫的數(shù)據(jù)包括但不限于詞典、社交網(wǎng)絡(luò)信息、文本消息、諸如玩家標(biāo)簽等游戲信息、應(yīng)用信息、電子郵件和聯(lián)系人列表。此外,列舉數(shù)據(jù)庫可包括定位數(shù)據(jù),包括但不限于對應(yīng)于不同區(qū)域、國家或語言的信息。每一個目標(biāo)項都包括字符序列。在一個實現(xiàn)中,每一個目標(biāo)項包括字符子序列的集合。字符子序列的集合包括具有多個相鄰字符的子序列,包括二元字符和三元字符。每一個字符子序列開始于目標(biāo)項的不同字符位置。
[0058]從識別操作504的結(jié)果中生成多個搜索鍵。搜索鍵可包括多個相鄰字符,包括二元字符和三元字符??梢詮亩鄠€搜索鍵中移除一個或多個字符。在一個實現(xiàn)中,從多個搜索鍵中移除諸如標(biāo)點字符或單詞邊界等非字母數(shù)字字符。此外,在一個實現(xiàn)中,音素混淆的字母丨例如^^^^^^和C)可被合并到減小的搜索字符集中以考慮搜索操作506期間的可能的模式誤識別。減小的搜索字符集準(zhǔn)許模式識別在不分離音素或圖形混淆的字符組的情況下執(zhí)行。在一個實現(xiàn)中,來自減小的搜索字符集的字符被來自該集合的另一字符替換,并且放松對該字符的識別以便進(jìn)一步包括該集合中的另一字符。例如,一般而言,無法可靠地區(qū)分字母“B”和字母“V”。為了將混淆字符合并到減小的搜索字符集中,用“B”來替換“V”,并且放松“V”的預(yù)期發(fā)音以便也包括“V”的發(fā)音。因此,可基于音素相似性來生成多個搜索鍵。
[0059]打分操作508基于多個搜索鍵來對每一個目標(biāo)項進(jìn)行打分和排名。在一個實現(xiàn)中,每一個目標(biāo)項基于該目標(biāo)項是否匹配多個搜索鍵中的至少一個來打分。打分操作508根據(jù)增加的相關(guān)性來進(jìn)行打分和排名,該相關(guān)性與每一個目標(biāo)項與拼寫字符表示序列的相似性相關(guān)。因此,打分操作508可利用可特定于用戶的上下文信息來對目標(biāo)項進(jìn)行排名。在一個實現(xiàn)中,搜索操作506和打分操作508是同時執(zhí)行的,以使得在將多個搜索鍵與每一個目標(biāo)項進(jìn)行比較時對目標(biāo)項進(jìn)行打分和排名。
[0060]基于目標(biāo)項的分?jǐn)?shù),在檢索操作510中檢索超過相關(guān)性閾值的一個或多個相關(guān)項。在一個實現(xiàn)中,在呈現(xiàn)操作512期間,經(jīng)由用戶界面向用戶呈現(xiàn)一個相關(guān)項。在另一實現(xiàn)中,呈現(xiàn)操作512向用戶呈現(xiàn)兩個或更多相關(guān)項以供選擇。用戶可以例如通過用戶命令來從所呈現(xiàn)的相關(guān)項中選擇所意指的字符序列,該用戶命令包括但不限于口頭命令、姿勢、按壓按鈕和使用選擇器工具。
[0061]在一個實現(xiàn)中,操作500是動態(tài)的,以使得操作500在用戶在接收操作502期間提供每一個字符時實時完成,并且操作500對每一個字符迭代。在另一實現(xiàn)中,操作500在用戶在接收操作502期間提供用戶輸入中的所有字符之后開始。
[0062]圖6示出了可在拼寫識別、搜索和分析系統(tǒng)610中使用的捕捉設(shè)備618的示例實現(xiàn)。根據(jù)一個示例實現(xiàn),捕捉設(shè)備618被配置成捕捉具有包括一個或多個口述單詞或字符序列的語言信息的聲音。根據(jù)另一示例實現(xiàn),捕捉設(shè)備618被配置成捕捉具有包括一個或多個手寫單詞或字符序列的語言信息的手寫樣本。
[0063]捕捉設(shè)備618可包括話筒630,該話筒包括可以接收聲音并將其轉(zhuǎn)換成電信號的換能器或傳感器。話筒630被用來減少語言識別、搜索和分析系統(tǒng)610中的捕捉設(shè)備618和計算環(huán)境612之間的反饋。話筒630被用來接收用戶提供以控制諸如游戲場合、非游戲應(yīng)用等應(yīng)用或者輸入可以在計算環(huán)境612中執(zhí)行的數(shù)據(jù)的音頻信號。
[0064]在一個實現(xiàn)中,捕捉設(shè)備618可以在操作上與觸敏顯示器、掃描儀或其它設(shè)備通信以經(jīng)由手寫輸入組件620來捕捉手寫輸入(未示出)。觸摸輸入組件620被用來接收用戶提供的手寫輸入并將該手寫輸入轉(zhuǎn)換成電信號以控制應(yīng)用或輸入可以在計算環(huán)境612中執(zhí)行的數(shù)據(jù)。在另一實現(xiàn)中,捕捉設(shè)備618可采用圖像相機(jī)組件622來捕捉手寫樣本。
[0065]捕捉設(shè)備618還可被配置成經(jīng)由任何合適的技術(shù)(包括例如飛行時間、結(jié)構(gòu)化光、立體圖像等)來捕捉帶有包括深度圖像的深度信息的視頻,該深度圖像可包括深度值。根據(jù)一個實現(xiàn),捕捉設(shè)備618可將計算出的深度信息組織為“Z層”或垂直于從深度相機(jī)沿其視線延伸的Z軸的層,但可采用其它實現(xiàn)。
[0066]根據(jù)一個示例實現(xiàn),圖像相機(jī)組件622包括捕捉場景的深度圖像的深度相機(jī)。示例深度圖像包括捕捉到的場景的二維(2-D)像素區(qū)域,其中2-D像素區(qū)域中的每一個像素都可以表示捕捉到的場景中的對象離相機(jī)的距離。根據(jù)另一示例實現(xiàn),捕捉設(shè)備618包括兩個或更多物理上分開的相機(jī),這些相機(jī)可從不同角度查看場景以獲取視覺立體數(shù)據(jù),該視覺立體數(shù)據(jù)可被解析以生成深度信息。
[0067]圖像相機(jī)組件622包括IR光組件624、三維(3-D)相機(jī)626和RGB相機(jī)628。例如,在飛行時間分析中,捕捉設(shè)備618的IR光組件624可將紅外光發(fā)射到場景上,并且隨后使用傳感器(未不出),用例如3-D相機(jī)626和/或RGB相機(jī)628來檢測從場景中的一個或多個目標(biāo)和物體的表面反向散射的光。在一些實現(xiàn)中,可以使用脈沖紅外光,以使得可以測量出射光脈沖與相應(yīng)入射光脈沖之間的時間,并且將其用于確定從捕捉設(shè)備618到場景中的目標(biāo)或物體上的特定位置的物理距離。另外,在其他示例實現(xiàn)中,可將出射光波的相位與入射光波的相位進(jìn)行比較來確定相移。然后可以使用該相移來確定從捕捉設(shè)備618到場景中的目標(biāo)或物體上的特定位置的物理距離。
[0068]根據(jù)另一示例實現(xiàn),飛行時間分析可被用來通過經(jīng)由包括例如快門式光脈沖成像在內(nèi)的各種技術(shù)分析反射光束隨時間的強(qiáng)度來直接確定從捕捉設(shè)備618到場景中的目標(biāo)或物體上的特定位置的物理距離。
[0069]在另一示例實現(xiàn)中,捕捉設(shè)備618使用結(jié)構(gòu)化光來捕捉深度信息。在此類分析中,圖案化光(例如,被投影為諸如網(wǎng)格圖案或條紋圖案之類的已知圖案的光河經(jīng)由例如IR光組件624投影到場景上。在打到場景中的一個或多個目標(biāo)或物體的表面上以后,作為響應(yīng),圖案可以變?yōu)樽冃蔚?。圖案的這種變形然后由例如3-D相機(jī)626和/或RGB相機(jī)628來捕捉并被分析以確定從捕捉設(shè)備到場景中的目標(biāo)或物體上的特定位置的物理距離。
[0070]在一示例實現(xiàn)中,捕捉設(shè)備618還包括在操作上與話筒630、觸摸輸入組件620、圖像相機(jī)組件622通信的處理器632。處理器632可包括執(zhí)行處理器可讀指令的標(biāo)準(zhǔn)化處理器、專用處理器、微處理器等,處理器可讀指令包括但不限于用于接收諸如單詞或拼寫查詢等語言信息或者用于執(zhí)行語音和/或手寫識別的指令。處理器632還可執(zhí)行用于姿勢識別的處理器可讀指令,包括但不限于用于接收深度圖像、確定合適的目標(biāo)是否可能被包括在該深度圖像中或者用于將合適的目標(biāo)轉(zhuǎn)換成目標(biāo)的骨架表示或模型的指令。然而,處理器632可包括任何其它合適的指令。
[0071]捕捉設(shè)備618還可包括存儲供處理器632執(zhí)行的指令、聲音和/或一系列聲音和手寫數(shù)據(jù)的存儲器組件634。存儲器組件還可存儲任何其它合適的信息,包括但不限于由3-D相機(jī)626或RGB相機(jī)628捕捉的圖像和/或圖像幀。根據(jù)一示例實現(xiàn),存儲器組件634可包括隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、高速緩存存儲器、閃存、硬盤、或任何其他合適的存儲組件。在一個實現(xiàn)中,存儲器組件634可以是與處理器632和話筒630、觸摸輸入組件620和/或圖像捕捉組件622通信的單獨(dú)組件。根據(jù)另一實現(xiàn),存儲器組件634可被集成到處理器632、話筒630、觸摸輸入組件620和/或圖像捕捉組件622中。
[0072]捕捉設(shè)備618經(jīng)由通信鏈接636來向計算環(huán)境612提供話筒630和/或觸摸輸入組件620捕捉到的語言信息、聲音和手寫輸入。該計算環(huán)境使用語言信息和捕捉到的聲音和/或手寫輸入來例如識別用戶單詞或字符序列,并且作為響應(yīng)控制諸如游戲或文字處理程序等應(yīng)用或者從數(shù)據(jù)庫中檢索搜索結(jié)果。計算環(huán)境612包括語言識別器引擎614。在一個實現(xiàn)中,語言識別器引擎614包括字符序列和對應(yīng)的上下文信息的有限數(shù)據(jù)庫??蓪⒃捦?30和/或觸摸輸入組件620捕捉到的語言信息與語言識別器引擎614中的字符序列的數(shù)據(jù)庫進(jìn)行比較,以標(biāo)識用戶何時口述和/或手寫一個或多個單詞或字符序列。這些單詞或字符序列可與應(yīng)用的各種應(yīng)用的控制相關(guān)聯(lián)。由此,計算環(huán)境612使用語言識別器引擎614來解釋語言信息并基于該語言信息來控制應(yīng)用。
[0073]因此,計算環(huán)境612還可包括姿勢識別器引擎616。姿勢識別器引擎616包括姿勢過濾器集合,每一姿勢過濾器包括關(guān)于骨架模型(在用戶移動時)可執(zhí)行的姿勢的信息??蓪⒂上鄼C(jī)626、628和捕捉設(shè)備618捕捉的骨架模型以及與其相關(guān)聯(lián)的移動形式的數(shù)據(jù)與姿勢過濾器和姿勢識別器引擎616進(jìn)行比較,以標(biāo)識用戶(如骨架模型所表示的)何時執(zhí)行了一個或多個姿勢。因此,捕捉設(shè)備618通過通信鏈路636向計算環(huán)境612提供深度信息和由例如3-D相機(jī)626和/或RGB相機(jī)628捕捉到的圖像以及由捕捉設(shè)備618生成的骨架模型。計算環(huán)境612然后使用骨架模型、深度信息和捕捉到的圖像來例如識別用戶姿勢,并且作為響應(yīng)控制應(yīng)用或從呈現(xiàn)給用戶的一個或多個相關(guān)項中選擇所意指的字符序列。
[0074]圖7示出可用于解釋拼寫識別、搜索和分析系統(tǒng)中的一個或多個字符序列的計算環(huán)境的示例實現(xiàn)。計算環(huán)境可被實現(xiàn)為多媒體控制臺700。多媒體控制臺700包括具有一級高速緩存702、二級高速緩存704和閃存ROM (只讀存儲器)706的中央處理單元(CPU)701。一級高速緩存702和二級高速緩存704臨時存儲數(shù)據(jù),并且因此減少存儲器訪問周期的數(shù)量,由此改進(jìn)處理速度和吞吐量。CPU701可被提供為具有一個以上的核,并且由此具有附加的一級高速緩存和二級高速緩存。閃速R0M706可存儲在多媒體控制臺700通電時在弓I導(dǎo)過程初始化階段加載的可執(zhí)行代碼。
[0075]圖形處理單元(GPU) 708和視頻編碼器/視頻編解碼器(編碼器/解碼器)714形成用于高速和高分辨率圖形處理的視頻處理流水線。經(jīng)由總線從GPU708向視頻編碼器/視頻編解碼器714運(yùn)送數(shù)據(jù)。視頻處理流水線向A/V (音頻/視頻)端口 740輸出數(shù)據(jù),用于傳輸至電視機(jī)或其他顯示器。存儲器控制器710連接到GPU708以方便處理器訪問各種類型的存儲器712,諸如但不局限于RAM (隨機(jī)存取存儲器)。
[0076]多媒體控制臺700包括在模塊718中實現(xiàn)的I/O控制器720、系統(tǒng)管理控制器722、音頻處理單元723、網(wǎng)絡(luò)接口控制器724、第一 USB主控制器726、第二 USB控制器728和前面板I/O子部件730。USB控制器726和728用作外圍控制器742和754、無線適配器748和外置存儲器單元746 (例如閃存、外置⑶/DVD ROM驅(qū)動器、可移動存儲介質(zhì)等)的主機(jī)。網(wǎng)絡(luò)接口控制器724和/或無線適配器748提供對網(wǎng)絡(luò)(例如,因特網(wǎng)、家庭網(wǎng)絡(luò)等)的訪問并且可以是包括以太網(wǎng)卡、調(diào)制解調(diào)器、藍(lán)牙模塊、電纜調(diào)制解調(diào)器等各種不同的有線和無線適配器組件中任一種。
[0077]系統(tǒng)存儲器743被配置成存儲在引導(dǎo)過程期間加載的應(yīng)用數(shù)據(jù)。在一示例實現(xiàn)中,拼寫識別器引擎、搜索引擎以及其它引擎和服務(wù)可由存儲在系統(tǒng)存儲器743中的指令來體現(xiàn)并由CPU701來處理。搜索表數(shù)據(jù)庫、捕捉到的語音和/或拼寫、手寫數(shù)據(jù)、拼寫模型、拼寫信息、模式識別結(jié)果(例如,語音識別結(jié)果和/或手寫識別結(jié)果)、圖像、姿勢識別結(jié)果和其它數(shù)據(jù)可被存儲在系統(tǒng)存儲器743中。
[0078]應(yīng)用數(shù)據(jù)可經(jīng)由媒體驅(qū)動器744訪問,以供多媒體控制臺700執(zhí)行、回放等。媒體驅(qū)動器744可包括CD/DVD驅(qū)動器、硬盤驅(qū)動器、或其他可移動媒體驅(qū)動器等,并且媒體驅(qū)動器744可以是對多媒體控制器700內(nèi)置的或外置的。媒體驅(qū)動器744經(jīng)由諸如串行ATA總線或其他高速連接(例如IEEE1394)等總線連接到I/O控制器720。
[0079]系統(tǒng)管理控制器722提供與確保多媒體控制臺700的可用性相關(guān)的各種服務(wù)功能。音頻處理單元723和音頻編解碼器732形成具有高保真度和立體聲處理的相應(yīng)音頻處理流水線。音頻數(shù)據(jù)經(jīng)由通信鏈路在音頻處理單元723與音頻編解碼器732之間傳輸。音頻處理流水線將數(shù)據(jù)輸出到A/V端口 740,以供外置音頻播放器或具有音頻能力的設(shè)備再現(xiàn)。
[0080]前面板I/O子部件730支持暴露在多媒體控制臺700的外表面上的電源按鈕750和彈出按鈕752以及任何LED (發(fā)光二極管)或其它指示器的功能。系統(tǒng)供電模塊736為多媒體控制臺700的各個組件供電,而風(fēng)扇738冷卻多媒體控制臺700內(nèi)的電路。
[0081]多媒體控制臺700內(nèi)的CPU701、GPU708、存儲器控制器710、以及各種其他組件經(jīng)由一條或多條總線互連,該總線包括串行和并行總線、存儲器總線、外圍總線和/或使用各種總線架構(gòu)中的任一種的處理器或局部總線。作為示例,這些總線架構(gòu)可以包括但不限于外圍部件互連(PCI)總線、PC1-Express總線等。
[0082]當(dāng)多媒體控制臺700通電時,應(yīng)用數(shù)據(jù)可從系統(tǒng)存儲器743加載到存儲器712和/或高速緩存702、704中并在CPU701上執(zhí)行。應(yīng)用可在導(dǎo)航到多媒體控制臺700上可用的不同媒體類型時呈現(xiàn)提供一致的用戶界面的圖形用戶界面。在操作中,媒體驅(qū)動器744中所包含的應(yīng)用和/或其他媒體可從媒體驅(qū)動器744啟動和/或播放,以將附加功能提供給多媒體控制臺700。
[0083]多媒體控制臺700可通過簡單地將該系統(tǒng)連接到電視機(jī)或其他顯示器而作為獨(dú)立系統(tǒng)來操作。在該獨(dú)立模式中,多媒體控制臺700允許一個或多個用戶與該系統(tǒng)交互、看電影、或聽音樂。然而,隨著通過網(wǎng)絡(luò)接口控制器724或無線適配器748可用的寬帶連接的集成,多媒體控制臺700還可作為較大網(wǎng)絡(luò)社區(qū)中的參與者來操作。
[0084]當(dāng)多媒體控制臺700通電時,可以保留限定量的硬件資源以供多媒體控制臺操作系統(tǒng)使用。這些資源可以包括存儲器保留(例如,16MB)、CPU和GPU周期保留(例如,5% )、網(wǎng)絡(luò)帶寬保留(例如,8kbs)等。因為這些資源是在系統(tǒng)引導(dǎo)時保留的,所以所保留的資源無法供應(yīng)用使用。存儲器保留可以是足夠大以包含啟動內(nèi)核、并發(fā)系統(tǒng)應(yīng)用和驅(qū)動程序。CPU保留可以是恒定的,從而使得如果所保留的CPU用量不被系統(tǒng)應(yīng)用返回,則空閑線程將消耗任何未使用的周期。
[0085]對于GPU保留,通過使用調(diào)度代碼來將彈出窗口呈現(xiàn)為覆蓋圖的GPU中斷來顯示由系統(tǒng)應(yīng)用程序生成的輕量消息(例如,彈出窗口)。覆蓋所需的存儲器量取決于覆蓋區(qū)域大小,并且覆蓋可隨屏幕分辨率而縮放。在并發(fā)系統(tǒng)應(yīng)用使用完整用戶界面的情況下,分辨率可以獨(dú)立于應(yīng)用分辨率。定標(biāo)器(scaler)可用于設(shè)置該分辨率,從而消除對改變頻率并引起TV重新同步的需求。
[0086]在多媒體控制臺700引導(dǎo)且系統(tǒng)資源被保留之后,執(zhí)行并發(fā)系統(tǒng)應(yīng)用來提供系統(tǒng)功能。系統(tǒng)功能被封裝在上述所保留的系統(tǒng)資源內(nèi)執(zhí)行的一組系統(tǒng)應(yīng)用中。操作系統(tǒng)內(nèi)核標(biāo)識出作為系統(tǒng)應(yīng)用線程而非游戲應(yīng)用線程的線程。系統(tǒng)應(yīng)用可被調(diào)度為在預(yù)定時間并以預(yù)定時間間隔在CPU701上運(yùn)行,來為應(yīng)用提供一致的系統(tǒng)資源視圖。調(diào)度最小化針對在多媒體控制臺700上運(yùn)行的游戲應(yīng)用的高速緩存中斷。
[0087]當(dāng)并發(fā)系統(tǒng)應(yīng)用需要音頻時,由于時間敏感性而將音頻處理異步地調(diào)度給游戲應(yīng)用。多媒體控制臺應(yīng)用管理器(如下所描述的)在系統(tǒng)應(yīng)用活動時控制游戲應(yīng)用的音頻級別(例如,靜音、衰減)。
[0088]輸入設(shè)備(例如,控制器742和754)由游戲應(yīng)用和系統(tǒng)應(yīng)用共享。在一實現(xiàn)中,輸入設(shè)備不是所保留的資源,但卻在系統(tǒng)應(yīng)用和游戲應(yīng)用之間切換以使其各自具有設(shè)備的焦點。應(yīng)用管理器較佳地控制輸入流的切換,且驅(qū)動程序維護(hù)關(guān)于焦點切換的狀態(tài)信息。話筒、相機(jī)和其它捕捉設(shè)備可定義用于多媒體控制臺700的附加輸入設(shè)備。
[0089]圖8示出了可以對實現(xiàn)所描述的技術(shù)有用的示例系統(tǒng)。圖8的用于實現(xiàn)所述技術(shù)的示例硬件和操作環(huán)境包括游戲控制臺、多媒體控制臺或計算機(jī)20形式的一般用途計算設(shè)備之類的計算設(shè)備、移動電話、個人數(shù)據(jù)助理(PDA)、機(jī)頂盒或其他類型的計算設(shè)備。例如,在圖8的實現(xiàn)中,計算機(jī)20包括處理單元21、系統(tǒng)存儲器22,以及將包括系統(tǒng)存儲器的各種系統(tǒng)組件連接到處理單元21的系統(tǒng)總線23??梢杂兄挥幸粋€或可以有一個以上的處理單元21,以便計算機(jī)20的處理器包括單一中央處理單元(CPU),或常常被稱為并行處理環(huán)境的多個處理單元。計算機(jī)20可以是常規(guī)計算機(jī)、分布式計算機(jī)、或者任何其它類型的計算機(jī),本發(fā)明不限于此。
[0090]系統(tǒng)總線23可以是若干類型的總線結(jié)構(gòu)中的任何一種,包括使用各種總線體系結(jié)構(gòu)中的任何一種的存儲器總線或存儲器控制器、外圍總線,切換結(jié)構(gòu)、點到點連接,以及局部總線。系統(tǒng)存儲器也可以簡稱為存儲器,并包括只讀存儲器(ROM) 24和隨機(jī)存取存儲器(RAM)25。基本輸入/輸出系統(tǒng)(BIOS)26通常存儲在R0M24中,包含了諸如在啟動過程中幫助在計算機(jī)20內(nèi)的元件之間傳輸信息的基本例程。計算機(jī)20還包括用于對硬盤(未示出)進(jìn)行讀寫的硬盤驅(qū)動器27、用于對可移動磁盤29進(jìn)行讀寫的磁盤驅(qū)動器28、以及用于對可移動光盤31,如⑶-ROM、DVD或其它光介質(zhì)進(jìn)行讀寫的光盤驅(qū)動器30。
[0091]硬盤驅(qū)動器27、磁盤驅(qū)動器28,以及光盤驅(qū)動器30分別通過硬盤驅(qū)動器接口 32、磁盤驅(qū)動器接口 33,以及光盤驅(qū)動器接口 34連接到系統(tǒng)總線23。驅(qū)動器以及它們相關(guān)聯(lián)的計算機(jī)可讀介質(zhì)為計算機(jī)20提供了計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序引擎,及其他數(shù)據(jù)的非易失存儲器。本領(lǐng)域的技術(shù)人員應(yīng)該理解,諸如磁帶盒、閃存卡、數(shù)字視盤、隨機(jī)訪問存儲器(RAM)、只讀存儲器(ROM)等等之類的可以存儲可被計算機(jī)訪問的數(shù)據(jù)的任何類型的計算機(jī)可讀介質(zhì),也可以用于示例操作環(huán)境中。
[0092]可以有若干個程序引擎存儲在硬盤、磁盤29、光盤31、R0M24,和/或RAM25上,包括操作系統(tǒng)35、一個或多個應(yīng)用程序36、其他程序引擎37、以及程序數(shù)據(jù)38。用戶可以通過諸如鍵盤40和定向設(shè)備42之類的輸入設(shè)備向個人計算機(jī)20中輸入命令和信息。其他輸入設(shè)備(未示出)可包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等。這些及其他輸入設(shè)備常常通過耦合到系統(tǒng)總線的串行端口接口 46連接到處理單元21,但是,也可以通過其他接口,如并行端口、游戲端口、通用串行總線(USB )端口、來進(jìn)行連接。監(jiān)視器47或其他類型的顯示設(shè)備也可以通過諸如視頻適配器48之類的接口來連接到系統(tǒng)總線23。除了監(jiān)視器之外,計算機(jī)還通常包括其他外圍輸出設(shè)備(未示出),如揚(yáng)聲器和打印機(jī)。
[0093]計算機(jī)20可以使用到一個或多個遠(yuǎn)程計算機(jī)(如遠(yuǎn)程計算機(jī)49)的邏輯連接,在聯(lián)網(wǎng)環(huán)境中操作。這些邏輯連接由耦合至或者作為計算機(jī)20—部分的通信設(shè)備來實現(xiàn);本發(fā)明不限于特定類型的通信設(shè)備。遠(yuǎn)程計算機(jī)49可以是另一計算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、客戶機(jī)、對等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點,并通常包括上文參考計算機(jī)20所描述的許多或全部元件,雖然在圖8中只示出了存儲器存儲設(shè)備50。圖8中所描繪的邏輯連接包括局域網(wǎng)(LAN)51和廣域網(wǎng)(WAN)52。這樣的網(wǎng)絡(luò)環(huán)境在辦公室網(wǎng)絡(luò)、企業(yè)范圍的計算機(jī)網(wǎng)絡(luò)、內(nèi)部網(wǎng)和因特網(wǎng)(它們都是各種網(wǎng)絡(luò))中是普遍現(xiàn)象。[0094]當(dāng)用于LAN網(wǎng)絡(luò)環(huán)境中時,計算機(jī)20通過網(wǎng)絡(luò)接口或適配器53 (這是一種通信設(shè)備)連接到局域網(wǎng)51。當(dāng)用于WAN網(wǎng)絡(luò)環(huán)境中時,計算機(jī)20通常包括調(diào)制解調(diào)器54、網(wǎng)絡(luò)適配器(一種通信設(shè)備),或用于通過廣域網(wǎng)52建立通信的任何其他類型的通信設(shè)備?;驗閮?nèi)置或為外置的調(diào)制解調(diào)器54經(jīng)由串行端口接口 46連接到系統(tǒng)總線23。在聯(lián)網(wǎng)環(huán)境中,參考個人計算機(jī)20所描述的程序引擎,或其某些部分,可以存儲在遠(yuǎn)程存儲器存儲設(shè)備中??梢岳斫猓境龅木W(wǎng)絡(luò)連接只是示例,也可以使用用于在計算機(jī)之間建立通信鏈路的其他裝置和通信設(shè)備。
[0095]在一示例實現(xiàn)中,拼寫識別器引擎、搜索引擎以及其它引擎和服務(wù)可由存儲在存儲器22和/或存儲設(shè)備29或31中并由處理單元21處理的指令來具體化。搜索表數(shù)據(jù)庫、捕捉到的語音和/或拼寫、手寫數(shù)據(jù)、拼寫模型、拼寫信息、模式識別結(jié)果(例如,拼寫識別結(jié)果和/或手寫識別結(jié)果)、圖像、姿勢識別結(jié)果和其它數(shù)據(jù)可被存儲在存儲器22和/或作為持久數(shù)據(jù)存儲的存儲設(shè)備29或31中。
[0096]在此所述的本發(fā)明的實施例可以實現(xiàn)為一個或多個計算機(jī)系統(tǒng)中的邏輯步驟。本發(fā)明的邏輯操作可被實現(xiàn)為:(I)在一個或多個計算機(jī)系統(tǒng)中執(zhí)行的處理器實現(xiàn)的步驟的序列;以及(2) —個或多個計算機(jī)系統(tǒng)內(nèi)的互連機(jī)器或電路引擎。該實現(xiàn)是取決于實現(xiàn)本發(fā)明的計算系統(tǒng)的性能要求的選擇問題。因此,構(gòu)成此處所描述的本發(fā)明的實施例的邏輯操作被不同地稱為操作、步驟、對象或引擎。此外,還應(yīng)該理解,邏輯操作也可以以任何順序執(zhí)行,除非明確地聲明,或者由權(quán)利要求語言固有地要求特定的順序。
[0097]上面的說明、示例和數(shù)據(jù)提供了對本發(fā)明的示例性實施例的結(jié)構(gòu)和使用的完整的描述。因為可以在不背離本發(fā)明的精神和范圍的情況下做出本發(fā)明的許多實施例,所以本發(fā)明落在所附權(quán)利要求的范圍內(nèi)。此外,不同實施例的結(jié)構(gòu)特征可以與另一實施例相組合而不偏離所記載的權(quán)利要求書。
【權(quán)利要求】
1.一種方法,包括: 識別拼寫字符表示序列,所述拼寫字符表示序列具有產(chǎn)生多個搜索鍵的可能歧義;基于所述多個搜索鍵來對來自目標(biāo)項的有限數(shù)據(jù)集的一個或多個目標(biāo)項進(jìn)行打分,每一個目標(biāo)項包括字符序列;以及 從經(jīng)打分的目標(biāo)項中的標(biāo)識一個或多個相關(guān)項,每一個相關(guān)項滿足相關(guān)性閾值。
2.如權(quán)利要求1所述的方法,其特征在于,所述多個搜索鍵基于音素相似性來生成。
3.如權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)項基于針對特定用戶定制的信息。
4.如權(quán)利要求1所述的方法,其特征在于,所述可能歧義基于用戶差錯。
5.如權(quán)利要求1所述的方法,其特征在于,所述多個搜索鍵中的至少一個中的一個或多個字符被合并到減小的搜索字符集中。
6.如權(quán)利要求1所述的方法,其特征在于,所述可能歧義基于系統(tǒng)差錯。
7.如權(quán)利要求1所述的方法,其特征在于,所述拼寫字符表示序列是從口述拼寫序列中識別出的。
8.—種或多種存儲計算機(jī)可執(zhí)行指令的有形計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可執(zhí)行指令用于在計算系統(tǒng)上執(zhí)行一種計算機(jī)過程,所述計算機(jī)過程包括: 識別拼寫字符表示序列,所述拼寫字符表示序列具有產(chǎn)生多個搜索鍵的可能歧義; 基于所述多個搜索鍵來對來自目標(biāo)項的有限數(shù)據(jù)集的一個或多個目標(biāo)項進(jìn)行打分;以及 從經(jīng)打分的目標(biāo)項中標(biāo)識一個或多個相關(guān)項,每一個相關(guān)項滿足相關(guān)性閾值。
9.一種拼寫搜索系統(tǒng),包括: 被配置成接收拼寫查詢的用戶接口; 拼寫識別器引擎,所述拼寫識別器引擎被配置成從所述拼寫查詢中識別字符表示序列,所述序列具有產(chǎn)生多個搜索鍵的可能歧義;以及 搜索引擎,所述搜索引擎被配置成基于所述多個搜索鍵來對來自目標(biāo)項的有限數(shù)據(jù)集的一個或多個目標(biāo)項進(jìn)行打分,經(jīng)打分的目標(biāo)項被用來標(biāo)識滿足相關(guān)性閾值的一個或多個相關(guān)項。
10.如權(quán)利要求9所述的拼寫搜索系統(tǒng),其特征在于,所述多個搜索鍵基于音素相似性來生成。
【文檔編號】G10L15/08GK103608859SQ201280029332
【公開日】2014年2月26日 申請日期:2012年6月10日 優(yōu)先權(quán)日:2011年6月14日
【發(fā)明者】Y-C·居, I·J·塔舍夫, X·李, D·霍金斯, T·索米歐, M·H·金 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
株洲市| 山阴县| 聂拉木县| 阜宁县| 额尔古纳市| 仙桃市| 凯里市| 西充县| 亳州市| 时尚| 盈江县| 涞源县| 乌拉特后旗| 江口县| 吉隆县| 望谟县| 苍南县| 张北县| 都匀市| 祁东县| 绵竹市| 固镇县| 怀仁县| 海盐县| 惠州市| 霸州市| 含山县| 沅陵县| 镇平县| 镇沅| 蓬安县| 开化县| 通州市| 德清县| 昌图县| 台东县| 东莞市| 苏尼特左旗| 闽清县| 昌都县| 肇源县|