專利名稱:用于本地字輪/web搜索的基于人口統(tǒng)計的分類的制作方法
用于本地字輪/WEB搜索的基于人口統(tǒng)計的分類
北旦 冃豕
計算機硬件、軟件和聯(lián)網(wǎng)方面的技術(shù)進步已提供了能夠從世界上的任何地 方彼此通信的高效的、節(jié)省成本的計算系統(tǒng)。使用這些系統(tǒng)來訪問、瀏覽和搜 索因特網(wǎng),撰寫、發(fā)送和接收電子郵件消息,查看和編輯文檔,發(fā)送和獲得文 本消息、即時消息等。例如,用戶可利用蜂窩電話、個人數(shù)字助理(PDA)來 在因特網(wǎng)上搜索電影時間并且通過發(fā)送電子郵件、文本消息或即時消息來邀請 朋友觀看特定的放映。
已經(jīng)利用了各種技術(shù)來將信息輸入到這些設(shè)備中,諸如通過使用鍵盤、鼠 標、觸敏屏幕、筆設(shè)備、光學(xué)字符識別、語音識別等來輸入數(shù)據(jù)。例如,常規(guī) 的系統(tǒng)通常利用大小可取決于主機設(shè)備類型(個人計算機還是膝上型計算機 等)而變化的鍵盤,這些設(shè)備可利用基于QWERTY布局的鍵盤,其中每一字 母數(shù)字字符可以與一相應(yīng)的鍵相關(guān)聯(lián),而蜂窩電話可包括更少的鍵,使得多個 字母字符與一數(shù)字字符共享單個鍵。例如,蜂窩電話鍵區(qū)上的"2"鍵通常與字
母"A"、 "B"和"C"相關(guān)聯(lián)。
此外,通常利用多種技術(shù)來用有限的鍵盤輸入文本一但是當多于一個字母 數(shù)字字符與一特定鍵相關(guān)聯(lián)時會出現(xiàn)歧義。例如,可實現(xiàn)多擊(multiple-tap)
方法,其中用戶按壓一數(shù)字鍵多次以輸入所需的字母或數(shù)字。因此,可按壓"2" 鍵一次來輸入數(shù)字2,按壓兩次來輸入字母A,按壓三次來輸入字母B,而按 壓四次來輸入字母C。暫停和/或按下移動光標的鍵(例如,箭頭鍵)可以幫助 在不同的字母數(shù)字字符之間作出區(qū)分。然而,這一技術(shù)通常是耗時的,且對于 用戶而言是低效的,因為要按壓單個鍵多次來輸入單個字母數(shù)字字符。用數(shù)字 鍵輸入文本的另一常見的方法是單擊(single-tap)方法,其中用戶按下與一所 需字母相關(guān)聯(lián)的數(shù)字鍵一次。之后,所輸入的字符例如通過將與一單詞相對應(yīng) 的字符序列匹配到儲存在存儲器中的序列來消除歧義。因此,為了輸入單詞 "cell",用戶可按壓序列2-3-5-5,該序列可以與儲存在存儲器中的序列進行比 較。即使單擊方法提供了輸入文本的更高效方式,但是它也有缺陷。通常,常規(guī)的web搜索和多字字輪(用于協(xié)助輸入搜索查詢)都是基于
可根據(jù)流行度準則和/或預(yù)定度量來對網(wǎng)頁和查詢排名的語言模型(或索引)的。 一般而言,這些應(yīng)用程序的非本地版本將與一個通用語言模型交互,并且搜索 或字輪因此將向同一輸入提供相同的答案而不管位置(例如,無論用戶從西雅 圖還是紐約啟動相同的查詢,都獲得相同的結(jié)果)。語言模型組件通??衫?任何語言模型(例如,在單詞序列上定義的概率分布)。例如,可以利用三元
語法(trigram)語言模型。另外,可采用受限語言模型。根據(jù)一個示例,用于 web査詢的語言模型可以基于査詢以及與其相關(guān)聯(lián)的概率的列表。根據(jù)另一示 例,可將基于音節(jié)元素構(gòu)建的語言模型用于擴充隱式和/或顯式通配符。概述
以下提出了簡化概述以便提供對在此描述的某些方面的基本理解。本概述 并不是對所要求保護的主題的全面綜述。它既不旨在標識出所要求保護的主題 的關(guān)鍵或重要的要素,也不描繪其范圍。其唯一的目的是以簡化的形式來介紹 一些概念,作為稍后提出的更為詳細的描述的序言。
本發(fā)明提供了基于人口統(tǒng)計對來自一語言的句子分類(例如,樹結(jié)構(gòu)形式 的査詢?nèi)罩炯捌浠跁r間、空間、其他用于人口統(tǒng)計等的平滑)以通過采用以
下組件來允許與預(yù)定人口統(tǒng)計準則相關(guān)聯(lián)的本地字輪和本地web搜索,這些組 件包括分類編碼器組件(根據(jù)人口統(tǒng)計來形成句子分類,例如,.樹結(jié)構(gòu)); 本地語言模型編碼器組件(產(chǎn)生對本地語言模型的相關(guān)聯(lián)的編碼);以及解碼 器組件,其基于分類結(jié)構(gòu)和本地語言模型高效地找出對于用戶給出的輸入數(shù)據(jù) (例如,搜索查詢的一部分)的人口統(tǒng)計相關(guān)匹配。句子在語言模型中可具有 與不同的人口統(tǒng)計(例如,空間、時間等)相關(guān)聯(lián)的的不同的概率。因此,對 于在一個地點的用戶的輸入數(shù)據(jù)的k個最佳擴充可不同于對于在另一個地點的 其他用戶的相同輸入的k個最佳擴充。這可允許基于人口統(tǒng)計準則執(zhí)行高效的 查詢或搜索,同時有效地使用系統(tǒng)資源。
編碼器組件通過選擇性地獲得或挖掘句子(例如,基于諸如用戶位置、時 間、其他人口統(tǒng)計信息等準則挖掘來自日志的查詢)來利用存儲在句子日志(例 如,查詢?nèi)罩?中的信息,并且基于分類格式(例如,采用具有根節(jié)點和葉的 樹結(jié)構(gòu)的形式,其中節(jié)點或葉可表示從可由定義諸如矩形形式的區(qū)域的經(jīng)度和 緯度來標識的區(qū)域發(fā)出的查詢)來歸納這些數(shù)據(jù)。這樣的分類隨后可通過將句 子移至與該分類相關(guān)聯(lián)的不同層次來平滑,其中大多數(shù)用戶感興趣的句子移至 比特定人口統(tǒng)計的用戶感興趣的句子更高的層次,而后者移至該分類的較低層 次(例如,將諸如一個洲或一個國家的用戶等絕大多數(shù)用戶感興趣的查詢上移 至樹的頂端;而諸如一個城市的用戶、城市中的街坊的用戶等少得多的用戶感 興趣的査詢移至樹的較低部分)。
根據(jù)一個特定方面,分類樹結(jié)構(gòu)可以是具有根據(jù)重要性準則的增強的平滑 的Kd樹的形式。解碼器組件然后可將這種樹結(jié)構(gòu)用于字輪和/或搜索以產(chǎn)生例 如本地、全國、或國際上感興趣的結(jié)果。因此,每個節(jié)點可具有基于地點而對其特制的語言模型,以便為由用戶輸入的顯式/隱式通配符提供k個最佳擴充。 以下描述和附圖詳細闡明了所要求保護的主題的某些說明性方面。然而, 這些方面僅指示了可采用該主題的原理的各種方法中的幾種,且所要求保護的 主題不旨在包括所有這些方面及其等效方面。結(jié)合附圖閱讀下面的詳細描述, 則其他優(yōu)點和新穎特征將變得清楚。
附圖簡述
圖1示出了一示例性系統(tǒng)的框圖,該示例性系統(tǒng)將來自句子的查詢(例如, 査詢?nèi)罩?編碼為分類樹狀結(jié)構(gòu)并且將這一句子分類進一步編碼為與該樹結(jié)構(gòu) 中的節(jié)點相關(guān)聯(lián)的本地語言模型。
圖2示出了根據(jù)本發(fā)明的一個方面的平滑的樹結(jié)構(gòu)。
圖3示出了根據(jù)本發(fā)明的一個方面的一種編碼以獲得樹結(jié)構(gòu)的特定方法。 圖4示出了根據(jù)本發(fā)明的一個方面的一種解碼樹結(jié)構(gòu)的進一步的方法。
圖5示出了可利用人工智能組件以便于平滑樹結(jié)構(gòu)的示例性編碼器/解碼
器系統(tǒng)。
圖6示出了基于本地化語言模型組件的擴充輸入數(shù)據(jù)的系統(tǒng)。 圖7示出了根據(jù)本發(fā)明的一個方面的基于本地化語言將隱式通配符插入 到輸入數(shù)據(jù)中的系統(tǒng)。
圖8示出了一種幫助基于本地興趣擴充輸入數(shù)據(jù)的方法。
圖9示出了根據(jù)所要求保護的主題的可被采用的示例性操作環(huán)境。
圖10示出了其中可采用所要求保護的主題的各新穎方面的示例性聯(lián)網(wǎng)環(huán)境。
詳細描述
現(xiàn)在參考附圖描述本發(fā)明的各個方面,在全部附圖中,用相同的附圖標記 來指代相同的或相應(yīng)的元素。然而應(yīng)該了解,附圖以及與其相關(guān)的詳細描述并 非旨在把所要求保護的主題局限于所公開的具體形式。相反,其意圖是覆蓋落 在所要求保護的主題的精神和范圍內(nèi)的所有修改、等效和替換方案。
圖1示出了系統(tǒng)100,該系統(tǒng)創(chuàng)建一種語言中的句子的分類,并基于地理位置和/或人口統(tǒng)計準則進一步構(gòu)造語言模型的相關(guān)聯(lián)的本地版本,其中這些本 地語言模型根據(jù)所選人口統(tǒng)計準則可以是不同的粒度水平。 一般而言,語言是 由語法生成的一組句子(也被稱為字符串)。這樣的語法可作為以下各種語法 而存在有限狀態(tài)語法;無上下文的語法;或僅僅一個列表(諸如來自查詢?nèi)?志的査詢列表等)。此外,語言模型將概率與該語言中的每句句子相關(guān)聯(lián)。系 統(tǒng)100提供語言模型110的本地版本(1到n, n為整數(shù))。語言模型的這一本 地版本(本地化語言模型110)是其中句子的概率取決于人口統(tǒng)計(例如,時
間、空間、其他用戶人口統(tǒng)計等)的語言模型。如圖1所示,不同人口統(tǒng)計粒
度的本地語言模型的構(gòu)造通過由分類編碼器組件104從句子102 (例如,査詢 日志)中創(chuàng)建的分類106 (例如,樹結(jié)構(gòu))的形式的編碼,并通過使用句子分 類106以構(gòu)造本地化語言模型的本地語言模型編碼器108來促進。
通過利用經(jīng)編碼的分類結(jié)構(gòu)和相關(guān)聯(lián)的本地語言模型,解碼器組件(未示 出)隨后可通過混合來自不同人口統(tǒng)計粒度的本地語言模型的答案來允許本地 字輪和/或本地web搜索,如將在以下詳述的。這一解碼器組件能夠根據(jù)分類 結(jié)構(gòu)和利用該系統(tǒng)的用戶的人口統(tǒng)計來混合特定語言模型以啟用本地化字輪 和/或web搜索。例如,由位于西雅圖的用戶啟動的對于"動物園"的搜索査詢 可檢索諸如西雅圖動物園等答案(除了在離西雅圖更遠的地點的其他結(jié)果之 外),這與利用非本地化語言模型的常規(guī)的搜索系統(tǒng)形成對比,其中這一常規(guī) 的搜索可能返回美國和/或世界上最受歡迎的動物園(并且通常不是位于西雅圖 的動物園)。因此,本發(fā)明使對于在一個地點的用戶的輸入數(shù)據(jù)的k個最佳擴 充能夠不同于對于在另一個地點的其他用戶的相同輸入的k個最佳擴充。這可 允許執(zhí)行高效的查詢或搜索,同時有效地使用系統(tǒng)資源。編碼器組件104通過 從句子102中選擇性地獲得或挖掘査詢(例如,基于諸如用戶位置、時間、其 他人口統(tǒng)計信息等準則)來利用存儲在這些句子102 (例如,查詢?nèi)罩?中的 信息,并且以分類106 (樹結(jié)構(gòu))的形式來歸納這些數(shù)據(jù)。如圖1所示,(示 出特定分類的)示例性樹結(jié)構(gòu)能夠允許任意扇出和/或非叉分枝和深度??梢岳?解,也可利用其他分類結(jié)構(gòu)(除了樹結(jié)構(gòu)之外)并且這些結(jié)構(gòu)也在本發(fā)明的范 圍之內(nèi)。
圖2示出了根據(jù)本發(fā)明的一個特定方面的樹結(jié)構(gòu)200形式的分類的一個特定方面。該結(jié)構(gòu)中的任一節(jié)點可表示從可由定義該區(qū)域(例如,矩形形式的區(qū) 域)的經(jīng)度和諱度來標識的區(qū)域發(fā)出的查詢。節(jié)點出現(xiàn)在樹200中的越下方, 該節(jié)點就覆蓋越具體的區(qū)域。樹結(jié)構(gòu)200隨后可通過基于重要性準則在節(jié)點之
間移動查詢(例如,從節(jié)點207到其父節(jié)點204,然后從204到203,并且從 203到202)來平滑,其中最一般的査詢/元素移向樹200的根(例如,諸如一 個洲或一個國家的用戶等相當大的人口統(tǒng)計用戶組感興趣的査詢),而小得多 的人口統(tǒng)計用戶組(例如, 一個城市、城市中的街坊的用戶等)感興趣的査詢 駐留在樹的較低部分。
樹結(jié)構(gòu)200可以是具有根據(jù)重要性準則的增強的平滑的Kd樹的形式,如 將在以下詳述的。查詢的樹結(jié)構(gòu)可被本地語言模型組件用來基于地點構(gòu)造語言 模型。因此,每個節(jié)點都可具有基于地點對其特制的語言模型。解碼器組件因 此可將這種具有相關(guān)聯(lián)的本地語言模型的樹結(jié)構(gòu)用于字輪以產(chǎn)生或混合例如 本地、全國、或國際上感興趣的結(jié)果。結(jié)果可以是對于具有由用戶輸入的顯式 /隱式通配符的文本串的k個最佳擴充的形式。
根據(jù)本發(fā)明的一個特定方面,可提供元素列表,其中每個元素可包含頻 率、查詢、緯度、經(jīng)度和其他人口統(tǒng)計。位置樹可以是將世界(或?qū)⒁采w的 預(yù)定區(qū)域)分成小塊的二叉樹的形式。本發(fā)明可在位于樹中的不同層次的緯度 和經(jīng)度上拆分之間交替??蓜?chuàng)建拆分以使得對于元素的頻率總和在該拆分的兩 側(cè)保持相同。因此,元素可根據(jù)對于這些元素的元素緯度和經(jīng)度來被分成樹中 的葉。
例如,葉210可對應(yīng)于西雅圖地區(qū),而葉207可以是邁阿密地區(qū)。葉210 因而可包含與這一位置相關(guān)的所有査詢及其頻率。在理論上,語言模型可在每 個位置處構(gòu)建,并且然后可根據(jù)輸入文本的用戶的位置來選出合適的語言模型 以加以利用。這一方法可通過創(chuàng)建經(jīng)調(diào)整的位置樹來增強,其中葉上分布的元 素通過(遞歸地)在樹中向上提升類似的元素來變稀少。如果對于兩個兄弟節(jié) 點(例如,206、 207)中的相同査詢的頻率類似,但不一定相等,則這兩個元 素將都被提升至其位置樹中各自的父節(jié)點。因此,對于這種情況,提升通過刪 除兄弟節(jié)點中的元素(等同于將頻率設(shè)置為O),并且然后改為將該元素插入 (仍然具有與兄弟節(jié)點中的實際頻率的總和相等的頻率的)父節(jié)點中來執(zhí)行。否則,如果頻率不類似,則具有最低頻率的兄弟節(jié)點可通過將該元素插入具有 等于這兩個頻率中的最小者的兩倍的頻率的父節(jié)點中,并且然后從這兩個兄弟 節(jié)點中減去這一頻率(將最低頻率兄弟節(jié)點的頻率設(shè)為O,從而實際上從這一 兄弟節(jié)點刪除該元素)來提升。可以理解, 一般而言,當決定兄弟節(jié)點的提升 時可采用對于頻率相似性的任何合理的測試,并且這一選擇可部分取決于例如 應(yīng)用。
此外,可以實現(xiàn)"符號測試",其返回分配給較低的頻率在它們是等可能的 假設(shè)下比較高的頻率低的替換假設(shè)的(單方面的)重要性等級。這一假設(shè)(H0)
因此可規(guī)定具有p=0.5的二項式分布,并且重要性等級等于可對于較低頻率(例 如,<=50)計算的(單方面的)二項式拖尾。對于較高的頻率,該二項式分布 可由正態(tài)分布來高效地逼近。因此,該重要性等級可決定元素從較局部節(jié)點(例 如,206、 207)向較全局節(jié)點(例如,204)(從葉向根)的提升程度。在較 低重要性等級的情況下更難以違犯兩個頻率是相似的H0假設(shè),并且在這種情 況下元素更有可能在位置樹中向上移動。單個重要性等級可用于通常位置樹中 的所有測試。或者,重要性等級可通過采用重要性等級調(diào)整以類似于Bonferroni 的樣式來調(diào)整,其中 a(D) = l —0.95(*)
其中a是所選的重要性等級,且D是樹的深度,例如 a (1) = 0.05 a C2) = 0.0253 a(15) = 3.13e-6
給定根據(jù)以上提升模式的元素的重新分布,可對于位置樹中的每個節(jié)點創(chuàng) 建一語言模型。對于低重要性等級,位于該結(jié)構(gòu)中的許多葉節(jié)點處的語言模型 通常小得多并且只包含真正的本地信息。隨著一個節(jié)點在樹中上移,語言模型 覆蓋更大的區(qū)域并且根將包含在不考慮位置的情況下等可能的信息。例如,查 詢"pizza"將很可能出現(xiàn)在根節(jié)點,而一地點特有的"Joe's pizza joint"將出現(xiàn)在 對應(yīng)于這個非常具體的匹薩地方的位置的葉中。
位置樹200可具有位于樹中每個節(jié)點處的本地化語言模型。這些本地化語 言模型中的每一個可以是相同類型的;因為對于一般Z非本地通配物(WildThing)(或搜索),還有各個模型所采用的類型通常相當小。因此, 解碼器可利用語言模型的位置樹來檢索對于文本輸入的k個最佳匹配。例如, 給定一特定位置,本發(fā)明能夠在從(與該特定人口統(tǒng)計位置相關(guān)聯(lián)的)樹的葉 節(jié)點到該樹的根節(jié)點的路徑上的每個節(jié)點中找出k個最佳匹配及其頻率。可采 用與對于一般通配物(或搜索)相同的方法來在位于特定節(jié)點的模型中找到匹 配,該方法是通過引用結(jié)合于此的,2006年1月17日提交的第11/332,954號 和第11/333,846號專利中的方法。k個最佳匹配中的某一些在不同的節(jié)點中可 以是相同的,而其他最佳匹配不是。對于出現(xiàn)在一個節(jié)點而不是另一個節(jié)點中 的k個最佳匹配中的匹配,這些匹配及其相關(guān)聯(lián)的頻率必須在它們沒有出現(xiàn)在 k個最佳匹配中的節(jié)點中逐一査找。對于所有唯一的匹配,在該組匹配中,現(xiàn) 在可添加每個節(jié)點中的匹配的頻率,且在本地化樹中的中間節(jié)點獲得的頻率具 有折扣,以便反映對該特定位置的平均貢獻。這些折扣頻率可按照 Frequency <- frequency / (2AL)來計算, 其中L是從中間節(jié)點到葉節(jié)點的路徑長度。
如早先所解釋的,本發(fā)明并不限于地理位置,并且還可釆用諸如時間、時 間和空間、及其他人口統(tǒng)計準則等其他準則。因此最一般的查詢可移至樹的頂 端,諸如將大多數(shù)人口統(tǒng)計用戶組感興趣的查詢(例如, 一個洲或一個國家的 用戶所感興趣的查詢等)上移至樹結(jié)構(gòu)的頂端;而諸如一個城市、城市中的街 坊的用戶等少得多的人口統(tǒng)計用戶組感興趣的查詢移至樹的較低部分。
圖3示出了根據(jù)本發(fā)明的一個方面的相關(guān)方法300。雖然在此將該示例性 方法圖示并描述為代表各種事件和/或動作的一系列框,但是本發(fā)明不受所示的 這些框的次序的限制。例如,根據(jù)本發(fā)明,除了在此示出的次序之外,某些動 作或事件可以按不同的次序發(fā)生和/或與其他動作或事件同時發(fā)生。此外,不是 所有示出的框、事件或動作都是實現(xiàn)根據(jù)本發(fā)明的方法所必需的。此外,將會 認識到,根據(jù)本發(fā)明的該示例性方法和其他方法可以與在此圖示并描述的方法 相關(guān)聯(lián)地實現(xiàn),也可與未示出或描述的其他方法和裝置相關(guān)聯(lián)地實現(xiàn)。最初, 在302處,可從語言(例如,從査詢?nèi)罩局惺占臇嗽?中收集句子,其中隨 后在304處基于人口統(tǒng)計對于這些句子進行分類(例如,基于發(fā)出這些查詢的 地理位置來將這些句子分布在節(jié)點中以形成樹結(jié)構(gòu))??梢岳斫?,基于地理位置的査詢分布表示示例性準則,并且也可采用其他人口統(tǒng)計準則來進行這種節(jié) 點中的分布和樹形成。在306處,可基于這一分類來歸納來自句子的數(shù)據(jù)(例
如,以樹結(jié)構(gòu)的形式歸納查詢?nèi)罩?。隨后在308處,然后可通過基于重要性
準則在不同層次之間移動句子(例如,將查詢從位于樹的較低部分的節(jié)點移至 較高部分)來平滑這一分類(例如,樹結(jié)構(gòu))。
圖4示出了根據(jù)本發(fā)明的一個方面的平滑樹形式的特定分類的特定方法 400。最初在402處,可標識子節(jié)點。隨后在404處,基于預(yù)定準則(例如, 重要性測試準則)比較共享一父節(jié)點的子節(jié)點,以便驗證這些節(jié)點中的查詢中 的某一些是否應(yīng)被提升到樹的上方。在406處,確定一個節(jié)點中的查詢頻率是 否比兄弟子節(jié)點中的查詢頻率大得多。如果對于一查詢的計數(shù)在兩個子節(jié)點中 的一個中大得多,(如基于預(yù)定準則所計算的),則在410處,可部分地提升 對于這一査詢的計數(shù),諸如從兩個兄弟節(jié)點提升對于兄弟節(jié)點中的查詢的最低 計數(shù)。例如,如果最左邊的兄弟節(jié)點獲得對于一特定查詢的計數(shù)3并且最右邊 的兄弟節(jié)點具有對于相同査詢的計數(shù)13,則計數(shù)3從這些兄弟節(jié)點中的每一個 上移至父節(jié)點,因此將計數(shù)6留在與兄弟節(jié)點相關(guān)聯(lián)的父節(jié)點中。這樣的部分 提升導(dǎo)致最右邊的兄弟節(jié)點隨后包括10個計數(shù),而最左邊的兄弟節(jié)點具有計 數(shù)0?;蛘?,如果子節(jié)點中的査詢的比較指示相對相等的計數(shù)(或低于預(yù)定閾 值的差值),則將對于該查詢的計數(shù)從這兩個子節(jié)點提升至父節(jié)點。因此,用 于上移節(jié)點的重要性準則可類似于例如用戶之間的流行度準則。 一般而言,最 上面的根節(jié)點將覆蓋對于所有用戶都流行的查詢(例如,不管用戶人口統(tǒng)計如 何)??梢岳斫猓敶_定兄弟節(jié)點的提升時可采用對于頻率相似性的任何合理 的測試(例如,取決于應(yīng)用)。
在一相關(guān)方面中,可使用人工智能(AI)組件來幫助從査詢?nèi)罩局袆?chuàng)建經(jīng) 平滑的樹。如此處所使用的,術(shù)語"推斷"通常指的是根據(jù)經(jīng)由事件和/或數(shù)據(jù)捕 獲的一組觀察結(jié)果來推出或推斷系統(tǒng)、環(huán)境、和/或用戶狀態(tài)的過程。例如,推 斷可用于標識特定的上下文或動作,或可生成狀態(tài)的概率分布。推斷可以是概 率性的,即,基于對數(shù)據(jù)和事件的考慮計算所關(guān)注狀態(tài)的概率分布。推斷也可 以指用于從一組事件和/或數(shù)據(jù)合成更高級事件的技術(shù)D這類推斷導(dǎo)致從一組觀 察到的事件和/或儲存的事件數(shù)據(jù)中構(gòu)造新的事件或動作,而無論事件是否在相鄰時間上相關(guān),也無論事件和數(shù)據(jù)是來自一個還是若干個事件和數(shù)據(jù)源。
圖5示出了人工智能組件510,它可與(幫助根據(jù)其在節(jié)點的分類結(jié)構(gòu)中 的位置來移動句子以及構(gòu)造相關(guān)聯(lián)的本地語言模型的)編碼器組件502和(如 將在以下詳細描述的,幫助根據(jù)所構(gòu)造的編碼來擴充用戶的輸入的)解碼器組 件504交互。例如,可經(jīng)由自動分類器系統(tǒng)和過程來促進用于確定何時將句子 提升至分類(例如,樹結(jié)構(gòu))的上方的過程。分類器是將輸入屬性矢量x:(xl, x2, x3, x4, xn)映射到該輸入屬于一個類的置信度的函數(shù),即f(x)= confidence(class)。這一分類可采用基于概率和/或基于統(tǒng)計的分析(例如,分解 成分析效用和成本)來預(yù)測或推斷用戶期望自動執(zhí)行的動作。
支持矢量機(SVM)是可采用的分類器的一個示例。SVM通過找出可能 輸入空間中的超曲面來操作,其中,超曲面試圖將觸發(fā)準則從非觸發(fā)事件中分 離出來。直觀上,這使得分類對于接近但不等同于訓(xùn)練數(shù)據(jù)的測試數(shù)據(jù)是正確 的??刹捎闷渌ㄏ蚝头嵌ㄏ蚰P头诸惙椒?,包括,例如,樸素貝葉斯、貝葉 斯網(wǎng)絡(luò)、決策樹、神經(jīng)網(wǎng)絡(luò)、模糊邏輯模型以及提供不同獨立性模式的概率分 類模型。此處所使用的分類也包括用于開發(fā)優(yōu)先級模型的統(tǒng)計回歸。
如從本說明書中可以容易地理解,本發(fā)明可以使用顯式訓(xùn)練(例如,經(jīng)由 一般訓(xùn)練數(shù)據(jù))以及隱式訓(xùn)練(例如,經(jīng)由觀察用戶行為、接收外來信息)的 分類器。例如,SVM經(jīng)由分類器構(gòu)造器和特征選擇模塊內(nèi)的學(xué)習或訓(xùn)練階段 來配置。因此,可使用分類器來自動地學(xué)習和執(zhí)行多個功能,包括但不限于根 據(jù)預(yù)定準則來確定何時更新或細化先前推斷的模式,基于正在處理的數(shù)據(jù)種類 使關(guān)于推斷算法的準則更嚴格,以及一天中何時實現(xiàn)更嚴格的準則控制。
圖6示出了基于本地化語言模型組件606的擴充輸入數(shù)據(jù)的系統(tǒng)600。本 地化語言模型組件606通常能夠?qū)⒁话愦鸢概c本地用戶相當感興趣的本地答案 相混合。這樣的本地化語言模型組件606包括其中句子的概率取決于人口統(tǒng)計 (例如,時間、空間、其他用戶人口統(tǒng)計等)的一系列語言模型。 一般而言, 本地語言模型組件中的語言模型全都能夠遵照給定的人口統(tǒng)計,但仍能夠在其 人口統(tǒng)計地點/通用性中有所變化,以便允許混合具有不同的地點程度的答案。 例如,對于樹結(jié)構(gòu)形式的分類,本地語言組件通??缮婕芭c從樹中的葉(特定 人口統(tǒng)計位置)到樹的根(全部節(jié)點所共享的一般人口統(tǒng)計位置)的路徑上的節(jié)點相關(guān)聯(lián)的所有本地化語言模型。
系統(tǒng)600可包括獲得輸入數(shù)據(jù)的接口 602以及利用該輸入數(shù)據(jù)來生成候選 擴充數(shù)據(jù)列表的擴充組件604。接口 602可以從任何類型的輸入設(shè)備(未示出) 接收輸入數(shù)據(jù)。例如,輸入數(shù)據(jù)可由個人計算機、膝上型計算機、手持式計算 機、蜂窩電話、服務(wù)器等生成??梢岳斫?,接口 602和/或擴充組件604可以耦 合到輸入設(shè)備、可以全部或部分地包括在輸入設(shè)備中、和/或可以是獨立的組件。
一般而言,任何類型的輸入數(shù)據(jù)都可由接口 602接收。例如,當用戶采用 個人計算機時,接口 602可以獲得與用戶按下的鍵相關(guān)聯(lián)的字母數(shù)字字符。另 外,可采用語音識別來分析用戶的口頭輸入和/或可利用手寫識別來標識書面數(shù) 據(jù);由此,接口 602可以接收聽覺和/或視覺數(shù)據(jù)。作為進一步的說明,接口 602可以接收與蜂窩電話鍵區(qū)相關(guān)聯(lián)的數(shù)字字符,其中每一數(shù)字字符可以與多 個字母數(shù)字字符相關(guān)。
輸入數(shù)據(jù)可以包括一個或多個顯式通配符。通配符可以由"*"來表示;然 而,通配符的任何完全不同的表示也落入所要求保護的主題的范圍之內(nèi)(例如, 除了*,任何其它字符可以被用作通配符,如聲音、記號、……)。顯式通配 符可以被包括在輸入數(shù)據(jù)內(nèi)的任何地方。由此,例如,如果用戶希望輸入單詞 "Lincoln",則輸入"Linc^n"可以用與個人計算機相關(guān)聯(lián)的鍵盤來鍵入并提供給 接口 602。根據(jù)另一說明,用戶可發(fā)出"m-星號-t"的聲音,并且該輸入數(shù)據(jù)可 被提供給擴充組件604,后者還可利用語音識別來將輸入數(shù)據(jù)標識為"mn"。
在獲得了輸入數(shù)據(jù)之后,接口 602可以將輸入數(shù)據(jù)提供給擴充組件604。 如早先所解釋的,擴充組件604可包括允許采用基于人口統(tǒng)計提供與輸入數(shù)據(jù) 相關(guān)聯(lián)的通配符的可能擴充的語言模型的語言模型組件606。由此,通過利用 該本地化語言模型及其分類結(jié)構(gòu),擴充組件604可以擴充與輸入數(shù)據(jù)相關(guān)聯(lián)的 顯式通配符以生成候選擴充數(shù)據(jù)列表。此外,擴充組件604可以將隱式通配符 插入到輸入數(shù)據(jù)中,其中可以類似地擴充這些隱式通配符??刹捎米鳛楸镜鼗?語言模型組件606的一部分的本地化語言模型及其分類結(jié)構(gòu)來找到k個最佳擴 充,其中對于在一個地點的用戶的輸入數(shù)據(jù)的k個最佳擴充可不同于對于在另 一個地點的用戶的相同輸入的k個最佳擴充。此外,可頻繁地更新本地化語言 模型組件606所使用的本地化語言模型以允許及時地標識出突發(fā)新聞報導(dǎo)。盡管接口 602被描繪為與擴充組件604分開,但是可以構(gòu)想擴充組件604 可包括接口 602或其一部分。并且,接口 602可以提供各種適配器、連接器、 通道、通信路徑等以便允許與擴充組件604交互。
擴充組件604產(chǎn)生之后可被利用的候選擴充數(shù)據(jù)列表的本地興趣。例如, 該候選列表的本地興趣可以被顯示給用戶(例如,經(jīng)由接口 602),和/或用戶 可從這些本地興趣中作出選擇。從該候選列表中所選的擴充可以用于執(zhí)行搜 索、可被輸入到所撰寫的文檔或消息中、可被插入到地址欄中等等。可以構(gòu)想, 接口 602可以提供如圖所示的候選擴充數(shù)據(jù)列表(例如,提供給用戶、給輸入 設(shè)備......)。擴充組件604或一完全不同的組件(未示出)可以輸出該候選列
表。例如,該本地化候選列表可包括k個最佳擴充。
圖7示出了將隱式通配符插入到輸入數(shù)據(jù)中的系統(tǒng)700。系統(tǒng)700包括接 收輸入數(shù)據(jù)并將輸入數(shù)據(jù)提供給擴充組件702的接口 704。擴充組件704可以 擴充輸入數(shù)據(jù)以產(chǎn)生一本地擴充數(shù)據(jù)候選列表。例如,可用擴充組件704來生 成k個最佳擴充。擴充可以至少部分地利用由本地化語言模型組件706提供的 語言模型及其分類結(jié)構(gòu)來實現(xiàn)。
擴充組件704還可以包括可將一個或多個隱式通配符插入到輸入數(shù)據(jù)中 的通配符插入組件708。可以理解,通配符插入組件708可以將隱式通配符定 位在輸入數(shù)據(jù)中的任何地方。在插入了隱式通配符之后,可以基于本地化語言 模型來擴充輸入數(shù)據(jù)中的隱式通配符以及任何顯式通配符。
在一相關(guān)方面,通配符插入組件708可以標識輸入數(shù)據(jù)中的期望單詞的末 尾。例如,通配符插入組件708可以在這一標識的位置處插入一通配符??梢?理解,可以確定多個這樣的位置,并且因此可以隨輸入數(shù)據(jù)包括任何適當數(shù)量 的隱式通配符。通配符插入組件708可以通過標識空格以及輸入數(shù)據(jù)的末尾來 定位期望單詞的末尾,并在輸入數(shù)據(jù)內(nèi)的這些位置的每一個之前插入一隱式通 配符。
通配符插入組件708和/或擴充組件704可允許字輪。例如,用戶可在諸 如蜂窩電話或PDA等具有有限鍵盤能力的移動設(shè)備上輸入數(shù)據(jù),其中該有限 的鍵盤能力可能與字母數(shù)字字符的低效和/或耗時輸入相關(guān)聯(lián)。另外,字輪可以 補償用戶不知道期望輸入的正確拼寫。此外,字輪可以幫助對于對輸入的查詢僅有模糊概念(例如,在web搜索的上下文中)或?qū)Ξ斍笆裁词橇餍械母械胶?br>
奇的用戶,并且因此匹配一部分輸入。
圖8示出了幫助基于本地興趣來擴充輸入數(shù)據(jù)的方法800。最初,在802 處,可獲得輸入數(shù)據(jù),其中,例如,可以對任何類型的輸入設(shè)備(例如,臺式 計算機、膝上型計算機、手持式計算機、蜂窩電話、服務(wù)器......)接收這些輸
入數(shù)據(jù)。另外,輸入數(shù)據(jù)可以與搜索査詢、文本消息(例如,短消息服務(wù)(SMS) 消息)、即時消息、所生成和/或編輯的文檔等有關(guān)。此外,這些輸入數(shù)據(jù)可包 括例如字母字符、數(shù)字字符、手寫數(shù)據(jù)、口頭數(shù)據(jù)、其組合。在804處,可將
一個或多個隱式通配符插入到輸入數(shù)據(jù)中。例如,隱式通配符可以被插入到輸 入數(shù)據(jù)的末尾處。
此外,隱式通配符可以被插入到輸入數(shù)據(jù)內(nèi)的一個或多個期望單詞的末尾 處。例如,隱式通配符可以被插入在輸入數(shù)據(jù)中的每一空格之前。在806處, 可采用本地化語言模型及其分類結(jié)構(gòu)。本地化語言模型中的句子的概率取決于 人口統(tǒng)計(例如,時間、空間、其他用戶人口統(tǒng)計等)。因此,對于在一個地 點的用戶的輸入數(shù)據(jù)的k個最佳擴充可與對于在另一個地點的其他用戶的相同 輸入的k個最佳擴充不同。隨后,可生成與輸入數(shù)據(jù)相關(guān)聯(lián)的通配符的k個最 佳擴充,它能夠與本地興趣相關(guān)。例如,在808處,給定一特定位置,本發(fā)明 能夠確定在從(與該特定人口統(tǒng)計位置相關(guān)聯(lián)的)樹的葉節(jié)點到該樹的根節(jié)點 的路徑上的每個節(jié)點中k個最佳匹配及其頻率,且隨后組合這k個最佳匹配。
在此使用詞語"示例性"意指用作示例、實例或說明。在此被描述為"示例 性"的任何方面或設(shè)計并不一定要被解釋為相比其他方面或設(shè)計更優(yōu)選或有 利。類似地,在此提供的示例只是出于清楚和理解的目的并且并不意味著以任 何方式限制本發(fā)明或其部分??梢岳斫?,本可呈現(xiàn)多個其他或替換示例,但已 出于簡明的目的而省略了。
此外,本發(fā)明的全部或部分可以使用產(chǎn)生控制計算機以實現(xiàn)所公開的本發(fā) 明的軟件、固件、硬件或其任意組合的標準編程和/或工程技術(shù)而被實現(xiàn)為于系 統(tǒng)、方法、裝置或制品。如在本申請中所使用的,術(shù)語"組件"旨在表示計算機 相關(guān)的實體,它可以是硬件、硬件和軟件的結(jié)合、軟件、或者執(zhí)行中的軟件。 例如,計算機可讀介質(zhì)可以包括但不限于磁存儲設(shè)備(例如,硬盤、軟盤、磁帶......)、光盤(例如,緊致盤(CD)、數(shù)字多功能盤(DVD)......)、智
能卡和閃存設(shè)備(例如,卡、棒、鑰匙驅(qū)動器......)。另外可以理解,可以采
用載波來承載計算機可讀電子數(shù)據(jù),例如那些用于發(fā)送和接收電子郵件或用于 訪問如因特網(wǎng)或局域網(wǎng)(LAN)等網(wǎng)絡(luò)的數(shù)據(jù)。當然,本領(lǐng)域的技術(shù)人員將會 認識到,在不背離所要求保護的主題的范圍或精神的前提下可以對這一配置進 行許多修改。
為給所公開的主題的各方面提供上下文,圖9和10以及下列討論旨在提 供可以在其中實現(xiàn)所公開的主題的各方面的合適的計算環(huán)境的簡要、概括的描 述。盡管前面己經(jīng)在運行在一個和/或多個計算機上的計算機程序的計算機可執(zhí) 行指令的一般上下文中描述了本發(fā)明,然而本領(lǐng)域內(nèi)的技術(shù)人員將認識到,本 發(fā)明也可以和其他程序模塊結(jié)合實現(xiàn)。 一般而言,程序模塊包括執(zhí)行特定任務(wù) 和/或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、數(shù)據(jù)結(jié)構(gòu)等等。此外,本領(lǐng) 域內(nèi)的技術(shù)人員將會理解,本發(fā)明的方法可以與其他計算機系統(tǒng)配置一起實 施,包括單處理器或多處理器計算機系統(tǒng)、小型計算設(shè)備、大型計算機以及個 人計算機、手持式計算設(shè)備(例如,個人數(shù)字助理(PDA)、電話、手表……)、 基于微處理器的或可編程的消費性或工業(yè)電子產(chǎn)品等等。所示各方面也可以在 其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備執(zhí)行的分布式計算環(huán)境中實踐。 然而,所要求保護的本發(fā)明的一些方面,如果不是全部方面,可以在獨立計算 機上實施。在分布式計算環(huán)境中,程序模塊可以位于本地和遠程存儲器存儲設(shè) 備中。
參考圖9,用于實現(xiàn)在此公開的各方面的示例性環(huán)境910包括計算機912 (例如,臺式計算機、膝上型計算機、服務(wù)器、手持式計算機、可編程消費或 工業(yè)電子產(chǎn)品……)。計算機912包括處理器單元914、系統(tǒng)存儲器916、以 及系統(tǒng)總線918。系統(tǒng)總線918把包括但不限于系統(tǒng)存儲器916的系統(tǒng)組件耦 合到處理單元914。處理單元914可以是各種可用處理器中的任意一種。雙微 處理器和其它多處理器體系結(jié)構(gòu)(例如,多核)也可用作處理單元914。
系統(tǒng)總線918可以是幾種類型的總線結(jié)構(gòu)中的任意一種,包括存儲器總線 或存儲器控制器,外圍總線或外部總線,和/或利用下述可用總線結(jié)構(gòu)中的任意 一種的局部總線,包括但不限于,ll位總線、工業(yè)標準體系結(jié)構(gòu)(ISA)、微通道體系結(jié)構(gòu)(MCA)、擴展ISA (EISA)、智能驅(qū)動器電子接口 (IDE)、 VESA局部總線(VLB)、外圍部件互連(PCI)、通用串行總線(USB)、 高級圖形端口 (AGP)、個人計算機存儲卡國際聯(lián)合會總線(PCMCIA)、以 及小型計算機系統(tǒng)接口 (SCSI)。
系統(tǒng)存儲器916包括易失性存儲器920以及非易失性存儲器922。基本輸 入/輸出系統(tǒng)(BIOS)包含諸如在啟動期間在計算機912的元件之間傳送信息 的基本例程,其存儲在非易失性存儲器922中。作為說明而非限制,非易失性 存儲器922可以包括只讀存儲器(ROM)、可編程ROM (PROM)、電可編 程ROM (EPROM)、電可擦除ROM (EEPROM)或者閃存。易失性存儲器 920包括用作外部高速緩沖存儲器的隨機存取存儲器(RAM)。
計算機912還包括可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。 例如,圖9示出了大容量或輔助存儲924。大容量存儲924包括但不限于諸如 磁盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、Jaz驅(qū)動器、Zip驅(qū)動器、LS-100驅(qū) 動器、閃存卡、或者記憶棒之類的設(shè)備。此外,大容量存儲924可以包括獨立 的或者與其它存儲介質(zhì)結(jié)合的存儲介質(zhì),包括但不限于諸如緊致盤ROM設(shè)備 (CD-ROM)、可記錄CD驅(qū)動器(CD-R驅(qū)動器)、可重寫CD驅(qū)動器(CD-RW 驅(qū)動器)或者數(shù)字多功能盤ROM驅(qū)動器(DVD-ROM)這樣的光盤驅(qū)動器。 為了便于將大容量存儲設(shè)備924連接到系統(tǒng)總線918,通常使用諸如接口 926 等可移動或不可移動接口。
可以理解,圖9描述了在用戶和在合適的操作環(huán)境910中描述的基本計算 機資源之間擔當中介的軟件。這樣的軟件包括操作系統(tǒng)928??纱鎯υ诖笕萘?存儲928上并加載到系統(tǒng)存儲器916的操作系統(tǒng)928用于控制并分配計算機系 統(tǒng)912的資源。系統(tǒng)應(yīng)用程序930通過存儲在系統(tǒng)存儲器916中或大容量存儲 924上的程序模塊932和程序數(shù)據(jù)934來利用操作系統(tǒng)928對資源的管理。可 以理解,本發(fā)明可用各種操作系統(tǒng)或操作系統(tǒng)的組合來實現(xiàn)。
用戶通過輸入設(shè)備936把命令或信息輸入到計算機912中。輸入設(shè)備936 包括但不限于,諸如鼠標、跟蹤球、指示筆、觸摸墊等定點設(shè)備、鍵盤、話筒、 操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀、TV調(diào)諧卡、數(shù)碼相機、數(shù)碼 攝像機、網(wǎng)絡(luò)攝像頭等等。這些以及其它輸入設(shè)備通過系統(tǒng)總線914經(jīng)由接口端口 938連接至處理單元918。接口端口 938包括,例如串行端口、并行端口、 游戲端口、以及通用串行總線(USB)。輸出設(shè)備940利用和輸入設(shè)備936相 同類型的某些端口。因此,例如,USB端口可用于向計算機912提供輸入,以 及將來自計算機912的信息輸出到輸出設(shè)備940。提供輸出適配器942是為了 說明除了輸出設(shè)備940之外還有一些像顯示器(例如,平板、CRT、 LCD、等 離子……)、揚聲器、以及打印機這樣的需要專用適配器的輸出設(shè)備940。輸 出適配器942包括,作為說明而非局限,提供輸出設(shè)備940和系統(tǒng)總線918之 間的連接手段的顯卡和聲卡。應(yīng)該注意到,其它設(shè)備和/或設(shè)備系統(tǒng)同時提供了 輸入和輸出能力,諸如遠程計算機944。
計算機912可以使用至諸如遠程計算機944等一個或多個遠程計算機的邏 輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠程計算機944可以是個人計算機、服務(wù)器、路 由器、網(wǎng)絡(luò)PC、工作站、基于微處理器的電器、對等設(shè)備或者其它常見的網(wǎng) 絡(luò)節(jié)點等,且通常包括相對于計算機912所描述的很多或者全部元件。為了簡 明起見,對遠程計算機946僅示出了存儲器存儲設(shè)備944。遠程計算機944經(jīng) 由網(wǎng)絡(luò)接口 948被邏輯地連接到計算機912,并且然后經(jīng)由通信連接950物理 地連接(例如,有線或無線地)。網(wǎng)絡(luò)接口 948涵蓋諸如局域網(wǎng)(LAN)和廣 域網(wǎng)(WAN)這樣的通信網(wǎng)絡(luò)。
通信連接950指的是用于把網(wǎng)絡(luò)接口 948連接到總線918的硬件/軟件。 雖然為了清楚地舉例說明,通信連接950被示為在計算機916的內(nèi)部,但其也 可以在計算機912的外部。連接到網(wǎng)絡(luò)接口 948所需要的硬件/軟件包括(僅為 了舉例說明)內(nèi)部和外部技術(shù),諸如包括常規(guī)電話級調(diào)制解調(diào)器、電纜調(diào)制解 調(diào)器、電源調(diào)制解調(diào)器以及DSL調(diào)制解調(diào)器的調(diào)制解調(diào)器、ISDN適配器、和 以太網(wǎng)卡或組件。
圖10是本發(fā)明可與其交互的示例計算環(huán)境1000的示意框圖。系統(tǒng)1000 包括一個或多個客戶機1010??蛻魴C1010可以是硬件和/或軟件(例如,線程、 進程、計算設(shè)備)。系統(tǒng)1000也包括一個或多個服務(wù)器1030。因此,系統(tǒng)1000 可以對應(yīng)于兩層客戶機服務(wù)器模型或多層模型(例如,客戶機、中間層服務(wù)器、 數(shù)據(jù)服務(wù)器)以及其他模型。服務(wù)器1030也可以是硬件和/或軟件(例如,線 程、進程、計算設(shè)備)。服務(wù)器1030可以容納各線程以通過例如利用本發(fā)明執(zhí)行轉(zhuǎn)換。在客戶機1010和服務(wù)器1030之間的一種可能的通信能夠采用在兩
個或多個計算機進程之間傳輸?shù)臄?shù)據(jù)分組的形式。
系統(tǒng)1000包括可以用來使客戶機1010和服務(wù)器1050之間通信更容易的 通信框架1030。客戶機1010操作上被連接到一個或多個可以用來存儲對客戶 機1010本地的信息的客戶機數(shù)據(jù)存儲1060。同樣地,服務(wù)器1030操作上被連 接到一個或多個可以用來存儲對服務(wù)器1040本地的信息的服務(wù)器存儲1030。 作為示例而非限制,如上所述的匿名化系統(tǒng)及其變體可作為對于至少一個服務(wù) 器1030的web服務(wù)來提供。該web服務(wù)也可與多個其他服務(wù)器1030以及相 關(guān)聯(lián)的數(shù)據(jù)存儲1040通信地耦合,使其可用作對于客戶機1010的代理。
以上所己經(jīng)描述的內(nèi)容包括所要求保護的主題的各方面的例子。當然,出 于描繪所要求保護的主題的目的而描述每一個可以想到的組件或方法的組合 是不可能的,但本領(lǐng)域內(nèi)的普通技術(shù)人員應(yīng)該認識到,所要求保護的主題的許 多進一步的組合和排列都是可能的。因此,所公開的主題旨在涵蓋落入所附權(quán) 利要求書的精神和范圍內(nèi)的所有這些改變、修改和變動。此外,就在說明書或 權(quán)利要求書中使用術(shù)語"包含"、"具有"或"含有"及其形式上的變體而言,這 些術(shù)語旨在以與術(shù)語"包括"在被用作權(quán)利要求書中的過渡詞時所解釋的相似 的方式為包含性的。
權(quán)利要求
1. 一種計算機實現(xiàn)的系統(tǒng),包括以下計算機可執(zhí)行組件基于人口統(tǒng)計將句子歸納成分類的分類編碼器組件;以及擴充所述分類以形成本地化語言模型,以便搜索本地興趣的本地語言模型編碼器組件。
2. 如權(quán)利要求1所述的計算機實現(xiàn)的系統(tǒng),其特征在于,所述本地句子是査詢?nèi)罩镜男问健?br>
3. 如權(quán)利要求2所述的計算機實現(xiàn)的系統(tǒng),其特征在于,所述分類是樹結(jié) 構(gòu)的形式以歸納査詢?nèi)罩尽?br>
4. 如權(quán)利要求1所述的計算機實現(xiàn)的系統(tǒng),其特征在于,還包括具有通過 本地語言模型的分類來評估輸入數(shù)據(jù)以產(chǎn)生一組擴充的擴充組件的解碼器組 件。
5. 如權(quán)利要求3所述的計算機實現(xiàn)的系統(tǒng),其特征在于,所述樹結(jié)構(gòu)具有 基于預(yù)定準則來提升查詢的節(jié)點。
6. 如權(quán)利要求5所述的計算機實現(xiàn)的系統(tǒng),其特征在于,所述預(yù)定準則是 重要性測試準則。
7. 如權(quán)利要求1所述的計算機實現(xiàn)的系統(tǒng),其特征在于,還包括提供關(guān)于 用戶地點的信息以產(chǎn)生與本地興趣相關(guān)的擴充的本地上下文組件。
8. 如權(quán)利要求1所述的計算機實現(xiàn)的系統(tǒng),其特征在于,所述人口統(tǒng)計基 于時間和空間中的至少 一 個。
9. 如權(quán)利要求3所述的計算機實現(xiàn)的系統(tǒng),其特征在于,所述樹結(jié)構(gòu)是Kd樹結(jié)構(gòu)的形式。
10. 如權(quán)利要求1所述的計算機實現(xiàn)的系統(tǒng),其特征在于,還包括接受 來自用戶的輸入數(shù)據(jù)的接口組件。
11. 如權(quán)利要求1所述的計算機實現(xiàn)的系統(tǒng),其特征在于,還包括幫助 平滑所述分類的人工智能組件。
12. —種計算機實現(xiàn)的方法,包括以下計算機可執(zhí)行動作 基于人口統(tǒng)計以分類形式來歸納句子;以及 從所述分類中形成本地化語言模型。
13. 如權(quán)利要求12所述的計算機實現(xiàn)的方法,其特征在于,還包括通 過在所述分類的層次之間移動所述句子來平滑所述分類。
14. 如權(quán)利要求12所述的計算機實現(xiàn)的方法,其特征在于,所述歸納 動作包括以具有節(jié)點的樹結(jié)構(gòu)形式來歸納查詢?nèi)罩尽?br>
15. 如權(quán)利要求14所述的計算機實現(xiàn)的方法,其特征在于,所述形成 動作包括形成用于所述節(jié)點的本地語言模型。
16. 如權(quán)利要求13所述的計算機實現(xiàn)的方法,其特征在于,還包括基 于所述本地化語言擴充輸入。
17. 如權(quán)利要求14所述的計算機實現(xiàn)的方法,其特征在于,還包括基 于預(yù)定準則平滑所述樹結(jié)構(gòu)。
18. 如權(quán)利要求15所述的計算機實現(xiàn)的方法,其特征在于,還包括基 于預(yù)定重要性準則提升節(jié)點。
19. 如權(quán)利要求15所述的計算機實現(xiàn)的方法,其特征在于,還包括獲 得在從所述樹的葉節(jié)點到根節(jié)點的路徑上的每個節(jié)點中的k個最佳匹配,并且 組合所述k個最佳匹配。
20. —種計算機實現(xiàn)的系統(tǒng),包括以下計算機可執(zhí)行組件 用于基于人口統(tǒng)計形成本地語言模型的分類結(jié)構(gòu)的裝置; 用于從所述分類中創(chuàng)建本地化語言模型的裝置;以及 用于采用所述本地語言模型的分類結(jié)構(gòu)來幫助輸入本地興趣的擴充的裝
全文摘要
提供了創(chuàng)建一種語言中的句子分類,并基于地理位置和/或人口統(tǒng)計準則進一步構(gòu)造語言模型的相關(guān)聯(lián)的本地版本的各種系統(tǒng)和方法,其中這些本地語言模型根據(jù)所選人口統(tǒng)計準則可以是不同的粒度水平。本發(fā)明利用形成句子分類(例如,樹結(jié)構(gòu))的分類編碼器組件和利用該句子分類來構(gòu)造本地化語言模型的本地語言模型編碼器組件。解碼器組件可隨后通過混合來自匹配用戶人口統(tǒng)計的不同人口統(tǒng)計粒度的本地語言模型的k個最佳答案來啟用本地字輪和/或本地web搜索。因此,對于在一個人口統(tǒng)計地點的用戶的輸入數(shù)據(jù)的k個最佳匹配可不同于對于在另一個地點的其他用戶的相同輸入的k個最佳匹配。
文檔編號G06F17/30GK101438283SQ200780015952
公開日2009年5月20日 申請日期2007年4月5日 優(yōu)先權(quán)日2006年5月1日
發(fā)明者B·提爾森, K·W·丘奇 申請人:微軟公司