欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

查詢詞語的處理的制作方法

文檔序號:6455190閱讀:288來源:國知局
專利名稱:查詢詞語的處理的制作方法
查詢詞語的處理
背景技術
本發(fā)明涉及在處理搜索査詢中以及在包括文檔和其它可搜索資源 的庫上的搜索中處理語言不確定性,其中查詢和資源可以以多種不同 語言中的任何一種來表示。
搜索引擎對文檔進行索引并且提供方法來搜索其內(nèi)容由搜索引擎 迸行索引的文檔。文檔以許多不同的語言書寫; 一些文檔具有用多種 語言的內(nèi)容。各種字符被用來表示這些語言的單詞拉丁字母(即, 從A到Z的26個非重讀字符,大小寫體)、區(qū)別音符(即,重讀字符)、 連字(例如,A、 B、 CE)、西里爾字符以及其它。
遺憾的是,產(chǎn)生這些字符的能力和簡便性在裝置與裝置之間差別 極大。內(nèi)容的作者和搜索引擎的用戶可能都不能夠便利地產(chǎn)生其更喜 歡的字符。反而,這樣的裝置的用戶將經(jīng)常提供作為相近替代物的字 符或字符序列。例如,AE可以被提供來替代A。而且,這樣的替代的 慣例在語言和用戶之間不同。例如,搜索AE的某些用戶可能更喜歡看 見也包括A的結(jié)果。
用于解決在搜索引擎中的該問題的一種方法是處理索引內(nèi)容以移 除重音并將特殊字符轉(zhuǎn)換為一組標準字符。該方法從索引移除信息, 使得不可能僅檢索單詞的特定重讀實例。該方法也因語言不可知論 (agnosticism)而受損,其中所述語言不可知論不受這樣的用戶影響 所述用戶的預期由所述用戶的特定語言的慣例所形成。

發(fā)明內(nèi)容
本說明書公開了用于使用搜索査詢的詞語的技術的各種實施例。實施例表征為(feature)方法、系統(tǒng)、設備,包括計算機程序產(chǎn)品設備。 在本發(fā)明內(nèi)容中將參考方法描述這些中的每一個,對于所述方法存在
相對應的系統(tǒng)和設備。
一般而言,在一個方面中,方法具有以下特征通過用戶界面從 用戶接收包括一個或多個查詢詞語的搜索查詢,所述用戶界面具有界 面語言,所述界面語言是自然語言;以及從査詢詞語和界面語言為查 詢確定查詢語言,所述查詢語言是自然語言。這些和其它的實施例可 以可選地包括下列特征中的一個或多個。所述方法包括為多種語言的 每一種確定分值,所述分值指示查詢語言是多種語言中的一種的可能 性。所述方法包括使用査詢語言來選擇一個或多個映射并且使用所選 擇的一個或多個映射來將每一個查詢詞語簡化為相對應的簡化查詢詞 語;以及將每一個簡化查詢詞語應用于同義詞映射表以識別擴增 (augment)搜索查詢的可能的同義詞。所述方法包括為多種語言的每 一種確定分值,所述分值指示查詢語言是多種語言中的一種的可能性。
一般而言,在另一個方面,方法具有以下特征通過用戶界面從 用戶接收由一個或多個査詢詞語組成的搜索查詢,所述用戶界面具有 界面語言,所述界面語言是自然語言;使用界面語言來選擇一個或多 個映射并且使用所選擇的一個或多個映射來將每一個查詢詞語簡化為 相對應的簡化查詢詞語;以及將每一個簡化查詢詞語應用于同義詞映 射表以識別擴增搜索査詢的可能的同義詞。
一般而言,在另一個方面,方法具有以下特征從文檔庫生成同 義詞映射表,每一個文檔具有歸屬(attribute)于該文檔的文檔語言, 所述文檔語言每一種都是自然語言;其中同義詞映射表將多個鍵中的 每一個映射到一個或多個相對應的變體;以及每一個變體與文檔語言 中的一種或多種相關聯(lián)。這些和其它的實施例可以可選地包括下列特 征中的一個或多個。所述方法包括對于每一種相關聯(lián)的語言,每一 個變體與指示該變體在用于相同鍵的相關聯(lián)的語言的所有變體中的相對頻度的分值相關聯(lián)。自動確定每一個文檔的文檔語言歸屬。一般而言,在另一個方面,方法具有以下特征通過將依賴于語 言的映射的第一集合應用于庫中的單詞以為映射表生成鍵來從文檔庫 生成同義詞映射表,每一個文檔具有歸屬于該文檔的文檔語言,歸屬 于每一個文檔的文檔語言被用來確定應用于文檔中的單詞的依賴于語 言的映射。這些和其它的實施例可以可選地包括下列特征中的一個或 多個。所述方法包括通過將依賴于語言的映射的第二集合應用于每一 個査詢詞語來從搜索査詢中的每一個查詢詞語生成簡化查詢詞語,所 述搜索查詢具有歸屬于該搜索查詢的查詢語言,歸屬于該搜索查詢的 査詢語言被用來確定應用于每一個査詢詞語的依賴于語言的映射。依 賴于語言的映射的第一集合與依賴于語言的映射的第二集合不同。
一般而言,在另一個方面,方法具有以下特征通過將依賴于語 言的映射的第一集合應用于庫中的單詞以為映射表生成鍵來從文檔庫 生成同義詞映射表,每一個文檔具有歸屬于該文檔的文檔語言,歸屬 于每一個文檔的文檔語言被用來確定應用于文檔中的單詞的依賴于語 言的映射;通過將依賴于語言的映射的第二集合應用于搜索査詢中的 査詢詞語來從搜索査詢生成簡化査詢詞語,所述搜索査詢具有歸屬于 該搜索查詢的查詢語言,歸屬于該搜索查詢的查詢語言被用來確定應 用于査詢詞語的依賴于語言的映射;其中所述搜索查詢包括第一查詢 詞語,通過來自查詢語言所確定的依賴于語言的映射的第二集合的所 應用的依賴于語言的映射將第一查詢詞語映射到第一簡化査詢詞語, 通過査詢語言所確定的依賴于語言的映射的第一集合中的依賴于語言 的映射將第一查詢詞語映射到第一鍵,并且第一簡化查詢詞語與第一 鍵不同。這些和其它的實施例可以可選地包括下列特征中的一個或多 個。所述方法包括將界面語言歸屬于査詢作為查詢語言。
一般而言,在另一個方面中,方法具有以下特征通過用戶界面 從用戶接收包括查詢詞語的搜索査詢,所述搜索查詢具有歸屬于該搜索查詢的查詢語言;從查詢詞語獲得簡化査詢詞語;以及通過在同義 詞映射表中查找簡化查詢詞語為査詢詞語識別一個或多個潛在同義 詞,所述同義詞映射表將多個鍵中的每一個映射到一個或多個相對應 的變體,每一個變體是與一種或多種文檔語言相關聯(lián)的單詞,并且每 一個變體對于每一種相關聯(lián)的語言與指示該變體在用于相同鍵的相關 聯(lián)的語言的所有變體中的相對頻度的變體-語言分值相關聯(lián)。這些和其 它的實施例可以可選地包括下列特征中的一個或多個。所述方法包括 使用所歸屬的查詢語言和用于簡化查詢詞語的一個或多個變體的變體-語言分值來選擇變體以在擴增搜索查詢中使用。所述方法包括將界面 語言歸屬于査詢作為查詢語言。在搜索査詢具有歸屬于該搜索查詢的 多種査詢語言的情況下,每一種具有各自的查詢-語言分值,所述方法 進一步包括使用(a)査詢-語言分值以及(b)用于簡化査詢詞語的一 個或多個變體的變體-語言分值來選擇變體以在擴增搜索查詢中使用。 使用查詢-語言分值和變體-語言分值包括對所有語言的以下乘積求和 對于每一種語言,用于該語言的査詢-語言分值和用于該語言的變體-語言分值的乘積。
一般而言,在另一個方面中,方法具有以下特征通過用戶界面 從用戶接收由一個或多個查詢詞語組成的搜索查詢;以及接收在簡化 搜索査詢的査詢詞語中應用標音(transliteration)的用戶偏好的指示。 這些和其它的實施例可以可選地包括下列特征中的一個或多個。所述 方法包括如果用戶偏好是應用標音則在簡化搜索査詢的査詢詞語中 應用標音來生成簡化查詢詞語,否則在簡化搜索查詢的査詢詞語中不 應用標音來生成簡化查詢詞語;以及使用簡化查詢詞語來識別同義詞
以在擴增搜索查詢中使用。在簡化搜索查詢中應用標音的用戶偏好的 指示是對多種特定界面語言中的一種的用戶選擇。所述方法包括通過
用戶界面從用戶接收由一個或多個查詢詞語組成的搜索查詢;在簡化 搜索查詢的查詢詞語中應用標音來生成簡化査詢詞語;以及使用簡化 査詢詞語來識別同義詞以在擴增搜索查詢中使用。一般而言,在另一個方面中,方法具有以下特征通過用戶界面 從用戶接收由一個或多個原始査詢詞語組成的搜索查詢用于搜索文檔 的集合,所述用戶界面具有用戶界面語言;將用戶界面語言識別為小 規(guī)模語言或非小規(guī)模語言,小規(guī)模語言是在文檔的集合中具有相對較 少的表現(xiàn)的自然語言;將每一個查詢詞語簡化為簡化形式;以及如果 用戶界面語言是小規(guī)模語言,則對于具有與原始詞語不同的簡化形式 的每一個原始查詢詞語,使用原始查詢詞語本身并且不為査詢詞語提 供任何同義詞,而對于與其簡化形式相同的每一個原始查詢詞語,使 用簡化形式來為原始查詢詞語識別同義詞用于在擴增搜索査詢中使 用。這些和其它的實施例可以可選地包括下列特征中的一個或多個。 簡化每一個查詢詞語包括標音。
可以實現(xiàn)本發(fā)明的特定實施例以實現(xiàn)下列優(yōu)勢中的一個或多個。 系統(tǒng)可以正確地將適當?shù)闹匾籼砑拥接梦靼嘌勒Z或葡萄牙語的單詞, 其中重音在每一種語言中不同。系統(tǒng)可以正確地將重音添加到用與用 戶正與之交互的用戶界面的語言不同的語言的單詞。系統(tǒng)可以在適當 的情況下標音。系統(tǒng)可以避免將不必要的可區(qū)別變體添加到搜索查詢, 增加搜索結(jié)果將用用戶所希望的語言的可能性。
在附圖和下面的描述中闡述了本發(fā)明的一個或多個實施例的細 節(jié)。本發(fā)明的其它特征、方面和優(yōu)勢從描述和附圖以及從權利要求中 將是顯而易見的。


圖1是用于建立同義詞映射表的過程的流程圖。
圖2是用于從普通形式條目創(chuàng)建同義詞映射表的過程的流程圖。
圖3是重寫査詢的過程的流程圖。
圖4是同義詞映射表的圖示。
圖5A、 5B和5C以及6-34示出了轉(zhuǎn)換映射表組。
圖35是搜索引擎的框圖。
22在各個附圖中相同的引用數(shù)字和標記指示相同的元素。
具體實施例方式
如圖1中所示,過程100從文檔庫創(chuàng)建同義詞映射表。文檔可以
是HTML (超文本標記語言)文檔、PDF (便攜式文檔格式)文檔、文 本文檔、字處理文檔(例如,Microsoft Word文檔)、用戶網(wǎng)文章或 具有文本內(nèi)容(包括元數(shù)據(jù)內(nèi)容)的任何其它種類的文檔。過程100 也可以應用于其它種類的文本可搜索的資源,例如通過元數(shù)據(jù)識別的 媒體資源。
同義詞映射表包含作為鍵的普通形式的單詞,所述普通形式的單 詞中的每一個與一個或多個變體相關聯(lián)。例如,考慮在其中僅找到兩 種語言法語和英語的簡單庫。如果"elephant"是同義詞映射表中的 普通形式的條目,則如果在庫中找到變體"elephant" 、 "616phant"和 "el印hant",這些變體將作為值與該條目相關聯(lián)。每一個值也包括附 加信息變體的實例在其中出現(xiàn)的文檔的語言,以及變體以該語言出 現(xiàn)的次數(shù)。繼續(xù)該示例,在庫中,"el6phant"可能在被認為是英語的 文檔中被找到90次,并且在被認為是法語的文檔中被找到300次。
過程100在文檔的訓練庫上操作(步驟110)。文檔的訓練庫理 想地是代表包含在搜索庫中的文檔的文檔的集合。替選地,訓練庫和 搜索庫可以是相同的庫,或者訓練庫可以是搜索庫的快照或來自搜索 庫的提取部分。訓練庫應當包含來自在搜索庫中表現(xiàn)的所有語言的文 檔。訓練庫應當包含用每一種語言的足夠數(shù)量的文檔,以使文檔包含 在搜索庫中該語言的所有文檔內(nèi)找到的單詞的重要部分。
在一個實施方式中,以已知并且一致的字符編碼對訓練和搜索庫 中的每一個文檔編碼,所述字符編碼諸如8位統(tǒng)一轉(zhuǎn)換格式(UTF-8), 其可以以Unicode標準(即,大部分已知的字符和表意文字)來對任何 字符編碼。不一致或未知編碼的文檔須經(jīng)編碼轉(zhuǎn)換。在一個實施方式中,庫是web爬行器從Web發(fā)現(xiàn)的文檔的集合。
識別訓練庫中的每一個文檔的語言。確定每一個文檔的語言可以 明確地是過程100的一部分(步驟120)。替選地,文檔的語言可以是 包含在訓練庫中的信息的一部分。文檔或單詞的語言不一定簡單地對 應于自然語言。語言可以包括由其拼寫、語法、詞匯或詞法定義的任 何可區(qū)別的語言系統(tǒng)。例如,羅馬印度語言, 一組語言(例如孟加拉 語和印地語)的羅馬化標音的等價體,可被看作是在傳統(tǒng)拼寫字體中 獨立于孟加拉語和印地語兩者的語言。
文檔語言檢測過程使用統(tǒng)計學習理論。在一個實施方式中,其使 用樸素貝葉斯(Nai've Bayes)分類模型來計算可能的種類的可能性并 且預測具有最大可能性的種類。種類是語言/編碼對,例如英語/ASCII、
日語/Shift-JIS或俄語/UTF8,文檔可以用所述語言/編碼對來表示。某 些語言與多個種類相對應,因為可以用多種編碼對所述語言編碼,而 某些編碼與多個種類相對應,因為所述編碼可以被用來表示多種語言。
樸素貝葉斯模型被用來基于文本頁的文本和(可選地)統(tǒng)一資源 定位符(URL)為文本頁確定最可能的種類。
使用樸素貝葉斯模型來確定文本頁的編碼,所述樸素貝葉斯模型 基于表現(xiàn)文本的字節(jié)的配對來預測最大可能性的編碼。如果文本頁的 URL是可用的,假設文本來自某一頂級域(即,因特網(wǎng)域名的最后部 分)則該模型也將特定編碼的概率計算在內(nèi)。
在執(zhí)行語言檢測時將文本從其原始編碼轉(zhuǎn)換為Unicode,并且使用 特征來執(zhí)行該語言檢測。典型地,自然語言單詞是要用的最佳特征, 因此將文本分割成單詞。給定了語言,樸素貝葉斯模型計算各個單詞 的概率并且基于該概率來為文本預測最大可能性語言。
可以使用以各種編碼和語言的大量電子文檔樣本來訓練并測試樸素貝葉斯模型。訓練樸素貝葉斯模型實質(zhì)上是計算特征對于給定語言 的概率。
過程100創(chuàng)建包含在訓練庫中的所有文檔中找到的每個唯一單詞 的字典(步驟125)。根據(jù)在其中找到該單詞的文檔的所識別的語言來 對在庫中找到的給定單詞的每一個實例計數(shù)。將以每一種文檔語言的 每一個單詞的頻度記錄在字典中。例如,如果遇到200次hello—在被 識別為英語文檔的文檔內(nèi)150次以及在被識別為德語文檔的文檔內(nèi)50 次一則hello字典條目記錄在英語和德語文檔中找到了 hello并且分別 找到150和50次。
對于每一種語言,可以定義預定的字符黑名單。字符的黑名單是 在該語言的文檔中通常不會出現(xiàn)的字符的列表。字符的黑名單不一定 反映語言的嚴格固有特點。例如,'w'不在法語單詞中出現(xiàn),因此可 以將其添加到法語黑名單。然而,包含'w'的借用的和外來的單詞在 法語文檔中出現(xiàn)足夠多次,則可以從法語黑名單中排除'w'??梢匀?部地或部分地人工確定列表。替選地,可以統(tǒng)計地分析在已知為特定 語言的文檔中字符的出現(xiàn)次數(shù),以告知人工過程或自動產(chǎn)生字符的黑 名單。
過程100可以使用字符的黑名單來確定在訓練庫中找到的單詞是 否看起來違反語言的常規(guī)規(guī)則。忽略這樣的單詞,即不將這樣的單詞 插入字典中。例如,如果"QqWwXxYy"是用于匈牙利語的字符的黑 名單,則當在匈牙利語文檔中發(fā)現(xiàn)"xylophone"時將其忽略。
過程100將字典中的每一個單詞條目映射到用于單詞看起來是的 每一種語言的普通形式(步驟130)。通常,普通形式是符合簡化的、 標準的、規(guī)范的或其它一致的拼寫的單詞,例如沒有使用重讀字符來 表示的單詞。過程100根據(jù)預定義和特定于語言的映射來映射每一個 單詞。例如,映射將在識別為法語的文檔中找到的"616phant"轉(zhuǎn)換為 "elephant"。根據(jù)特定于語言的映射將單詞映射到普通形式。每一個特定于語 言的映射是一個或多個字符轉(zhuǎn)換映射表的集合。每一個轉(zhuǎn)換映射表指 定一個或多個輸入字符和一個或多個輸入字符被映射到的一個或多個 輸出字符。過程100以映射表的一個或多個輸出字符來替代與轉(zhuǎn)換映 射表的輸入相匹配的字符的最大序列(或前綴)。其它字符復制不變。 對于任何給定的單詞,該字符轉(zhuǎn)換過程的結(jié)果生成該單詞的普通形式。 設計來幫助最長前綴匹配的數(shù)據(jù)結(jié)構可以被用來存儲特定于語言的映
射(例如,査找樹(trie)或前綴樹)。
例如,來自俄語文檔的"Bo諷a"被映射到"BO諷a"(未改變), 而在塞爾維亞語文檔中的"Bo諷a"被映射到"vodka"。特定于語言的 轉(zhuǎn)換旨在捕捉那些語言的作者的預期。這反映了雖然俄語作家可能提 供"BO厚a",但是塞爾維亞語習慣暗示在搜索查詢中西里爾語單詞更 常作為羅馬化標音的等價體給出。
指定多于一個輸入字符的轉(zhuǎn)換映射表是用于映射包含可疊縮連字 的單詞的轉(zhuǎn)換的特殊情況。可疊縮連字是兩個字符組合,在某些語言 中其可被表現(xiàn)為單個、通常重讀的字符。例如,德語轉(zhuǎn)換暗示如果
不能被排版,則'Ue'或'UE'是適當?shù)奶娲w。因此德語文檔可以 將單詞"tiber"拼作"ueber"。在映射到普通形式期間,兩個字符轉(zhuǎn) 換映射表將經(jīng)常疊縮可疊縮的連字并且將結(jié)果去重音。例如,在一個 實施方式中,德語轉(zhuǎn)換映射表將"ueber"和"iiber"都轉(zhuǎn)換為"uber"。
過程100從普通形式映射、字典條目以及條目的相關聯(lián)的語言統(tǒng) 計來創(chuàng)建同義詞映射表(步驟150)。如上所獲得的每一個不同的普通 形式成為同義詞映射表中的鍵。映射到給定鍵的字典條目使用用于條 目的語言的每一種的映射成為鍵的值。在同義詞映射表中,字典條目 將被稱為變體。通常,每一個鍵與多個變體相關聯(lián),變體中的每一個 與變體的語言統(tǒng)計相關聯(lián)。倘若是在上述示例中的映射,"BO諷a"是一個鍵,其值指的是與俄語(而非塞爾維亞語)相關聯(lián)的至少一個變
體"BO耶a(chǎn)"。此外,"vodka"是另一個鍵,其值指的是與塞爾維亞語 (而非俄語)相關聯(lián)的至少一個變體"Bo耶a(chǎn)"。
圖2示出了用于創(chuàng)建同義詞映射表(圖1的步驟150)的過程200 的一個實施方式。過程200包括接收普通形式條目,如上所述(步驟 210)。從同義詞映射表中略去僅包含與其普通形式相同的一個變體的 任何普通形式條目(步驟220)。這樣的條目不為普通形式提供同義詞。
過程200也移除與具有未超過預定義的絕對閾值的頻度的變體相 關聯(lián)的任何語言(步驟230)。絕對閾值是預先確定的并且以每一種語 言為基礎來指定。這種閾值被用來移除在訓練庫中可能被拼錯或弄錯 的變體。對于在訓練庫中被充分表現(xiàn)的語言,大的閾值(例如,用于 英語是40)將通常略去微弱的拼錯。用于未被充分表現(xiàn)的小規(guī)模語言 的閾值將被設置為較低(例如10)以保留合法但罕見的單詞。對于在 庫中被不足地表現(xiàn)的語言,閾值可以被關閉(或被設置為0)。
在特定語言內(nèi),如果變體包含疊縮連字并且其重讀等價體也不是 用于鍵的變體,則過程200略去用于該鍵的該變體(步驟240)。
某些變體僅依賴于其重音就可能具有不同的含意。為了避免這樣 的變體對同義詞映射表的不希望的污染,可以定義特定于語言的單詞 黑名單。每一個黑名單包含應當不是與給定語言相關聯(lián)的變體的單詞
列表。如果變體在語言的黑名單上,則該語言被從變體解除關聯(lián)。例 如,如果"the"在法語黑名單上,則其普通形式是"the"的變體不能 與法語相關聯(lián)。這防止了在英語"the"和法語"th6"之間的混淆。
對于每一個鍵,計算每一個變體在用于特定語言的所有變體中的 相對頻度(步驟250)。為了計算在給定語言中任何給定變體的相對頻 度,對于相同的鍵,將該變體在該語言中出現(xiàn)的次數(shù)除以在相同語言中所有變體的出現(xiàn)的總數(shù)。例如,如果鍵是"dephant",并且"616phant" 在英語和法語中分別出現(xiàn)了 100和IOOO次;以及"el印hant"在英語和 法語中分別出現(xiàn)了卯和300次,則在英語中"^6phant"的相對頻度是 52%(即,100/(100 + 90))。在一個實施方式中,對于每一種語言每一 個變體的相對頻度被存儲在同義詞映射表中。
如果語言的相對頻度不滿足預定義的相對閾值(例如10%)則過 程200從同義詞映射表的每一個變體移除該任何語言(步驟260)。相 同的閾值應用于所有變體和所有語言。也從同義詞映射表移除不與至 少一種語言相關聯(lián)的任何變體(步驟270)。
為了說明性的目的,過程200已被描述為例如通過從現(xiàn)有同義詞 映射表移除條目或變體來改變該現(xiàn)有同義詞映射表的過程。替選地, 在同義詞映射表的初始構造期間通過首先不包括某些條目或變體可以 獲得相同的效果。
在圖4中示出了說明性的示例同義詞映射表。該圖示假設庫由四 種語言表現(xiàn)英語、法語、羅馬印度語和孟加拉語。該映射表包含三 個鍵"elephant" 、 "liberte"和"nityananda"。每一個鍵與多個變 體相關聯(lián)。具體地,變體"nity.a-nanda" (410)在來自庫的被識別為 羅馬印度語和孟加拉語的文檔中出現(xiàn)。然而,該變體在每一種語言中
僅出現(xiàn)6次。如果為每一種語言指定了大于6的絕對閾值,則將從同 義詞映射表中移除這些語言和變體。
變體"ni矽an紐da"在三種語言中出現(xiàn)(430),根據(jù)語言的相對 頻度,與每一種語言中的其它變體相比較該變體相對較小。如果應用 10%的相對頻度閾值,則這些語言和整個變體將被從同義詞映射表移 除。假設相同的相對閾值用于"nityAnanda"變體,與孟加拉語(420) 的關聯(lián)也將被移除。該變體和其余的該變體的語言關聯(lián)將保留,因為 這些其它語言每一種都頻繁出現(xiàn)足以超過假設的相對和絕對閾值??梢岳猛x詞映射表進行的有用的事之一是使用該同義詞映射 表來擴增對搜索引擎的查詢。
如圖3中所示,過程300可以被用來擴增查詢以合并來自同義詞 映射表的同義詞。實際上,接收(步驟310)的查詢通常未完美描述用
戶的想要的査詢。用戶受輸入裝置的局限性和精確指示査詢的語言的 不便所約束。理想的同義詞是反映用戶在理想的環(huán)境下將提供的內(nèi)容
的那些詞。過程300旨在通過對相對于查詢中的單詞和用戶意指的語 言的同義詞映射表中的變體評分來逼近理想的同義詞,所述用戶意指 的語言由查詢的語言逼近。
過程300確定接收了査詢的界面的語言(步驟315)。用戶將查 詢提供給界面。該界面將具有界面語言,即界面向用戶展示信息所用 的語言,例如英語、法語或世界語。然而,在査詢內(nèi)的單詞不一定用 與查詢被提供到的界面相同的語言。
過程300識別來自查詢的各個單詞(步驟320)。單詞的識別依 賴于査詢語言的特定慣例。例如,在拉丁字體語言中,單詞通過空格 或其它標點(例如'-')分割。
過程300確定査詢可能是用的何種語言(步驟325)。在一個實 施方式中,以兩部分來確定査詢語言確定查詢是用界面的語言的可 能性,例如概率;以及對于查詢中的每一個詞語確定該詞語是用某種 特定語言的可能性,例如概率。
確定査詢是否可能是用與界面語言相同的語言可以使用過去的查 詢來進行。如果過去的査詢遞送了搜索結(jié)果,則過去的查詢可以基于 用戶隨后選擇的結(jié)果的語言被自動分類為用特定語言。以下假設是合 理的查詢的語言與用戶選擇查看的文檔的語言相同,尤其是如果選擇的展現(xiàn)包括來自搜索結(jié)果文檔的摘錄。也可以人工檢查過去的査詢 來確定其語言。自動和人工技術可以被組合已被人工分類的查詢用 作在自動確定期間使用的種子以提高精確度。自動分類器的結(jié)果可以 告知分類器的后繼調(diào)整。人工確定種子和査詢分類器的調(diào)整可以被反 復重復以進一步提高精確度。將當前查詢整體與相同界面接收的過去 査詢相匹配,生成査詢是用與界面語言相同的語言的可能性分值或概 率。
過程300確定來自查詢的詞語在庫中在用于每一種語言的文檔內(nèi) 出現(xiàn)的頻度。從頻度計數(shù)生成向量,該向量對于每一種語言給出詞語 用該語言的在0到1的范圍內(nèi)的可能性分值。為查詢中的每一個詞語 生成分值向量,例如概率向量。
例如專有名稱(例如因特網(wǎng))的以許多不同的語言出現(xiàn)的單詞可 能過度影響用于査詢的分值向量。如果在査詢詞語中找到這樣的單詞, 則所述單詞的分值可被任意設置以表明該單詞可能是用界面語言。替 選地,這樣的單詞可以被忽略。
過程300可以通過平滑每一個向量來進一步處理每一個向量。在 一個實施方式中,在計算向量時,添加小的平滑值s以減少噪聲。例如, 如果詞語t在語言L中出現(xiàn)n次并且在整個k種語言中出現(xiàn)N次,則 該詞語是用該語言的概率被平滑為P(L|t)=(n+s)/( kxs+N),而非 P(L|t)=n/N。平滑值可以根據(jù)N和k的大小來選擇。例如,s可被選擇 以隨著N增大而增大并且隨著k增大而減小。
將來自先前步驟的所有向量相乘。合成向量與查詢是用界面的語 言的概率(或分值)相乘,產(chǎn)生査詢概率(或分值)向量。該査詢概 率向量包含對于每一種語言,査詢是用該語言的概率(或分值)。將 具有最大概率(或分值)的語言選擇為歸屬于該查詢的査詢語言。過程300簡化查詢中的每一個單詞(步驟330)。在簡化每一個 單詞中,過程疊縮連字、移除重音以及對每一個單詞中的字符標音。 這以與如上所述的從訓練庫獲取普通形式完全相同的方式來完成。然 而,在此使用來簡化查詢單詞的特定轉(zhuǎn)換映射表在某些方面與在創(chuàng)建 同義詞映射表中使用的轉(zhuǎn)換映射表不同。具體地,簡化每一個單詞通 常獨立于語言。
然而,在特定情況中,所識別的查詢語言可以影響如何簡化査詢 單詞。當單詞簡化的結(jié)果在查詢語言中無意義時這尤其重要。例如, 在土耳其語中'ue'是用于的無意義替代物,與德語中不同。對 于土耳其語用戶將"Ttirk"簡化為"Tuerk"將是不希望的。
通常,來自查詢的簡化單詞被用來使用作為鍵的每一個簡化單詞 從同義詞映射表查找和檢索變體(步驟340)。每一個變體都是原始査 詢單詞的潛在同義詞。在每一種語言內(nèi)的每一個變體的鍵下的相對頻 度被用來估計該變體是否被期望作為用于每一種語言中的鍵的同義詞 (步驟350)。該估計通過對以下乘積求和來計算對于每一種語言, 查詢是用該語言的概率與在該語言中的變體的相對頻度相乘。例如, 考慮當"61印hant"在英語中52%的次數(shù)是變體而在法語中77%的次數(shù) 是變體時。然后對于查詢,被確定可能是用英語具有70%的概率而被 確定可能是用法語具有30%的概率,用于"616phant"的合成估計為-52%X70%+77%X30% =59.5%。如果所計算的估計超過同義詞概率閾 值(例如50%),則該變體被選擇來擴增査詢。給定同義詞映射表中 的語言統(tǒng)計和査詢語言分類器提供的概率,選擇特定同義詞概率閾值 來提供優(yōu)良結(jié)果。在變體在給定語言中是可疊縮連字的結(jié)果的特殊情 況中,則在計算該變體的估計時降低該變體的相對頻度(例如變?yōu)樗?分之一)。對變體的相對頻度的這種懲罰反映不恰當?shù)丿B縮了變體的 連字的潛在風險。
將每一個所選擇的變體添加到査詢(步驟360),除非變體是無用詞以及變體在可能的査詢語言中未出現(xiàn)這樣的變體被忽略。用來 自査詢的每一個原始詞語的每一個所選擇的變體來擴增該原始詞語。
每一個變體作為與原始詞語的聯(lián)合被附加。例如,査詢"el6phanttrunk" 被擴增為"(el6phant or elephant or 616phant) trunk",其中假設elephant 和616phant都被選擇為用于el6phant的變體。
過程使用已擴增的查詢來搜索搜索庫(步驟370)。搜索庫包含 處于其原始、未改變的形式的文檔。除擴增查詢的影響外,從庫搜索 并提供結(jié)果不會另外受影響。
如果可能的查詢語言是搜索庫中未被充分表現(xiàn)的語言(即,全部 文檔的很小比例),則可能不希望包括來自同義詞映射表的變體。將 變體添加到搜索查詢增加了與來自所希望的語言外的文檔相匹配的風 險,潛在地使結(jié)果中充斥了大量其它語言的文檔。然而,當原始査詢 單詞僅包含非重讀的字母并且沒有包含可疊縮的連字(例如,"ueber", 被簡化為"uber")時,則應當不考慮可能的査詢語言來尋找變體。在 一個實施方式中,包括變體的決定取決于界面語言而非查詢語言。
圖5A至圖34示出了用來映射訓練庫中的單詞或用來簡化搜索查 詢中的單詞的轉(zhuǎn)換映射表的一個實施方式。每一個圖示出了一個或多 個轉(zhuǎn)換映射表的命名組。每一個轉(zhuǎn)換映射表被示出為圖中一列中的一 行。轉(zhuǎn)換映射表被示為至少具有與如上所述的輸入字符和輸出字符。 另外,標記為"UCS"的列根據(jù)通用字符集(UCS)示出了字符的編碼 的十六進制值。當未給出UCS值時,每一個字符是95個可印刷的ASCII 字符中的一個。
根據(jù)便捷或慣例而非必要來管制轉(zhuǎn)換映射表的分組 一個或多個 轉(zhuǎn)換映射表組可以構成用于特定語言的特定于語言的映射。用于特定 語言的組的組合可以取決于所述組是否被用來映射訓練庫中的單詞或 用來簡化查詢中的單詞。圖5A、 5B和5C示出了通用轉(zhuǎn)換映射表組。通常,這些是不可能 與關于特定語言的轉(zhuǎn)換映射表相沖突的安全轉(zhuǎn)換映射表。
圖6示出了俄語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的生 成期間映射來自俄語文檔的單詞。
圖7示出了馬其頓語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自馬其頓語文檔的單詞。
圖8示出了烏克蘭語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自烏克蘭語文檔的單詞。
圖9示出了希臘語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的 生成期間映射來自希臘語文檔的單詞。
如圖10和圖11中所示,某些轉(zhuǎn)換映射表也指定疊縮的連字的重 讀等價體(在圖中加標題"A.E."的列)。這些映射表具有兩個字符輸 入(即可疊縮的連字)和一個輸出(疊縮的連字)。該信息可以被用 來確定兩個字符(輸入)是否是可疊縮的連字。替選地,該信息也指 示特定字符(輸出)是否可能是可疊縮的連字的結(jié)果。
圖10示出了世界語H/X-體系轉(zhuǎn)換映射表組。該組被用來在同義 詞映射表的生成期間映射來自世界語文檔的單詞。
圖11示出了 Ch和ShZh轉(zhuǎn)換映射表組。該組在同義詞映射表的 生成和査詢詞語簡化期間與其它組相組合。
圖12示出了克羅地亞語轉(zhuǎn)換映射表組。該組被用來在同義詞映射 表的生成期間映射來自克羅地亞語文檔的單詞。通用、Ch、 ShZh、 A-
33元音變音、O-元音變音、U-元音變音和Y-元音變音組被組合并且被用 來簡化被識別為克羅地亞語的査詢詞語。A-元音變音、O-元音變音、 U-元音變音和Y-元音變音組將在下面參考圖23描述。
圖13示出了加泰羅尼亞語轉(zhuǎn)換映射表組。該組被用來在同義詞映 射表的生成期間映射來自加泰羅尼亞語文檔的單詞。
圖14示出了塞爾維亞語轉(zhuǎn)換映射表組。該組與克羅地亞語組相組 合并且被用來在同義詞映射表的生成期間映射來自塞爾維亞語文檔的 單詞。通用、A-元音變音、O-元音變音、U-元音變音、Y-元音變音、 Ch、 ShZh和塞爾維亞語組被組合并且被用來簡化被識別為塞爾維亞語 的査詢詞語。
圖15示出了法語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的生 成期間映射來自法語文檔的單詞。
圖16示出了意大利語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自意大利語文檔的單詞。
圖17示出了葡萄牙語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自葡萄牙語文檔的單詞。
圖18示出了羅馬尼亞語轉(zhuǎn)換映射表組。該組被用來在同義詞映射 表的生成期間映射來自羅馬尼亞語文檔的單詞。
圖19示出了西班牙語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自西班牙語文檔的單詞。
圖20示出了荷蘭語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的 生成期間映射來自荷蘭語文檔的單詞。通用、A-元音變音、O-元音變音、U-元音變音和荷蘭語-Y組被組合并且被用來簡化被識別為荷蘭語
的査詢詞語。
圖21示出了丹麥語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的 生成期間映射來自丹麥語文檔的單詞。
圖22示出了英語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的生 成期間映射來自英語文檔的單詞。
圖22還示出了德語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的 生成期間映射來自德語文檔的單詞。通用、Y-元音變音和德語元音變 音組被用來簡化被識別為德語的査詢詞語。
圖22還示出了荷蘭語-Y轉(zhuǎn)換映射表組。該組與其它組相組合來 簡化被識別為荷蘭語的查詢詞語。
圖22還示出了德語元音變音轉(zhuǎn)換映射表組。該組與其它組相組合 來簡化被識別為德語的査詢詞語。
圖22還示出了瑞典語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自瑞典語文檔的單詞。通用、U-元音變音和Y-元音 變音組被用來簡化被識別為瑞典語或芬蘭語的查詢詞語。
圖23示出了四個組A-元音變音、O-元音變音、U-元音變音和 Y-元音變音組。這些組被用來與其它組相組合以簡化查詢詞語。
圖24示出了冰島語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的 生成期間映射來自冰島語文檔的單詞。
圖25示出了捷克語轉(zhuǎn)換映射表組。該組與ShZh組相組合并且被用來在同義詞映射表的生成期間映射來自捷克語文檔的單詞。通用、
A-元音變音、O-元音變音、U-元音變音、Y-元音變音和ShZh組被用來 簡化被識別為捷克語的查詢詞語。
圖26示出了拉脫維亞語轉(zhuǎn)換映射表組。該組與Ch和ShZh組相 組合并且被用來在同義詞映射表的生成期間映射來自拉脫維亞語文檔 的單詞。通用、A-元音變音、O-元音變音、U-元音變音、Y-元音變音、 Ch和ShZh組被用來簡化被識別為拉脫維亞語的査詢詞語。
圖27示出了立陶宛語轉(zhuǎn)換映射表組。該組與Ch和ShZh組相組 合并且被用來在同義詞映射表的生成期間映射來自立陶宛語文檔的單 詞。通用、A-元音變音、O-元音變音、U-元音變音、Y-元音變音、Ch 和ShZh組被用來簡化被識別為立陶宛語的查詢詞語。
圖28示出了波蘭語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表的 生成期間映射來自波蘭語文檔的單詞。
圖29示出了斯洛伐克語轉(zhuǎn)換映射表組。該組與ShZh組相組合并 且被用來在同義詞映射表的生成期間映射來自斯洛伐克語文檔的單 詞。通用、A-元音變音、O-元音變音、U-元音變音、Y-元音變音和ShZh 組被組合并且被用來簡化被識別為斯洛伐克語的查詢詞語。
圖30示出了斯洛文尼亞語轉(zhuǎn)換映射表組。該組與Ch和ShZh組 相組合并且被用來在同義詞映射表的生成期間映射來自斯洛文尼亞語 文檔的單詞。
圖31示出了愛沙尼亞語轉(zhuǎn)換映射表組。該組與Ch和ShZh組相 組合并且被用來在同義詞映射表的生成期間映射來自愛沙尼亞語文檔 的單詞。通用、A-元音變音、O-元音變音、U-元音變音、Y-元音變音、 Ch和ShZh組被組合并且被用來簡化被識別為愛沙尼亞語的查詢詞語。圖32示出了匈牙利語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自匈牙利語文檔的單詞。
圖33示出了世界語轉(zhuǎn)換映射表組。該組與世界語HX-體系組相組 合并且被用來在同義詞映射表的生成期間映射來自世界語文檔的單 詞。通用、A-元音變音、O-元音變音、U-元音變音、Y-元音變音和世 界語HX-體系組被組合并且被用來簡化被識別為世界語的査詢詞語。
圖34示出了土耳其語轉(zhuǎn)換映射表組。該組被用來在同義詞映射表 的生成期間映射來自土耳其語文檔的單詞。
下面的表示出了哪些轉(zhuǎn)換映射表組可以被用來在同義詞映射表的 生成期間映射單詞。每一種語言被指定了其字符黑名單(如上所述) 和一個或多個轉(zhuǎn)換映射表組,所述轉(zhuǎn)換映射表組一起構成在從訓練庫 中的單詞獲得普通形式時使用的一套轉(zhuǎn)換映射表。;五古 ^口 o字符黑名單轉(zhuǎn)換映射表
加泰羅尼亞語kw加泰羅尼亞語
法語法語
意大利語jkwxy意大利語
葡萄牙語kw葡萄牙語
羅馬尼亞語kqwy羅馬尼亞語
西班牙語w西班牙語
丹麥語丹麥語
荷蘭語荷蘭語
英語英語
德語德語
冰島語cqw冰島語
瑞典語瑞典語
愛沙尼亞語qwxyCh、 ShZh、愛沙尼亞語
芬蘭語bcfqwxz
匈牙利語qwxy匈牙利語
希臘語希臘語
土耳其語qwx土耳其語
克羅地亞語qwxy克羅地亞語
捷克語qwxShZh、捷克語
拉脫維亞語qwxyCh、 ShZh、拉脫維亞語
立陶宛語qwxyCh、 ShZh、立陶宛語
馬其頓語馬其頓語
挪威語丹麥語
波蘭語qvx波蘭語
俄語俄語
塞爾維亞語qwxy克羅地亞語、塞爾維亞語
斯洛伐克語qwShZh、斯洛伐克語
斯洛文尼亞語qwxyCh、 ShZh、斯洛文尼亞語
烏克蘭語烏克蘭語
世界語qwxy世界語(hx-體系)、世界語圖35是接收多語言查詢并且作為響應提供多語言結(jié)果的搜索引擎3550的示意圖。系統(tǒng)3550通常被配置來從各種源獲取與詞語的出現(xiàn)和頻度有關的信息,并且基于在這樣的源中的單詞使用的分析響應于查詢生成搜索結(jié)果。這樣的源可以包括例如在因特網(wǎng)上找到的多語言文檔和文件。
系統(tǒng)3550包括一個或多個界面3552,其中每一個用不同的語言。界面允許用戶使用搜索引擎的服務并且允許用戶與搜索引擎的服務相交互。具體地,界面從用戶接收查詢。査詢包括一列單詞,其中每一個單詞可以用任何的語言。査詢中的單詞不需要用界面的語言。接收用戶的査詢的特定界面3552取決于對界面的用戶的選擇。
系統(tǒng)3550可以被通信地連接到諸如因特網(wǎng)3558的網(wǎng)絡,并且因此可以與連接到因特網(wǎng)的各種裝置通信,所述裝置諸如無線通信裝置3562和個人計算機3564。用于任何裝置的通信流可以是雙向的,以使系統(tǒng)3550從裝置接收信息(例如,查詢或文檔的內(nèi)容)并且也可以將信息(例如結(jié)果)發(fā)送到裝置。
界面3552接收的查詢被提供給查詢處理器3566。査詢處理器3566處理査詢、可選地擴增查詢并且將査詢傳遞給系統(tǒng)3550的另一個組件。例如,査詢處理器3566可以促使檢索系統(tǒng)3570生成與查詢相對應的搜索結(jié)果。這樣的檢索系統(tǒng)3570可以使用如Google PageRankTM系統(tǒng)使用的數(shù)據(jù)檢索和搜索技術。檢索系統(tǒng)3570生成的結(jié)果然后可以被提供回原始查詢裝置。
系統(tǒng)3550為了其適當?shù)牟僮骺梢砸揽慷鄠€其它的組件。例如,每當發(fā)出請求時系統(tǒng)3550參考文檔的搜索庫3572。搜索庫可以被索引以使搜索更有效。使用從在Web上找到的文檔(例如,通過web爬行器)收集的信息可以填增搜索庫。文檔也可以被存儲在訓練庫3574中用于以后處理。訓練庫3574可以由同義詞處理器3580處理。同義詞處理器3580可以從訓練庫3574生成同義詞映射表3585。同義詞映射表3585可以由查詢處理器3566使用來用同義詞擴增搜索査詢。
在本說明書中描述的本發(fā)明的實施例和所有功能性操作可以在數(shù)字電子電路中、或在計算機軟件、固件或硬件(包括在本說明書中公開的結(jié)構以及其結(jié)構等價體中)或在上述中的一個或多個的組合中來實現(xiàn)。本發(fā)明的實施例可以作為一個或多個計算機程序產(chǎn)品來實現(xiàn),所述計算機程序產(chǎn)品即用于被數(shù)據(jù)處理設備執(zhí)行或控制數(shù)據(jù)處理設備的操作的編碼在計算機可讀介質(zhì)上的計算機程序指令的一個或多個模塊。計算機可讀介質(zhì)可以是機器可讀存儲裝置、機器可讀存儲基片、存儲裝置、實現(xiàn)機器可讀傳播信號的物質(zhì)的合成物或上述中的一個或多個的組合。術語"數(shù)據(jù)處理設備"涵蓋用于處理數(shù)據(jù)的所有設備、裝置和機器,以示例的方式包括可編程處理器、計算機、或多處理器或計算機。除硬件外,設備可以包括創(chuàng)建用于正討論的計算機程序的執(zhí)行環(huán)境的代碼,例如構成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或上述中的一個或多個的組合的代碼。傳播信號是人為生成的信號,例如機器生成的電、光或電磁信號,其被生成來對信息編碼用以傳輸?shù)竭m當?shù)慕邮照咴O備。
計算機程序(也被稱為程序、軟件、軟件應用、腳本或代碼)可以以任何形式的編程語言來編寫,包括編譯或解釋語言,并且其可以以任何形式來部署,包括作為單機程序或作為適合于在計算環(huán)境中使用的模塊、組件、子程序或其它單元。計算機程序不一定與文件系統(tǒng)中的文件相對應。程序可以被存儲在保存其它程序或數(shù)據(jù)的文件的一部分中(例如,存儲在標記語言文檔中的一個或多個腳本)、被存儲在專用于正討論的程序的單個文件中、或被存儲在多個同等文件(例如,存儲一個或多個模塊、子程序或代碼部分的文件)中。計算機程序可以被部署來在一個計算機上或在多個計算機上執(zhí)行,所述多個計算機位于一個地點或分布在多個地點并且通過通信網(wǎng)絡相互連接。
在本說明書中描述的過程和邏輯流程可以由一個或多個可編程的處理器來執(zhí)行,所述一個或多個可編程的處理器執(zhí)行一個或多個計算機程序以通過操作輸入數(shù)據(jù)并且生成輸出來執(zhí)行功能。過程和邏輯流程也可以由專用邏輯電路來執(zhí)行,并且設備也可以被實現(xiàn)為專用邏輯
電路,所述專用邏輯電路例如FPGA (現(xiàn)場可編程門陣列)或ASIC (專用集成電路)。
適合于執(zhí)行計算機程序的處理器包括,以示例的方式,通用和專用微處理器以及任何種類的數(shù)字計算機的任何一個或多個處理器。通常,處理器將從只讀存儲器或隨機存取存儲器或其兩者接收指令和數(shù)據(jù)。計算機的基本元件是用于執(zhí)行指令的處理器和用于存儲指令和數(shù)據(jù)的一個或多個存儲裝置。通常,計算機也將包括用于存儲數(shù)據(jù)的一個或多個海量存儲裝置,或操作地連接以從所述一個或多個海量存儲裝置接收數(shù)據(jù)或?qū)?shù)據(jù)轉(zhuǎn)送到所述一個或多個海量存儲裝置,或兩者,所述海量存儲裝置例如是磁、磁光盤或光盤。然而,計算機不需要具有這樣的裝置。此外,計算機可以被嵌入另一個裝置中,所述裝置例如是移動電話、個人數(shù)字助理(PDA)、移動音頻播放器、全球定位系統(tǒng)(GPS)接收器,僅指出了一些。適合于存儲計算機程序指令和數(shù)據(jù)的計算機可讀介質(zhì)包括所有形式的非易失性存儲器、介質(zhì)和存儲裝置,以示例的方式包括例如EPROM、 EEPROM和閃存裝置的半導體存儲裝置;磁盤,例如內(nèi)部硬盤或可移動盤;磁光盤;以及CD-ROM和DVD-ROM盤。處理器和存儲器可以由專用邏輯電路增補,或并入到專用邏輯電路中。
為了提供與用戶的交互,本發(fā)明的實施例可以在具有以下裝置的計算機上實現(xiàn)用于向用戶顯示信息的顯示裝置,例如CRT (陰極射線管)或LCD (液晶顯示)監(jiān)視器,和通過其用戶可以向計算機提供輸入的鍵盤和例如鼠標或跟蹤球的指向裝置。其它種類的裝置也可以被用來提供與用戶的交互;例如,提供給用戶的反饋可以是任何形式的感官反饋,例如視覺反饋、聽覺反饋或觸覺反饋;以及可以以任何形式接收來自用戶的輸入,包括聲音、語音或觸覺輸入。
本發(fā)明的實施例可以在計算系統(tǒng)中實現(xiàn),所述計算系統(tǒng)包括例如作為數(shù)據(jù)服務器的后端組件,或包括例如應用服務器的中間件組件,或包括前端組件,例如通過其用戶可以與本發(fā)明的實施方式相交互的具有圖形用戶界面或Web瀏覽器的客戶端計算機,或一個或多個這樣的后端、中間件或前端組件的任何組合。系統(tǒng)的組件可以通過任何形式或介質(zhì)的數(shù)字數(shù)據(jù)通信來相互連接,所述數(shù)字數(shù)據(jù)通信例如是通信網(wǎng)絡。通信網(wǎng)絡的示例包括局域網(wǎng)("LAN")和例如因特網(wǎng)的廣域網(wǎng)("WAN")。
計算系統(tǒng)可以包括客戶端和服務器。客戶端和服務器通常相互遠離并且典型地通過通信網(wǎng)絡相交互??蛻舳撕头掌鞯年P系由在各個計算機上運行并且相互間具有客戶端-服務器關系的計算機程序產(chǎn)生。
雖然本發(fā)明包含許多細節(jié),但是這些不應當被解釋為對本發(fā)明或?qū)赡苤鲝埖臋嗬姆秶南拗?,而是作為具體到本發(fā)明的特定實施例的特征的描述。在本說明書中在不同實施例的上下文中描述的某些特征也可以組合到單個實施例中實現(xiàn)。反之,在單個實施例的上下文中描述的各種特征也可以在多個實施例中分別實現(xiàn)或在任何適當?shù)淖咏M合中實現(xiàn)。此外,盡管特征在上面可能被描述為在某些組合中起作用并且甚至最初主張為如此,但是來自所主張的組合的一個或多個特征在某些情況中可以從組合中刪除,并且所主張的組合可以被導向到子組合或子組合的變形。
類似地,雖然在附圖中以特定的次序來描述操作,但是不應當理解為需要按示出的特定次序或按順序次序來執(zhí)行這樣的操作、或需要執(zhí)行所有示出的操作來實現(xiàn)希望的結(jié)果。在某些情況下,多任務和并行處理可以是有利的。此外,如上所述的實施例中的各種系統(tǒng)組件的分離不應當理解為在所有的實施例中都需要這樣的分離,并且應當理解,所描述的程序組件和系統(tǒng)通??梢员还餐稍趩蝹€軟件產(chǎn)品中或被封裝入多個軟件產(chǎn)品中。
因此,描述了本發(fā)明的特定實施例。其它的實施例在下面的權利要求的范圍內(nèi)。例如,在權利要求中陳述的行為可以以不同的次序執(zhí)行并且仍實現(xiàn)希望的結(jié)果。
權利要求
1. 一種計算機實現(xiàn)的方法,包括通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索查詢,所述用戶界面具有界面語言,所述界面語言是自然語言;以及從所述查詢詞語和所述界面語言為所述查詢確定查詢語言,所述查詢語言是自然語言。
2. 如權利要求l所述的方法,進一步包括為多種語言的每一種確定分值,所述分值指示所述查詢語言是所 述多種語言中的一種的可能性。
3. 如權利要求l所述的方法,進一步包括使用所述査詢語言來選擇一個或多個映射并且使用所選擇的一個 或多個映射來將每一個查詢詞語簡化為相對應的簡化查詢詞語;以及 將每一個簡化查詢詞語應用于同義詞映射表以識別用來擴增所述搜索查詢的可能的同義詞。
4. 如權利要求3所述的方法,進一步包括為多種語言的每一種確定分值,所述分值指示所述查詢語言是所 述多種語言中的一種的可能性。
5. 如權利要求4所述的方法,進一步包括使用用于所述多種語言的所述分值的每一個來識別用來擴增所述 搜索查詢的可能的同義詞。
6. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行 包括以下操作的計算機程序產(chǎn)品-通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索查詢, 所述用戶界面具有界面語言,所述界面語言是自然語言;以及從所述査詢詞語和所述界面語言為所述査詢確定査詢語言,所述 査詢語言是自然語言。
7. 如權利要求6所述的產(chǎn)品,所述操作進一步包括 為多種語言的每一種確定分值,所述分值指示所述查詢語言是所述多種語言中的一種的可能性。
8. 如權利要求6所述的產(chǎn)品,所述操作進一步包括使用所述查詢語言來選擇一個或多個映射并且使用所選擇的一個或多個映射來將每一個查詢詞語簡化為相對應的簡化査詢詞語;以及 將每一個簡化査詢詞語應用于同義詞映射表以識別用來擴增所述搜索查詢的可能的同義詞。
9. 如權利要求8所述的產(chǎn)品,所述操作進一步包括 為多種語言的每一種確定分值,所述分值指示所述查詢語言是所述多種語言中的一種的可能性。
10. 如權利要求9所述的產(chǎn)品,所述操作進一步包括 使用用于所述多種語言的所述分值的每一個來識別用來擴增所述搜索査詢的可能的同義詞。
11. 一種系統(tǒng),包括用于通過用戶界面從用戶接收包括一個或多個査詢詞語的搜索査 詢的裝置,所述用戶界面具有界面語言,所述界面語言是自然語言; 以及用于從所述查詢詞語和所述界面語言為所述査詢確定査詢語言的 裝置,所述查詢語言是自然語言。
12. 如權利要求ll所述的系統(tǒng),進一步包括用于為多種語言的每一種確定分值的裝置,所述分值指示所述查詢語言是所述多種語言中的一種的可能性。
13. 如權利要求ll所述的系統(tǒng),進一步包括用于使用所述查詢語言來選擇一個或多個映射并且使用所選擇的一個或多個映射來將每一個查詢詞語簡化為相對應的簡化查詢詞語的裝置;以及將每一個簡化查詢詞語應用于同義詞映射表以識別用來擴增所述搜索査詢的可能的同義詞。
14. 如權利要求13所述的系統(tǒng),進一步包括用于為多種語言的每一種確定分值的裝置,所述分值指示所述査詢語言是所述多種語言中的一種的可能性。
15. 如權利要求14所述的系統(tǒng),進一步包括用于使用用于所述多種語言的所述分值的每一個來識別用來擴增所述搜索查詢的可能的同義詞的裝置。
16. —種計算機實現(xiàn)的方法,包括通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索查詢,所述用戶界面具有界面語言,所述界面語言是自然語言;使用所述界面語言來選擇一個或多個映射并且使用所選擇的一個或多個映射來將每一個查詢詞語簡化為相對應的簡化查詢詞語;以及將每一個簡化查詢詞語應用于同義詞映射表以識別用來擴增所述搜索查詢的可能的同義詞。
17. —種計算機實現(xiàn)的方法,包括-從文檔庫生成同義詞映射表,每一個文檔具有歸屬于所述文檔的文檔語言,所述文檔語言每一種是自然語言;其中所述同義詞映射表將多個鍵中的每一個映射到一個或多個相對應的變體;以及每一個變體與所述文檔語言中的一種或多種相關聯(lián)。
18. 如權利要求n所述的方法,其中對于每一種相關聯(lián)的語言,每一個變體與指示所述變體在用于所述相同鍵的所述相關聯(lián)的語言的所有變體中的相對頻度的分值相關聯(lián)。
19. 如權利要求17所述的方法,其中自動確定對每一個文檔的文檔語言的所述歸屬。
20. —種計算機實現(xiàn)的方法,包括通過將依賴于語言的映射的第一集合應用于文檔庫中的單詞以為同義詞映射表生成鍵來從所述文檔庫生成所述同義詞映射表,每一個文檔具有歸屬于所述文檔的文檔語言,歸屬于每一個文檔的所述文檔語言被用來確定應用于所述文檔中的單詞的所述依賴于語言的映射。
21. 如權利要求20所述的方法,進一步包括通過將依賴于語言的映射的第二集合應用于每一個查詢詞語來從搜索查詢中的每一個查詢詞語生成簡化查詢詞語,所述搜索査詢具有歸屬于所述搜索查詢的査詢語言,歸屬于所述搜索査詢的所述查詢語言被用來確定應用于每一個查詢詞語的所述依賴于語言的映射。
22. 如權利要求21所述的方法,其中依賴于語言的映射的所述第一集合與依賴于語言的映射的所述第二集合不同。
23. —種計算機實現(xiàn)的方法,包括通過將依賴于語言的映射的第一集合應用于文檔庫中的單詞以為同義詞映射表生成鍵來從所述文檔庫生成所述同義詞映射表,每一個文檔具有歸屬于所述文檔的文檔語言,歸屬于每一個文檔的所述文檔語言被用來確定應用于所述文檔中的單詞的所述依賴于語言的映射;以及通過將依賴于語言的映射的第二集合應用于搜索查詢中的查詢詞語來從所述搜索査詢生成簡化査詢詞語,所述搜索查詢具有歸屬于所述搜索查詢的查詢語言,歸屬于所述搜索查詢的所述查詢語言被用來確定應用于所述査詢詞語的所述依賴于語言的映射;其中所述搜索查詢包括第一査詢詞語,通過來自由所述查詢語言確定的依賴于語言的映射的所述第二集合的所應用的依賴于語言的映射將所述第一査詢詞語映射到第一簡化査詢詞語,通過由所述查詢語言確定的依賴于語言的映射的所述第一集合中的所述依賴于語言的映射將所述第一查詢詞語映射到第一鍵,并且所述第一簡化查詢詞語與所述第一鍵不同。
24. 如權利要求23所述的方法,進一步包括將所述界面語言歸屬于所述查詢作為所述査詢語言。
25. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行包括以下操作的計算機程序產(chǎn)品-通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索査詢,所述用戶界面具有界面語言,所述界面語言是自然語言;使用所述界面語言來選擇一個或多個映射并且使用所選擇的一個或多個映射來將每一個査詢詞語簡化為相對應的簡化査詢詞語;以及將每一個簡化查詢詞語應用于同義詞映射表以識別用來擴增所述搜索査詢的可能的同義詞。
26. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行包括以下操作的計算機程序產(chǎn)品從文檔庫生成同義詞映射表,每一個文檔具有歸屬于所述文檔的文檔語言,所述文檔語言每一種是自然語言;其中所述同義詞映射表將多個鍵中的每一個映射到一個或多個相對應的變體;以及每一個變體與所述文檔語言中的一種或多種相關聯(lián)。
27. 如權利要求26所述的產(chǎn)品,其中對于每一種相關聯(lián)的語言,每一個變體與指示所述變體在用于所述相同鍵的所述相關聯(lián)的語言的所有變體中的相對頻度的分值相關聯(lián)。
28. 如權利要求26所述的產(chǎn)品,其中自動確定對每一個文檔的文檔語言的所述歸屬。
29. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行包括以下操作的計算機程序產(chǎn)品通過將依賴于語言的映射的第一集合應用于文檔庫中的單詞以為同義詞映射表生成鍵來從所述文檔庫生成所述同義詞映射表,每一個文檔具有歸屬于所述文檔的文檔語言,歸屬于每一個文檔的所述文檔語言被用來確定應用于所述文檔中的單詞的所述依賴于語言的映射。
30. 如權利要求29所述的產(chǎn)品,所述操作進一步包括通過將依賴于語言的映射的第二集合應用于每一個查詢詞語來從搜索查詢中的每一個查詢詞語生成簡化查詢詞語,所述搜索查詢具有歸屬于所述搜索查詢的查詢語言,歸屬于所述搜索查詢的所述查詢語言被用來確定應用于每一個查詢詞語的所述依賴于語言的映射。
31. 如權利要求30所述的產(chǎn)品,其中依賴于語言的映射的所述第一集合與依賴于語言的映射的所述第二集合不同。
32. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行包括以下操作的計算機程序產(chǎn)品通過將依賴于語言的映射的第一集合應用于文檔庫中的單詞以為 同義詞映射表生成鍵來從所述文檔庫生成所述同義詞映射表,每一個 文檔具有歸屬于所述文檔的文檔語言,歸屬于每一個文檔的所述文檔語言被用來確定應用于所述文檔中的單詞的所述依賴于語言的映射; 以及通過將依賴于語言的映射的第二集合應用于搜索查詢中的查詢詞 語來從所述搜索查詢生成簡化查詢詞語,所述搜索查詢具有歸屬于所 述搜索查詢的查詢語言,歸屬于所述搜索查詢的所述査詢語言被用來 確定應用于所述査詢詞語的所述依賴于語言的映射;其中所述搜索查詢包括第一査詢詞語,通過來自由所述查詢語言確定 的依賴于語言的映射的所述第二集合的所應用的依賴于語言的映射將 所述第一査詢詞語映射到第一簡化查詢詞語,通過所述查詢語言確定 的依賴于語言的映射的所述第一集合中的所述依賴于語言的映射將所 述第一查詢詞語映射到第一鍵,并且所述第一簡化查詢詞語與所述第 一鍵不同。
33. 如權利要求32所述的產(chǎn)品,所述操作進一步包括將所述界面語言歸屬于所述查詢作為所述查詢語言。
34. —種系統(tǒng),包括用于通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索査詢的裝置,所述用戶界面具有界面語言,所述界面語言是自然語言;用于使用所述界面語言來選擇一個或多個映射并且使用所選擇的 一個或多個映射來將每一個査詢詞語簡化為相對應的簡化査詢詞語的 裝置;以及用于將每一個簡化查詢詞語應用于同義詞映射表以識別用來擴增 所述搜索査詢的可能的同義詞的裝置。
35. —種系統(tǒng),包括用于從文檔庫生成同義詞映射表的裝置,每一個文檔具有歸屬于所述文檔的文檔語言,所述文檔語言每一種是自然語言;其中所述同義詞映射表將多個鍵中的每一個映射到一個或多個相對應的變體;以及每一個變體與所述文檔語言中的一種或多種相關聯(lián)。
36. 如權利要求35所述的系統(tǒng),其中對于每一種相關聯(lián)的語言,每一個變體與指示所述變體在用于所 述相同鍵的所述相關聯(lián)的語言的所有變體中的相對頻度的分值相關 聯(lián)。
37. 如權利要求35所述的系統(tǒng),其中 自動確定對每一個文檔的文檔語言的所述歸屬。
38. —種系統(tǒng),包括用于通過將依賴于語言的映射的第一集合應用于文檔庫中的單詞 以為同義詞映射表生成鍵來從所述文檔庫生成所述同義詞映射表的裝 置,每一個文檔具有歸屬于所述文檔的文檔語言,歸屬于每一個文檔 的所述文檔語言被用來確定應用于所述文檔中的單詞的所述依賴于語 言的映射。
39. 如權利要求38所述的系統(tǒng),進一步包括 用于通過將依賴于語言的映射的第二集合應用于每一個査詢詞語來從搜索查詢中的每一個查詢詞語生成簡化查詢詞語的裝置,所述搜 索查詢具有歸屬于所述搜索査詢的查詢語言,歸屬于所述搜索査詢的 所述查詢語言被用來確定應用于每一個查詢詞語的所述依賴于語言的 映射。
40. 如權利要求39所述的系統(tǒng),其中依賴于語言的映射的所述第一集合與依賴于語言的映射的所述第 二集合不同。
41. 一種系統(tǒng),包括用于通過將依賴于語言的映射的第一集合應用于文檔庫中的單詞 以為同義詞映射表生成鍵來從所述文檔庫生成所述同義詞映射表的裝 置,每一個文檔具有歸屬于所述文檔的文檔語言,歸屬于每一個文檔 的所述文檔語言被用來確定應用于所述文檔中的單詞的所述依賴于語 言的映射;以及用于通過將依賴于語言的映射的第二集合應用于搜索查詢中的査 詢詞語來從所述搜索查詢生成簡化査詢詞語的裝置,所述搜索査詢具 有歸屬于所述搜索查詢的査詢語言,歸屬于所述搜索查詢的所述查詢 語言被用來確定應用于所述査詢詞語的所述依賴于語言的映射;其中所述搜索查詢包括第一査詢詞語,通過來自由所述查詢語言確定 的依賴于語言的映射的所述第二集合的所應用的依賴于語言的映射將 所述第一查詢詞語映射到第一簡化査詢詞語,通過由所述查詢語言確 定的依賴于語言的映射的所述第一集合中的所述依賴于語言的映射將 所述第一査詢詞語映射到第一鍵,并且所述第一簡化査詢詞語與所述 第一鍵不同。
42. 如權利要求41所述的系統(tǒng),進一步包括用于將所述界面語言歸屬于所述查詢作為所述查詢語言的裝置。
43. —種計算機實現(xiàn)的方法,包括通過用戶界面從用戶接收包括査詢詞語的搜索查詢,所述搜索査 詢具有歸屬于所述搜索查詢的査詢語言;從所述查詢詞語獲得簡化查詢詞語;以及通過在同義詞映射表中查找所述簡化查詢詞語為所述查詢詞語識別一個或多個潛在同義詞,所述同義詞映射表將多個鍵中的每一個映射到一個或多個相對應的變體,每一個變體是與一種或多種文檔語言 相關聯(lián)的單詞,并且每一個變體對于每一種相關聯(lián)的語言與指示所述變體在用于所述相同鍵的所述相關聯(lián)的語言的所有變體中的相對頻度的變體-語言分值相關聯(lián)。
44. 如權利要求43所述的方法,進一步包括使用所述歸屬的査詢語言和用于所述簡化查詢詞語的一個或多個 變體的所述變體-語言分值來選擇變體以在擴增所述搜索查詢中使用。
45. 如權利要求44所述的方法,進一步包括將所述界面語言歸屬于所述査詢作為所述查詢語言。
46. 如權利要求43所述的方法,其中所述搜索査詢具有歸屬于所述搜索查詢的多種查詢語言,每一種 具有各自的査詢-語言分值; 所述方法進一步包括使用(a)所述查詢-語言分值以及(b)用于所述簡化查詢詞語的 一個或多個變體的所述變體-語言分值來選擇變體以在擴增所述搜索查 詢中使用。
47. 如權利要求46所述的方法,其中使用所述査詢-語言分值和所 述變體-語言分值包括對所有語言的以下乘積求和對于每一種語言,用于所述語言的 所述査詢-語言分值和用于所述語言的所述變體-語言分值的乘積。
48. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行包括以下操作的計算機程序產(chǎn)品通過用戶界面從用戶接收包括查詢詞語的搜索查詢,所述搜索查 詢具有歸屬于所述搜索查詢的查詢語言;從所述査詢詞語獲得簡化查詢詞語;以及通過在同義詞映射表中查找所述簡化查詢詞語為所述査詢詞語識 別一個或多個潛在同義詞,所述同義詞映射表將多個鍵中的每一個映 射到一個或多個相對應的變體,每一個變體是與一種或多種文檔語言相關聯(lián)的單詞,并且每一個變體對于每一種相關聯(lián)的語言與指示所述 變體在用于所述相同鍵的所述相關聯(lián)的語言的所有變體中的相對頻度 的變體-語言分值相關聯(lián)。
49. 如權利要求48所述的產(chǎn)品,所述操作進一步包括 使用所述歸屬的査詢語言和用于所述簡化查詢詞語的一個或多個變體的所述變體-語言分值來選擇變體以在擴增所述搜索查詢中使用。
50. 如權利要求49所述的產(chǎn)品,所述操作進一步包括 將所述界面語言歸屬于所述査詢作為所述査詢語言。
51. 如權利要求48所述的產(chǎn)品,其中所述搜索査詢具有歸屬于所述搜索査詢的多種査詢語言,每一種 具有各自的査詢-語言分值; 所述操作進一步包括使用(a)所述查詢-語言分值以及(b)用于所述簡化査詢詞語的 一個或多個變體的所述變體-語言分值來選擇變體以在擴增所述搜索査 詢中使用。
52. 如權利要求51所述的產(chǎn)品,其中使用所述査詢-語言分值和所 述變體-語言分值包括對所有語言的以下乘積求和對于每一種語言,用于所述語言的所述査詢-語言分值和用于所述語言的所述變體-語言分值的乘積。
53. —種系統(tǒng),包括用于通過用戶界面從用戶接收包括查詢詞語的搜索查詢的裝置,所述搜索查詢具有歸屬于所述搜索査詢的査詢語言;用于從所述査詢詞語獲得簡化査詢詞語的裝置;以及 用于通過在同義詞映射表中查找所述簡化査詢詞語為所述查詢詞語識別一個或多個潛在同義詞的裝置,所述同義詞映射表將多個鍵中的每一個映射到一個或多個相對應的變體,每一個變體是與一種或多 種文檔語言相關聯(lián)的單詞,并且每一個變體對于每一種相關聯(lián)的語言 與指示所述變體在用于所述相同鍵的所述相關聯(lián)的語言的所有變體中 的相對頻度的變體-語言分值相關聯(lián)。
54. 如權利要求53所述的系統(tǒng),進一步包括 用于使用所述歸屬的査詢語言和用于所述簡化查詢詞語的一個或多個變體的所述變體-語言分值來選擇變體以在擴增所述搜索查詢中使 用的裝置。
55. 如權利要求54所述的系統(tǒng),進一步包括 用于將所述界面語言歸屬于所述查詢作為所述查詢語言的裝置。
56. 如權利要求53所述的系統(tǒng),其中所述搜索查詢具有歸屬于所述搜索査詢的多種査詢語言,每一種 具有各自的査詢-語言分值; 所述系統(tǒng)進一步包括用于使用(a)所述査詢-語言分值以及(b)用于所述簡化査詢詞 語的一個或多個變體的所述變體-語言分值來選擇變體以在擴增所述搜 索查詢中使用的裝置。
57. 如權利要求56所述的系統(tǒng),其中使用所述査詢-語言分值和所 述變體-語言分值包括對所有語言的以下乘積求和對于每一種語言,用于所述語言的 所述查詢-語言分值和用于所述語言的所述變體-語言分值的乘積。
58. —種計算機實現(xiàn)的方法,包括通過用戶界面從用戶接收包括一個或多個査詢詞語的搜索查詢;以及接收在簡化所述搜索査詢的所述査詢詞語中應用標音的用戶偏好的指示。
59. 如權利要求58所述的方法,進一步包括 如果所述用戶偏好是應用標音則在簡化所述搜索查詢的所述查詢詞語中應用標音來生成簡化查詢詞語,否則在簡化所述搜索查詢的所述查詢詞語中不應用標音來生成簡化査詢詞語;以及使用所述簡化查詢詞語來識別同義詞以在擴增所述搜索查詢中使用。
60. 如權利要求58所述的方法,其中在簡化所述搜索査詢中應用標音的用戶偏好的所述指示是對多種 特定界面語言中的一種的用戶選擇。
61. —種計算機實現(xiàn)的方法,包括通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索查詢; 在簡化所述搜索査詢的所述查詢詞語中應用標音來生成簡化査詢 詞語;以及使用所述簡化查詢詞語來識別同義詞以在擴增所述搜索査詢中使用。
62. —種計算機實現(xiàn)的方法,包括通過用戶界面從用戶接收包括一個或多個原始查詢詞語的搜索查 詢用于搜索文檔的集合,所述用戶界面具有用戶界面語言;將所述用戶界面語言識別為小規(guī)模語言或非小規(guī)模語言,小規(guī)模 語言是在所述文檔的集合中具有相對較少的表現(xiàn)的自然語言;將每一個查詢詞語簡化為簡化形式;以及如果所述用戶界面語言是小規(guī)模語言,則對于具有與所述原始詞 語不同的簡化形式的每一個原始查詢詞語,使用所述原始查詢詞語本 身并且不為所述查詢詞語提供任何同義詞,而對于與其簡化形式相同 的每一個原始查詢詞語,使用所述簡化形式來為所述原始查詢詞語識別同義詞用于在擴增所述搜索查詢中使用。
63. 如權利要求62所述的方法,其中簡化每一個查詢詞語包括標音
64. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí) 行包括以下操作的計算機程序產(chǎn)品-通過用戶界面從用戶接收包括一個或多個查詢詞語的搜索査詢;以及接收在簡化所述搜索查詢的所述查詢詞語中應用標音的用戶偏好 的指示。
65. 如權利要求64所述的產(chǎn)品,所述操作進一步包括 如果所述用戶偏好是應用標音則在簡化所述搜索査詢的所述査詢詞語中應用標音來生成簡化查詢詞語,否則在簡化所述搜索査詢的所述査詢詞語中不應用標音來生成簡化查詢詞語;以及使用所述簡化査詢詞語來識別同義詞以在擴增所述搜索査詢中使用。
66. 如權利要求64所述的產(chǎn)品,其中在簡化所述搜索査詢中應用標音的用戶偏好的所述指示是對多種 特定界面語言中的一種的用戶選擇。
67. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí) 行包括以下操作的計算機程序產(chǎn)品-通過用戶界面從用戶接收包括一個或多個査詢詞語的搜索查詢; 在簡化所述搜索查詢的所述查詢詞語中應用標音來生成簡化查詢 詞語;以及使用所述簡化查詢詞語來識別同義詞以在擴增所述搜索查詢中使用。
68. —種編碼在計算機可讀介質(zhì)上、可操作來使數(shù)據(jù)處理設備執(zhí)行包括以下操作的計算機程序產(chǎn)品-通過用戶界面從用戶接收包括一個或多個原始查詢詞語的搜索查詢用于搜索文檔的集合,所述用戶界面具有用戶界面語言;將所述用戶界面語言識別為小規(guī)模語言或非小規(guī)模語言,小規(guī)模語言是在所述文檔的集合中具有相對較少的表現(xiàn)的自然語言; 將每一個査詢詞語簡化為簡化形式;以及如果所述用戶界面語言是小規(guī)模語言,則對于具有與所述原始詞 語不同的簡化形式的每一個原始查詢詞語,使用所述原始查詢詞語本 身并且不為所述查詢詞語提供任何同義詞,而對于與其簡化形式相同 的每一個原始査詢詞語,使用所述簡化形式來為所述原始査詢詞語識 別同義詞用于在擴增所述搜索查詢中使用。
69. 如權利要求68所述的產(chǎn)品,其中簡化每一個査詢詞語包括標
70. —種系統(tǒng),包括用于通過用戶界面從用戶接收包括一個或多個査詢詞語的搜索査 詢的裝置;以及用于接收在簡化所述搜索查詢的所述查詢詞語中應用標音的用戶 偏好的指示的裝置。
71. 如權利要求70所述的系統(tǒng),進一步包括 用于如果所述用戶偏好是應用標音則在簡化所述搜索查詢的所述查詢詞語中應用標音來生成簡化査詢詞語,否則在簡化所述搜索查詢 的所述查詢詞語中不應用標音來生成簡化査詢詞語的裝置;以及用于使用所述簡化查詢詞語來識別同義詞以在擴增所述搜索査詢 中使用的裝置。
72. 如權利要求70所述的系統(tǒng),其中在簡化所述搜索查詢中應用標音的用戶偏好的所述指示是對多種 特定界面語言中的一種的用戶選擇。
73. —種系統(tǒng),包括用于通過用戶界面從用戶接收包括一個或多個査詢詞語的搜索査詢的裝置;用于在簡化所述搜索査詢的所述查詢詞語中應用標音來生成簡化查詢詞語的裝置;以及用于使用所述簡化査詢詞語來識別同義詞以在擴增所述搜索查詢 中使用的裝置。
74. —種系統(tǒng),包括用于通過用戶界面從用戶接收包括一個或多個原始查詢詞語的搜索查詢用于搜索文檔的集合的裝置,所述用戶界面具有用戶界面語言; 用于將所述用戶界面語言識別為小規(guī)模語言或非小規(guī)模語言的裝 置,小規(guī)模語言是在所述文檔的集合中具有相對較少的表現(xiàn)的自然語..一用于將每一個査詢詞語簡化為簡化形式的裝置;以及 用于執(zhí)行以下操作的裝置如果所述用戶界面語言是小規(guī)模語言,則對于具有與所述原始詞語不同的簡化形式的每一個原始査詢詞語,使用所述原始查詢詞語本身并且不為所述査詢詞語提供任何同義詞, 而對于與其簡化形式相同的每一個原始查詢詞語,使用所述簡化形式來為所述原始查詢詞語識別同義詞用于在擴增所述搜索査詢中使用。
75. 如權利要求74所述的系統(tǒng),其中簡化每一個查詢詞語包括標音
全文摘要
用于執(zhí)行與處理提供給搜索引擎的搜索查詢中的查詢詞語有關的操作的方法、系統(tǒng)和包括計算機程序產(chǎn)品的設備。在一個方面,一種方法包括從查詢詞語和用戶界面的語言確定查詢語言。在另一個方面中,一種方法包括使用界面語言來選擇一個或多個映射并且使用所述映射來簡化每一個查詢詞語;以及將每一個簡化查詢詞語應用于同義詞映射表以識別可能的同義詞,用所述可能的同義詞來擴增搜索查詢。在另一個方面中,從文檔庫生成同義詞映射表。在另一個方面中,一種方法包括通過在同義詞映射表中查找簡化查詢詞語來為查詢詞語識別一個或多個潛在同義詞,同義詞映射表將多個鍵中的每一個映射到一個或多個變體,每一個變體是與一種或多種文檔語言相關聯(lián)的單詞。
文檔編號G06F7/00GK101467125SQ200780021902
公開日2009年6月24日 申請日期2007年4月19日 優(yōu)先權日2006年4月19日
發(fā)明者法比奧·洛皮亞諾, 魯齊拉·S·達特 申請人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
文登市| 漠河县| 许昌县| 交城县| 邮箱| 桐庐县| 屏南县| 获嘉县| 胶南市| 鄂托克前旗| 临朐县| 巨野县| 嘉峪关市| 双桥区| 临漳县| 甘泉县| 吉林市| 宁乡县| 武山县| 苏尼特右旗| 梁河县| 营口市| 万源市| 突泉县| 牙克石市| 乐至县| 郓城县| 皮山县| 高邮市| 民和| 利津县| 吐鲁番市| 华宁县| 东海县| 柯坪县| 纳雍县| 沐川县| 丰宁| 丹棱县| 大连市| 乡城县|