專(zhuān)利名稱(chēng):搜索索引中單詞的索引角色分層結(jié)構(gòu)的制作方法
搜索索引中單詞的索引角色分層結(jié)構(gòu) 背景 搜索變?yōu)橛糜谶M(jìn)行研究或?qū)Ш娇山?jīng)由計(jì)算機(jī)訪(fǎng)問(wèn)的文檔的越發(fā)重要的工具。通 常,搜索引擎執(zhí)行利用由用戶(hù)提交的查詢(xún)來(lái)檢測(cè)可能文檔、或這些文檔內(nèi)的文本的匹配進(jìn) 程。最初,例如由諸如由Google或Yahoo維護(hù)的那些搜索引擎等常規(guī)搜索引擎在線(xiàn)提供的 匹配進(jìn)程允許用戶(hù)在查詢(xún)中指定一個(gè)或多個(gè)關(guān)鍵字以描述她/他正在尋找的信息。接著, 常規(guī)在線(xiàn)搜索引擎繼續(xù)尋找包含這些關(guān)鍵字的精確匹配的所有文檔并通常將每一文檔的 結(jié)果演示為其中包括由用戶(hù)提供的關(guān)鍵字中的一個(gè)或多個(gè)的文本框。 假設(shè),例如,用戶(hù)期望發(fā)現(xiàn)哪個(gè)實(shí)體購(gòu)買(mǎi)了公司PeopleSoft。將具有關(guān)鍵字
"誰(shuí)購(gòu)買(mǎi)了 PeopleSoft"的查詢(xún)輸入到常規(guī)在線(xiàn)引擎,其產(chǎn)生以下內(nèi)容作為其結(jié)果之一
"J. Williams是一位官員,他在1990年代晚期創(chuàng)立了 Vantive,其在1999年被PeopleSoft
購(gòu)買(mǎi)。"在此結(jié)果中,檢索到的文本中精確匹配來(lái)自查詢(xún)的關(guān)鍵字"誰(shuí)"、"購(gòu)買(mǎi)"、以及
"PeopleSoft"的單詞是粗體的以向用戶(hù)給出為什么返回此結(jié)果的某些理由。因此,提供促
進(jìn)精確關(guān)鍵字匹配的匹配進(jìn)程對(duì)用戶(hù)而言并不高效且通常誤導(dǎo)多于有用。 現(xiàn)有常規(guī)在線(xiàn)搜索引擎被限于它們既不識(shí)別所搜索的文檔中除由匹配過(guò)程產(chǎn)生
的精確匹配以外對(duì)應(yīng)于查詢(xún)中的關(guān)鍵詞的單詞(例如,注意PeopleSoft是公司、或IBM和
Big Blue是相同的)也不識(shí)別單詞在文檔中扮演的不同角色(例如,不能區(qū)分PeopleSoft
是Vantive收購(gòu)的作用者還是Oracle收購(gòu)的目標(biāo))。同樣,常規(guī)在線(xiàn)搜索引擎是受限的,因
為用戶(hù)被限于查詢(xún)中要匹配的關(guān)鍵詞,并因此如果信息是未知的則不允許用戶(hù)精確地表達(dá)
該信息。因此,實(shí)現(xiàn)識(shí)別查詢(xún)的關(guān)鍵詞與被搜索文檔中的單詞之間的語(yǔ)言關(guān)系的自然語(yǔ)言
搜索引擎將獨(dú)特地增加搜索結(jié)果的準(zhǔn)確性。 概述 提供本發(fā)明內(nèi)容是為了以簡(jiǎn)化的形式介紹將在以下具體實(shí)施方式
中進(jìn)一步描述 的一些概念。本概述不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于 幫助確定所要求保護(hù)的主題的范圍。 本發(fā)明的各實(shí)施例通常涉及用于在數(shù)據(jù)存儲(chǔ)中尋找匹配由用戶(hù)提交的自然語(yǔ)言 查詢(xún)的文檔的計(jì)算機(jī)可讀介質(zhì)和計(jì)算機(jī)系統(tǒng)。通過(guò)確定查詢(xún)內(nèi)的單詞彼此具有與文檔中的 相同單詞相同的關(guān)系來(lái)匹配這些文檔和查詢(xún)。例如,在句子"約翰在工作時(shí)讀書(shū)"中,"約翰" 是句子的主語(yǔ)而"書(shū)"是句子的賓語(yǔ)??身憫?yīng)于查詢(xún)"約翰在哪里讀書(shū)"返回包含此句子的 文檔,因?yàn)?約翰"是該查詢(xún)的主語(yǔ)而"書(shū)"是該查詢(xún)的賓語(yǔ)??煞祷?cái)?shù)據(jù)存儲(chǔ)中"約翰"作 為主語(yǔ)以及"書(shū)"作為賓語(yǔ)的其它文檔。 使用可搜索索引將查詢(xún)中的單詞和關(guān)系與文檔文本內(nèi)的單詞和關(guān)系匹配。本發(fā)明 的各實(shí)施例提取文本文檔中的單詞之間的一個(gè)或多個(gè)關(guān)系并將這些附加的更寬泛的關(guān)系 與單詞相關(guān)聯(lián)地存儲(chǔ)在索引中。本發(fā)明的各實(shí)施例還可提取查詢(xún)中的單詞之間的關(guān)系并使 用這些附加的單詞/關(guān)系組合來(lái)搜索索引??墒褂媒巧謱咏Y(jié)構(gòu)來(lái)提取單詞的角色。角色 分層結(jié)構(gòu)以角色離根角色越遠(yuǎn)則角色變得越具體的方式來(lái)組織角色。在角色分層結(jié)構(gòu)中, 通用角色是根節(jié)點(diǎn)而角色的更具體的實(shí)施例是子層節(jié)點(diǎn)。主角色是更為通用或抽象的角色。從屬角色適合主角色的通用定義內(nèi)但更具體。例如,在句子"約翰在工作時(shí)閱讀"中, "在"可以描述書(shū)何時(shí)被閱讀??墒褂弥T如"之前"或"之后"等其它單詞來(lái)表達(dá)"何時(shí)"。因 此,"何時(shí)"是可包括"在"、"之前"、以及"之后"作為從屬角色的主角色。"在"、"之前"、以 及"之后"都描述"何時(shí)"的具體示例。因此,可通過(guò)使"何時(shí)"與"書(shū)"相關(guān)聯(lián)來(lái)擴(kuò)展、或概 括與"書(shū)"相關(guān)聯(lián)的"在"關(guān)系。 在本發(fā)明的各實(shí)施例中,可提取由單詞在文檔中扮演的角色并將其存儲(chǔ)在索引 中。在另一實(shí)施例中,在索引時(shí)不擴(kuò)展分配到來(lái)自文檔的單詞的角色。相反,擴(kuò)展與搜索查 詢(xún)中的單詞相關(guān)聯(lián)的角色并使用其來(lái)搜索索引。在另一實(shí)施例中,擴(kuò)展與文檔和查詢(xún)兩者 中的單詞相關(guān)聯(lián)的角色。
附圖簡(jiǎn)述 以下參考附圖詳細(xì)描述本發(fā)明,附圖中
圖1是適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的示例性計(jì)算環(huán)境的框圖; 圖2是適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的示例性系統(tǒng)體系結(jié)構(gòu)的示意圖; 圖3是示出根據(jù)本發(fā)明的實(shí)施例的擴(kuò)展并索引句子內(nèi)的單詞之間的語(yǔ)義關(guān)系的
方法的流程圖; 圖4是示出根據(jù)本發(fā)明的實(shí)施例的三個(gè)角色分層結(jié)構(gòu)的圖示;
圖5是示出根據(jù)本發(fā)明的實(shí)施例的單個(gè)角色分層結(jié)構(gòu)的圖示; 圖6是示出根據(jù)本發(fā)明的實(shí)施例索引與一個(gè)或多個(gè)單詞相關(guān)聯(lián)的擴(kuò)展的角色的 圖示; 圖7是示出根據(jù)本發(fā)明的實(shí)施例的通過(guò)擴(kuò)展分配到搜索查詢(xún)內(nèi)的單詞的角色而 搜索角色未被擴(kuò)展的索引的圖示。 圖8是示出根據(jù)本發(fā)明的實(shí)施例的使用被分配到搜索查詢(xún)內(nèi)的單詞的擴(kuò)展的角 色來(lái)搜索包含擴(kuò)展的角色的索引的圖示。 圖9是示出根據(jù)本發(fā)明的實(shí)施例的使用角色分層結(jié)構(gòu)來(lái)索引文檔內(nèi)容的方法的 流程圖。 詳細(xì)描述 此處用細(xì)節(jié)來(lái)描述本發(fā)明的主題以滿(mǎn)足法定要求。然而,描述本身并非旨在限制 本專(zhuān)利的范圍。相反,發(fā)明人設(shè)想所要求保護(hù)的主題還可結(jié)合其它當(dāng)前或未來(lái)技術(shù)按照其 它方式來(lái)具體化,以包括不同的步驟或類(lèi)似于本文中所描述的步驟的步驟組合。此外,盡管 術(shù)語(yǔ)"步驟"和/或"框"可在此處用于指示所采用的方法的不同元素,但除非而且僅當(dāng)明 確描述了各個(gè)步驟的順序時(shí),該術(shù)語(yǔ)不應(yīng)被解釋為意味著此處公開(kāi)的各個(gè)步驟之中或之間 的任何特定順序。 因此,在一個(gè)實(shí)施例中,本發(fā)明涉及包含在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)上的計(jì)算 機(jī)可執(zhí)行指令,其執(zhí)行擴(kuò)展并索引句子內(nèi)的單詞之間的語(yǔ)義關(guān)系的方法。該方法包括接收 具有包括文本的內(nèi)容的第一電子文檔、將該文本解析成一個(gè)或多個(gè)句子、以及確定句子中 的單詞的第一角色,其中角色是與句子中的其它單詞的語(yǔ)義關(guān)系的類(lèi)型。該方法還包括確 定單詞具有超過(guò)一個(gè)的可能的角色并將第二角色分配到單詞。該方法還包括將該單詞與第
一角色和第二角色一起存儲(chǔ)在將該單詞和句子與第一電子文檔相關(guān)聯(lián)的索引中,進(jìn)而允許 搜索引擎將第一電子文檔與包括具有類(lèi)似角色的類(lèi)似單詞的搜索查詢(xún)匹配。
在另一實(shí)施例中,本發(fā)明的各方面涉及用于將搜索查詢(xún)匹配到一個(gè)或多個(gè)文檔內(nèi)
的文本的計(jì)算機(jī)化系統(tǒng),該系統(tǒng)包括第一語(yǔ)義解釋組件用于(l)將主角色分配給搜索查
詢(xún)中的單詞,其中角色是單詞之間的語(yǔ)義關(guān)系,且搜索查詢(xún)是自然語(yǔ)言搜索查詢(xún);以及(2)
使用角色分層結(jié)構(gòu)將附加角色分配到來(lái)自搜索查詢(xún)的具有主角色的至少一個(gè)單詞,其中角
色分層結(jié)構(gòu)包括角色的分層結(jié)構(gòu),其包括通用的根角色以及比根角色更具體的多層子角
色。計(jì)算機(jī)化系統(tǒng)還包括用于確定索引中引用的至少一個(gè)文檔包括來(lái)自搜索查詢(xún)的單詞的
匹配組件,其中向至少一個(gè)文檔中的單詞以及搜索查詢(xún)中的單詞分配相同角色中的至少一 個(gè)。 在又一實(shí)施例中,本發(fā)明涵蓋具有包含在其上的計(jì)算機(jī)可執(zhí)行指令的一個(gè)或多個(gè) 計(jì)算機(jī)存儲(chǔ)介質(zhì),計(jì)算機(jī)可執(zhí)行指令用于執(zhí)行使用角色分層結(jié)構(gòu)來(lái)索引文檔內(nèi)容的方法。 該方法包括接收作為文檔的一部分的句子、將角色分配到句子中的單詞、以及使用角色分 層結(jié)構(gòu)將至少一個(gè)附加角色分配到單詞,其中角色分層結(jié)構(gòu)包括角色的分層結(jié)構(gòu),其包括 通用的根角色以及比根角色更具體的至少一層子角色,進(jìn)而向至少一個(gè)單詞分配至少兩個(gè) 角色。該方法還包括將單詞與分配到各個(gè)單詞的一個(gè)或多個(gè)角色存儲(chǔ)在將單詞和句子與文 檔相關(guān)聯(lián)的索引中。 在簡(jiǎn)要描述了本發(fā)明的各實(shí)施例的概覽以及其中的某些特征后,以下描述適于實(shí)
現(xiàn)本發(fā)明的示例性操作環(huán)境。 操作環(huán)境的描述 大體上參考附圖,并且首先具體參考圖1 ,示出了用于實(shí)現(xiàn)本發(fā)明的各實(shí)施例的示 例性操作環(huán)境,并將其概括指定為計(jì)算設(shè)備100。計(jì)算設(shè)備100只是合適的計(jì)算環(huán)境的一個(gè) 示例,并且不旨在對(duì)本發(fā)明的使用范圍或功能提出任何限制。也不應(yīng)該將計(jì)算設(shè)備100解 釋為對(duì)所示出的任一組件或其組合有任何依賴(lài)性或要求。 本發(fā)明可以在計(jì)算機(jī)代碼或機(jī)器可使用指令的一般上下文中描述,機(jī)器可使用指 令包括由計(jì)算機(jī)或諸如個(gè)人數(shù)據(jù)助理或其它手持式設(shè)備等其它機(jī)器執(zhí)行的諸如程序組件 等計(jì)算機(jī)可執(zhí)行指令。 一般而言,包括例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等的程序組件指的 是執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定提取數(shù)據(jù)類(lèi)型的代碼。本發(fā)明的各實(shí)施例可以在各種系統(tǒng)配置 中實(shí)施,這些系統(tǒng)配置包括手持式設(shè)備、消費(fèi)電子產(chǎn)品、通用計(jì)算機(jī)、專(zhuān)用計(jì)算設(shè)備等等。本 發(fā)明的各實(shí)施例也可以在其中任務(wù)由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的分布式計(jì) 算環(huán)境中實(shí)現(xiàn)。 繼續(xù)參考圖l,計(jì)算設(shè)備100包括直接或間接耦合以下設(shè)備的總線(xiàn)110 :存儲(chǔ)器 112、一個(gè)或多個(gè)處理器114、一個(gè)或多個(gè)演示組件116、輸入/輸出(I/O)端口 118、 1/0組 件120、和說(shuō)明性電源122??偩€(xiàn)110可以是一條或多條總線(xiàn)(諸如地址總線(xiàn)、數(shù)據(jù)總線(xiàn)、或 其組合)。盡管為了清楚起見(jiàn)用線(xiàn)條示出了圖1的各框,但是,實(shí)際上,描繪各組件并不是那 樣清楚,并且用比喻方法,線(xiàn)條更精確地將是灰色的和模糊的。例如,可以將諸如顯示設(shè)備 等演示組件認(rèn)為是I/0組件。同樣,處理器具有存儲(chǔ)器。發(fā)明人關(guān)于此點(diǎn)認(rèn)識(shí)到,這是本領(lǐng) 域的特性,并且重申,圖1的圖示只是例示可結(jié)合本發(fā)明的一個(gè)或多個(gè)實(shí)施例來(lái)使用的示 例性計(jì)算設(shè)備。諸如"工作站"、"服務(wù)器"、"膝上型計(jì)算機(jī)"、"手持式設(shè)備"等分類(lèi)之間沒(méi)有 區(qū)別,它們?nèi)慷急徽J(rèn)為是在圖1的范圍之內(nèi)的并且被稱(chēng)為"計(jì)算機(jī)"或"計(jì)算設(shè)備"。
計(jì)算設(shè)備100通常包括各種計(jì)算機(jī)可讀介質(zhì)。作為示例而非限制,計(jì)算機(jī)可讀介質(zhì)可以包括隨機(jī)存取存儲(chǔ)器(RAM);只讀存儲(chǔ)器(ROM);電可擦除可編程只讀存儲(chǔ)器 (EEPROM);閃存或其它存儲(chǔ)器技術(shù);CDROM、數(shù)字多功能盤(pán)(DVD)或其它光或全息介質(zhì);磁 帶盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁存儲(chǔ)設(shè)備;或可用于對(duì)所需信息進(jìn)行編碼并且可由計(jì)算設(shè)備 IOO訪(fǎng)問(wèn)的任何其它介質(zhì)。 存儲(chǔ)器112包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì)。存儲(chǔ)器可 以是可移動(dòng)的、不可移動(dòng)的、或其組合。示例性硬件設(shè)備包括固態(tài)存儲(chǔ)器、硬盤(pán)驅(qū)動(dòng)器、光盤(pán) 驅(qū)動(dòng)器等。計(jì)算設(shè)備100包括從諸如存儲(chǔ)器112或I/O組件120等各種實(shí)體讀取數(shù)據(jù)的一 個(gè)或更多個(gè)處理器。演示組件116向用戶(hù)或其它設(shè)備演示數(shù)據(jù)指示。示例性演示組件包括 顯示設(shè)備、揚(yáng)聲器、打印組件、振動(dòng)組件等等。1/0端口 118允許計(jì)算設(shè)備100在邏輯上耦合 至包括1/0組件120的其它設(shè)備,其中某些設(shè)備可以是內(nèi)置的。說(shuō)明性組件包括話(huà)筒、操縱 桿、游戲手柄、圓盤(pán)式衛(wèi)星天線(xiàn)、掃描儀、打印機(jī)、無(wú)線(xiàn)設(shè)備等等。
示例性系統(tǒng)體系結(jié)構(gòu)的描述 現(xiàn)在轉(zhuǎn)到圖2,示出根據(jù)本發(fā)明的實(shí)施例的適用于使用文檔內(nèi)的單詞之間的關(guān)系 以及搜索查詢(xún)內(nèi)的單詞之間的關(guān)系將搜索查詢(xún)匹配到文檔的示例性系統(tǒng)體系結(jié)構(gòu)200的 示意圖。本領(lǐng)域普通技術(shù)人員將理解并認(rèn)識(shí)到,圖2所示的示例性系統(tǒng)體系結(jié)構(gòu)200僅僅 是一個(gè)合適的計(jì)算環(huán)境的示例,并且不旨在對(duì)本發(fā)明的使用范圍或功能提出任何限制。也 不應(yīng)該將示例性系統(tǒng)體系結(jié)構(gòu)200解釋為對(duì)其中所示出的任何單個(gè)組件或各組件的組合 有任何依賴(lài)性或要求。 如圖所示,系統(tǒng)體系結(jié)構(gòu)200可包括分布式計(jì)算環(huán)境,其中客戶(hù)機(jī)設(shè)備215可操作 地耦合到自然語(yǔ)言引擎290,后者又可操作地耦合到數(shù)據(jù)存儲(chǔ)220。在分布式計(jì)算環(huán)境中 實(shí)現(xiàn)的本發(fā)明的實(shí)施例中,可操作耦合表示通過(guò)合適的連接將客戶(hù)機(jī)設(shè)備215和數(shù)據(jù)存儲(chǔ) 220鏈接到自然語(yǔ)言引擎290、以及其它在線(xiàn)組件。這些連接可以是有線(xiàn)或無(wú)線(xiàn)的。在本發(fā) 明的范圍內(nèi)的具體有線(xiàn)實(shí)施例的示例包括USB連接和通過(guò)網(wǎng)絡(luò)(未示出)的有線(xiàn)連接。本 發(fā)明的范圍內(nèi)的具體無(wú)線(xiàn)實(shí)施例的示例包括近程無(wú)線(xiàn)網(wǎng)絡(luò)和射頻技術(shù)。
應(yīng)該理解和明白,"近程無(wú)線(xiàn)網(wǎng)絡(luò)"的指定不旨在限制,且應(yīng)該被廣泛地解釋以至 少包括以下技術(shù)協(xié)商無(wú)線(xiàn)外圍(麗P)設(shè)備;近程無(wú)線(xiàn)空氣干擾網(wǎng)絡(luò)(例如,無(wú)線(xiàn)個(gè)人區(qū)域 網(wǎng)(wPAN)、無(wú)線(xiàn)局域網(wǎng)(wLAN)、無(wú)線(xiàn)廣域網(wǎng)(wWAN)、藍(lán)牙等);無(wú)線(xiàn)對(duì)等通信(例如,超寬 帶);以及支持設(shè)備之間的數(shù)據(jù)的無(wú)線(xiàn)通信的任何協(xié)議。此外,熟悉本發(fā)明的領(lǐng)域的人員應(yīng) 該理解,近程無(wú)線(xiàn)網(wǎng)絡(luò)可通過(guò)各種數(shù)據(jù)傳送方法來(lái)實(shí)現(xiàn)(例如,衛(wèi)星傳輸、電信網(wǎng)絡(luò)等)。因 此,要強(qiáng)調(diào)的是,例如,客戶(hù)機(jī)設(shè)備215、數(shù)據(jù)存儲(chǔ)220、以及自然語(yǔ)言引擎290之間的連接的 各實(shí)施例不受描述的示例所限,而是涵蓋各種各樣的通信的方法。 示例性系統(tǒng)體系結(jié)構(gòu)200包括部分上支持演示設(shè)備275的操作的客戶(hù)機(jī)設(shè)備215。 在其中客戶(hù)機(jī)設(shè)備215例如是移動(dòng)設(shè)備的示例性實(shí)施例中,演示設(shè)備(例如,觸摸屏顯示) 可被設(shè)置在客戶(hù)機(jī)設(shè)備215上。此外,客戶(hù)機(jī)設(shè)備215可采用各種類(lèi)型的形式的計(jì)算設(shè)備。 僅作為示例,客戶(hù)機(jī)設(shè)備215可以是個(gè)人計(jì)算設(shè)備(例如,圖1的計(jì)算設(shè)備100)、手持式設(shè) 備(例如,個(gè)人數(shù)字助理)、移動(dòng)設(shè)備(例如,膝上型計(jì)算機(jī)、蜂窩電話(huà)、媒體播放器)、消費(fèi) 者電子設(shè)備、各種服務(wù)器等。 在各實(shí)施例中,如上所述,客戶(hù)機(jī)設(shè)備215包括、或可操作耦合到演示設(shè)備275,該 演示設(shè)備被配置成將用戶(hù)界面(UI)顯示295演示在演示設(shè)備275上。演示設(shè)備275可被配置為能夠向用戶(hù)演示信息的任何顯示設(shè)備,如監(jiān)視器、電子顯示板、觸摸屏、液晶顯示器 (LCD)、等離子屏、一個(gè)或多個(gè)發(fā)光二極管(LED)、白熾燈、激光、電熒光光源、化學(xué)燈、彎曲 燈線(xiàn)、和/或熒光燈、或任何其它顯示類(lèi)型、或可包括可視信息在其上投射的反射表面。雖 然上文中描述了演示設(shè)備275的若干不同配置,本領(lǐng)域的那些普通技術(shù)人員應(yīng)該理解和明 白,可采用演示信息的各種類(lèi)型的演示設(shè)備作為演示設(shè)備275,且本發(fā)明的實(shí)施例不限于被 示出并描述的那些演示設(shè)備275。 在一個(gè)示例性實(shí)施例中,由演示設(shè)備275呈現(xiàn)的UI顯示295被配置成顯示與自然 語(yǔ)言引擎290和/或內(nèi)容發(fā)布者相關(guān)聯(lián)的網(wǎng)頁(yè)(未示出)。在一實(shí)施例中,網(wǎng)頁(yè)可展示接收 查詢(xún)和通過(guò)使用該查詢(xún)搜索因特網(wǎng)而發(fā)現(xiàn)的搜索結(jié)果的搜索輸入?yún)^(qū)域。查詢(xún)可由用戶(hù)在搜 索輸入?yún)^(qū)域處提供,或可由軟件自動(dòng)生成。此外,如下文更全面討論地,查詢(xún)可包括在被提 交時(shí)調(diào)用自然語(yǔ)言引擎290來(lái)標(biāo)識(shí)最對(duì)應(yīng)查詢(xún)中的單詞的合適搜索結(jié)果的一個(gè)或多個(gè)魚(yú) 顯。 在圖2中示出的自然語(yǔ)言引擎290可采取各種類(lèi)型的計(jì)算設(shè)備的形式,諸如例如, 上文中參考圖I描述的計(jì)算設(shè)備IOO。作為示例而非限制,自然語(yǔ)言引擎290可以是個(gè)人計(jì) 算機(jī)、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、消費(fèi)者電子設(shè)備、手持式設(shè)備(例如,個(gè)人數(shù)據(jù)助理)、各 種遠(yuǎn)程服務(wù)器(例如,在線(xiàn)服務(wù)器云)、處理設(shè)備等。然而,應(yīng)當(dāng)注意,本發(fā)明不限于在這些 計(jì)算設(shè)備上實(shí)現(xiàn),而是可在處于本發(fā)明的各實(shí)施例的范圍內(nèi)的各種不同類(lèi)型的計(jì)算設(shè)備的
任一種上實(shí)現(xiàn)。 此外,在一實(shí)例中,自然語(yǔ)言引擎290被配置為搜索引擎,該搜索引擎被設(shè)計(jì)成搜 索因特網(wǎng)和/或數(shù)據(jù)存儲(chǔ)220上的信息,且被設(shè)計(jì)成響應(yīng)于經(jīng)由客戶(hù)機(jī)設(shè)備215提交查詢(xún) 在搜索范圍內(nèi)從這些信息收集搜索結(jié)果。在一個(gè)實(shí)施例中,搜索引擎包括挖掘可經(jīng)由因特 網(wǎng)訪(fǎng)問(wèn)的可用數(shù)據(jù)(例如,新聞組、數(shù)據(jù)庫(kù)、開(kāi)放目錄、數(shù)據(jù)存儲(chǔ)220等)并構(gòu)建包含web地 址以及網(wǎng)頁(yè)或按有意義的格式存儲(chǔ)的其它文檔的主題的語(yǔ)義索引260的一個(gè)或多個(gè)web爬 尋器。在另一實(shí)施例中,搜索引擎可用于方便從響應(yīng)于被提交的查詢(xún)的語(yǔ)義索引中標(biāo)識(shí)并 檢索搜索結(jié)果(例如,列表、表、web地址的經(jīng)排序的次序等)。搜索引擎可由因特網(wǎng)用戶(hù)通 過(guò)設(shè)置在客戶(hù)機(jī)設(shè)備215上的web瀏覽器應(yīng)用程序訪(fǎng)問(wèn)。因此,用戶(hù)可通過(guò)在搜索輸入?yún)^(qū) 域(例如,在由與搜索引擎相關(guān)聯(lián)的恥b瀏覽器生成的UI顯示295上顯示)中提交搜索查 詢(xún)來(lái)進(jìn)行因特網(wǎng)搜索。 數(shù)據(jù)存儲(chǔ)220通常被配置成存儲(chǔ)與具有與其相關(guān)聯(lián)的可搜索內(nèi)容的文檔(包括網(wǎng) 頁(yè))相關(guān)聯(lián)的信息。在各實(shí)施例中,此類(lèi)文檔可包括但不限于網(wǎng)頁(yè)/網(wǎng)站的內(nèi)容、可經(jīng)由因 特網(wǎng)或本地內(nèi)聯(lián)網(wǎng)訪(fǎng)問(wèn)的電子材料、以及對(duì)搜索引擎可用的其它典型資源。此外,數(shù)據(jù)存儲(chǔ) 220可被配置成可從中搜索對(duì)所存儲(chǔ)的信息的合適訪(fǎng)問(wèn)。例如,可在數(shù)據(jù)存儲(chǔ)220中搜索 被選出以供自然語(yǔ)言引擎290處理的一個(gè)或多個(gè)文檔。在各實(shí)施例中,允許自然語(yǔ)言引擎 290自由地在數(shù)據(jù)存儲(chǔ)檢查最近被添加或修改的文檔以更新語(yǔ)義索引。檢查的進(jìn)程可持續(xù) 地進(jìn)行、以預(yù)先確定的間隔進(jìn)行、或在指示對(duì)聚集在數(shù)據(jù)存儲(chǔ)220處的一個(gè)或多個(gè)文檔的 改變發(fā)生時(shí)進(jìn)行。本領(lǐng)域普通技術(shù)人員可以理解和明白,存儲(chǔ)在數(shù)據(jù)存儲(chǔ)220中的信息可 以是可配置的,并可包括在線(xiàn)搜索的范圍內(nèi)的任何信息。這一信息的內(nèi)容和量決不旨在限 制本發(fā)明的各實(shí)施例的范圍。此外,雖然作為單個(gè)獨(dú)立的組件示出,但數(shù)據(jù)存儲(chǔ)220實(shí)際上 可以是例如數(shù)據(jù)庫(kù)集群等多個(gè)數(shù)據(jù)庫(kù),其各部分可以駐留在客戶(hù)機(jī)設(shè)備215、自然語(yǔ)言引擎290、另一外部計(jì)算設(shè)備(未示出)、和/或其任何組合上。數(shù)據(jù)存儲(chǔ)220還可包括形成因特 網(wǎng)的計(jì)算機(jī)。 通常,自然語(yǔ)言引擎290提供尋找數(shù)據(jù)存儲(chǔ)220內(nèi)的信息的工具。在各實(shí)施例中, 自然語(yǔ)言引擎290接收搜索查詢(xún)并演示響應(yīng)于該查詢(xún)的搜索結(jié)果。在各實(shí)施例中,自然語(yǔ) 言引擎290通過(guò)應(yīng)用自然語(yǔ)言處理技術(shù)計(jì)算諸如從數(shù)據(jù)存儲(chǔ)220中取得的文檔等文檔集 中的各段的意思來(lái)操作。將這些意思存儲(chǔ)在語(yǔ)義索引260中,在執(zhí)行搜索時(shí)引用該語(yǔ)義索 引。最初,在用戶(hù)將查詢(xún)輸入到搜索輸入?yún)^(qū)域中時(shí),查詢(xún)搜索流水線(xiàn)205分析用戶(hù)的查詢(xún) (例如,字符串、完整單詞、短語(yǔ)、字母組合、符號(hào)、或問(wèn)題)并確定該搜索查詢(xún)中的單詞之間 的語(yǔ)義關(guān)系??墒褂眠@些關(guān)系來(lái)尋找相關(guān)搜索結(jié)果。 在一個(gè)實(shí)例中,存儲(chǔ)在語(yǔ)義索引260中的信息包括從數(shù)據(jù)存儲(chǔ)220中的文檔中提 取的表示,或涵蓋在在線(xiàn)搜索的范圍內(nèi)的任何其它材料。在下文中被稱(chēng)為"語(yǔ)義表示"的這 種表示涉及從普通文本中提取的內(nèi)容的直觀意思并可被存儲(chǔ)在語(yǔ)義索引260中。語(yǔ)義表示 包括文本中與通過(guò)分析文本中的單詞之間的關(guān)系來(lái)分配的一個(gè)或多個(gè)關(guān)系相關(guān)聯(lián)的單詞。 語(yǔ)義索引260的體系結(jié)構(gòu)允許快速比較存儲(chǔ)在語(yǔ)義表示中的單詞和關(guān)系以及與搜索查詢(xún) 中的單詞相關(guān)聯(lián)的語(yǔ)義關(guān)系以檢索映射到與所提交的查詢(xún)相關(guān)的語(yǔ)義表示的文檔。因此, 自然語(yǔ)言引擎290可根據(jù)提交到搜索界面(例如,展現(xiàn)在UI顯示295上的搜索輸入?yún)^(qū)域) 中的單詞來(lái)確定用戶(hù)查詢(xún)的意思,并隨后篩選語(yǔ)義索引中的大量信息以尋找匹配該查詢(xún)的 意思的搜索結(jié)果。 在各實(shí)施例中,可通過(guò)執(zhí)行用于發(fā)現(xiàn)相關(guān)搜索結(jié)果的一個(gè)或多個(gè)步驟的各種功能 元件來(lái)實(shí)現(xiàn)以上過(guò)程。這些功能元件包括查詢(xún)解析組件235、文檔解析組件240、語(yǔ)義解釋 組件245、語(yǔ)義解釋組件250、解析應(yīng)用程序組件255、語(yǔ)義索引260、匹配組件265、以及排名 組件270。這些功能組件235、240、245、250、255、260、265、以及270通常表示動(dòng)態(tài)鏈接并準(zhǔn) 備好與其它組件或設(shè)備一起使用的各個(gè)模塊化軟件例程及其相關(guān)聯(lián)的的硬件。
數(shù)據(jù)存儲(chǔ)220、文檔解析組件240、以及語(yǔ)義解釋組件250構(gòu)成索引流水線(xiàn)210。在 操作中,索引流水線(xiàn)210用于從在數(shù)據(jù)存儲(chǔ)220處被訪(fǎng)問(wèn)的文檔230內(nèi)的內(nèi)容中提取被分 配給單詞的關(guān)系,并在確定這些關(guān)系后構(gòu)建語(yǔ)義索引260。如上所述,在被聚合以形成語(yǔ)義 索引260時(shí),單詞和關(guān)系保留到從其導(dǎo)出它們的文檔230、和/或文檔230內(nèi)的內(nèi)容的位置 的映射。 通常,文檔解析組件240被配置成收集對(duì)自然語(yǔ)言引擎290可用的數(shù)據(jù)。在一個(gè) 實(shí)例中,收集數(shù)據(jù)包括檢查數(shù)據(jù)存儲(chǔ)220以?huà)呙璐鎯?chǔ)在其中的文檔230的內(nèi)容、或其它信息 的內(nèi)容。因?yàn)榭沙掷m(xù)地更新數(shù)據(jù)存儲(chǔ)220內(nèi)的信息,所以收集數(shù)據(jù)的過(guò)程可按定期間隔來(lái) 連續(xù)地執(zhí)行、或在通知對(duì)文檔230中的一個(gè)或多個(gè)作出更新時(shí)執(zhí)行。 在收集來(lái)自文檔230以及其它可用源的內(nèi)容時(shí),文檔解析組件240執(zhí)行準(zhǔn)備內(nèi)容 以用于語(yǔ)義分析的各種過(guò)程。這些過(guò)程可包括文本提取、實(shí)體識(shí)別、以及解析。文本提取過(guò) 程基本上涉及從文檔230的內(nèi)容提取數(shù)據(jù)的表、圖像、模板、以及文本部分以及將它們從原 始在線(xiàn)格式轉(zhuǎn)換為可用格式(例如,超文本標(biāo)記語(yǔ)言(HTML)),同時(shí)保存到從其中提取它們 的文檔230的鏈接以方便映射??呻S后將可用格式的內(nèi)容分成句子。在一個(gè)實(shí)例中,將內(nèi) 容分成句子涉及集合字符的串作為輸入、應(yīng)用一組規(guī)則來(lái)對(duì)字符串測(cè)試具體特性、并基于 這些具體特定特性將內(nèi)容分成句子。僅作為示例,被測(cè)試的內(nèi)容的具體特性可包括標(biāo)點(diǎn)和
10大寫(xiě)形式以確定句子的起始和結(jié)束。 一旦查明一系列句子,即可任選地檢查各個(gè)句子以檢 測(cè)其中的單詞并潛在地將每一單詞識(shí)別為賓語(yǔ)(即,"興登堡")、事件(即,"第二次世界大
戰(zhàn)")、時(shí)間(即,"九月")、動(dòng)詞("行走")或可用于提出單詞之間的區(qū)別或用于理解本句 子的意思的任何其它的單詞類(lèi)別。 實(shí)體識(shí)別過(guò)程協(xié)助識(shí)別哪些單詞是名字,因?yàn)樗鼈兿騿?wèn)題相關(guān)的查詢(xún)(例如,誰(shuí)、 哪里、何時(shí))提供具體答案。在各實(shí)施例中,識(shí)別單詞包括將單詞標(biāo)識(shí)為名字并使用標(biāo)簽來(lái) 注釋該單詞以便于在詢(xún)問(wèn)語(yǔ)義索引260時(shí)進(jìn)行檢索。在一實(shí)例中,將單詞標(biāo)識(shí)為名字包括 在名字的預(yù)先定義列表中查找這些單詞以確定是否存在匹配。如果沒(méi)有匹配存在,可使用 統(tǒng)計(jì)信息來(lái)猜測(cè)單詞是否是名字。例如,統(tǒng)計(jì)信息可協(xié)助識(shí)別復(fù)雜名字的變體,如"USS企 業(yè)",其可具有若干常用的拼寫(xiě)變體。 解析過(guò)程在被實(shí)現(xiàn)時(shí)提供對(duì)以上標(biāo)識(shí)的句子的結(jié)構(gòu)的洞察。在一個(gè)實(shí)例中,通過(guò) 應(yīng)用被維護(hù)在解析應(yīng)用程序組件255的框架中的規(guī)則來(lái)提供這些洞察??苫谠~匯功能語(yǔ) 法(LFG)、中心詞驅(qū)動(dòng)短語(yǔ)結(jié)構(gòu)語(yǔ)法(HPSG)、組合范疇語(yǔ)法(CCG)、基于極簡(jiǎn)框架或任何其 它解析框架的概率性上下文無(wú)關(guān)語(yǔ)法(PCFG)解析器來(lái)實(shí)現(xiàn)解析。在被應(yīng)用時(shí),這些規(guī)則或 語(yǔ)法加速分析句子以查明句子中單詞之間的關(guān)系。如果解析器是LFG解析器,則單詞之間 的關(guān)系可被稱(chēng)作功能結(jié)構(gòu)。解析應(yīng)用程序組件255的輸出捕捉關(guān)于句子的結(jié)構(gòu)的重要信息 (例如,動(dòng)詞、主語(yǔ)、賓語(yǔ)等),該重要信息由語(yǔ)義解釋組件250進(jìn)一步處理。
語(yǔ)義解釋組件250通常被配置成通過(guò)識(shí)別單詞之間的語(yǔ)義關(guān)系來(lái)診斷句法結(jié)構(gòu) 中的每一單詞的角色。最初,診斷可包括分析句法結(jié)構(gòu)的語(yǔ)法組織并將句法結(jié)構(gòu)分成各自 表示分立思想和具體事實(shí)的邏輯斷言(例如,介詞短語(yǔ))。還可分析這些邏輯斷言以確定 構(gòu)成該斷言的單詞的序列中的每一個(gè)單詞的功能。如果適當(dāng),則可基于每個(gè)單詞的功能或 角色擴(kuò)展單詞的序列中的一個(gè)或多個(gè)單詞以包括同義詞(即,鏈接到對(duì)應(yīng)于被擴(kuò)展的單詞 的意思的其它單詞)或上位詞(hypernym)(即,鏈接到概括涉及被擴(kuò)展的單詞的通用意思 的其它單詞)??蓪卧~的此擴(kuò)展、每一單詞在表達(dá)式中所起的功能(上文所述)、單詞的 序列中的每一個(gè)單詞的語(yǔ)法關(guān)系、以及由語(yǔ)義解釋組件250識(shí)別的關(guān)于語(yǔ)義表示的任何其 它信息存儲(chǔ)在語(yǔ)義索引260處。類(lèi)似地,如下文中更詳細(xì)描述地,可擴(kuò)展被分配給單詞的主 要角色或關(guān)系以包括涵蓋該主要角色的更通用的角色??赏瑯訉⒏郊咏巧鎯?chǔ)在語(yǔ)義索引 260中。 語(yǔ)義索引260用于存儲(chǔ)通過(guò)索引流水線(xiàn)210得到的單詞之間的關(guān)系并可按在相關(guān) 領(lǐng)域中已知的方式被配置。作為示例,語(yǔ)義索引260可被配置為結(jié)構(gòu)上類(lèi)似于常規(guī)搜索引 擎索引的倒排索引。在此示例性實(shí)施例中,倒排索引是其條目是具有指向在其上出現(xiàn)單詞 的文檔230及其中位置的指針的單詞的快速可搜索數(shù)據(jù)庫(kù)。因此,在將關(guān)于語(yǔ)義表示的信 息寫(xiě)入到語(yǔ)義索引260時(shí),索引每一單詞和相關(guān)聯(lián)的功能連同指向其中出現(xiàn)單詞的文檔中 的句子的指針。語(yǔ)義索引260的這種框架允許匹配組件265高效地訪(fǎng)問(wèn)、導(dǎo)航、并匹配所存 儲(chǔ)的信息以取得與所提交的查詢(xún)對(duì)應(yīng)的有意義的搜索結(jié)果。 客戶(hù)機(jī)設(shè)備215、查詢(xún)解析組件235、以及語(yǔ)義解釋組件245構(gòu)成查詢(xún)條件檢驗(yàn)流 水線(xiàn)205。類(lèi)似于索引流水線(xiàn)210,查詢(xún)條件檢驗(yàn)流水線(xiàn)205從單詞的序列中提取有意義的 信息。然而,與處理文檔230內(nèi)的段相反,查詢(xún)條件檢驗(yàn)流水線(xiàn)205處理在查詢(xún)225內(nèi)提交 的單詞。在一個(gè)實(shí)施例中,查詢(xún)是單詞具有與彼此語(yǔ)義關(guān)系的自然語(yǔ)言查詢(xún)。例如,查詢(xún)解
11析組件235接收查詢(xún)225并執(zhí)行準(zhǔn)備單詞以用于其語(yǔ)義分析的各種過(guò)程。這些過(guò)程可類(lèi)似 于由文檔解析組件240采用的過(guò)程,如文本提取、實(shí)體識(shí)別、以及解析。此外,可通過(guò)應(yīng)用被 維護(hù)在解析應(yīng)用程序組件255的框架中的規(guī)則來(lái)標(biāo)識(shí)查詢(xún)255的結(jié)構(gòu),進(jìn)而得到查詢(xún)225 中的單詞之間的關(guān)系的有意義的表示。 在各實(shí)施例中,語(yǔ)義解釋組件245可按基本上類(lèi)似于語(yǔ)義解釋組件250解釋文檔 230中的文本段的方式處理查詢(xún)。在各實(shí)施例中,語(yǔ)義解釋組件245可標(biāo)識(shí)構(gòu)成查詢(xún)225的 單詞之間的標(biāo)準(zhǔn)化語(yǔ)法關(guān)系。作為示例,標(biāo)識(shí)標(biāo)準(zhǔn)化語(yǔ)法關(guān)系包括將單詞是用作查詢(xún)225 的主語(yǔ)(動(dòng)作的作用者)、賓語(yǔ)、謂詞、間接賓語(yǔ)、還是時(shí)間位置。例如,在句子"誰(shuí)被約翰打 ???"中,"誰(shuí)"是主語(yǔ),而"約翰"是"打敗"的標(biāo)準(zhǔn)化主語(yǔ)。在另一實(shí)例中,評(píng)估查詢(xún)以標(biāo)識(shí) 與單詞中的每一個(gè)相關(guān)聯(lián)的邏輯語(yǔ)言結(jié)構(gòu)。作為示例,評(píng)估可包括以下步驟中的一個(gè)或多 個(gè)確定查詢(xún)中的單詞中的至少一個(gè)的功能;基于該功能使用涵蓋多個(gè)意思的邏輯變量來(lái) 替換單詞;以及使用這些意思來(lái)搜索語(yǔ)義索引260。將從查詢(xún)225中提取的單詞和關(guān)系發(fā) 送到匹配組件265以與從文檔230提取并存儲(chǔ)在語(yǔ)義索引260處的單詞和關(guān)系進(jìn)行比較。
在一示例性實(shí)施例中,匹配組件265將查詢(xún)225的單詞及其分配的關(guān)系的單詞與 語(yǔ)義索引260中的單詞和關(guān)系比較以查明匹配。當(dāng)查詢(xún)和文檔在兩者都具有被分配成相同 角色或關(guān)系的相同單詞時(shí)兩者匹配??墒褂谜Z(yǔ)義索引260中的標(biāo)簽將語(yǔ)義索引260中的 這些匹配映射回從其中提取這些索引的文檔230。由標(biāo)簽瞄準(zhǔn)的這些文檔230由排名組件 270收集并排序。排序可按相關(guān)領(lǐng)域內(nèi)的任何已知方法來(lái)執(zhí)行,且可包括而不限于根據(jù)匹配 的接近度排序、基于所返回的文檔230的流行度列出、或基于提交查詢(xún)225的用戶(hù)的屬性排 序。這些被排序的文檔230包括搜索結(jié)果285并被傳達(dá)給演示設(shè)備275以供以合適的格式 在UI顯示295上展示。在一個(gè)實(shí)施例中,在查詢(xún)中具有具體關(guān)系的單詞與文檔中具有具體 關(guān)系的單詞匹配時(shí),給出較高的排名。在查詢(xún)中具有通用關(guān)系的單詞與文檔中具有通用關(guān) 系的單詞匹配時(shí),給出較低的排名。 繼續(xù)參考圖2,此示例性系統(tǒng)體系結(jié)構(gòu)僅是可被實(shí)現(xiàn)以執(zhí)行本發(fā)明的各方面的合 適環(huán)境的一個(gè)示例且不旨在對(duì)本發(fā)明的使用或功能的范圍提出任何限制。所示的示例性系 統(tǒng)體系結(jié)構(gòu)200或自然語(yǔ)言引擎290也不應(yīng)該被解釋為具有涉及如圖所示的組件235、240、 245、250、255、260、265、以及270中的任何一個(gè)或組合的依賴(lài)性或需求。在某些實(shí)施例中, 組件235、240、245、250、255、260、265、以及270中的一個(gè)或多個(gè)可被實(shí)現(xiàn)為獨(dú)立設(shè)備。在其 它實(shí)施例中,可將組件235、240、245、250、255、260、265以及270中的一個(gè)或多個(gè)直接集成 到客戶(hù)機(jī)設(shè)備215中。本領(lǐng)域普通技術(shù)人員可以理解,圖2所示的組件235、240、245、250、 255、260、265、以及270在本質(zhì)和數(shù)量上是示例性的,并且不應(yīng)被解釋為限制。
因此,可以采用任何數(shù)量的組件來(lái)實(shí)現(xiàn)本發(fā)明的各實(shí)施例的范圍內(nèi)的所需功能。 盡管為了清楚起見(jiàn)用線(xiàn)條示出了圖2的各組件,但是在實(shí)際上,各組件的輪廓并不是那樣 清楚,并且按比喻的說(shuō)法,線(xiàn)條更精確地將是灰色的或模糊的。此外,雖然將圖2的某些組 件示為單個(gè)框,但是這些描述在本質(zhì)和數(shù)量上是示例性的且不應(yīng)被解釋為限制(例如,雖 然僅示出一個(gè)演示設(shè)備275,多得多的設(shè)備可通信耦合到客戶(hù)機(jī)設(shè)備215)。
現(xiàn)在轉(zhuǎn)到圖3,顯示示出根據(jù)本發(fā)明的實(shí)施例的擴(kuò)展并索引句子內(nèi)單詞之間的語(yǔ) 義關(guān)系的方法的流程圖。在步驟310,接收具有包括文本的內(nèi)容的第一電子文檔。可將該 電子文檔存儲(chǔ)在諸如數(shù)據(jù)存儲(chǔ)220等數(shù)據(jù)存儲(chǔ)中。電子文檔可以是網(wǎng)站、電子數(shù)據(jù)表、文字
12處理文件、電子郵件、或其它此類(lèi)電子文檔。文本包括被組織成根據(jù)諸如英語(yǔ)或法語(yǔ)等已知 語(yǔ)言的協(xié)議來(lái)傳達(dá)意思的單詞。本發(fā)明的實(shí)施例不限于具體語(yǔ)言且可等效地應(yīng)用于任何語(yǔ)
曰o 在步驟315,將該文本解析成一個(gè)或多個(gè)句子。通過(guò)將被設(shè)計(jì)成識(shí)別給定語(yǔ)言中的 句子的算法應(yīng)用到文本來(lái)解析句子。句子中的單詞定義了彼此相關(guān)的角色。例如,在句子 "約翰在工作時(shí)讀書(shū)"中,約翰是主語(yǔ),書(shū)是賓語(yǔ),而讀是形成約翰與書(shū)之間的關(guān)系的動(dòng)詞。 "讀"和"工作"處于由"在"所述的關(guān)系中。在步驟320,句子中的一單詞被確定為處于第 一角色中。還可向句子中的其余單詞分配角色。句子中的多個(gè)單詞可能具有相同角色。例 如,句子可具有超過(guò)一個(gè)的主語(yǔ)或賓語(yǔ)。 在步驟325,確定單詞具有超過(guò)一個(gè)的潛在角色。換言之,單詞可扮演超過(guò)一個(gè)的 角色。例如,在句子"約翰在工作時(shí)讀書(shū)"中,"在"可以是描述約翰在何時(shí)讀或約翰在何處 讀的角色類(lèi)型。通過(guò)參考一個(gè)或多個(gè)角色分層結(jié)構(gòu)來(lái)確定一單詞具有超過(guò)一個(gè)的可能角 色。角色分層結(jié)構(gòu)的示例在圖4和5中示出。為了說(shuō)明起見(jiàn)簡(jiǎn)化這些角色分層結(jié)構(gòu)。工作 角色分層結(jié)構(gòu)可包含眾多關(guān)系。角色分層結(jié)構(gòu)包括至少兩層。第層即根節(jié)點(diǎn)是單詞之間的 關(guān)系的更通用的表達(dá)。根節(jié)點(diǎn)下的子層包含對(duì)由根節(jié)點(diǎn)描述的關(guān)系的更具體的實(shí)施例。
現(xiàn)在轉(zhuǎn)到圖4,示出可結(jié)合彼此使用的三個(gè)角色分層結(jié)構(gòu)。角色分層結(jié)構(gòu)410包括 根節(jié)點(diǎn)"核心"412以及子節(jié)點(diǎn)"主語(yǔ)"414禾口"賓語(yǔ)"416。"主語(yǔ)"414禾口"賓語(yǔ)"416處于同 一層上,且因此具有相等的具體性。角色分層結(jié)構(gòu)420包括"中心詞"422和"關(guān)系"424。角 色分層結(jié)構(gòu)430包括根節(jié)點(diǎn)"模糊"432、子節(jié)點(diǎn)"何處"434、"何時(shí)"436、以及"為什么"438。 子節(jié)點(diǎn)"何處"434具有子節(jié)點(diǎn)"離開(kāi)"440以及"在"442。子節(jié)點(diǎn)"何時(shí)"436具有子節(jié)點(diǎn) 444 "之前"、"在"446、以及"之后"448。根節(jié)點(diǎn)"核心"412、"中心詞"422、以及"模糊"432 可用作涵蓋角色分層結(jié)構(gòu)中在它們之下的所有關(guān)系的占位符。角色分層結(jié)構(gòu)的同一層上的 關(guān)系被認(rèn)為具有相同水平的具體性。例如,角色"主語(yǔ)"414和角色"賓語(yǔ)"416是同等具體 的。 查看角色分層結(jié)構(gòu)430,可以看到"在"表現(xiàn)為"何處"434和"何時(shí)"的子節(jié)點(diǎn)。因 此,"在"可具有超過(guò)一個(gè)的可能角色。在示例句子"約翰在工作時(shí)讀書(shū)"中,"在"描述"讀" 與"工作"之間的關(guān)系。"在"將是與工作相關(guān)聯(lián)的第一關(guān)系,而"何處"434、"何時(shí)"436、和 /或"模糊"432可被關(guān)聯(lián)作與工作的次要關(guān)系。在一個(gè)實(shí)施例中,所有四個(gè)可能的關(guān)系都 與單詞"工作"相關(guān)聯(lián)。圖4示出在分析單詞之間的關(guān)系時(shí)可使用多個(gè)角色分層結(jié)構(gòu)?;?者,可將所有關(guān)系表達(dá)在如圖5所示的單個(gè)分層結(jié)構(gòu)中。 現(xiàn)在轉(zhuǎn)到圖5,根據(jù)本發(fā)明的一實(shí)施例示出示例單個(gè)角色分層結(jié)構(gòu)500。根節(jié)點(diǎn) 是"角色"505。子節(jié)點(diǎn)的第一層包括"核心"510、"關(guān)系"530、以及"模糊"540。在節(jié)點(diǎn)"核 心"510之下是"本質(zhì)"512和"發(fā)起者"516。"本質(zhì)"512之下的節(jié)點(diǎn)包括"受者"518和"主 題"520。在節(jié)點(diǎn)"發(fā)起者"516下的是節(jié)點(diǎn)"效應(yīng)物"522禾P"作用者"524。在節(jié)點(diǎn)"何處"542 下是節(jié)點(diǎn)"離開(kāi)"550以及"在"552。在節(jié)點(diǎn)"何時(shí)"544下是節(jié)點(diǎn)554 "之前"、"在"556、 以及"之后"558。如"在"所示,單個(gè)關(guān)系可以是超過(guò)一個(gè)父節(jié)點(diǎn)的子節(jié)點(diǎn)。核心角色是對(duì) 具有關(guān)系角色的元素而言視為基本的參與者的角色。這涉及作為自愿(作用者)或非自愿 (效應(yīng)物)的改變的原因(發(fā)起者)的參與者,以及參與而不導(dǎo)致改變(本質(zhì))的參與者、 他們或者經(jīng)受改變(受者)或不經(jīng)受改變(主題)。例如,在"約翰打破窗戶(hù)"中,"約翰"是作用者而"窗戶(hù)"是受者,在"風(fēng)暴打破窗戶(hù)"中,"風(fēng)暴"是效應(yīng)物。在"約翰看見(jiàn)風(fēng)暴"中, "風(fēng)暴"是主題。 現(xiàn)在回到圖3,在步驟330,將第二角色分配到已經(jīng)被分配了主要角色的單詞。還
可將次要角色分配給句子中的其它角色。通過(guò)在角色分層結(jié)構(gòu)上向上移動(dòng)一層或多分層來(lái) 分配第二角色。例如,再次參考圖5,在第一角色是"在"時(shí),第二角色可以是"何處"54、"何 時(shí)"544、和/或"模糊"540。在步驟335,將單詞與第一角色和第二角色一起存儲(chǔ)在將單詞 和句子與該句子來(lái)自其中的第一電子文檔相關(guān)聯(lián)的索引中。這允許搜索引擎將第一電子文 檔與包括具有類(lèi)似角色的類(lèi)似單詞的搜索查詢(xún)匹配。在一個(gè)實(shí)施例中,將單詞和所分配的 角色存儲(chǔ)在項(xiàng)中。該項(xiàng)可由一個(gè)單詞和一個(gè)角色組成。因此,項(xiàng)可以是"工作.在"或"工 作.何時(shí)"或"工作.何處"。在另一實(shí)施例中,項(xiàng)包括單詞和關(guān)系以及一個(gè)或多個(gè)在有效 載荷中的附加關(guān)系。因此,項(xiàng)可以是工作.模糊(在、何處、何時(shí))。有效載荷包括(在、何 處、何時(shí))。在此示例中,單詞與角色分層結(jié)構(gòu)中最通用的角色相關(guān)聯(lián)且子角色被包括在有 效載荷中。第二實(shí)施例可潛在地節(jié)省索引中的存儲(chǔ)器空間。 在步驟340,接收到使用與句子中的單詞相同的單詞的搜索查詢(xún)??赏ㄟ^(guò)由搜索 引擎通過(guò)因特網(wǎng)呈現(xiàn)的用戶(hù)界面來(lái)接收搜索查詢(xún)。還可按其它方式來(lái)接收搜索查詢(xún)。在一 實(shí)施例中,搜索查詢(xún)是使用有如其在言語(yǔ)中所使用彼此的關(guān)系中的單詞的自然語(yǔ)言查詢(xún)。 在步驟345,確定來(lái)自查詢(xún)的單詞在搜索查詢(xún)內(nèi)的第一角色中使用。在步驟350,確定單詞 在搜索查詢(xún)內(nèi)具有超過(guò)一個(gè)的潛在角色。如前所述,如果一單詞出現(xiàn)在角色分層結(jié)構(gòu)的子 層中,則可確定其具有更多的潛在角色。在步驟355,將附加角色分配到查詢(xún)中的單詞。因 此,在步驟355完成時(shí),擴(kuò)展了查詢(xún)中的至少一個(gè)單詞的角色,且電子文檔中的至少一個(gè)單 詞的角色被擴(kuò)展并存儲(chǔ)在索引中。 在步驟360,搜索索引以尋找具有按第一角色和第三角色中的一個(gè)或多個(gè)使用的 第一單詞的一個(gè)或多個(gè)電子文檔。回想,第一角色和第三角色是結(jié)合單詞在搜索查詢(xún)中的 出現(xiàn)而被分配到單詞的角色。在步驟365,確定第一電子文檔匹配搜索查詢(xún)。第一電子文檔 是對(duì)搜索查詢(xún)的匹配,因?yàn)槠浒谝唤巧械牡谝粏卧~。在步驟370,具有分配到第一角 色和第三角色的第一單詞的第二電子文檔是對(duì)搜索查詢(xún)的第二匹配。在步驟375,第二電子 文檔被排序?yàn)楸鹊谝浑娮游臋n更好的對(duì)搜索查詢(xún)的匹配,因?yàn)榈诙娮游臋n包含與被分配 到查詢(xún)的角色共同的兩個(gè)角色而不是僅一個(gè)共同角色相關(guān)聯(lián)的單詞。具體而言,該單詞在 查詢(xún)和第二文檔兩者中的出現(xiàn)都與第一角色和第三角色相關(guān)聯(lián)。在另一實(shí)施例中,與其中 相同單詞在搜索查詢(xún)和文檔兩者中與更通用的角色相關(guān)聯(lián)的另一文檔相比,在相同單詞在 文檔和搜索查詢(xún)兩者中與相同具體角色相關(guān)聯(lián)時(shí)給出較高排名。 圖6示出索引句子內(nèi)的單詞和角色并將該句子匹配到兩個(gè)示例查詢(xún)。在此實(shí)施例
中,來(lái)自句子的單詞和被分配到句子中的這些單詞的角色兩者被擴(kuò)展并添加到索引。在由 圖6示出的實(shí)施例中,不擴(kuò)展查詢(xún)中的單詞和角色。句子"約翰看見(jiàn)貓"620的語(yǔ)義分析在 索引中生成一系列條目,這些條目將與句子620以及從中取得該句子620的文檔相關(guān)聯(lián)。 未示出該對(duì)句子和文檔的關(guān)聯(lián)。項(xiàng)包括約翰.主語(yǔ)622。下一項(xiàng)是約翰.核心624,其為分 配給約翰的主語(yǔ)角色的擴(kuò)展。下一項(xiàng)是人.主語(yǔ)626。項(xiàng)626擴(kuò)展單詞約翰并將其分配給 未擴(kuò)展的角色主語(yǔ)。下一項(xiàng)人.核心628包括約翰的擴(kuò)展單詞和主語(yǔ)的擴(kuò)展角色。項(xiàng)實(shí) 體.主語(yǔ)630是與未擴(kuò)展的角色主語(yǔ)相關(guān)聯(lián)的約翰的進(jìn)一步擴(kuò)展。項(xiàng)實(shí)體.核心632是對(duì)約翰和主語(yǔ)兩者的擴(kuò)展。在此示例中,實(shí)體用作任何名詞的通配符。項(xiàng)看見(jiàn).關(guān)系634包 括未擴(kuò)展的單詞和未擴(kuò)展的關(guān)系或角色。下一項(xiàng)是感知.關(guān)系636,它包括單詞看見(jiàn)的擴(kuò)展 以及未擴(kuò)展的角色關(guān)系。下一項(xiàng)貓.賓語(yǔ)638是未擴(kuò)展的單詞和未擴(kuò)展的角色的組合。項(xiàng) 貓.核心640包括未擴(kuò)展的單詞貓以及擴(kuò)展的角色核心。項(xiàng)貓科動(dòng)物.賓語(yǔ)642包括貓的 擴(kuò)展單詞,即貓科動(dòng)物,以及未擴(kuò)展角色。下一項(xiàng)貓科動(dòng)物.核心644包括單詞貓的擴(kuò)展以 及角色的擴(kuò)展。下一項(xiàng)動(dòng)物.賓語(yǔ)646包括對(duì)單詞貓的進(jìn)一步擴(kuò)展以及未擴(kuò)展角色。下一 項(xiàng)動(dòng)物.核心648包括對(duì)單詞貓的進(jìn)一步擴(kuò)展以及角色的擴(kuò)展。下一項(xiàng)實(shí)體.賓語(yǔ)650還 包括與未擴(kuò)展角色相關(guān)聯(lián)的單詞貓的進(jìn)一步擴(kuò)展。最終項(xiàng)實(shí)體.核心652包括擴(kuò)展的單詞 以及擴(kuò)展的關(guān)系。 可將第一示例查詢(xún)"誰(shuí)感知某事?"610分解成三個(gè)項(xiàng)。第一項(xiàng)是代表主語(yǔ)的人.主 語(yǔ)612。選擇單詞人,因?yàn)轫憫?yīng)于詢(xún)問(wèn)誰(shuí)的查詢(xún)來(lái)搜索人。下一項(xiàng)是感知.關(guān)系614,而最 后一項(xiàng)是實(shí)體.賓語(yǔ)616。因此,此查詢(xún)將匹配其中人是主語(yǔ)、該人感知、以及實(shí)體是賓語(yǔ)的 句子。如可以看到地,項(xiàng)612是與索引中的項(xiàng)626的匹配670。項(xiàng)614是與索引中的項(xiàng)636 的匹配672,而項(xiàng)616是與索引中的項(xiàng)650的匹配674。因此,包含"約翰看見(jiàn)貓"620的文 檔將響應(yīng)于查詢(xún)"誰(shuí)感知某事"610匹配。 可將第二示例查詢(xún)"誰(shuí)看見(jiàn)動(dòng)物? "660分解成三個(gè)未擴(kuò)展的項(xiàng)。項(xiàng)包括人.主語(yǔ) 662、看見(jiàn).關(guān)系664、以及動(dòng)物.賓語(yǔ)668。項(xiàng)662形成與項(xiàng)626的匹配676。項(xiàng)664是與 項(xiàng)634的匹配677。項(xiàng)668是與項(xiàng)646的匹配678。因此,可通過(guò)非常寬泛的查詢(xún)"誰(shuí)感知 某事"610以及更具體的查詢(xún)"誰(shuí)看見(jiàn)動(dòng)物"660來(lái)找到句子"約翰看見(jiàn)貓"620,因?yàn)橥貙捇?擴(kuò)展了句子620中的項(xiàng)和關(guān)系以便它們匹配更通用的查詢(xún)。還保留更具體的角色以便更具 體的查詢(xún)也找到匹配。 在圖6所示的實(shí)施例中,擴(kuò)展與文檔中的句子相關(guān)聯(lián)的單詞和角色兩者,而不擴(kuò) 展查詢(xún)中的單詞和角色。在另一實(shí)施例中,擴(kuò)展查詢(xún)中的角色,而不擴(kuò)展來(lái)自文檔中的句子 的角色。此實(shí)施例由圖7示出,其顯示在句子沒(méi)有角色擴(kuò)展但在查詢(xún)中擴(kuò)展角色的映射。為 了說(shuō)明起見(jiàn),使用句子"約翰在工作"730??蓪⒕渥?30分解成項(xiàng)約翰.主語(yǔ)732、人.主 語(yǔ)734、實(shí)體.主語(yǔ)735、是.關(guān)系736、實(shí)體.在738、以及工作.在739。在此情況下,在一
個(gè)實(shí)例中將約翰擴(kuò)展成人和實(shí)體,并將工作擴(kuò)展成實(shí)體。然而,不擴(kuò)展角色。
可將示例查詢(xún)"誰(shuí)在某處?"710分解成三個(gè)未擴(kuò)展的項(xiàng)。這些未擴(kuò)展的項(xiàng)包括 人.主語(yǔ)712、是.關(guān)系714以及實(shí)體.在718。添加具有擴(kuò)展角色的兩個(gè)附加項(xiàng)并使用它 們搜索索引。具有擴(kuò)展角色的第一項(xiàng)是實(shí)體.離開(kāi)716。具有擴(kuò)展角色的第二項(xiàng)是實(shí)體.何 處720。如可以看到的,項(xiàng)712是與項(xiàng)734的匹配760,項(xiàng)714是與項(xiàng)736的匹配762,而項(xiàng) 718是與項(xiàng)738的匹配764。因此,查詢(xún)"誰(shuí)在某處?"將找到句子"約翰在工作"。
可將第二示例查詢(xún)"約翰在何處? " 740分解成項(xiàng)約翰.主語(yǔ)742、是.關(guān)系744、 實(shí)體.離開(kāi)746、實(shí)體.在748、以及實(shí)體.何處750。如可以看到地,擴(kuò)展了與實(shí)體相關(guān)聯(lián) 的關(guān)系。項(xiàng)742形成與項(xiàng)732的匹配770,項(xiàng)744形成與項(xiàng)736的匹配772,而項(xiàng)748形成 與項(xiàng)738的匹配774。因此,查詢(xún)"約翰在何處? "740將找到句子"約翰在工作"。
圖6和7示出擴(kuò)展查詢(xún)或來(lái)自文檔的句子任一中的角色。在一實(shí)施例中,在查詢(xún) 和句子兩者中均擴(kuò)展與單詞相關(guān)聯(lián)的角色。此實(shí)施例在圖8中示出?,F(xiàn)在轉(zhuǎn)到圖8,根據(jù)本 發(fā)明的一實(shí)施例示出將擴(kuò)展的查詢(xún)與擴(kuò)展的句子匹配的示例。在圖8中,擴(kuò)展了與查詢(xún)中的單詞相關(guān)聯(lián)的角色和與索引句子中的單詞相關(guān)聯(lián)的角色兩者。將句子"約翰在工作時(shí)閱 讀"820分解成若干項(xiàng)。這些項(xiàng)包括約翰.主語(yǔ)822、約翰.核心824、人.主語(yǔ)826、人.核 心828、實(shí)體.主語(yǔ)830、閱讀.關(guān)系832、工作.在834、工作.何處836、工作.模糊838、 實(shí)體.在840、實(shí)體.何處842、實(shí)體.模糊844、以及實(shí)體.何時(shí)846。如可看到地,單詞約 翰被擴(kuò)展成人和實(shí)體而單詞工作被擴(kuò)展成實(shí)體。類(lèi)似地,角色"主語(yǔ)"被擴(kuò)展成與約翰相關(guān) 聯(lián)的"核心",而角色"在"被擴(kuò)展成與工作相關(guān)的"何處"、"模糊"、以及"何時(shí)"。可將第一 查詢(xún)"在工作期間閱讀"810分解成項(xiàng)閱讀.關(guān)系812、以及可被擴(kuò)展成工作.何時(shí)816的 工作.期間814。此查詢(xún)不是被索引的句子820的匹配,因?yàn)樵谂c句子820相關(guān)聯(lián)的索引項(xiàng) 中找不到項(xiàng)814或816。在此實(shí)施例中,查詢(xún)中的所有項(xiàng)必須匹配索引中的項(xiàng)。然而,在其 它實(shí)施例中,對(duì)文檔而言在不是來(lái)自查詢(xún)的所有項(xiàng)可匹配索引中的項(xiàng)時(shí)匹配也存在。
可將第二示例查詢(xún)"在工作之前閱讀"850分解成項(xiàng)閱讀.關(guān)系852、工作.之前 854以及工作.何時(shí)856。將響應(yīng)于第二查詢(xún)850返回句子"約翰在工作時(shí)閱讀"820,因?yàn)?項(xiàng)832是與項(xiàng)860的匹配。類(lèi)似地,項(xiàng)846形成與查詢(xún)中的項(xiàng)856的匹配862。因此,在本 發(fā)明的各實(shí)施例中,可在索引、查詢(xún)、或兩者中擴(kuò)展角色。 現(xiàn)在轉(zhuǎn)到圖9,示出根據(jù)本發(fā)明的實(shí)施例的使用角色分層結(jié)構(gòu)來(lái)索引文檔內(nèi)容的 方法的流程圖。在步驟910,接收作為文檔的一部分的句子。在步驟915,將角色分配給句 子中的單詞。如前所述,角色的類(lèi)型可以是單詞之間的語(yǔ)義關(guān)系。在步驟920,使用角色分 層結(jié)構(gòu)向單詞分配至少一個(gè)附加角色。角色分層結(jié)構(gòu)包括角色的分層結(jié)構(gòu),包括通用的根 角色和比根角色更具體的至少一層子角色。因此,向來(lái)自句子的至少一個(gè)單詞分配至少兩 個(gè)角色??蓪蝹€(gè)角色分配給多個(gè)單詞。如前所述,附加角色是更通用的且從角色分層結(jié) 構(gòu)上的較高層取得。 在步驟925,存儲(chǔ)單詞以及被分配到各個(gè)單詞的一個(gè)或多個(gè)角色。將這些單詞和角 色存儲(chǔ)在將單詞和句子與句子來(lái)自其中的文檔相關(guān)聯(lián)的索引中。在一實(shí)施例中,還可結(jié)合 關(guān)系擴(kuò)展單詞。擴(kuò)展角色和單詞兩者可造成要索引的項(xiàng)的增長(zhǎng)。如前所述,項(xiàng)是單詞和分 配給該單詞的角色的組合。在一實(shí)施例中,按照單個(gè)項(xiàng)中的單個(gè)角色存儲(chǔ)項(xiàng)。在另一實(shí)施 例中,將單詞存儲(chǔ)在項(xiàng)中,該項(xiàng)包括單詞和與該單詞相關(guān)聯(lián)的最寬泛角色以及與單詞相關(guān) 聯(lián)的更具體的其它關(guān)系的有效載荷。 在步驟930,接收到包含多個(gè)單詞的自然語(yǔ)言搜索查詢(xún)。在步驟935,將主要角色
分配給來(lái)自搜索查詢(xún)的多個(gè)單詞中的單詞。在步驟940,使用角色分層結(jié)構(gòu)將至少一個(gè)附加
角色分配給多個(gè)單詞中的至少一個(gè)單詞。在步驟945,確定在索引中引用的一個(gè)或多個(gè)文檔
具有分配到相同角色中的一個(gè)或多個(gè)的多個(gè)單詞中的至少一個(gè)單詞。在步驟950,對(duì)一個(gè)或
多個(gè)文檔排名。給予具有分配相同角色的更為匹配的單詞的文檔較高排名。此外,在與較
具體的角色相關(guān)聯(lián)的單詞匹配索引中具有相同具體角色的相同單詞時(shí),給出較高排名???br>
向提交搜索查詢(xún)的用戶(hù)完整或部分顯示匹配該搜索查詢(xún)的一個(gè)或多個(gè)文檔。 參考各具體實(shí)施例描述了本發(fā)明,各具體實(shí)施例在所有方面都旨在是說(shuō)明性的而
非限制性的。在不背離本發(fā)明范圍的情況下各替換實(shí)施例對(duì)本發(fā)明所屬領(lǐng)域的普通技術(shù)人
員將變得顯而易見(jiàn)。 從前述內(nèi)容可知,本發(fā)明很好地適用于實(shí)現(xiàn)前述的所有目的和目標(biāo),并且具有對(duì) 于該系統(tǒng)和方式是顯而易見(jiàn)且固有的其它優(yōu)點(diǎn)??梢岳斫猓囟ǖ奶卣骱妥咏M合是有用的,并且可以在不參考其它特征和子組合的情況下使用。這由權(quán)利要求書(shū)所構(gòu)想并在其范圍之 內(nèi)。
權(quán)利要求
一個(gè)或多個(gè)其上實(shí)施有用于執(zhí)行擴(kuò)展并索引句子內(nèi)單詞之間的語(yǔ)義關(guān)系的方法的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述方法包括接收310具有包括文本的內(nèi)容的第一電子文檔;將所述文本分315成一個(gè)或多個(gè)句子;確定320所述句子中的單詞的第一角色;確定325所述單詞具有超過(guò)一個(gè)的潛在角色;向所述單詞分配330第二角色;以及將所述單詞與所述第一角色和所述第二角色一起存儲(chǔ)335在將所述單詞和所述句子與所述第一電子文檔相關(guān)聯(lián)的索引中,進(jìn)而允許搜索引擎將所述第一電子文檔與包括具有類(lèi)似角色的類(lèi)似單詞的搜索查詢(xún)匹配。
2. 如權(quán)利要求1所述的介質(zhì),其特征在于,所述方法還包括 接收包含所述單詞的所述搜索查詢(xún); 確定所述單詞在所述搜索查詢(xún)內(nèi)按所述第一角色使用; 確定所述單詞在所述搜索查詢(xún)內(nèi)具有超過(guò)一個(gè)的潛在角色;以及 向所述單詞分配第三角色。
3. 如權(quán)利要求2所述的方法,其特征在于,所述方法還包括搜索所述索引以尋找具有按所述第一角色和所述第三角色中的一個(gè)或多個(gè)使用的所 述單詞的一個(gè)或多個(gè)電子文檔。確定所述第一電子文檔是對(duì)所述搜索查詢(xún)的第一匹配;確定具有分配到所述第一角色和所述第三角色的所述單詞的第二電子文檔是對(duì)所述 搜索查詢(xún)的第二匹配;以及將所述第二電子文檔排名為與所述第一電子文檔相比對(duì)所述搜索查詢(xún)更好的匹配,因 為所述第二電子文檔具有使用被分配到所述搜索查詢(xún)中的所述單詞的相同角色的角色的 所述單詞。
4. 如權(quán)利要求2所述的方法,其特征在于,所述方法還包括確定與所述索引中的條目相關(guān)聯(lián)的至少兩個(gè)文檔包含與所述第一角色或所述第三角 色相關(guān)聯(lián)的所述單詞;以及向包含與被分配到所述搜索查詢(xún)中的所述單詞的相同角色中的更多個(gè)相關(guān)聯(lián)的所述 單詞的文檔分配較高排名。
5. 如權(quán)利要求1所述的介質(zhì),其特征在于,使用角色分層結(jié)構(gòu)分配所述第二角色,其中 所述角色分層結(jié)構(gòu)包括角色的分層結(jié)構(gòu),包括通用的根角色以及比所述根角色更具體的至 少一層子角色。
6. 如權(quán)利要求1所述的介質(zhì),其特征在于,將所述單詞與所述第一角色和所述第二角 色一起存儲(chǔ)包括在所述索引中創(chuàng)建包括所述單詞和所述第一角色的第一項(xiàng)并在所述索引 中創(chuàng)建包括所述單詞和所述第二角色的第二項(xiàng)。
7. 如權(quán)利要求1所述的介質(zhì),其特征在于,將所述單詞與所述第一角色和所述第二角 色一起存儲(chǔ)包括在所述索引中創(chuàng)建包括所述單詞和所述第一角色以及所述第二角色的項(xiàng)。
8. —種用于將搜索查詢(xún)匹配到一個(gè)或多個(gè)文檔內(nèi)的文本的計(jì)算機(jī)化系統(tǒng),所述系統(tǒng)包括用于以下功能的第一語(yǔ)義解釋組件250(1) 向所述搜索查詢(xún)中的單詞分配主要角色;(2) 使用角色分層結(jié)構(gòu)向來(lái)自所述搜索查詢(xún)具有所述主要角色的至少一個(gè)單詞分配附 加角色;用于確定在索引中引用的至少一個(gè)文檔包括來(lái)自搜索查詢(xún)的單詞的匹配組件265,其中向所述至少一個(gè)文檔中的單詞以及所述搜索查詢(xún)中的單詞分配所述相同角色中的至少 一個(gè)。
9. 如權(quán)利要求8所述的計(jì)算機(jī)化系統(tǒng),其特征在于,還包括用于演示描述所述至少一 個(gè)文檔的信息的演示組件。
10. 如權(quán)利要求8所述的計(jì)算機(jī)化系統(tǒng),其特征在于,所述第一語(yǔ)義解釋組件通過(guò)將所 述搜索查詢(xún)中的一個(gè)或多個(gè)單詞的同義詞和上位詞中的至少一個(gè)添加到搜索項(xiàng)的列表來(lái) 生成對(duì)所述索引搜索的附加單詞,其中搜索項(xiàng)包括單個(gè)單詞和相關(guān)聯(lián)的角色,且其中所述 同義詞和所述上位詞形成具有被分配到所述同義詞和所述上位詞對(duì)其是同義詞和上位詞 的一個(gè)或多個(gè)單詞的角色的搜索項(xiàng)。
11. 如權(quán)利要求8所述的計(jì)算機(jī)化系統(tǒng),其特征在于,還包括用于對(duì)一個(gè)或多個(gè)文檔排 名的排名組件,其中在所述搜索查詢(xún)中的被分配超過(guò)一個(gè)角色的所述單詞具有與在所述索 引中出現(xiàn)的所述單詞共同的多個(gè)角色時(shí)給予較高排名。
12. 如權(quán)利要求8所述的計(jì)算機(jī)化系統(tǒng),其特征在于,還包括 用于以下功能的第二語(yǔ)義解釋組件(1) 接收作為文檔的一部分的句子;(2) 向句子中的單詞分配主要角色;(3) 使用所述角色分層結(jié)構(gòu)向所述句子中具有所述主要角色的至少一個(gè)單詞分配至少 一個(gè)附加角色;以及用于將所述句子中的所述單詞與被分配到所述句子中的單詞的所述至少一個(gè)角色一 起存儲(chǔ)在所述索引中的索引組件,所述索引將所述句子中的單詞和所述句子與所述文檔相 關(guān)聯(lián)。
13. 如權(quán)利要求12所述的計(jì)算機(jī)化系統(tǒng),其特征在于,所述索引組件索引包括單個(gè)單 詞和被分配的角色的項(xiàng)中的所述單詞和所述角色,其中每一項(xiàng)包括一個(gè)單詞和一個(gè)角色。
14. 如權(quán)利要求12所述的計(jì)算機(jī)化系統(tǒng),其特征在于,所述索引組件索引包括單個(gè)單 詞和被分配的角色的項(xiàng)中的所述單詞和所述角色,其中每一項(xiàng)包括一個(gè)單詞和至少一個(gè)角 色,進(jìn)而允許在單個(gè)項(xiàng)中包括多個(gè)角色。
15. —個(gè)或多個(gè)其上包含用于執(zhí)行使用角色分層結(jié)構(gòu)來(lái)索引文檔內(nèi)容的方法的計(jì)算機(jī) 可執(zhí)行指令的計(jì)算機(jī)存儲(chǔ)介質(zhì),所述方法包括接收910作為文檔的一部分的句子; 向所述句子中的單詞分配915角色;使用所述角色分層結(jié)構(gòu)向所述單詞分配920至少一個(gè)附加角色,其中所述角色分層結(jié) 構(gòu)包括角色的分層結(jié)構(gòu),包括通用的根角色以及比所述根角色更具體的至少一層子角色, 進(jìn)而向至少一個(gè)單詞分配至少兩個(gè)角色,以及將所述單詞與被分配到各個(gè)單詞的一個(gè)或多個(gè)角色一起存儲(chǔ)925在將所述單詞和所述句子與所述文檔相關(guān)聯(lián)的索引中。
16. 如權(quán)利要求15所述的介質(zhì),其特征在于,存儲(chǔ)所述單詞和所述角色包括生成包括單詞和被分配的角色的項(xiàng),其中每一項(xiàng)包括一個(gè)單詞和一個(gè)角色。
17. 如權(quán)利要求15所述的介質(zhì),其特征在于,存儲(chǔ)所述單詞和所述角色包括生成包括 單詞和被分配的角色的項(xiàng),其中每一項(xiàng)包括一個(gè)單詞和至少一個(gè)角色,進(jìn)而允許在單個(gè)項(xiàng) 中包括多個(gè)角色。
18. 如權(quán)利要求15所述的方法,其特征在于,所述方法還包括 接收包含多個(gè)單詞的自然語(yǔ)言搜索查詢(xún); 向所述多個(gè)單詞中的單詞分配主要角色;使用角色分層結(jié)構(gòu)向所述多個(gè)單詞中的至少一個(gè)單詞分配至少一個(gè)附加角色;以及 確定在所述索引中被引用的一個(gè)或多個(gè)文檔具有所述多個(gè)單詞中被分配到所述相同 角色中的一個(gè)或多個(gè)的至少一個(gè)單詞。
19. 如權(quán)利要求18所述的方法,其特征在于,所述方法還包括對(duì)所述一個(gè)或多個(gè)文檔排名,其中給予具有更匹配單詞和角色的文檔較高排名,且其 中向所述多個(gè)單詞中與多個(gè)角色相關(guān)聯(lián)的、具有與所述單詞在所述索引中出現(xiàn)的較多共同 角色的單詞給予較多排名點(diǎn)。
20. 如權(quán)利要求19所述的介質(zhì),其特征在于,所述方法還包括根據(jù)被分配到所述一個(gè) 或多個(gè)文檔中的每一個(gè)的排名顯示所述一個(gè)或多個(gè)文檔。
全文摘要
提供用于尋找數(shù)據(jù)存儲(chǔ)中匹配由用戶(hù)提交的自然語(yǔ)言查詢(xún)的文檔的方法、系統(tǒng)以及計(jì)算機(jī)可讀介質(zhì)。通過(guò)確定查詢(xún)內(nèi)的單詞彼此具有與文檔中的相同單詞相同的關(guān)系來(lái)匹配文檔和查詢(xún)。對(duì)文檔進(jìn)行語(yǔ)義分析且索引文檔中的單詞連同該單詞在句子中扮演的角色??墒褂媒巧謱咏Y(jié)構(gòu)來(lái)生成初始語(yǔ)義角色并將其連同原始角色一起存儲(chǔ)在索引中??蓪㈩?lèi)似分析用于搜索查詢(xún)以尋找在查詢(xún)和文檔兩者中按相同角色使用的單詞。
文檔編號(hào)G06F17/27GK101796510SQ200880105548
公開(kāi)日2010年8月4日 申請(qǐng)日期2008年9月2日 優(yōu)先權(quán)日2007年8月31日
發(fā)明者C·P·沃爾特斯, G·L·蒂奧內(nèi), M·H·范登伯格, R·S·克魯奇 申請(qǐng)人:微軟公司