專利名稱:信息提取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體而言涉及信息提取。更具體而言,本發(fā)明涉及用于從文章中提取信息的方法及系統(tǒng)。
背景技術(shù):
搜索引擎或搜索引擎程序為一種使用戶能夠在大量文檔中搜索信息的廣泛使用的機(jī)制。自動化通用搜索引擎通過使用戶所輸入的搜索查詢項與一帶索引的網(wǎng)頁庫相匹配來確定文檔(例如網(wǎng)頁)的位置。傳統(tǒng)的網(wǎng)絡(luò)搜索引擎(例如GoogleTM搜索引擎)響應(yīng)于用戶所提交的搜索查詢而返回一搜索結(jié)果集合。所述搜索結(jié)果集合可包括一具有一至每一文檔的鏈接的排序的文檔列表且可向用戶返回所述文檔的摘要。所述搜索引擎可根據(jù)許多種量度(例如搜索項在文檔中出現(xiàn)的次數(shù)及包含一通至一文檔的鏈接的文檔數(shù)量)在搜索結(jié)果集合中對各個文章或文檔進(jìn)行排序或分類。例如,一種已知方法(其闡述于由Sergey Brin及Lawrence Page所撰寫的名稱為“對一大型超級文本搜索引擎的剖析(The Anatomy of a Large-Scale Hypertextual Search Engine)”的文章中)是根據(jù)網(wǎng)頁的鏈接結(jié)構(gòu)為文檔(例如網(wǎng)頁)指定一重要度。
許多文檔(例如網(wǎng)頁)提供待售條目。此類購物文檔允許用戶直接(例如通過點擊一鏈接)或間接購買各條目。希望對來自不同賣主的條目的價格進(jìn)行比較的用戶可在一通用搜索引擎中輸入對所述條目的查詢并獲得一相關(guān)文檔列表。同樣,可能存在所述條目的不同版本且用戶可能希望查看每一賣主帶有哪個版本。為了比較價格或版本,用戶必須訪問所有提供所述待售條目的文檔。另外,在搜索結(jié)果集合中可能存在不是購物文檔而只是論述該條目(例如評論)的文檔。
期望響應(yīng)于對條目的搜索查詢而自一搜索結(jié)果集合中的相關(guān)文檔向用戶提供所述條目的某些屬性,例如價格、版本及圖像。手動搜遍大量文檔來提取條目屬性可能極費時間且對于很多文檔來說不切實際。
因此,需要響應(yīng)于用戶的搜索查詢而自動從文檔中提取產(chǎn)品信息。
發(fā)明內(nèi)容
本發(fā)明的各實施例包括用于從文章中識別并提取信息的方法及系統(tǒng)。在一實施例中,一搜索引擎執(zhí)行一種方法,該方法包括接收復(fù)數(shù)個文章,并將至少一第一文章識別為一購物文章。所述方法可進(jìn)一步包括接收針對一條目的搜索查詢,選擇與所述搜索查詢相關(guān)聯(lián)的所述第一文章,及至少部分地根據(jù)所述搜索查詢而從所述第一文章中識別出一第一屬性,所述第一屬性與一和搜索查詢相關(guān)的第一條目相關(guān)聯(lián)。本發(fā)明的其他方面涉及計算機(jī)系統(tǒng)并涉及具有與上述方面相關(guān)的特征的計算機(jī)可讀媒體。
下文將對本發(fā)明各實施例的進(jìn)一步細(xì)節(jié)及優(yōu)點進(jìn)行闡述。
參照附圖閱讀下文詳細(xì)說明,將會更好地了解本發(fā)明的這些及其他特征、方面及優(yōu)點,附圖中圖1為一圖解說明一本發(fā)明一實施例可在其中運行的實例性環(huán)境;圖2為一流程圖,其圖解說明一種根據(jù)本發(fā)明的一實施例從文章中識別并提取條目屬性的方法;及圖3為一流程圖,其圖解說明一種根據(jù)本發(fā)明的一實施例從一文章中識別并提取條目價格及圖像信息的方法的一實例。
具體實施例方式
本發(fā)明包括用于信息提取的方法及系統(tǒng)。現(xiàn)在參見附圖,在這幾個圖式中相同編號指示相同元件,圖1為一圖解說明一用于實施本發(fā)明一實施例的實例性環(huán)境的方塊圖。圖1中所示的系統(tǒng)100包括多個通過一網(wǎng)絡(luò)106與一服務(wù)器裝置104通信的客戶機(jī)裝置102a-n。所示網(wǎng)絡(luò)106包括因特網(wǎng)。在其他實施例中,可使用例如內(nèi)聯(lián)網(wǎng)等其他網(wǎng)絡(luò)。此外,本發(fā)明的方法可在單個計算機(jī)內(nèi)運行。
所示客戶機(jī)裝置102a-n各自包括一計算機(jī)可讀媒體,例如一耦接至一處理器110的隨機(jī)存取存儲器(RAM)108。處理器110執(zhí)行存儲于存儲器108中的計算機(jī)可執(zhí)行程序指令。此類處理器可包括微處理器、ASIC及狀態(tài)機(jī)。此類處理器包括存儲指令的媒體(例如計算機(jī)可讀媒體)或者可與所述媒體通信,所述指令在由所述處理器執(zhí)行時會使所述處理器實施本文中所述的步驟。計算機(jī)可讀媒體的各實施例包括(但不限于)能為處理器(例如客戶機(jī)102a的處理器110)提供計算機(jī)可讀指令的電子、光學(xué)、磁性或其他存儲或傳輸裝置。其他適合的媒體實例包括(但不限于)軟盤、CD-ROM、DVD、磁盤、存儲芯片、ROM、RAM、ASIC、經(jīng)配置的處理器、所有光學(xué)媒體、所有磁帶或其他磁性媒體、或計算機(jī)處理器可自其讀取指令的任何其他媒體。此外,各種其他形式的計算機(jī)可讀媒體也可向計算機(jī)傳輸或載送指令,包括路由器、專用或公用網(wǎng)絡(luò)、或其他有線和無線傳輸裝置或信道。所述指令可包括任一種計算機(jī)編程語言的代碼,包括(例如)C、C++、C#、Visual Basic、Java、Python、Perl、及JavaScript。
客戶機(jī)裝置102a-n也可包括若干外部或內(nèi)部裝置,例如鼠標(biāo)、CD-ROM、DVD、鍵盤、顯示器或其他輸入或輸出裝置??蛻魴C(jī)裝置102a-n的實例為個人計算機(jī)、數(shù)字助理、個人數(shù)字助理、蜂窩式電話、移動電話、智能電話、尋呼機(jī)、數(shù)字圖形輸入板、膝上型計算機(jī)、因特網(wǎng)設(shè)備及其他基于處理器的裝置。通常,客戶機(jī)裝置102a可為連接至一網(wǎng)絡(luò)106并與一個或多個應(yīng)用程序交互作用的任一類型的基于處理器的平臺。客戶機(jī)裝置102a-n可在任一能夠支持瀏覽器或由瀏覽器啟用的應(yīng)用程序的操作系統(tǒng)(例如MicrosoftWindows或Linux)上運行。所示客戶機(jī)裝置102a-n包括(例如)執(zhí)行一瀏覽器應(yīng)用程序(例如Microsoft公司的Internet ExplorerTM、Netscape通信公司的Netscape NavigatorTM及Apple計算機(jī)公司的SafariTM)的個人計算機(jī)。
通過客戶機(jī)裝置102a-n,用戶112a-n可通過網(wǎng)絡(luò)106來彼此通信并與耦接至網(wǎng)絡(luò)106的其他系統(tǒng)及裝置通信。如圖1所示,一服務(wù)器裝置104也耦接至網(wǎng)絡(luò)106。在所示實施例中,一用戶112a-n在一客戶裝置102a處產(chǎn)生一搜索查詢114??蛻粞b置102a通過網(wǎng)絡(luò)106將查詢114傳輸至服務(wù)器裝置104。例如,一用戶112a將一關(guān)于一條目的原文搜索查詢輸入至一顯示于客戶機(jī)裝置102a上的購物搜索引擎界面或其他客戶端軟件的一網(wǎng)頁中的查詢域中,然后所述搜索查詢通過網(wǎng)絡(luò)106傳輸至服務(wù)器裝置104。在所示實施例中,一用戶112a在一客戶機(jī)裝置102a上輸入一搜索查詢114,由客戶機(jī)裝置102a將一反映搜索查詢114的相關(guān)搜索查詢信號122傳輸至服務(wù)器裝置104。可如圖所示直接將搜索查詢114直接傳輸至服務(wù)器裝置104。在另一實施例中,查詢信號122可改為發(fā)送至一代理服務(wù)器(未顯示),然后由代理服務(wù)器將查詢信號122傳輸至服務(wù)器裝置104。也可具有其他配置。
所示服務(wù)器裝置104包括一執(zhí)行一購物搜索引擎應(yīng)用程序(例如FroogleTM搜索引擎)的服務(wù)器。類似于客戶機(jī)裝置102a-n,所示服務(wù)器裝置104包括一耦接至一計算機(jī)可讀存儲器118的處理器116。服務(wù)器裝置104-其被顯示為單個計算機(jī)系統(tǒng)-可構(gòu)建成一計算機(jī)處理器網(wǎng)絡(luò)。服務(wù)器裝置104的各實例為服務(wù)器、主計算機(jī)、聯(lián)網(wǎng)的計算機(jī)、基于處理器的裝置、及相似類型的系統(tǒng)及裝置??蛻魴C(jī)處理器110及服務(wù)器處理器116可為若干種計算機(jī)處理器中的任一種,例如位于Santa Clara,California的Intel公司的及位于Schaumburg,Illinois的Motorola公司的處理器。
存儲器118包含購物搜索引擎應(yīng)用程序-亦稱作搜索引擎120。搜索引擎120響應(yīng)于來自用戶112a-n的搜索查詢114而查找文章中的相關(guān)條目。條目可包括(例如)產(chǎn)品、商品、服務(wù)及任何其他待售物品。然后,搜索引擎120通過網(wǎng)絡(luò)106將結(jié)果集合124提供至客戶機(jī)102a。結(jié)果集合124可包括一排序的條目列表、每一條目的屬性(例如價格及圖像)及至每一包含所述條目的文章的鏈接(例如網(wǎng)頁)。搜索引擎還包括一文檔定位器130及一屬性處理器132。在所示實施例中,每一搜索引擎均包括駐留于存儲器118中的計算機(jī)代碼。
在所示實施例中,服務(wù)器裝置104或相關(guān)裝置確定存儲于與網(wǎng)絡(luò)106相連的其他裝置或系統(tǒng)上文章(例如網(wǎng)頁)的位置,并在接收并處理一搜索查詢114之前給存儲器118中或另一數(shù)據(jù)存儲裝置上的所述文章加索引。文章包括(例如)各種格式(例如HTML、XML、XHTML)的網(wǎng)頁、可移植文檔格式(PDF)文件、及字處理器、數(shù)據(jù)庫、及應(yīng)用程序文檔文件、音頻、視頻、或可在一網(wǎng)絡(luò)(例如因特網(wǎng))、個人計算機(jī)或其他計算或存儲構(gòu)件上獲得的任何類型的任何其他文檔或信息。本文所述實施例大體上是就HTML文件或文檔來加以說明,但各實施例亦可對任一類型的文章(包括任一類型的圖像)運行。在網(wǎng)絡(luò)漫游期間或之后,服務(wù)器裝置104或其他裝置可確定是否所漫游文檔中有的為購物文檔。購物文檔為一種提供待售條目的文檔且在其中可通過與所述文檔或相關(guān)文檔交互作用來購買所述條目。
響應(yīng)于一搜索查詢信號122,文檔定位器130識別包含與搜索查詢信號122相關(guān)的條目的購物文檔。一購物文檔可包含單個或多個與所述搜索查詢相關(guān)的條目。購物文檔可包含條目屬性,例如(舉例而言)條目的價格、條目的圖像、條目的SKU數(shù)及條目的版本。屬性處理器132識別并提取某些關(guān)聯(lián)于這一或這些與搜索查詢相關(guān)的條目的屬性。在一實施例中,屬性處理器132從由文檔定位器130定位出的與搜索查詢相關(guān)的文檔中識別并提取所述條目的價格及與所述條目相關(guān)聯(lián)的圖像。下文將進(jìn)一步闡述文檔定位器130及屬性處理器132的其他功能及特性。
應(yīng)注意,本發(fā)明可包括具有一不同于圖1所示的架構(gòu)的系統(tǒng)。例如,在根據(jù)本發(fā)明的一些系統(tǒng)中,屬性處理器132可定位于搜索引擎120的外部且可在用戶進(jìn)行搜索查詢之前離線實施其功能。圖1所示系統(tǒng)100僅為實例性,用于解釋圖2及3所示的實例性方法。
可實施根據(jù)本發(fā)明的各種方法。例如,在一實施例中,接收復(fù)數(shù)個文章,識別一第一文章中的至少一個價格表示形式,識別第一文章中一鏈接元素或一形式元素中的至少一個購物字符串,并提供一所述第一文章為一購物文章的指示。所述價格表示形式可為一貨幣符號后面依次跟有一數(shù)字、一句點或逗點、兩個單數(shù)位的數(shù)字。所述字符串可出現(xiàn)于一統(tǒng)一資源定位符(URL)、一HTML形式元素(例如<FORM>、<INPUT>、或<IMAGE>)的參數(shù)或值、或一HTML<A>標(biāo)簽中的URL中。所述字符串可為“add to cart(添加至推車)”、“add to basket(添加至籃子)”、“add to shopping bag(添加至購物袋)”、“update order(更新次序)”、“cart(推車)”、“basket(籃子)”及“checkout(收款處)”。
在一實施例中,接收對條目的搜索查詢,選擇與搜索查詢相關(guān)聯(lián)的一第一文章,至少部分地根據(jù)搜索查詢來識別一與來自所述文章的條目相關(guān)聯(lián)的第一屬性,至少部分地根據(jù)所述搜索查詢及所述第一屬性來識別一與所述條目相關(guān)聯(lián)的第二屬性,并從第一文章中提取第一屬性及第二屬性。搜索查詢可由用戶輸入或者可由搜索引擎或搜索引擎管理器產(chǎn)生。可從復(fù)數(shù)個文章中提取屬性并可對每一條目進(jìn)行排序。可將排序的條目列表作為一搜索結(jié)果集合提供給用戶。或者,搜索引擎可將所提取的屬性加上索引并加以存儲。
可按眾多種方式來識別第一屬性及第二屬性。例如,可至少部分地根據(jù)第一文章的結(jié)構(gòu)來識別第一屬性及第二屬性。對第一屬性及第二屬性的識別可包括確定每一屬性與一查詢詞之間的關(guān)系。第一文章可具有一樹形結(jié)構(gòu)且對第一屬性及第二文章的識別可包括確定每一屬性與一查詢詞之間的若干個字、確定自每一屬性及一查詢詞至一最接近的共同先輩的距離、確定一既包含第一屬性及一查詢詞又包含第二屬性及一查詢詞的最小樹中的若干節(jié)點、確定到一既包含第一屬性及一查詢詞又包含第二屬性及一查詢詞的最小樹的深度、確定第一屬性與第二屬性之間的距離。對第一屬性及第二屬性的識別也可包括確定關(guān)聯(lián)于與第一文章相關(guān)的文章的全局信息。對第一屬性及第二屬性的識別可同時實施,或者可逐次實施,例如先確定第一屬性、然后再確定第二屬性。
在一實施例中,第一屬性為一與條目相關(guān)聯(lián)的價格而第二屬性為一與條目相關(guān)聯(lián)的圖像。識別價格可包括確定一價格表示形式得分、確定價格的字號、確定價格的字體、確定緊鄰在價格前面的字、及確定緊跟在價格后面的字。識別圖像可包括確定一與圖像相關(guān)聯(lián)的長寬比、及確定一與圖像相關(guān)聯(lián)的發(fā)生頻率值。
圖2圖解說明一種實例性方法200,其提供一種用于從文檔中識別并提取條目屬性的方法。此實例性方法僅以舉例說明方式提供,因為存在眾多種實施本發(fā)明方法的方式。圖2所示方法200可由各種系統(tǒng)中的任一系統(tǒng)執(zhí)行或以其他方式實施。下文以舉例方式將方法200闡述成由圖1所示的系統(tǒng)100實施,且在對圖2所示實例性方法的解說中引用系統(tǒng)100的各種元件。
在202中,搜索引擎120識別購物文檔。購物文檔為一種提供待售條目的文檔且在其中可通過與所述文檔或相關(guān)文檔交互作用來購買所述條目。搜索引擎120可在網(wǎng)絡(luò)漫游106期間或在網(wǎng)絡(luò)漫游106之后確定購物文檔。搜索引擎120可在所漫游文檔的一索引中為每一被識別為購物文檔的文檔提供一指示(例如旗標(biāo))。
為了確定一文檔是否為一購物文檔,搜索引擎120可檢測所述文檔中指示所述文檔提供待售條目的特定格式化特性。由于文檔常常論述待售條目但不實際提供待售條目(例如是對條目的評論),因而用戶可見的文檔特征往往不可靠。因此,搜索引擎120可在確定一文檔是否為購物文檔時著重于所述文檔的非用戶可見的機(jī)械方面。例如,倘若為HTML文檔,搜索引擎120可確定文檔中是否存在任何指示所述文檔為一購物文檔的形式元素或鏈接元素。搜索引擎120可搜尋出現(xiàn)于URL、一HTML形式元素(例如<FORM>、<INPUT>、或<IMAGE>)的參數(shù)或值、或一HTML<A>標(biāo)簽中的URL中的字符串。例如,一形式或鏈接元素中的下列字符串指示一購物文檔“addto cart(添加至推車)”、“add to basket(添加至籃子)”、“add to shopping bag(添加至購物袋)”、“update order(更新次序)”、“cart(推車)”、“basket(籃子)”及“checkout(收款處)”。有眾多種其他類似字符串也可指示一購物文檔。在確定一文檔是否為一購物文檔時,搜索引擎120也可確定在所述文檔上是否出現(xiàn)價格。具體而言,搜索引擎120可識別所述文檔是否包含一價格表示形式。一價格表示形式可為貨幣符號后面依次跟有一數(shù)字、一句點、兩個單數(shù)位的數(shù)字,例如“$15.89”。同樣,搜索引擎可識別除“$”以外的其他貨幣符號并可尋找一指示一貨幣的小數(shù)的逗點而不是句點,例如ε15,89。
在204中,搜索引擎120通過網(wǎng)絡(luò)106自一客戶機(jī)裝置102a接收一搜索查詢信號122。一用戶112a可將表示一所述用戶希望購買或希望獲得其購買信息的條目的文本輸入一客戶機(jī)裝置102a中??蛻魴C(jī)裝置可產(chǎn)生一表示由用戶輸入的搜索查詢114的相關(guān)搜索查詢信號122并通過網(wǎng)絡(luò)106將搜索查詢信號122傳輸至服務(wù)器裝置104。例如,如果用戶112a對購買一照相機(jī)感興趣,則其可在客戶機(jī)裝置102a中輸入“照相機(jī)”且客戶機(jī)裝置將一相關(guān)搜索查詢信號122發(fā)送至服務(wù)器裝置104?;蛘?,搜索引擎120或一搜索引擎管理器可產(chǎn)生一關(guān)于一個或多個條目的搜索查詢,以便能夠從文檔中提取條目屬性。
在206中,文檔定位器130識別與在搜索查詢中所請求的條目相關(guān)的購物文檔。對于搜索查詢“照相機(jī)”這一實例而言,文檔定位器130可嘗試對所有提供照相機(jī)以供購買的購物文檔進(jìn)行定位。文檔定位器130可使用傳統(tǒng)技術(shù)來識別相關(guān)購物文檔,例如(舉例而言)將所述搜索查詢詞與購物文檔的索引詞相比對。
在208中,對于在步驟206中由文檔定位器130所識別的每一購物文檔而言,由屬性處理器132來識別并提取某些與包含于所述文檔中的這一或這些條目相關(guān)聯(lián)的屬性。條目屬性可包括(例如)條目名稱、所述條目的價格、所述條目的圖像、所述條目的SKU碼、所述條目的版本、所述條目的說明、及與所述條目相關(guān)的其他信息??筛鶕?jù)眾多個因素,例如查詢詞、文檔結(jié)構(gòu)、相關(guān)文檔的全局信息及其他所識別出的或潛在的屬性,來識別文檔中的條目屬性。
例如,屬性處理器132可通過確定一潛在屬性與所述搜索查詢中所使用的詞的關(guān)系來識別條目的潛在屬性??筛鶕?jù)眾多個距離量度及基于文檔結(jié)構(gòu)的結(jié)構(gòu)量度來確定此種關(guān)系。例如,屬性處理器132可通過確定一潛在屬性距查詢詞的距離、一潛在屬性在文檔結(jié)構(gòu)中的位置、及一潛在屬性的字號及字體來確定一關(guān)系。屬性處理器132也可使用文檔中各潛在屬性之間的關(guān)系來確定條目的屬性??勺R別并提取每一條目的多個屬性。例如,屬性處理器可根據(jù)查詢詞來識別并提取一條目標(biāo)題,且隨即使用此屬性及所述查詢詞來識別并提取所述條目的價格,并使用所提取的兩個屬性及所述查詢詞來識別并提取所述條目的圖像。通過使屬性選擇傾向于文檔中彼此接近的東西,可提高所選屬性的品質(zhì)。由屬性處理器132用于識別及選擇與條目相關(guān)聯(lián)的屬性的全局信息可包括(例如)來自一特定賣主或主機(jī)的文檔數(shù)量、一圖像在網(wǎng)絡(luò)上被引用的次數(shù)、及圖像的尺寸。屬性處理器132可同時確定一條目的不同屬性或者每次確定一個屬性。
圖3圖解說明子例程208的一實例并具體圖解說明為一文檔中的條目確定兩個屬性-價格及圖像-的實例。在302中,屬性處理器132確定條目的一潛在價格列表。屬性處理器132可通過檢查文檔并確定與每一潛在價格相關(guān)聯(lián)的價格信號來確定潛在價格。這些價格信號可包括價格表示形式、潛在價格的字體、潛在價格與特定字的接近性、及與潛在價格相關(guān)的距離及結(jié)構(gòu)量度。
例如,可賦予每一潛在價格一表示所述價格看起來多么好像一價格的價格表示形式得分。一價格通常將具有一貨幣指示符(例如“$”)、一后面依次跟有一句點及兩個單數(shù)位的數(shù)字,因而價格可形如“$15.89”。潛在價格的字號如果為一大的字號,則其可指示其為一價格。字體也可指示潛在價格是否為一實際價格。例如,一加刪除線的字型可指示該潛在價格不是條目的價格。緊位于潛在價格前面的詞(例如“our price(我方價格)”、“your price(你方價格)”、“sale price(售價)”及“sale(出售)”)可指示為一價格。相反地,某些緊位于一潛在價格前面的字可指示所述潛在價格不是一實際價格,例如(舉例而言)“starting at(自...起)”、“over(超過)”、“about(約)”“was(曾為)”、“save(節(jié)約)”、“rebate(折扣)”及“shipping(發(fā)貨)”。一緊位于潛在價格前面或后面的國家縮寫(例如“US”)可指示其為一實際價格。
一條目的價格或其他屬性有可能非常接近在所述條目的搜索查詢中所用的詞。因此,屬性處理器132可利用各種距離及結(jié)構(gòu)量度來確定一潛在價格與一查詢詞的接近性。一個此種距離量度為一潛在價格與一查詢詞之間的字?jǐn)?shù)??蓪哂幸粯湫谓Y(jié)構(gòu)的文檔使用其他距離量度。如為所屬領(lǐng)域的技術(shù)人員所知,HTML文檔具有一可由復(fù)數(shù)個小的樹形結(jié)構(gòu)形成的分層樹形結(jié)構(gòu)。對于樹形結(jié)構(gòu)的文檔而言,屬性處理器132可確定自一潛在價格至與一查詢詞共享的最接近共同先輩的距離及既包含一潛在價格又包含一查詢詞的最小樹的深度。屬性處理器還可使用既包含一潛在價格又包含一查詢詞的最小樹中若干節(jié)點的結(jié)構(gòu)量度來確定條目的潛在價格。
根據(jù)某些或所有這些價格信號,屬性處理器132識別一文檔中一條目的潛在價格并為來自一文檔的條目編輯一潛在價格列表。在一實施例中,屬性處理器132隨后可根據(jù)在一決策樹中所使用的這些相同信號來對所述列表進(jìn)行分類及排序。對列表進(jìn)行分類及排序的其他方法也是可能的。
在304中,屬性處理器132可為來自一文檔的條目確定潛在圖像。如同確定條目的潛在價格一樣,屬性處理器132確定各種圖像信號以識別與所述條目相關(guān)聯(lián)的潛在圖像。此類信號可為(例如)潛在圖像及查詢詞的各種距離及結(jié)構(gòu)量度、潛在圖像及潛在價格的各種距離及結(jié)構(gòu)量度、及關(guān)于潛在圖像的全局信息??蓪⒃谧R別潛在價格時所曾使用的類似距離量度及結(jié)構(gòu)量度用于潛在圖像及查詢詞及潛在圖像及潛在價格。關(guān)于潛在圖像的全局信息(例如潛在圖像的文件類型、潛在圖像的尺寸、潛在圖像的長寬比及所述圖像的一出現(xiàn)值)也可由屬性處理器132用來確定潛在圖像。所述出現(xiàn)值可基于所述圖像在文檔中及網(wǎng)絡(luò)中的出現(xiàn)頻率。最好選取所述條目的呈照片或其他表示形式的條目圖像,而不是與條目相關(guān)聯(lián)的標(biāo)志圖或其他不合乎需要的圖像。圖像可由具有“.gif”、“.jpeg”或“.jpg”擴(kuò)展名的文件指示。具有奇特長寬比或頻繁出現(xiàn)于文檔或網(wǎng)絡(luò)中的圖像可能是標(biāo)志圖或其他不合乎需要的圖像。另外,極大的圖像或小的圖像可能表示所述圖像不適用或不合適。
根據(jù)某些或所有這些信號,屬性處理器132為一文檔中的條目編輯一潛在圖像列表。在一實施例中,屬性處理器132隨后可根據(jù)一決策樹中所使用的這些相同信號來對所述列表進(jìn)行分類及排序。也可具有對所述列表進(jìn)行分類及排序的其他方法。
在306中,屬性處理器132從一文檔中選擇一條目的最佳潛在價格及最佳潛在圖像。屬性處理器可將最高有序潛在價格選擇為最佳潛在價格且可將最高有序潛在圖像選擇為最佳潛在圖像。使圖像及價格選擇偏向于文檔上彼此接近的東西可提高所選圖像及價格的品質(zhì)。在另一實施例中,在處理器132識別潛在圖像之前,處理器132識別最佳潛在價格。
在308中,由屬性處理器132提取文檔中與所述條目相關(guān)的最佳潛在價格及最佳潛在圖像并可將其用于編輯所述文檔的與所述條目相關(guān)的摘要。
現(xiàn)在回到圖2,屬性處理器可從由文檔定位器130所識別出的相關(guān)文檔中識別并提取所請求條目的屬性。在210中,將每一相關(guān)文檔的條目屬性編輯于一搜索結(jié)果集合中。
在212中,所編輯的搜索結(jié)果集合可由服務(wù)器裝置104通過網(wǎng)絡(luò)106傳輸至客戶機(jī)裝置102a。或者,搜索引擎120可將條目屬性加上索引并加以存儲,以供響應(yīng)于來自用戶的搜索查詢而加以使用。
雖然上文說明包含許多細(xì)節(jié),但這些細(xì)節(jié)不應(yīng)視為對本發(fā)明范圍的限制,而應(yīng)僅視為對所揭示實施例的舉例說明。所屬領(lǐng)域的技術(shù)人員將會設(shè)想出許多仍屬于本發(fā)明的范圍內(nèi)的其他可能的變化形式。措詞“第一”及“第二”在本文中只是用來將各條目、文章或?qū)傩韵嗷^(qū)分。措詞“第一”及“第二”并非用來指示時間上的第一或第二,或列表中的第一或第二,或其他次序,除非另外明確指出。例如,“第二”可能在時間上或列表中出現(xiàn)在“第一”之前,除非另外明確表明。
權(quán)利要求
1.一種方法,其包括接收復(fù)數(shù)個文章;及將至少一第一文章識別為一購物文章。
2.如權(quán)利要求1所述的方法,其中至少部分地通過識別一第一文章中的至少一個價格表示形式來將所述第一文章識別為一購物文章。
3.如權(quán)利要求1所述的方法,其中至少部分地通過識別所述第一文章的一鏈接元素或一形式元素中的至少一個購物字符串來將所述第一文章識別為一購物文章。
4.如權(quán)利要求1所述的方法,其進(jìn)一步包括提供所述第一文章為一購物文章的一指示。
5.如權(quán)利要求2所述的方法,其中所述價格表示形式為一貨幣符號后跟一數(shù)字再后跟一句點或逗點及再后跟兩個單數(shù)位的數(shù)字。
6.如權(quán)利要求3所述的方法,其中所述字符串包括包含如下的字符串的群組中的至少一個add to cart(添加至推車),add to basket(添加至籃子),add to shoppingbag(添加至購物袋),update order(更新次序),cart(推車),basket(籃子),及checkout(收款處)。
7.如權(quán)利要求1所述的方法,其進(jìn)一步包括接收一對一條目的搜索查詢;使所述第一文章與所述搜索查詢相關(guān)聯(lián);及至少部分地根據(jù)所述搜索查詢從所述第一文章中識別一與一第一條目相關(guān)聯(lián)的第一屬性,所述第一條目與所述搜索查詢相關(guān)。
8.如權(quán)利要求7所述的方法,其進(jìn)一步包括至少部分地根據(jù)所述搜索查詢及所述第一屬性來識別一與所述第一條目相關(guān)聯(lián)的第二屬性。
9.如權(quán)利要求8所述的方法,其進(jìn)一步包括從所述第一文章中提取所述第一屬性及所述第二屬性。
10.一種方法,其包括接收一對一條目的搜索查詢;識別一與所述搜索查詢相關(guān)聯(lián)的第一文章;至少部分地根據(jù)所述搜索查詢從所述第一文章中識別一與一第一條目相關(guān)聯(lián)的第一屬性,所述第一條目與所述搜索查詢相關(guān)。
11.如權(quán)利要求10所述的方法,其進(jìn)一步包括至少部分地根據(jù)所述搜索查詢及所述第一屬性來識別一與所述第一條目相關(guān)聯(lián)的第二屬性。
12.如權(quán)利要求11所述的方法,其進(jìn)一步包括從所述第一文章中提取所述第一屬性及所述第二屬性。
13.如權(quán)利要求10所述的方法,其進(jìn)一步包括從所述第一文章中識別與復(fù)數(shù)個條目相關(guān)聯(lián)的復(fù)數(shù)個屬性,所述復(fù)數(shù)個條目與所述搜索查詢相關(guān)。
14.如權(quán)利要求11所述的方法,其中所述第一屬性及所述第二屬性的所述識別至少部分地基于所述第一文章的一結(jié)構(gòu)。
15.如權(quán)利要求10所述的方法,其中識別所述第一屬性包括確定所述第一屬性與一查詢詞之間的一關(guān)系。
16.如權(quán)利要求15所述的方法,其中確定所述關(guān)系包括確定所述第一屬性與一查詢詞之間的若干個字。
17.如權(quán)利要求15所述的方法,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括確定一自所述第一屬性及一查詢詞至一最接近的共同先輩的距離。
18.如權(quán)利要求15所述的方法,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括確定一既包含所述第一屬性又包含一查詢詞的最小樹中的若干個節(jié)點。
19.如權(quán)利要求15所述的方法,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括確定所述樹形結(jié)構(gòu)中一既包含所述第一屬性又包含一查詢詞的最小樹的一深度。
20.如權(quán)利要求11所述的方法,其中識別所述第一屬性包括確定所述第一屬性與所述第二屬性之間的一距離。
21.如權(quán)利要求10所述的方法,其中所述第一屬性為所述第一條目的一價格。
22.如權(quán)利要求21所述的方法,其中識別所述價格包括確定一價格表示形式得分。
23.如權(quán)利要求21所述的方法,其中識別所述價格包括確定所述價格的一字號。
24.如權(quán)利要求21所述的方法,其中識別所述價格包括確定所述價格的一字體。
25.如權(quán)利要求21所述的方法,其中識別所述價格包括確定緊位于所述價格前面的字。
26.如權(quán)利要求11所述的方法,其中識別所述第一屬性及所述第二屬性包括確定與和所述第一文章相關(guān)的各文章相關(guān)聯(lián)的全局信息。
27.如權(quán)利要求11所述的方法,其中識別所述第二屬性包括確定所述第二屬性與一查詢詞之間的一關(guān)系。
28.如權(quán)利要求27所述的方法,其中確定所述關(guān)系包括確定所述第二屬性與一查詢詞之間的若干個字。
29.如權(quán)利要求27所述的方法,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括確定一自所述第二屬性及一查詢詞至一最接近的共同先輩的距離。
30.如權(quán)利要求27所述的方法,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括確定一既包含所述第二屬性又包含一查詢詞的最小樹中的若干個節(jié)點。
31.如權(quán)利要求27所述的方法,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括確定所述樹形結(jié)構(gòu)中一既包含所述第二屬性又包含一查詢詞的最小樹的一深度。
32.如權(quán)利要求11所述的方法,其中識別所述第二屬性包括確定所述第二屬性與所述第一屬性之間的一距離。
33.如權(quán)利要求11所述的方法,其中所述第二屬性為所述第一條目的一圖像。
34.如權(quán)利要求33所述的方法,其中識別所述圖像包括確定一與所述圖像相關(guān)聯(lián)的長寬比。
35.如權(quán)利要求33所述的方法,其中識別所述圖像包括確定一與所述圖像相關(guān)聯(lián)的出現(xiàn)頻率值。
36.如權(quán)利要求11所述的方法,其中同時實施對所述第一屬性及所述第二屬性的所述識別。
37.一種包含程序代碼的計算機(jī)可讀媒體,其包括用于接收復(fù)數(shù)個文章的程序代碼;及用于將第一文章識別為一購物文章的程序代碼。
38.如權(quán)利要求37所述的計算機(jī)可讀媒體,其中至少部分地通過識別一第一文章中的至少一個價格表示形式來將所述第一文章識別為一購物文章。
39.如權(quán)利要求37所述的計算機(jī)可讀媒體,其中至少部分地通過識別所述第一文章的一鏈接元素或一形式元素中的至少一個購物字符串來將所述第一文章識別為一購物文章。
40.如權(quán)利要求37所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于提供所述第一文章為一購物文章的一指示的程序代碼。
41.如權(quán)利要求38所述的計算機(jī)可讀媒體,其中所述價格表示形式為一貨幣符號后跟一數(shù)字再后跟一句點或逗點及再后跟兩個單數(shù)位數(shù)字。
42.如權(quán)利要求35所述的計算機(jī)可讀媒體,其中所述字符串包括包含如下的字符串的群組中的至少一個add to cart(添加至推車),add to basket(添加至籃子),add to shopping bag(添加至購物袋),update order(更新次序),cart(推車),basket(籃子),及checkout(收款處)。
43.如權(quán)利要求37所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于接收一對一條目的搜索查詢的程序代碼;用于使所述第一文章與所述搜索查詢相關(guān)聯(lián)的程序代碼;用于至少部分地根據(jù)所述搜索查詢從所述第一文章中識別一與所述條目相關(guān)聯(lián)的第一屬性的程序代碼。
44.如權(quán)利要求43所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于至少部分地根據(jù)所述搜索查詢及所述第一屬性來識別一與所述條目相關(guān)聯(lián)的第二屬性的程序代碼。
45.如權(quán)利要求44所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于從所述第一文章中提取所述第一屬性及所述第二屬性的程序代碼。
46.一種包含程序代碼的計算機(jī)可讀媒體,其包括用于接收一對一條目的搜索查詢的程序代碼;用于識別一與所述搜索查詢相關(guān)聯(lián)的第一文章的程序代碼;用于至少部分地根據(jù)所述搜索查詢從所述第一文章中識別一與一第一條目相關(guān)聯(lián)的第一屬性的程序代碼,所述第一條目與所述搜索查詢相關(guān)。
47.如權(quán)利要求46所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于至少部分地根據(jù)所述搜索查詢及所述第一屬性來識別一與所述第一條目相關(guān)聯(lián)的第二屬性的程序代碼。
48.如權(quán)利要求47所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于從所述第一文章中提取所述第一屬性及所述第二屬性的程序代碼。
49.如權(quán)利要求46所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于從所述第一文章中識別與復(fù)數(shù)個條目相關(guān)聯(lián)的復(fù)數(shù)個屬性的程序代碼,所述復(fù)數(shù)個條目與所述搜索查詢相關(guān)。
50.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中所述第一屬性及所述第二屬性的所述識別至少部分地基于所述第一文章的一結(jié)構(gòu)。
51.如權(quán)利要求46所述的計算機(jī)可讀媒體,其中識別所述第一屬性包括用于確定所述第一屬性與一查詢詞之間的一關(guān)系的程序代碼。
52.如權(quán)利要求51所述的計算機(jī)可讀媒體,其中確定所述關(guān)系包括用于確定所述第一屬性與一查詢詞之間的若干個字的程序代碼。
53.如權(quán)利要求51所述的計算機(jī)可讀媒體,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括用于確定一自所述第一屬性及一查詢詞至一最接近的共同先輩的距離的程序代碼。
54.如權(quán)利要求51所述的計算機(jī)可讀媒體,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括用于確定一既包含所述第一屬性又包含一查詢詞的最小樹中的若干個節(jié)點的程序代碼。
55.如權(quán)利要求51所述的計算機(jī)可讀媒體,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括用于確定所述樹形結(jié)構(gòu)中一既包含所述第一屬性又包含一查詢詞的最小樹的一深度的程序代碼。
56.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中識別所述第一屬性包括用于確定所述第一屬性與所述第二屬性之間的一距離的程序代碼。
57.如權(quán)利要求46所述的計算機(jī)可讀媒體,其中所述第一屬性為所述第一條目的一價格。
58.如權(quán)利要求57所述的計算機(jī)可讀媒體,其中識別所述價格包括用于確定一價格表示形式得分的程序代碼。
59.如權(quán)利要求57所述的計算機(jī)可讀媒體,其中識別所述價格包括用于確定所述價格的一字號的程序代碼。
60.如權(quán)利要求57所述的計算機(jī)可讀媒體,其中識別所述價格包括用于確定所述價格的一字體的程序代碼。
61.如權(quán)利要求57所述的計算機(jī)可讀媒體,其中識別所述價格包括用于確定緊位于所述價格前面的字的程序代碼。
62.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中識別所述第一屬性及所述第二屬性包括用于確定與和所述第一文章相關(guān)的各文章相關(guān)聯(lián)的全局信息的程序代碼。
63.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中識別所述第二屬性包括用于確定所述第二屬性與一查詢詞之間的一關(guān)系的程序代碼。
64.如權(quán)利要求63所述的計算機(jī)可讀媒體,其中確定所述關(guān)系包括用于確定所述第二屬性與一查詢詞之間的若干個字的程序代碼。
65.如權(quán)利要求63所述的計算機(jī)可讀媒體,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括用于確定一自所述第二屬性及一查詢詞至一最接近的共同先輩的距離的程序代碼。
66.如權(quán)利要求63所述的計算機(jī)可讀媒體,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括用于確定一既包含所述第二屬性又包含一查詢詞的最小樹中的若干節(jié)點的程序代碼。
67.如權(quán)利要求63所述的計算機(jī)可讀媒體,其中所述第一文章具有一樹形結(jié)構(gòu)且確定所述關(guān)系包括用于確定所述樹形結(jié)構(gòu)中一既包含所述第二屬性又包含一查詢詞的最小樹的一深度的程序代碼。
68.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中識別所述第二屬性包括用于確定所述第二屬性與所述第一屬性之間的一距離的程序代碼。
69.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中所述第二屬性為所述第一條目的一圖像。
70.如權(quán)利要求69所述的計算機(jī)可讀媒體,其中識別所述圖像包括用于確定一與所述圖像相關(guān)聯(lián)的長寬比的程序代碼。
71.如權(quán)利要求69所述的計算機(jī)可讀媒體,其中識別所述圖像包括用于確定一與所述圖像相關(guān)聯(lián)的出現(xiàn)頻率值的程序代碼。
72.如權(quán)利要求47所述的計算機(jī)可讀媒體,其中同時實施對所述第一屬性及所述第二屬性的所述識別。
73.一種方法,其包括接收復(fù)數(shù)個文章;將至少一第一文章識別為一購物文章,其中至少部分地通過識別一第一文章中的至少一個價格表示形式并至少部分地通過識別所述第一文章的一鏈接元素或一形式元素中的至少一個購物字符來將所述第一文章識別為一購物文章;接收對一條目的搜索查詢;使所述第一文章與所述搜索查詢相關(guān)聯(lián);至少部分地根據(jù)所述搜索查詢從所述第一文章中識別一與一第一條目相關(guān)聯(lián)的價格,所述第一條目與所述搜索查詢相關(guān);及至少部分地根據(jù)所述搜索查詢及所述價格識別一與所述第一條目相關(guān)聯(lián)的圖像。
全文摘要
本發(fā)明揭示用于從文章中識別并提取信息的系統(tǒng)及方法。在一實施例中,一搜索引擎執(zhí)行一種包括如下的方法接收復(fù)數(shù)個文章,并將至少一第一文章識別為一購物文章。所述方法可進(jìn)一步包括接收一對一條目的搜索查詢,選擇與所述搜索查詢相關(guān)聯(lián)的第一文章,及至少部分地根據(jù)所述搜索查詢從所述第一文章中識別一與第一條目相關(guān)聯(lián)的第一屬性,所述第一條目與所述搜索查詢相關(guān)。
文檔編號G06F17/30GK1890661SQ200480036436
公開日2007年1月3日 申請日期2004年11月17日 優(yōu)先權(quán)日2003年12月10日
發(fā)明者馬克·皮爾遜, 克雷格·內(nèi)維爾-曼寧, 阿比奈·夏爾馬 申請人:咕果公司