欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

在線參引的收集和記分的制作方法

文檔序號:6593906閱讀:334來源:國知局
專利名稱:在線參引的收集和記分的制作方法
在線參引的收集和記分
背景技術(shù)
通常,搜索引擎優(yōu)化是網(wǎng)絡(luò)管理員應(yīng)用來提高給定網(wǎng)頁或者其他互聯(lián)網(wǎng)站點的業(yè) 務(wù)量和業(yè)務(wù)質(zhì)量的過程。典型技術(shù)包括標題標簽中的關(guān)鍵字、元標簽(meta tag)中的關(guān)鍵 字、正文文本中的關(guān)鍵字、向內(nèi)鏈接中的錨文本、站點年齡、站點結(jié)構(gòu)、站點內(nèi)部鏈接結(jié)構(gòu)中 的鏈接廣泛度、可索引文本/網(wǎng)頁內(nèi)容量、站點鏈接數(shù)量、站點鏈接的廣泛度/相關(guān)度和向 內(nèi)鏈接標簽的主題相關(guān)度。基于網(wǎng)絡(luò)管理員試圖優(yōu)化的搜索引擎,有時候采用另外的技術(shù)。 由于搜索引擎算法和度量是專用的(proprietary),搜索引擎優(yōu)化技術(shù)廣泛用于提高搜索 引擎結(jié)果頁面上的網(wǎng)頁或者其他互聯(lián)網(wǎng)站點的可視性。搜索引擎營銷是互聯(lián)網(wǎng)營銷的一種形式,所述互聯(lián)網(wǎng)營銷包括搜索引擎優(yōu)化 (SEO)、付費收錄和付費鏈接。付費收錄和付費鏈接是付費互聯(lián)網(wǎng)廣告的形式,付費互聯(lián)網(wǎng) 廣告將廣告置于特定關(guān)鍵字搜索的結(jié)果頁面上。付費收錄和付費鏈接根據(jù)諸如關(guān)鍵字或者 搜索項的因素而在價格上發(fā)生變化。在線廣告是廣告的一種形式,其影響互聯(lián)網(wǎng)或者環(huán)球網(wǎng)傳送消息。在線廣告包括 文本廣告、橫幅式廣告、網(wǎng)頁直立式廣告、浮動廣告、擴展式廣告、禮貌廣告、墻紙式廣告、惡 作劇式廣告、彈出式廣告、隱藏式彈出廣告、視頻廣告、地圖廣告、移動廣告和許多其他的在 線廣告形式。在此要求保護的主題不限于克服了任何缺點或者只在如上述的環(huán)境下工作的實 施例。上述背景技術(shù)只是用于說明本文介紹的一些實施例可能應(yīng)用的一個示例技術(shù)領(lǐng)域。

發(fā)明內(nèi)容
此發(fā)明內(nèi)容用于以簡單形式介紹下面在具體實施方式
中進一步描述的各種方案 的選擇。此發(fā)明內(nèi)容并非旨在確定所要保護的主題的關(guān)鍵特征或者必要特征,也不是旨在 幫助確定要求保護的主題的范圍??偟膩碚f,本發(fā)明的示例實施例涉及實體的在線參引(online reference)的收集 和記分。一個示例實施例包括用于對實體的在線參引建立索引的方法。該方法包括確定要 被搜索以得到實體的參引的、互聯(lián)網(wǎng)的一個或多個通道,并且確定在所述一個或多個通道 的每一個中要評估的一個或多個信號。該方法也包括爬取(crawling)互聯(lián)網(wǎng)以得到實體 的在線參引,其中爬取互聯(lián)網(wǎng)包括搜索互聯(lián)網(wǎng)的一個或多個通道以獲得實體的參引,并且 評估所述一個或多個信號。該方法進一步包括構(gòu)建所述參引的反向索引,其中所述反向索 弓丨基于在其中找到參弓I的每一個通道和被評估用于參弓I的一個或多個信號。另一個實施例包括用于對實體的在線參引建立索引的系統(tǒng)。該系統(tǒng)包括深度索引 引擎(de印index engine),其中深度索引引擎被配置用于裝配參數(shù)以爬取互聯(lián)網(wǎng)并且將 要執(zhí)行的爬取插入到工作隊列中。該系統(tǒng)也包括一個或多個工作節(jié)點(worker node),其中 所述工作節(jié)點被配置用于執(zhí)行由深度索引引擎裝配的互聯(lián)網(wǎng)爬取。該系統(tǒng)進一步包括一個 或多個協(xié)調(diào)器,其中所述協(xié)調(diào)器被配置用于針對所述一個或多個工作節(jié)點從工作隊列中發(fā) 起工作。
本發(fā)明的示例實施例的這些和其他方面根據(jù)下面的描述和所附權(quán)利要求將變得非常清楚。


為了進一步澄清本發(fā)明的一些實施例的各個方面,將參考在附圖中示出的特定實 施例對發(fā)明做更加具體描述。應(yīng)當理解,這些附圖僅圖示本發(fā)明的典型實施例,因此不應(yīng)視 為限制它的范圍。本發(fā)明將被通過利用附圖進行具體詳細地描述和說明,其中圖1示出用于對實體的在線參引建立索引的示例系統(tǒng)的實施例;圖2A-2C示出可以用于圖1的系統(tǒng)中的工作節(jié)點的各種配置;圖3示出使用頁面搜索來找到要被搜索以得到在線參引的合適網(wǎng)頁的方法的各 個方面;圖4示出解析搜索引擎結(jié)果頁面的方法的各個方面;圖5示出用于提供在反向索引內(nèi)的結(jié)果的方法的實例;圖6A-6C示出提供結(jié)果給用戶的各個實例;和圖7示出用于對實體的在線參引建立索引的示例方法的流程圖。
具體實施例方式下面將參考附圖,其中相同的結(jié)構(gòu)使用相同附圖標記。應(yīng)當理解,附圖是對本發(fā)明 的一些實施例的圖示以及原理說明,而不是限制本發(fā)明,也不必按比例繪制。首先參見圖1,其示出了用于對實體的在線參引建立索引的系統(tǒng)105的實施例。其 在線參引被建立索引的實體可以包括個人、公司、商標、產(chǎn)品、型號或者互聯(lián)網(wǎng)上任何地方 引用的任何其他實體。參引可以包括有機參引(organicreference)、在線廣告、新聞條目或 者實體的任何其他參引。具體地,系統(tǒng)105可以用于識別實體的在線參引,其中基于客戶的 請求確定在線參引的類型和實體。例如,響應(yīng)于接收來自客戶的要對競爭對手的在線廣告 建立索引的請求,系統(tǒng)105可以用于執(zhí)行索引。系統(tǒng)105包括深度索引引擎110。深度索引引擎110被配置用于將爬取網(wǎng)絡(luò)112 的參數(shù)裝配為搜索工作。網(wǎng)絡(luò)112示例地包括互聯(lián)網(wǎng),該互聯(lián)網(wǎng)包括在多個廣域網(wǎng)和/或 局域網(wǎng)之間的邏輯和物理連接形成的全球互聯(lián)網(wǎng)并且可選地包括環(huán)球網(wǎng)(“ffeb”),該環(huán)球 網(wǎng)包括經(jīng)互聯(lián)網(wǎng)訪問的互聯(lián)超文本文件的系統(tǒng)。作為替換或附加地,網(wǎng)絡(luò)112包括一個或 多個蜂窩RF網(wǎng)絡(luò)和/或一個或多個有線和/或無線網(wǎng)絡(luò),諸如但不限于802. XX網(wǎng)絡(luò)、藍牙 接入點、無線接入點、IP網(wǎng)絡(luò)等。網(wǎng)絡(luò)112也包括使一種類型的網(wǎng)絡(luò)與另一種類型的網(wǎng)絡(luò) 接口的服務(wù)器。深度索引引擎110裝配的參數(shù)可以包括一個或多個通道(channel)。這些通道是 在要搜索的互聯(lián)網(wǎng)/網(wǎng)絡(luò)112內(nèi)的特定媒體。在一些實施例中,通道可以包括有機搜索、 頁面搜索、鏈接廣告網(wǎng)絡(luò)、橫幅式廣告、上下文廣告、電子郵件、博客、社交網(wǎng)絡(luò)、社會新聞 (social news)、聯(lián)盟網(wǎng)絡(luò)營銷、移動廣告、媒體廣告、視頻廣告、論壇、新聞?wù)军c、富媒體、社 會書簽、付費搜索和網(wǎng)游植入廣告。然而,所述通道不限于上述內(nèi)容,而是可以包括要搜索 的互聯(lián)網(wǎng)的任何相關(guān)領(lǐng)域,不論是現(xiàn)在已經(jīng)存在的還是將來創(chuàng)造出來的。有機搜索指的是搜索引擎結(jié)果頁面中的那些按照它們與搜索項的相關(guān)度而不是它們的廣告來呈現(xiàn)的列表。頁面搜索指的是搜索引擎結(jié)果頁面中的與呈現(xiàn)原因無關(guān)的列 表。鏈接廣告網(wǎng)絡(luò)指的是自動插入網(wǎng)頁的廣告——如果其包含相關(guān)主題。橫幅式廣告指的 是放在特定網(wǎng)頁上、特定位置中的廣告。上下文廣告指的是當出現(xiàn)某些關(guān)鍵字或者其他標 識而放置的廣告,例如關(guān)鍵字廣告。E-mail (電子郵件或者email)指的是利用數(shù)字通信系 統(tǒng)生成、發(fā)送或者存儲主要基于文本的人際間通信的方法。博客指的是一種網(wǎng)頁類型,通常 由個人利用定期輸入評論、事件描述或者諸如圖形或視頻的其他素材來維護。社交網(wǎng)絡(luò)指 的是由節(jié)點(其通常為個人或機構(gòu))組成的社會結(jié)構(gòu),所述節(jié)點由一個或多個特定類型的 相關(guān)性連系,所述相關(guān)性是諸如價值、愿景、想法、金融交易、友誼、親屬關(guān)系、厭惡、沖突或 者貿(mào)易。社會新聞指的是如下網(wǎng)頁其中用戶對新聞報道或者其他鏈接進行提交和投票、從 而確定提供哪些鏈接。聯(lián)盟網(wǎng)絡(luò)營銷包括使用網(wǎng)頁來將業(yè)務(wù)推送到由第一個網(wǎng)頁所有者的 聯(lián)營機構(gòu)維護的不同網(wǎng)頁。移動廣告包括在無線設(shè)備上提供的個性化廣告。媒體廣告包括 在以一種類型的媒體或者通信裝置中以在線、出版、視頻或者任何其他格式放置的廣告。視 頻廣告是以視頻格式提供的廣告。論壇或者留言版是以用戶生成內(nèi)容為特征的在線討論站 點。新聞?wù)军c是以報告包括一般新聞和專題新聞的新聞為主要目的的網(wǎng)頁。富媒體或者交 互媒體是允許接收者主動參與的媒體。社會書簽涉及網(wǎng)絡(luò)用戶存儲、組織、搜索和管理網(wǎng)絡(luò) 上的網(wǎng)頁的書簽并且私下地保存書簽、將書簽與公眾共享、將書簽與指定的人或者群組共 享、將書簽在某些網(wǎng)絡(luò)內(nèi)共享或者將網(wǎng)絡(luò)與專用和公共訪問的任何其他組合共享的方法。 付費搜索是一種類型的上下文廣告,其中網(wǎng)站所有者通?;邳c擊率或者廣告瀏覽支付廣 告費用,使他們的網(wǎng)站搜索結(jié)果顯示在搜索引擎結(jié)果頁面上的頂部位置。網(wǎng)游植入廣告是 放置于視頻游戲內(nèi)的在線廣告或者游戲控制臺上的廣告。返回圖1,深度索引引擎110裝配的參數(shù)也可以包括要評估的一個或多個信號。所 述信號包括關(guān)于實體的參引的信息。例如,置于網(wǎng)頁頂部的廣告更容易看到,因此通常比放 置在網(wǎng)頁底部的廣告更貴并且被認為更加有效。因此,如果要索引的參引包括在線廣告,廣 告位置是可以被識別以進行索引的信號。可替換地或附加地,要評估的信號可以包括以下 中的一個或多個給定網(wǎng)頁上的參引的頻率,網(wǎng)頁上的參引的位置,爬取的日歷日期,網(wǎng)頁 發(fā)布的日歷日期,爬取的時間,網(wǎng)頁發(fā)布的時間,上下文驅(qū)動的網(wǎng)頁索引,下載網(wǎng)頁的時間, 與網(wǎng)頁的網(wǎng)頁瀏覽器兼容性,網(wǎng)頁的網(wǎng)頁插件(Web插件)兼容性等。附加地或者可替換地, 要評估的電子郵件消息內(nèi)的信號可以包括接收的電子郵件消息的頻率、電子郵件消息的向 外鏈接、接收的電子郵件消息的日歷日期、接收的電子郵件消息的日歷日期、接收的電子郵 件消息的時間等。上下文驅(qū)動的網(wǎng)頁索引信號可以進一步包括網(wǎng)頁內(nèi)的鏈接和/或圍繞網(wǎng) 頁的發(fā)布和主題的當前事件。然而,要評估的信號不限于上述內(nèi)容,而是可以包括關(guān)于不論 是現(xiàn)在已經(jīng)存在的或者將來創(chuàng)造的、對實體的參引的任何相關(guān)信息。也應(yīng)當注意,除非有特 殊規(guī)定,在此使用的“網(wǎng)頁”指的是任何在線發(fā)布,包括域、子域、網(wǎng)上發(fā)布、統(tǒng)一資源標識符 (URI)、統(tǒng)一資源定位符(URL)和非永久發(fā)布諸如電子郵件和聊天。繼續(xù)參見圖1,深度索引引擎110創(chuàng)建、定義和/或確定工作,并且將工作(對于搜 索工作,包括每一個搜索工作的裝配參數(shù))插入到工作隊列115中。向工作隊列115的插 入可以通過直接插入或者通過經(jīng)協(xié)調(diào)器120發(fā)送工作或者通過用于從深度索引引擎110將 工作發(fā)送到工作隊列115的任何其他方法進行。在一些實施例中,工作隊列115維護要執(zhí) 行的工作并且將工作提供給工作節(jié)點125以執(zhí)行。
工作隊列115中的工作包括但不限于搜索工作,例如爬取互聯(lián)網(wǎng)。在一些實施例 中,一旦互聯(lián)網(wǎng)已經(jīng)被爬取就獲得數(shù)據(jù)。通常,數(shù)據(jù)指的是深度索引引擎已經(jīng)規(guī)定為相關(guān)的 任何信息。在一些實施例中,數(shù)據(jù)可以包括關(guān)于被搜索的通道的信息和被評估的信號。在 其他實施例中,數(shù)據(jù)可以包括下載網(wǎng)頁以進一步處理,如下面討論的那樣。在進一步的實施 例中,數(shù)據(jù)可以包括要解析的搜索結(jié)果,如下面討論的那樣。在一些實施例中,一旦獲得數(shù)據(jù),必須對數(shù)據(jù)進行處理。深度索引引擎110可以將 此類處理工作插入到工作隊列115中。在一些實施例中,數(shù)據(jù)處理可以包括評估信號。在其 他實施例中,數(shù)據(jù)處理可以包括解析搜索結(jié)果,如下面討論的那樣。在進一步的實施例中, 處理可以包括評估參引以得到正面或負面含義。例如,可以處理關(guān)于產(chǎn)品的博客條目以確 定該條目對于產(chǎn)品通常是正面的或者負面的。在其他實施例中,一旦獲得數(shù)據(jù),可能需要壓縮數(shù)據(jù),這是可以由深度索引引擎 110插入到工作隊列115中的另一工作。在一些實施例中,數(shù)據(jù)壓縮可以包括保存數(shù)據(jù)以在 之后處理。在其他實施例中,數(shù)據(jù)壓縮可以包括解析網(wǎng)頁以得到相關(guān)信號并且僅保存涉及 到相關(guān)信號的網(wǎng)頁部分。應(yīng)當理解,利用本公開內(nèi)容的優(yōu)點,深度索引引擎110可以將需要 執(zhí)行的任何工作(包括收集和/或處理數(shù)據(jù))插入到工作隊列115中。在一些實施例中,系統(tǒng)105包括工作節(jié)點125。工作節(jié)點125包括執(zhí)行已經(jīng)由深度 索引引擎110插入到工作隊列115中的工作的節(jié)點。在一些實施例中,工作節(jié)點125執(zhí)行 的工作包括爬取Web并且執(zhí)行相關(guān)搜索、壓縮數(shù)據(jù)、處理數(shù)據(jù)、構(gòu)建反向索引、計算搜索引 擎優(yōu)化分數(shù)或者已經(jīng)被插入到工作隊列115中的任何其他工作。在一些實施例中,每一個 工作節(jié)點125可以是配置用于執(zhí)行插入到工作隊列115中的任何工作的一般工作節(jié)點。在 其他實施例中,工作節(jié)點125可以是專用工作節(jié)點,每一個專用工作節(jié)點執(zhí)行單一工作。在 進一步的實施例中,工作節(jié)點125可以是一般工作節(jié)點和專用工作節(jié)點的任何組合。在一些實施例中,工作節(jié)點125被進一步配置用于仿真互聯(lián)網(wǎng)的人類用戶的活 動。在一些實施例中,仿真互聯(lián)網(wǎng)的人類用戶的活動包括模仿和/或提供與人類用戶典型 相關(guān)的一個或多個屬性,包括下面中的一個或多個地理位置、瀏覽的特定時間、年齡、收入 水平、電子郵件地址或者人類用戶的其他人口特征。例如,工作節(jié)點125可以被配置用于通 過多個互聯(lián)網(wǎng)服務(wù)提供商連接到互聯(lián)網(wǎng)以仿真不同地理位置的互聯(lián)網(wǎng)人類用戶??商鎿Q地 或者附加地,工作節(jié)點125可以被配置用于在特定時間連接到互聯(lián)網(wǎng)??商鎿Q地或者附加 地,工作節(jié)點125可以配置用于在某些網(wǎng)站輸入對應(yīng)于人類用戶的特定人口特征的年齡、 收入水平等??商鎿Q或者附加地,工作節(jié)點125可以被配置用于在某些網(wǎng)站輸入電子郵件 地址。在本發(fā)明的一些實施例中,仿真互聯(lián)網(wǎng)的人類用戶的活動考慮到更為相關(guān)的搜索結(jié) 果,因為搜索參引關(guān)心如何將這種參引提供給互聯(lián)網(wǎng)用戶。圖2A示出了工作節(jié)點205的配置的一個實例,其中工作節(jié)點205例如在搜索工作 的執(zhí)行中爬取互聯(lián)網(wǎng)。工作節(jié)點205直接連接到網(wǎng)頁210。然后通過觀察合適的通道,工 作節(jié)點205可搜索對在網(wǎng)頁210內(nèi)和/或在附加網(wǎng)頁內(nèi)的實體的在線參引。在一些實施例 中,工作節(jié)點205也可定位和/或評估合適信號來獲得信號信息以供之后評估,如在上面概 述的、在搜索工作內(nèi)由圖1的深度索引引擎110所指示的那樣。在這個和其他實施例中,工 作節(jié)點205可以在連接到網(wǎng)頁210時評估合適的信號。圖2B示出了工作節(jié)點205的配置的一個實例,其中工作節(jié)點220在搜索工作的執(zhí)行中爬取互聯(lián)網(wǎng)。在這個實例中,工作節(jié)點220使用代理225連接到網(wǎng)頁230。在計算機網(wǎng) 絡(luò)中,代理是服務(wù)器(例如,計算機系統(tǒng)或者應(yīng)用程序),該服務(wù)器作為來自于客戶的、從其 他服務(wù)器尋求資源的請求的介質(zhì)。客戶連接到代理,請求可從不同服務(wù)器得到的一些服務(wù) 諸如文件、連接、網(wǎng)頁或者其他資源。在一些實施例中,通過代理225連接到網(wǎng)頁230的工 作節(jié)點220可允許工作節(jié)點220表現(xiàn)為來自與實際不同的地理起點。圖2C示出了工作節(jié)點240的另一個實例,其中工作節(jié)點240在搜索工作的執(zhí)行中 爬取互聯(lián)網(wǎng)。在這個實例中,工作節(jié)點240通過代理245連接到互聯(lián)網(wǎng),并且通過反向鏈 接(baCklink)255定位網(wǎng)頁250。反向鏈接255是對網(wǎng)站或者網(wǎng)頁250的導入鏈接。網(wǎng)頁 250的反向鏈接255可具有顯著的個人、文化或者語義方面的重要性,因為它們可以指示誰 在關(guān)注網(wǎng)頁250。反向鏈接255可以包括從另一個網(wǎng)頁到網(wǎng)頁250的任何鏈接。反向鏈接 255也稱為導入鏈接、入站鏈接、入內(nèi)鏈接和向里鏈接。反向鏈接255有時用作網(wǎng)頁250的 廣泛度的度量,并且?guī)讉€搜索引擎提供網(wǎng)頁250的反向鏈接255的信息。在一些實施例中, 反向鏈接255用來幫助找到實體的在線參引或者用來評估參引。返回圖1,在一些實施例中,系統(tǒng)105也包括一個或多個協(xié)調(diào)器120。協(xié)調(diào)器120可 以從深度索引引擎110接收工作并且將它們插入到工作隊列115中,如上所述的那樣。協(xié) 調(diào)器120也可以按照完成工作的需要,將工作從工作隊列115中移除并且將它們提供給工 作節(jié)點125。協(xié)調(diào)器120也可以跟蹤正在由哪些工作節(jié)點125執(zhí)行哪些工作以優(yōu)化工作節(jié) 點125的性能(例如,確保專用節(jié)點在完成它們的當前任務(wù)之后具有可用工作)。系統(tǒng)105的模塊或者單獨部件包括深度索引引擎110、工作隊列115、工作節(jié)點125 和協(xié)調(diào)器120可以用硬件、軟件或它們的任意組合來實現(xiàn)。如果以軟件實現(xiàn),系統(tǒng)105的模 塊存儲在計算機可讀介質(zhì)中,所述介質(zhì)根據(jù)需要被訪問以執(zhí)行它們的功能。此外,如果以軟 件實現(xiàn),可以由處理器、現(xiàn)場可編程門陣列(FPGA)或者能夠執(zhí)行軟件指令或其他邏輯功能 的任何其他邏輯器件來執(zhí)行分配給各模塊的任務(wù)。圖3示出使用頁面搜索來找到要被搜索以得到在線參引的合適網(wǎng)頁的方法的各 個方面。圖3的方法可以由工作節(jié)點305結(jié)合關(guān)鍵字數(shù)據(jù)庫310來執(zhí)行。關(guān)鍵字數(shù)據(jù)庫 310包括要在頁面搜索中使用的一個或多個關(guān)鍵字。在一些實施例中,圖1的深度索引引擎 110可以編譯關(guān)鍵字數(shù)據(jù)庫310。在其他實施例中,圖1中的工作節(jié)點125可以在頁面搜索 之前編譯關(guān)鍵字數(shù)據(jù)庫310返回圖3,工作節(jié)點305從關(guān)鍵字數(shù)據(jù)庫310獲得關(guān)鍵字(315)。然后,工作節(jié)點 305查詢搜索引擎以進行頁面搜索(320)。搜索引擎可以是用來執(zhí)行搜索的、不論是現(xiàn)在已 經(jīng)存在的或者將來創(chuàng)造的、任何公共或者專用搜索引擎??梢詫γ恳粋€關(guān)鍵字使用多個搜 索引擎來編譯結(jié)果,或者可以如針對各實體所優(yōu)選的那樣使用單個搜索引擎。一旦進行了搜索,工作節(jié)點305收集搜索引擎結(jié)果頁面(325)。結(jié)果頁面可以被收 集(325)作為要由工作節(jié)點305處理或者要被插入到工作隊列中以由其他工作節(jié)點處理的 文本。搜索引擎結(jié)果頁面也能夠以原始格式來收集或者只是鏈接本身被收集(325),所述鏈 接本身被保留有插入到工作隊列中以由工作節(jié)點進行附加網(wǎng)頁爬取的鏈接。然而,不論是 現(xiàn)在已經(jīng)有的還是將來創(chuàng)造的收集搜索引擎結(jié)果頁面的任何方法都是專注于收集搜索引 擎結(jié)果頁面325。在收集搜索引擎結(jié)果頁面之后,搜索引擎結(jié)果頁面被解析(330)以得到相關(guān)信息。結(jié)果頁面可以由工作節(jié)點305解析(330)或者可以被插入到工作隊列中以由其他工作 節(jié)點解析。被認為是相關(guān)的信息可以由圖1的深度索引引擎110之前裝配的參數(shù)確定。例 如,如果希望的話,可以僅考慮有機搜索結(jié)果。可替換地,如果在線參引限于搜索引擎內(nèi)的 付費廣告的話,可以僅考慮付費結(jié)果。在一些實施例中,搜索結(jié)果的排名可與索引相關(guān),而 在其他實施例中,排名可能與索引相關(guān)很小或者不相關(guān)。圖4示出解析搜索引擎結(jié)果頁面以獲得實體的參引的方法的各個方面,搜索引擎 結(jié)果頁面如從圖3示出的關(guān)鍵字搜索獲得的搜索引擎結(jié)果頁面。在一些實施例中,圖4的 方法由一個或多個工作節(jié)點執(zhí)行。圖4的方法以將搜索引擎結(jié)果頁面解析為一個或多個與通道相關(guān)的組、諸如有機 結(jié)果和付費廣告而開始。為了該實例的目的,不同地處理有機結(jié)果和付費廣告,盡管在其他 實施例中它們可以被相同或不同地處理。工作節(jié)點解析(410)有機結(jié)果,以確定G15)參 引實體的搜索引擎結(jié)果頁面的有機結(jié)果中的一個或多個信號,所述一個或多個信號包括例 如參引實體的相應(yīng)搜索引擎結(jié)果的描述、標題、URL和/或排名。這些信號可以幫助確定搜 索引擎結(jié)果的相關(guān)度,也幫助確定將來要搜索的一個或多個網(wǎng)頁420。網(wǎng)頁420然后可以被 解析以得到實體的參引。工作節(jié)點也可以解析(425)付費廣告結(jié)果以確定(430)搜索引擎結(jié)果頁面的付費 廣告結(jié)果中的、參引實體的一個或多個信號,所述一個或多個信號包括例如參引實體的、搜 索引擎結(jié)果頁面中的相應(yīng)付費廣告的位置和/URL。通常突出位置被認為是更加有效,因而 通常比付費廣告的非突出位置更貴。因此,在搜索引擎結(jié)果頁面和/或其他網(wǎng)頁中付費廣 告的位置給出了為廣告支付多少費用以及在搜索的關(guān)鍵字和營銷者放置廣告之間的關(guān)聯(lián) 的相關(guān)度的指示。借助有機搜索結(jié)果,由付費廣告指向的網(wǎng)頁435可以被確定并且其本身 被解析以得到對實體的附加參引。同時參考圖3和圖4,應(yīng)當注意,在這個實例中,執(zhí)行搜索的相同節(jié)點不需要訪問 最終被搜索以得到在線參引的網(wǎng)頁。例如,一個工作節(jié)點可以從關(guān)鍵字數(shù)據(jù)庫310獲得 (315)關(guān)鍵字,查詢(320)搜索引擎并且收集(325)結(jié)果。第二工作節(jié)點可以解析(330, 405)結(jié)果網(wǎng)頁,確定010,425)哪些結(jié)果是有機的,哪些結(jié)果是付費的。第三工作節(jié)點可 以確定(415)有機結(jié)果的合適信號,而第四工作節(jié)點可以確定(430)付費結(jié)果的合適信號。 然后網(wǎng)頁420,435可以插入到工作隊列中以由附加工作節(jié)點爬取。在其他實施例中,可以 采用比四個工作節(jié)點更少或更多的節(jié)點來執(zhí)行圖3和圖4的步驟。返回圖1,一旦系統(tǒng)105完成在線參引的搜索,系統(tǒng)可以將結(jié)果提供給用戶。在 一些實施例中,可以生成反向索引130,其列出實體的在線參引,并且根據(jù)一組準則諸如成 本-效果、可視性或其他準則對它們進行排名。當搜索引擎把包含給定字的所有文件列成 表時,其稱為反向索引。這與常規(guī)索引相反,常規(guī)索引包含文件內(nèi)的所有字的位置。在其他實施例中,結(jié)果可以作為原始數(shù)據(jù)來提供。例如,結(jié)果可以被作為特定網(wǎng)頁 的點擊量、即網(wǎng)頁的業(yè)務(wù)歷史記錄來提供,或者作為特定關(guān)鍵字或者關(guān)鍵字組的有機搜索 結(jié)果排名來提供。在另外的實施例中,結(jié)果可以被作為特定媒體中的評述(mention)來提 供。例如,結(jié)果可以作為博客內(nèi)的評述量來提供??商鎿Q地或者附加地,結(jié)果可以進一步被 細分。例如,博客評述可以被細分為正面評述和負面評述。圖5示出用于提供在反向索引內(nèi)的結(jié)果的方法的一個實例。在這個實例中,結(jié)果具有為已經(jīng)被爬取的網(wǎng)頁生成(505)的搜索引擎優(yōu)化(SEO)分數(shù)。換言之,基于一些預定 準則(如在搜索引擎結(jié)果內(nèi)的位置)來提供結(jié)果。搜索引擎結(jié)果可以包括有機搜索、付費 搜索或這二者。此外,SEO分數(shù)可以考慮對來自特定搜索引擎的搜索結(jié)果賦予更大的權(quán)重。 例如,更加流行的搜索引擎的結(jié)果中的高位置可以比不太流行的搜索引擎的結(jié)果更多地影 響SEO分數(shù)??商鎿Q地或附加地,根據(jù)圖5的方法生成的反向索引可以包括廣告分數(shù)。在一些 實施例中,廣告分數(shù)可以用來指出廣告的成本-效果。例如,如果第一廣告產(chǎn)生第二廣告的 業(yè)務(wù)的50%,但是第一廣告的成本僅是第二廣告的10%,則可以給予第一廣告更高的廣告 分數(shù)以指出它在產(chǎn)生業(yè)務(wù)中具有更好的成本-效果。圖5的方法進一步包括確定(510)其中網(wǎng)頁進行排名的關(guān)鍵字,即當被搜索時返 回網(wǎng)頁的關(guān)鍵字。在一些實施例中,確定(510)其中網(wǎng)頁進行排名的關(guān)鍵字可以通過從關(guān) 鍵字數(shù)據(jù)庫515獲得可能的關(guān)鍵字并且執(zhí)行關(guān)鍵字搜索來進行。在其他實施例中,關(guān)鍵字 可以是關(guān)心的關(guān)鍵字并且關(guān)鍵字搜索的結(jié)果可以具有生成的SEO分數(shù)。在另外的實施例 中,可以用所希望的任何其他方式來編譯關(guān)鍵字數(shù)據(jù)庫以優(yōu)化索引。一旦搜索了關(guān)鍵字,則確定(520) 了網(wǎng)頁的有機排名。然后,將加權(quán)乘法器應(yīng)用 (525)于有機排名,其中加權(quán)乘法器可以基于有機排名。即,加權(quán)乘法器對于每一個排名是 不同的(即,不是恒定的)。在一些實施例中,加權(quán)乘法器考慮(530)有機排名的點擊分析 的分布。即,乘法器考慮跟隨鏈接到URL的用戶數(shù)量。例如,由于某種原因,搜索會出現(xiàn)對 于大多數(shù)用戶而言無關(guān)的結(jié)果。即使結(jié)果的排名很高,也可以調(diào)整乘法器來反映跟隨鏈接 的用戶數(shù)量少。根據(jù)加權(quán)乘法器和有機排名,可以產(chǎn)生(535)SE0分數(shù)。SEO分數(shù)允許基于 預定準則來分析參引的相關(guān)度。圖6A示出將結(jié)果提供給用戶的實例。在這個實例中,以圖表615的形式提供結(jié)果。 例如,可以根據(jù)客戶的請求來產(chǎn)生圖表615,其中該客戶希望看到他自己的網(wǎng)頁和他的競爭 對手的網(wǎng)頁的有機排名如何隨著時間而變化。圖表615具有代表不同網(wǎng)頁的有機排名的多 條線。第一條線610代表客戶的網(wǎng)頁的有機排名和有機排名在一周時間間隔上的變化。第 二條線615代表第一競爭對手的網(wǎng)頁的有機排名和有機排名在一周時間間隔上的變化。第 三條線620代表第二競爭對手的網(wǎng)頁的有機排名和有機排名在一周時間間隔上的變化。在一些實施例中,圖表615可以限于客戶的有機排名歷史記錄。在其他實施例中, 圖表615可以限于競爭對手的有機排名歷史記錄,并且可以不包括客戶的有機排名歷史記 錄。根據(jù)客戶的規(guī)定,圖表615可以包括多于或少于兩個競爭對手的有機排名歷史記錄。此 外,競爭對手能夠以任何方式被確定。例如,只示出最大競爭對手或者確定特別關(guān)心的某些 競爭對手。圖6B示出將結(jié)果提供給用戶的附加實例。圖6B的圖表640提供社會媒體通道中 的對網(wǎng)頁的評述。所述評述可以包括對網(wǎng)頁、產(chǎn)品或者其他實體的各種參引。圖表640的 χ軸645包括搜索的通道。圖表640的y軸650表示系統(tǒng)發(fā)現(xiàn)的評述數(shù)量。在一些實施例 中,評述數(shù)量可以包括評述的絕對數(shù)目。在其他實施例中,評述數(shù)量可以是評述的相對數(shù) 量。例如,網(wǎng)頁的評述數(shù)量可以與競爭對手的網(wǎng)頁評述數(shù)量比較。圖6C示出將結(jié)果提供給用戶的另一個實例。圖6C的圖表670是將至用戶的網(wǎng)頁 的反向鏈接質(zhì)量提供給用戶的餅形圖。在一些實施例中,可以使用網(wǎng)頁級別值(0到定質(zhì)量。網(wǎng)頁級別(Pagerank)是一種鏈接分析算法,該鏈接分析算法將數(shù)字權(quán)重分配給超 鏈接的一組文件的每一個元素(諸如Web),目的是測量該組內(nèi)每一個元素的相對重要性。 在一些實施例中,與具有帶有較低網(wǎng)頁級別值0和1的來自多個域的數(shù)百個反向鏈接相比, 更有利的是具有帶有高網(wǎng)頁級別值6或者更高網(wǎng)頁級別值的、來自單個(或者幾個)域的 向內(nèi)鏈接(反向鏈接)。圖表670的第一區(qū)域675指示具有網(wǎng)頁級別值7到10的來自網(wǎng)頁的反向鏈接,或 優(yōu)質(zhì)的反向鏈接。圖表670的第二區(qū)域680指示具有網(wǎng)頁級別值3到6的來自網(wǎng)頁的反向 鏈接,或合格反向鏈接。圖表670的第三區(qū)域685指示具有網(wǎng)頁級別值0到2的來自網(wǎng)頁 的反向鏈接,或一般反向鏈接。反向鏈接質(zhì)量可以利用其他方法來評估并且不限于網(wǎng)頁級 別。應(yīng)當理解,圖6A-6C的圖表僅僅是根據(jù)本發(fā)明的一些實施例能夠被生成以將結(jié)果 提供給用戶的示例圖表。實際上,可以通過產(chǎn)生其他類型圖表或者根本不產(chǎn)生任何圖表來 將結(jié)果提供給用戶。再參見圖7,公開了用于對實體的在線參引建立索引的示例方法700。其在線參引 被建立索引的實體可以包括個人、公司、商標、產(chǎn)品、型號或互聯(lián)網(wǎng)上在任何地方參引的任 何其他實體。參引可以包括有機參引、在線廣告、新聞條目或?qū)嶓w的任何其他參引。特別地, 方法700可以用來確定實體的在線參引,其中基于客戶的請求確定在線參引類型和實體。 例如,客戶可以要求對競爭對手的在線廣告建立索引,并且方法700可以用來執(zhí)行索引???替換或者附加地,方法700可以用來確定實體的在線參引,其中在線參引類型或?qū)嶓w中的 之一或二者不是由于客戶要求而被確定。方法700包括確定(705)要搜索的通道。如上所述,通道是要搜索的互聯(lián)網(wǎng)內(nèi)的 特定媒體。在一些實施例中,通道可以包括有機搜索、頁面搜索、鏈接廣告網(wǎng)絡(luò)、橫幅式廣 告、上下文廣告、電子郵件、博客、社交網(wǎng)絡(luò)、社會新聞、聯(lián)盟網(wǎng)絡(luò)營銷、移動廣告、媒體廣告、 視頻廣告、論壇、新聞?wù)军c、富媒體、社會書簽、付費搜索和網(wǎng)游植入廣告。然而,通道不限于 上述內(nèi)容,而是可以包括不論是現(xiàn)在已經(jīng)有的或者將來創(chuàng)造的、要搜索的互聯(lián)網(wǎng)的任何相 關(guān)領(lǐng)域。方法700進一步包括確定(710)要評估的信號。所述信號包括關(guān)于對實體的參引 的相關(guān)信息。例如,放置在網(wǎng)頁頂部的廣告是更加可視的,因此通常更加貴并且被認為更加 有效。因此,如果要索引的參引包括在線廣告,廣告位置是可以被確定用于索引的信號???替換地或附加地,要評估的信號可以包括給定網(wǎng)頁上的參引的頻率、網(wǎng)頁上的參引的位置、 爬取的日歷日期、網(wǎng)頁發(fā)布的日歷日期、爬取的時間、網(wǎng)頁發(fā)布的時間、上下文驅(qū)動的網(wǎng)頁 索引、下載網(wǎng)頁的時間、網(wǎng)頁的網(wǎng)絡(luò)瀏覽器兼容性、網(wǎng)頁的網(wǎng)頁插件兼容性等??商鎿Q地或 附加地,要評估的電子郵件消息內(nèi)的信號可以包括接收的電子郵件消息的頻率、電子郵件 消息上的向外鏈接、接收的電子郵件消息的日歷日期、接收的電子郵件消息的時間等。上下 文驅(qū)動的網(wǎng)絡(luò)索引可以進一步包括網(wǎng)頁內(nèi)的鏈接、圍繞網(wǎng)頁的發(fā)布和主題的當前事件。然 而,要評估的信號不限于上述內(nèi)容,而是可以包括不論是現(xiàn)在已經(jīng)存在的還是將來創(chuàng)造的、 關(guān)于對實體的參引的任何相關(guān)信息。方法700也包括爬取(715)網(wǎng)絡(luò)、互聯(lián)網(wǎng)或其他網(wǎng)絡(luò)(如圖1的網(wǎng)絡(luò)112),以獲得 對實體的在線參引。爬取(715)環(huán)球網(wǎng)/互聯(lián)網(wǎng)/網(wǎng)絡(luò)112可以通過到網(wǎng)頁的直接連接,可包括使用代理服務(wù)器,可使用反向鏈接來確定合適網(wǎng)頁或者可以包括定位和評估網(wǎng)頁的 任何其他方法。爬取(71 環(huán)球網(wǎng)/互聯(lián)網(wǎng)/網(wǎng)絡(luò)112也可包括仿真互聯(lián)網(wǎng)的人類用戶的 活動。例如,爬取(71 環(huán)球網(wǎng)可以通過多個互聯(lián)網(wǎng)服務(wù)提供商進行,以仿真不同地理位置 的互聯(lián)網(wǎng)人類用戶。仿真互聯(lián)網(wǎng)的人類用戶的活動可給出更加相關(guān)的搜索結(jié)果,因為它們 考慮到如何將這些參引提供給互聯(lián)網(wǎng)用戶。方法700進一步包括構(gòu)建(720)結(jié)果的反向索引。例如,可以構(gòu)建(720)的反向 索引引用實體的在線參引,并且根據(jù)一組預定的準則對它們排名。構(gòu)建(720)反向索引可 以可選地包括執(zhí)行趨勢分析。趨勢分析示出在線參引如何隨時間變化。例如,圖6A的圖表 605示出客戶網(wǎng)頁、第一競爭對手的網(wǎng)頁和第二競爭對手的網(wǎng)頁的有機排名如何隨時間變 化。這樣,包括在圖6A的圖表605中的數(shù)據(jù)可以代表趨勢分析的特定類型??商鎿Q地或附加地,構(gòu)建(720)反向索引可以包括生成SEO分數(shù)。SEO分數(shù)允許 用戶(如請求索引的客戶)基于一個或多個預定準則(如成本-效果)來查看參引的相關(guān) 度。在一些實施例中,可以使用系統(tǒng)、如圖1描述的系統(tǒng)來執(zhí)行方法700。用來執(zhí)行所 述方法的系統(tǒng)的模塊或單個部件可以用硬件、軟件或它們的任意組合來實現(xiàn)。如果以軟件 來實現(xiàn),則系統(tǒng)的模塊存儲在計算機可讀介質(zhì)中,計算機可讀介質(zhì)根據(jù)需要而被訪問以執(zhí) 行它們的功能。此外,如果以軟件實現(xiàn),分配給每一個模塊的任務(wù)可以由處理器、現(xiàn)場可編 程門陣列(FPGA)或者能夠執(zhí)行軟件指令或其他邏輯功能的任何其他邏輯器件執(zhí)行。在此描述的實施例可包括使用包含各種計算機硬件和/或軟件模塊的專用計算 機或通用計算機,如下文將詳細介紹的那樣。本發(fā)明范圍內(nèi)的實施例也可包括用于執(zhí)行或者具有計算機可執(zhí)行指令或存儲在 其上的數(shù)據(jù)結(jié)構(gòu)的物理計算機可讀介質(zhì)和/或無形計算機可讀介質(zhì)。這樣的物理計算機可 讀介質(zhì)和/或無形計算機可讀介質(zhì)可以是可由通用或?qū)S糜嬎銠C訪問的任何可用介質(zhì)。例 如(不是用于限制),這樣的物理計算機可讀介質(zhì)可以包括RAM、ROM、EFPROM、CD-ROM或者 其他光盤存儲、磁盤存儲或其他磁性存儲器件、或任何其他如下物理介質(zhì)所述物理介質(zhì)可 以用來承載或存儲形式為計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的期望程序代碼裝置,并且可以由 通用或?qū)S糜嬎銠C訪問。在通用或?qū)S糜嬎銠C內(nèi),無形計算機可讀介質(zhì)可以包括電磁裝置, 用于例如通過計算機內(nèi)的電路從計算機的一個部分向另一個部分傳送數(shù)據(jù)信號。當通過網(wǎng)絡(luò)或另一個到計算機的通信連接(硬連線、無線或硬連線和無線的組 合)傳送或提供信息時,用于發(fā)送和接收計算機可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)和/或數(shù)據(jù)信號的硬 連線器件(例如導線、電纜、光纖、電子電路、化學物品等)應(yīng)當恰當?shù)匾暈槲锢碛嬎銠C可讀 介質(zhì),而用于發(fā)送和/或接收計算機可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)和/或數(shù)據(jù)信號的無線載體或無 線介質(zhì)(例如無線電通信、衛(wèi)星通信、紅外通信等)應(yīng)當恰當?shù)匾暈闊o形計算機可讀介質(zhì)。 上述的組合也應(yīng)當包括在計算機可讀介質(zhì)的范圍之內(nèi)。計算機可執(zhí)行指令例如包括導致通用計算機、專用計算機或?qū)S锰幚硌b置執(zhí)行某 些功能或功能組的指令、數(shù)據(jù)和/或數(shù)據(jù)信號。雖然沒有要求,在此,已經(jīng)在計算機可執(zhí)行 指令的一般上下文中(如程序模塊、由計算機執(zhí)行、在網(wǎng)絡(luò)環(huán)境和/或非網(wǎng)絡(luò)環(huán)境中)描述 了本發(fā)明的各方面。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)嵤┨囟ǔ橄髢?nèi)容類型的內(nèi)容結(jié) 構(gòu)、例程、程序、對象和部件。計算機可執(zhí)行指令、關(guān)聯(lián)的內(nèi)容結(jié)構(gòu)和程序模塊代表執(zhí)行在此公開的方法的各個方面的程序代碼的實例。實施例也可包括用于使用在本發(fā)明的系統(tǒng)中的計算機程序產(chǎn)品,所述計算機程序 產(chǎn)品具有存儲有計算機可讀程序代碼的物理計算機可讀介質(zhì),所述計算機可讀程序代碼包 括計算機可執(zhí)行指令,當該計算機可執(zhí)行指令被處理器執(zhí)行時導致系統(tǒng)執(zhí)行本發(fā)明的方法。在不背離本發(fā)明基本特征的精神的情況下,本發(fā)明可以其他特定形式來實施。所 描述的實施例在各方面被認為僅僅是說明性的而不是限制性的。因此,本發(fā)明的范圍由所 附權(quán)利要求限定而不是由前面的描述限定。落在權(quán)利要求的等價意思和范圍內(nèi)的所有變化 被包含在本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種用于對實體的在線參引建立索引的方法,所述方法包括確定要被搜索以獲得實體的參引的、互聯(lián)網(wǎng)的一個或多個通道;在所述一個或多個通道的每一個內(nèi)確定要評估的一個或多個信號,被評估的所述信號 包括關(guān)于實體的參引的信息;爬取互聯(lián)網(wǎng)以獲得實體的在線參引,其中爬取互聯(lián)網(wǎng)包括搜索互聯(lián)網(wǎng)的所述一個或多 個通道以獲得實體的參引并且評估所述一個或多個信號;和構(gòu)建所述參引的反向索引,其中所述反向索引基于在其中找到參引的每一個通道以及 針對所述參引而被評估的所述一個或多個信號。
2.如權(quán)利要求1所述的方法,其中實體的參引包括以下中的一個或多個與所述實體 關(guān)聯(lián)的有機參弓I,在線廣告或新聞條目。
3.如權(quán)利要求1所述的方法,所述方法進一步包括編譯搜索引擎優(yōu)化分數(shù)。
4.如權(quán)利要求1所述的方法,所述方法進一步包括編譯廣告分數(shù)。
5.如權(quán)利要求1所述的方法,其中基于客戶請求確定被索引的所述實體。
6.如權(quán)利要求1所述的方法,其中搜索以下通道中的一個或多個有機搜索,頁面搜 索,鏈接廣告網(wǎng)絡(luò),橫幅式廣告,上下文廣告,電子郵件,博客,社交網(wǎng)絡(luò),社會新聞,聯(lián)盟網(wǎng) 絡(luò)營銷,移動廣告,媒體廣告,視頻廣告,論壇,新聞?wù)军c,富媒體,社會書簽,付費搜索和網(wǎng) 游植入廣告。
7.如權(quán)利要求1所述的方法,其中爬取互聯(lián)網(wǎng)進一步包括爬取網(wǎng)頁,并且其中為爬取 的網(wǎng)頁評估以下信號中的一個或多個給定網(wǎng)頁上的參引的頻率,網(wǎng)頁上的參引的位置,爬 取的日歷日期,網(wǎng)頁發(fā)布的日歷日期,爬取的時間,網(wǎng)頁發(fā)布的時間,上下文驅(qū)動的網(wǎng)頁索 引,下載網(wǎng)頁的時間,網(wǎng)頁的網(wǎng)絡(luò)瀏覽器兼容性或網(wǎng)頁的網(wǎng)頁插件兼容性。
8.如權(quán)利要求7所述的方法,其中上下文驅(qū)動的網(wǎng)頁索引包括基于鏈接、當前事件和 主題中的一個或多個的上下文驅(qū)動的網(wǎng)頁索引。
9.如權(quán)利要求1所述的方法,其中爬取互聯(lián)網(wǎng)進一步包括預訂的或者未經(jīng)請求的爬取 電子郵件消息,并且其中為爬取的電子郵件消息評估以下信號中的一個或多個接收的電 子郵件消息的頻率,電子郵件消息上的向外鏈接,接收的電子郵件消息的日歷日期或接收 的電子郵件消息的時間。
10.如權(quán)利要求1所述的方法,其中爬取互聯(lián)網(wǎng)進一步包括仿真互聯(lián)網(wǎng)的人類用戶的 活動。
11.如權(quán)利要求10所述的方法,其中仿真互聯(lián)網(wǎng)的人類用戶的活動包括模仿或者提供 與互聯(lián)網(wǎng)的人類用戶相關(guān)聯(lián)的至少一個屬性作為輸入,所述至少一個屬性包括以下中的一 個或多個地理位置,瀏覽時間,年齡,收入水平或電子郵件地址。
12.如權(quán)利要求1所述的方法,其中構(gòu)建反向索引進一步包括執(zhí)行所述在線參引的趨 勢分析。
13.一種用于對實體的在線參引建立索引的系統(tǒng),該系統(tǒng)包括深度索引引擎,其中所述深度索引引擎被配置用于裝配參數(shù)以爬取互聯(lián)網(wǎng)并且將要執(zhí) 行的爬取插入工作隊列;一個或多個工作節(jié)點,其中所述工作節(jié)點被配置用于執(zhí)行由所述深度索引引擎裝配的 互聯(lián)網(wǎng)爬取;和一個或多個協(xié)調(diào)器,其中所述協(xié)調(diào)器被配置用于從所述工作隊列中發(fā)起所述一個或多 個工作節(jié)點的工作。
14.如權(quán)利要求13所述的系統(tǒng),其中所述深度索引引擎被進一步配置用于裝配用于反 向索引的參數(shù),并且將關(guān)于創(chuàng)建所述反向索引的工作插入到所述工作隊列中。
15.如權(quán)利要求13所述的系統(tǒng),其中所述深度索引引擎、所述工作隊列、所述工作節(jié)點 和所述協(xié)調(diào)器中的一個或多個被以硬件實施。
16.如權(quán)利要求13所述的系統(tǒng),其中所述深度索引引擎、所述工作隊列、所述工作節(jié)點 和所述協(xié)調(diào)器中的一個或多個被以存儲在物理計算機可讀介質(zhì)中的軟件實施。
17.如權(quán)利要求13所述的系統(tǒng),其中所述裝配的參數(shù)確定要搜索的一個或多個通道。
18.如權(quán)利要求17所述的系統(tǒng),其中所確定的一個或多個通道包括以下中的一個或多 個有機搜索,頁面搜索,鏈接廣告網(wǎng)絡(luò),橫幅式廣告,上下文廣告,電子郵件,博客,社交網(wǎng) 絡(luò),社會新聞,聯(lián)盟網(wǎng)絡(luò)營銷,移動廣告,媒體廣告,視頻廣告,論壇,新聞?wù)军c,富媒體,社會 書簽,付費搜索和網(wǎng)游植入廣告。
19.如權(quán)利要求13所述的系統(tǒng),其中所述裝配的參數(shù)確定要評估的一個或多個信號。
20.如權(quán)利要求19所述的方法,其中確定的一個或多個信號包括以下中的一個或多 個給定網(wǎng)頁上的參引的頻率,網(wǎng)頁上的參引的位置,爬取的日歷日期,網(wǎng)頁發(fā)布的日歷日 期,爬取的時間,網(wǎng)頁發(fā)布的時間,上下文驅(qū)動的網(wǎng)頁索引,下載網(wǎng)頁的時間,網(wǎng)頁的網(wǎng)絡(luò)瀏 覽器兼容性或網(wǎng)頁的網(wǎng)頁插件兼容性。
21.如權(quán)利要求13所述的系統(tǒng),其中所述一個或多個工作節(jié)點進一步配置用于仿真互 聯(lián)網(wǎng)的人類用戶的活動,其中仿真互聯(lián)網(wǎng)的人類用戶的活動包括模仿或者提供與所述互聯(lián) 網(wǎng)的人類用戶相關(guān)聯(lián)的至少一個屬性作為輸入,所述至少一個屬性包括以下中的一個或多 個地理位置,瀏覽時間,年齡,收入水平或電子郵件地址。
22.如權(quán)利要求13所述的系統(tǒng),其中所述一個或多個工作節(jié)點被進一步配置為通過多 個互聯(lián)網(wǎng)服務(wù)提供商連接到所述互聯(lián)網(wǎng),以仿真從不同地理位置訪問互聯(lián)網(wǎng)的人類用戶。
全文摘要
一個示例實施例包括用于對實體的在線參引建立索引的方法。所述方法包括確定要被搜索以獲得對實體的參引的、互聯(lián)網(wǎng)的一個或多個通道,并且在所述一個或多個通道的每一個內(nèi)確定要評估的一個或多個信號。所述方法也包括爬取互聯(lián)網(wǎng)以獲得對實體的在線參引,其中爬取互聯(lián)網(wǎng)包括搜索所述互聯(lián)網(wǎng)的一個或多個通道以獲得對所述實體的參引,并且評估所述一個或多個信號。所述方法進一步包括構(gòu)建所述參引的反向索引,其中所述反向索引基于在其中找到參引的每一個通道以及被評估用于所述參引的所述一個或多個信號。
文檔編號G06F17/30GK102057375SQ200980121610
公開日2011年5月11日 申請日期2009年6月3日 優(yōu)先權(quán)日2008年6月9日
發(fā)明者吉米·于, 萊繆爾·S·帕克 申請人:布萊特艾吉技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
万载县| 龙口市| 刚察县| 广元市| 肥西县| 昭觉县| 淮滨县| 沈丘县| 余姚市| 紫金县| 金寨县| 双流县| 周口市| 嘉兴市| 合阳县| 望江县| 扶余县| 鞍山市| 连云港市| 龙川县| 鄂尔多斯市| 大冶市| 黄浦区| 通山县| 通城县| 阳朔县| 朔州市| 锡林浩特市| 清丰县| 新巴尔虎右旗| 济宁市| 晴隆县| 平度市| 新宾| 睢宁县| 岳普湖县| 九龙坡区| 吉木乃县| 建昌县| 杨浦区| 北海市|