專利名稱:網(wǎng)站內(nèi)容信息提供方法、系統(tǒng)及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)業(yè)務(wù)領(lǐng)域,尤指一種網(wǎng)站內(nèi)容信息提供方法、系統(tǒng)及裝置。
背景技術(shù):
互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center, IDC)可以實(shí)現(xiàn)引入網(wǎng)站內(nèi)容,為用戶提供服務(wù)。IDC可以直接或間接通過(guò)內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network, CDN)為用戶提供網(wǎng)站內(nèi)容服務(wù)。目前,IDC引入網(wǎng)站內(nèi)容源時(shí)通常為非全量方式,只引入網(wǎng)站部分頻道或部分內(nèi)容,IDC對(duì)托管網(wǎng)站內(nèi)容信息的獲取、更新和管理通常采用的是如下方式,一是由網(wǎng)站資源提供方手動(dòng)申報(bào),從而掌握引入的網(wǎng)站資源信息;二是由IDC管理員手動(dòng)獲取并配置引入的網(wǎng)站資源信息。上述IDC引入網(wǎng)站內(nèi)容的方式中,方式一高度依賴內(nèi)容提供方的主動(dòng)操作,無(wú)法保證網(wǎng)站內(nèi)容索引的準(zhǔn)確性、及時(shí)性和精度要求;方式二需要耗費(fèi)大量的IDC管理人工成本,且效率底下,無(wú)法保證引入內(nèi)容索引的及時(shí)更新。也就是說(shuō),現(xiàn)階段對(duì)IDC網(wǎng)站內(nèi)容引A的控制僅實(shí)現(xiàn)了設(shè)備級(jí)的控制,內(nèi)容級(jí)的控制比較粗放,很難以較低的成本準(zhǔn)確、及時(shí)的獲取IDC引入網(wǎng)站的內(nèi)容索引信息,為IDC內(nèi)容的精確管理造成一定困難?,F(xiàn)有的IDC內(nèi)容引入和控制機(jī)制,用于⑶N網(wǎng)絡(luò)時(shí),由于⑶N網(wǎng)絡(luò)中除了主要面向IDC引入的網(wǎng)站內(nèi)容服務(wù)之外,還存在緩存熱點(diǎn)網(wǎng)站內(nèi)容的緩存控制(WebCache)系統(tǒng),⑶N資源調(diào)度中心會(huì)統(tǒng)一協(xié)調(diào)用戶對(duì)IDC引入的和WebCache系統(tǒng)緩存的網(wǎng)站內(nèi)容的訪問(wèn)調(diào)度,以便用戶合理訪問(wèn)IDC和WebCache系統(tǒng)引入的網(wǎng)站內(nèi)容。一般情況下,由于IDC直接面向內(nèi)容提供方引入網(wǎng)站內(nèi)容,其引入的網(wǎng)站內(nèi)容相對(duì)于WebCache系統(tǒng)緩存的網(wǎng)站內(nèi)容更新應(yīng)該更及時(shí),因此,一般希望優(yōu)先為用戶調(diào)度IDC引入的網(wǎng)站內(nèi)容,但⑶N網(wǎng)絡(luò)中還存在WebCache系統(tǒng),很可能存在用戶請(qǐng)求訪問(wèn)的內(nèi)容在已被引入IDC時(shí)卻被調(diào)度至WebCache系統(tǒng),極大浪費(fèi)了 IDC系統(tǒng)資源與WebCache緩存資源,為了避免沖突,需要詳細(xì)掌握IDC引入的網(wǎng)站內(nèi)容信息。在現(xiàn)有的IDC內(nèi)容引入和控制機(jī)制下,IDC引入的網(wǎng)站內(nèi)容信息主要依靠提供方或IDC管理員手動(dòng)更新,更新速度慢,操作復(fù)雜,準(zhǔn)確性低,實(shí)時(shí)性較差。IDC網(wǎng)站內(nèi)容源更新后,CDN總線系統(tǒng)無(wú)法及時(shí)獲知IDC內(nèi)容的變更情況,因此,用戶訪問(wèn)時(shí)就有可能出現(xiàn)IDC引入的網(wǎng)站內(nèi)容和WebCache緩存的網(wǎng)站內(nèi)容的訪問(wèn)沖突,CDN總線無(wú)法獲知應(yīng)該優(yōu)先為用戶調(diào)度IDC引入網(wǎng)站資源還是WebCache緩存的網(wǎng)站資源。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種網(wǎng)站內(nèi)容信息提供方法、系統(tǒng)及裝置,用以解決現(xiàn)有技術(shù)中存在無(wú)法準(zhǔn)確獲知IDC引入的網(wǎng)站內(nèi)容,導(dǎo)致無(wú)法精確調(diào)度用戶的內(nèi)容訪問(wèn)請(qǐng)求,浪費(fèi)系統(tǒng)資源的問(wèn)題。一種網(wǎng)站內(nèi)容信息提供方法,包括:
根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到所述引入網(wǎng)站包括的鏈接信息,并獲取所述鏈接信息的鏈接對(duì)象及其屬性信息;根據(jù)獲取的所述鏈接信息的鏈接對(duì)象及其屬性信息,建立所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引;根據(jù)各所述鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖;所述網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引;根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。一種網(wǎng)站內(nèi)容信息提供裝置,包括:搜索模塊,用于根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到所述引入網(wǎng)站包括的鏈接信息,并獲取所述鏈接信息的鏈接對(duì)象及其屬性信息;索引模塊,用于根據(jù)獲取的鏈接對(duì)象及其屬性信息,建立所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引;視圖資源生成模塊,用于根據(jù)各所述鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖;所述網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引;接入檢索模塊,用于根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信
肩、O一種網(wǎng)站內(nèi)容信息提供系統(tǒng),包括上述的網(wǎng)站內(nèi)容信息提供裝置和至少一個(gè)網(wǎng)站信息請(qǐng)求設(shè)備。本發(fā)明有益效果如下:本發(fā)明實(shí)施例提供的網(wǎng)站內(nèi)容信息提供方法、系統(tǒng)及裝置,將包括網(wǎng)站初始鏈接信息及與其逐級(jí)關(guān)聯(lián)的所有鏈接信息,及其對(duì)應(yīng)的鏈接對(duì)象進(jìn)行關(guān)聯(lián)索引,并建立網(wǎng)站資源視圖,從而可以準(zhǔn)確獲知IDC引入的網(wǎng)站內(nèi)容信息并為用戶提供,同時(shí)還可以節(jié)約查詢時(shí)間減少系統(tǒng)資源的利用;即使在同時(shí)存在IDC引入的網(wǎng)站資源和WebCache緩存的網(wǎng)站資源,也可以優(yōu)先為用戶調(diào)度IDC引入的網(wǎng)站資源,避免內(nèi)容訪問(wèn)調(diào)度時(shí)發(fā)生沖突,節(jié)約系統(tǒng)資源。
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1為本發(fā)明實(shí)施例中網(wǎng)站內(nèi)容信息提供方法的流程圖;圖2為本發(fā)明實(shí)施例中網(wǎng)站內(nèi)容信息提供系統(tǒng)的結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例中網(wǎng)站內(nèi)容信息提供裝置的結(jié)構(gòu)示意圖;圖4為本發(fā)明實(shí)施例中網(wǎng)站內(nèi)容信息提供系統(tǒng)的具體結(jié)構(gòu)示意圖;圖5為本發(fā)明實(shí)施例中網(wǎng)站內(nèi)容信息提供裝置生成資源視圖的流程圖;圖6為本發(fā)明實(shí)施例一中網(wǎng)站內(nèi)容信息提供方法的流程圖;圖7為本發(fā)明實(shí)施例二中網(wǎng)站內(nèi)容信息提供方法的流程圖。
具體實(shí)施例方式為了使本發(fā)明所要解決的技術(shù)問(wèn)題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明實(shí)施例提供一種網(wǎng)站內(nèi)容信息提供方法,通過(guò)建立網(wǎng)站資源視圖獲取更新的網(wǎng)站內(nèi)容索引,將包括網(wǎng)站初始鏈接信息及其關(guān)聯(lián)的所有鏈接信息所對(duì)應(yīng)的鏈接對(duì)象進(jìn)行關(guān)聯(lián)索引,并建立網(wǎng)站資源視圖,根據(jù)網(wǎng)站資源視圖實(shí)現(xiàn)網(wǎng)站內(nèi)容信息的提供,該方法流程如圖1所示,包括如下步驟:步驟Sll:根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到引入網(wǎng)站包括的鏈接信息,并獲取得到的鏈接信息的鏈接對(duì)象及其屬性信息。根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索時(shí),具體是根據(jù)獲得的引入網(wǎng)站的初始鏈接信息和預(yù)先配置的搜索策略進(jìn)行爬行搜索的。其中,搜索搜索策略包括下列策略之一或組合:深度優(yōu)先策略、廣度優(yōu)先策略和聚焦搜索策略。根據(jù)獲取的引入網(wǎng)站的初始鏈接信息可以爬行搜索到所有的關(guān)聯(lián)鏈接信息,即可以根據(jù)初始鏈接信息獲取初始鏈接對(duì)象及其屬性,以及從當(dāng)前鏈接對(duì)象進(jìn)行爬行搜索,獲取新鏈接信息,并不斷由新鏈接信息獲取對(duì)應(yīng)對(duì)象及屬性。其中,初始鏈接信息可以是初始網(wǎng)頁(yè)的頂層域名,比如統(tǒng)一資源定位符(Uniform/Universal Resource Locator, URL),關(guān)聯(lián)鏈接信息可以是網(wǎng)頁(yè)上爬行搜索到的每個(gè)URL。根據(jù)爬行搜索到的包括初始鏈接信息和關(guān)聯(lián)鏈接信息的所有鏈接信息,爬行搜索每個(gè)鏈接信息的鏈接對(duì)象。上述鏈接對(duì)象包括鏈接信息對(duì)應(yīng)的網(wǎng)頁(yè)和/或文件;上述鏈接對(duì)象的屬性信息包括下列信息之一或組合:鏈接值、鏈接類型、網(wǎng)頁(yè)標(biāo)題、被抓取次數(shù)、抓取時(shí)間、抓取深度、是否首次抓取、默認(rèn)編碼、網(wǎng)頁(yè)快照、文件對(duì)象名和對(duì)象類型。例如:可以通過(guò)一個(gè)網(wǎng)站內(nèi)容信息提供裝置實(shí)現(xiàn)爬行搜索,從IDC業(yè)務(wù)提供設(shè)備提供的一個(gè)或若干個(gè)引入網(wǎng)站頂層域名鏈接開(kāi)始爬取初始網(wǎng)頁(yè)上的URL,對(duì)于每個(gè)URL,爬蟲(chóng)保存該鏈接對(duì)應(yīng)的網(wǎng)頁(yè)或文件等鏈接對(duì)象的屬性信息,包括但不限于鏈接值、鏈接類型、網(wǎng)頁(yè)Title、被抓取次數(shù)、抓取時(shí)間、抓取深度、是否首次抓取、默認(rèn)編碼、網(wǎng)頁(yè)快照、文件對(duì)象名、對(duì)象類型等信息。同時(shí),爬蟲(chóng)不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,待分析完畢當(dāng)前頁(yè)面后,從隊(duì)列中提取新URL繼續(xù)爬取網(wǎng)頁(yè)或?qū)ο笮畔?,直到滿足預(yù)設(shè)的搜索停止條件。步驟S12:根據(jù)獲取的鏈接信息的鏈接對(duì)象及其屬性信息,建立獲取的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引。根據(jù)獲取的鏈接信息包括的鏈接對(duì)象及其屬性信息構(gòu)建各鏈接對(duì)象的內(nèi)容索引,以及根據(jù)獲取的鏈接信息的路徑信息確定鏈接信息之間的關(guān)聯(lián)關(guān)系;經(jīng)過(guò)分析、過(guò)濾,建立起包括各鏈接信息關(guān)聯(lián)關(guān)系以及各鏈接信息包括的鏈接對(duì)象的內(nèi)容索引的鏈接對(duì)象索引。對(duì)爬行搜索到的鏈接信息,以及鏈接信息的鏈接對(duì)象及其屬性信息進(jìn)行處理,包括構(gòu)建各鏈接對(duì)象的內(nèi)容索引和各鏈接對(duì)象的數(shù)據(jù)關(guān)聯(lián)。根據(jù)爬蟲(chóng)獲取的鏈接值、鏈接類型、網(wǎng)頁(yè)Title、被抓取次數(shù)、抓取時(shí)間、抓取深度、是否首次抓取、默認(rèn)編碼、網(wǎng)頁(yè)快照、文件對(duì)象名、對(duì)象類型等信息進(jìn)行索引編制,構(gòu)建各鏈接對(duì)象的內(nèi)容索引;記錄爬蟲(chóng)抓取的URL路徑,判斷不同URL間的父子關(guān)系,形成內(nèi)容索引之間的關(guān)聯(lián)關(guān)系,得到各鏈接信息的鏈接對(duì)象索引,為生成網(wǎng)站資源全局視圖提供數(shù)據(jù)支持。優(yōu)選的,建立鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引之前,還包括對(duì)爬行搜索到的鏈接信息,以及鏈接信息的鏈接對(duì)象及其屬性信息進(jìn)行數(shù)據(jù)去重處理。可以對(duì)爬行搜索到的鏈接信息,以及鏈接信息的鏈接對(duì)象及其屬性信息進(jìn)行做MD5(消息摘要算法第五版)運(yùn)算,根據(jù)計(jì)算得到的MD5值判斷是否和已經(jīng)建立鏈接對(duì)象索引的鏈接信息相同,當(dāng)相同時(shí)不再建立鏈接對(duì)象索引。當(dāng)然也可以通過(guò)其他方式判斷爬行搜索到的鏈接信息是否和已經(jīng)建立鏈接對(duì)象索引的鏈接信息相同。例如:當(dāng)一個(gè)URL被抓取成功后,在更新時(shí)間段之內(nèi)不需要再被抓取,但是其他網(wǎng)頁(yè)可能包含這個(gè)URL,因此需要對(duì)URL去重。本系統(tǒng)采用對(duì)已經(jīng)抓取的URL做MD5運(yùn)算,通過(guò)比較URL的MD5值保證抓取URL的唯一性,即對(duì)于MD5值相同的URL不再進(jìn)行重復(fù)抓取。上述通過(guò)對(duì)爬行搜索到的鏈接信息的相關(guān)數(shù)據(jù)進(jìn)行索引編制、關(guān)聯(lián)、清洗、去重等處理,實(shí)現(xiàn)生成標(biāo)準(zhǔn)IDC內(nèi)容索引數(shù)據(jù),得到各鏈接信息的鏈接對(duì)象索引。步驟S13:根據(jù)各鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖。其中建立的網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引。根據(jù)上述索引建立的各鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,例如各鏈接信息的父子關(guān)系,可以實(shí)現(xiàn)建立各引入網(wǎng)站的網(wǎng)站資源視圖。步驟S14:根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息時(shí),一般是通過(guò)網(wǎng)站信息請(qǐng)求設(shè)備向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息,可以通過(guò)將資源視圖提供給網(wǎng)站信息請(qǐng)求設(shè)備的方式,也可以采用開(kāi)放查詢接口供網(wǎng)站信息請(qǐng)求設(shè)備查詢資源視圖的方式,由網(wǎng)站內(nèi)容信息請(qǐng)求設(shè)備根據(jù)網(wǎng)站資源視圖想網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。其中,IDC網(wǎng)站信息請(qǐng)求設(shè)備可能是⑶N資源總線,也可以是IDC業(yè)務(wù)平臺(tái)或其它的IDC網(wǎng)站信息請(qǐng)求設(shè)備。當(dāng)然可選的,也可以不通過(guò)網(wǎng)站內(nèi)容信息請(qǐng)求設(shè)備,直接根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。其中,將資源視圖提供給網(wǎng)站信息請(qǐng)求設(shè)備的方式,具體包括:根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源獲取請(qǐng)求,將建立的網(wǎng)站資源視圖提供給網(wǎng)站信息請(qǐng)求設(shè)備或根據(jù)視圖資源獲取請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后提供給網(wǎng)站信息請(qǐng)求設(shè)備,由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)獲取的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息;包括根據(jù)提供的網(wǎng)站資源視圖提供網(wǎng)站訪問(wèn)調(diào)度服務(wù)或IDC站點(diǎn)管理服務(wù)。其中,開(kāi)放查詢接口供網(wǎng)站信息請(qǐng)求設(shè)備查詢資源視圖的方式,具體包括:根根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源查詢請(qǐng)求,向網(wǎng)站信息請(qǐng)求設(shè)備開(kāi)放查詢接口,通過(guò)查詢接口向網(wǎng)站信息請(qǐng)求設(shè)備提供建立的網(wǎng)站資源視圖或提供根據(jù)視圖資源獲取請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后的網(wǎng)站資源視圖;由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)查詢到的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息;包括根據(jù)提供的網(wǎng)站資源視圖提供網(wǎng)站訪問(wèn)調(diào)度服務(wù)或IDC站點(diǎn)管理服務(wù)。基于本發(fā)明實(shí)施例提供的上述網(wǎng)站內(nèi)容信息提供方法,本發(fā)明實(shí)施例還提供一種網(wǎng)站內(nèi)容信息提供系統(tǒng),其結(jié)構(gòu)如圖2所示,包括上述的網(wǎng)站內(nèi)容信息提供裝置和至少一個(gè)網(wǎng)站信息請(qǐng)求設(shè)備,兩者之間可以通過(guò)IF1、IF2等接口連接。例如:網(wǎng)站內(nèi)容信息提供裝置可以是IDC內(nèi)容信息同步裝置,網(wǎng)站信息請(qǐng)求設(shè)備可以是IDC業(yè)務(wù)平臺(tái)和CDN資源總線等。網(wǎng)站內(nèi)容信息提供裝置與IDC業(yè)務(wù)平臺(tái)、CDN資源總線等若干IDC網(wǎng)站信息請(qǐng)求設(shè)備之間實(shí)現(xiàn)信息交互,為IDC業(yè)務(wù)平臺(tái)XDN資源總線等網(wǎng)站信息請(qǐng)求設(shè)備提供建立的引入網(wǎng)站的資源視圖下載或查詢。上述⑶N資源總線可以實(shí)現(xiàn)資源管理、內(nèi)容管理、用戶調(diào)度等功能。通過(guò)網(wǎng)站內(nèi)容信息提供裝置獲取IDC引入的網(wǎng)站內(nèi)容的資源視圖后,合理調(diào)度用戶訪問(wèn)請(qǐng)求,并按照內(nèi)容分發(fā)策略將IDC網(wǎng)站內(nèi)容分發(fā)至適當(dāng)⑶N內(nèi)容節(jié)點(diǎn)與服務(wù)節(jié)點(diǎn)。上述IDC業(yè)務(wù)平臺(tái)可以實(shí)現(xiàn)硬件管理和軟件管理。其中軟件管理可以為網(wǎng)站內(nèi)容提供方提供基礎(chǔ)的內(nèi)容配置與管理功能,并為IDC內(nèi)容信息同步裝置提供基本的域名信息等?;诒景l(fā)明實(shí)施例提供的上述網(wǎng)站內(nèi)容信息提供方法,本發(fā)明實(shí)施例還提供一種網(wǎng)站內(nèi)容信息提供裝置,且結(jié)構(gòu)如圖3所示,包括:搜索模塊10、索引模塊20、視圖資源生成模塊30和接入檢索模塊40。搜索模塊10,用于根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到引入網(wǎng)站包括的鏈接信息,并獲取鏈接信息的鏈接對(duì)象及其屬性信息。索引模塊20,用于根據(jù)獲取的鏈接對(duì)象的屬性信息,建立獲取的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引。視圖資源生成模塊30,用于根據(jù)各獲取鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖;其中,網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引。接入檢索模塊40,用于根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。優(yōu)選的,上述網(wǎng)站內(nèi)容信息提供裝置還包括:搜索策略管理模塊50 ;其中:搜索策略管理模塊50,用于配置搜索策略,配置的搜索策略包括下列策略之一或組合:深度優(yōu)先策略、廣度優(yōu)先策略和聚焦搜索策略。相應(yīng)的,上述搜索模塊10,具體用于根據(jù)獲得的引入網(wǎng)站的初始鏈接信息和預(yù)先配置的搜索策略進(jìn)行爬行搜索。優(yōu)選的,上述索引模塊20,具體用于根據(jù)獲取的鏈接信息的鏈接對(duì)象及其屬性信息構(gòu)建各鏈接對(duì)象的內(nèi)容索引,以及根據(jù)獲取的鏈接信息的路徑信息確定各鏈接信息之間的關(guān)聯(lián)關(guān)系;建立起包括各鏈接信息關(guān)聯(lián)關(guān)系以及各鏈接信息包括的鏈接對(duì)象的內(nèi)容索引的鏈接對(duì)象索引。優(yōu)選的,上述索引模塊20還用于:在建立爬行搜索到的所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引之前,對(duì)爬行搜索到的鏈接信息,以及鏈接信息的鏈接對(duì)象及其屬性信息進(jìn)行數(shù)據(jù)去重處理。優(yōu)選的,上述接入檢索模塊40,具體用于根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源獲取請(qǐng)求,將建立的網(wǎng)站資源視圖提供給網(wǎng)站信息請(qǐng)求設(shè)備或根據(jù)視圖資源獲取請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后提供給網(wǎng)站信息請(qǐng)求設(shè)備,由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)提供的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息;或根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源查詢請(qǐng)求,向網(wǎng)站信息請(qǐng)求設(shè)備開(kāi)放查詢接口,通過(guò)查詢接口向網(wǎng)站信息請(qǐng)求設(shè)備提供建立的網(wǎng)站資源視圖或提供根據(jù)視圖資源查詢請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后的網(wǎng)站資源視圖,由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)查詢到的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息。優(yōu)選的,上述網(wǎng)站內(nèi)容信息提供裝置還包括本域控制模塊60,用于控制搜索模塊爬行搜索的搜索范圍。上述網(wǎng)站內(nèi)容信息提供系統(tǒng)的具體結(jié)構(gòu)如圖4所示,其中,網(wǎng)站內(nèi)容信息提供裝置包括搜索模塊10、索引模塊20、視圖資源生成模塊30和接入檢索模塊40、搜索策略管理模塊50、本域控制模塊60、系統(tǒng)管理模塊70和入口(Portal)模塊80。其中:網(wǎng)站內(nèi)容信息提供裝置的接入檢索模塊40實(shí)現(xiàn)與網(wǎng)站信息請(qǐng)求設(shè)備之間的通信,從而實(shí)現(xiàn)根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。接入檢索模塊40基于接口協(xié)議實(shí)現(xiàn)與外部設(shè)備如CDN資源總線、IDC業(yè)務(wù)平臺(tái)等之間的數(shù)據(jù)交互,作為服務(wù)器角色提供鑒權(quán)功能,對(duì)外部設(shè)備的賬號(hào)、密碼進(jìn)行用戶認(rèn)證,實(shí)現(xiàn)IDC引入網(wǎng)站的初始鏈接信息的導(dǎo)入,以及IDC網(wǎng)站內(nèi)容資源信息數(shù)據(jù)的發(fā)送功能;屬于為上層屏蔽不同底層接入方式的技術(shù)實(shí)現(xiàn)。Portal模塊80提供管理員管理、維護(hù)、訪問(wèn)網(wǎng)站內(nèi)容信息提供裝置的門(mén)戶,系統(tǒng)基于B/S架構(gòu),提供用戶登錄、日志查詢、統(tǒng)計(jì)報(bào)表等功能所必需的頁(yè)面(Web)操作與管理展示界面,屬于用戶交互層面的技術(shù)實(shí)現(xiàn)。搜索模塊10實(shí)現(xiàn)對(duì)引入網(wǎng)站的爬行搜索,利用標(biāo)準(zhǔn)http協(xié)議,根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備和Portal模塊80提供的引入網(wǎng)站的初始鏈接信息,以及搜索策略管理模塊制定的搜索策略,在本域范圍內(nèi),對(duì)IDC引入網(wǎng)站的內(nèi)容進(jìn)行檢索,遍歷該IDC網(wǎng)站本域內(nèi)的所有鏈接信息,以及對(duì)應(yīng)的鏈接對(duì)象及其屬性信息。索引模塊20實(shí)現(xiàn)對(duì)爬行搜索到的鏈接信息相關(guān)的數(shù)據(jù)的編制索引,建立鏈接對(duì)象索引。通過(guò)解析由搜索模塊10檢索得到的鏈接信息以及網(wǎng)頁(yè)、文件等鏈接對(duì)象的相關(guān)信息數(shù)據(jù),通過(guò)抽取、關(guān)聯(lián)、清洗、去重等多重處理后,實(shí)現(xiàn)生成標(biāo)準(zhǔn)IDC內(nèi)容索引數(shù)據(jù)的功能,得到各鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引。視圖資源生成模塊30,基于索引模塊20生成的IDC內(nèi)容索引數(shù)據(jù),生成引入網(wǎng)站的網(wǎng)站資源視圖,以便為用戶提供調(diào)度時(shí)使用。接入檢索模塊40還可以實(shí)現(xiàn)在索引模塊20建立的IDC內(nèi)容索引數(shù)據(jù)的基礎(chǔ)上,提供檢索功能,供Portal模塊及網(wǎng)站信息請(qǐng)求設(shè)備查詢IDC引入網(wǎng)站的內(nèi)容。搜索策略管理模塊50用于允許管理員配置和管理搜索策略,如深度優(yōu)先搜索、廣度優(yōu)先搜索、聚焦搜索等規(guī)則,供搜索模塊10調(diào)用。本域控制模塊60配置和管理本域搜索策略,對(duì)搜索模塊10的搜索范圍進(jìn)行控制,限定搜索操作在本域的引入網(wǎng)站內(nèi)部進(jìn)行,還是鏈接到其他域的IDC機(jī)房或服務(wù)器的鏈接對(duì)象。系統(tǒng)管理模塊70提供本地網(wǎng)管功能,該模塊屬于可選模塊,對(duì)系統(tǒng)的可用性、設(shè)備性能、網(wǎng)絡(luò)指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和管理,比如:實(shí)時(shí)獲得網(wǎng)站內(nèi)容信息提供系統(tǒng)的資源使用情況和健康狀態(tài);對(duì)系統(tǒng)中產(chǎn)生的告警信息進(jìn)行統(tǒng)一收集,根據(jù)告警級(jí)別調(diào)用相應(yīng)的策略進(jìn)行處理;通過(guò)網(wǎng)管接口實(shí)現(xiàn)與上級(jí)網(wǎng)管系統(tǒng)的對(duì)接與數(shù)據(jù)采集傳輸;對(duì)監(jiān)控產(chǎn)生的各種數(shù)據(jù)進(jìn)行記錄和分析,負(fù)責(zé)記錄用戶使用系統(tǒng)時(shí)的操作日志,實(shí)現(xiàn)對(duì)上下級(jí)系統(tǒng)查詢記錄的統(tǒng)計(jì)功能;自動(dòng)生成常規(guī)報(bào)表和各種個(gè)性化報(bào)表,支持分析各類管理需要;配置外部網(wǎng)元相關(guān)配置信息,通過(guò)Portal展現(xiàn),提供分級(jí)權(quán)限管理功能,確保不同角色的用戶只能使用被授權(quán)的功能,只能查看和維護(hù)被授權(quán)的數(shù)據(jù)。上述網(wǎng)站內(nèi)容信息提供裝置支持通過(guò)IDC業(yè)務(wù)平臺(tái)、Portal界面XDN資源總線配置不同網(wǎng)站信息請(qǐng)求設(shè)備所需的IDC網(wǎng)站內(nèi)容資源訂閱需求,針對(duì)不同網(wǎng)站信息請(qǐng)求設(shè)備可生成不同的資源視圖文件。為保證文件的安全和獨(dú)立,網(wǎng)站內(nèi)容信息提供裝置應(yīng)將針對(duì)不同網(wǎng)站信息請(qǐng)求設(shè)備的網(wǎng)站內(nèi)容資源視圖文件可以存放在不同的路徑下,并通過(guò)不同的訪問(wèn)用戶名和權(quán)限進(jìn)行控制。上述網(wǎng)站內(nèi)容信息提供裝置各模塊之間的交互流程如圖5所示,具體包括如下步驟:步驟S21:搜索模塊向搜索策略管理模塊請(qǐng)求搜索策略。網(wǎng)站內(nèi)容信息提供裝置中的搜索模塊向搜索策略管理模塊請(qǐng)求爬蟲(chóng)的搜索策略。步驟S22:搜索策略管理模塊將配置的搜索策略返回給搜索模塊。例如:搜索策略管理模塊向搜索模塊返回爬蟲(chóng)搜索策略。步驟S23:搜索模塊向本域控制模塊請(qǐng)求本域控制策略。步驟S24:本域控制模塊將配置的本域控制策略返回給搜索模塊。如上面方法部分所述根據(jù)本域控制策略可以確定搜索模塊爬行搜索的范圍。步驟S25:搜索模塊按照配置的搜索策略和本域控制策略進(jìn)行爬行搜索。搜索模塊爬蟲(chóng)按照配置的搜索策略在本域控制策略指定的范圍內(nèi)獲取指定網(wǎng)站的鏈接信息和對(duì)應(yīng)的鏈接對(duì)象以及鏈接對(duì)象的屬性信息。具體實(shí)現(xiàn)過(guò)程參加步驟S11。步驟S26:搜索模塊向索引模塊發(fā)送搜索到的各鏈接信息的鏈接對(duì)象及其屬性信息等數(shù)據(jù)。步驟S27:索引模塊對(duì)搜索模塊搜索到的數(shù)據(jù)進(jìn)行處理并生成獲取的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引。具體實(shí)現(xiàn)過(guò)程參見(jiàn)步驟S12。步驟S28:索引模塊向資源視圖生成模塊發(fā)送生成的鏈接對(duì)象索引等索引信息。步驟S29:資源視圖生成模塊處理索引數(shù)據(jù)生成網(wǎng)站資源視圖。具體實(shí)現(xiàn)過(guò)程參見(jiàn)步驟S13。上述描述了網(wǎng)站內(nèi)容信息提供裝置中各模塊交互實(shí)現(xiàn)網(wǎng)站資源視圖生成的過(guò)程。上述網(wǎng)站內(nèi)容信息提供裝置用于IDC引入的網(wǎng)站內(nèi)容的提供主要支持兩類數(shù)據(jù)傳送方式:一是提供文件傳輸協(xié)議(File Transfer Protocol, FTP)服務(wù)功能,網(wǎng)站信息請(qǐng)求設(shè)備先發(fā)起針對(duì)于特定引入網(wǎng)站的網(wǎng)站資源視圖的獲取請(qǐng)求,網(wǎng)站內(nèi)容信息提供裝置解析內(nèi)容后生成對(duì)應(yīng)范圍的資源視圖信息,供業(yè)務(wù)平臺(tái)下載。二是支持與網(wǎng)站信息請(qǐng)求設(shè)備之間通過(guò)超文本傳輸協(xié)議(HyperText Transfer Protocol,HTTP) +網(wǎng)頁(yè)服務(wù)(WebService)方式的交互,由網(wǎng)站信息請(qǐng)求設(shè)備發(fā)起針對(duì)特定引入網(wǎng)站的網(wǎng)站資源視圖的查詢請(qǐng)求,網(wǎng)站內(nèi)容信息提供裝置向網(wǎng)站信息請(qǐng)求設(shè)備返回對(duì)應(yīng)的資源視圖信息。下面通過(guò)具體的實(shí)施例說(shuō)明上述兩種不同數(shù)據(jù)傳送方式的網(wǎng)站內(nèi)容信息提供方法的實(shí)現(xiàn)過(guò)程:實(shí)施例一
本發(fā)明實(shí)施例一提供的網(wǎng)站內(nèi)容信息提供方法,基于文件接口實(shí)現(xiàn)網(wǎng)站資源視圖的提供網(wǎng)站資源視圖的下載,其流程如圖6所示,包括如下步驟:步驟SlOl:網(wǎng)站信息請(qǐng)求設(shè)備向網(wǎng)站內(nèi)容信息提供裝置傳送網(wǎng)站的初始鏈接信
肩、O例如:操作人員通過(guò)IDC業(yè)務(wù)平臺(tái)或Portal界面向網(wǎng)站內(nèi)容信息提供裝置傳送IDC網(wǎng)站的原始信息,包括域名、初始爬行鏈接等。步驟S102:網(wǎng)站內(nèi)容信息提供裝置通過(guò)IDC業(yè)務(wù)平臺(tái)接口在IDC網(wǎng)站服務(wù)器上爬行搜索。步驟S103:從IDC網(wǎng)站服務(wù)器獲取初始鏈接信息對(duì)應(yīng)的各鏈接信息,以及各鏈接信息對(duì)應(yīng)的鏈接對(duì)象和鏈接對(duì)象的屬性信息。步驟S104:網(wǎng)站內(nèi)容信息提供裝置基于爬行獲得的各鏈接信息對(duì)應(yīng)的鏈接對(duì)象和鏈接對(duì)象的屬性信息,建立鏈接對(duì)象索引。網(wǎng)站內(nèi)容信息提供裝置通過(guò)數(shù)據(jù)處理操作建立引入網(wǎng)站包括的各鏈接信息的鏈接對(duì)象索引。步驟S105:網(wǎng)站內(nèi)容信息提供裝置生成標(biāo)準(zhǔn)IDC網(wǎng)站資源視圖。步驟S106:網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送視圖資源獲取請(qǐng)求給網(wǎng)站內(nèi)容信息提供裝置。網(wǎng)站信息請(qǐng)求設(shè)備通過(guò)與網(wǎng)站內(nèi)容信息提供裝置的接口上傳視圖資源的配置要求及下載網(wǎng)站資源視圖。如圖6所示,網(wǎng)站信息請(qǐng)求設(shè)備可以是IDC業(yè)務(wù)平臺(tái)或CDN資源總線。步驟S107:網(wǎng)站內(nèi)容信息提供裝置根據(jù)視圖資源獲取請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整。該步驟為可選步驟,當(dāng)視圖資源獲取請(qǐng)求中不攜帶配置要求時(shí),不執(zhí)行該步驟。當(dāng)視圖資源獲取請(qǐng)求中攜帶配置要求時(shí),網(wǎng)站內(nèi)容信息提供裝置按照網(wǎng)站信息請(qǐng)求設(shè)備的配置要求,輸出符合配置要求的IDC網(wǎng)站資源視圖文件并存儲(chǔ)于對(duì)應(yīng)的路徑下,供網(wǎng)站信息請(qǐng)求設(shè)備下載。步驟S108:網(wǎng)站信息請(qǐng)求設(shè)備從網(wǎng)站內(nèi)容信息提供裝置下載請(qǐng)求獲取的網(wǎng)站資源視圖。網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)自身需求與網(wǎng)站內(nèi)容信息提供裝置建立連接,從網(wǎng)站內(nèi)容信息提供裝置下載網(wǎng)站資源視圖文件。實(shí)施例二本發(fā)明實(shí)施例二提供的網(wǎng)站內(nèi)容信息提供方法,基于實(shí)時(shí)查詢接口實(shí)現(xiàn)網(wǎng)站資源視圖的提供網(wǎng)站資源視圖查詢,其流程如圖7所示,包括如下步驟:步驟S201:網(wǎng)站信息請(qǐng)求設(shè)備向網(wǎng)站內(nèi)容信息提供裝置傳送網(wǎng)站的初始鏈接信
肩、O網(wǎng)站內(nèi)容信息提供裝置對(duì)外提供WebService或者其它的實(shí)時(shí)消息接口。操作人員通過(guò)IDC業(yè)務(wù)平臺(tái)或Portal界面向網(wǎng)站內(nèi)容信息提供裝置傳送IDC網(wǎng)站的原始信息,包括域名、初始爬行鏈接等。步驟S202:網(wǎng)站內(nèi)容信息提供裝置通過(guò)IDC業(yè)務(wù)平臺(tái)接口在IDC網(wǎng)站服務(wù)器上爬行搜索。
步驟S203:從IDC網(wǎng)站服務(wù)器獲取初始鏈接信息對(duì)應(yīng)的各鏈接信息,以及各鏈接信息對(duì)應(yīng)的鏈接對(duì)象和鏈接對(duì)象的屬性信息。步驟S204:網(wǎng)站內(nèi)容信息提供裝置基于爬行獲得的各鏈接信息對(duì)應(yīng)的鏈接對(duì)象和鏈接對(duì)象的屬性信息,建立鏈接對(duì)象索引。網(wǎng)站內(nèi)容信息提供裝置通過(guò)數(shù)據(jù)處理操作建立引入網(wǎng)站包括的各鏈接信息的鏈接對(duì)象索引。步驟S205:網(wǎng)站內(nèi)容信息提供裝置生成標(biāo)準(zhǔn)IDC網(wǎng)站資源視圖。步驟S206:網(wǎng)站信息請(qǐng)求設(shè)備請(qǐng)求登陸網(wǎng)站內(nèi)容信息提供裝置。網(wǎng)站信息請(qǐng)求設(shè)備需要獲取網(wǎng)站資源視圖時(shí),向網(wǎng)站內(nèi)容信息提供裝置發(fā)出登陸請(qǐng)求。步驟S207:網(wǎng)站內(nèi)容信息提供裝置響應(yīng)網(wǎng)站信息請(qǐng)求設(shè)備的登陸請(qǐng)求??蛇x的,網(wǎng)站內(nèi)容信息提供裝置可以在對(duì)網(wǎng)站信息請(qǐng)求設(shè)備進(jìn)行鑒權(quán)后再允許業(yè)務(wù)平臺(tái)登陸。步驟S208:網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源查詢請(qǐng)求給網(wǎng)站內(nèi)容信息提供裝置。網(wǎng)站信息請(qǐng)求設(shè)備通過(guò)與網(wǎng)站內(nèi)容信息提供裝置的接口上傳視圖資源的配置要求及查詢網(wǎng)站資源視圖。如圖7所示,網(wǎng)站信息請(qǐng)求設(shè)備可以是IDC業(yè)務(wù)平臺(tái)或⑶N資源總線。步驟S209:網(wǎng)站內(nèi)容信息提供裝置根據(jù)視圖資源查詢請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整。該步驟為可選步驟,當(dāng)視圖資源查詢請(qǐng)求中不攜帶配置要求時(shí),不執(zhí)行該步驟。當(dāng)視圖資源查詢請(qǐng)求中攜帶配置要求時(shí),網(wǎng)站內(nèi)容信息提供裝置按照網(wǎng)站信息請(qǐng)求設(shè)備的配置要求,輸出符合配置要求的IDC網(wǎng)站資源視圖并存儲(chǔ)于對(duì)應(yīng)的路徑下,供網(wǎng)站信息請(qǐng)求設(shè)備查詢。步驟S210:網(wǎng)站內(nèi)容信息提供裝置響應(yīng)網(wǎng)站信息請(qǐng)求設(shè)備的視圖資源查詢請(qǐng)求。網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)自身需求與網(wǎng)站內(nèi)容信息提供裝置建立連接,從網(wǎng)站內(nèi)容信息提供裝置查詢網(wǎng)站資源視圖。步驟S211:網(wǎng)站信息請(qǐng)求設(shè)備網(wǎng)站向內(nèi)容信息提供裝置發(fā)出登出請(qǐng)求。網(wǎng)站信息請(qǐng)求設(shè)備不需要再獲取網(wǎng)站資源視圖時(shí),向網(wǎng)站內(nèi)容信息提供裝置發(fā)出登出請(qǐng)求。步驟S212:網(wǎng)站內(nèi)容信息提供裝置響應(yīng)網(wǎng)站信息請(qǐng)求設(shè)備的登出請(qǐng)求。網(wǎng)站內(nèi)容信息提供裝置注銷網(wǎng)站信息請(qǐng)求設(shè)備的登陸信息。本發(fā)明實(shí)施例提供的網(wǎng)站內(nèi)容信息提供方法和裝置,能夠從IDC網(wǎng)站服務(wù)器中以HTTP方式自動(dòng)訪問(wèn)、采集、獲取網(wǎng)站內(nèi)容信息,控制爬蟲(chóng)獲取URL的范圍,只獲取已引入特定IDC域內(nèi)的網(wǎng)站資源信息;對(duì)于獲取的URL信息,支持進(jìn)行URL關(guān)聯(lián)、去重等處理,生成直至鏈接對(duì)象級(jí)別的鏈接對(duì)象索引信息;并根據(jù)不同網(wǎng)站信息請(qǐng)求設(shè)備的需求,支持靈活生成不同的網(wǎng)站資源視圖信息,以提供給網(wǎng)站信息請(qǐng)求設(shè)備;既可以支持通過(guò)文件方式,根據(jù)需求生成網(wǎng)站資源視圖文件,提供給網(wǎng)站信息請(qǐng)求設(shè)備;也可以通過(guò)支持基于消息的實(shí)時(shí)查詢方式,網(wǎng)站信息請(qǐng)求設(shè)備可通過(guò)接口與網(wǎng)站內(nèi)容信息提供裝置交互,主動(dòng)發(fā)起IDC網(wǎng)站資源視圖查詢請(qǐng)求,網(wǎng)站內(nèi)容信息提供裝置向網(wǎng)站信息請(qǐng)求設(shè)備返回所查詢的網(wǎng)站資源視圖。上述方法有效解決現(xiàn)階段通過(guò)人工手工方式配置或采集IDC網(wǎng)站信息所引發(fā)的信息同步效率低下、準(zhǔn)確性差、速度慢,同步不及時(shí)的缺陷,具有自動(dòng)收集整合處理、效率高、實(shí)時(shí)性強(qiáng)的優(yōu)點(diǎn),可進(jìn)一步優(yōu)化IDC網(wǎng)站信息提供的及時(shí)性和準(zhǔn)確率,以加強(qiáng)CDN網(wǎng)絡(luò)對(duì)網(wǎng)站資源智能調(diào)度的能力。上述方法將IDC網(wǎng)站資源信息的處理集中在新增的網(wǎng)站內(nèi)容信息提供裝置中實(shí)現(xiàn),避免了所有網(wǎng)站信息請(qǐng)求設(shè)備均進(jìn)行IDC網(wǎng)站信息整合處理的操作,有效降低了對(duì)于實(shí)現(xiàn)IDC網(wǎng)站內(nèi)容管理的復(fù)雜度和功能要求,降低了業(yè)務(wù)側(cè)設(shè)備的建設(shè)和投資成本,為網(wǎng)站信息請(qǐng)求設(shè)備快速、高效的獲取IDC網(wǎng)站資源信息提供良好的解決方案。上述說(shuō)明示出并描述了本發(fā)明的優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)力要求的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種網(wǎng)站內(nèi)容信息提供方法,其特征在于,包括: 根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到所述引入網(wǎng)站包括的鏈接信息,并獲取所述鏈接信息的鏈接對(duì)象及其屬性信息; 根據(jù)獲取的所述鏈接信息的鏈接對(duì)象及其屬性信息,建立所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引; 根據(jù)各所述鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖;所述網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索弓I ; 根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,具體包括: 根據(jù)獲得的引入網(wǎng)站的初始鏈接信息和預(yù)先配置的搜索策略進(jìn)行爬行搜索,其中搜索策略包括下列策略之一或組合:深度優(yōu)先策略、廣度優(yōu)先策略和聚焦搜索策略。
3.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)獲取的所述鏈接信息的鏈接對(duì)象及其屬性信息,建立所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引,具體包括: 根據(jù)獲取的所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象及其屬性信息構(gòu)建各鏈接對(duì)象的內(nèi)容索引,以及根據(jù)所述鏈接信息的路徑信息確定所述鏈接信息之間的關(guān)聯(lián)關(guān)系;建立起包括各鏈接信息關(guān)聯(lián)關(guān)系以及各鏈接信息對(duì)應(yīng)的鏈接對(duì)象的內(nèi)容索引的鏈接對(duì)象索引。
4.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息,具體包括: 根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源獲取請(qǐng)求,將建立的網(wǎng)站資源視圖提供給網(wǎng)站信息請(qǐng)求設(shè)備或根據(jù)視圖資源獲取請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后提供給網(wǎng)站信息請(qǐng)求設(shè)備,由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)提供的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息;或 根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源查詢請(qǐng)求,向網(wǎng)站信息請(qǐng)求設(shè)備開(kāi)放查詢接口,通過(guò)查詢接口向網(wǎng)站信息請(qǐng)求設(shè)備提供建立的網(wǎng)站資源視圖或提供根據(jù)視圖資源查詢請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后的網(wǎng)站資源視圖;由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)查詢到的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息站點(diǎn)管理服務(wù)。
5.一種網(wǎng)站內(nèi)容信息提供裝置,其特征在于,包括: 搜索模塊,用于根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到所述引入網(wǎng)站包括的鏈接信息,并獲取所述鏈接信息的鏈接對(duì)象及其屬性信息; 索引模塊,用于根據(jù)獲取的鏈接對(duì)象及其屬性信息,建立所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引; 視圖資源生成模塊,用于根據(jù)各所述鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖;所述網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引; 接入檢索模塊,用于根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息。
6.如權(quán)利要求5所述的裝置,其特征在于,還包括:搜索策略管理模塊;所述搜索策略管理模塊,用于配置搜索策略,所述搜索策略包括但不限于下列策略之一或組合:深度優(yōu)先策略、廣度優(yōu)先策略和聚焦搜索策略 所述搜索模塊,具體用于根據(jù)獲得的引入網(wǎng)站的初始鏈接信息和預(yù)先配置的搜索策略進(jìn)行爬行搜索。
7.如權(quán)利要求5所述的裝置,其特征在于,所述索引模塊,具體用于: 根據(jù)獲取的所述鏈接信息包括的鏈接對(duì)象及其屬性信息構(gòu)建各鏈接對(duì)象的內(nèi)容索引,以及根據(jù)所述鏈接信息的路徑信息確定所述鏈接信息之間的關(guān)聯(lián)關(guān)系;建立起包括各鏈接信息關(guān)聯(lián)關(guān)系以及各鏈接信息對(duì)應(yīng)的鏈接對(duì)象的內(nèi)容索引的鏈接對(duì)象索引。
8.如權(quán)利要求5所述的裝置,其特征在于,所述接入檢索模塊,具體用于: 根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源獲取請(qǐng)求,將建立的網(wǎng)站資源視圖提供給網(wǎng)站信息請(qǐng)求設(shè)備或根據(jù)視圖資源獲取請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后提供給網(wǎng)站信息請(qǐng)求設(shè)備,由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)提供的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息;或 根據(jù)網(wǎng)站信息請(qǐng)求設(shè)備發(fā)送的視圖資源查詢請(qǐng)求,向網(wǎng)站信息請(qǐng)求設(shè)備開(kāi)放查詢接口,通過(guò)查詢接口向網(wǎng)站信息請(qǐng)求設(shè)備提供建立的網(wǎng)站資源視圖或提供根據(jù)視圖資源查詢請(qǐng)求中的配置要求對(duì)建立的網(wǎng)站資源視圖進(jìn)行配置調(diào)整后的網(wǎng)站資源視圖;由網(wǎng)站信息請(qǐng)求設(shè)備根據(jù)查詢到的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供所請(qǐng)求的網(wǎng)站內(nèi)容信息。
9.如權(quán)利要求5-8任一所述的裝置,其特征在于,所述索引模塊還用于: 在建立爬行搜索到的所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引之前,對(duì)爬行搜索到的鏈接信息,以及鏈接信息的鏈接對(duì)象及其屬性信息進(jìn)行數(shù)據(jù)去重處理。
10.如權(quán)利要求5-8任一`所述的裝置,其特征在于,還包括: 本域控制模塊,用于控制搜索模塊爬行搜索的搜索范圍。
11.一種網(wǎng)站內(nèi)容信息提供系統(tǒng),其特征在于,包括如權(quán)利要求5-10任一所述的網(wǎng)站內(nèi)容信息提供裝置和至少一個(gè)網(wǎng)站信息請(qǐng)求設(shè)備。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)站內(nèi)容信息提供方法、系統(tǒng)及裝置,該方法包括根據(jù)獲得的引入網(wǎng)站的初始鏈接信息進(jìn)行爬行搜索,獲取到所述引入網(wǎng)站包括的鏈接信息,并獲取所述鏈接信息的鏈接對(duì)象及其屬性信息;根據(jù)獲取的所述鏈接信息的鏈接對(duì)象及其屬性信息,建立所述鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引;根據(jù)各所述鏈接信息的鏈接對(duì)象索引之間的關(guān)聯(lián)關(guān)系,建立各引入網(wǎng)站的網(wǎng)站資源視圖;所述網(wǎng)站資源視圖中包括按設(shè)定規(guī)則排列的各引入網(wǎng)站的鏈接信息對(duì)應(yīng)的鏈接對(duì)象索引;根據(jù)建立的網(wǎng)站資源視圖向網(wǎng)站信息請(qǐng)求方提供網(wǎng)站內(nèi)容信息??梢詼?zhǔn)確及時(shí)的獲取引入網(wǎng)站的內(nèi)容信息,支持信息請(qǐng)求方對(duì)內(nèi)容的準(zhǔn)確調(diào)度。
文檔編號(hào)G06F17/30GK103116580SQ20111036264
公開(kāi)日2013年5月22日 申請(qǐng)日期2011年11月16日 優(yōu)先權(quán)日2011年11月16日
發(fā)明者王寓辰, 倪偉, 畢婭娜 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司