專利名稱:針對視頻網(wǎng)站的廣域網(wǎng)爬蟲系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng),
廣i或網(wǎng)爬蟲系鄉(xiāng)充。
背景技術(shù):
尤其涉及一種4十只于一見頻網(wǎng)站的
隨著信息時代的到來和影像視頻技術(shù)的發(fā)展,影像視頻由于有 著無可比擬的《尤勢和強烈的一見覺沖擊力而吸引著越來越多的人們 欣賞。但是由于視頻的數(shù)據(jù)量巨大和普遍網(wǎng)絡(luò)帶寬的限制,人們很 難方^更i也在本才幾7見看浮見頻。正是由于這個主要原因,廣i或網(wǎng)上紹^分 建立起許多視頻網(wǎng)站,實行視頻數(shù)據(jù)的在線播放來使得人們方便快 捷的實時欣賞^L頻。^f旦是隨著浮見頻網(wǎng)站S見頻數(shù)據(jù)量的激增,加之3見 頻不像文本信息那樣易于識別,人們不可能簡單快捷地在廣域網(wǎng)上 找到所希望的3見頻,因此針對廣域網(wǎng)視頻的搜索引擎就孕育而生 了 。但很不幸的是因特網(wǎng)上的 一般搜索? 1擎對于檢索文本信息如網(wǎng) 頁的能力較強但檢索視頻的能力相對很弱。為了解決這一問題,人 們提出了如何在最小的代價下將一般的廣域網(wǎng)搜索引擎轉(zhuǎn)變?yōu)獒?對廣域網(wǎng)視頻的搜索引擎的思想。而從一般因特網(wǎng)上的搜索引擎轉(zhuǎn) 變?yōu)獒槍V域網(wǎng)視頻的搜索引擎,搜索引擎系統(tǒng)的其他部分幾乎相 同,惟一的巨大的差別是數(shù)據(jù)的來源問題,也即爬蟲系統(tǒng),因此針 對視頻網(wǎng)站的廣域網(wǎng)爬蟲系統(tǒng)是針對廣域網(wǎng)視頻的搜索引擎的核
心。怎樣估文到爬蟲系統(tǒng)有效準確地采集3見頻凝:據(jù)已受到越來越多的 學(xué)者的關(guān)注。由于廣域網(wǎng)上的視頻數(shù)據(jù)類型有很多種,如包括avi、 rm、 rmvb、 wmv等,而且視頻數(shù)據(jù)又是以二進制比特流的形式存在,加 之往往廣域網(wǎng)上的視頻的地址信息往往都是經(jīng)過處理的,這些都為 爬蟲系統(tǒng)有效準確地采集視頻數(shù)據(jù)增加了難度。解決了這個問題能 夠大大地提高^L頻檢索效率和降低針對廣域網(wǎng)視頻搜索引擎的開 發(fā)難度。因而怎樣4亍之有效地解決這個難題成為眾多學(xué)者關(guān)注的焦 點問題。因此,本發(fā)明引入轉(zhuǎn)址技術(shù)來解決這一問題。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的是提供一種能夠有效 地4爪耳又廣域網(wǎng)^見頻凄t據(jù)的爬蟲系統(tǒng)。
為達到上述目的,本發(fā)明提供一種針對浮見頻網(wǎng)站的廣域網(wǎng)爬蟲 系統(tǒng),其特4正在于包4舌
超鏈接掃描器,用于提取網(wǎng)頁中的所有超鏈接;
通用地址分析才是取器,用于分析并才是取網(wǎng)頁中的指向一見頻的通 用形式超鏈接;
-現(xiàn)頻標識沖是取器,用于分析并4是取網(wǎng)頁中的^L頻的標識符號;
播》文地址合成器,用于將所述4見頻標識提取器纟是取的#見頻標識 符號合成播;故器所需的網(wǎng)頁地址;
視頻真實地址提取器,用于在所述播放地址合成器合成的播放 地址所指向的頁面中提取^L頻真實存》文地址;
通用地址存儲庫,用于保存在所述通用地址分析提耳又器中S皮提 取的指向視頻的通用形式超鏈接;
真實地址存儲庫,用于保存在所述視頻真實地址提取器中被提 取的視頻真實存放地址超鏈接;一見頻凄史據(jù)下載器,用于下載在所述真實地址存儲庫中存4諸的碎見
頻真實存放地址超鏈接指向的-見頻數(shù)據(jù);
視頻數(shù)據(jù)存儲庫,用于存儲在所述視頻數(shù)據(jù)下載器中下載的數(shù)
據(jù);
超鏈接喂食器,用于向所述超鏈4妄掃描器提供需要處理的超鏈接。
所述系統(tǒng)中,所述超鏈4妄掃描器包括
超鏈接判斷器,用于分析判斷網(wǎng)頁中的超鏈接; 超鏈接摘取器,用于提取在所述超鏈接判斷器中被判定的超鏈接。
本發(fā)明的有益效果在于,通過應(yīng)用本發(fā)明所描述的系統(tǒng),可以 有效地解決爬蟲系統(tǒng)無法采集廣域網(wǎng)中 一見頻網(wǎng)站凄史據(jù)的問題;可以 為視頻爬蟲系統(tǒng)中的核心技術(shù)——轉(zhuǎn)址功能提供通用的框架;可以 為搭建針對廣域網(wǎng)視頻的搜索引擎系統(tǒng)的重要組成部分——視頻 數(shù)據(jù)采集系統(tǒng)提供通用的搭建架構(gòu);顯著降低廣域網(wǎng)視頻爬蟲系統(tǒng) 的開發(fā)難度,進一步有效地降低系統(tǒng)開發(fā)成本。
結(jié)合附圖,本發(fā)明的其他特點和優(yōu)點可以從下面通過舉例來對 本發(fā)明的原理進4亍解釋的優(yōu)選實施方式的i兌明中變得更清楚。
圖1是根據(jù)本發(fā)明的一個實施方式的系統(tǒng)的結(jié)構(gòu)圖。 圖2示出圖1中超鏈接掃描器內(nèi)部結(jié)構(gòu)的一個例子。
具體實施例方式
下面將結(jié)合附圖對本發(fā)明的具體實施方式
進行詳細描述。圖1是才艮據(jù)本發(fā)明的一個實施方式的系統(tǒng)的結(jié)構(gòu)圖。101表示 超《連4妄掃描器,102表示通用地址分析提取器,103表示一見頻標識 提取器,104表示播放地址合成器,105表示視頻真實地址提取器, 106表示通用地址存儲庫,107表示真實地址存儲庫,108表示視頻 數(shù)據(jù)下載器,109表示視頻數(shù)據(jù)存儲庫,以及110表示超鏈接喂食 器。
超鏈接掃描器101,用于分析并提取網(wǎng)頁中的超鏈接。 一個具 體實施例在圖2中所示。
通用地址分析拔:耳又器102,用于分4斤并提取網(wǎng)頁中的指向^L頻 的通用形式超鏈接。視頻的通用形式超鏈接由三部分組成。需要指 出的是為了說明清晰的目的,以下用于舉例的超鏈接是視頻網(wǎng)站中 一個具體的一見頻的地址,對于不同的—見頻網(wǎng)站和同一3見頻網(wǎng)站中不 同的視頻,三部分的各個具體字符串是不同的,此處僅僅是舉例, 不同的字符串不構(gòu)成對本發(fā)明的限制。 一個通用地址分析才是耳又器 102的具體實施例是通過正則表達式技術(shù)匹配如此此形式的超鏈 才妄www.tudou.com/programs/view/mCZ03uY6zYM/, 其中字才尋串
"www.tudou.com"為4見步貞網(wǎng)3占的主才兒i或名,"programs/view〃,為#見 頻網(wǎng)站的樹形文件系統(tǒng)中的文件夾,"mCZ03uY6zYM"為具體視頻 的視頻網(wǎng)站內(nèi)部的標識碼。碎見頻的通用形式超鏈接就由以上三部分 組成。對于已知的一見頻網(wǎng)站前兩部分是已知的。能夠匹配上的屬于 該視頻網(wǎng)站的^L頻通用形式超鏈接并提取,不能夠匹配上的不屬于 該視頻網(wǎng)站的視頻通用形式超鏈接并且不做任何提取處理。以上是 通用地址分析提取器102的一個具體實施例,其他不同的實施例不 構(gòu)成對本發(fā)明的限制。
同樣為了說明清晰的目的,以下在^L頻標識提取器103,播^文 地址合成器104,視頻真實地址提取器105中用于舉例的超鏈接是 浮見頻網(wǎng)站中一個具體的^f見頻的地址,對于不同的^L頻網(wǎng)站和同 一朝L頻網(wǎng)站中不同的視頻,超鏈接的具體字符串是不同的,此處僅僅是 舉例,不同的字符串不構(gòu)成對本發(fā)明的限制。
一見頻標識提取器103,用于分析并提取網(wǎng)頁中的一見頻的標識符 號。 一個視頻標識提取器103的具體實施例是通過字符串查找技術(shù) 在一見頻的通用形式超鏈4妻所指向的網(wǎng)頁中查找^L頻的標識符號。如 通用地址分析^是取器102中的例子,通過查找可得到"var iid = 11272862"的#見頻標識符號。將其中的凄t字部分換:耳又出,即^是耳又 "11272862"。需要指出對于不同的 一見頻網(wǎng)站用于標識的符號具體 字符是略有不同的,此處的舉例不夠成對本發(fā)明的限制。以上是視 頻標識提取器103的一個具體實施例,其他不同的實施例不構(gòu)成對 本發(fā)明的限制。
播放地址合成器104,用于將視頻標識提取器103提取的視頻標 識符號合成插-放器所需的網(wǎng)頁地址。 一個播;故地址合成器104的具 體實施例是在播放器調(diào)用地址后加上視頻標識符號。如通用地址分 析才是耳又器102中的例子,該#見頻網(wǎng)站的播-;故器調(diào)用地址為 http:〃www.tudou.com/player/v.php,這個是flash才番i文器i周用的XML 的PHP頁面,然后在后面加上字才尋串"?id=l 1272862",其中
"11272862"即為該;f見頻標識符號。最終合成播放器所需的網(wǎng)頁地 :t止為http:〃www.tudou.com/player/v.php id=l 1272862。需要4旨出的 是視頻網(wǎng)站的播放器調(diào)用地址對于已知的視頻網(wǎng)站是可在其網(wǎng)頁 中找到的,不同的一見頻網(wǎng)站l番;改器調(diào)用地址和在一見頻標識符號前加 的參數(shù)傳遞符號是不同的,此處的舉例不夠成對本發(fā)明的限制。以 上是播放地址合成器104的一個具體實施例,其他不同的實施例不 構(gòu)成對本發(fā)明的限制。
視頻真實地址^是取器105,用于在播放地址合成器104合成的 播放地址所指向的頁面中提取視頻真實存ii地址。 一個視頻真實地 址提取器105的具體實施例是通過正則表達式在播放地址合成器
8104合成的播;故地址所指向的頁面中匹配以視頻的真實地址信息。 如通用地址分析提取器102中的例子,可得到頁面中視頻真實存放 ;也址為http:〃player0071 .tudou.com/flv/011/272/862/11272862.flv, 匹配的原則是以字符串"http:〃,,開頭,以一見頻后綴名結(jié)束,如".flv"。 需要指出的是視頻的后綴名是可列的有限幾個,此處的.flv為舉例 不夠成對本發(fā)明的限制。以上是^L頻真實地址I是耳又器105的一個具 體實施例,其他不同的實施例不構(gòu)成對本發(fā)明的限制。
通用地址存儲庫106,用于保存在通用地址分析提取器102中 被提取的指向視頻的通用形式超鏈接。 一個通用地址存儲庫106的 具體實施例是通過文本形式,將被提取的指向視頻的通用形式超鏈 接逐條存儲。以上是同話題網(wǎng)頁超鏈接存儲庫106的一個具體實施 例,其^也不同的實施例不構(gòu)成乂于本發(fā)明的限制。
真實地址存儲庫107,用于保存在視頻真實地址提取器105中 被提取的視頻真實存放地址超鏈接。 一個真實地址存儲庫107的具 體實施例是通過文本形式,將被提取的視頻真實存放地址超鏈接逐 條存4渚。以上是真實地址存儲庫107的一個具體實施例,其他不同 的實施例不構(gòu)成乂于本發(fā)明的限制。
牙見頻數(shù)據(jù)下載器108,用于下載在真實地址存儲庫107中存儲 的視頻真實存》文地址超鏈接指向的視頻凄t據(jù)。
-現(xiàn)頻數(shù)據(jù)存4諸庫109,用于存儲在^L頻數(shù)據(jù)下載器108中下載 的數(shù)據(jù)。 一個^L頻凄t據(jù)存4諸庫109的具體實施例是通過文本形式, 將在視頻數(shù)據(jù)下載器108中下載的數(shù)據(jù)存儲。以上是視頻數(shù)據(jù)存儲 庫109的一個具體實施例,其他不同的實施例不構(gòu)成對本發(fā)明的限 制。超鏈接喂食器110,用于向超鏈接掃描器101提供需要處理的 超鏈接。 一個超鏈接喂食器110的具體實施例是檢測通用地址存儲 庫106中是否還有未被處理的超鏈接,若還有未被處理的超鏈接, 則讀取此超鏈接,然后將此超鏈接提供給超鏈接掃描器101;若沒 有未被處理的超鏈接,則爬蟲系統(tǒng)停止。以上是超鏈接喂食器110 的一個具體實施例,其〗也不同的實施例不構(gòu)成對本發(fā)明的限制。
圖2示出圖1中超鏈接掃描器內(nèi)部結(jié)構(gòu)的一個例子。除了超鏈 接掃描器101以外,圖2中的各部件與圖1中的各部件相同。
如圖2所示,超鏈接掃描器101包括超鏈接判斷器1011和超 鏈才妄4離耳又器1012。
超鏈接判斷器1011,用于分析判斷網(wǎng)頁中的超鏈接。 一個網(wǎng)頁 判斷器1011具體實施例是通過標記語言來判斷網(wǎng)頁中的超鏈接, 標記語言一^殳有<a href="URL"></a>, <a href="#NAME"></a>, <img src="URL">等等。在網(wǎng)頁中通過正則表達式來匹配這些超鏈 接的標記語言,若能夠匹配上,則可判斷此處為網(wǎng)頁的超鏈接;若 不能夠匹配上,則可判斷此處不是網(wǎng)頁的超鏈接。以上是超鏈接判 斷器1011的一個具體實施例,其他不同的實施例不構(gòu)成對本發(fā)明 的限制。
超鏈接摘取器1012,用于提取在超鏈接判斷器1011中被判定 的超《連接。 一個超鏈接摘耳又器1012具體實施例是將超《連4妄判斷器 1011中被判斷為超鏈接的網(wǎng)頁中的文本信息保存下來。以上是超鏈 4妻摘取器1012的一個具體實施例,其^也不同的實施例不構(gòu)成^"本 發(fā)明的限制。
以上結(jié)合附圖描述了本發(fā)明的具體實施方式
,各種舉例說明不 對發(fā)明的實質(zhì)內(nèi)容構(gòu)成限制,本發(fā)明不限于上面提供的實施細節(jié),可以在不脫離本發(fā)明特征的情況下以另外的實施例實現(xiàn)。所屬技術(shù) 領(lǐng)域的普通技術(shù)人員在閱讀了說明書后可以對以前所述的具體實 施方式估:^修改或變形,而不背離發(fā)明的實質(zhì)和范圍。
權(quán)利要求
1. 一種針對視頻網(wǎng)站的廣域網(wǎng)爬蟲系統(tǒng),其特征在于包括超鏈接掃描器,用于提取網(wǎng)頁中的所有超鏈接;通用地址分析提取器,用于分析并提取網(wǎng)頁中的指向視頻的通用形式超鏈接;視頻標識提取器,用于分析并提取網(wǎng)頁中的視頻的標識符號;播放地址合成器,用于將所述視頻標識提取器提取的視頻標識符號合成播放器所需的網(wǎng)頁地址;視頻真實地址提取器,用于在所述播放地址合成器合成的播放地址所指向的頁面中提取視頻真實存放地址;通用地址存儲庫,用于保存在所述通用地址分析提取器中被提取的指向視頻的通用形式超鏈接;真實地址存儲庫,用于保存在所述視頻真實地址提取器中被提取的視頻真實存放地址超鏈接;視頻數(shù)據(jù)下載器,用于下載在所述真實地址存儲庫中存儲的視頻真實存放地址超鏈接指向的視頻數(shù)據(jù);視頻數(shù)據(jù)存儲庫,用于存儲在所述視頻數(shù)據(jù)下載器中下載的數(shù)據(jù);超鏈接喂食器,用于向所述超鏈接掃描器提供需要處理的超鏈接。
2. 根據(jù)權(quán)利要求1所述的針對4見頻網(wǎng)站的廣域網(wǎng)爬蟲系統(tǒng),其特 征在于,所述超鏈接掃描器包括超鏈接判斷器,用于分析判斷網(wǎng)頁中的超鏈接;超鏈接摘取器,用于提取在所述超鏈接判斷器中被判定 的超鏈接。
全文摘要
本發(fā)明公開了一種針對視頻網(wǎng)站的廣域網(wǎng)爬蟲系統(tǒng),包括以下部件超鏈接掃描器,通用地址分析提取器,視頻標識提取器,播放地址合成器,視頻真實地址提取器,真實地址存儲庫,視頻數(shù)據(jù)下載器,視頻數(shù)據(jù)存儲庫,以及超鏈接喂食器。通過應(yīng)用本發(fā)明所描述的系統(tǒng),可以有效地解決爬蟲系統(tǒng)無法采集廣域網(wǎng)中視頻網(wǎng)站數(shù)據(jù)的問題;可以為視頻爬蟲系統(tǒng)中的核心技術(shù)轉(zhuǎn)址功能提供通用的框架;可以為搭建針對廣域網(wǎng)視頻的搜索引擎系統(tǒng)的重要組成部分視頻數(shù)據(jù)采集系統(tǒng)提供通用的搭建架構(gòu);顯著降低廣域網(wǎng)視頻爬蟲系統(tǒng)的開發(fā)難度,進一步有效地降低系統(tǒng)開發(fā)成本。
文檔編號G06F17/30GK101446954SQ20081018082
公開日2009年6月3日 申請日期2008年11月25日 優(yōu)先權(quán)日2008年11月25日
發(fā)明者溥 楊, 軍 郭, 光 陳 申請人:北京郵電大學(xué)