基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法
【專利摘要】本發(fā)明涉及一種基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其中包括加載預(yù)定義的視聽節(jié)目元數(shù)據(jù)庫;加載需要提取視聽節(jié)目網(wǎng)站的種子地址;下載需要提取視聽節(jié)目網(wǎng)站的網(wǎng)頁內(nèi)容;判斷下載的網(wǎng)頁是否為一視聽節(jié)目的播放頁面;對于播放頁面,查找該視聽節(jié)目的上文并生成視聽節(jié)目單,對于不是播放頁面的,根據(jù)加載的視聽節(jié)目元數(shù)據(jù)庫量化該下載的網(wǎng)頁內(nèi)容作為視聽節(jié)目上文并存入上文集合中。采用該種基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,實現(xiàn)了在不針對特定網(wǎng)站創(chuàng)建提取模板的情況下,提取所有互聯(lián)網(wǎng)上網(wǎng)站的視聽節(jié)目,可以規(guī)避視聽節(jié)目信息抓取過程中不必要的干擾,保證視聽節(jié)目信息抓取的準(zhǔn)確性,具有更廣泛的應(yīng)用范圍。
【專利說明】基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及互聯(lián)網(wǎng)視聽節(jié)目信息及播放鏈接提取領(lǐng)域,具體是指一種基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法。
【背景技術(shù)】
[0002]目前現(xiàn)有互聯(lián)網(wǎng)視聽節(jié)目的一般提取方法是:對網(wǎng)站的每一類型節(jié)目創(chuàng)建一種提取模板,設(shè)置提取節(jié)目信息的詳細(xì)元素路徑,然后由爬蟲根據(jù)模板收集頁面元素,最后匯總生成視頻節(jié)目信息。這種方案對于互聯(lián)網(wǎng)龐大的視聽網(wǎng)站數(shù)量,每個網(wǎng)站都生成一個提取模板,如果網(wǎng)站改版或更新頁面結(jié)構(gòu),就需要修改相應(yīng)的爬蟲配置模板。
[0003]在現(xiàn)有技術(shù)下,如果要爬取所有互聯(lián)網(wǎng)上的視聽節(jié)目,并形成一致的視聽節(jié)目表,模板的配置量如同天文數(shù)字,加上網(wǎng)站會不停的升級更新,維護(hù)這么多數(shù)據(jù)是不可能完成的任務(wù)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)的缺點,提供了一種能夠?qū)崿F(xiàn)在不針對特定網(wǎng)站創(chuàng)建提取模板的情況下、提取所有互聯(lián)網(wǎng)上網(wǎng)站的視聽節(jié)目、保證視聽節(jié)目信息抓取的準(zhǔn)確性、具有更廣泛應(yīng)用范圍的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法。
[0005]為了實現(xiàn)上述目的,本發(fā)明的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法具有如下構(gòu)成:
[0006]該基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其主要特點是,所述的方法包括以下步驟:
[0007](I)加載預(yù)定義的視聽節(jié)目元數(shù)據(jù)庫;
[0008](2)加載需要提取視聽節(jié)目網(wǎng)站的種子地址;
[0009](3)下載需要提取視聽節(jié)目網(wǎng)站的網(wǎng)頁內(nèi)容;
[0010](4)判斷下載的網(wǎng)頁是否為一視聽節(jié)目的播放頁面,如果是,則繼續(xù)步驟(5),否則繼續(xù)步驟(6);
[0011](5)查找該視聽節(jié)目的上文并生成視聽節(jié)目單;
[0012](6)根據(jù)加載的視聽節(jié)目元數(shù)據(jù)庫量化該下載的網(wǎng)頁內(nèi)容作為視聽節(jié)目上文并存入上文集合中。
[0013]較佳地,所述的視聽節(jié)目元數(shù)據(jù)包括視聽節(jié)目的導(dǎo)演、主演、演員、發(fā)布時間、更新時間和節(jié)目梗概。
[0014]較佳地,所述的加載需要提取視聽節(jié)目網(wǎng)站的種子地址,具體為:
[0015]從Xml文件或數(shù)據(jù)庫加載需要抓取視聽節(jié)目網(wǎng)站的種子地址。
[0016]較佳地,所述的下載需要提取視聽節(jié)目網(wǎng)站的網(wǎng)頁內(nèi)容,具體為:
[0017]使用Http客戶端或爬蟲將指定目標(biāo)網(wǎng)站的指定網(wǎng)頁的網(wǎng)頁內(nèi)容從服務(wù)器下載到本地。[0018]較佳地,所述的查找該視聽節(jié)目的上文并生成視聽節(jié)目單,包括以下步驟:
[0019](51)對該視聽節(jié)目對應(yīng)的播放類型進(jìn)行識別;
[0020](52)從上文集合中查找該視聽節(jié)目的上文;
[0021](53)合并上文中元數(shù)據(jù)信息和該下載的網(wǎng)頁內(nèi)容數(shù)據(jù)信息生成該視聽節(jié)目的完整記錄。
[0022]更佳地,所述的對該視聽節(jié)目對應(yīng)的播放類型進(jìn)行識別,具體為:
[0023]識別該視聽節(jié)目對應(yīng)的播放類型并利用對應(yīng)的播放器對該視聽節(jié)目進(jìn)行驗證播放。
[0024]較佳地,所述的根據(jù)加載的視聽節(jié)目元數(shù)據(jù)庫量化該下載的網(wǎng)頁內(nèi)容作為視聽節(jié)目上文并存入上文集合中,包括以下步驟:
[0025](61)判斷該網(wǎng)頁是否為一視聽節(jié)目的詳細(xì)信息頁面,如果是,則繼續(xù)步驟(62),否則繼續(xù)步驟(3);
[0026](62)根據(jù)視聽節(jié)目元數(shù)據(jù)庫定義的規(guī)則對該網(wǎng)頁進(jìn)行量化并判斷該網(wǎng)頁是否是一視聽節(jié)目的上文,如果是,則繼續(xù)步驟(63),否則繼續(xù)步驟(64);
[0027](63)將該網(wǎng)頁作為一視聽節(jié)目的上文并存入上文集合,然后繼續(xù)步驟(64);
[0028](64)判斷該網(wǎng)頁是否為網(wǎng)站的最后一個網(wǎng)頁,如果是,則結(jié)束退出,否則,繼續(xù)步驟(65);
[0029](65)分析該網(wǎng)頁的超鏈接并加入待下載網(wǎng)頁隊列,然后繼續(xù)步驟(3)。
[0030]采用了該發(fā)明中的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,具有如下有益效果:
[0031](I)采用視聽節(jié)目信息特征量化方法,可以規(guī)避視聽節(jié)目信息抓取過程中不必要的干擾,從而能夠保證抓取到的視聽節(jié)目是準(zhǔn)確的。
[0032](2)利用視聽節(jié)目元數(shù)據(jù)信息的不變性,對于網(wǎng)站布局或者內(nèi)容的更新,只要實施該方法的增量抓取,可以抓取到網(wǎng)站的最新更新視聽節(jié)目信息。
[0033](3)利用播放器規(guī)則驗證,可以確保抓取到的視聽節(jié)目是可以播放的視聽節(jié)目。
[0034](4)采用少量的配置,不針對特定的網(wǎng)站,而是通過網(wǎng)頁之間的關(guān)系能夠識別互聯(lián)網(wǎng)上的視聽節(jié)目,獲得視聽節(jié)目的基本信息和播放地址,可以在不針對特定網(wǎng)站創(chuàng)建提取模板的情況下,提取所有互聯(lián)網(wǎng)上網(wǎng)站的視聽節(jié)目,具有更廣泛的應(yīng)用范圍。
【專利附圖】
【附圖說明】
[0035]圖1為本發(fā)明的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法的流程圖?!揪唧w實施方式】
[0036]為了能夠更清楚地描述本發(fā)明的技術(shù)內(nèi)容,下面結(jié)合具體實施例來進(jìn)行進(jìn)一步的描述。
[0037]現(xiàn)有互聯(lián)網(wǎng)視聽節(jié)目抓取方法,都是針對網(wǎng)頁布局和內(nèi)容配置模板,從而識別視聽節(jié)目。
[0038]本發(fā)明從視聽節(jié)目本身出發(fā),對視聽節(jié)目的元數(shù)據(jù)進(jìn)行抽象,比如:視聽節(jié)目一般都會發(fā)布時間/更新時間、導(dǎo)演、演員,本發(fā)明就是針對這些元數(shù)據(jù)進(jìn)行模板配置,在網(wǎng)頁的主要內(nèi)容展示區(qū)域識別這些元數(shù)據(jù),進(jìn)而形成視聽節(jié)目的信息記錄的上文。
[0039]根據(jù)本發(fā)明實施,只要配置一次(或少量幾次)視聽節(jié)目元數(shù)據(jù)的模板,就可避免現(xiàn)有技術(shù)下配置的大量不同網(wǎng)站的模板,以及網(wǎng)站版面更新后的后期維護(hù),因為對于已有的視聽節(jié)目,它基本的元數(shù)據(jù)信息是不會變的,如:電影《大決戰(zhàn)》的導(dǎo)演和演員始終是不會變的。
[0040]互聯(lián)網(wǎng)上的視聽節(jié)目,會有視聽節(jié)目的詳細(xì)信息頁面,詳細(xì)信息頁面匯集了該視聽節(jié)目的大部分元數(shù)據(jù),該數(shù)據(jù)能夠形成視聽節(jié)目信息的一部分,在詳細(xì)信息頁面會有鏈接關(guān)聯(lián)到播放頁面,播放頁面的信息與詳細(xì)信息頁面的信息組合在一起,形成一條視聽節(jié)目的上下文,結(jié)合上下文,系統(tǒng)生成一條視聽節(jié)目記錄。
[0041]實現(xiàn)流程:
[0042]1、系統(tǒng)啟動,加載預(yù)定義的視聽節(jié)目元數(shù)據(jù)庫中的元數(shù)據(jù)分類、定義,加載網(wǎng)頁播放器識別特征;
[0043]2、加載配置的網(wǎng)頁爬蟲的種子地址,這些地址中可能存在預(yù)期的視聽節(jié)目信息;
[0044]3、由爬蟲定義的網(wǎng)絡(luò)下載邏輯,下載存在于待爬取隊列中的網(wǎng)頁內(nèi)容;
[0045]4、分析網(wǎng)頁內(nèi)容:
[0046]由播放器識別模塊先識別該頁面是否是一個視聽節(jié)目的播放頁面;
[0047]由視聽節(jié)目元數(shù)據(jù)收集模塊識別該網(wǎng)頁是否是一個視聽節(jié)目的詳細(xì)信息頁面;
[0048]由URL分析模塊收集本頁面的超鏈接,這些超鏈接有可能是一個視聽節(jié)目上文的下文,也可能是一個新視聽節(jié)目的上文,將這些超鏈接加入爬蟲的待爬隊列中,用于繼續(xù)下一個頁面的抓取,以此完成對整個網(wǎng)站的遍歷;
[0049]5、如果當(dāng)前頁面是一個視聽節(jié)目的播放頁面,從上文集合查找該頁面的上文,合并上文元數(shù)據(jù)信息和本頁元數(shù)據(jù)信息,生成一條視聽節(jié)目的完整記錄;
[0050]6、如果當(dāng)前頁面不是一個視聽節(jié)目的播放頁面,根據(jù)元數(shù)據(jù)定義的規(guī)則,量化該頁面,以判斷該頁是否是一個視聽節(jié)目的上文,如果量化結(jié)果符合一個視聽節(jié)目的上文規(guī)貝U,將當(dāng)前頁面存入上文集合;
[0051]7、如果系統(tǒng)需要進(jìn)一步抓取,跳轉(zhuǎn)到3 ;
[0052]8、系統(tǒng)完成有待分析頁面,完成視聽節(jié)目提取。
[0053]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的【具體實施方式】作進(jìn)一步的描述。
[0054]圖1是本發(fā)明實施例提供的一種基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,包括:
[0055]步驟(I):加載視聽節(jié)目特征庫即元數(shù)據(jù)庫。
[0056]具體地,視聽節(jié)目都附帶有導(dǎo)演、主演、演員、發(fā)布時間、更新時間、節(jié)目梗概等,根據(jù)不同的視聽節(jié)目類型,可以配置不同的視聽節(jié)目元數(shù)據(jù)組合。
[0057]步驟(2):加載需要提取視聽節(jié)目網(wǎng)站的種子地址。
[0058]具體地,可以從Xml文件或數(shù)據(jù)庫加載需要抓取視聽節(jié)目的網(wǎng)站。
[0059]步驟(3):下載網(wǎng)頁內(nèi)容。
[0060]具體地,使用Http客戶端或爬蟲,將指目標(biāo)網(wǎng)站的指定網(wǎng)頁從服務(wù)器上下載到本地。[0061]步驟(4):分析網(wǎng)頁內(nèi)容,確定該頁是否為視聽節(jié)目的播放頁面。
[0062]具體地,由播放器識別模塊先識別該頁面是否是一個視聽節(jié)目的播放頁面,并識別出是哪一類的播放器,如Flash播放器;由視聽節(jié)目元數(shù)據(jù)收集模塊識別該網(wǎng)頁是否是一個視聽節(jié)目的詳細(xì)信息頁面,整理出視聽節(jié)目元信息定義所需要的內(nèi)容;由URL分析模塊收集本頁面的鏈接,用于繼續(xù)下一個頁面的抓取。
[0063]步驟(5):查找視聽節(jié)目上文,生成視聽節(jié)目單。
[0064]具體地,根據(jù)步驟(4)獲取到的視聽節(jié)目信息,如果當(dāng)前頁面是一個視聽節(jié)目的播放頁面,從上文集合查找該頁面的上文,合并上文元數(shù)據(jù)信息和本頁元數(shù)據(jù)信息,生成一條視聽節(jié)目的完整記錄。
[0065]步驟(6):以視聽節(jié)目特征庫為準(zhǔn)則,量化網(wǎng)頁內(nèi)容,作為視聽節(jié)目上文。
[0066]具體地,根據(jù)步驟(4)獲取到的視聽節(jié)目信息,量化該頁面,以判斷該頁是否是一個視聽節(jié)目的上文,如果量化結(jié)果符合一個視聽節(jié)目的上文規(guī)則,將當(dāng)前頁面存入上文集合,該集合可以是一個HASH表,或者是數(shù)據(jù)庫中的一個數(shù)據(jù)表。
[0067]采用了該發(fā)明中的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,具有如下有益效果:
[0068](I)采用視聽節(jié)目信息特征量化方法,可以規(guī)避視聽節(jié)目信息抓取過程中不必要的干擾,從而能夠保證抓取到的視聽節(jié)目是準(zhǔn)確的。
[0069](2)利用視聽節(jié)目元數(shù)據(jù)信息的不變性,對于網(wǎng)站布局或者內(nèi)容的更新,只要實施該方法的增量抓取,可以抓取到網(wǎng)站的最新更新視聽節(jié)目信息。
[0070](3)利用播放器規(guī)則驗證,可以確保抓取到的視聽節(jié)目是可以播放的視聽節(jié)目。
[0071](4)采用少量的配置,不針對特定的網(wǎng)站,而是通過網(wǎng)頁之間的關(guān)系能夠識別互聯(lián)網(wǎng)上的視聽節(jié)目,獲得視聽節(jié)目的基本信息和播放地址,可以在不針對特定網(wǎng)站創(chuàng)建提取模板的情況下,提取所有互聯(lián)網(wǎng)上網(wǎng)站的視聽節(jié)目,具有更廣泛的應(yīng)用范圍。
[0072]在此說明書中,本發(fā)明已參照其特定的實施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說明書和附圖應(yīng)被認(rèn)為是說明性的而非限制性的。
【權(quán)利要求】
1.一種基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的方法包括以下步驟: (1)加載預(yù)定義的視聽節(jié)目元數(shù)據(jù)庫; (2)加載需要提取視聽節(jié)目網(wǎng)站的種子地址; (3 )下載需要提取視聽節(jié)目網(wǎng)站的網(wǎng)頁內(nèi)容; (4)判斷下載的網(wǎng)頁是否為一視聽節(jié)目的播放頁面,如果是,則繼續(xù)步驟(5),否則繼續(xù)步驟(6); (5)查找該視聽節(jié)目的上文并生成視聽節(jié)目單; (6)根據(jù)加載的視聽節(jié)目元數(shù)據(jù)庫量化該下載的網(wǎng)頁內(nèi)容作為視聽節(jié)目上文并存入上文集合中。
2.根據(jù)權(quán)利要求1所述的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的視聽節(jié)目元數(shù)據(jù)包括視聽節(jié)目的導(dǎo)演、主演、演員、發(fā)布時間、更新時間和節(jié)目梗概。
3.根據(jù)權(quán)利要求1所述的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的加載需要提取視聽節(jié)目網(wǎng)站的種子地址,具體為: 從Xml文件或數(shù)據(jù)庫加載 需要抓取視聽節(jié)目網(wǎng)站的種子地址。
4.根據(jù)權(quán)利要求1所述的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的下載需要提取視聽節(jié)目網(wǎng)站的網(wǎng)頁內(nèi)容,具體為: 使用Http客戶端或爬蟲將指定目標(biāo)網(wǎng)站的指定網(wǎng)頁的網(wǎng)頁內(nèi)容從服務(wù)器下載到本地。
5.根據(jù)權(quán)利要求1所述的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的查找該視聽節(jié)目的上文并生成視聽節(jié)目單,包括以下步驟: (51)對該視聽節(jié)目對應(yīng)的播放類型進(jìn)行識別; (52)從上文集合中查找該視聽節(jié)目的上文; (53)合并上文中元數(shù)據(jù)信息和該下載的網(wǎng)頁內(nèi)容數(shù)據(jù)信息生成該視聽節(jié)目的完整記錄。
6.根據(jù)權(quán)利要求5所述的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的對該視聽節(jié)目對應(yīng)的播放類型進(jìn)行識別,具體為: 識別該視聽節(jié)目對應(yīng)的播放類型并利用對應(yīng)的播放器對該視聽節(jié)目進(jìn)行驗證播放。
7.根據(jù)權(quán)利要求1所述的基于上下文環(huán)境實現(xiàn)互聯(lián)網(wǎng)視聽節(jié)目提取的方法,其特征在于,所述的根據(jù)加載的視聽節(jié)目元數(shù)據(jù)庫量化該下載的網(wǎng)頁內(nèi)容作為視聽節(jié)目上文并存入上文集合中,包括以下步驟: (61)判斷該網(wǎng)頁是否為一視聽節(jié)目的詳細(xì)信息頁面,如果是,則繼續(xù)步驟(62),否則繼續(xù)步驟(3); (62)根據(jù)視聽節(jié)目元數(shù)據(jù)庫定義的規(guī)則對該網(wǎng)頁進(jìn)行量化并判斷該網(wǎng)頁是否是一視聽節(jié)目的上文,如果是,則繼續(xù)步驟(63),否則繼續(xù)步驟(64); (63)將該網(wǎng)頁作為一視聽節(jié)目的上文并存入上文集合,然后繼續(xù)步驟(64); (64)判斷該網(wǎng)頁是否為網(wǎng)站的最后一個網(wǎng)頁,如果是,則結(jié)束退出,否則,繼續(xù)步驟(65);(65)分析該網(wǎng)頁的超 鏈接并加入待下載網(wǎng)頁隊列,然后繼續(xù)步驟(3)。
【文檔編號】G06F17/30GK103778256SQ201410065728
【公開日】2014年5月7日 申請日期:2014年2月26日 優(yōu)先權(quán)日:2014年2月26日
【發(fā)明者】逯利軍, 錢培專, 焦建華, 林強(qiáng), 戚永蕾, 張昆, 張樹民, 宋聚平, 侯衛(wèi)東, 李克民 申請人:賽特斯信息科技股份有限公司