欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

統(tǒng)一資源定位符的選擇方法和統(tǒng)一資源定位符的選擇裝置的制造方法

文檔序號(hào):10665762閱讀:302來(lái)源:國(guó)知局
統(tǒng)一資源定位符的選擇方法和統(tǒng)一資源定位符的選擇裝置的制造方法
【專利摘要】本發(fā)明提出了一種統(tǒng)一資源定位符的選擇方法和一種統(tǒng)一資源定位符的選擇裝置,其中,方法包括:根據(jù)輸入的關(guān)鍵詞獲取與關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符;根據(jù)至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)每個(gè)統(tǒng)一資源定位符與關(guān)鍵詞的相關(guān)度;根據(jù)每個(gè)統(tǒng)一資源定位符與關(guān)鍵詞的相關(guān)度,從至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將目標(biāo)統(tǒng)一資源定位符作為與關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。通過(guò)本發(fā)明的技術(shù)方案,可以有效地保證了獲取統(tǒng)一資源定位符的覆蓋率和準(zhǔn)確率,從而可以根據(jù)統(tǒng)一資源定位符獲取質(zhì)量較高的網(wǎng)頁(yè)內(nèi)容以供滿足輿情分析的需求。
【專利說(shuō)明】
統(tǒng)一資源定位符的選擇方法和統(tǒng)一資源定位符的選擇裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種統(tǒng)一資源定位符的選擇方法和一種統(tǒng)一資源定位符的選擇裝置。
【背景技術(shù)】
[0002]目前,伴隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)量日益龐大,現(xiàn)有的網(wǎng)頁(yè)數(shù)量已經(jīng)在數(shù)千億的級(jí)別。數(shù)據(jù)量的飛速增長(zhǎng)對(duì)輿情分析的數(shù)據(jù)獲取能力也提出了更高的要求。在相關(guān)技術(shù)中,通常采用網(wǎng)絡(luò)爬蟲技術(shù)獲取統(tǒng)一資源定位符(URL,Uniform ResourceLocator)從而根據(jù)統(tǒng)一資源定位符獲取網(wǎng)頁(yè)內(nèi)容,其中,網(wǎng)絡(luò)爬蟲技術(shù)基本可以分為兩大類:定向爬蟲技術(shù)與非定向爬蟲技術(shù)。定向爬蟲技術(shù),即只對(duì)某些特定的統(tǒng)一資源定位符進(jìn)行爬取,這樣就導(dǎo)致了定向爬蟲技術(shù)只是獲取到一定范圍的統(tǒng)一資源定位符,從而導(dǎo)致根據(jù)統(tǒng)一資源定位符獲取到的網(wǎng)頁(yè)內(nèi)容的覆蓋率不高。非定向爬蟲技術(shù)最典型的是搜索引擎的網(wǎng)絡(luò)爬蟲,其基本都是按照深度或者廣度搜索的方式遍歷整個(gè)互聯(lián)網(wǎng),這其中必然會(huì)存在者各種垃圾、色情數(shù)據(jù)以及對(duì)特定場(chǎng)景下無(wú)用的統(tǒng)一資源定位符,最重要的是根據(jù)非定向爬蟲技術(shù)獲取的統(tǒng)一資源定位符來(lái)獲取到的網(wǎng)頁(yè)內(nèi)容的準(zhǔn)確率不高,很多網(wǎng)頁(yè)內(nèi)容并不是所需要的。
[0003]因此,如何同時(shí)保證獲取到的統(tǒng)一資源定位符的準(zhǔn)確率和覆蓋率,以保證根據(jù)統(tǒng)一資源定位符而獲取的網(wǎng)頁(yè)內(nèi)容的準(zhǔn)確率和覆蓋率,成為亟待解決的問(wèn)題。

【發(fā)明內(nèi)容】

[0004]本發(fā)明正是基于上述問(wèn)題,提出了一種新的技術(shù)方案,可以保證獲取統(tǒng)一資源定位符時(shí)有較高的覆蓋率,還可以準(zhǔn)確地獲取質(zhì)量較高的統(tǒng)一資源定位符,從而可以根據(jù)統(tǒng)一資源定位符準(zhǔn)確地獲取質(zhì)量較高以及覆蓋率較大的網(wǎng)頁(yè)內(nèi)容以供滿足輿情分析的需求。
[0005]有鑒于此,本發(fā)明的一方面提出了一種統(tǒng)一資源定位符的選擇方法,包括:根據(jù)輸入的關(guān)鍵詞獲取與所述關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符;根據(jù)所述至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度;根據(jù)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度,從所述至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將所述目標(biāo)統(tǒng)一資源定位符作為與所述關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。
[0006]在該技術(shù)方案中,根據(jù)用戶輸入的關(guān)鍵詞從互聯(lián)網(wǎng)(例如,百度、谷歌和搜狗等搜索引擎)中獲取至少一個(gè)統(tǒng)一資源定位符(URL,Uniform Resource Locator),其中,該至少一個(gè)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有關(guān)鍵字,然后根據(jù)至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或至少一個(gè)統(tǒng)一資源定位符所使用的域名(Host)的權(quán)重比,統(tǒng)計(jì)每個(gè)統(tǒng)一資源定位符與關(guān)鍵詞的相關(guān)度,且在至少一個(gè)統(tǒng)一資源定位符中選擇與關(guān)鍵詞的相關(guān)度較高的統(tǒng)一資源定位符作為目標(biāo)統(tǒng)一資源定位符,這樣由關(guān)鍵詞獲取到的目標(biāo)統(tǒng)一資源定位符就更加準(zhǔn)確,使目標(biāo)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容的質(zhì)量就較高,從而可以通過(guò)質(zhì)量較高的網(wǎng)頁(yè)內(nèi)容來(lái)滿足輿情分析的需求,另外,在保證目標(biāo)統(tǒng)一資源定位符的質(zhì)量的同時(shí),還保證了獲取目標(biāo)統(tǒng)一資源定位符的覆蓋率。
[0007]在上述技術(shù)方案中,優(yōu)選地,還包括:根據(jù)接收到的存儲(chǔ)指令,將所述目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中;根據(jù)接收到的獲取指令,獲取與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址,以使用與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址下載所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并將所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)中。
[0008]在該技術(shù)方案中,將目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)(Hbase,Hadoop Database)中,以便更好地支持對(duì)每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址進(jìn)行隨機(jī)訪問(wèn)和管理,另外,將每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)(HDFS,Hadoop Distributed File System)中,從而可以提高從目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題、正文內(nèi)容和發(fā)布時(shí)間等的效率。
[0009]在上述技術(shù)方案中,優(yōu)選地,還包括:確定所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的參照標(biāo)題標(biāo)簽,以根據(jù)所述參照標(biāo)題標(biāo)簽確定所述網(wǎng)頁(yè)內(nèi)容中的候選標(biāo)題標(biāo)簽集;統(tǒng)計(jì)所述候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度與所述參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,和/或所述每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容與所述參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離;根據(jù)與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將所述目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。
[0010]在該技術(shù)方案中,根據(jù)與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,從而可以將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題,由此,可以有效地提高了獲取網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文標(biāo)題進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間。
[0011]在上述技術(shù)方案中,優(yōu)選地,還包括:確定所述網(wǎng)頁(yè)內(nèi)容中的至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度;判斷所述至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽,在存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例,根據(jù)所述第一比例和/或所述第二比例,從所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將所述目標(biāo)正文標(biāo)簽的正文內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容;以及判斷所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題中是否包括第一發(fā)布時(shí)間,在判斷結(jié)果為是時(shí),將所述第一發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間;在判斷結(jié)果為否時(shí),若所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容中包括第二發(fā)布時(shí)間,則將所述第二發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間。
[0012]在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)第一比例和/或第二比例,從多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽并將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,并通過(guò)網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的發(fā)布時(shí)間和正文內(nèi)容的發(fā)布時(shí)間,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間,從而提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和的發(fā)布時(shí)間準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間。
[0013]在上述技術(shù)方案中,優(yōu)選地,所述參數(shù)信息包括:所述每個(gè)統(tǒng)一資源定位符的類另O、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,所述類別包括:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符;以及根據(jù)所述域名中包括的內(nèi)容頁(yè)統(tǒng)一資源定位符數(shù)目、列表頁(yè)統(tǒng)一資源定位符的數(shù)目、每個(gè)類別的統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的被下載次數(shù)、與所述域名相對(duì)應(yīng)的垃圾統(tǒng)一資源定位符的數(shù)目中的至少一項(xiàng)信息,確定所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比。
[0014]在該技術(shù)方案中,參數(shù)信息包括但不限于:每個(gè)統(tǒng)一資源定位符的類別、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,類別包括但不限于:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符,且內(nèi)容頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中沒(méi)有錨文本,而列表頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有錨文本,可以通過(guò)該錨文本鏈接得到其他的網(wǎng)頁(yè)內(nèi)容,其中,錨文本是把關(guān)鍵詞作為一個(gè)鏈接,該鏈接指向除錨文本所在的網(wǎng)頁(yè)之外的其他網(wǎng)頁(yè),這種形式的鏈接即為錨文本。
[0015]本發(fā)明的另一方面提出了一種統(tǒng)一資源定位符的選擇裝置,包括:獲取單元,根據(jù)輸入的關(guān)鍵詞獲取與所述關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符;統(tǒng)計(jì)單元,根據(jù)所述至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度;選擇單元,根據(jù)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度,從所述至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將所述目標(biāo)統(tǒng)一資源定位符作為與所述關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。
[0016]在該技術(shù)方案中,根據(jù)用戶輸入的關(guān)鍵詞從互聯(lián)網(wǎng)(例如,百度、谷歌和搜狗等搜索引擎)中獲取至少一個(gè)統(tǒng)一資源定位符(URL,Uniform Resource Locator),其中,該至少一個(gè)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有關(guān)鍵字,然后根據(jù)至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或至少一個(gè)統(tǒng)一資源定位符所使用的域名(Host)的權(quán)重比,統(tǒng)計(jì)每個(gè)統(tǒng)一資源定位符與關(guān)鍵詞的相關(guān)度,且在至少一個(gè)統(tǒng)一資源定位符中選擇與關(guān)鍵詞的相關(guān)度較高的統(tǒng)一資源定位符作為目標(biāo)統(tǒng)一資源定位符,這樣由關(guān)鍵詞獲取到的目標(biāo)統(tǒng)一資源定位符就更加準(zhǔn)確,使目標(biāo)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容的質(zhì)量就較高,從而可以通過(guò)質(zhì)量較高的網(wǎng)頁(yè)內(nèi)容來(lái)滿足輿情分析的需求,另外,在保證目標(biāo)統(tǒng)一資源定位符的質(zhì)量的同時(shí),還保證了獲取目標(biāo)統(tǒng)一資源定位符的覆蓋率。
[0017]在上述技術(shù)方案中,優(yōu)選地,還包括:存儲(chǔ)單元,根據(jù)接收到的存儲(chǔ)指令,將所述目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中;所述獲取單元還用于,根據(jù)接收到的獲取指令,獲取與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址,以使用與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址下載所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并將所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)中。
[0018]在該技術(shù)方案中,將目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)(Hbase,Hadoop Database)中,以便更好地支持對(duì)每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址進(jìn)行隨機(jī)訪問(wèn)和管理,另外,將每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)(HDFS,Hadoop Distributed File System)中,從而可以提高從目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題、正文內(nèi)容和發(fā)布時(shí)間等的效率。
[0019]在上述技術(shù)方案中,優(yōu)選地,還包括:確定單元,確定所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的參照標(biāo)題標(biāo)簽,以根據(jù)所述參照標(biāo)題標(biāo)簽確定所述網(wǎng)頁(yè)內(nèi)容中的候選標(biāo)題標(biāo)簽集;所述統(tǒng)計(jì)單元還用于,統(tǒng)計(jì)所述候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度與所述參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,和/或所述每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容與所述參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離;所述確定單元還用于,根據(jù)與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將所述目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。
[0020]在該技術(shù)方案中,根據(jù)與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,從而可以將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題,由此,可以有效地提高了獲取網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文標(biāo)題進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間。
[0021]在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)第一比例和/或第二比例,從多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,并通過(guò)網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的發(fā)布時(shí)間和正文內(nèi)容的發(fā)布時(shí)間,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間,從而提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和的發(fā)布時(shí)間準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間。
[0022]在上述技術(shù)方案中,優(yōu)選地,所述參數(shù)信息包括:所述每個(gè)統(tǒng)一資源定位符的類另O、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,所述類別包括:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符;以及所述確定單元還用于,根據(jù)所述域名中包括的內(nèi)容頁(yè)統(tǒng)一資源定位符數(shù)目、列表頁(yè)統(tǒng)一資源定位符的數(shù)目、每個(gè)類別的統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的被下載次數(shù)、與所述域名相對(duì)應(yīng)的垃圾統(tǒng)一資源定位符的數(shù)目中的至少一項(xiàng)信息,確定所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比。
[0023]在該技術(shù)方案中,參數(shù)信息包括但不限于:每個(gè)統(tǒng)一資源定位符的類別、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,類別包括但不限于:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符,且內(nèi)容頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中沒(méi)有錨文本,而列表頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有錨文本,其中,錨文本是把關(guān)鍵詞作為一個(gè)鏈接,該鏈接指向除錨文本所在的網(wǎng)頁(yè)之外的其他網(wǎng)頁(yè),這種形式的鏈接即為錨文本。
[0024]通過(guò)本發(fā)明的技術(shù)方案,可以保證獲取統(tǒng)一資源定位符時(shí)有較高的覆蓋率,還可以準(zhǔn)確地獲取質(zhì)量較高的統(tǒng)一資源定位符,從而可以根據(jù)統(tǒng)一資源定位符準(zhǔn)確地獲取質(zhì)量較高以及覆蓋率較大的網(wǎng)頁(yè)內(nèi)容以供滿足輿情分析的需求。
【附圖說(shuō)明】
[0025]圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇方法的流程示意圖;
[0026]圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇裝置的結(jié)構(gòu)示意圖;
[0027]圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇裝置的原理示意圖。
【具體實(shí)施方式】
[0028]為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0029]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開(kāi)的具體實(shí)施例的限制。
[0030]圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇方法的流程示意圖。
[0031]如圖1所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇方法,包括:
[0032]步驟102,根據(jù)輸入的關(guān)鍵詞獲取與所述關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符;
[0033]步驟104,根據(jù)所述至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度;
[0034]步驟106,根據(jù)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度,從所述至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將所述目標(biāo)統(tǒng)一資源定位符作為與所述關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。
[0035]在該技術(shù)方案中,根據(jù)用戶輸入的關(guān)鍵詞從互聯(lián)網(wǎng)(例如,百度、谷歌和搜狗等搜索引擎)中獲取至少一個(gè)統(tǒng)一資源定位符(URL,Uniform Resource Locator),其中,該至少一個(gè)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有關(guān)鍵字,然后根據(jù)至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或至少一個(gè)統(tǒng)一資源定位符所使用的域名(Host)的權(quán)重比,統(tǒng)計(jì)每個(gè)統(tǒng)一資源定位符與關(guān)鍵詞的相關(guān)度,且在至少一個(gè)統(tǒng)一資源定位符中選擇與關(guān)鍵詞的相關(guān)度較高的統(tǒng)一資源定位符作為目標(biāo)統(tǒng)一資源定位符,這樣由關(guān)鍵詞獲取到的目標(biāo)統(tǒng)一資源定位符就更加準(zhǔn)確,使目標(biāo)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容的質(zhì)量就較高,從而可以通過(guò)質(zhì)量較高的網(wǎng)頁(yè)內(nèi)容來(lái)滿足輿情分析的需求,另外,在保證目標(biāo)統(tǒng)一資源定位符的質(zhì)量的同時(shí),還保證了獲取目標(biāo)統(tǒng)一資源定位符的覆蓋率。
[0036]在上述技術(shù)方案中,優(yōu)選地,還包括:根據(jù)接收到的存儲(chǔ)指令,將所述目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中;根據(jù)接收到的獲取指令,獲取與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址,以使用與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址下載所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并將所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)中。
[0037]在該技術(shù)方案中,由于在從至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符后,需要對(duì)目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址進(jìn)行隨機(jī)讀寫和管理,因此,將目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)(Hbase,Hadoop Database)中,以便更好地支持對(duì)每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址進(jìn)行隨機(jī)訪問(wèn)和管理,另外,在下載目標(biāo)統(tǒng)一資源定位符的每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容后,由于目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容所占用的存儲(chǔ)空間比較大,如果將目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容直接存儲(chǔ)至分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中,這樣會(huì)增大分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)的并發(fā)讀寫,給分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)帶來(lái)負(fù)擔(dān),同時(shí)還會(huì)對(duì)從目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題、正文內(nèi)容和發(fā)布時(shí)間等造成影響,因此,將每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)(HDFS,Hadoop Distributed File System)中,從而可以提高從目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題、正文內(nèi)容和發(fā)布時(shí)間等的效率。
[0038]在上述技術(shù)方案中,優(yōu)選地,還包括:確定所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的參照標(biāo)題標(biāo)簽,以根據(jù)所述參照標(biāo)題標(biāo)簽確定所述網(wǎng)頁(yè)內(nèi)容中的候選標(biāo)題標(biāo)簽集;統(tǒng)計(jì)所述候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度與所述參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,和/或所述每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容與所述參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離;根據(jù)與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將所述目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。
[0039]在該技術(shù)方案中,根據(jù)與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,從而可以將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題,由此,可以有效地提高了獲取網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文標(biāo)題進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間,例如,在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題時(shí),首先在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取參照標(biāo)題標(biāo)簽(網(wǎng)頁(yè)內(nèi)容中的〈title〉標(biāo)簽),同時(shí)為了提高獲取的正文標(biāo)題的正確率,將參照標(biāo)題標(biāo)簽中的標(biāo)簽內(nèi)容所包含的網(wǎng)站字段信息(例如,〈title〉標(biāo)簽的字符串中的新華網(wǎng)”)去掉,并在網(wǎng)頁(yè)內(nèi)容中確定候選標(biāo)題標(biāo)簽集,且候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容和參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容有一定的相關(guān)性,在確定候選標(biāo)題標(biāo)簽集之后,計(jì)算每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度和參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,并判斷候選標(biāo)題標(biāo)簽集中的任一候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度和參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比是否大于或等于第一預(yù)設(shè)值,在判斷結(jié)果為是時(shí),說(shuō)明任一候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度較長(zhǎng),即任一候選標(biāo)題標(biāo)簽不是目標(biāo)標(biāo)題標(biāo)簽,則將任一候選標(biāo)題標(biāo)簽從候選標(biāo)題標(biāo)簽集中丟棄,并對(duì)候選標(biāo)題標(biāo)簽集進(jìn)行更新,否則,確定任一候選標(biāo)題標(biāo)簽可能是目標(biāo)標(biāo)題標(biāo)簽,并計(jì)算任一候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容和參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離(第一標(biāo)簽內(nèi)容和第二標(biāo)簽內(nèi)容的相似度),如果參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容包含任一候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容,則編輯距離更新為第一編輯距離閾值,否則,編輯距離更新為第二編輯距離閾值,在確定任一候選標(biāo)題標(biāo)簽的編輯距離之后,判斷編輯距離是否小于或等于第二預(yù)設(shè)值,在判斷結(jié)果為是時(shí),將任一候選標(biāo)題標(biāo)簽從候選標(biāo)題標(biāo)簽集中丟棄,最后,在確定候選標(biāo)題標(biāo)簽集中每個(gè)候選標(biāo)題標(biāo)簽的編輯距離時(shí),將候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的編輯距離進(jìn)行比較,比較得出最大的編輯距離的值,并確定將具有最大的編輯距離的候選標(biāo)題標(biāo)簽作為目標(biāo)標(biāo)題標(biāo)簽,從而將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。在上述技術(shù)方案中,優(yōu)選地,還包括:確定所述網(wǎng)頁(yè)內(nèi)容中的至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度;判斷所述至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽,在存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例,根據(jù)所述第一比例和/或所述第二比例,從所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將所述目標(biāo)正文標(biāo)簽的正文內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容;以及判斷所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題中是否包括第一發(fā)布時(shí)間,在判斷結(jié)果為是時(shí),將所述第一發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間;在判斷結(jié)果為否時(shí),若所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容中包括第二發(fā)布時(shí)間,則將所述第二發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間。
[0040]在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)第一比例和/或第二比例,從多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,并通過(guò)網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的發(fā)布時(shí)間和正文內(nèi)容的發(fā)布時(shí)間,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間,從而提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和的發(fā)布時(shí)間準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間,具體地包括:在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文內(nèi)容時(shí),判斷至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度,如果至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的第三字符串長(zhǎng)度小于預(yù)設(shè)字符串長(zhǎng)度,則小于預(yù)設(shè)字符串長(zhǎng)度的網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度較小以至于不適合作為目標(biāo)正文內(nèi)容的網(wǎng)頁(yè)標(biāo)簽,且在至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,由此,提高了選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽的效率和準(zhǔn)確率,并在對(duì)指定網(wǎng)頁(yè)標(biāo)簽進(jìn)行篩選后,如果存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例,從而可以根據(jù)統(tǒng)計(jì)出的第一比例和/或第二比例,并根據(jù)比例最大原則從多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,從而將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,優(yōu)選地,在對(duì)指定網(wǎng)頁(yè)標(biāo)簽進(jìn)行篩選后,如果不存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),則可以降低預(yù)設(shè)字符串長(zhǎng)度的值,并再次進(jìn)行判斷至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于改變后的預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽,從而可以在此次判斷結(jié)果中的多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中確定目標(biāo)正文標(biāo)簽,進(jìn)而提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容的范圍,提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容的準(zhǔn)確率。在上述技術(shù)方案中,優(yōu)選地,所述參數(shù)信息包括:所述每個(gè)統(tǒng)一資源定位符的類別、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,所述類別包括:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符;以及根據(jù)所述域名中包括的內(nèi)容頁(yè)統(tǒng)一資源定位符數(shù)目、列表頁(yè)統(tǒng)一資源定位符的數(shù)目、每個(gè)類別的統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的被下載次數(shù)、與所述域名相對(duì)應(yīng)的垃圾統(tǒng)一資源定位符的數(shù)目中的至少一項(xiàng)信息,確定所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比。
[0041]在該技術(shù)方案中,參數(shù)信息包括但不限于:每個(gè)統(tǒng)一資源定位符的類別、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,類別包括但不限于:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符,且內(nèi)容頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中沒(méi)有錨文本,而列表頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有錨文本,其中,錨文本是把關(guān)鍵詞作為一個(gè)鏈接,該鏈接指向除錨文本所在的網(wǎng)頁(yè)之外的其他網(wǎng)頁(yè),這種形式的鏈接即為錨文本。
[0042]圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇裝置的結(jié)構(gòu)示意圖。
[0043]如圖2所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇裝置200,包括:獲取單元202,根據(jù)輸入的關(guān)鍵詞獲取與所述關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符;統(tǒng)計(jì)單元204,根據(jù)所述至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度;選擇單元206,根據(jù)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度,從所述至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將所述目標(biāo)統(tǒng)一資源定位符作為與所述關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。
[0044]在該技術(shù)方案中,根據(jù)用戶輸入的關(guān)鍵詞從互聯(lián)網(wǎng)(例如,百度、谷歌和搜狗等搜索引擎)中獲取至少一個(gè)統(tǒng)一資源定位符(URL,Uniform Resource Locator),其中,該至少一個(gè)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有關(guān)鍵字,然后根據(jù)至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或至少一個(gè)統(tǒng)一資源定位符所使用的域名(Host)的權(quán)重比,統(tǒng)計(jì)每個(gè)統(tǒng)一資源定位符與關(guān)鍵詞的相關(guān)度,且在至少一個(gè)統(tǒng)一資源定位符中選擇與關(guān)鍵詞的相關(guān)度較高的統(tǒng)一資源定位符作為目標(biāo)統(tǒng)一資源定位符,這樣由關(guān)鍵詞獲取到的目標(biāo)統(tǒng)一資源定位符就更加準(zhǔn)確,使目標(biāo)統(tǒng)一資源定位符相應(yīng)的網(wǎng)頁(yè)內(nèi)容的質(zhì)量就較高,從而可以通過(guò)質(zhì)量較高的網(wǎng)頁(yè)內(nèi)容來(lái)滿足輿情分析的需求,另外,在保證目標(biāo)統(tǒng)一資源定位符的質(zhì)量的同時(shí),還保證了獲取目標(biāo)統(tǒng)一資源定位符的覆蓋率。
[0045]在上述技術(shù)方案中,優(yōu)選地,還包括:存儲(chǔ)單元208,根據(jù)接收到的存儲(chǔ)指令,將所述目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中;所述獲取單元202還用于,根據(jù)接收到的獲取指令,獲取與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址,以使用與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址下載所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并將所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)中。
[0046]在該技術(shù)方案中,由于在從至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符后,需要對(duì)目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址進(jìn)行隨機(jī)讀寫和管理,因此,將目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)(Hbase,Hadoop Database)中,以便更好地支持對(duì)每個(gè)目標(biāo)統(tǒng)一資源定位符和與每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址進(jìn)行隨機(jī)訪問(wèn)和管理,另外,在下載目標(biāo)統(tǒng)一資源定位符的每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容后,由于目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容所占用的存儲(chǔ)空間比較大,如果將目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容直接存儲(chǔ)至分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中,這樣會(huì)增大分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)的并發(fā)讀寫,給分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)帶來(lái)負(fù)擔(dān),同時(shí)還會(huì)對(duì)從目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題、正文內(nèi)容和發(fā)布時(shí)間等造成影響,因此,將每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)(HDFS,Hadoop Distributed File System)中,從而可以提高從目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題、正文內(nèi)容和發(fā)布時(shí)間等的效率。
[0047]在上述技術(shù)方案中,優(yōu)選地,還包括:確定單元210,確定所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的參照標(biāo)題標(biāo)簽,以根據(jù)所述參照標(biāo)題標(biāo)簽確定所述網(wǎng)頁(yè)內(nèi)容中的候選標(biāo)題標(biāo)簽集;所述統(tǒng)計(jì)單元204還用于,統(tǒng)計(jì)所述候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度與所述參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,和/或所述每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容與所述參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離;所述確定單元210還用于,根據(jù)與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將所述目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。
[0048]在該技術(shù)方案中,根據(jù)與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,從而可以將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題,由此,可以有效地提高了獲取網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文標(biāo)題進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間,例如,在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題時(shí),首先在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取參照標(biāo)題標(biāo)簽(網(wǎng)頁(yè)內(nèi)容中的〈title〉標(biāo)簽),同時(shí)為了提高獲取的正文標(biāo)題的正確率,將參照標(biāo)題標(biāo)簽中的標(biāo)簽內(nèi)容所包含的網(wǎng)站字段信息(例如,〈title〉標(biāo)簽的字符串中的新華網(wǎng)”)去掉,并在網(wǎng)頁(yè)內(nèi)容中確定候選標(biāo)題標(biāo)簽集,且候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容和參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容有一定的相關(guān)性,在確定候選標(biāo)題標(biāo)簽集之后,計(jì)算每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度和參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,并判斷候選標(biāo)題標(biāo)簽集中的任一候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度和參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比是否大于或等于第一預(yù)設(shè)值,在判斷結(jié)果為是時(shí),說(shuō)明任一候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度較長(zhǎng),即任一候選標(biāo)題標(biāo)簽不是目標(biāo)標(biāo)題標(biāo)簽,則將任一候選標(biāo)題標(biāo)簽從候選標(biāo)題標(biāo)簽集中丟棄,并對(duì)候選標(biāo)題標(biāo)簽集進(jìn)行更新,否則,確定任一候選標(biāo)題標(biāo)簽可能是目標(biāo)標(biāo)題標(biāo)簽,并計(jì)算任一候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容和參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離(第一標(biāo)簽內(nèi)容和第二標(biāo)簽內(nèi)容的相似度),如果參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容包含任一候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容,則編輯距離更新為第一編輯距離閾值,否則,編輯距離更新為第二編輯距離閾值,在確定任一候選標(biāo)題標(biāo)簽的編輯距離之后,判斷編輯距離是否小于或等于第二預(yù)設(shè)值,在判斷結(jié)果為是時(shí),將任一候選標(biāo)題標(biāo)簽從候選標(biāo)題標(biāo)簽集中丟棄,最后,在確定候選標(biāo)題標(biāo)簽集中每個(gè)候選標(biāo)題標(biāo)簽的編輯距離時(shí),將候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的編輯距離進(jìn)行比較,比較得出最大的編輯距離的值,并確定將具有最大的編輯距離的候選標(biāo)題標(biāo)簽作為目標(biāo)標(biāo)題標(biāo)簽,從而將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。
[0049]在上述技術(shù)方案中,優(yōu)選地,還包括:所述確定單元210還用于,確定所述網(wǎng)頁(yè)內(nèi)容中的至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度;判斷單元212,判斷所述至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽,所述統(tǒng)計(jì)單元204還用于,在存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例,所述選擇單元206還用于,根據(jù)所述第一比例和/或所述第二比例,從所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將所述目標(biāo)正文標(biāo)簽的正文內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容;以及所述判斷單元212還用于,判斷所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題中是否包括第一發(fā)布時(shí)間,在判斷結(jié)果為是時(shí),將所述第一發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間;在判斷結(jié)果為否時(shí),若所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容中包括第二發(fā)布時(shí)間,則將所述第二發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間。
[0050]在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)第一比例和/或第二比例,從多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,并通過(guò)網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題的發(fā)布時(shí)間和正文內(nèi)容的發(fā)布時(shí)間,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間,從而提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和的發(fā)布時(shí)間準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間可以滿足輿情分析的需求,另外,在不需要網(wǎng)頁(yè)內(nèi)容的時(shí)候?qū)W(wǎng)頁(yè)內(nèi)容的正文內(nèi)容和發(fā)布時(shí)間進(jìn)行存儲(chǔ),而不是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行存儲(chǔ),從而減少了存儲(chǔ)空間,具體地包括:在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文內(nèi)容時(shí),判斷至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度,如果至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的第三字符串長(zhǎng)度小于預(yù)設(shè)字符串長(zhǎng)度,則小于預(yù)設(shè)字符串長(zhǎng)度的網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度較小以至于不適合作為目標(biāo)正文內(nèi)容的網(wǎng)頁(yè)標(biāo)簽,且在至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,由此,提高了選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽的效率和準(zhǔn)確率,并在對(duì)指定網(wǎng)頁(yè)標(biāo)簽進(jìn)行篩選后,如果存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例,從而可以根據(jù)統(tǒng)計(jì)出的第一比例和/或第二比例,并根據(jù)比例最大原則從多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,從而將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,優(yōu)選地,在對(duì)指定網(wǎng)頁(yè)標(biāo)簽進(jìn)行篩選后,如果不存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),則可以降低預(yù)設(shè)字符串長(zhǎng)度的值,并再次進(jìn)行判斷至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于改變后的預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽,從而可以在此次判斷結(jié)果中的多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中確定目標(biāo)正文標(biāo)簽,進(jìn)而提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容的范圍,提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容的準(zhǔn)確率。
[0051]在上述技術(shù)方案中,優(yōu)選地,所述參數(shù)信息包括:所述每個(gè)統(tǒng)一資源定位符的類另O、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,所述類別包括:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符;以及所述確定單元210還用于,根據(jù)所述域名中包括的內(nèi)容頁(yè)統(tǒng)一資源定位符數(shù)目、列表頁(yè)統(tǒng)一資源定位符的數(shù)目、每個(gè)類別的統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的被下載次數(shù)、與所述域名相對(duì)應(yīng)的垃圾統(tǒng)一資源定位符的數(shù)目中的至少一項(xiàng)信息,確定所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比。
[0052]在該技術(shù)方案中,參數(shù)信息包括但不限于:每個(gè)統(tǒng)一資源定位符的類別、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,類別包括但不限于:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符,且內(nèi)容頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中沒(méi)有錨文本,而列表頁(yè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含有錨文本,其中,錨文本是把關(guān)鍵詞作為一個(gè)鏈接,該鏈接指向除錨文本所在的網(wǎng)頁(yè)之外的其他網(wǎng)頁(yè),這種形式的鏈接即為錨文本。
[0053]圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇裝置的原理示意圖。
[0054]如圖3所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的統(tǒng)一資源定位符的選擇裝置300 (相當(dāng)于圖2示出的實(shí)施例中的統(tǒng)一資源定位符的選擇裝置200),該裝置包括:URL數(shù)據(jù)庫(kù)302、種子發(fā)現(xiàn)模塊304、調(diào)度模塊306、下載模塊308、解析模塊310、監(jiān)控管理模塊312和消息隊(duì)列314。其中,種子發(fā)現(xiàn)模塊304、調(diào)度模塊306、下載模塊308、解析模塊310、監(jiān)控管理模塊312之間通過(guò)消息隊(duì)列314來(lái)完成消息的通信,使各個(gè)模塊之間降低相互之間的耦合度,從而更容易地進(jìn)行分布式下載與解析。
[0055]本系統(tǒng)中URL數(shù)據(jù)庫(kù)302用來(lái)存儲(chǔ)根據(jù)輸入的關(guān)鍵詞獲取的大量的URL(至少一個(gè)統(tǒng)一資源定位符)及由大量的URL所組成的拓?fù)浣Y(jié)構(gòu),另外,調(diào)度(從至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符)時(shí)所有需要的調(diào)度信息、監(jiān)控、管理等數(shù)據(jù)也存放在URL數(shù)據(jù)庫(kù)302中,且該URL數(shù)據(jù)庫(kù)302需要支持大量的隨機(jī)讀寫,因此使用Hbase作為URL數(shù)據(jù)庫(kù)302。另外,為了使Reg1nServer負(fù)載盡量均衡,使用URl的md5作為存儲(chǔ)的Key。為了提高Hbase性能,對(duì)Hbase與HDFS進(jìn)行了配置優(yōu)化,關(guān)閉了自動(dòng)SpI it,增大了 HDFS塊大小,同時(shí)在客戶端盡量減少了 AutoFlush的使用。
[0056]種子發(fā)現(xiàn)模塊304,用于根據(jù)用戶輸入的關(guān)鍵詞,從百度、搜狗和谷歌等搜索引擎中提取出相關(guān)搜索的結(jié)果,并使用Xpath解析出需要的URL (至少一個(gè)統(tǒng)一資源定位符),作為爬蟲的種子URL (至少一個(gè)統(tǒng)一資源定位符)。另外,種子發(fā)現(xiàn)模塊304還定期將所獲得的URL插入到URL數(shù)據(jù)庫(kù)302中。
[0057]調(diào)度模塊306,用于將尚未抓取或者需要刷新的URL(目標(biāo)統(tǒng)一資源定位符)從URL數(shù)據(jù)庫(kù)302中調(diào)度出來(lái),并發(fā)送給下載模塊308。調(diào)度算法的優(yōu)劣將直接影響整個(gè)統(tǒng)一資源定位符的選擇裝置的運(yùn)行效率。調(diào)度算法要保證盡量將質(zhì)量好的內(nèi)容頁(yè)URL(內(nèi)容頁(yè)統(tǒng)一資源定位符)調(diào)出,同時(shí)還有保證整個(gè)系統(tǒng)的抓取的擴(kuò)散能力。在該技術(shù)方案中包括了一種基于鏈接錨文本相關(guān)性的調(diào)度算法,該算法根據(jù)每個(gè)URL的錨文本、URL的類別以及其Host (域名)的權(quán)重比、Host歷史信息等計(jì)算每個(gè)URL的調(diào)度權(quán)重(每個(gè)統(tǒng)一資源定位符的類別、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù)和域名的權(quán)重比),從中選出Top N作為最終的調(diào)度結(jié)果。調(diào)度的最終結(jié)果里包含了 URL的錨文本、Host DNS(Domain Name System,域名解析系統(tǒng))信息(域名解析地址)等。調(diào)度模塊306還負(fù)責(zé)將解析模塊310中提取出的URL(目標(biāo)統(tǒng)一資源定位符)去重后寫入到URL數(shù)據(jù)庫(kù)302中。
[0058]除此之外,使用MapReduce完成每一輪的調(diào)度任務(wù)。這里將URl分為兩類內(nèi)容頁(yè)(內(nèi)容頁(yè)統(tǒng)一資源定位符)與列表頁(yè)(列表頁(yè)統(tǒng)一資源定位符)。內(nèi)容頁(yè)即類似與某一具體新聞的網(wǎng)頁(yè),列表頁(yè)類似于導(dǎo)航頁(yè)。在爬取發(fā)現(xiàn)URl我們存儲(chǔ)了每個(gè)URl被發(fā)現(xiàn)時(shí)鏈向它的錨文本,如果錨文本包含系統(tǒng)配置的抓取關(guān)鍵詞,則此URl是相關(guān)網(wǎng)頁(yè)。其中,調(diào)度模塊306從至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符包括:
[0059]假設(shè)需要調(diào)出的URl (目標(biāo)統(tǒng)一資源定位符)的數(shù)量為amount,其中內(nèi)容頁(yè)(內(nèi)容頁(yè)統(tǒng)一資源定位符)所占調(diào)出的URl的比例為a。
[0060]1.獲取相關(guān)性調(diào)度URl的候選集JO。
[0061]1.1對(duì)URL數(shù)據(jù)庫(kù)302中所有URl進(jìn)行如下步驟:
[0062]1.1.1如果URl被抓取成功,則加入J0,且權(quán)重比W0。
[0063]1.1.2如果URl未被抓去過(guò)且是相關(guān)的內(nèi)容頁(yè)(內(nèi)容頁(yè)統(tǒng)一資源定位符),則加入J0,且該內(nèi)容頁(yè)權(quán)重比為W1。
[0064]1.1.3如果URl抓取成功過(guò)且為列表頁(yè)(列表頁(yè)統(tǒng)一資源定位符),且已經(jīng)到達(dá)刷新間隔t,則加入到JO中,且該列表頁(yè)的權(quán)重比為W2,其中,該URl的上次刷出的新URl越多則權(quán)重比越大。
[0065]1.2計(jì)算候選集JO中所有候選URl的權(quán)重比Wi (i = 1,2, -n) = Wi+W(Host),其中,W(Host)為Host的權(quán)重比。
[0066]2.對(duì)候選集中所有URl,選取閾值最大的前amount x a的URl。
[0067]3.獲取探索性調(diào)度URl候選集Jl。
[0068]3.1對(duì)數(shù)據(jù)庫(kù)中所有URl:
[0069]3.1.1如果URl為內(nèi)容頁(yè),拋棄。
[0070]3.1.2如果該URl已經(jīng)成功抓取,拋棄。
[0071]3.1.2如果該URl尚未抓取或者未抓取成功,則加入J1,權(quán)重比W3,URl在網(wǎng)絡(luò)拓?fù)渖疃仍降蛣tW越大;如果URl是尚未抓取,則W3 = W3+Wa,Wa為尚未抓取URl權(quán)重比。
[0072]3.2 對(duì) Jl 中 URl 隨機(jī)選取 amount x(l_a)個(gè)。
[0073]4.根據(jù)每個(gè)Host的抓取記錄,計(jì)算Host的抓取數(shù)量。
[0074]5.對(duì)1&3中結(jié)果,根據(jù)4的結(jié)果限制其數(shù)量,獲得候選集J2。
[0075]6.獲得J2中所有URl對(duì)應(yīng)的DNS信息。
[0076]7.將J2中URl及其DNS信息發(fā)送到下載消息隊(duì)列314中。
[0077]8.對(duì)解析模塊310寫入到HDFS中的URl,與URL數(shù)據(jù)庫(kù)302中已有URl去重后寫AURl數(shù)據(jù)庫(kù)。
[0078]下載模塊308,用于從調(diào)度結(jié)果中獲取URL下載網(wǎng)頁(yè)內(nèi)容并通過(guò)消息隊(duì)列314發(fā)送到解析模塊310。其中,使用HttpClient并在其基礎(chǔ)上進(jìn)一步封裝了 DNS。在下載模塊308中,Host的DNS信息是從調(diào)度結(jié)果里獲取的,從而減少了獲取DNS的時(shí)間,且對(duì)得到的DNS我們將做超時(shí)判斷,超時(shí)的DNS將重新獲取并寫入到Hbase中存儲(chǔ)。在下載模塊308中我們對(duì)每個(gè)Host的下載速度進(jìn)行監(jiān)控與控制,對(duì)經(jīng)常下載失敗的URL或者下載較慢的Host將在一段時(shí)間中禁止其URL下載,從而減小了網(wǎng)絡(luò)的等待時(shí)間,提高下載效率。
[0079]解析模塊310,用于將目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容解析成Dom樹(shù),并從其中抽取新的URL鏈接、正文標(biāo)題、發(fā)布時(shí)間(目標(biāo)發(fā)布時(shí)間)以及正文內(nèi)容。為了減小對(duì)Hbase的并發(fā)寫以及提高解析模塊310的效率,我們將URL寫入HDFS中,而不是直接寫入到Hbase中。在調(diào)度模塊306中新發(fā)現(xiàn)的URL將在去重后加入到URL數(shù)據(jù)庫(kù)302中。將正文標(biāo)題等信息已特定格式寫入到本地文件系統(tǒng)中作為輿情分析的原始數(shù)據(jù)。在解析模塊310實(shí)現(xiàn)了網(wǎng)頁(yè)內(nèi)容中的正文標(biāo)題提取、發(fā)布時(shí)間提取、正文內(nèi)容提取以及網(wǎng)頁(yè)分類。在解析模塊310中可以進(jìn)行垃圾過(guò)濾,通過(guò)Host黑名單以及垃圾字典等方式過(guò)濾垃圾網(wǎng)頁(yè)。其中,解析模塊310具體地實(shí)現(xiàn)步驟如下:
[0080]1.獲取網(wǎng)頁(yè)〈title〉標(biāo)簽(參照標(biāo)題標(biāo)簽)中的文本T(第二標(biāo)簽內(nèi)容),剔除其中包含的網(wǎng)站字段信息,T的長(zhǎng)度為L(zhǎng)enO (第二字符串長(zhǎng)度)。
[0081]2.集合J3(候選標(biāo)題標(biāo)簽集)保存所有候選標(biāo)題標(biāo)簽,對(duì)深度遍歷網(wǎng)頁(yè)中每個(gè)標(biāo)簽LI (候選標(biāo)題標(biāo)簽):
[0082]2.1如果LI中字符串Tl (第一標(biāo)簽內(nèi)容)長(zhǎng)度Lenl (第一字符串長(zhǎng)度)大于LenO的k倍(實(shí)時(shí)長(zhǎng)度比),則返回到步驟2,繼續(xù)下一個(gè)標(biāo)簽。
[0083]2.2計(jì)算T與Tl的編輯距離Score。
[0084]2.3對(duì)標(biāo)簽LI如果其標(biāo)簽名為H1-H4,則Score = Score+ α (編輯距離更新為第二編輯距離閾值)。
[0085]2.4如果T完全包含Tl,則Score = Score+ β (編輯距離更新為第一編輯距離閾值)。
[0086]2.5如果Score大于閾值xl (第二預(yù)設(shè)值),則將標(biāo)簽(候選標(biāo)題標(biāo)簽)加入到J3中,否則舍棄。
[0087]求集合Jl中Score最大的標(biāo)簽,即為正文標(biāo)題所在的標(biāo)題標(biāo)簽,該標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容即為正文標(biāo)題(根據(jù)與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題)。
[0088]在網(wǎng)頁(yè)內(nèi)容中獲取正文標(biāo)題時(shí),首先獲取了〈title〉標(biāo)簽中的第二標(biāo)簽內(nèi)容,并將〈title〉標(biāo)簽作為參照標(biāo)題標(biāo)簽,為提高準(zhǔn)確率將類似新華網(wǎng)”的字段去掉。并計(jì)算候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽與參照標(biāo)題標(biāo)簽的編輯距離作為相似度的度量方式。
[0089]解析模塊310在獲取每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的正文內(nèi)容時(shí),對(duì)Dom樹(shù)進(jìn)行了深度遍歷,通過(guò)標(biāo)簽中的文字鏈接比(非鏈接文本和鏈接文本的比值)確定網(wǎng)頁(yè)內(nèi)容中候選正文標(biāo)簽集J2。其中,解析模塊310在獲取每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的正文內(nèi)容時(shí)包括:
[0090]1.候選正文標(biāo)簽集J4保存所有候選正文標(biāo)簽,該候選正文標(biāo)簽中包括至少一個(gè)網(wǎng)頁(yè)標(biāo)簽,深度遍歷每個(gè)網(wǎng)頁(yè)標(biāo)簽L2(至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽):
[0091]1.1如果L2中所含正文內(nèi)容長(zhǎng)度(第三字符串長(zhǎng)度)小于閾值yl(預(yù)設(shè)字符串長(zhǎng)度),則舍棄。
[0092]1.2計(jì)算L2中非鏈接文本內(nèi)容與總文本內(nèi)容的比例值V(統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例)。
[0093]1.3如果V大于閾值y2,加入到J4中,否則舍棄。
[0094]2.如果J4為空,則進(jìn)行以下步驟:
[0095]2.1如果L2中所含正文內(nèi)容長(zhǎng)度小于閾值y3,且y3〈yl,則舍棄。
[0096]2.2計(jì)算L2中鏈接文本內(nèi)容與總文本內(nèi)容的比例V(統(tǒng)計(jì)多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例)。
[0097]2.3如果V大于閾值y3,加入到J4中,否則舍棄。
[0098]2.4如果J4不為空,則將J4中具有相同父親的標(biāo)簽聚為一個(gè)標(biāo)簽,并計(jì)算其文字鏈接比V。
[0099]2.5計(jì)算取J4中V最大的標(biāo)簽作為正文標(biāo)簽。
[0100]3.如果J4不為空,計(jì)算得出V值最大的標(biāo)簽作為正文標(biāo)簽。
[0101]在上述技術(shù)方案中,每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取正文內(nèi)容,具體包括:如果網(wǎng)頁(yè)內(nèi)容中的至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的任一網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度小于預(yù)設(shè)字符串長(zhǎng)度時(shí),則將小于預(yù)設(shè)字符串長(zhǎng)度的網(wǎng)頁(yè)標(biāo)簽舍棄,將至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的大于或等于預(yù)設(shè)字符串長(zhǎng)度的網(wǎng)頁(yè)標(biāo)簽作為指定網(wǎng)頁(yè)標(biāo)簽,并統(tǒng)計(jì)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例,如果指定網(wǎng)頁(yè)標(biāo)簽中的任一網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容的第二比例小于或等于預(yù)設(shè)第二比例時(shí),則將任一網(wǎng)頁(yè)標(biāo)簽從指定網(wǎng)頁(yè)標(biāo)簽中舍棄,此時(shí),判斷在指定標(biāo)簽中是否存在網(wǎng)頁(yè)標(biāo)簽,如果在指定標(biāo)簽中存在網(wǎng)頁(yè)標(biāo)簽,則比較指定標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容的第二比例,并將最大的第二比例的網(wǎng)頁(yè)標(biāo)簽作為目標(biāo)正文標(biāo)簽,并將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容。另一方方面,如果在指定標(biāo)簽中不存在網(wǎng)頁(yè)標(biāo)簽,則降低預(yù)設(shè)字符串長(zhǎng)度的值,并再次判斷至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽,此時(shí),如果在指定標(biāo)簽中存在多個(gè)網(wǎng)頁(yè)標(biāo)簽,統(tǒng)計(jì)多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,如果指定網(wǎng)頁(yè)標(biāo)簽中的任一網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容的第一比例小于或等于預(yù)設(shè)第一比例時(shí),則將任一網(wǎng)頁(yè)標(biāo)簽從指定網(wǎng)頁(yè)標(biāo)簽中舍棄,此時(shí),如果指定網(wǎng)頁(yè)標(biāo)簽中存在網(wǎng)頁(yè)標(biāo)簽時(shí),將指定網(wǎng)頁(yè)標(biāo)簽中具有相同父親的網(wǎng)頁(yè)標(biāo)簽聚合成一個(gè)網(wǎng)頁(yè)標(biāo)簽,并根據(jù)具有相同父親的網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容和/或非鏈接文本內(nèi)容,計(jì)算聚合后的網(wǎng)頁(yè)標(biāo)簽的第三比例,并比較指定標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第一比例和/或每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三比例,并將最大的第一比例或第三比例網(wǎng)頁(yè)標(biāo)簽作為目標(biāo)正文標(biāo)簽,然后將目標(biāo)正文標(biāo)簽的正文內(nèi)容作為網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容,這樣,有效地提高了獲取網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容的準(zhǔn)確率,使網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容可以滿足輿情分析的需求,其中,鏈接文本內(nèi)容是指可以通過(guò)該鏈接文本到達(dá)指定的網(wǎng)頁(yè),非鏈接文本是指不能通過(guò)該非鏈接文本到達(dá)指定的網(wǎng)頁(yè)。
[0102]解析模塊310在每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取發(fā)布時(shí)間時(shí),從確定的正文標(biāo)題開(kāi)始,深度遍歷,直到遇到正文標(biāo)簽時(shí)截止。將在正文標(biāo)題標(biāo)簽與正文標(biāo)簽中發(fā)現(xiàn)的第一個(gè)時(shí)間作為正文發(fā)布時(shí)間。
[0103]監(jiān)控管理模塊312,用于對(duì)整個(gè)統(tǒng)一資源定位符的選擇裝置的運(yùn)行狀態(tài)的監(jiān)控,以及其他信息,包括種子、Host黑名單、Host白名單、垃圾過(guò)濾詞典等。其中,監(jiān)控管理模塊312提供了查看消息隊(duì)列314大小、每臺(tái)機(jī)器的下載以及解析速度、設(shè)置系統(tǒng)關(guān)鍵詞、Host白名單等功能。該模塊采用BS模式,部署在Tomcat服務(wù)中。監(jiān)控信息的獲取各個(gè)模塊將自身的信息定時(shí)發(fā)送到特定的消息隊(duì)列314中,然后監(jiān)控模塊從消息隊(duì)列314獲取消息,并加以處理。
[0104]消息隊(duì)列314,包括:開(kāi)源的Hornetq消息隊(duì)列。該消息隊(duì)列314是一個(gè)高性能的Java消息隊(duì)列,提供了對(duì)JMS (Java Message Service,Java消息服務(wù))的完整支持,并且具有良好的內(nèi)存控制機(jī)制,在長(zhǎng)時(shí)間運(yùn)行情況下,基本不會(huì)出現(xiàn)內(nèi)存泄露的問(wèn)題,其提供了良好的故障恢復(fù)能力。由于下載發(fā)送到解析消息隊(duì)列的數(shù)據(jù)比一般數(shù)據(jù)要大的多,為了提高Hornetq的性能,因此為每一個(gè)解析模塊310配置了一個(gè)消息隊(duì)列314,從而提高了下載發(fā)送到解析隊(duì)列的速度。
[0105]在上述技術(shù)方案中,統(tǒng)一資源定位符的選擇裝置對(duì)輿情分析數(shù)據(jù)采集的有益性表現(xiàn)在:
[0106]1.根據(jù)輿情分析所需的關(guān)鍵詞的相關(guān)行抓取所需網(wǎng)頁(yè),提高了抓取數(shù)據(jù)的有效性。
[0107]2.通過(guò)在網(wǎng)絡(luò)上的單向擴(kuò)散保證了爬取數(shù)據(jù)的覆蓋率。
[0108]3.可以獲取網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題、發(fā)布時(shí)間以及正文內(nèi)容等供輿情分析使用,從而在不需要使用網(wǎng)頁(yè)內(nèi)容的時(shí)候不保持原始網(wǎng)頁(yè)內(nèi)容,進(jìn)而減少了存儲(chǔ)網(wǎng)頁(yè)內(nèi)容所需的存儲(chǔ)空間,另外,一定的垃圾過(guò)濾策略,可以減少垃圾網(wǎng)頁(yè)信息。
[0109]4.使用Hbase作為URL數(shù)據(jù)庫(kù)302,從而可以更好的支持對(duì)爬取數(shù)據(jù)的隨機(jī)讀寫訪問(wèn),以及對(duì)URL的管理。
[0110]以上結(jié)合附圖詳細(xì)說(shuō)明了本發(fā)明的技術(shù)方案,可以保證獲取統(tǒng)一資源定位符時(shí)有較高的覆蓋率,還可以準(zhǔn)確地獲取質(zhì)量較高的統(tǒng)一資源定位符,從而可以根據(jù)統(tǒng)一資源定位符準(zhǔn)確地獲取質(zhì)量較高以及覆蓋率較大的網(wǎng)頁(yè)內(nèi)容以供滿足輿情分析的需求。
[0111]在本發(fā)明中,術(shù)語(yǔ)“第一”、“第二”僅用于描述的目的,而不能理解為指示或暗示相對(duì)重要性;術(shù)語(yǔ)“多個(gè)”表示兩個(gè)或兩個(gè)以上。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。
[0112]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種統(tǒng)一資源定位符的選擇方法,其特征在于,包括: 根據(jù)輸入的關(guān)鍵詞獲取與所述關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符; 根據(jù)所述至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度; 根據(jù)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度,從所述至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將所述目標(biāo)統(tǒng)一資源定位符作為與所述關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。2.根據(jù)權(quán)利要求1所述的統(tǒng)一資源定位符的選擇方法,其特征在于,還包括: 根據(jù)接收到的存儲(chǔ)指令,將所述目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中; 根據(jù)接收到的獲取指令,獲取與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址,以使用與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址下載所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并將所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)中。3.根據(jù)權(quán)利要求2所述的統(tǒng)一資源定位符的選擇方法,其特征在于,還包括: 確定所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的參照標(biāo)題標(biāo)簽,以根據(jù)所述參照標(biāo)題標(biāo)簽確定所述網(wǎng)頁(yè)內(nèi)容中的候選標(biāo)題標(biāo)簽集; 統(tǒng)計(jì)所述候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度與所述參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,和/或所述每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容與所述參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離; 根據(jù)與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將所述目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。4.根據(jù)權(quán)利要求3所述的統(tǒng)一資源定位符的選擇方法,其特征在于,還包括: 確定所述網(wǎng)頁(yè)內(nèi)容中的至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度; 判斷所述至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽, 在存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例, 根據(jù)所述第一比例和/或所述第二比例,從所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將所述目標(biāo)正文標(biāo)簽的正文內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容;以及 判斷所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題中是否包括第一發(fā)布時(shí)間,在判斷結(jié)果為是時(shí),將所述第一發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間;在判斷結(jié)果為否時(shí),若所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容中包括第二發(fā)布時(shí)間,則將所述第二發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間。5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的統(tǒng)一資源定位符的選擇方法,其特征在于, 所述參數(shù)信息包括:所述每個(gè)統(tǒng)一資源定位符的類別、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,所述類別包括:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符;以及 根據(jù)所述域名中包括的內(nèi)容頁(yè)統(tǒng)一資源定位符數(shù)目、列表頁(yè)統(tǒng)一資源定位符的數(shù)目、每個(gè)類別的統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的被下載次數(shù)、與所述域名相對(duì)應(yīng)的垃圾統(tǒng)一資源定位符的數(shù)目中的至少一項(xiàng)信息,確定所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比。6.一種統(tǒng)一資源定位符的選擇裝置,其特征在于,包括: 獲取單元,根據(jù)輸入的關(guān)鍵詞獲取與所述關(guān)鍵詞相關(guān)的至少一個(gè)統(tǒng)一資源定位符; 統(tǒng)計(jì)單元,根據(jù)所述至少一個(gè)統(tǒng)一資源定位符中的每個(gè)統(tǒng)一資源定位符的參數(shù)信息和/或所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比,統(tǒng)計(jì)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度; 選擇單元,根據(jù)所述每個(gè)統(tǒng)一資源定位符與所述關(guān)鍵詞的相關(guān)度,從所述至少一個(gè)統(tǒng)一資源定位符中選擇目標(biāo)統(tǒng)一資源定位符,以將所述目標(biāo)統(tǒng)一資源定位符作為與所述關(guān)鍵詞相關(guān)的統(tǒng)一資源定位符的搜索結(jié)果。7.根據(jù)權(quán)利要求6所述的統(tǒng)一資源定位符的選擇裝置,其特征在于,還包括: 存儲(chǔ)單元,根據(jù)接收到的存儲(chǔ)指令,將所述目標(biāo)統(tǒng)一資源定位符中的每個(gè)目標(biāo)統(tǒng)一資源定位符和與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相應(yīng)的域名解析地址對(duì)應(yīng)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)庫(kù)中; 所述獲取單元還用于, 根據(jù)接收到的獲取指令,獲取與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址,以使用與所述每個(gè)目標(biāo)統(tǒng)一資源定位符相對(duì)應(yīng)的域名解析地址下載所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并將所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在分布式文件系統(tǒng)數(shù)據(jù)庫(kù)中。8.根據(jù)權(quán)利要求7所述的統(tǒng)一資源定位符的選擇裝置,其特征在于,還包括: 確定單元,確定所述每個(gè)目標(biāo)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中的參照標(biāo)題標(biāo)簽,以根據(jù)所述參照標(biāo)題標(biāo)簽確定所述網(wǎng)頁(yè)內(nèi)容中的候選標(biāo)題標(biāo)簽集; 所述統(tǒng)計(jì)單元還用于, 統(tǒng)計(jì)所述候選標(biāo)題標(biāo)簽集中的每個(gè)候選標(biāo)題標(biāo)簽的第一字符串長(zhǎng)度與所述參照標(biāo)題標(biāo)簽的第二字符串長(zhǎng)度的實(shí)時(shí)長(zhǎng)度比,和/或所述每個(gè)候選標(biāo)題標(biāo)簽的第一標(biāo)簽內(nèi)容與所述參照標(biāo)題標(biāo)簽的第二標(biāo)簽內(nèi)容的編輯距離; 所述確定單元還用于, 根據(jù)與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的實(shí)時(shí)長(zhǎng)度比,和/或與所述每個(gè)候選標(biāo)題標(biāo)簽對(duì)應(yīng)的編輯距離,確定所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)標(biāo)題標(biāo)簽,以將所述目標(biāo)標(biāo)題標(biāo)簽的標(biāo)題內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題。9.根據(jù)權(quán)利要求8所述的統(tǒng)一資源定位符的選擇裝置,其特征在于,還包括: 所述確定單元還用于, 確定所述網(wǎng)頁(yè)內(nèi)容中的至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的第三字符串長(zhǎng)度; 判斷單元,判斷所述至少一個(gè)網(wǎng)頁(yè)標(biāo)簽中是否存在第三字符串長(zhǎng)度大于或等于預(yù)設(shè)字符串長(zhǎng)度的指定網(wǎng)頁(yè)標(biāo)簽, 所述統(tǒng)計(jì)單元還用于, 在存在多個(gè)指定網(wǎng)頁(yè)標(biāo)簽時(shí),依次統(tǒng)計(jì)所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中的每個(gè)網(wǎng)頁(yè)標(biāo)簽的鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第一比例,和/或所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的非鏈接文本內(nèi)容與所述每個(gè)網(wǎng)頁(yè)標(biāo)簽的總文本內(nèi)容的第二比例, 所述選擇單元還用于, 根據(jù)所述第一比例和/或所述第二比例,從所述多個(gè)指定網(wǎng)頁(yè)標(biāo)簽中選擇所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)正文標(biāo)簽,并將所述目標(biāo)正文標(biāo)簽的正文內(nèi)容作為所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容;以及 所述判斷單元還用于, 判斷所述網(wǎng)頁(yè)內(nèi)容的正文標(biāo)題中是否包括第一發(fā)布時(shí)間,在判斷結(jié)果為是時(shí),將所述第一發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間;在判斷結(jié)果為否時(shí),若所述網(wǎng)頁(yè)內(nèi)容的正文內(nèi)容中包括第二發(fā)布時(shí)間,則將所述第二發(fā)布時(shí)間作為所述網(wǎng)頁(yè)內(nèi)容的目標(biāo)發(fā)布時(shí)間。10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的統(tǒng)一資源定位符的選擇裝置,其特征在于, 所述參數(shù)信息包括:所述每個(gè)統(tǒng)一資源定位符的類別、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容、所述每個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容在預(yù)定時(shí)間內(nèi)的被下載次數(shù),其中,所述類別包括:內(nèi)容頁(yè)統(tǒng)一資源定位符和列表頁(yè)統(tǒng)一資源定位符;以及 所述確定單元還用于, 根據(jù)所述域名中包括的內(nèi)容頁(yè)統(tǒng)一資源定位符數(shù)目、列表頁(yè)統(tǒng)一資源定位符的數(shù)目、每個(gè)類別的統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的被下載次數(shù)、與所述域名相對(duì)應(yīng)的垃圾統(tǒng)一資源定位符的數(shù)目中的至少一項(xiàng)信息,確定所述至少一個(gè)統(tǒng)一資源定位符所使用的域名的權(quán)重比。
【文檔編號(hào)】G06F17/30GK106033428SQ201510107097
【公開(kāi)日】2016年10月19日
【申請(qǐng)日】2015年3月11日
【發(fā)明人】曹六, 曹六一, 于曉明, 顏勇, 楊建武
【申請(qǐng)人】北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黄梅县| 普陀区| 延庆县| 通榆县| 马鞍山市| 营口市| 黄冈市| 芮城县| 革吉县| 东宁县| 张家口市| 九寨沟县| 建阳市| 达孜县| 广安市| 贡觉县| 大连市| 皋兰县| 宣武区| 历史| 海丰县| 阿尔山市| 周至县| 广东省| 临汾市| 东阳市| 西乡县| 岳普湖县| 万荣县| 鹤山市| 桂林市| 武义县| 米易县| 阳谷县| 武强县| 光泽县| 临西县| 黑河市| 镇康县| 奉新县| 龙海市|