欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

電子報(bào)抓取方法和裝置與流程

文檔序號:11829842閱讀:244來源:國知局
電子報(bào)抓取方法和裝置與流程

本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種電子報(bào)抓取方法和裝置。



背景技術(shù):

隨著通訊技術(shù)的迅猛發(fā)展,數(shù)字期刊、雜志等已逐漸取代傳統(tǒng)的紙質(zhì)報(bào)紙和雜志。發(fā)布在網(wǎng)絡(luò)上的電子化的報(bào)紙通常稱為電子報(bào)。

目前針對網(wǎng)站的抓取技術(shù)已經(jīng)非常成熟,各種各樣的網(wǎng)站抓取工具以及爬蟲,都可以很好的對網(wǎng)站的內(nèi)容進(jìn)行抓取。但是由于電子報(bào)通常具有報(bào)紙-疊-版面-新聞的結(jié)構(gòu)形式,普通的網(wǎng)站抓取方法可以將電子報(bào)網(wǎng)站上的新聞內(nèi)容抓取下來,可是對于該新聞屬于哪個版面、那個疊以及該電子報(bào)的結(jié)構(gòu)等信息,則無法抓取或者沒有進(jìn)行組織。因此,現(xiàn)有的抓取技術(shù)無法針對電子報(bào)的特性進(jìn)行有效、完整的信息抓取,使得對電子報(bào)相關(guān)的數(shù)據(jù)分析受到很大的局限性。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供一種電子報(bào)抓取方法和裝置,用于解決現(xiàn)有技術(shù)無法對電子報(bào)信息進(jìn)行有效、完整的抓取,使得對電子報(bào)數(shù)據(jù)的分析、展示和再利用受到局限的問題。

本發(fā)明的第一個方面是提供一種電子報(bào)抓取方法,包括:

接收抓取請求,所述抓取請求中包括待抓取電子報(bào)的標(biāo)識;

獲取與所述電子報(bào)的標(biāo)識對應(yīng)電子報(bào)總覽頁的源碼;

從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的疊信息及版面列表;

從所述版面列表中各個版面的源碼中抓取各個版面的信息,所述版面的信息包括版面的圖及版面中的新聞稿件;

從所述新聞稿件的源碼中抓取所述新聞稿件的信息;

將所述電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的 信息進(jìn)行整合并輸出。

本發(fā)明的另一個方面是提供一種電子報(bào)抓取裝置,包括:

接收模塊,用于接收抓取請求,所述抓取請求中包括待抓取電子報(bào)的標(biāo)識;

處理模塊,用于獲取與所述電子報(bào)的標(biāo)識對應(yīng)電子報(bào)總覽頁的源碼;

抓取模塊,用于從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的疊信息及版面列表;

所述抓取模塊,還用于從所述版面列表中各個版面的源碼中抓取各個版面的信息,所述版面的信息包括版面的圖及版面中的新聞稿件;

所述抓取模塊,還用于從所述新聞稿件的源碼中抓取所述新聞稿件的信息;

輸出模塊,用于將所述電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出。

本發(fā)明提供的電子報(bào)抓取方法和裝置,電子報(bào)抓取裝置在收到抓取請求后,首先根據(jù)待抓取電子報(bào)的標(biāo)識獲取待抓取電子報(bào)的總覽頁源碼,對總覽頁源碼進(jìn)行分析抓取電子報(bào)的疊信息及版面列表,再對版面列表中各個版面的源碼進(jìn)行分析抓取電子報(bào)的版面信息,再通過對版面中的新聞稿件的源碼進(jìn)行分析后抓取新聞稿件的信息,最后再對電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出。本電子報(bào)抓取方法可以有效的根據(jù)電子報(bào)的特性對電子報(bào)信息進(jìn)行完整的抓取,方便了用戶對電子報(bào)數(shù)據(jù)的分析和再利用,提高了對電子報(bào)分析的效率。

附圖說明

圖1為本發(fā)明提供的一種電子報(bào)抓取方法實(shí)施例一的流程示意圖;

圖2為某期北京青年報(bào)總覽頁示意圖;

圖3為本發(fā)明提供的一種電子報(bào)抓取方法實(shí)施例二的流程示意圖;

圖4為本發(fā)明提供的一種電子報(bào)抓取裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

圖1為本發(fā)明提供的一種電子報(bào)抓取方法實(shí)施例一的流程示意圖。如圖 1所示,該方法包括:

S100,接收抓取請求,所述抓取請求中包括待抓取電子報(bào)的標(biāo)識。

本方法實(shí)施例由本發(fā)明實(shí)施例提供的電子報(bào)抓取裝置執(zhí)行,電子報(bào)抓取裝置可以集成在服務(wù)器中,也可以與服務(wù)器獨(dú)立設(shè)置,由服務(wù)器在收到電子報(bào)抓取請求后,將電子報(bào)抓取請求轉(zhuǎn)發(fā)給電子報(bào)抓取裝置。本實(shí)施例對此不做限定。

本實(shí)施例中,抓取請求是由用戶觸發(fā)的,比如用戶通過輸入電子報(bào)的名稱或者電子報(bào)的網(wǎng)址觸發(fā)對該電子報(bào)的抓取請求。相應(yīng)的,待抓取電子報(bào)的標(biāo)識,可以為待抓取電子報(bào)的名稱或待抓取電子報(bào)的網(wǎng)址等。

S101,獲取與所述電子報(bào)的標(biāo)識對應(yīng)電子報(bào)總覽頁的源碼。

具體的,若上述電子報(bào)的標(biāo)識為電子報(bào)的名稱,則上述S101包括:查詢電子報(bào)名稱與電子報(bào)總覽頁網(wǎng)址的映射關(guān)系表,確定所述電子報(bào)標(biāo)識對應(yīng)的電子報(bào)總覽頁的網(wǎng)址。例如,用戶輸入的電子報(bào)標(biāo)識為“北京青年報(bào)”,則電子報(bào)抓取裝置通過查詢電子報(bào)名稱與電子報(bào)總覽頁網(wǎng)址的映射關(guān)系表,確定“北京青年報(bào)”的總覽頁網(wǎng)址為http://bjyouth.ynet.com/,之后可對該頁進(jìn)行分析,從而獲得該頁的源碼。其中,電子報(bào)總覽頁可以為電子報(bào)的首頁,也可以為包括該電子報(bào)的疊及版面列表信息的任何一頁,即若電子報(bào)的疊及版面列表信息僅在首頁中顯示,則總覽頁指電子報(bào)的首頁,若電子報(bào)的任何一頁中都有該報(bào)的疊及版面列表信息,則可以定義任何一頁為該電子報(bào)的總覽頁。本發(fā)明各實(shí)施例中以電子報(bào)首頁為總覽頁為例進(jìn)行說明。

S102,從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的疊信息及版面列表。

具體的,電子報(bào)抓取裝置在獲取電子報(bào)總覽頁的源碼后,首先通過分析,確定該電子報(bào)包括幾個疊,及每個疊中包括幾個版面,如圖2為某期北京青年報(bào)總覽頁示意圖。下文為某期北京青年報(bào)的總覽頁的部分源碼。

<!DOCTYPE HTML PUBLIC"-//W3C//DTD XHTML 1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml"><head>

<title>北京青年報(bào)電子版</title>

<meta http-equiv="Content-Type"content="text/html;charset=utf-8"/>

<meta name="robots"content="index,follow"/>

<meta name="googlebot"content="index,follow"/>

<meta name="keywords"content="北京青年報(bào)報(bào),電子報(bào),北京,新聞突發(fā)事件"/>

<meta name="description"content=""/>

<meta content=""name="author">

其中,電子報(bào)版面列表與電子報(bào)版面的網(wǎng)址相關(guān)聯(lián),電子報(bào)抓取裝置可通過電子報(bào)的版面列表獲中的各個版面標(biāo)題打開該版面對應(yīng)的網(wǎng)址,進(jìn)而通過對該版面網(wǎng)頁的分析獲得該版面對應(yīng)的源碼。

進(jìn)一步地,若上述S100中電子報(bào)的標(biāo)識為待抓取電子報(bào)的網(wǎng)址,則上述S102包括:從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的名稱。

S103,從所述版面列表中各個版面的源碼中抓取各個版面的信息,所述版面的信息包括版面的圖及版面中的新聞稿件。

具體的,電子報(bào)抓取裝置通過對版面源碼進(jìn)行分析,抓取到該版面的圖及該版面中的新聞稿件。其中,該版面中的新聞稿件指該版面中新聞的標(biāo)題或名稱。

S104,從所述新聞稿件的源碼中抓取所述新聞稿件的信息。

具體的,電子報(bào)抓取裝置在對版面源碼進(jìn)行分析抓取該版面中的新聞稿件后,繼續(xù)對該版面的源碼進(jìn)行分析,從中抓取該版面包括的新聞稿件的網(wǎng)址,并打開對應(yīng)的新聞稿件的網(wǎng)址以獲取新聞稿件的源碼,進(jìn)而獲得該新聞稿件的信息,比如新聞稿件的圖片、標(biāo)題、時(shí)間、正文等等。

S105,將所述電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出。

電子報(bào)抓取裝置在抓取到新聞稿件的信息后,即可對抓取的內(nèi)容進(jìn)行整合,將電子報(bào)中的新聞稿件以新聞稿件、該新聞稿件所屬的版面、該版面所屬的疊等信息的形式輸出,使得用戶不僅可以清楚的看到待抓取的電子報(bào)的各個新聞稿件的內(nèi)容,還能清楚的確定該新聞稿件在該電子報(bào)中的“位置”,即該新聞稿件在電子報(bào)中的那一疊、那一版面,并且通過版面的圖可以清晰的確定該新聞在該版面中的放置位置。

具體的,電子報(bào)抓取裝置在顯示整合后的電子報(bào)時(shí),可以根據(jù)用戶需要, 將電子報(bào)的結(jié)構(gòu)形式、電子報(bào)的版面圖和新聞圖片及新聞稿件的內(nèi)容依次單獨(dú)顯示,例如,首先顯示電子報(bào)的疊、版面、新聞稿件的結(jié)構(gòu)形式,然后再顯示電子報(bào)中的各個新聞稿件的相關(guān)信息,以方便用戶更直觀的獲得相關(guān)信息。

本實(shí)施例提供的電子報(bào)抓取方法,電子報(bào)抓取裝置在收到抓取請求后,首先根據(jù)待抓取電子報(bào)的標(biāo)識獲取待抓取電子報(bào)的總覽頁源碼,對總覽頁源碼進(jìn)行分析抓取電子報(bào)的疊信息及版面列表,再對版面列表中各個版面的源碼進(jìn)行分析抓取電子報(bào)的版面信息,再通過對版面中的新聞稿件的源碼進(jìn)行分析后抓取新聞稿件的信息,最后再對電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出。本電子報(bào)抓取方法可以有效的根據(jù)電子報(bào)的特性對電子報(bào)信息進(jìn)行完整的抓取,方便了用戶對電子報(bào)數(shù)據(jù)的分析和再利用,提高了對電子報(bào)分析的效率。

圖3為本發(fā)明提供的電子報(bào)數(shù)據(jù)抓取方法實(shí)施例二的流程示意圖。如圖3所示,該電子報(bào)數(shù)據(jù)抓取方法包括:

S300,接收抓取請求,所述抓取請求中包括待抓取電子報(bào)的標(biāo)識。

S301,獲取與所述電子報(bào)的標(biāo)識對應(yīng)電子報(bào)總覽頁的源碼。

S302,從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的疊信息及版面列表。

上述S300~S302可參照上述S100~S101的詳細(xì)描述,此處不再贅述。

S303,根據(jù)所述各個版面的源碼中的熱區(qū)源碼,確定各個版面中新聞稿件的第一信息,所述第一信息包括所述各個版面中新聞稿件的第一數(shù)量。

具體的,版面的源碼中包括熱區(qū)源碼。熱區(qū)是指熱區(qū)就是各個版面中進(jìn)行了鏈接的一個個區(qū)域。即在一個版面里面表面上看上去是一張整體的圖,但是實(shí)際上后臺用切割的方式切割成一塊一塊的不同的鏈接區(qū)域,即不同的熱區(qū)。從版面的熱區(qū)源碼中可以分析出該版面包括的新聞稿件的數(shù)量。

S304,根據(jù)所述各個版面網(wǎng)址源碼中的頁面鏈接源碼,確定各個版面中新聞稿件的第二信息,所述第二信息包括各個版面中新聞稿件的第二數(shù)量。

版面的源碼中也包括頁面鏈接源碼。根據(jù)版面的頁面鏈接源碼也可以分析出該版面中的新聞稿件的數(shù)量。

S305,比較所述第一數(shù)量與第二數(shù)量是否相同,若相同則執(zhí)行S306,否 則執(zhí)行S307。

S306,則根據(jù)所述各個版面的源碼中的所述熱區(qū)源碼或頁面鏈接源碼確定所述各個版面中的新聞稿件的網(wǎng)址源碼。

即上述S306即可以為根據(jù)所述各個版面源碼中的頁面鏈接源碼,確定各個版面中新聞稿件的網(wǎng)址源碼,也可以根據(jù)各個版面源碼中的熱區(qū)源碼,確定各個版面中新聞稿件的網(wǎng)址源碼。本實(shí)施例對此不做限定。

S307,根據(jù)所述各個版面的源碼中的熱區(qū)源碼,確定各個版面中新聞稿件的第一網(wǎng)址源碼。

S308,根據(jù)所述各個版面源碼中的頁面鏈接源碼,確定各個版面中新聞稿件的第二網(wǎng)址源碼。

S309,將第一網(wǎng)址源碼和第二網(wǎng)址源碼中包括的所有網(wǎng)址源碼確定為所述各版面中新聞稿件的網(wǎng)址源碼。

特別的,在對電子報(bào)版面的源碼進(jìn)行抓取時(shí),還可以在上述S302后不執(zhí)行上述S303-S306的過程,而直接執(zhí)行S307-S308,并比較所述第一網(wǎng)址源碼與第二網(wǎng)址源碼是否匹配,若匹配則執(zhí)行上述S306,否則執(zhí)行S309。

電子報(bào)抓取裝置再根據(jù)確定的新聞稿件的網(wǎng)址源碼獲取對應(yīng)的新聞稿件頁,從而獲取新聞稿件的源碼。

S310,從所述新聞稿件的源碼中抓取所述新聞稿件的信息。

S311將所述電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出。

本實(shí)施例提供的電子報(bào)抓取方法,電子報(bào)抓取裝置在收到抓取請求后,首先根據(jù)待抓取電子報(bào)的標(biāo)識獲取待抓取電子報(bào)的總覽頁源碼,對總覽頁源碼進(jìn)行分析抓取電子報(bào)的疊信息及版面列表,再對版面列表中各個版面的源碼中的熱區(qū)源碼和頁面鏈接源碼進(jìn)行分析和對比,從而確定電子報(bào)的版面信息,再通過對版面中的新聞稿件的源碼進(jìn)行分析后抓取新聞稿件的信息,最后再對電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出,使得電子報(bào)的抓取更完整。本電子報(bào)抓取方法可以有效的根據(jù)電子報(bào)的特性對電子報(bào)信息進(jìn)行完整的抓取,方便了用戶對電子報(bào)數(shù)據(jù)的分析和再利用,提高了對電子報(bào)分析的效率。

圖4為本發(fā)明提供的一種電子報(bào)抓取裝置的結(jié)構(gòu)示意圖。如圖4所示, 該跨版頁面顯示裝置40包括:接收模塊401,處理模塊402,抓取模塊403,輸出模塊404。

其中,接收模塊401用于接收抓取請求,所述抓取請求中包括待抓取電子報(bào)的標(biāo)識;處理模塊402用于獲取與所述電子報(bào)的標(biāo)識對應(yīng)電子報(bào)總覽頁的源碼;抓取模塊403用于從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的疊信息及版面列表;所述抓取模塊403還用于從所述版面列表中各個版面的源碼中抓取各個版面的信息,所述版面的信息包括版面的圖及版面中的新聞稿件;所述抓取模塊403還用于從所述新聞稿件的源碼中抓取所述新聞稿件的信息;輸出模塊404用于將所述電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出。

具體的,上述抓取模塊403具體用于:

根據(jù)所述各個版面的源碼中的熱區(qū)源碼,確定各個版面中新聞稿件的第一信息,所述第一信息包括所述各個版面中新聞稿件的第一數(shù)量;

根據(jù)所述各個版面網(wǎng)址源碼中的頁面鏈接源碼,確定各個版面中新聞稿件的第二信息,所述第二信息包括各個版面中新聞稿件的第二數(shù)量;

比較所述第一數(shù)量與第二數(shù)量是否相同;

若相同,則根據(jù)所述各個版面的源碼中的所述熱區(qū)源碼或頁面鏈接源碼確定所述各個版面中的新聞稿件的網(wǎng)址源碼。

或者,上述抓取模塊403具體用于:根據(jù)所述各個版面的源碼中的熱區(qū)源碼,確定各個版面中新聞稿件的第一網(wǎng)址源碼;

根據(jù)所述各個版面源碼中的頁面鏈接源碼,確定各個版面中新聞稿件的第二網(wǎng)址源碼;

比較所述第一網(wǎng)址源碼與第二網(wǎng)址源碼是否匹配;

若匹配,則確定所述各個版面中的新聞稿件的網(wǎng)址源碼為所述第一網(wǎng)址源碼或第二網(wǎng)址源碼。

若不匹配,則將所述第一網(wǎng)址源碼和第二網(wǎng)址源碼中包括的所有網(wǎng)址源碼確定為所述各版面中新聞稿件的網(wǎng)址源碼。

進(jìn)一步地,若上述待抓取電子報(bào)的標(biāo)識為待抓取電子報(bào)的網(wǎng)址,則上述抓取模塊403還用于:從所述電子報(bào)總覽頁的源碼中抓取所述電子報(bào)的名稱、疊信息及版面列表。

本實(shí)施例提供的電子報(bào)抓取裝置中各模塊的功能和處理流程可參照上述電子報(bào)抓取方法實(shí)施例一和實(shí)施例二的詳細(xì)描述,此處不再贅述。

本實(shí)施例提供的電子報(bào)抓取裝置裝置,電子報(bào)抓取裝置在收到抓取請求后,首先根據(jù)待抓取電子報(bào)的標(biāo)識獲取待抓取電子報(bào)的總覽頁源碼,對總覽頁源碼進(jìn)行分析抓取電子報(bào)的疊信息及版面列表,再對版面列表中各個版面的源碼中的熱區(qū)源碼和頁面鏈接源碼進(jìn)行分析和對比,從而確定電子報(bào)的版面信息,再通過對版面中的新聞稿件的源碼進(jìn)行分析后抓取新聞稿件的信息,最后再對電子報(bào)的各個新聞稿件的信息、新聞稿件所屬的版面信息及疊的信息進(jìn)行整合并輸出,使得電子報(bào)的抓取更完整,該電子報(bào)抓取裝置可以有效的根據(jù)電子報(bào)的特性對電子報(bào)信息進(jìn)行完整的抓取,方便了用戶對電子報(bào)數(shù)據(jù)的分析和再利用,提高了對電子報(bào)分析的效率。

本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
谷城县| 洛浦县| 普兰店市| 德格县| 休宁县| 南木林县| 聊城市| 福建省| 武乡县| 聂荣县| 区。| 白银市| 尉氏县| 屏山县| 扬州市| 定安县| 大丰市| 新绛县| 镇巴县| 积石山| 阳谷县| 卓尼县| 江华| 高安市| 长泰县| 驻马店市| 台湾省| 图片| 寻甸| 德钦县| 苍南县| 临夏县| 廉江市| 连城县| 延安市| 海兴县| 阳原县| 南汇区| 曲阳县| 景东| 铁岭县|