欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于瀏覽器的網(wǎng)絡(luò)資源的提取方法及裝置制造方法

文檔序號(hào):6514593閱讀:355來(lái)源:國(guó)知局
基于瀏覽器的網(wǎng)絡(luò)資源的提取方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種基于瀏覽器的網(wǎng)絡(luò)資源的提取方法,其包括:從包含多個(gè)文檔消息的消息隊(duì)列中提取文檔消息或者接收通過(guò)任務(wù)調(diào)度方式所傳送的包含多個(gè)文檔消息的消息隊(duì)列中的文檔消息,其中每一文檔消息包含需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略;用瀏覽器將與所述文檔消息中包含的URL節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)打開(kāi);依照所述文檔消息中包含的所述操作策略對(duì)該網(wǎng)頁(yè)進(jìn)行操作;以及輸出對(duì)該網(wǎng)頁(yè)操作的操作結(jié)果。另外,本發(fā)明還公開(kāi)一種基于瀏覽器的網(wǎng)絡(luò)資源的提取裝置。利用本發(fā)明,可以借助瀏覽器對(duì)網(wǎng)絡(luò)技術(shù)高度支持的優(yōu)勢(shì),將復(fù)雜的http通訊過(guò)程、加密、JS事件等技術(shù)交給瀏覽器執(zhí)行,減少了用戶(hù)在網(wǎng)絡(luò)資源提取的操作過(guò)程中的時(shí)間。
【專(zhuān)利說(shuō)明】基于瀏覽器的網(wǎng)絡(luò)資源的提取方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),尤其涉及網(wǎng)絡(luò)資源的提取方法及裝置。
【背景技術(shù)】
[0002]目前,越來(lái)越多的網(wǎng)絡(luò)技術(shù)被廣泛應(yīng)用,例如目的在于節(jié)約開(kāi)發(fā)成本的異步請(qǐng)求處理技術(shù);通過(guò)JS或者cookie對(duì)資源的鏈接實(shí)施加密,目的在于防止網(wǎng)絡(luò)蜘蛛的抓取的鏈接加密技術(shù)等等。無(wú)論出于何種目的,對(duì)于這類(lèi)資源的抓取都有一定的難度,而且在無(wú)法破解加密算法的情況下,無(wú)法實(shí)現(xiàn)自動(dòng)化抓取工作。

【發(fā)明內(nèi)容】

[0003]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的網(wǎng)絡(luò)資源的提取方法及裝置。
[0004]依據(jù)本發(fā)明的一個(gè)方面,提供了網(wǎng)絡(luò)資源的提取方法,其包括:從包含多個(gè)文檔消息的消息隊(duì)列中提取文檔消息,其中每一文檔消息包含需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略;將與所述文檔消息中包含的URL節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)用瀏覽器打開(kāi);依照所述文檔消息中包含的所述操作策略對(duì)該網(wǎng)頁(yè)進(jìn)行操作;以及輸出對(duì)該網(wǎng)頁(yè)操作的操作結(jié)果。
[0005]依據(jù)本發(fā)明的另一個(gè)方面,提供了網(wǎng)絡(luò)資源的提取裝置,其包括:消息獲取模塊,其適于從多個(gè)文檔消息的消息隊(duì)列中提取文檔消息,其中每一文檔消息包含需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略;網(wǎng)頁(yè)打開(kāi)模塊,其適于將與所述文檔消息中包含的URL節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)用瀏覽器打開(kāi);網(wǎng)頁(yè)操作模塊,其適于依照所述文檔消息中包含的所述操作策略對(duì)該網(wǎng)頁(yè)進(jìn)行操作;以及結(jié)果輸出模塊,其適于輸出對(duì)該網(wǎng)頁(yè)操作的操作結(jié)果。
[0006]本發(fā)明的網(wǎng)絡(luò)資源的提取方法及裝置借助瀏覽器對(duì)網(wǎng)絡(luò)技術(shù)高度支持的優(yōu)勢(shì),將復(fù)雜的http通訊過(guò)程,加密,JS事件等技術(shù)交給瀏覽器執(zhí)行,節(jié)約了大量的人力。通過(guò)使用本發(fā)明,用戶(hù)只需專(zhuān)注于簡(jiǎn)單的人工瀏覽器操作,將操作步驟通過(guò)配置信息告知本發(fā)明的網(wǎng)絡(luò)資源的提取裝置或者通過(guò)本發(fā)明的網(wǎng)絡(luò)資源的提取方法來(lái)執(zhí)行,就可以獲取最終有效的網(wǎng)頁(yè)信息或資源。另外,本發(fā)明對(duì)網(wǎng)絡(luò)爬蟲(chóng)復(fù)雜網(wǎng)頁(yè)及資源的抓取自動(dòng)化提供了基礎(chǔ)。
[0007]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0008]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:[0009]圖1示出了根據(jù)本發(fā)明的一種實(shí)施方式的基于瀏覽器的網(wǎng)絡(luò)資源的提取方法的流程圖;
[0010]圖2示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的基于瀏覽器的網(wǎng)絡(luò)資源的提取裝置的方框示意圖。
【具體實(shí)施方式】
[0011]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0012]在現(xiàn)有的網(wǎng)絡(luò)資源下載技術(shù)中,由于網(wǎng)頁(yè)或者資源采用了異步請(qǐng)求處理技術(shù)、或者通過(guò)JS或cookie對(duì)網(wǎng)頁(yè)或資源的鏈接進(jìn)行加密等技術(shù),一方面,常用的curl, urllib,socket等網(wǎng)絡(luò)技術(shù)采用直接下載的方式將無(wú)法獲取網(wǎng)頁(yè)信息或資源的網(wǎng)絡(luò)鏈接;另一方面,需要逐個(gè)分析http通訊協(xié)議,加密算法等等,耗費(fèi)大量的人力,且存在無(wú)法破解的風(fēng)險(xiǎn),極其不利于生產(chǎn)流程的自動(dòng)化。
[0013]由于瀏覽器具有對(duì)網(wǎng)絡(luò)技術(shù)高度支持的優(yōu)勢(shì),其支持異步請(qǐng)求處理技術(shù)以及在打開(kāi)網(wǎng)頁(yè)時(shí)能夠自動(dòng)解密并加載網(wǎng)頁(yè)資源,所以通過(guò)瀏覽器能夠直接獲取網(wǎng)頁(yè)信息或資源的網(wǎng)絡(luò)鏈接。因此,本發(fā)明提出了一種網(wǎng)絡(luò)資源的提取方法和裝置,其借助于瀏覽器、按照定制步驟獲取最終的有效的網(wǎng)絡(luò)信息或資源。
[0014]圖1示出了根據(jù)本發(fā)明的一種實(shí)施方式的網(wǎng)絡(luò)資源的提取方法。
[0015]如圖1所示,首先,在步驟S110,從包含多個(gè)文檔消息的消息隊(duì)列中提取文檔消息或者接收通過(guò)任務(wù)調(diào)度的方式所傳送的包含多個(gè)文檔消息的消息隊(duì)列中的文檔消息,其中每一文檔消息包含需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略。所述文檔消息可以由XML、JS0N、或protobuf來(lái)創(chuàng)建。其中protobuf是google定義的序列化格式,可以用于編制文檔消息。所述對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略可以包括對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作步驟,其中每一操作步驟對(duì)應(yīng)于XML、JS0N、或protobuf的一個(gè)OPTION節(jié)點(diǎn),每個(gè)OPTION節(jié)點(diǎn)包括如下屬性:對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式;和對(duì)網(wǎng)頁(yè)進(jìn)行操作的部分。其中所述對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式可以根據(jù)需要設(shè)置包括點(diǎn)擊鼠標(biāo)左鍵;點(diǎn)擊鼠標(biāo)右鍵;下載文件;以及獲取網(wǎng)頁(yè)的DOM結(jié)構(gòu)。所述對(duì)網(wǎng)頁(yè)進(jìn)行操作的部分包括在網(wǎng)頁(yè)上點(diǎn)擊的坐標(biāo)、點(diǎn)擊的控件名稱(chēng)、或記錄的點(diǎn)擊的URL。
[0016]下面具體描述如何用XML文檔創(chuàng)建文檔消息。
[0017]當(dāng)用戶(hù)想對(duì)某一網(wǎng)站的網(wǎng)頁(yè)進(jìn)行某一操作時(shí),例如從某一網(wǎng)站上下載資源、對(duì)網(wǎng)頁(yè)進(jìn)行渲染等,可以根據(jù)該網(wǎng)站中網(wǎng)頁(yè)的特點(diǎn)、按照用戶(hù)對(duì)網(wǎng)頁(yè)的真實(shí)操作步驟編制XML文檔。在該XML文檔中,存儲(chǔ)了用戶(hù)需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)網(wǎng)頁(yè)進(jìn)行操作的操作步驟,其中每一操作步驟對(duì)應(yīng)于XML的一個(gè)OPTION節(jié)點(diǎn),每個(gè)OPTION節(jié)點(diǎn)可以具有以下屬性:
[0018]〈1>對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式type,其中可以設(shè)置:
[0019]O代表鼠標(biāo)左鍵點(diǎn)擊,其只是一個(gè)點(diǎn)擊的操作,可以用于得到網(wǎng)頁(yè)的渲染結(jié)果、打開(kāi)網(wǎng)頁(yè)、觸發(fā)JS事件等等;[0020]I代表鼠標(biāo)右鍵點(diǎn)擊,其只是一個(gè)點(diǎn)擊的操作,通常操作時(shí)會(huì)彈出一個(gè)菜單;
[0021]2代表下載文件,其用于執(zhí)行下載操作,例如,在鼠標(biāo)右鍵點(diǎn)擊而彈出的菜單中選擇“目標(biāo)另存為”選項(xiàng),即可執(zhí)行下載操作;
[0022]3代表獲取網(wǎng)頁(yè)的DOM結(jié)構(gòu),其主要在想得到某個(gè)網(wǎng)頁(yè)的渲染結(jié)果時(shí)使用。
[0023]以上給出的對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式type都是普通的用戶(hù)操作,也可以根據(jù)需要設(shè)置包括其它的用戶(hù)操作。
[0024]這里舉一個(gè)通過(guò)設(shè)置XML獲取網(wǎng)頁(yè)的渲染結(jié)果的例子。當(dāng)用戶(hù)需要獲得頁(yè)面A(A即該頁(yè)面的URL)上的信息時(shí),只有在點(diǎn)擊控件H后,才能獲取,這時(shí)人工操作所需的步驟如下:
[0025]al)左鍵單擊A頁(yè)面上的控件H,這時(shí)該控件會(huì)執(zhí)行js,改變網(wǎng)頁(yè)的DOM結(jié)構(gòu)。
[0026]bl)獲取A頁(yè)面的渲染結(jié)果(經(jīng)過(guò)al)操作后的結(jié)果)。
[0027]這時(shí)對(duì)應(yīng)上述人工操作的步驟,用XML編制相應(yīng)的文檔消息如下:
[0028](I)設(shè)置的URL節(jié)點(diǎn)為A ;
[0029](2)對(duì)網(wǎng)頁(yè)A進(jìn)行操作的操作步驟:
[0030]操作步驟一:對(duì)應(yīng)于上述人工操作的實(shí)際步驟al),在用XML編制時(shí),option設(shè)置為:type = O ;click_info =控件H的名稱(chēng),具體編制成如下形式:
[0031]
【權(quán)利要求】
1.一種基于瀏覽器的網(wǎng)絡(luò)資源的提取方法,包括: 從包含多個(gè)文檔消息的消息隊(duì)列中提取文檔消息或者接收通過(guò)任務(wù)調(diào)度方式所傳送的包含多個(gè)文檔消息的消息隊(duì)列中的文檔消息,其中每一文檔消息包含需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略; 用瀏覽器將與所述文檔消息中包含的URL節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)打開(kāi); 依照所述文檔消息中包含的所述操作策略對(duì)該網(wǎng)頁(yè)進(jìn)行操作;以及 輸出對(duì)該網(wǎng)頁(yè)操作的操作結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中, 所述文檔消息由XML、JSON、或protobuf來(lái)創(chuàng)建。
3.根據(jù)權(quán)利要求2所述的方法,其中, 所述對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略包括對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作步驟,其中每一操作步驟對(duì)應(yīng)于XML、JS0N、或protobuf的一個(gè)OPTION節(jié)點(diǎn),每個(gè)OPTION節(jié)點(diǎn)包括如下屬性:對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式;以及對(duì)網(wǎng)頁(yè)進(jìn)行操作的部分。
4.根據(jù)權(quán)利要求3所述的方法,其中, 所述對(duì)網(wǎng)頁(yè)進(jìn)行的操 作方式包括: 點(diǎn)擊鼠標(biāo)左鍵; 點(diǎn)擊鼠標(biāo)右鍵; 下載文件;以及 獲取網(wǎng)頁(yè)的DOM結(jié)構(gòu)。
5.根據(jù)權(quán)利要求3或4所述的方法,其中, 所述對(duì)網(wǎng)頁(yè)進(jìn)行操作的部分包括在網(wǎng)頁(yè)上點(diǎn)擊的坐標(biāo)、點(diǎn)擊的控件名稱(chēng)、或記錄的點(diǎn)擊的URL。
6.根據(jù)權(quán)利要求1-5中任何一項(xiàng)所述的方法,其中, 所述輸出對(duì)該網(wǎng)頁(yè)操作的操作結(jié)果包括: 將操作結(jié)果進(jìn)行編碼,存儲(chǔ)至XML、JS0N、或protobuf的結(jié)果節(jié)點(diǎn)中; 輸出 XML、JS0N、或 protobuf 文件。
7.一種基于瀏覽器的網(wǎng)絡(luò)資源的提取裝置,包括: 消息獲取模塊,其適于從多個(gè)文檔消息的消息隊(duì)列中提取文檔消息或者接收通過(guò)任務(wù)調(diào)度的方式所傳送的包含多個(gè)文檔消息的消息隊(duì)列中的文檔消息,其中每一文檔消息包含需要操作的網(wǎng)頁(yè)的URL節(jié)點(diǎn)以及對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略; 網(wǎng)頁(yè)打開(kāi)模塊,其適于將與所述文檔消息中包含的URL節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)用瀏覽器打開(kāi); 網(wǎng)頁(yè)操作模塊,其適于依照所述文檔消息中包含的所述操作策略對(duì)該網(wǎng)頁(yè)進(jìn)行操作;以及 結(jié)果輸出模塊,其適于輸出對(duì)該網(wǎng)頁(yè)操作的操作結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,其中, 所述文檔消息由XML、JS0N、或protobuf來(lái)創(chuàng)建。
9.根據(jù)權(quán)利要求8所述的裝置,其中,所述對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作策略包括對(duì)該網(wǎng)頁(yè)進(jìn)行操作的操作步驟,其中每一操作步驟對(duì)應(yīng)于XML、JSON、或protobuf的一個(gè)OPTION節(jié)點(diǎn),每個(gè)OPTION節(jié)點(diǎn)包括如下屬性:對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式;以及對(duì)網(wǎng)頁(yè)進(jìn)行操作的部分。
10.根據(jù)權(quán)利要求9所述的裝置,其中, 所述對(duì)網(wǎng)頁(yè)進(jìn)行的操作方式包括: 點(diǎn)擊鼠標(biāo)左鍵; 點(diǎn)擊鼠標(biāo)右鍵; 下載文件;以及 獲取網(wǎng)頁(yè)的DOM結(jié)構(gòu)?!?br> 【文檔編號(hào)】G06F17/30GK103593396SQ201310464253
【公開(kāi)日】2014年2月19日 申請(qǐng)日期:2013年10月8日 優(yōu)先權(quán)日:2013年10月8日
【發(fā)明者】徐銳波 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
广元市| 运城市| 龙游县| 舒城县| 龙泉市| 襄樊市| 任丘市| 凌海市| 孝义市| 清镇市| 柯坪县| 紫阳县| 武穴市| 出国| 甘孜县| 乐平市| 乡宁县| 桂林市| 侯马市| 会理县| 米脂县| 阿尔山市| 衡阳县| 临澧县| 乡城县| 武穴市| 宁都县| 秀山| 洱源县| 靖安县| 赤城县| 太保市| 上犹县| 炉霍县| 马公市| 金平| 惠安县| 博野县| 禹州市| 卓资县| 临沂市|