一種網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法,以操作者訪問(wèn)網(wǎng)絡(luò)服務(wù)為入口,選取一個(gè)或多個(gè)網(wǎng)絡(luò)服務(wù)作為訓(xùn)練庫(kù),通過(guò)采集操作者對(duì)網(wǎng)絡(luò)服務(wù)操作的行為集合和網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù),并分析其行為特征與網(wǎng)絡(luò)服務(wù)結(jié)構(gòu)特征的關(guān)聯(lián)性,進(jìn)而快速構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)的模板。較之于傳統(tǒng)手段,該方法不僅能快速生成通用模板,而且可進(jìn)一步提升采用該通用模板的網(wǎng)絡(luò)數(shù)據(jù)爬蟲(chóng)的整體效率、覆蓋度和準(zhǔn)確度。
【專利說(shuō)明】一種網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別是涉及一種網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)爬蟲(chóng),是一種按照既定規(guī)則,自動(dòng)抓取網(wǎng)絡(luò)信息的程序或腳本。隨著互聯(lián)網(wǎng)的深入發(fā)展,尤其是承載多元信息網(wǎng)頁(yè)數(shù)目的不斷增長(zhǎng),使信息整合梳理角色的搜索引擎面臨著技術(shù)不斷革新的需求。同時(shí),網(wǎng)絡(luò)安全的日趨嚴(yán)峻也促使Web掃描技術(shù)需要更為高效、普適的解決方案,而它們重要組成技術(shù):網(wǎng)絡(luò)爬蟲(chóng),其發(fā)展進(jìn)步則對(duì)以上【技術(shù)領(lǐng)域】起到深遠(yuǎn)的影響和直接的推動(dòng)。從早期的對(duì)以HTML為代表的靜態(tài)網(wǎng)頁(yè)抓取,一直到對(duì)ASP、PHP等動(dòng)態(tài)交互式網(wǎng)站的有效獲得,其采用的抓取思想多種多樣,諸如基于網(wǎng)頁(yè)特征、基于數(shù)據(jù)模式、基于領(lǐng)域等,而技術(shù)的選擇更是汗牛充棟,從傳統(tǒng)的正則表達(dá)式一直到現(xiàn)今的模擬瀏覽器解決方案等,不一而足。
[0003]網(wǎng)絡(luò)爬蟲(chóng)效率、覆蓋度和準(zhǔn)確性一直是當(dāng)今研究的熱點(diǎn),這些因素制約著爬蟲(chóng)技術(shù)的進(jìn)一步發(fā)展,當(dāng)今的解決方案往往顧此失彼,很難同時(shí)保證三者的效能平衡。隨著技術(shù)的革新和進(jìn)步,模板化網(wǎng)絡(luò)爬蟲(chóng)為此提供了良好的解決方案,在目標(biāo)網(wǎng)絡(luò)服務(wù)數(shù)量較少時(shí),可有效生成不同的爬蟲(chóng)模板,并在此基礎(chǔ)上為網(wǎng)絡(luò)爬蟲(chóng)提升了效能。但面對(duì)海量的網(wǎng)絡(luò)服務(wù)時(shí),傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)模板卻面臨生成速度低下,模板智能化程度低的問(wèn)題,進(jìn)而制約了網(wǎng)絡(luò)爬蟲(chóng)效能的進(jìn)一步提升。
【發(fā)明內(nèi)容】
[0004]針對(duì)以上技術(shù)問(wèn)題,本發(fā)明以操作者訪問(wèn)網(wǎng)絡(luò)服務(wù)為入口,選取一個(gè)或多個(gè)網(wǎng)絡(luò)服務(wù)作為訓(xùn)練庫(kù),通過(guò)采集操作者對(duì)網(wǎng)絡(luò)服務(wù)操作的行為集合和網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù),并分析其行為特征與網(wǎng)絡(luò)服務(wù)結(jié)構(gòu)特征的關(guān)聯(lián)性,快速構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)的模板。較之于傳統(tǒng)手段,該方法不僅能快速生成通用模板,而且可進(jìn)一步提升采用該通用模板的網(wǎng)絡(luò)數(shù)據(jù)爬蟲(chóng)的整體效率、覆蓋度和準(zhǔn)確度。
[0005]本發(fā)明基于以下步驟實(shí)施:
[0006]1、操作者訪問(wèn)網(wǎng)絡(luò)服務(wù);
[0007]2、選取一個(gè)或多個(gè)網(wǎng)絡(luò)服務(wù)作為訓(xùn)練庫(kù),進(jìn)行數(shù)據(jù)采集;
[0008]3、對(duì)采集的數(shù)據(jù)進(jìn)行特征關(guān)聯(lián);
[0009]4、構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)的通用模板。
[0010]進(jìn)一步的,所述網(wǎng)絡(luò)服務(wù)是指在計(jì)算機(jī)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)應(yīng)用層及其上層運(yùn)行的應(yīng)用,它提供的數(shù)據(jù)存儲(chǔ),處理,演示,通信或其他功能通常用于執(zhí)行基于應(yīng)用層網(wǎng)絡(luò)協(xié)議的客戶端-服務(wù)端或點(diǎn)對(duì)點(diǎn)的相關(guān)架構(gòu),包含但不限于各類網(wǎng)站瀏覽、網(wǎng)絡(luò)購(gòu)物、網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)商務(wù)、網(wǎng)絡(luò)政務(wù)、網(wǎng)絡(luò)金融等。
[0011 ] 進(jìn)一步的,所述數(shù)據(jù)采集是指采集操作者行為集合和網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù)。
[0012]進(jìn)一步的,所述操作者行為集合是指包含但不限于操作者在訪問(wèn)網(wǎng)絡(luò)服務(wù)時(shí)所產(chǎn)生的網(wǎng)站點(diǎn)擊、應(yīng)用使用、頁(yè)面瀏覽、鼠標(biāo)行為、鍵盤(pán)行為、人工標(biāo)記、表單填充、網(wǎng)址切換、頁(yè)面停留、軟件行為等所產(chǎn)生的一個(gè)或多個(gè)交互行為。包含但不限于操作者自身生理、心理反應(yīng):如眼動(dòng)反應(yīng)、心率、表情、腦電波等一個(gè)或多個(gè)外在行為狀態(tài)屬性的捕捉或數(shù)字量化。
[0013]進(jìn)一步的,所述網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù)是指由于操作者對(duì)網(wǎng)絡(luò)服務(wù)的訪問(wèn)而產(chǎn)生網(wǎng)絡(luò)通信數(shù)據(jù),包含但不限于信令傳輸、數(shù)據(jù)傳輸、協(xié)議建立等。
[0014]進(jìn)一步的,所述特征關(guān)聯(lián)是指操作者行為特征與網(wǎng)路服務(wù)結(jié)構(gòu)特征進(jìn)行關(guān)聯(lián)。
【專利附圖】
【附圖說(shuō)明】
[0015]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體說(shuō)明。
[0016]圖1為本發(fā)明總體框架圖
【具體實(shí)施方式】
[0017]本方法可由多種方式實(shí)現(xiàn),現(xiàn)結(jié)合圖1所示,本領(lǐng)域一般技術(shù)人員可根據(jù)以下步驟完成對(duì)方法的部署和實(shí)施。
[0018]1、選取網(wǎng)絡(luò)服務(wù)
[0019]選取網(wǎng)絡(luò)服務(wù)中的網(wǎng)站瀏覽,并選定網(wǎng)站www.163.com。使用鼠標(biāo)點(diǎn)擊、鍵盤(pán)輸入的瀏覽行為。
[0020]2、數(shù)據(jù)采集
[0021]I)定義瀏覽動(dòng)作
[0022]a.符號(hào)Ax,其中A代表鼠標(biāo)點(diǎn)擊行為,X代表全局點(diǎn)擊計(jì)數(shù),即:全局第一次點(diǎn)擊表不為=A1,全局第二次點(diǎn)擊為A2 ;
[0023]b.符號(hào)Kx,其中K代表鍵盤(pán)輸入行為,X代表全局輸入次數(shù),即:全局第一次輸入表不為=K1,全局第二次輸入為K2 ;
[0024]2)操作者行為采集
[0025]a.載入網(wǎng)站 www.163.com ;
[0026]b.點(diǎn)擊“新聞”,將其作為全局第一次鼠標(biāo)點(diǎn)擊,其符號(hào)即為A1 ;
[0027]c.點(diǎn)擊“登錄”,其為全局第二次鼠標(biāo)點(diǎn)擊,其符號(hào)即為A2 ;
[0028]d.輸入test@163.com,將其作為全局第一次鍵盤(pán)輸入,其符號(hào)即為K1 ;
[0029]e.輸入密碼,其為全局第二次鍵盤(pán)輸入,其符號(hào)即為K2 ;
[0030]f.將A1, A2, K1, K2按照順序形成{A1; A2, K1, K2I行為集合,并將其表示為集合{S}。
[0031]3)網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù)采集
[0032]a.記錄行為A1進(jìn)行時(shí),產(chǎn)生的網(wǎng)頁(yè)交互數(shù)據(jù)D1 ;
[0033]b.記錄行為A2進(jìn)行時(shí),產(chǎn)生的網(wǎng)頁(yè)交互數(shù)據(jù)D2 ;
[0034]c.記錄行為K1進(jìn)行時(shí),產(chǎn)生的網(wǎng)頁(yè)交互數(shù)據(jù)D3 ;
[0035]d.記錄行為K2進(jìn)行時(shí),產(chǎn)生的網(wǎng)頁(yè)交互數(shù)據(jù)D4 ;
[0036]e.將D1, D2, D3, D4按照順序形成(D1, D2, D3, D4I數(shù)據(jù)集合,并將其表示為{D}。
[0037]3、特征關(guān)聯(lián)
[0038]定義由行為A,K產(chǎn)生數(shù)據(jù)D的關(guān)聯(lián)特征R = A(K) — D,其中“一”表示自左向右的事件發(fā)生順序。故可知,其關(guān)聯(lián)特征結(jié)果如下-.R1 = A1 — D1 ;R2 = A2 — D2 ;R3 = K1 — D1 ;R4=K2 — D2 ;R5 = {S} — {D} o
[0039]4、通用模板生成
[0040]以特征關(guān)聯(lián)結(jié)果R1, R2, R3, R4, R5為基礎(chǔ)生成通用模板,并予以輸出。使其可被網(wǎng)絡(luò)數(shù)據(jù)爬蟲(chóng)所使用。
[0041]最后所應(yīng)說(shuō)明的是,以上【具體實(shí)施方式】?jī)H用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法,其特征在于,包括以下步驟: 1)操作者訪問(wèn)網(wǎng)絡(luò)服務(wù); 2)選取一個(gè)或多個(gè)網(wǎng)絡(luò)服務(wù)作為訓(xùn)練庫(kù),進(jìn)行數(shù)據(jù)采集; 3)對(duì)采集的數(shù)據(jù)進(jìn)行特征關(guān)聯(lián); 4)構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)的通用模板。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法。其特征在于,所述網(wǎng)絡(luò)服務(wù)是指在計(jì)算機(jī)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)應(yīng)用層及其上層運(yùn)行的應(yīng)用,它提供的數(shù)據(jù)存儲(chǔ),處理,演示,通信或其他功能通常用于執(zhí)行基于應(yīng)用層網(wǎng)絡(luò)協(xié)議的客戶端-服務(wù)端或點(diǎn)對(duì)點(diǎn)的相關(guān)架構(gòu),包含但不限于各類網(wǎng)站瀏覽、網(wǎng)絡(luò)購(gòu)物、網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)商務(wù)、網(wǎng)絡(luò)政務(wù)、網(wǎng)絡(luò)金融等。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法,其特征在于,所述數(shù)據(jù)采集是指采集操作者行為集合和網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)采集,其特征在于,所述操作者行為集合是指包含但不限于操作者在訪問(wèn)網(wǎng)絡(luò)服務(wù)時(shí)所產(chǎn)生的網(wǎng)站點(diǎn)擊、應(yīng)用使用、頁(yè)面瀏覽、鼠標(biāo)行為、鍵盤(pán)行為、人工標(biāo)記、表單填充、網(wǎng)址切換、頁(yè)面停留、軟件行為等所產(chǎn)生的一個(gè)或多個(gè)交互行為。包含但不限于操作者自身生理、心理反應(yīng):如眼動(dòng)反應(yīng)、心率、表情、腦電波等一個(gè)或多個(gè)外在行為狀態(tài)屬性的捕捉或數(shù)字量化。
5.根據(jù)權(quán)利要求3所述的數(shù)據(jù)采集,其特征在于,所述網(wǎng)絡(luò)服務(wù)交互數(shù)據(jù)是指由于操作者對(duì)網(wǎng)絡(luò)服務(wù)的訪問(wèn)而產(chǎn)生網(wǎng)絡(luò)通信數(shù)據(jù),包含但不限于信令傳輸、數(shù)據(jù)傳輸、協(xié)議建立坐寸ο
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲(chóng)模板的行為式生成方法。其特征在于,所述特征關(guān)聯(lián)是指操作者行為特征與網(wǎng)路服務(wù)結(jié)構(gòu)特征進(jìn)行關(guān)聯(lián)。
【文檔編號(hào)】G06F17/30GK104298783SQ201410627310
【公開(kāi)日】2015年1月21日 申請(qǐng)日期:2014年11月10日 優(yōu)先權(quán)日:2014年11月10日
【發(fā)明者】溫杰, 李牧, 舒文靜, 高谞 申請(qǐng)人:武漢安問(wèn)科技發(fā)展有限責(zé)任公司