欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法

文檔序號(hào):6518966閱讀:707來(lái)源:國(guó)知局
基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法
【專利摘要】本發(fā)明屬于Web設(shè)計(jì)【技術(shù)領(lǐng)域】,具體為一種基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法。本方法首先建立Web站點(diǎn)的頁(yè)面組織結(jié)構(gòu)的邏輯表示,綜合運(yùn)用客戶端身份識(shí)別、Web頁(yè)面邏輯結(jié)構(gòu)匹配和時(shí)間屬性進(jìn)行爬蟲行為識(shí)別,然后在設(shè)定緩沖計(jì)數(shù)結(jié)構(gòu)的基礎(chǔ)上,基于識(shí)別結(jié)果進(jìn)行點(diǎn)擊計(jì)數(shù)的更新。本方法能夠正確識(shí)別爬蟲點(diǎn)擊行為,避免計(jì)數(shù)出現(xiàn)虛高現(xiàn)象,同時(shí)又能及時(shí)地進(jìn)行Web真實(shí)點(diǎn)擊計(jì)數(shù)的更新,本方法適用于各種需要進(jìn)行鏈接或頁(yè)面點(diǎn)擊計(jì)數(shù)的應(yīng)用場(chǎng)合。
【專利說(shuō)明】基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明屬于Web設(shè)計(jì)【技術(shù)領(lǐng)域】,涉及一種新型的Web點(diǎn)擊計(jì)數(shù)方法,特別涉及一種在網(wǎng)絡(luò)爬蟲行為模式分析的基礎(chǔ)上結(jié)合緩沖更新策略而設(shè)計(jì)的新型計(jì)算方法。
【背景技術(shù)】
[0002]在許多網(wǎng)站,Web點(diǎn)擊計(jì)數(shù)值所起的作用越來(lái)越大。例如在東方財(cái)富股吧網(wǎng)站,每個(gè)帖子都將帖子的點(diǎn)擊次數(shù)列在帖子的左邊位置,這些點(diǎn)擊數(shù)值大小對(duì)于投資者進(jìn)行信息獲取具有一定的指導(dǎo)價(jià)值,錯(cuò)誤的計(jì)數(shù)容易造成誤導(dǎo)。
[0003]當(dāng)前互聯(lián)網(wǎng)上Web頁(yè)面計(jì)數(shù)器大都采用簡(jiǎn)單的計(jì)數(shù)方法,即一次點(diǎn)擊就會(huì)使得計(jì)數(shù)值增加一。這種計(jì)數(shù)方法正不斷地受到網(wǎng)絡(luò)爬蟲的影響,由此導(dǎo)致的結(jié)果使得這種反映網(wǎng)民瀏覽點(diǎn)擊的計(jì)數(shù)變得越來(lái)越不可靠。隨著各種Web應(yīng)用技術(shù)的發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了大量用于自動(dòng)獲取Web頁(yè)面信息的網(wǎng)絡(luò)爬蟲[I]。有來(lái)自諸如Google、Baidu、Bing等大型互聯(lián)網(wǎng)搜索引擎的爬蟲,也有來(lái)自大量開發(fā)者或其他應(yīng)用系統(tǒng)的爬蟲。因此這些模擬點(diǎn)擊行為的網(wǎng)絡(luò)爬蟲在獲得相關(guān)Web頁(yè)面時(shí),也直接地對(duì)該頁(yè)面計(jì)數(shù)產(chǎn)生“虛高”的結(jié)果。
[0004]因此在網(wǎng)絡(luò)爬蟲泛濫的現(xiàn)狀下,如何正確地更新每個(gè)Web點(diǎn)擊的計(jì)數(shù)值成為Web設(shè)計(jì)中需要考慮的關(guān)鍵問(wèn)題之一。當(dāng)前簡(jiǎn)單的計(jì)數(shù)方法無(wú)法應(yīng)對(duì)爬蟲所造成的影響,而解決該問(wèn)題的關(guān)鍵在于正確區(qū)分點(diǎn)擊行為是來(lái)自網(wǎng)絡(luò)爬蟲或網(wǎng)絡(luò)用戶。對(duì)于網(wǎng)絡(luò)用戶的點(diǎn)擊瀏覽行為研究已經(jīng)有較長(zhǎng)的歷史,從行為對(duì)象的研究來(lái)看,主要分為用戶身份識(shí)別和點(diǎn)擊序列模型兩個(gè)方面[2]。
[0005]用戶身份識(shí)別簡(jiǎn)單地基于IP地址和客戶端的Agent字符串,由于無(wú)法強(qiáng)制爬蟲程序?qū)ψ陨磉M(jìn)行特殊標(biāo)識(shí),因此,該方法并不能區(qū)分爬蟲和網(wǎng)絡(luò)用戶。而點(diǎn)擊序列模型采用統(tǒng)計(jì)模型描述了前后兩個(gè)點(diǎn)擊的條件概率能夠描述用戶瀏覽行為在不同鏈接之間的跳轉(zhuǎn)關(guān)系[3],雖然從統(tǒng)計(jì)特征上描述了網(wǎng)絡(luò)用戶在瀏覽網(wǎng)站時(shí)的選擇性行為,但是在實(shí)際應(yīng)用于區(qū)分爬蟲和網(wǎng)絡(luò)用戶時(shí)將會(huì)遇到如下的問(wèn)題:(I)對(duì)于類似于股吧網(wǎng)站這種網(wǎng)絡(luò)論壇,由于帖子數(shù)量巨大,采用統(tǒng)計(jì)模型描述跳轉(zhuǎn)關(guān)系時(shí),所需處理的狀態(tài)空間非常大,造成模型中存在大量稀疏信息。并且帖子不斷增加,統(tǒng)計(jì)模型對(duì)應(yīng)的狀態(tài)空間動(dòng)態(tài)增加也給建模造成了較高的復(fù)雜度。(2)基于統(tǒng)計(jì)模型進(jìn)行網(wǎng)絡(luò)用戶和爬蟲程序的區(qū)分,需要某一序列與統(tǒng)計(jì)模型之間的相似性,再根據(jù)該相似性和一個(gè)相似性閾值進(jìn)行比較,從而決定分類結(jié)果。但是由于相似值是一個(gè)似然值,其取值范圍不容易估計(jì),導(dǎo)致相似性閾值很難確定,因此在實(shí)用性上尚存在較大問(wèn)題。
[0006]由此可見,在進(jìn)行爬蟲行為和網(wǎng)絡(luò)用戶行為的區(qū)分上,采用新型的特征和計(jì)算判斷方法,對(duì)于正確判定爬蟲行為并進(jìn)行點(diǎn)擊計(jì)數(shù)更新是非常必要的。本發(fā)明正是給出了一種符合這種要求的計(jì)算方法。

【發(fā)明內(nèi)容】
[0007]本發(fā)明的主要目的是針對(duì)Web頁(yè)面點(diǎn)擊計(jì)數(shù)的準(zhǔn)確性問(wèn)題,提出一種基于爬蟲行為識(shí)別模型與緩沖更新策略的計(jì)數(shù)方法。這種計(jì)算方法具有一定的智能識(shí)別能力,能夠克服由于網(wǎng)絡(luò)爬蟲泛濫而對(duì)各種Web點(diǎn)擊計(jì)數(shù)所造成的不良影響。這種計(jì)算方法充分利用了作為計(jì)算機(jī)程序的網(wǎng)絡(luò)爬蟲在時(shí)間和空間上的爬行模式特征,能夠正確識(shí)別爬蟲的模擬點(diǎn)擊行為,并及時(shí)進(jìn)行Web點(diǎn)擊計(jì)數(shù)的更新。
[0008]本發(fā)明提出的一種基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,首先建立Web站點(diǎn)的頁(yè)面組織結(jié)構(gòu)的邏輯表示,綜合運(yùn)用客戶端身份識(shí)別、Web頁(yè)面邏輯結(jié)構(gòu)匹配和時(shí)間屬性進(jìn)行爬蟲行為識(shí)別,然后在設(shè)定緩沖計(jì)數(shù)結(jié)構(gòu)的基礎(chǔ)上,基于識(shí)別結(jié)果進(jìn)行點(diǎn)擊計(jì)數(shù)的更新。具體步驟如下:
(一)建立頁(yè)面邏輯結(jié)構(gòu)圖
(I)輸入網(wǎng)站的所有頁(yè)面文件,對(duì)于每個(gè)頁(yè)面文件進(jìn)行HTML語(yǔ)言解析,提取出每個(gè)頁(yè)面所包含的鏈接[5]。
[0009](2)根據(jù)所提取出來(lái)的鏈接建立 頁(yè)面的邏輯結(jié)構(gòu)圖,該圖是一個(gè)有向圖,圖中的每個(gè)節(jié)點(diǎn)表示頁(yè)面,節(jié)點(diǎn)之間的有向連線表示頁(yè)面之間的鏈接關(guān)系。
[0010](二)進(jìn)行爬蟲行為識(shí)別及計(jì)數(shù)更新
(1)從某個(gè)時(shí)刻TO開始記錄對(duì)本網(wǎng)站的所有點(diǎn)擊行為,提取客戶端的身份標(biāo)識(shí)信息,包括IP地址、Agent字符串。并對(duì)其中的每個(gè)客戶端進(jìn)行如下步驟的處理:
(2)將用戶點(diǎn)擊的鏈接、點(diǎn)擊時(shí)間記錄到一個(gè)列表L中;
(3)如果在一定時(shí)間TH內(nèi)沒(méi)有出現(xiàn)下一次點(diǎn)擊,或前后兩次的時(shí)間間隔大于一定數(shù)值,則轉(zhuǎn)下一步驟(即步驟(4)),否則執(zhí)行上一步驟(即步驟(2)),獲得下一次點(diǎn)擊行為;
(4)根據(jù)頁(yè)面邏輯結(jié)構(gòu)圖,計(jì)算L列表所對(duì)應(yīng)的點(diǎn)擊序列的空間特征參量β,及時(shí)間特征參量Θ ;
(5)當(dāng)上述兩個(gè)特征參量滿足於>1Μ0 < 7時(shí),對(duì)L中所包含的每個(gè)頁(yè)面計(jì)數(shù)增加1,否則不予計(jì)數(shù);其中,λ和Υ是預(yù)先設(shè)定的參數(shù);λ表示點(diǎn)擊行為在整個(gè)網(wǎng)站上的覆蓋比例,而Y是點(diǎn)擊行為在時(shí)間間隔上的波動(dòng)情況。
[0011]本發(fā)明中,進(jìn)行爬蟲行為識(shí)別及計(jì)數(shù)更新時(shí),分為在線行為檢測(cè)及緩沖更新主進(jìn)程及客戶端識(shí)別線程兩部分。
[0012]本發(fā)明中,根據(jù)前后兩個(gè)點(diǎn)擊記錄之間的時(shí)間間隔的平均值和方差來(lái)量化計(jì)算點(diǎn)擊序列的時(shí)間特征參量〃,公式如下:
【權(quán)利要求】
1.一種基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,其特征在于具體流程如下: (一)建立頁(yè)面結(jié)構(gòu)邏輯結(jié)構(gòu)圖 (1)輸入網(wǎng)站的所有頁(yè)面文件,對(duì)每個(gè)頁(yè)面文件進(jìn)行HTML語(yǔ)言解析,提取出每個(gè)頁(yè)面所包含的鏈接; (2)根據(jù)所提取出來(lái)的鏈接建立頁(yè)面邏輯結(jié)構(gòu)圖,圖中的每個(gè)節(jié)點(diǎn)表示頁(yè)面,節(jié)點(diǎn)之間的有向連線表示頁(yè)面之間的鏈接關(guān)系; (二)進(jìn)行爬蟲行為識(shí)別及計(jì)數(shù)更新 (O從某個(gè)時(shí)刻TO開始記錄對(duì)本網(wǎng)站的所有點(diǎn)擊行為,提取客戶端的身份標(biāo)識(shí)信息,并對(duì)其中的每個(gè)客戶端進(jìn)行如下步驟的處理;其中所述身份標(biāo)識(shí)信息包括IP地址、Agent字符串和urI地址; (2)將用戶點(diǎn)擊的鏈接、點(diǎn)擊時(shí)間記錄到一個(gè)列表L中; (3)如果在一定時(shí)間TH內(nèi)沒(méi)有出現(xiàn)下一次點(diǎn)擊,或前后兩次的時(shí)間間隔大于一定數(shù)值TH,則轉(zhuǎn)下一步驟,否則執(zhí)行上一步驟,獲得下一次點(diǎn)擊行為; (4)根據(jù)頁(yè)面邏輯結(jié)構(gòu)圖,計(jì)算L列表所對(duì)應(yīng)的點(diǎn)擊序列的空間特征參量β及時(shí)間特征參量Θ ; (5)當(dāng)上述兩個(gè)特征參量滿足β> λ-- < 時(shí),對(duì)L中所包含的每個(gè)頁(yè)面計(jì)數(shù)增加1,否則不予計(jì)數(shù);其中,λ和Υ是預(yù)先設(shè)定的參數(shù);λ表示點(diǎn)擊行為在整個(gè)網(wǎng)站上的覆蓋比例,Y是點(diǎn)擊行為在時(shí)間間隔上的波動(dòng)情況。
2.如權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,其特征在于:進(jìn)行爬蟲行為識(shí)別及計(jì)數(shù)更新時(shí),分為在線行為檢測(cè)及緩沖更新主進(jìn)程及客戶端識(shí)別線程兩部分。
3.如權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,其特征在于:點(diǎn)擊序列的時(shí)間特征參量θ根據(jù)前后兩個(gè)點(diǎn)擊記錄之間的時(shí)間間隔的平均值H和方差來(lái)量化計(jì)算,公式如下:
4.如權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,其特征在于:點(diǎn)擊行為的空間特征參量β基于點(diǎn)擊行為序列與邏輯結(jié)構(gòu)圖之間的匹配結(jié)果計(jì)算,計(jì)算公式如下:β=ct/n 其中,η表示點(diǎn)擊序列的長(zhǎng)度,ct是通過(guò)匹配得到的節(jié)點(diǎn)數(shù)。
5.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,其特征在于:所述λ為0.3以上的數(shù)值;所述Y通過(guò)對(duì)具體監(jiān)測(cè)的網(wǎng)站對(duì)正常行為進(jìn)行統(tǒng)計(jì)得到。
6.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲行為識(shí)別與緩沖更新策略的Web點(diǎn)擊計(jì)數(shù)方法,其特征在于:所述TH數(shù)值為25.5分鐘。
【文檔編號(hào)】G06F17/30GK103678492SQ201310567276
【公開日】2014年3月26日 申請(qǐng)日期:2013年11月13日 優(yōu)先權(quán)日:2013年11月13日
【發(fā)明者】曾劍平, 羅邦慧 申請(qǐng)人:復(fù)旦大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新源县| 镇宁| 和林格尔县| 嘉黎县| 攀枝花市| 营山县| 炎陵县| 和龙市| 监利县| 玛多县| 忻城县| 滨州市| 百色市| 横峰县| 吉水县| 烟台市| 镇原县| 宣威市| 韩城市| 彰化县| 新巴尔虎左旗| 拉孜县| 灵山县| 昌宁县| 永福县| 上蔡县| 南雄市| 建平县| 奉节县| 东乡县| 阳泉市| 中山市| 无为县| 新闻| 奉化市| 沅江市| 商洛市| 沭阳县| 鸡西市| 浦县| 丰镇市|