欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站的識(shí)別方法和裝置與流程

文檔序號(hào):12364046閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種網(wǎng)站的識(shí)別方法,其特征在于,包括:

在設(shè)定時(shí)間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個(gè)歷史更新頁(yè)面;

對(duì)各所述歷史更新頁(yè)面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁(yè)面對(duì)應(yīng)的至少一個(gè)內(nèi)容域;

根據(jù)各所述歷史更新頁(yè)面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;

根據(jù)信息熵計(jì)算結(jié)果,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個(gè)歷史更新頁(yè)面包括:

與所述待驗(yàn)證網(wǎng)站的網(wǎng)站域名對(duì)應(yīng)的至少兩個(gè)歷史更新頁(yè)面;和/或

與所述待驗(yàn)證網(wǎng)站中的同一網(wǎng)頁(yè)地址對(duì)應(yīng)的至少兩個(gè)歷史更新頁(yè)面。

3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在設(shè)定時(shí)間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個(gè)歷史更新頁(yè)面包括:

在設(shè)定時(shí)間段內(nèi),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)絡(luò)中新產(chǎn)生的,和/或有更新的頁(yè)面;

將抓取的頁(yè)面按照網(wǎng)站域名進(jìn)行聚簇后,將與聚類簇對(duì)應(yīng)的網(wǎng)站作為所述待驗(yàn)證網(wǎng)站;

根據(jù)所述聚類簇中包括的頁(yè)面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個(gè)歷史更新頁(yè)面。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容域包括下述至少一項(xiàng):

文本標(biāo)題域、圖片域、圖片標(biāo)題域、圖片描述文本域。

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各所述歷史更新頁(yè)面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵包括:

分別在各所述歷史更新頁(yè)面的相同目標(biāo)內(nèi)容域中,提取至少一個(gè)比對(duì)對(duì)象;

根據(jù)所述比對(duì)對(duì)象在各所述歷史更新頁(yè)面的目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對(duì)對(duì)象的出現(xiàn)概率;

根據(jù)所述比對(duì)對(duì)象的出現(xiàn)概率,計(jì)算與所述目標(biāo)內(nèi)容域?qū)?yīng)的信息熵。

6.根據(jù)權(quán)利要求5所述的方法,其特征在于:

如果所述目標(biāo)內(nèi)容域中的內(nèi)容包括文本,則所述比對(duì)對(duì)象包括:原始文本、語(yǔ)義簽名或者語(yǔ)義類別;

如果所述目標(biāo)內(nèi)容域中的內(nèi)容包括圖片,則所述比對(duì)對(duì)象包括:原始圖片或者圖片類別。

7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,在根據(jù)所述比對(duì)對(duì)象在各所述目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對(duì)對(duì)象的出現(xiàn)概率之前,還包括:

如果確定所述比對(duì)對(duì)象為時(shí)效性簡(jiǎn)單重復(fù)文本,則在各所述歷史更新頁(yè)面中,分別獲取與所述比對(duì)對(duì)象關(guān)聯(lián)的正文內(nèi)容;

如果在不同歷史更新頁(yè)面中,與相同目標(biāo)比對(duì)對(duì)象對(duì)應(yīng)的正文內(nèi)容不相同,則將所述目標(biāo)比對(duì)對(duì)象標(biāo)記為不同的比對(duì)對(duì)象。

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)信息熵計(jì)算結(jié)果,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別包括:

根據(jù)所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征,在可信網(wǎng)站列表中獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的參考網(wǎng)站;

獲取與所述參考網(wǎng)站對(duì)應(yīng)的至少一個(gè)內(nèi)容域的信息熵;

在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,選取至少一個(gè)關(guān)鍵內(nèi)容域;

根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對(duì)應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子;

如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

9.根據(jù)權(quán)利要求8所述的方法,其特征在于,根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對(duì)應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子具體包括:

在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,獲取與同一關(guān)鍵內(nèi)容域?qū)?yīng)的信息熵差值作為所述差異度因子;

所述如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站具體包括:

如果設(shè)定數(shù)量的信息熵差值超過(guò)設(shè)定閾值,和/或與設(shè)定關(guān)鍵內(nèi)容域?qū)?yīng)的信息熵差值超過(guò)設(shè)定閾值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果對(duì)至少兩個(gè)信息熵差值進(jìn)行加權(quán)求和得到的差異累加值超過(guò)設(shè)定閾值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

10.根據(jù)權(quán)利要求8所述的方法,其特征在于,根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對(duì)應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子具體包括:

在所述待驗(yàn)證網(wǎng)站中,將與至少兩個(gè)關(guān)鍵內(nèi)容域分別對(duì)應(yīng)的信息熵構(gòu)成第一信息向量;

在所述參考網(wǎng)站中,將與所述至少兩個(gè)關(guān)鍵內(nèi)容域分別對(duì)應(yīng)的信息熵構(gòu)成第二信息向量;

計(jì)算所述第一信息向量與所述第二信息向量之間的距離值作為所述差異度因子;

所述如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站具體包括:

如果所述距離值超過(guò)設(shè)定門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

11.根據(jù)權(quán)利要求8-10任一項(xiàng)所述的方法,其特征在于,所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征包括下述至少一項(xiàng):

設(shè)定時(shí)間段內(nèi)的網(wǎng)站更新頻率、設(shè)定時(shí)間段內(nèi)的新增頁(yè)面數(shù)量以及內(nèi)容主題。

12.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)信息熵計(jì)算結(jié)果,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別包括:

如果與所述待驗(yàn)證網(wǎng)站對(duì)應(yīng)的各內(nèi)容域的信息熵的總和小于設(shè)定第一門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)內(nèi)容域的信息熵小于設(shè)定第二門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對(duì)應(yīng)的至少兩個(gè)目標(biāo)內(nèi)容域的比值小于設(shè)定第三門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

13.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)信息熵計(jì)算結(jié)果,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別包括:

將所述信息熵計(jì)算結(jié)果作為至少一個(gè)信息熵特征值,將所述信息熵特征值與其他異常網(wǎng)站識(shí)別特征值進(jìn)行結(jié)合,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別。

14.一種網(wǎng)站的識(shí)別裝置,其特征在于,包括:

歷史更新頁(yè)面獲取模塊,用于在設(shè)定時(shí)間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個(gè)歷史更新頁(yè)面;

內(nèi)容域獲取模塊,用于對(duì)各所述歷史更新頁(yè)面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁(yè)面對(duì)應(yīng)的至少一個(gè)內(nèi)容域;

內(nèi)容域信息熵計(jì)算模塊,用于根據(jù)各所述歷史更新頁(yè)面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;

異常識(shí)別模塊,用于根據(jù)信息熵計(jì)算結(jié)果,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別。

15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述歷史更新頁(yè)面獲取模塊,具體用于:

在設(shè)定時(shí)間段內(nèi),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)絡(luò)中新產(chǎn)生的,和/或有更新的頁(yè)面;

將抓取的頁(yè)面按照網(wǎng)站域名進(jìn)行聚簇后,將與聚類簇對(duì)應(yīng)的網(wǎng)站作為所述待驗(yàn)證網(wǎng)站;

根據(jù)所述聚類簇中包括的頁(yè)面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個(gè)歷史更新頁(yè)面。

16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述內(nèi)容域信息熵計(jì)算模塊,具體用于:

分別在各所述歷史更新頁(yè)面的相同目標(biāo)內(nèi)容域中,提取至少一個(gè)比對(duì)對(duì)象;

根據(jù)所述比對(duì)對(duì)象在各所述歷史更新頁(yè)面的目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對(duì)對(duì)象的出現(xiàn)概率;

根據(jù)所述比對(duì)對(duì)象的出現(xiàn)概率,計(jì)算與所述目標(biāo)內(nèi)容域?qū)?yīng)的信息熵。

17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,還包括:正文內(nèi)容關(guān)聯(lián)比對(duì)模塊,用于:

在根據(jù)所述比對(duì)對(duì)象在各所述目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對(duì)對(duì)象的出現(xiàn)概率之前,如果確定所述比對(duì)對(duì)象為時(shí)效性簡(jiǎn)單重復(fù)文本,則在各所述歷史更新頁(yè)面中,分別獲取與所述比對(duì)對(duì)象關(guān)聯(lián)的正文內(nèi)容;

如果在不同歷史更新頁(yè)面中,與相同目標(biāo)比對(duì)對(duì)象對(duì)應(yīng)的正文內(nèi)容不相同,則將所述目標(biāo)比對(duì)對(duì)象標(biāo)記為不同的比對(duì)對(duì)象。

18.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述異常識(shí)別模塊,具體包括:

參考網(wǎng)站獲取單元,用于根據(jù)所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征,在可信網(wǎng)站列表中獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的參考網(wǎng)站;

參考網(wǎng)站信息熵獲取單元,用于獲取與所述參考網(wǎng)站對(duì)應(yīng)的至少一個(gè)內(nèi)容域的信息熵;

關(guān)鍵內(nèi)容域選取單元,用于在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,選取至少一個(gè)關(guān)鍵內(nèi)容域;

差異度因子計(jì)算單元,用于根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對(duì)應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子;

異常網(wǎng)站識(shí)別子單元,用于如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

19.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述異常識(shí)別模塊,具體包括:

如果與所述待驗(yàn)證網(wǎng)站對(duì)應(yīng)的各內(nèi)容域的信息熵的總和小于設(shè)定第一門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)內(nèi)容域的信息熵小于設(shè)定第二門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對(duì)應(yīng)的至少兩個(gè)目標(biāo)內(nèi)容域的比值小于設(shè)定第三門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

20.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述異常識(shí)別模塊,具體包括:

將所述信息熵計(jì)算結(jié)果作為至少一個(gè)信息熵特征值,將所述信息熵特征值與其他異常網(wǎng)站識(shí)別特征值進(jìn)行結(jié)合,對(duì)所述待驗(yàn)證網(wǎng)站進(jìn)行異常識(shí)別。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
弥勒县| 五大连池市| 红安县| 时尚| 曲松县| 托克逊县| 贞丰县| 大新县| 内丘县| 鹤壁市| 龙游县| 奈曼旗| 阿坝县| 七台河市| 宁明县| 方城县| 噶尔县| 大名县| 余干县| 德昌县| 渭南市| 玛沁县| 武穴市| 进贤县| 新密市| 南昌市| 墨玉县| 玛沁县| 丹阳市| 马边| 普格县| 云浮市| 辽阳县| 福贡县| 九江市| 青冈县| 辉南县| 德令哈市| 昌江| 萨迦县| 高安市|