該發(fā)明涉及一種用于網(wǎng)站安全監(jiān)測的方法,特別是涉及一種用于網(wǎng)站安全監(jiān)測的欄目識別方法。
背景技術(shù):
:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)站已成為政府、企業(yè)宣傳的重要媒介。網(wǎng)站欄目作為網(wǎng)站的基本元素,其設(shè)計(jì)的好壞直接影響網(wǎng)站的整體效果。良好的網(wǎng)站欄目設(shè)計(jì)不僅能夠方便網(wǎng)站的用戶,也有利于搜索引擎對網(wǎng)站的收錄。但隨著網(wǎng)站的不斷建設(shè),欄目的不斷增加,大量的欄目造成網(wǎng)站的極其臃腫,欄目重疊,網(wǎng)站建設(shè)者甚至對網(wǎng)站的內(nèi)容也無法整體把控,以及對網(wǎng)站的升級都會造成影響。欄目識別可以從網(wǎng)站內(nèi)容中識別出網(wǎng)站的欄目信息,對網(wǎng)站建設(shè)者來說,能夠清晰看到整個網(wǎng)站的基本結(jié)構(gòu),方便網(wǎng)站的優(yōu)化及管理。技術(shù)實(shí)現(xiàn)要素:本發(fā)明克服了現(xiàn)有技術(shù)中,網(wǎng)站建設(shè)中欄目的不斷增加和重疊,對網(wǎng)站運(yùn)行造成影響的問題,提供一種優(yōu)化效果好、管理方便的用于網(wǎng)站安全監(jiān)測的欄目識別方法。本發(fā)明的技術(shù)解決方案是,提供一種具有以下步驟的用于網(wǎng)站安全監(jiān)測的欄目識別方法:網(wǎng)站安全監(jiān)測的欄目識別主要包括網(wǎng)絡(luò)爬蟲及URL識別、內(nèi)容頁特征識別和權(quán)重計(jì)算。所述網(wǎng)絡(luò)爬蟲及URL識別含有以下步驟:利用網(wǎng)絡(luò)爬蟲技術(shù),從網(wǎng)站首頁開始,運(yùn)用深度優(yōu)先規(guī)則,遍歷深度3層以內(nèi)的所有網(wǎng)頁URL;在內(nèi)容抓取過程中,分析網(wǎng)站所有鏈接URL及屬性,用數(shù)據(jù)結(jié)構(gòu)UrlMap記錄;記錄所有URL后,利用URL過濾規(guī)則1進(jìn)行初步篩選,滿足URL過濾規(guī)則1的所有URL記錄從UrlMap中刪除,其中URL過濾規(guī)則1:a.對URL為mailto類型鏈接、文件類型鏈接過濾;b.對于鏈接標(biāo)題超過10個字符的鏈接進(jìn)行過濾;c.對鏈接標(biāo)題中包含非欄目關(guān)鍵詞的鏈接進(jìn)行過濾。所述非欄目關(guān)鍵詞為上一頁、下一頁、登錄、關(guān)閉、更多、加入收藏、關(guān)于、訂閱、隱私保護(hù)和設(shè)為首頁。所述內(nèi)容頁特征識別含有以下步驟:經(jīng)過初步篩選的UrlMap,再根據(jù)網(wǎng)頁內(nèi)容特征,進(jìn)行識別過濾;非欄目的網(wǎng)頁內(nèi)容具有以下特征:a.超大內(nèi)容,對于頁面存在字符超過1500個字符文本塊頁面過濾;b.對于內(nèi)容頁關(guān)鍵詞出現(xiàn)次數(shù)contentKeyCount大于等于5的進(jìn)行過濾,計(jì)算內(nèi)容頁關(guān)鍵詞出現(xiàn)次數(shù),對于同一關(guān)鍵詞出現(xiàn)多次只計(jì)算一次,總次數(shù)大于等于5時過濾;具有以上兩個特征中任意一個都認(rèn)為是非欄目網(wǎng)頁,從UrlMap刪除。所述內(nèi)容頁關(guān)鍵詞為來源、作者、責(zé)編、編輯、點(diǎn)擊、發(fā)布、發(fā)表、日期、時間、收藏、分享和評論。所述權(quán)重計(jì)算含有以下步驟:經(jīng)過過濾后的UrlMap,需要根據(jù)欄目名稱長度、引用次數(shù)、出現(xiàn)日期次數(shù)、內(nèi)容頁特征關(guān)鍵字出現(xiàn)數(shù)量計(jì)算欄目權(quán)重,計(jì)算出欄目總權(quán)重;欄目權(quán)重W計(jì)算公式:W=W1+W2+W3–W4=F1(N1)+F2*N2+F3*N3–F4*N4,從UrlMap中刪除權(quán)重小于60的URL,最后UrlMap中所有剩余的URL就是網(wǎng)站的所有欄目。與現(xiàn)有技術(shù)相比,本發(fā)明用于網(wǎng)站安全監(jiān)測的欄目識別方法具有以下優(yōu)點(diǎn):欄目識別可以從網(wǎng)站內(nèi)容中識別出網(wǎng)站的欄目信息,對網(wǎng)站建設(shè)者來說,能夠清晰看到整個網(wǎng)站的基本結(jié)構(gòu),方便網(wǎng)站的優(yōu)化及管理。可以提高網(wǎng)站的監(jiān)測效率,及時發(fā)現(xiàn)欄目中存在的內(nèi)容錯誤,以及惡意鏈接等安全問題。附圖說明圖1是本發(fā)明用于網(wǎng)站安全監(jiān)測的欄目識別方法的工作流程示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明用于網(wǎng)站安全監(jiān)測的欄目識別方法作進(jìn)一步說明:如圖所示,本實(shí)施例中網(wǎng)站欄目識別主要包括網(wǎng)絡(luò)爬蟲及URL識別、內(nèi)容頁特征識別、權(quán)重計(jì)算,具體步驟如下:1、網(wǎng)絡(luò)爬蟲及URL識別:URL屬性定義:標(biāo)題(title):鏈接的標(biāo)題;引用次數(shù)(refcount):爬蟲過程該URL出現(xiàn)的次數(shù);出現(xiàn)日期次數(shù)(datecount):該頁面包含日期(年月日格式)出現(xiàn)次數(shù);內(nèi)容頁關(guān)鍵詞次數(shù)(contentKeyCount):計(jì)算內(nèi)容頁關(guān)鍵詞數(shù)量;URL內(nèi)容hash值(hash):該頁面內(nèi)容md5值。利用網(wǎng)絡(luò)爬蟲技術(shù),從網(wǎng)站首頁開始,運(yùn)用深度優(yōu)先規(guī)則,遍歷深度3層以內(nèi)的所有網(wǎng)頁URL。在內(nèi)容抓取過程中,分析網(wǎng)站所有鏈接URL及屬性,用數(shù)據(jù)結(jié)構(gòu)UrlMap<url,url屬性={title,refcount,datecount,contentKeyCount,hash}>記錄。記錄所有URL后,利用URL過濾規(guī)則1進(jìn)行初步篩選,滿足URL過濾規(guī)則1的所有URL記錄從UrlMap中刪除。URL過濾規(guī)則1:a、對URL為mailto類型鏈接、文件類型鏈接過濾。b、對于鏈接標(biāo)題超過10個字符的鏈接進(jìn)行過濾c、對鏈接標(biāo)題中包含非欄目關(guān)鍵詞(上一頁、下一頁、登錄、關(guān)閉、更多、加入收藏、關(guān)于、訂閱、隱私保護(hù)、設(shè)為首頁)的鏈接進(jìn)行過濾。URL屬性獲取方法:title:獲取鏈接的標(biāo)題,對于同一URL可能存在多個標(biāo)題,以標(biāo)題長度四字優(yōu)先,標(biāo)題內(nèi)容無特殊符號優(yōu)先為原則選取;refcount:爬蟲過程中計(jì)算該URL出現(xiàn)的次數(shù);datecount:匹配該頁面包含日期(年月日格式)出現(xiàn)次數(shù);contentKeyCount:計(jì)算內(nèi)容頁關(guān)鍵詞數(shù)量;hash:計(jì)算頁面內(nèi)容md5值。2、內(nèi)容頁特征識別經(jīng)過初步篩選的UrlMap,再根據(jù)網(wǎng)頁內(nèi)容特征,進(jìn)行識別過濾。非欄目的網(wǎng)頁內(nèi)容具有以下特征:a、超大內(nèi)容,對于頁面存在字符超過1500個字符文本塊頁面過濾。b、對于內(nèi)容頁關(guān)鍵詞出現(xiàn)次數(shù)contentKeyCount大于等于5的進(jìn)行過濾。計(jì)算內(nèi)容頁關(guān)鍵詞(來源,作者,責(zé)編,編輯,點(diǎn)擊,發(fā)布,發(fā)表,日期,時間,收藏,分享,評論)出現(xiàn)次數(shù),對于同一關(guān)鍵詞出現(xiàn)多次只計(jì)算一次(如頁面內(nèi)出現(xiàn)3個作者只按一個計(jì)算),總次數(shù)大于等于5時過濾。具有以上兩個特征中任意一個都認(rèn)為是非欄目網(wǎng)頁,從UrlMap刪除。3、權(quán)重計(jì)算經(jīng)過上述過濾后的UrlMap,需要根據(jù)欄目名稱長度、引用次數(shù)、出現(xiàn)日期次數(shù)、內(nèi)容頁特征關(guān)鍵字出現(xiàn)數(shù)量計(jì)算欄目權(quán)重,計(jì)算出欄目總權(quán)重。欄目權(quán)重(W)計(jì)算公式:W=W1+W2+W3–W4=F1(N1)+F2*N2+F3*N3–F4*N4欄目名稱長度權(quán)重(W1)表:計(jì)算公式W1=F1(N1)標(biāo)題長度N1F1N1=2,3,5,7,9,1020N1=460N1=640N1=830指標(biāo)系數(shù)表:經(jīng)過試驗(yàn)測算,當(dāng)N1=4,F(xiàn)1=50與N1=4,F(xiàn)1=60對識別出的欄目準(zhǔn)確率基本相等,但F1=50時會造成部分空白欄目檢測不到,因此取欄目權(quán)重臨界值60來保證欄目的完整。根據(jù)上述結(jié)論,從UrlMap中刪除權(quán)重小于60的URL。最后UrlMap中所有剩余的URL就是網(wǎng)站的所有欄目。實(shí)現(xiàn)效果,經(jīng)過對網(wǎng)上隨機(jī)獲取的2000個網(wǎng)站進(jìn)行欄目檢測,欄目檢測準(zhǔn)確率為98%,漏報(bào)率為0.5%。當(dāng)前第1頁1 2 3