基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息安全技術(shù)領(lǐng)域,尤其涉及一種基于Internet論壇的網(wǎng)絡(luò)實(shí)體城 市級(jí)地標(biāo)挖掘算法。
【背景技術(shù)】
[0002] IP定位,即獲取IP地址與其地理位置的映射關(guān)系。IP定位服務(wù)越來(lái)越受到政府 機(jī)關(guān)、商業(yè)公司、和個(gè)人的關(guān)注。掌握IP的地理位置可以高效的為用戶提供各種個(gè)性化服 務(wù),如向指定區(qū)域的用戶推送當(dāng)?shù)靥鞖忸A(yù)報(bào)和自然災(zāi)害預(yù)警、當(dāng)?shù)匦侣劇⒈就粱淖趾拓泿?符號(hào)等,廣告商可以向指定區(qū)域推送廣告等。IP定位服務(wù)也可以為區(qū)域版權(quán)保護(hù)提供支持, 如電視節(jié)目、廣播、數(shù)字音像等提供區(qū)域限制(只在法律允許的區(qū)域內(nèi)下載、復(fù)制和傳播), 還可以為國(guó)家維穩(wěn)提供技術(shù)支持,如限制謠言和惡意信息在互聯(lián)網(wǎng)的傳播范圍,實(shí)施區(qū)域 性斷網(wǎng)等。
[0003]基于地標(biāo)的IP定位技術(shù)是獲取IP地理位置較為可靠的方式之一。但是,批量獲 取地標(biāo)以及有效對(duì)地標(biāo)評(píng)估仍是一個(gè)挑戰(zhàn)。
[0004] 目前,地標(biāo)挖掘的相關(guān)文獻(xiàn)多是基于Web的地標(biāo)挖掘方法,這種方法獲取的地標(biāo) 數(shù)量有限,且地標(biāo)的可靠性也不能得到保證。然而,基于Web的地標(biāo)挖掘方法,由于Web服 務(wù)器存在主機(jī)托管、共享主機(jī)以及⑶N網(wǎng)絡(luò)等問(wèn)題,Web網(wǎng)頁(yè)中提取的地理位置與Web服務(wù) 器的真實(shí)地理位置并不能保證一一對(duì)應(yīng)。雖然,已有方法對(duì)存在這些問(wèn)題的地標(biāo)進(jìn)行驗(yàn)證 與篩選,但效果并不理想。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法, 能夠?qū)⒂脩舻膭?dòng)態(tài)IP納入地標(biāo)的采集范圍,顯著地提高了地標(biāo)采集的數(shù)量,并通過(guò)地標(biāo)驗(yàn) 證算法對(duì)候選地標(biāo)評(píng)估,提高地標(biāo)的可靠性。
[0006]本發(fā)明采用下述技術(shù)方案:一種基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘 算法,包括以下步驟: 步驟一、獲取候選地標(biāo),具體如下: (11)、選擇地標(biāo)挖掘的Internet論壇,獲取該Internet論壇的所有HTML頁(yè)面; (12 )、從步驟(11)中得到的所有HTML頁(yè)面中提取出所有的IP地址段; (13) 、去除步驟(12)得到的所有的IP地址段中重復(fù)的IP地址段; (14) 、將步驟(13)得到的IP地址段通過(guò)與多個(gè)互聯(lián)網(wǎng)公開(kāi)的IP定位數(shù)據(jù)庫(kù)查詢比較, 篩選出所有與IP定位數(shù)據(jù)庫(kù)地理位置一致的IP地址段; (15) 、將步驟(14)得到的IP地址段與論壇隱含的地理位置信息比較,保留地理位置一 致的IP地址段為最終的候選地標(biāo)集合; 步驟二、對(duì)候選地標(biāo)集合進(jìn)行評(píng)估,具體如下: (21 )、獲取最接近目標(biāo)IP的路由器,用下述的改進(jìn)GeoTrack算法對(duì)最終的候選地標(biāo)集 合中的候選地標(biāo)逐個(gè)驗(yàn)證:若最接近目標(biāo)IP的路由器隱含地理位置信息,進(jìn)入步驟(22); 若最接近目標(biāo)IP的路由器未隱含地理位置信息,進(jìn)入步驟(23); (22) 、推測(cè)出最接近目標(biāo)IP的路由器的地理位置,并與候選地標(biāo)比較,將地理位置一 致的候選地標(biāo)存入地標(biāo)庫(kù); (23) 、首先獲取最接近目標(biāo)IP的路由器的IP地址,通過(guò)查詢多個(gè)互聯(lián)網(wǎng)公開(kāi)的IP定 位數(shù)據(jù)庫(kù)得到IP地址的地理位置并與候選地標(biāo)比較,將地理位置一致的候選地標(biāo)存入地 標(biāo)庫(kù); 步驟三、得到的地標(biāo)庫(kù)即為網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)。
[0007] 所述的步驟(11)中選擇地標(biāo)挖掘的Internet論壇是選擇區(qū)域性、含有城市關(guān)鍵 字以及人口流動(dòng)較小的論壇。
[0008] 所述的步驟(11)中獲取該Internet論壇的所有HTML頁(yè)面是通過(guò)網(wǎng)頁(yè)爬蟲(chóng)方法 獲得。
[0009] 所述的步驟(12)中提取出所有的IP地址段是通過(guò)正則表達(dá)式進(jìn)行提取,正則表 達(dá)式如式(1):
【主權(quán)項(xiàng)】
1. 一種基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法,其特征在于:包括以下步 驟: 步驟一、獲取候選地標(biāo),具體如下: (11) 、選擇地標(biāo)挖掘的Internet論壇,獲取該Internet論壇的所有HTML頁(yè)面; (12) 、從步驟(11)中得到的所有HTML頁(yè)面中提取出所有的IP地址段; (13) 、去除步驟(12)得到的所有的IP地址段中重復(fù)的IP地址段; (14) 、將步驟(13)得到的IP地址段通過(guò)與多個(gè)互聯(lián)網(wǎng)公開(kāi)的IP定位數(shù)據(jù)庫(kù)查詢比較, 篩選出所有與IP定位數(shù)據(jù)庫(kù)地理位置一致的IP地址段; (15) 、將步驟(14)得到的IP地址段與論壇隱含的地理位置信息比較,保留地理位置一 致的IP地址段為最終的候選地標(biāo)集合; 步驟二、對(duì)候選地標(biāo)集合進(jìn)行評(píng)估,具體如下: (21 )、獲取最接近目標(biāo)IP的路由器,用下述的改進(jìn)GeoTrack算法對(duì)最終的候選地標(biāo)集 合中的候選地標(biāo)逐個(gè)驗(yàn)證:若最接近目標(biāo)IP的路由器隱含地理位置信息,進(jìn)入步驟(22); 若最接近目標(biāo)IP的路由器未隱含地理位置信息,進(jìn)入步驟(23); (22) 、推測(cè)出最接近目標(biāo)IP的路由器的地理位置,并與候選地標(biāo)比較,將地理位置一 致的候選地標(biāo)存入地標(biāo)庫(kù); (23) 、首先獲取最接近目標(biāo)IP的路由器的IP地址,通過(guò)查詢多個(gè)互聯(lián)網(wǎng)公開(kāi)的IP定 位數(shù)據(jù)庫(kù)得到IP地址的地理位置并與候選地標(biāo)比較,將地理位置一致的候選地標(biāo)存入地 標(biāo)庫(kù); 步驟三、得到的地標(biāo)庫(kù)即為網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)。
2. 根據(jù)權(quán)利要求1所述的基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法,其特征 在于:所述的步驟(11)中選擇地標(biāo)挖掘的Internet論壇是選擇區(qū)域性、含有城市關(guān)鍵字以 及人口流動(dòng)較小的論壇。
3. 根據(jù)權(quán)利要求1所述的基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法,其特 征在于:所述的步驟(11)中獲取該Internet論壇的所有HTML頁(yè)面是通過(guò)網(wǎng)頁(yè)爬蟲(chóng)方法獲 得。
4. 根據(jù)權(quán)利要求1-3任一所述的基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法, 其特征在于:所述的步驟(12)中提取出所有的IP地址段是通過(guò)正則表達(dá)式進(jìn)行提取,正則 表達(dá)式如式(1):
式(1)中:激/"U"/可匹配的范圍是之5?~激5;Io等價(jià)于/^-辦,則WKJlo可匹配的 范圍是從/?/表示重復(fù)2次,則可匹配的范圍是7洲~7效,?^示前一個(gè)字 符出現(xiàn)0次或1次,則/可匹配的范圍是從1表示匹配原義字符,則1.表示匹 配IP分隔字符?,丨*表示匹配的IP地址第四字段為#; /表示關(guān)系"或",表示非 獲取匹配。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于Internet論壇的網(wǎng)絡(luò)實(shí)體城市級(jí)地標(biāo)挖掘算法,包括地標(biāo)獲取步驟和地表評(píng)估步驟。地標(biāo)獲取:首先,選擇地標(biāo)挖掘的Internet論壇,獲取該論壇所有HTML頁(yè)面,從中提取出所有的IP地址段,并去除重復(fù)的IP地址段、篩選出多個(gè)IP定位數(shù)據(jù)庫(kù)地理位置一致的IP地址段;保留與論壇隱含的地理位置信息一致的IP地址段為最終的候選地標(biāo);地標(biāo)評(píng)估:利用評(píng)估算法對(duì)候選地標(biāo)驗(yàn)證,將地理位置一致的候選地標(biāo)存入地標(biāo)庫(kù)。本發(fā)明與基于Web的地標(biāo)挖掘方法相比,能夠明顯的提高地標(biāo)挖掘的數(shù)量,并且提高了網(wǎng)絡(luò)實(shí)體城市級(jí)的定位精度,可為網(wǎng)絡(luò)城市級(jí)定位提供可靠地標(biāo)。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104715012
【申請(qǐng)?zhí)枴緾N201510020107
【發(fā)明人】羅向陽(yáng), 朱光, 陳晶寧, 趙帆, 劉粉林
【申請(qǐng)人】羅向陽(yáng)
【公開(kāi)日】2015年6月17日
【申請(qǐng)日】2015年1月15日