用于確定網(wǎng)頁頁面中包括興趣點poi數(shù)據(jù)的方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及計算機技術領域,具體而言,本發(fā)明涉及一種用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法及裝置。
【背景技術】
[0002]在地理信息系統(tǒng)中,一個POI (Point Of Interest,興趣點)可以是一棟房子、一個商鋪、一個郵筒、一個公交站等。POI數(shù)據(jù)包括地址信息和POI名稱。
[0003]傳統(tǒng)的POI數(shù)據(jù)采集方法,需要技術人員采用精密的測繪儀器去獲取每個POI的經(jīng)瑋度信息,然后再標記下來,這種方法比較費時費力,導致通過采集得到的POI數(shù)據(jù)的數(shù)量很少,地理信息系統(tǒng)很難根據(jù)數(shù)量很少的POI數(shù)據(jù)來提供高水平的服務。
[0004]互聯(lián)網(wǎng)上存在著大量的POI數(shù)據(jù),如果能從互聯(lián)網(wǎng)上收集包含POI數(shù)據(jù)的網(wǎng)頁,從收集的網(wǎng)頁中提取出這些POI數(shù)據(jù)供地理信息系統(tǒng)使用,則會大大節(jié)省人力和時間。但是互聯(lián)網(wǎng)上充斥著大量虛假的POI數(shù)據(jù),比如博客網(wǎng)頁內容中包含“原文地址:http://xxx.XXX.xxx/xxx”,雖然包含“地址”字樣,但該地址是網(wǎng)絡地址或者說是URL (Uniform ResoureLocator,統(tǒng)一資源定位器),并不是POI數(shù)據(jù)中的地理地址信息;從而導致收集到的POI數(shù)據(jù)中虛假的POI數(shù)據(jù)的比例較高。
【發(fā)明內容】
[0005]本發(fā)明針對現(xiàn)有技術的缺點,提出一種用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法和裝置,用以解決現(xiàn)有技術存在的收集較多虛假的POI數(shù)據(jù)問題。
[0006]本發(fā)明根據(jù)一個方面,提供了一種用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法,包括:
[0007]從互聯(lián)網(wǎng)中獲取多個POI數(shù)據(jù);
[0008]爬取包括地址信息的多個網(wǎng)頁頁面;
[0009]將所述多個POI數(shù)據(jù)中的地址信息及所述多個網(wǎng)頁頁面包含的地址信息分別歸一化為經(jīng)瑋度信息;
[0010]基于同一經(jīng)瑋度信息,在所述多個POI數(shù)據(jù)的經(jīng)瑋度信息與多個網(wǎng)頁頁面中經(jīng)瑋度信息中進行匹配;
[0011]對于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁頁面,根據(jù)該POI數(shù)據(jù)對應的POI名稱在該網(wǎng)頁頁面中進行查找,確定該網(wǎng)頁頁面中是否包括該POI數(shù)據(jù)的POI名稱;
[0012]當該網(wǎng)頁頁面中包括該POI數(shù)據(jù)的POI名稱時,確定該網(wǎng)頁頁面包括該興趣點POI數(shù)據(jù)。
[0013]本發(fā)明根據(jù)另一個方面,還提供了一種用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的裝置,包括:
[0014]POI數(shù)據(jù)獲取模塊,用于從互聯(lián)網(wǎng)中獲取多個POI數(shù)據(jù);
[0015]網(wǎng)頁頁面爬取模塊,用于爬取包括地址信息的多個網(wǎng)頁頁面;
[0016]經(jīng)瑋度信息歸一化模塊,用于將所述多個POI數(shù)據(jù)中的地址信息及所述多個網(wǎng)頁頁面包含的地址信息分別歸一化為經(jīng)瑋度信息;
[0017]經(jīng)瑋度信息匹配模塊,用于基于同一經(jīng)瑋度信息,在所述多個POI數(shù)據(jù)的經(jīng)瑋度信息與多個網(wǎng)頁頁面中經(jīng)瑋度信息中進行匹配;
[0018]網(wǎng)頁頁面包括POI名稱確定模塊,用于對于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁頁面,根據(jù)該POI數(shù)據(jù)對應的POI名稱在該網(wǎng)頁頁面中進行查找,確定該網(wǎng)頁頁面中是否包括該POI數(shù)據(jù)的POI名稱;
[0019]網(wǎng)頁頁面包括POI數(shù)據(jù)確定模塊,用于當該網(wǎng)頁頁面中包括該POI數(shù)據(jù)的POI名稱時,確定該網(wǎng)頁頁面包括該興趣點POI數(shù)據(jù)。
[0020]本發(fā)明的技術方案中,將地址信息歸一化為經(jīng)瑋度信息,可以濾除非地理的地址信息,由于經(jīng)瑋度的唯一性,基于經(jīng)瑋度信息的匹配結果的準確性,遠高于現(xiàn)有的基于文本信息的匹配結果的準確性,從而有利于后續(xù)避免收集到虛假地址信息的POI數(shù)據(jù);在?01數(shù)據(jù)的經(jīng)瑋度信息與網(wǎng)頁頁面中的經(jīng)瑋度信息相匹配的基礎上,進一步確定網(wǎng)頁頁面中是否包括POI數(shù)據(jù)的POI名稱,來準確判斷POI數(shù)據(jù)是否被包含在同一網(wǎng)頁頁面中,有利于后續(xù)根據(jù)網(wǎng)頁頁面所記載內容的權威性和準確性,來確定收集到的POI數(shù)據(jù)的準確性,進而為大批量地收集互聯(lián)網(wǎng)中的準確度較高的POI數(shù)據(jù)提供可靠保證。
[0021]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0022]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0023]圖1a為本發(fā)明實施例的用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法的流程示意圖;
[0024]圖1b為本發(fā)明實施例的包括多個POI數(shù)據(jù)的網(wǎng)頁的示意圖;
[0025]圖2為本發(fā)明實施例的用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的裝置的內部結構的框架示意圖;
[0026]圖3為本發(fā)明實施例的POI數(shù)據(jù)獲取模塊的內部結構的框架示意圖。
【具體實施方式】
[0027]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0028]本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關聯(lián)的列出項的全部或任一單元和全部組合。
[0029]本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0030]圖1a為本發(fā)明中用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法的流程示意圖。
[0031]SlOl:從互聯(lián)網(wǎng)中獲取多個POI數(shù)據(jù);S102:爬取包括地址信息的多個網(wǎng)頁頁面;S103:將多個POI數(shù)據(jù)中的地址信息及多個網(wǎng)頁頁面包含的地址信息分別歸一化為經(jīng)瑋度信息;S104:基于同一經(jīng)瑋度信息,在多個POI數(shù)據(jù)的經(jīng)瑋度信息與多個網(wǎng)頁頁面中經(jīng)瑋度信息中進行匹配;S105:對于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁頁面,根據(jù)該POI數(shù)據(jù)對應的POI名稱在該網(wǎng)頁頁面中進行查找,確定該網(wǎng)頁頁面中是否包括該POI數(shù)據(jù)的POI名稱;S106:當該網(wǎng)頁頁面中包括該POI數(shù)據(jù)的POI名稱時,確定該網(wǎng)頁頁面包括該興趣點POI數(shù)據(jù)。
[0032]本發(fā)明的上述用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法,將地址信息歸一化為經(jīng)瑋度信息,可以濾除非地理位置的地址信息,由于經(jīng)瑋度的唯一性,基于經(jīng)瑋度信息的匹配結果的準確性,遠高于現(xiàn)有的基于文本信息的匹配結果的準確性,從而有利于后續(xù)避免收集虛假地址信息的數(shù)據(jù);在POI數(shù)據(jù)的經(jīng)瑋度信息與網(wǎng)頁頁面中的經(jīng)瑋度信息相匹配的基礎上,進一步確定網(wǎng)頁頁面中是否包括POI數(shù)據(jù)的POI名稱,來準確判斷POI數(shù)據(jù)是否被包含在同一網(wǎng)頁頁面中,有利于后續(xù)根據(jù)網(wǎng)頁頁面所記載內容的權威性和準確性,來確定收集到的POI數(shù)據(jù)的準確性,進而為大批量地收集互聯(lián)網(wǎng)中的準確度較高的POI數(shù)據(jù)提供可靠保證。
[0033]下面具體介紹流程示意圖如圖1a所示的用于確定網(wǎng)頁頁面中包括興趣點POI數(shù)據(jù)的方法,包括如下步驟:
[0034]SlOl:從互聯(lián)網(wǎng)中獲取多個POI數(shù)據(jù)。
[0035]具體地,利用網(wǎng)絡爬蟲類的程序,從互聯(lián)網(wǎng)中爬取多個包括POI數(shù)據(jù)的網(wǎng)頁;隨后從多個包括POI數(shù)據(jù)的網(wǎng)頁中提取多個POI數(shù)據(jù)。POI數(shù)據(jù)包括地址信息和POI名稱;優(yōu)選地,POI數(shù)據(jù)還可以包括聯(lián)系方式、郵編和網(wǎng)絡標簽等等。
[0036]本發(fā)明的發(fā)明人發(fā)現(xiàn),在互聯(lián)網(wǎng)中存在這樣一些網(wǎng)頁,它們中每個網(wǎng)頁的內容包含有一個或者多個POI數(shù)據(jù),POI數(shù)據(jù)中的地址信息包括“地址”等字樣的地址關鍵詞;并且這些網(wǎng)頁的頁面結構特征URL格式,以及POI數(shù)據(jù)在網(wǎng)頁中的位置和格式是有規(guī)律性的。也就是說可以通過一種統(tǒng)一的方法快捷地從這些網(wǎng)頁上提取出POI數(shù)據(jù)。
[0037]較佳地,可以從互聯(lián)網(wǎng)中,爬取包括“地址”等地址關鍵詞的多個網(wǎng)頁對應的多個URL (Uniform Resoure Locator,統(tǒng)一資源定位器);對爬取得到的多個URL進行pattern聚類,將具有相同結構特征的URL聚類為同一 pattern集合。
[0038]更優(yōu)地,對于眾多包括地址關鍵詞的網(wǎng)頁中,只包括一個POI數(shù)據(jù)的網(wǎng)頁,獲取所有只包括一個POI數(shù)據(jù)的網(wǎng)頁的URL ;對獲取的所有URL進行pattern聚類,將具有相同結構特征的URL聚類為同一 pattern集合。
[0039]例如,眾多包括地址關鍵詞的網(wǎng)頁中,URL為http://www.aibang.com/detail/1537772035-1606201508的網(wǎng)頁中只包括“愛普生(中國)有限公司”這一 P