1.一種基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,其特征在于,包括:
獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;
對所述多個首頁的統(tǒng)一資源定位符進行聚類處理;
基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁;
基于所述權(quán)威網(wǎng)頁,對待驗證的多個POI數(shù)據(jù)進行準確性驗證,以確定任一POI數(shù)據(jù)的準確性。
2.根據(jù)權(quán)利要求1所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,其中,對所述多個首頁的統(tǒng)一資源定位符進行聚類,具體包括:
提取各個首頁的統(tǒng)一資源定位符對應(yīng)的主域;
將對應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。
3.根據(jù)權(quán)利要求2所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,其中,基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁,具體包括:
若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個統(tǒng)一資源定位符對應(yīng)的多個首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。
4.根據(jù)權(quán)利要求3所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,其中,所述用戶關(guān)注度通過以下至少任一項來確定:
首頁的平均訪問量;
每次訪問的平均瀏覽時長。
5.根據(jù)權(quán)利要求2所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,其中,基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁,具體包括:
若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個統(tǒng)一資源定位符對應(yīng)的多個首頁均確定為權(quán)威網(wǎng)頁。
6.根據(jù)權(quán)利要求1-5任一項所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,基于所述權(quán)威網(wǎng)頁,對待驗證的多個POI數(shù)據(jù)進行準確性驗證,以確定任一POI數(shù)據(jù)的準確性,具體包括:
提取所述權(quán)威網(wǎng)頁中包括地址信息及名稱信息的名稱地址對;
將所述待驗證的多個POI數(shù)據(jù)與所述名稱地址對進行一一比對;
當任一POI數(shù)據(jù)包括的地址信息及名稱信息與所述名稱地址對相匹配時,確定該POI數(shù)據(jù)為準確的POI數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的方式,將所述待驗證的多個POI數(shù)據(jù)與所述名稱地址對進行一一比對,包括:
對所述待驗證的多個POI數(shù)據(jù)的地址信息與所述名稱地址對中的地址信息進行歸一化處理,將其分別轉(zhuǎn)化為所述待驗證的多個POI數(shù)據(jù)的經(jīng)緯度信息及所述名稱地址對的經(jīng)緯度信息;
將待驗證的多個POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與所述名稱地址對的經(jīng)緯度信息及名稱信息進行一一比對。
8.一種基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的裝置,其特征在于,包括:
定位符獲取模塊,用于獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;
聚類處理模塊,用于對所述多個首頁的統(tǒng)一資源定位符進行聚類處理;
權(quán)威網(wǎng)頁確定模塊,用于基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁;
準確性驗證模塊,用于基于所述權(quán)威網(wǎng)頁,對待驗證的多個POI數(shù)據(jù)進行準確性驗證,以確定任一POI數(shù)據(jù)的準確性。
9.根據(jù)權(quán)利要求8所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的裝置,其中,所述聚類處理模塊具體包括:
主域提取單元,用于提取各個首頁的統(tǒng)一資源定位符對應(yīng)的主域;
聚合單元,用于將對應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。
10.根據(jù)權(quán)利要求9所述的基于權(quán)威網(wǎng)頁驗證POI數(shù)據(jù)準確性的裝置,其中,所述權(quán)威網(wǎng)頁確定模塊具體用于:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個統(tǒng)一資源定位符對應(yīng)的多個首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。