欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方式及裝置的制作方法

文檔序號(hào):12719565閱讀:329來(lái)源:國(guó)知局
基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方式及裝置的制作方法

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方式及裝置。



背景技術(shù):

一個(gè)POI(Point Of Interest,興趣點(diǎn))在地理信息系統(tǒng)中可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站等。POI數(shù)據(jù)通常包括地址信息和名稱信息。傳統(tǒng)的POI數(shù)據(jù)采集方法,需要技術(shù)人員通過(guò)精密的測(cè)繪儀器去人工獲取POI的經(jīng)緯度信息并標(biāo)記下來(lái),這種方法消耗的人力和時(shí)間成本較高,導(dǎo)致通過(guò)人工采集得到的POI數(shù)據(jù)的數(shù)量較少。

互聯(lián)網(wǎng)上存在著大量的包含POI數(shù)據(jù)的網(wǎng)頁(yè),如果從網(wǎng)頁(yè)中提取出POI數(shù)據(jù)供地理信息系統(tǒng)使用而非人工測(cè)量,則會(huì)大大節(jié)省人力和時(shí)間成本。但是,由于存在地址或名稱已變更而網(wǎng)頁(yè)未能及時(shí)維護(hù)更新,或個(gè)人用戶上傳低可靠性的信息,互聯(lián)網(wǎng)中獲取POI數(shù)據(jù)準(zhǔn)確性較低,導(dǎo)致通過(guò)互聯(lián)網(wǎng)獲取的POI數(shù)據(jù)與實(shí)際地理位置不相符,準(zhǔn)確性較低。

因此,如何提高在互聯(lián)網(wǎng)中收集POI數(shù)據(jù)的準(zhǔn)確性是亟待解決的問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明針對(duì)現(xiàn)有技術(shù)的缺點(diǎn),提出一種基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方式和裝置,用以解決現(xiàn)有技術(shù)存在的收集較多虛假的POI數(shù)據(jù)問(wèn)題。

本發(fā)明根據(jù)一個(gè)方面,提供了一種基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方式,包括:

獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;

對(duì)所述多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理;

基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè);

基于所述權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性。

優(yōu)選地,對(duì)所述多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類,具體包括:

提取各個(gè)首頁(yè)的統(tǒng)一資源定位符對(duì)應(yīng)的主域;

將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

優(yōu)選地,基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),具體包括:

若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)中選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,所述用戶關(guān)注度通過(guò)以下至少任一項(xiàng)來(lái)確定:

首頁(yè)的平均訪問(wèn)量;

每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)。

優(yōu)選地,基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),具體包括:

若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,基于所述權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性,具體包括:

提取所述權(quán)威網(wǎng)頁(yè)中包括地址信息及名稱信息的名稱地址對(duì);

將所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)與所述名稱地址對(duì)進(jìn)行一一比對(duì);

當(dāng)任一POI數(shù)據(jù)包括的地址信息及名稱信息與所述名稱地址對(duì)相匹配時(shí),確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

優(yōu)選地,將所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)與所述名稱地址對(duì)進(jìn)行一一比對(duì),包括:

對(duì)所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)的地址信息與所述名稱地址對(duì)中的地址信息進(jìn)行歸一化處理,將其分別轉(zhuǎn)化為所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及所述名稱地址對(duì)的經(jīng)緯度信息;

將待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與所述名稱地址 對(duì)的經(jīng)緯度信息及名稱信息進(jìn)行一一比對(duì)。

本發(fā)明根據(jù)另一個(gè)方面,提供了一種基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的裝置,包括:

定位符獲取模塊,用于獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;

聚類處理模塊,用于對(duì)所述多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理;

權(quán)威網(wǎng)頁(yè)確定模塊,用于基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè);

準(zhǔn)確性驗(yàn)證模塊,用于基于所述權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性。

優(yōu)選地,所述聚類處理模塊具體包括:

主域提取單元,用于提取各個(gè)首頁(yè)的統(tǒng)一資源定位符對(duì)應(yīng)的主域;

聚合單元,用于將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

優(yōu)選地,所述權(quán)威網(wǎng)頁(yè)確定模塊具體用于:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)中選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,所述用戶關(guān)注度通過(guò)以下至少任一項(xiàng)來(lái)確定:

首頁(yè)的平均訪問(wèn)量;

每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)。

優(yōu)選地,所述權(quán)威網(wǎng)頁(yè)確定模塊具體用于:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,所述準(zhǔn)確性驗(yàn)證模塊具體包括:

第一提取單元,用于提取所述權(quán)威網(wǎng)頁(yè)中包括地址信息及名稱信息的名稱地址對(duì);

第一比對(duì)單元,用于將所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)與所述名稱地址對(duì)進(jìn)行一一比對(duì);

數(shù)據(jù)確定單元,用于當(dāng)任一POI數(shù)據(jù)包括的地址信息及名稱信息與所述名稱地址對(duì)相匹配時(shí),確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

優(yōu)選地,所述第一比對(duì)單元包括:

歸一化子單元,用于對(duì)所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)的地址信息與所述名稱地址對(duì)中的地址信息進(jìn)行歸一化處理,將其分別轉(zhuǎn)化為所述待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及所述名稱地址對(duì)的經(jīng)緯度信息;

信息對(duì)比子單元,用于將待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與所述名稱地址對(duì)的經(jīng)緯度信息及名稱信息進(jìn)行一一比對(duì)。

本發(fā)明的技術(shù)方案解決了如何判斷在互聯(lián)網(wǎng)中收集到的POI數(shù)據(jù)的準(zhǔn)確性的問(wèn)題。首先,獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;接著,對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理,聚類處理是對(duì)在互聯(lián)網(wǎng)中獲取的多個(gè)首頁(yè)的統(tǒng)一資源定位符依照其共有的主域進(jìn)行歸類;隨后,基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),劃分屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁(yè);最后,基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性,即通過(guò)可靠來(lái)源的權(quán)威網(wǎng)頁(yè)的地址及名稱數(shù)據(jù)來(lái)驗(yàn)證待驗(yàn)證的多個(gè)POI數(shù)據(jù)的準(zhǔn)確性,大大提高了驗(yàn)證多個(gè)POI數(shù)據(jù)準(zhǔn)確性的效。進(jìn)一步地,可通過(guò)驗(yàn)證結(jié)果對(duì)POI數(shù)據(jù)進(jìn)行篩選,并提高基于準(zhǔn)確的POI數(shù)據(jù)的來(lái)提供服務(wù)的產(chǎn)品服務(wù)水準(zhǔn),增加使用這些產(chǎn)品的用戶的體驗(yàn)。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。

附圖說(shuō)明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:

圖1為本發(fā)明實(shí)施例的基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方法的流程示意圖;

圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例的基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方法的流程示意圖;

圖3為本發(fā)明另一優(yōu)選實(shí)施例的基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方法的流程示意圖;

圖4為本發(fā)明另一實(shí)施例的基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說(shuō)明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無(wú)線連接或無(wú)線耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ)),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語(yǔ),應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。

圖1所示是本發(fā)明實(shí)施例的基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的方法的流程示意圖。

步驟S110:獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;步驟S120:對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理;步驟S130:基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè);步驟S140:基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多 個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性。

步驟S110:獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符。

其中,統(tǒng)一資源定位符即URL(Uniform Resoure Locator),URL是對(duì)在互聯(lián)網(wǎng)上可以獲得資源的位置和訪問(wèn)該資源的方法的一種簡(jiǎn)潔表示。在互聯(lián)網(wǎng)中的服務(wù)器上存儲(chǔ)的每個(gè)文件都有一個(gè)唯一的URL,它包括文件的位置信息和與瀏覽器處理該文件信息的方法的相關(guān)信息。如,“北京大學(xué)”的網(wǎng)站首頁(yè)URL:http://www.pku.edu.cn/。

具體地,通過(guò)網(wǎng)頁(yè)蜘蛛等網(wǎng)頁(yè)爬取工具,從互聯(lián)網(wǎng)中爬取多個(gè)首頁(yè),并提取多個(gè)首頁(yè)分別對(duì)應(yīng)的URL。

步驟S120:對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理。

其中,聚類處理是研究樣品或指標(biāo)分類的一種統(tǒng)計(jì)分析的方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要過(guò)程。聚類是由多個(gè)模式組成的,通常,模式是一個(gè)度量的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類處理以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。

優(yōu)選地,如圖2所示,對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類的步驟具體包括步驟S221和步驟S222:步驟S221:提取各個(gè)首頁(yè)的統(tǒng)一資源定位符對(duì)應(yīng)的主域;步驟S222:將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,“北京大學(xué)”的網(wǎng)站首頁(yè)URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn?!氨本┐髮W(xué)沖刺班”的網(wǎng)站首頁(yè)URL:http://www.sprint.pku.edu.cn/,提取其主域:pku.edu.cn?!氨本┐髮W(xué)”的網(wǎng)站首頁(yè)URL與“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL對(duì)應(yīng)同一主域“pku.edu.cn”,因此將“北京大學(xué)”的網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL“http://www.sprint.pku.edu.cn/”聚合為同一類。

需要說(shuō)明的是,互聯(lián)網(wǎng)上還存在一類提供了大量的公司、企業(yè)、餐廳等POI數(shù)據(jù)的網(wǎng)站,例如黃頁(yè)網(wǎng)站提供了大量的公司的POI數(shù)據(jù),這類黃頁(yè)網(wǎng)站的主域下包含了大量的首頁(yè)URL,如果首頁(yè)URL的數(shù)量超過(guò)了設(shè) 定的閾值,則確定該主域?qū)儆诜河?。泛域是主域支持無(wú)限子域的一種形式。如果網(wǎng)站的主域包含了大量的首頁(yè)URL,則分別提取各首頁(yè)URL對(duì)應(yīng)的主域;將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,主域“huangye88.com”下包含了大量的首頁(yè)URL,且該首頁(yè)URL的數(shù)目超過(guò)了設(shè)定的閾值“100個(gè)”,則確定主域“huangye88.com”屬于泛域。主域“huangye88.com”下包含了大量的首頁(yè)URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

分別將泛域下的各首頁(yè)URL放入主域提取模板中,分別提取各首頁(yè)URL對(duì)應(yīng)的主域:huangye88.com;將所有對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)URL聚合為同一類。

步驟S130:基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)的步驟具體包括:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)中選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。其中,用戶關(guān)注度通過(guò)但不限于以下任一項(xiàng)來(lái)確定:首頁(yè)的平均訪問(wèn)量;每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)。

需要說(shuō)明的是,在實(shí)際應(yīng)用場(chǎng)景中,為避免誤確定偶然或惡意注冊(cè)的與其他預(yù)先注冊(cè)的網(wǎng)站域名共屬于同一主域的網(wǎng)站域名為權(quán)威網(wǎng)站,需要對(duì)屬于同一類的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)進(jìn)行篩選,選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。本發(fā)明篩選出的權(quán)威網(wǎng)站的準(zhǔn)確率更高,從而依靠該權(quán)威網(wǎng)站中的相關(guān)數(shù)據(jù)確定POI數(shù)據(jù)準(zhǔn)確性的可靠性更高。

例如,接上例,將“北京大學(xué)”的網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL“http://www.sprint.pku.edu.cn/”聚合為同一類,則在該類中的URL的數(shù)量為2個(gè),且小于第一預(yù)定閾值“20個(gè)”;在上述網(wǎng)站首頁(yè)URL中基于首頁(yè)的平均訪問(wèn)量和每次訪問(wèn)的 平均瀏覽時(shí)長(zhǎng)選擇權(quán)威網(wǎng)頁(yè),如網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”平均訪問(wèn)量為10000人次并且每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)為45分鐘,網(wǎng)站首頁(yè)URL“http://www.sprint.pku.edu.cn/”平均訪問(wèn)量為3人次并且每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)為5分鐘,則選擇平均訪問(wèn)量較高并且每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)較長(zhǎng)的網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”作為權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)的步驟具體包括:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。

例如,對(duì)應(yīng)同一主域“huangye88.com”的URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)網(wǎng)站首頁(yè)URL屬于同一聚合類,確定該類中的網(wǎng)站首頁(yè)URL數(shù)量為1000個(gè),且大于第二預(yù)定閾值“100個(gè)”,則將該類中的多個(gè)網(wǎng)站首頁(yè)URL均定為權(quán)威網(wǎng)頁(yè)。

更優(yōu)地,基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)的步驟還可以包括:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則選擇用戶關(guān)注度大于第三預(yù)定閾值的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。

步驟S140:基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性。

優(yōu)選地,如圖3所示,基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性的步驟具體包括步驟S341、步驟S342和步驟S343:步驟S341:提取權(quán)威網(wǎng)頁(yè)中包括地址信息及名稱信息的名稱地址對(duì);步驟S342:將待驗(yàn)證的多個(gè)POI數(shù)據(jù)與名稱地址對(duì)進(jìn)行一一比對(duì);步驟S343:當(dāng)任一POI數(shù)據(jù)包括的地址信息及名稱信息與名稱地址對(duì)相匹配時(shí),確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

步驟S341:提取權(quán)威網(wǎng)頁(yè)中包括地址信息及名稱信息的名稱地址對(duì)。

具體地,預(yù)先獲取全國(guó)的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等包括地址信息和名稱信息,并根據(jù)獲取的地址信息和名稱,創(chuàng)建地址名稱信息庫(kù)。對(duì)權(quán)威網(wǎng)頁(yè)的文字內(nèi)容做分詞處理,得到分詞結(jié)果;對(duì)于分詞結(jié)果中的每個(gè)詞,若可以從地址名稱信息庫(kù)中查找到該詞,則從地址名稱信息庫(kù)中獲取與該詞相關(guān)的地址信息和名稱信息;根據(jù)獲取的地址信息和名稱信息,生成包括該地址信息及名稱信息的名稱地址對(duì)。

例如,首頁(yè)網(wǎng)址URL“http://www.zto.cn/”對(duì)應(yīng)的網(wǎng)頁(yè)中的文本片段“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”,分詞后得到分詞結(jié)果:“上海市”、“青浦區(qū)”、“華新鎮(zhèn)”、“華志路”和“1685號(hào)”,這些詞都可以在地址名稱信息庫(kù)中查到,則從地址名稱信息庫(kù)中獲取與這些詞相關(guān)的地址信息和名稱信息,生成名稱地址對(duì)。

步驟S342:將待驗(yàn)證的多個(gè)POI數(shù)據(jù)與名稱地址對(duì)進(jìn)行一一比對(duì)。

將待驗(yàn)證的多個(gè)POI數(shù)據(jù)與名稱地址對(duì)進(jìn)行一一比對(duì)的步驟具體包括:對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)的地址信息與名稱地址對(duì)中的地址信息進(jìn)行歸一化處理,將其分別轉(zhuǎn)化為待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及名稱地址對(duì)的經(jīng)緯度信息;將待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與名稱地址對(duì)的經(jīng)緯度信息及名稱信息進(jìn)行一一比對(duì)。

例如,預(yù)先在權(quán)威網(wǎng)頁(yè)URL“http://www.zto.cn/”對(duì)應(yīng)的“中通快遞”的網(wǎng)頁(yè)中提取到“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”地址信息,在地址名稱對(duì)信息庫(kù)中將名稱地址對(duì)中的名稱信息“中通快遞”和地址信息“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”相關(guān)聯(lián)的進(jìn)行存儲(chǔ);對(duì)待驗(yàn)證的POI數(shù)據(jù)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息進(jìn)行分析處理,確定待驗(yàn)證的POI數(shù)據(jù)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”相對(duì)應(yīng)的經(jīng)緯度:北緯N31°13′59.09″東經(jīng)E121°11′59.66″;在地址名稱對(duì)信息庫(kù)中提取與名稱信息“中通快遞”相應(yīng)的地址信息:上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào);對(duì)名稱地址對(duì)中的地址信息進(jìn)行分析處理,確定與名稱地址對(duì)中的地址信息“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”相對(duì)應(yīng)的經(jīng)緯度:北緯N31°13′59.09″東經(jīng)E121°11′59.66″;將待驗(yàn)證的POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與 名稱地址對(duì)的經(jīng)緯度信息及名稱信息進(jìn)行一一比對(duì)。

步驟S343:當(dāng)任一POI數(shù)據(jù)包括的地址信息及名稱信息與名稱地址對(duì)相匹配時(shí),確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

例如,接上例,當(dāng)待驗(yàn)證的POI數(shù)據(jù)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息與名稱地址對(duì)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息相一致,均為:北緯N31°13′59.09″東經(jīng)E121°11′59.66″,則確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

本發(fā)明的技術(shù)方案解決了如何判斷在互聯(lián)網(wǎng)中收集到的POI數(shù)據(jù)的準(zhǔn)確性的問(wèn)題。首先,獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;接著,對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理,聚類處理是對(duì)在互聯(lián)網(wǎng)中獲取的多個(gè)首頁(yè)的統(tǒng)一資源定位符依照其共有的主域進(jìn)行歸類;隨后,基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),劃分屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁(yè);最后,基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性,即通過(guò)可靠來(lái)源的權(quán)威網(wǎng)頁(yè)的地址及名稱數(shù)據(jù)來(lái)驗(yàn)證待驗(yàn)證的多個(gè)POI數(shù)據(jù)的準(zhǔn)確性,大大提高了驗(yàn)證多個(gè)POI數(shù)據(jù)準(zhǔn)確性的效率。進(jìn)一步地,可通過(guò)驗(yàn)證結(jié)果對(duì)POI數(shù)據(jù)進(jìn)行篩選,并提高基于準(zhǔn)確的POI數(shù)據(jù)的來(lái)提供服務(wù)的產(chǎn)品服務(wù)水準(zhǔn),增加使用這些產(chǎn)品的用戶的體驗(yàn)。

圖4所示是本發(fā)明實(shí)施例的一種基于權(quán)威網(wǎng)頁(yè)驗(yàn)證POI數(shù)據(jù)準(zhǔn)確性的裝置的結(jié)構(gòu)示意圖。

定位符獲取模塊410獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;聚類處理模塊420對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理;權(quán)威網(wǎng)頁(yè)確定模塊430基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè);準(zhǔn)確性驗(yàn)證模塊440基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性。

定位符獲取模塊410獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符。

其中,統(tǒng)一資源定位符即URL(Uniform Resoure Locator),URL是 對(duì)在互聯(lián)網(wǎng)上可以獲得資源的位置和訪問(wèn)該資源的方法的一種簡(jiǎn)潔表示。在互聯(lián)網(wǎng)中的服務(wù)器上存儲(chǔ)的每個(gè)文件都有一個(gè)唯一的URL,它包括文件的位置信息和與瀏覽器處理該文件信息的方法的相關(guān)信息。如,“北京大學(xué)”的網(wǎng)站首頁(yè)URL:http://www.pku.edu.cn/。

具體地,通過(guò)網(wǎng)頁(yè)蜘蛛等網(wǎng)頁(yè)爬取工具,從互聯(lián)網(wǎng)中爬取多個(gè)首頁(yè),并提取多個(gè)首頁(yè)分別對(duì)應(yīng)的URL。

聚類處理模塊420對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理。

其中,聚類處理是研究樣品或指標(biāo)分類的一種統(tǒng)計(jì)分析的方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要過(guò)程。聚類是由多個(gè)模式組成的,通常,模式是一個(gè)度量的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類處理以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。

優(yōu)選地,聚類處理模塊420具體包括主域提取單元和聚合單元:主域提取單元提取各個(gè)首頁(yè)的統(tǒng)一資源定位符對(duì)應(yīng)的主域;聚合單元將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,“北京大學(xué)”的網(wǎng)站首頁(yè)URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL:http://www.sprint.pku.edu.cn/,提取其主域:pku.edu.cn?!氨本┐髮W(xué)”的網(wǎng)站首頁(yè)URL與“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL對(duì)應(yīng)同一主域“pku.edu.cn”,因此將“北京大學(xué)”的網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL“http://www.sprint.pku.edu.cn/”聚合為同一類。

需要說(shuō)明的是,互聯(lián)網(wǎng)上還存在一類提供了大量的公司、企業(yè)、餐廳等POI數(shù)據(jù)的網(wǎng)站,例如黃頁(yè)網(wǎng)站提供了大量的公司的POI數(shù)據(jù),這類黃頁(yè)網(wǎng)站的主域下包含了大量的首頁(yè)URL,如果首頁(yè)URL的數(shù)量超過(guò)了設(shè)定的閾值,則確定該主域?qū)儆诜河?。泛域是主域支持無(wú)限子域的一種形式。如果網(wǎng)站的主域包含了大量的首頁(yè)URL,則分別提取各首頁(yè)URL對(duì)應(yīng)的主域;將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,主域“huangye88.com”下包含了大量的首頁(yè)URL,且該首頁(yè) URL的數(shù)目超過(guò)了設(shè)定的閾值“100個(gè)”,則確定主域“huangye88.com”屬于泛域。主域“huangye88.com”下包含了大量的首頁(yè)URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

分別將泛域下的各首頁(yè)URL放入主域提取模板中,分別提取各首頁(yè)URL對(duì)應(yīng)的主域:huangye88.com;將所有對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)URL聚合為同一類。

權(quán)威網(wǎng)頁(yè)確定模塊430基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,權(quán)威網(wǎng)頁(yè)確定模塊430具體用于:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)中選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。其中,用戶關(guān)注度通過(guò)但不限于以下任一項(xiàng)來(lái)確定:首頁(yè)的平均訪問(wèn)量;每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)。

需要說(shuō)明的是,在實(shí)際應(yīng)用場(chǎng)景中,為避免誤確定偶然或惡意注冊(cè)的與其他預(yù)先注冊(cè)的網(wǎng)站域名共屬于同一主域的網(wǎng)站域名為權(quán)威網(wǎng)站,需要對(duì)屬于同一類的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)進(jìn)行篩選,選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。本發(fā)明篩選出的權(quán)威網(wǎng)站的準(zhǔn)確率更高,從而依靠該權(quán)威網(wǎng)站中的相關(guān)數(shù)據(jù)確定POI數(shù)據(jù)準(zhǔn)確性的可靠性更高。

例如,接上例,將“北京大學(xué)”的網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁(yè)URL“http://www.sprint.pku.edu.cn/”聚合為同一類,則在該類中的URL的數(shù)量為2個(gè),且小于第一預(yù)定閾值“20個(gè)”;在上述網(wǎng)站首頁(yè)URL中基于首頁(yè)的平均訪問(wèn)量和每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)選擇權(quán)威網(wǎng)頁(yè),如網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”平均訪問(wèn)量為10000人次并且每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)為45分鐘,網(wǎng)站首頁(yè)URL“http://www.sprint.pku.edu.cn/”平均訪問(wèn)量為3人次并且每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)為5分鐘,則選擇平均訪問(wèn)量較高并且每次訪問(wèn)的平 均瀏覽時(shí)長(zhǎng)較長(zhǎng)的網(wǎng)站首頁(yè)URL“http://www.pku.edu.cn/”作為權(quán)威網(wǎng)頁(yè)。

優(yōu)選地,權(quán)威網(wǎng)頁(yè)確定模塊430具體用于:當(dāng)屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值時(shí),將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。

例如,對(duì)應(yīng)同一主域“huangye88.com”的URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)網(wǎng)站首頁(yè)URL屬于同一聚合類,確定該類中的網(wǎng)站首頁(yè)URL數(shù)量為1000個(gè),且大于第二預(yù)定閾值“100個(gè)”,則將該類中的多個(gè)網(wǎng)站首頁(yè)URL均定為權(quán)威網(wǎng)頁(yè)。

更優(yōu)地,權(quán)威網(wǎng)頁(yè)確定模塊430還可以用于:當(dāng)屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值時(shí),選擇用戶關(guān)注度大于第三預(yù)定閾值的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。

準(zhǔn)確性驗(yàn)證模塊440基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性。

優(yōu)選地,準(zhǔn)確性驗(yàn)證模塊440具體包括第一提取單元、第一比對(duì)單元和數(shù)據(jù)確定單元;第一提取單元提取權(quán)威網(wǎng)頁(yè)中包括地址信息及名稱信息的名稱地址對(duì);第一比對(duì)單元將待驗(yàn)證的多個(gè)POI數(shù)據(jù)與名稱地址對(duì)進(jìn)行一一比對(duì);數(shù)據(jù)確定單元當(dāng)任一POI數(shù)據(jù)包括的地址信息及名稱信息與名稱地址對(duì)相匹配時(shí),確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

第一提取單元提取權(quán)威網(wǎng)頁(yè)中包括地址信息及名稱信息的名稱地址對(duì)。

具體地,預(yù)先獲取全國(guó)的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等包括地址信息和名稱信息,并根據(jù)獲取的地址信息和名稱,創(chuàng)建地址名稱信息庫(kù)。對(duì)權(quán)威網(wǎng)頁(yè)的文字內(nèi)容做分詞處理,得到分詞結(jié)果;對(duì)于分詞結(jié)果中的每個(gè)詞,若可以從地址名稱信息庫(kù)中查找到該詞,則從地址名稱信息庫(kù)中獲取與該詞相關(guān)的地址信息和名稱信息;根據(jù)獲取的地址信息和名稱信息, 生成包括該地址信息及名稱信息的名稱地址對(duì)。

例如,首頁(yè)網(wǎng)址URL“http://www.zto.cn/”對(duì)應(yīng)的網(wǎng)頁(yè)中的文本片段“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”,分詞后得到分詞結(jié)果:“上海市”、“青浦區(qū)”、“華新鎮(zhèn)”、“華志路”和“1685號(hào)”,這些詞都可以在地址名稱信息庫(kù)中查到,則從地址名稱信息庫(kù)中獲取與這些詞相關(guān)的地址信息和名稱信息,生成名稱地址對(duì)。

第一比對(duì)單元將待驗(yàn)證的多個(gè)POI數(shù)據(jù)與名稱地址對(duì)進(jìn)行一一比對(duì)。

優(yōu)選地,第一比對(duì)單元具體包括歸一化子單元和信息對(duì)比子單元:歸一化子單元對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)的地址信息與名稱地址對(duì)中的地址信息進(jìn)行歸一化處理,將其分別轉(zhuǎn)化為待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及名稱地址對(duì)的經(jīng)緯度信息;信息對(duì)比子單元將待驗(yàn)證的多個(gè)POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與名稱地址對(duì)的經(jīng)緯度信息及名稱信息進(jìn)行一一比對(duì)。

例如,預(yù)先在權(quán)威網(wǎng)頁(yè)URL“http://www.zto.cn/”對(duì)應(yīng)的“中通快遞”的網(wǎng)頁(yè)中提取到“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”地址信息,在地址名稱對(duì)信息庫(kù)中將名稱地址對(duì)中的名稱信息“中通快遞”和地址信息“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”相關(guān)聯(lián)的進(jìn)行存儲(chǔ);對(duì)待驗(yàn)證的POI數(shù)據(jù)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息進(jìn)行分析處理,確定待驗(yàn)證的POI數(shù)據(jù)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”相對(duì)應(yīng)的經(jīng)緯度:北緯N31°13′59.09″東經(jīng)E121°11′59.66″;在地址名稱對(duì)信息庫(kù)中提取與名稱信息“中通快遞”相應(yīng)的地址信息:上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào);對(duì)名稱地址對(duì)中的地址信息進(jìn)行分析處理,確定與名稱地址對(duì)中的地址信息“上海市青浦區(qū)華新鎮(zhèn)華志路1685號(hào)”相對(duì)應(yīng)的經(jīng)緯度:北緯N31°13′59.09″東經(jīng)E121°11′59.66″;將待驗(yàn)證的POI數(shù)據(jù)的經(jīng)緯度信息及名稱信息,與名稱地址對(duì)的經(jīng)緯度信息及名稱信息進(jìn)行一一比對(duì)。

數(shù)據(jù)確定單元443當(dāng)任一POI數(shù)據(jù)包括的地址信息及名稱信息與名稱地址對(duì)相匹配時(shí),確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

例如,接上例,當(dāng)待驗(yàn)證的POI數(shù)據(jù)的與名稱信息“中通快遞”對(duì)應(yīng) 的地址信息與名稱地址對(duì)的與名稱信息“中通快遞”對(duì)應(yīng)的地址信息相一致,均為:北緯N31°13′59.09″東經(jīng)E121°11′59.66″,則確定該P(yáng)OI數(shù)據(jù)為準(zhǔn)確的POI數(shù)據(jù)。

本發(fā)明的技術(shù)方案解決了如何判斷在互聯(lián)網(wǎng)中收集到的POI數(shù)據(jù)的準(zhǔn)確性的問(wèn)題。首先,獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;接著,對(duì)多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理,聚類處理是對(duì)在互聯(lián)網(wǎng)中獲取的多個(gè)首頁(yè)的統(tǒng)一資源定位符依照其共有的主域進(jìn)行歸類;隨后,基于聚類結(jié)果從多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),劃分屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁(yè);最后,基于權(quán)威網(wǎng)頁(yè),對(duì)待驗(yàn)證的多個(gè)POI數(shù)據(jù)進(jìn)行準(zhǔn)確性驗(yàn)證,以確定任一POI數(shù)據(jù)的準(zhǔn)確性,即通過(guò)可靠來(lái)源的權(quán)威網(wǎng)頁(yè)的地址及名稱數(shù)據(jù)來(lái)驗(yàn)證待驗(yàn)證的多個(gè)POI數(shù)據(jù)的準(zhǔn)確性,大大提高了驗(yàn)證多個(gè)POI數(shù)據(jù)準(zhǔn)確性的效率。進(jìn)一步地,可通過(guò)驗(yàn)證結(jié)果對(duì)POI數(shù)據(jù)進(jìn)行篩選,并提高基于準(zhǔn)確的POI數(shù)據(jù)的來(lái)提供服務(wù)的產(chǎn)品服務(wù)水準(zhǔn),增加使用這些產(chǎn)品的用戶的體驗(yàn)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請(qǐng)中所述操作中的一項(xiàng)或多項(xiàng)的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計(jì)和制造,或者也可以包括通用計(jì)算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲(chǔ)在其內(nèi)的計(jì)算機(jī)程序,這些計(jì)算機(jī)程序選擇性地激活或重構(gòu)。這樣的計(jì)算機(jī)程序可以被存儲(chǔ)在設(shè)備(例如,計(jì)算機(jī))可讀介質(zhì)中或者存儲(chǔ)在適于存儲(chǔ)電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計(jì)算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、CD-ROM、和磁光盤)、ROM(Read-Only Memory,只讀存儲(chǔ)器)、RAM(Random Access Memory,隨即存儲(chǔ)器)、EPROM(Erasable Programmable Read-Only Memory,可擦寫可編程只讀存儲(chǔ)器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,電可擦可編程只讀存儲(chǔ)器)、閃存、磁性卡片或光線卡片。也就是,可讀介質(zhì)包括由設(shè)備(例如,計(jì)算機(jī))以能夠讀的形式存儲(chǔ)或傳輸信息的任何介質(zhì)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以用計(jì)算機(jī)程序指令來(lái)實(shí)現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個(gè)框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以將這些計(jì)算機(jī)程序指令提供給通用計(jì)算機(jī)、專業(yè)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來(lái)實(shí)現(xiàn),從而通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來(lái)執(zhí)行本發(fā)明公開(kāi)的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個(gè)框中指定的方案。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過(guò)的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地,具有本發(fā)明中已經(jīng)討論過(guò)的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開(kāi)的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。

以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
夏河县| 金阳县| 房山区| 天气| 晋城| 昔阳县| 道真| 河西区| 永寿县| 台州市| 台北市| 江阴市| 辛集市| 新蔡县| 饶河县| 灵丘县| 府谷县| 南江县| 拉萨市| 和田市| 那坡县| 申扎县| 揭阳市| 阳信县| 临沧市| 辽阳县| 鄯善县| 历史| 天气| 惠东县| 三江| 陇西县| 大石桥市| 山阴县| 县级市| 镶黄旗| 麻城市| 汤阴县| 灵璧县| 光泽县| 东城区|