一種網(wǎng)站中興趣點數(shù)據(jù)的置信度的判定方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計算機(jī)處理的技術(shù)領(lǐng)域,特別是設(shè)及一種網(wǎng)站中興趣點數(shù)據(jù)的置信度 方法和一種網(wǎng)站中興趣點數(shù)據(jù)的置信度裝置。
【背景技術(shù)】 陽00引興趣點(PointofInterest,P0I),又可W稱為"信息點",其包含多方面的信息, 如名稱、類別、經(jīng)度締度等等。
[0003] 在地理信息系統(tǒng)中,一個P0I可W是一棟房子、一個商鋪、一個郵筒、一個公交站 等。
[0004] 傳統(tǒng)的地理信息采集方法需要地圖測繪人員采用精密的測繪儀器去獲取一個興 趣點的經(jīng)締度,然后再標(biāo)記下來。 陽0化]正因為P0I數(shù)據(jù)的采集是一個非常費時費事的工作,對一個地理信息系統(tǒng)來說,P0I的數(shù)量在一定程度代表著整個系統(tǒng)的價值。
[0006] 為了豐富地理信息系統(tǒng)的P0I數(shù)據(jù)的數(shù)量,目前從網(wǎng)頁中挖掘P0I數(shù)據(jù),大多是根 據(jù)網(wǎng)頁的結(jié)構(gòu)配置合適的模板,通過模板來提取。
[0007] 但是,用戶并不一定會按照網(wǎng)頁的規(guī)定去發(fā)布信息,使得運些包含P0I的網(wǎng)站中 充斥著大量的臟數(shù)據(jù),是錯誤的P0I數(shù)據(jù)。
[0008] 例如,某個網(wǎng)站約定網(wǎng)頁的一個區(qū)域是發(fā)布公司名稱,但是,有的用戶可能發(fā)布諸 如"世界五百強(qiáng)企業(yè)"等數(shù)據(jù),并非是一個真正的P0I名稱。
[0009] 若后續(xù)應(yīng)用運些錯誤的P0I數(shù)據(jù)進(jìn)行導(dǎo)航等操作,操作的錯誤率高,造成資源浪 費。
[0010] 并且,計算機(jī)一直抓取運些錯誤的P0I數(shù)據(jù),浪費計算機(jī)的系統(tǒng)資源和帶寬資源, P0I數(shù)據(jù)抓取效率很低。
【發(fā)明內(nèi)容】
[0011] 鑒于上述問題,提出了本發(fā)明W便提供一種克服上述問題或者至少部分地解決上 述問題的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度方法和相應(yīng)的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度 裝置。
[0012] 依據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)站中興趣點數(shù)據(jù)的置信度的判定方法,包 括:
[0013] 在網(wǎng)頁中提取興趣點數(shù)據(jù);
[0014] 從所述興趣點數(shù)據(jù)中識別正確的第一目標(biāo)興趣點數(shù)據(jù);
[0015] 統(tǒng)計歸屬同一個網(wǎng)站的第一目標(biāo)興趣點數(shù)據(jù)的第一數(shù)量;
[0016] 根據(jù)所述第一數(shù)量確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信度。
[0017] 可選地,還包括:
[0018] 當(dāng)所述置信度高于預(yù)設(shè)的第一闊值時,允許從所述網(wǎng)站的網(wǎng)頁提取興趣點數(shù)據(jù)。
[0019] 可選地,所述在網(wǎng)頁中提取興趣點數(shù)據(jù)的步驟包括:
[0020] 查找針對網(wǎng)頁配置的模板;
[0021] 在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點數(shù)據(jù)。
[0022] 可選地,所述興趣點數(shù)據(jù)包括興趣點名稱;
[0023] 所述從所述興趣點數(shù)據(jù)中識別正確的第一目標(biāo)興趣點數(shù)據(jù)的步驟包括:
[0024] 將標(biāo)識同一對象的興趣點名稱設(shè)置為興趣點名稱集合;
[0025] 從所述興趣點名稱集合中識別正確的第一目標(biāo)興趣點名稱;
[00%] 確定所述第一目標(biāo)興趣點名稱所屬的興趣點數(shù)據(jù)為正確的第一目標(biāo)興趣點數(shù)據(jù)。
[0027] 可選地,所述興趣點數(shù)據(jù)包括興趣點地址;
[0028] 所述將標(biāo)識同一對象的興趣點名稱設(shè)置為興趣點名稱集合的步驟包括:
[0029] 判斷所述興趣點地址是否相同或相似;若是,則將所述興趣點地址關(guān)聯(lián)的興趣點 名稱設(shè)置為興趣點名稱集合。
[0030] 可選地,所述從所述興趣點名稱集合中識別正確的第一目標(biāo)興趣點名稱的步驟包 括:
[0031] 在所述興趣點名稱集合中的興趣點名稱選取關(guān)鍵詞;
[0032] 依據(jù)所述關(guān)鍵詞從所述興趣點名稱中識別正確的第一目標(biāo)興趣點名稱。
[0033] 可選地,所述在所述興趣點名稱集合中的興趣點名稱選取關(guān)鍵詞的步驟包括:
[0034] 對所述興趣點名稱集合中的興趣點名稱進(jìn)行分詞處理,獲得一個或多個分詞;
[0035] 查找所述分詞在預(yù)設(shè)的興趣點集合中的第一詞頻;
[0036] 將同一個興趣點名稱中第一詞頻最低的X個分詞,作為所述興趣點名稱的關(guān)鍵 詞,其中,X為正整數(shù)。
[0037] 可選地,所述在所述興趣點名稱集合中的興趣點名稱選取關(guān)鍵詞的步驟還包括:
[0038] 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時,移除所述分詞。
[0039] 可選地,所述依據(jù)所述關(guān)鍵詞從所述興趣點名稱中識別正確的第一目標(biāo)興趣點名 稱的步驟包括:
[0040] 計算所述關(guān)鍵詞在所述興趣點集合中的第二詞頻;
[0041] 將所述第二詞頻最高的Y個關(guān)鍵詞所屬的興趣點名稱作為正確的第一目標(biāo)興趣 點名稱,其中,Y為正整數(shù)。 陽0創(chuàng)可選地,所述興趣點數(shù)據(jù)包括U化;
[0043] 所述統(tǒng)計歸屬同一個網(wǎng)站的第一目標(biāo)興趣點數(shù)據(jù)的第一數(shù)量的步驟包括:
[0044] 查找所述第一目標(biāo)興趣點數(shù)據(jù)對應(yīng)的U化;
[0045] 當(dāng)所述第一目標(biāo)興趣點數(shù)據(jù)對應(yīng)的U化屬于同一個網(wǎng)站的域名時,統(tǒng)計所述第一 目標(biāo)興趣點數(shù)據(jù)的第一數(shù)量。
[0046] 可選地,所述根據(jù)所述第一數(shù)量確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信度的步驟包 括:
[0047] 依據(jù)所述第一數(shù)量計算正確率;
[0048] 按照所述正確率確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信度。
[0049] 根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)站中興趣點數(shù)據(jù)的置信度的判定裝置,包 括:
[0050] 興趣點數(shù)據(jù)提取模塊,適于在網(wǎng)頁中提取興趣點數(shù)據(jù);
[0051] 正確興趣點數(shù)據(jù)識別模塊,適于從所述興趣點數(shù)據(jù)中識別正確的第一目標(biāo)興趣點 數(shù)據(jù);
[0052] 正確數(shù)量統(tǒng)計模塊,適于統(tǒng)計歸屬同一個網(wǎng)站的第一目標(biāo)興趣點數(shù)據(jù)的第一數(shù) 量;
[0053] 可信置信度確定模塊,適于根據(jù)所述第一數(shù)量確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信 度。
[0054] 可選地,還包括: 陽化5] 允許提取模塊,適于在所述置信度高于預(yù)設(shè)的第一闊值時,允許從所述網(wǎng)站的網(wǎng) 頁提取興趣點數(shù)據(jù)。
[0056] 可選地,所興趣點數(shù)據(jù)提取模塊還適于:
[0057] 查找針對網(wǎng)頁配置的模板;
[0058] 在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點數(shù)據(jù)。
[0059] 可選地,所述興趣點數(shù)據(jù)包括興趣點名稱;
[0060] 所述正確興趣點數(shù)據(jù)識別模塊還適于:
[0061] 將標(biāo)識同一對象的興趣點名稱設(shè)置為興趣點名稱集合;
[0062] 從所述興趣點名稱集合中識別正確的第一目標(biāo)興趣點名稱;
[0063] 確定所述第一目標(biāo)興趣點名稱所屬的興趣點數(shù)據(jù)為正確的第一目標(biāo)興趣點數(shù)據(jù)。
[0064] 可選地,所述興趣點數(shù)據(jù)包括興趣點地址; 陽0化]所述正確興趣點數(shù)據(jù)識別模塊還適于:
[0066] 判斷所述興趣點地址是否相同或相似;若是,則將所述興趣點地址關(guān)聯(lián)的興趣點 名稱設(shè)置為興趣點名稱集合。
[0067] 可選地,所述正確興趣點數(shù)據(jù)識別模塊還適于:
[0068] 在所述興趣點名稱集合中的興趣點名稱選取關(guān)鍵詞;
[0069] 依據(jù)所述關(guān)鍵詞從所述興趣點名稱中識別正確的第一目標(biāo)興趣點名稱。
[0070] 可選地,所述正確興趣點數(shù)據(jù)識別模塊還適于:
[0071] 對所述興趣點名稱集合中的興趣點名稱進(jìn)行分詞處理,獲得一個或多個分詞;
[0072] 查找所述分詞在預(yù)設(shè)的興趣點集合中的第一詞頻;
[0073] 將同一個興趣點名稱中第一詞頻最低的X個分詞,作為所述興趣點名稱的關(guān)鍵 詞,其中,X為正整數(shù)。
[0074] 可選地,所述正確興趣點數(shù)據(jù)識別模塊還適于:
[00巧]當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時,移除所述分詞。
[0076] 可選地,所述正確興趣點數(shù)據(jù)識別模塊還適于:
[0077] 計算所述關(guān)鍵詞在所述興趣點集合中的第二詞頻;
[0078] 將所述第二詞頻最高的Y個關(guān)鍵詞所屬的興趣點名稱作為正確的第一目標(biāo)興趣 點名稱,其中,Y為正整數(shù)。
[0079] 可選地,所述興趣點數(shù)據(jù)包括U化;
[0080] 所述正確數(shù)量統(tǒng)計模塊還適于:
[0081] 查找所述第一目標(biāo)興趣點數(shù)據(jù)對應(yīng)的U化;
[0082] 當(dāng)所述第一目標(biāo)興趣點數(shù)據(jù)對應(yīng)的U化屬于同一個網(wǎng)站的域名時,統(tǒng)計所述第一 目標(biāo)興趣點數(shù)據(jù)的第一數(shù)量。
[0083] 可選地,所述可信置信度確定模塊還適于: 陽084] 依據(jù)所述第一數(shù)量計算正確率;
[00化]按照所述正確率確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信度。
[0086] 本發(fā)明實施例從網(wǎng)頁提取中的興趣點數(shù)據(jù)中識別正確的第一目標(biāo)興趣點數(shù)據(jù),并 統(tǒng)計歸屬同一個網(wǎng)站的第一目標(biāo)興趣點數(shù)據(jù)的第一數(shù)量確定網(wǎng)站中興趣點數(shù)據(jù)的置信度, 從而在后續(xù)的操作中應(yīng)用運些正確的P0I數(shù)據(jù),降低了操作的錯誤率,減少了資源浪費。
[0087] 進(jìn)而,根據(jù)置信度允許從運些可信的P0I數(shù)據(jù)來源抓取P0I數(shù)據(jù),抓取到的P0I數(shù) 據(jù)的正確性高,減少了計算機(jī)的系統(tǒng)資源和帶寬資源的浪費,提高了P0I數(shù)據(jù)抓取效率。
[0088] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予W實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,W下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0089] 通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0090] 圖1示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度方法實施 例1的步驟流程圖;
[0091] 圖2示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度方法實施 例2的步驟流程圖;
[0092] 圖3示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度方法實施 例3的步驟流程圖;
[0093] 圖4示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度的判定裝 置實施例1的結(jié)構(gòu)框圖;
[0094] 圖5示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度的判定