個網(wǎng)站的模板中,在第一行可W提取到興趣點(diǎn)名稱,在最后一行可W提取到 興趣點(diǎn)地址。
[0163] 通過模板,在不同網(wǎng)站的網(wǎng)頁提取了如下興趣點(diǎn)數(shù)據(jù):
[0164]
陽1化]其中,"***A"和"**地"為不同的域名。
[0166] 步驟202,從所述興趣點(diǎn)數(shù)據(jù)中識別錯誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù);
[0167] 本發(fā)明實(shí)施例中錯誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù),是指不符合興趣點(diǎn)規(guī)范的數(shù)據(jù),包 括錯誤的名稱、地址等等。
[0168] 在本發(fā)明的一個可選實(shí)施例中,步驟202可W包括如下子步驟:
[0169] 子步驟S21,將標(biāo)識同一對象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合;
[0170] P0I數(shù)據(jù)一般都會標(biāo)識一個對象,如一棟房子、一個商鋪、一個郵筒、一個公交站 等。 陽171] 由于該對象的地址信息的準(zhǔn)確性一般比較高,因此,在本發(fā)明實(shí)施例中,可W通過 將興趣點(diǎn)地址進(jìn)行歸一化,判斷興趣點(diǎn)地址是否相同或相似;若是,則將興趣點(diǎn)地址關(guān)聯(lián)的 興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合。 陽172] 例如,"愉林愉陽膚施路今日潮大酒店隔壁東恒百貨Ξ樓"、"愉林愉陽區(qū)膚施路今 日潮隔壁東恒百貨Ξ樓第一營業(yè)部"、"愉林愉陽南口口東恒百貨大樓3樓"和"陜西愉林南 口口東恒百貨批發(fā)Ξ樓"運(yùn)4個興趣點(diǎn)地址雖然形式上不完全相同,但是通過歸一化可W確 定它們的地址都為"愉林市愉陽區(qū)東恒百貨大樓Ξ樓"。
[0173] 即其關(guān)聯(lián)的"世界500強(qiáng)企業(yè)"、"中國平安保險(xiǎn)公司"、"中國平安愉林分公司"和 "中國平安保險(xiǎn)股份有限公司愉林分公司"為興趣點(diǎn)名稱集合。
[0174] 子步驟S22,從所述興趣點(diǎn)名稱集合中識別錯誤的第二目標(biāo)興趣點(diǎn)名稱;
[01巧]在本發(fā)明實(shí)施例中,可W通過挖掘興趣點(diǎn)名稱的關(guān)鍵詞來篩選錯誤的P0I名稱, 即第二目標(biāo)興趣點(diǎn)名稱。
[0176] 在本發(fā)明的一個可選實(shí)施例中,子步驟S22進(jìn)一步可W包括如下子步驟: 陽177] 子步驟S121,在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞;
[0178] 在本發(fā)明實(shí)施例中,關(guān)鍵詞可W為包含的信息量最大,體現(xiàn)興趣點(diǎn)名稱特征的詞。
[0179] 在具體實(shí)現(xiàn)中,可W對興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個 或多個分詞;
[0180] 查找分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻,該興趣點(diǎn)集合為抓取到的網(wǎng)頁中的 P0I數(shù)據(jù)的集合,該P(yáng)0I數(shù)據(jù)的數(shù)量可W多達(dá)數(shù)千萬,該第一詞頻是根據(jù)該數(shù)千萬的P0I數(shù) 據(jù)的名稱統(tǒng)計(jì)。 陽181]本發(fā)明實(shí)施例中,可W采用如下的一種或多種分詞處理: 陽182] 1、基于字符串匹配的分詞:是指按照一定的策略將待分析的漢字串與一個預(yù)置的 機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。 [0183] 2、基于特征掃描或標(biāo)志切分的分詞:是指優(yōu)先在待分析字符串中識別和切分出 一些帶有明顯特征的詞,W運(yùn)些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞, 從而減少匹配的錯誤率;或者將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決 策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而提高切分的準(zhǔn)確 率。 陽184] 3、基于理解的分詞:是指通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。 其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義 現(xiàn)象。它通常包括Ξ個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào) 下,分詞子系統(tǒng)可W獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模 擬了人對句子的理解過程。運(yùn)種分詞方法需要使用大量的語言知識和信息。
[0185] 4、基于統(tǒng)計(jì)的分詞方法:是指,中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能 夠較好的反映成詞的可信度,所W可W對語料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng) 計(jì),計(jì)算它們的互現(xiàn)信息,W及計(jì)算兩個漢字Χ、γ的相鄰共現(xiàn)概率。互現(xiàn)信息可W體現(xiàn)漢字 之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個闊值時,便可認(rèn)為此字組可能構(gòu)成了一 個詞。 陽186]例如,對于上述興趣點(diǎn)名稱,可W切分如下分詞: 陽187]
[0189] 當(dāng)?shù)谝辉~頻最少時,其包含的信息量一般最大,則可W將同一個興趣點(diǎn)名稱中第 一詞頻最低的X個分詞,作為興趣點(diǎn)名稱的關(guān)鍵詞,其中,X為正整數(shù)。 陽190] 例如,對于上述興趣點(diǎn)名稱,可W提取如下關(guān)鍵詞:
[0191]
陽19引其中,"企業(yè)"、"公司"、"分公司"等詞的第一詞頻較高,包含的信息量較少,僅表示 企業(yè)/公司身份,指向性不明確,不適宜作為關(guān)鍵詞平安"等詞的第一詞頻較較低,包含的 信息量較多,即常用的企業(yè)縮寫名稱,適宜作為關(guān)鍵詞。 陽19引需要說明的是,可W預(yù)先獲取全國的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等地址數(shù)據(jù),創(chuàng)建 一個地址數(shù)據(jù)庫。
[0194] 當(dāng)分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時,例如"中國"、"愉林"等等,為無效的關(guān)鍵詞,可 W移除該分詞。 陽1巧]子步驟S222,依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識別錯誤的第二目標(biāo)興趣點(diǎn)名 稱。
[0196] 在具體實(shí)現(xiàn)中,可W計(jì)算關(guān)鍵詞在興趣點(diǎn)名稱集合中的第二詞頻,將第二詞頻最 低的Z個關(guān)鍵詞所屬的興趣點(diǎn)名稱作確定為正確的目標(biāo)興趣點(diǎn)名稱,其中,Z為正整數(shù)。
[0197] 例如,對于上述興趣點(diǎn)名稱的關(guān)鍵詞,"世界"的第二詞頻為1,"平安"的第二詞頻 為3,"世界"的第二詞頻較低,可W確認(rèn)其所屬的"世界500強(qiáng)企業(yè)"為錯誤的第二目標(biāo)興 趣點(diǎn)名稱。
[0198] 子步驟S23,確定所述第二目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為錯誤的第二目標(biāo) 興趣點(diǎn)數(shù)據(jù)。
[0199] 當(dāng)P0I的名稱錯誤時,可W確認(rèn)該P(yáng)0I為錯誤的P0I。 陽200] 步驟203,統(tǒng)計(jì)歸屬同一個網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量; 陽201] 在實(shí)際應(yīng)用中,可W查找第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對應(yīng)的U化,當(dāng)所述第二目標(biāo)興趣點(diǎn) 數(shù)據(jù)對應(yīng)的URL屬于同一個網(wǎng)站的域名時,統(tǒng)計(jì)第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量。 陽202] 例如,對于上述興趣點(diǎn)數(shù)據(jù)的示例,"世界500強(qiáng)企業(yè)"、"中國平安保險(xiǎn)公司"、"中 國平安愉林分公司"的U化屬于同一個網(wǎng)站的域名"***A",即運(yùn)些興趣點(diǎn)名稱屬于同一個 網(wǎng)站,運(yùn)個網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第一數(shù)量為1。 陽203] 步驟204,根據(jù)所述第二數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。 陽204] 在具體實(shí)現(xiàn)中,可W依據(jù)第二數(shù)量計(jì)算錯誤率,即二而數(shù)量與總數(shù)量的比值,如上 述域名為的網(wǎng)站的錯誤率為33. 33%。 陽205] 按照正確率確定網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度,此時,置信度表征不可信度。 陽206] 在一個示例中,可W直接將正確率賦值給置信度; 陽207] 在另一個示例中,可W針對不同時間段的錯誤率配置權(quán)重,該權(quán)重按照時間衰減, 將配置權(quán)重的錯誤率按照求和等方式計(jì)算置信度。 陽20引當(dāng)然,上述置信度的計(jì)算方式只是作為示例,在實(shí)施本發(fā)明實(shí)施例時,可W根據(jù)實(shí) 際情況設(shè)置其他置信度的計(jì)算方式,本發(fā)明實(shí)施例對此不加W限制。另外,除了上述置信度 的計(jì)算方式外,本領(lǐng)域技術(shù)人員還可W根據(jù)實(shí)際需要采用其它置信度的計(jì)算方式,本發(fā)明 實(shí)施例對此也不加W限制。 陽209] 當(dāng)置信度低于預(yù)設(shè)的第二闊值時,表明該網(wǎng)站的P0I來源是不可信的,禁止從該 網(wǎng)站的網(wǎng)頁提取興趣點(diǎn)數(shù)據(jù)。
[0210] 本發(fā)明實(shí)施例從網(wǎng)頁提取中的興趣點(diǎn)數(shù)據(jù)中識別錯誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù),并 統(tǒng)計(jì)歸屬同一個網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量確定網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度, 從而在后續(xù)的操作中剔除運(yùn)些錯誤的P0I數(shù)據(jù),降低了操作的錯誤率,減少了資源浪費(fèi)。 陽211] 進(jìn)而,根據(jù)置信度禁止從運(yùn)些不可信的P0I數(shù)據(jù)來源抓取P0I數(shù)據(jù),抓取到的P0I 數(shù)據(jù)的正確性高,減少了計(jì)算機(jī)的系統(tǒng)資源和帶寬資源的浪費(fèi),提高了P0I數(shù)據(jù)抓取效率。 [0212] 參照圖3,示出了根據(jù)本發(fā)明一個實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度方法 實(shí)施例3的步驟流程圖,具體可W包括如下步驟: 陽213] 步驟301,在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù);
[0214] 步驟302,從所述興趣點(diǎn)數(shù)據(jù)中識別正確的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)和錯誤的第二目 標(biāo)興趣點(diǎn)數(shù)據(jù);
[0215] 步驟303,統(tǒng)計(jì)歸屬同一個網(wǎng)站的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)的第一數(shù)量和第二目標(biāo)興 趣點(diǎn)數(shù)據(jù)的第二數(shù)量;
[0216] 步驟304,根據(jù)所述第一數(shù)量和所述第二數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信 度。
[0217] 在本發(fā)明的一個可選實(shí)施例中,該方法還可W包括如下步驟:
[0218] 步驟305,當(dāng)所述置信度高于預(yù)設(shè)的第一闊值時,允許從所述網(wǎng)站的網(wǎng)頁提取興趣 點(diǎn)數(shù)據(jù);
[0219] 步驟306,當(dāng)所述置信度低于預(yù)設(shè)的第二闊值時,禁止從所述網(wǎng)站的網(wǎng)頁提取興趣 點(diǎn)數(shù)據(jù)。
[0220] 在本發(fā)明的一個可選實(shí)施例中,步驟301可W包括如下子步驟: 陽221] 子步驟S31,查找針對網(wǎng)頁配置的模板; 陽222] 子步驟S32,在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點(diǎn)數(shù)據(jù)。 陽223] 在本發(fā)明的一個可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)名稱;步驟302可W 包括如下子步驟:
[0224] 子步驟S41,將標(biāo)識同一對象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合;
[0225] 子步驟S42,從所述興趣點(diǎn)名稱集合中識別正確的第一目標(biāo)興趣點(diǎn)名稱和錯誤的 第二目標(biāo)興趣點(diǎn)名稱; 陽226] 子步驟S43,確定所述第一目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為正確的第一目標(biāo) 興趣點(diǎn)數(shù)據(jù); 陽227] 子步驟S44,確定所述第二目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為錯誤的第二目標(biāo) 興趣點(diǎn)數(shù)據(jù)。 陽22引在本發(fā)明的一個可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)地址;子步驟S41進(jìn) 一步可W包括如下子步驟:
[0229] 子步驟S411,判斷所述興趣點(diǎn)地址是否相同或相似;若是,則執(zhí)行子步驟S412 ;
[0230] 子步驟S412,將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合。 陽231] 在本發(fā)明的一個可選實(shí)施例中,子步驟S42進(jìn)一步可W包括如下子步驟: 陽232] 子步驟S421,在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞; 陽233] 子步驟S422,依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識別正確的第一目標(biāo)興趣點(diǎn)名 稱和錯誤的第二目標(biāo)興趣點(diǎn)名稱。
[0234] 在本發(fā)明的一個可選實(shí)施例中,子步驟S421進(jìn)一步可W包括如下子步驟:
[0235] 子步驟S4211,對所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個或