本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)名稱;
[0340] 所述興趣點(diǎn)數(shù)據(jù)識(shí)別模塊602還可W適于: 陽341] 將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合; 陽342] 從所述興趣點(diǎn)名稱集合中識(shí)別正確的第一目標(biāo)興趣點(diǎn)名稱和錯(cuò)誤的第二目標(biāo)興 趣點(diǎn)名稱; 陽343] 確定所述第一目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為正確的第一目標(biāo)興趣點(diǎn)數(shù) 據(jù);
[0344] 確定所述第二目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為錯(cuò)誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)。
[0345] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)地址; 陽346] 所述興趣點(diǎn)數(shù)據(jù)識(shí)別模塊602還可W適于: 陽347] 判斷所述興趣點(diǎn)地址是否相同或相似;若是,則將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn) 名稱設(shè)置為興趣點(diǎn)名稱集合。
[0348] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)識(shí)別模塊602還可W適于:
[0349] 在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞; 陽350] 依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別正確的第一目標(biāo)興趣點(diǎn)名稱和錯(cuò)誤的 第二目標(biāo)興趣點(diǎn)名稱。 陽351] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)識(shí)別模塊602還可W適于: 陽352] 對(duì)所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個(gè)或多個(gè)分詞; 陽353] 查找所述分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻; 陽354] 將同一個(gè)興趣點(diǎn)名稱中第一詞頻最低的X個(gè)分詞,作為所述興趣點(diǎn)名稱的關(guān)鍵 詞,其中,X為正整數(shù)。 陽355] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)識(shí)別模塊602還可W適于: 陽356] 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時(shí),移除所述分詞。 陽357] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)識(shí)別模塊602還可W適于: 陽35引計(jì)算所述關(guān)鍵詞在所述興趣點(diǎn)集合中的第二詞頻; 陽359] 將所述第二詞頻最高的Y個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱作為正確的第一目標(biāo)興趣 點(diǎn)名稱;
[0360] 將所述第二詞頻最低的Z個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱作為錯(cuò)誤的第二目標(biāo)興趣 點(diǎn)名稱,其中,Υ、ζ為正整數(shù)。 陽361] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述興趣點(diǎn)數(shù)據(jù)包括U化; 陽362] 所述數(shù)量統(tǒng)計(jì)模塊403還可W適于: 陽363] 查找所述第一目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的U化和所述第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的 URL ;
[0364] 當(dāng)所述第一目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的U化屬于同一個(gè)網(wǎng)站的域名時(shí),統(tǒng)計(jì)所述第一 目標(biāo)興趣點(diǎn)數(shù)據(jù)的第一數(shù)量;
[0365] 當(dāng)所述第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的U化屬于同一個(gè)網(wǎng)站的域名時(shí),統(tǒng)計(jì)所述第二 目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量。 陽366] 在本發(fā)明的一個(gè)可選實(shí)施例中,所述置信度確定模塊604還可W適于: 陽367] 依據(jù)所述第一數(shù)量計(jì)算正確率;
[0368] 依據(jù)所述第二數(shù)量計(jì)算錯(cuò)誤率;
[0369] 按照所述正確率和所述錯(cuò)誤率確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。
[0370] 對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所W描述的比較簡(jiǎn)單,相關(guān) 之處參見方法實(shí)施例的部分說明即可。 陽371] 在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可W與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造運(yùn)類系統(tǒng)所要求 的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可w利用各種 編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā) 明的最佳實(shí)施方式。 陽372]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施 例可W在沒有運(yùn)些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù),W便不模糊對(duì)本說明書的理解。 陽373]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此, 遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身 都作為本發(fā)明的單獨(dú)實(shí)施例。 陽374]本領(lǐng)域那些技術(shù)人員可W理解,可W對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??蒞把實(shí)施例中的模塊或單 元或組件組合成一個(gè)模塊或單元或組件,W及此外可W把它們分成多個(gè)子模塊或子單元或 子組件。除了運(yùn)樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可W采用任 何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征W及如此公開 的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴 隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可W由提供相同、等同或相似目的的替代 特征來代替。
[03巧]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任 意之一都可WW任意的組合方式來使用。 陽376]本發(fā)明的各個(gè)部件實(shí)施例可WW硬件實(shí)現(xiàn),或者W在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者W它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可W在實(shí)踐中使用 微處理器或者數(shù)字信號(hào)處理器值S巧來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置 信度的判定設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可W實(shí)現(xiàn)為用于執(zhí) 行運(yùn)里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī) 程序產(chǎn)品)。運(yùn)樣的實(shí)現(xiàn)本發(fā)明的程序可W存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可W具有一個(gè)或 者多個(gè)信號(hào)的形式。運(yùn)樣的信號(hào)可W從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或 者W任何其他形式提供。 陽377]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞"包含"不排除存在 未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)運(yùn) 樣的元件。本發(fā)明可W借助于包括有若干不同元件的硬件W及借助于適當(dāng)編程的計(jì)算機(jī)來 實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,運(yùn)些裝置中的若干個(gè)可W是通過同一個(gè)硬件 項(xiàng)來具體體現(xiàn)。單詞第一、第二、W及第Ξ等的使用不表示任何順序??蓪⑦\(yùn)些單詞解釋為 名稱。
【主權(quán)項(xiàng)】
1. 一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定方法,包括: 在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù); 從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別正確的第一目標(biāo)興趣點(diǎn)數(shù)據(jù); 統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)的第一數(shù)量; 根據(jù)所述第一數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。2. 如權(quán)利要求1所述的方法,其特征在于,還包括: 當(dāng)所述置信度高于預(yù)設(shè)的第一閾值時(shí),允許從所述網(wǎng)站的網(wǎng)頁提取興趣點(diǎn)數(shù)據(jù)。3. 如權(quán)利要求1-2任一項(xiàng)所述的方法,其特征在于,所述在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù)的 步驟包括: 查找針對(duì)網(wǎng)頁配置的模板; 在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點(diǎn)數(shù)據(jù)。4. 如權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)名稱; 所述從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別正確的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)的步驟包括: 將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合; 從所述興趣點(diǎn)名稱集合中識(shí)別正確的第一目標(biāo)興趣點(diǎn)名稱; 確定所述第一目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為正確的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)。5. 如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)地址; 所述將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合的步驟包括: 判斷所述興趣點(diǎn)地址是否相同或相似;若是,則將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn)名稱 設(shè)置為興趣點(diǎn)名稱集合。6. 如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述從所述興趣點(diǎn)名稱集合中識(shí) 別正確的第一目標(biāo)興趣點(diǎn)名稱的步驟包括: 在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞; 依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別正確的第一目標(biāo)興趣點(diǎn)名稱。7. 如權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述在所述興趣點(diǎn)名稱集合中的 興趣點(diǎn)名稱選取關(guān)鍵詞的步驟包括: 對(duì)所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個(gè)或多個(gè)分詞; 查找所述分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻; 將同一個(gè)興趣點(diǎn)名稱中第一詞頻最低的X個(gè)分詞,作為所述興趣點(diǎn)名稱的關(guān)鍵詞,其 中,X為正整數(shù)。8. 如權(quán)利要求1-7任一項(xiàng)所述的方法,其特征在于,所述在所述興趣點(diǎn)名稱集合中的 興趣點(diǎn)名稱選取關(guān)鍵詞的步驟還包括: 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時(shí),移除所述分詞。9. 如權(quán)利要求1-8任一項(xiàng)所述的方法,其特征在于,所述依據(jù)所述關(guān)鍵詞從所述興趣 點(diǎn)名稱中識(shí)別正確的第一目標(biāo)興趣點(diǎn)名稱的步驟包括: 計(jì)算所述關(guān)鍵詞在所述興趣點(diǎn)集合中的第二詞頻; 將所述第二詞頻最高的Y個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱作為正確的第一目標(biāo)興趣點(diǎn)名 稱,其中,Y為正整數(shù)。10. -種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定裝置,包括: 興趣點(diǎn)數(shù)據(jù)提取模塊,適于在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù); 正確興趣點(diǎn)數(shù)據(jù)識(shí)別模塊,適于從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別正確的第一目標(biāo)興趣點(diǎn)數(shù) 據(jù); 正確數(shù)量統(tǒng)計(jì)模塊,適于統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)的第一數(shù)量; 可信置信度確定模塊,適于根據(jù)所述第一數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。
【專利摘要】本發(fā)明實(shí)施例提供了一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定方法和裝置,該方法包括:在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù);從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別正確的第一目標(biāo)興趣點(diǎn)數(shù)據(jù);統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第一目標(biāo)興趣點(diǎn)數(shù)據(jù)的第一數(shù)量;根據(jù)所述第一數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。本發(fā)明實(shí)施例根據(jù)置信度允許從這些可信的POI數(shù)據(jù)來源抓取POI數(shù)據(jù),抓取到的POI數(shù)據(jù)的正確性高,減少了計(jì)算機(jī)的系統(tǒng)資源和帶寬資源的浪費(fèi),提高了POI數(shù)據(jù)抓取效率。
【IPC分類】G06F17/30
【公開號(hào)】CN105279249
【申請(qǐng)?zhí)枴緾N201510643033
【發(fā)明人】王智廣
【申請(qǐng)人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2016年1月27日
【申請(qǐng)日】2015年9月30日