興趣點poi信息排序的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,更具體地涉及用于興趣點POI信息排序的方法和系統(tǒng)。
【背景技術(shù)】
[0002]地理信息系統(tǒng)中,POI是“Point of Interest”的縮寫,中文翻譯為“興趣點”。每個POI通常包含四方面信息:名稱、類別、經(jīng)度瑋度、附近的酒店飯店商鋪等,一個POI可以是一棟房子、一個商鋪、一個郵筒、一個公交站等。傳統(tǒng)的地理信息采集方法需要地圖測繪人員采用精密的測繪儀器去獲取一個興趣點的經(jīng)瑋度,然后再標記下來。正因為POI的采集是一個非常費時費事的工作,對一個地理信息系統(tǒng)來說,POI的數(shù)量在一定程度代表著整個系統(tǒng)的價值,地理信息系統(tǒng)很難根據(jù)數(shù)量很少的POI數(shù)據(jù)來提供高水平的服務(wù)。
[0003]互聯(lián)網(wǎng)上存在著大量的POI數(shù)據(jù),如果能從互聯(lián)網(wǎng)上收集包含POI數(shù)據(jù)的網(wǎng)頁,從收集的網(wǎng)頁中提取出這些POI數(shù)據(jù)供地理信息系統(tǒng)使用,則會大大節(jié)省人力和時間。但是互聯(lián)網(wǎng)上充斥著大量虛假的POI數(shù)據(jù),比如博客網(wǎng)頁內(nèi)容中包含“原文地址:http://X X X.X X X.X X X / X X X ”,雖然包含“地址”字樣,但該地址是網(wǎng)絡(luò)地址或者說是U R L(UniformResoureLocator,統(tǒng)一資源定位器),并不是POI數(shù)據(jù)中的地理地址信息,或可能存在POI數(shù)據(jù)中地址信息不準確的情況,從而導(dǎo)致收集到的POI數(shù)據(jù)中不準確POI數(shù)據(jù)的比例較高。因此,地圖搜索中,在用戶搜索的query有多個相關(guān)的結(jié)果時需要對這些POI做排序處理,相關(guān)性越強,質(zhì)量越高的POI排序應(yīng)該越靠前。所以在相關(guān)性一致的情況下,需要對POI按質(zhì)量排序。
[0004]目前所采用的排序方法主要是根據(jù)用戶的反饋來排序,用戶點擊的次數(shù)越多質(zhì)量應(yīng)該越好,越受用戶喜愛,排序應(yīng)該越靠前。然而,這種方法需要有大量的用戶數(shù)據(jù)才可以做反饋,而積累用戶以及用戶的點擊行為是一個漫長的過程。在初始階段一般很少有用戶在使用并進行反饋,在這樣的情況下,或者因用戶數(shù)據(jù)太少而無法使用用戶數(shù)據(jù)反饋進行排序,或者所獲得的排序結(jié)果并不可靠。
[0005]因此,本領(lǐng)域中存在如何自用戶反饋數(shù)據(jù)不足的情況下對興趣點POI信息進行排序的方法和系統(tǒng)的需要。
【發(fā)明內(nèi)容】
[0006]鑒于上述問題,提出了本發(fā)明,以便提供一種克服上述問題或者至少部分地解決上述問題的對興趣點POI信息進行排序的方法和系統(tǒng)。
[0007]依據(jù)本發(fā)明的一個方面,提供了1、一種興趣點POI信息排序方法,包括:獲取POI地址信息;根據(jù)所述地址信息檢索包括所述POI的網(wǎng)頁;獲取所述網(wǎng)頁中的地址文本,并確定所述地址文本的質(zhì)量;和根據(jù)所述地址文本的質(zhì)量對所述網(wǎng)頁進行排序。
[0008]可選地,根據(jù)本發(fā)明的上述實施例的興趣點POI信息排序的方法中,根據(jù)所述地址信息檢索包括所述POI的網(wǎng)頁包括:檢索包含與所述POI的地址信息中的一項或多項相同的數(shù)據(jù)的網(wǎng)頁,并在所述網(wǎng)頁中查找是否包含所述POI的名稱,當所述網(wǎng)頁包含所述POI的名稱時,認定所述網(wǎng)頁包含所述POI。
[0009]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法中,所述POI地址信息包括:地址名稱、經(jīng)度和/或維度。
[0010]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法還包括將所述排序的結(jié)果用于地圖搜索或網(wǎng)頁搜索的結(jié)果顯示。
[0011]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法中,所述地址文本的質(zhì)量通過PageRank、Hi 11 top、HI TS算法或其組合來計算。
[0012]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法中,獲取所述網(wǎng)頁中的地址文本包括:提取所述網(wǎng)頁的文本內(nèi)容;和在所述文本內(nèi)容中尋找引導(dǎo)地址信息的關(guān)鍵詞,并在所述文本內(nèi)容中包含所述關(guān)鍵詞時,提取所述關(guān)鍵詞之后的文本片段;或者在所述文本內(nèi)容中直接爬取地址信息。
[0013]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法中,提取所述關(guān)鍵詞之后的文本片段包括:提取所述關(guān)鍵詞之后特定的片段長度或特定的分隔符之前的文本片段。
[0014]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法中,獲取所述網(wǎng)頁中的地址文本還包括:解析所述地址文本相應(yīng)的經(jīng)瑋度數(shù)據(jù)。
[0015]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法中,所述方法還包括在根據(jù)所述地址文本的質(zhì)量對所述網(wǎng)頁進行排序之前將具有相同域名的網(wǎng)頁進行整合。
[0016]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的方法可以用于批量處理POI信息。
[0017]依據(jù)本發(fā)明的另一個方面,提供了一種用于興趣點POI信息排序的系統(tǒng),所述系統(tǒng)包括:POI地址信息獲取模塊,用于獲取POI地址信息;網(wǎng)頁檢索模塊,用于根據(jù)所述地址信息檢索包括所述POI的網(wǎng)頁;地址文本處理模塊,用于獲取所述網(wǎng)頁中的地址文本,并確定所述地址文本的質(zhì)量;和排序模塊,用于根據(jù)所述地址文本的質(zhì)量對所述網(wǎng)頁進行排序。
[0018]可選地,根據(jù)本發(fā)明的上述實施例的興趣點POI信息排序的系統(tǒng)中,所述網(wǎng)頁檢索模塊包括:采用所述實際打點與所述預(yù)測打點之間的差距和用戶移動速度的比值作為實際新打點方式的頻率。
[0019]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)中,所述POI地址信息包括:地址名稱、經(jīng)度和/或維度。
[0020]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)中,所述系統(tǒng)用于地圖搜索或網(wǎng)頁搜索。
[0021]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)中,所述地址文本處理模塊包括地址文本質(zhì)量計算模塊,用于通過PageRank、Hilltop、HITS算法或其組合來計算所述地址文本的質(zhì)量。
[0022]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)中,所述地址文本處理模塊包括:網(wǎng)頁文本獲取模塊,用于提取所述網(wǎng)頁的文本內(nèi)容;和地址文本獲取模塊,用于在所述文本內(nèi)容中尋找引導(dǎo)地址信息的關(guān)鍵詞,并在所述文本內(nèi)容中包含所述關(guān)鍵詞時,提取所述關(guān)鍵詞之后的文本片段;或者在所述文本內(nèi)容中直接爬取地址信息。
[0023]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)中,提取所述關(guān)鍵詞之后的文本片段包括:提取所述關(guān)鍵詞之后特定的片段長度或特定的分隔符之前的文本片段。
[0024]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)中,所述地址文本獲取模塊還包括地址文本解析模塊,用于解析所述地址文本相應(yīng)的經(jīng)瑋度數(shù)據(jù)。
[0025]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的所述系統(tǒng)還包括網(wǎng)頁整合模塊,用于在根據(jù)所述地址文本的質(zhì)量對所述網(wǎng)頁進行排序之前將具有相同域名的網(wǎng)頁進行整合。
[0026]可選地,根據(jù)本發(fā)明的上述任一實施例的興趣點POI信息排序的系統(tǒng)用于批量處理POI信息。
【附圖說明】
[0027]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0028]圖1是根據(jù)本發(fā)明的實施例的興趣點POI信息排序方法100的流程圖;
[0029]圖2是根據(jù)本發(fā)明的實施例的興趣點POI信息排序系統(tǒng)200的框圖。
【具體實施方式】
[0030]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡