基于問(wèn)題的地理信息挖掘方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提供了一種基于問(wèn)題的地理信息挖掘方法,該方法包括以下步驟:初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典和IP地址與城市名稱(chēng)的映射詞典信息;接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息;從所述問(wèn)題或/和IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息;基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖的位置接口,并獲得該接口所返回的地圖數(shù)據(jù)列表;根據(jù)所獲得的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,獲取上層地理信息;返回所述上層地理信息。相應(yīng)地,還提供了一種基于問(wèn)題的地理信息挖掘系統(tǒng)。本發(fā)明提供的方法和系統(tǒng)可以有效地挖掘問(wèn)題中的地理信息。
【專(zhuān)利說(shuō)明】基于問(wèn)題的地理信息挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù),尤其涉及一種基于問(wèn)題的地理信息挖掘的方法及系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有的地理信息挖掘大多是基于GPS定位、IP地址解析等技術(shù)進(jìn)行,
[0003]而通過(guò)網(wǎng)絡(luò)互動(dòng)平臺(tái)挖掘地理信息卻一直是地理信息挖掘領(lǐng)域的空白。事實(shí)上,在現(xiàn)有的網(wǎng)絡(luò)互動(dòng)問(wèn)答平臺(tái)上流動(dòng)著大量的地理信息,如用戶(hù)經(jīng)常利用百度知道、搜搜問(wèn)問(wèn)、新浪愛(ài)問(wèn)等平臺(tái)提問(wèn)一些與地理信息有關(guān)的問(wèn)題:“索尼a型號(hào)的照相機(jī)在北京中關(guān)村的售價(jià)是多少”、“王府井附近的就餐消費(fèi)平均在什么水平”等。在這些問(wèn)題中,存在“北京中關(guān)村”、“王府井”等地理信息,而這些地理信息并沒(méi)有在網(wǎng)絡(luò)互動(dòng)問(wèn)答平臺(tái)得到較好的應(yīng)用。
[0004]另外,在網(wǎng)絡(luò)互動(dòng)平臺(tái)的問(wèn)題推送平臺(tái)上,一直存在如下問(wèn)題:對(duì)于系統(tǒng)推送的問(wèn)題,由于地理位置的原因,導(dǎo)致接收問(wèn)題的用戶(hù)無(wú)法解答。例如,某用戶(hù)雖然對(duì)電子產(chǎn)品很感興趣,但是系統(tǒng)給用戶(hù)推送的問(wèn)題及相關(guān)解答信息包括“IPad3在長(zhǎng)沙的售價(jià)是多少? ”、“目前在長(zhǎng)沙的售價(jià)是2599元”,事實(shí)上,由于該用戶(hù)居住在北京,所推送的問(wèn)題及解答信息對(duì)于該用戶(hù)來(lái)說(shuō)不具有實(shí)用價(jià)值,如此,降低了用戶(hù)的互動(dòng)體驗(yàn)。
[0005]因此,希望可以提出一種用于解決上述缺陷的基于問(wèn)題的地理信息挖掘方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提供一種基于問(wèn)題的地理信息挖掘方法及系統(tǒng),可以有效挖掘出問(wèn)題中的地理信息。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于問(wèn)題的地理信息挖掘方法,該方法包括以下步驟:
[0008]初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典和IP (網(wǎng)際協(xié)議,Internet Protocol)地址與城市名稱(chēng)的映射詞典信息;
[0009]接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息;
[0010]從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息;
[0011]基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖的位置接口,并獲得該接口所返回的地圖數(shù)據(jù)列表;
[0012]根據(jù)所獲得的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,獲取上層地理信息;
[0013]返回所述上層地理信息。
[0014]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種基于問(wèn)題的地理信息挖掘系統(tǒng),包括:
[0015]初始化模塊,用于初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典和IP地址與城市名稱(chēng)的映射詞典信息;
[0016]信息接收模塊,用于接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息;
[0017]詞典信息挖掘模塊,用于從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息;
[0018]第一接口訪問(wèn)模塊,基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖位置接口,并獲取該接口所返回的地圖數(shù)據(jù)列表;
[0019]第二接口訪問(wèn)模塊,基于所獲取的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,并獲取上層地理信息;
[0020]信息返回模塊,用于返回所述上層地理信息;
[0021]其中,所述地圖位置接口,用于獲取地圖數(shù)據(jù)列表;
[0022]其中,所述地圖地址解析接口,用于解析地圖數(shù)據(jù)列表中的信息。
[0023]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):不僅可以基于海量的問(wèn)題挖掘出相應(yīng)的地理信息,還可以將所挖掘的地理信息推送給適合的用戶(hù),提升了用戶(hù)獲取適當(dāng)問(wèn)題的體驗(yàn)。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0024]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0025]圖1為根據(jù)本發(fā)明的基于問(wèn)題的地理信息挖掘的方法流程圖;
[0026]圖2是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的挖掘詞典項(xiàng)信息的示意圖;
[0027]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的基于地圖的地址解析接口獲取的地理信息示意圖;
[0028]圖4為根據(jù)本發(fā)明的基于問(wèn)題的地理信息挖掘系統(tǒng)的示意性框圖。
【具體實(shí)施方式】
[0029]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0030]根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于問(wèn)題的地理信息挖掘的方法。
[0031]請(qǐng)參考圖1,圖1為根據(jù)本發(fā)明的基于問(wèn)題的地理信息挖掘的方法流程圖。
[0032]如圖1所示,本發(fā)明所提供的方法包括以下步驟:
[0033]步驟SlOl,初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典以及IP地址與城市名稱(chēng)的映射詞典信息。
[0034]具體地,興趣點(diǎn)(Point of interest,簡(jiǎn)寫(xiě)POI)是應(yīng)用于導(dǎo)航電子地圖中的常用術(shù)語(yǔ),用以標(biāo)注電子地圖上對(duì)應(yīng)實(shí)體的各類(lèi)生活信息,包括銀行、餐飲、住宿、交通等。例如,在大中型城市的主要商業(yè)街上常有一些購(gòu)物廣場(chǎng),而購(gòu)物廣場(chǎng)具有許多可以標(biāo)注的興趣點(diǎn),如A購(gòu)物中心的二樓有法式咖餐廳,B購(gòu)物中心的五樓有萬(wàn)達(dá)電影院、招商銀行等。這些興趣點(diǎn)在不同的地圖上以不同的形式予以展示,常見(jiàn)的二維電子地圖以點(diǎn)的形式標(biāo)注興趣點(diǎn)。
[0035]其中,興趣點(diǎn)詞典,即所有興趣點(diǎn)信息的集合。而興趣點(diǎn)詞典的初始化,即通過(guò)從電子地圖獲取并加載興趣點(diǎn)信息,例如,基于電子導(dǎo)航地圖獲取電子導(dǎo)航地圖中興趣點(diǎn)的名稱(chēng)、興趣點(diǎn)位于地圖上的位置以及興趣點(diǎn)的周邊詳細(xì)信息。
[0036]其中,城市名稱(chēng)詞典是各城市名稱(chēng)的集合,包括省級(jí)、地級(jí)以及縣級(jí)城市的名稱(chēng),常見(jiàn)的如上海、北京、香港。由此,對(duì)城市名稱(chēng)詞典的初始化即加載所有的城市名稱(chēng)。
[0037]其中,IP地址與城市名稱(chēng)的映射詞典是指IP地址與城市名稱(chēng)的映射關(guān)系的集合,如IP地址段A-B與城市M相對(duì)應(yīng),IP地址段F-H與城市N相對(duì)應(yīng)。與上述同理,IP地址與城市名稱(chēng)映射詞典的初始化即加載現(xiàn)有IP地址與城市之間的映射關(guān)系。
[0038]進(jìn)一步地,IP地址與城市名稱(chēng)之間的映射詞典可以基于以下步驟予以建立:首先,從IP地址信息庫(kù)中查詢(xún)IP地址所對(duì)應(yīng)的物理所在地信息;其次,根據(jù)物理所在地信息查詢(xún)所對(duì)應(yīng)的城市名稱(chēng);最后,加載IP地址與對(duì)應(yīng)城市名稱(chēng)的映射數(shù)據(jù),并集合成IP地址與城市名稱(chēng)之間的映射詞典。
[0039]步驟S102,接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息。
[0040]具體地,用戶(hù)可以提交各種各樣的問(wèn)題,這些問(wèn)題可以包含地理信息,也可以不包含地理信息,例如“請(qǐng)問(wèn)立水橋附近有大型商場(chǎng)嗎?”、“請(qǐng)問(wèn)杜鵑花有哪些品種”。一般地,所有問(wèn)題包括問(wèn)題標(biāo)題、內(nèi)容、回答等項(xiàng)目。例如,A問(wèn)題包括問(wèn)題標(biāo)題“天通苑地鐵站在幾號(hào)線”、問(wèn)題內(nèi)容“天通苑地鐵站在幾號(hào)線,有人知道嗎”、回答“在五號(hào)線上”。進(jìn)一步地,提交問(wèn)題的用戶(hù)在問(wèn)題提交前,可以注冊(cè)信息,也可以跳過(guò)該步驟。如果用戶(hù)注冊(cè)信息,則其中的信息通??梢园T如戶(hù)籍、工作地、居住地等屬性信息,而這些屬性信息經(jīng)過(guò)分析可以用于后續(xù)對(duì)IP地址信息的調(diào)整。
[0041]在接收用戶(hù)提交的各種問(wèn)題時(shí),基于用戶(hù)的網(wǎng)絡(luò)信息獲取其IP地址信息,在該獲取過(guò)程中通常涉及域名解析、地址匹配等技術(shù),并且,在用戶(hù)的IP地址動(dòng)態(tài)變化的情況下,對(duì)所獲取的IP地址信息進(jìn)行實(shí)時(shí)更新。
[0042]步驟S103,從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息。
[0043]具體地,所述詞典項(xiàng)信息是指興趣點(diǎn)詞典、城市名稱(chēng)詞典以及IP地址與城市名稱(chēng)的映射詞典中各項(xiàng)具體信息,包括興趣點(diǎn)名稱(chēng)(又稱(chēng)興趣詞)、城市名稱(chēng)、IP地址與城市的映射關(guān)系,如招商銀行、北京、IP地址123.112.65.0與北京之間的映射關(guān)系。
[0044]從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息,還可以參照?qǐng)D2,圖2是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的挖掘詞典項(xiàng)信息的示意圖,如圖所示,具體包括:
[0045]步驟S201,判斷所接收問(wèn)題的標(biāo)題是否包含城市名稱(chēng)信息,如果是,則直接從問(wèn)題的標(biāo)題中挖掘該名稱(chēng)信息,并進(jìn)入步驟S203 ;如果否,則進(jìn)入步驟S202,基于上述已獲取的IP地址信息以及已初始化完畢的IP地址與城市名稱(chēng)的映射詞典,從該映射詞典中挖掘相匹配的城市名稱(chēng)。例如,判斷所接收的問(wèn)題標(biāo)題“請(qǐng)問(wèn)北京的消費(fèi)有多高”中包含了“北京”,則直接從該標(biāo)題中挖掘城市名稱(chēng)“北京”;又如,所接收的問(wèn)題標(biāo)題為“請(qǐng)問(wèn)肯德基最近有什么優(yōu)惠活動(dòng)”,因該問(wèn)題標(biāo)題不包含城市名稱(chēng)信息,則基于上述步驟所獲知的IP地址以及已初始化的IP地址與映射詞典,挖掘與之相匹配的城市名稱(chēng)。
[0046]優(yōu)選地,通過(guò)詞表匹配的方式從問(wèn)題標(biāo)題中挖掘城市名稱(chēng)信息,具體可以包括以下步驟:1)建立城市名稱(chēng)詞表庫(kù),并將詞表庫(kù)中的詞按照一定分類(lèi)標(biāo)準(zhǔn)劃分為多個(gè)詞表,所述分類(lèi)標(biāo)準(zhǔn)可以為行政區(qū)劃標(biāo)準(zhǔn);2)提取問(wèn)題標(biāo)題中的詞,調(diào)用詞表庫(kù)中與所提取的詞相對(duì)應(yīng)的詞表;3)將所提取的詞與對(duì)應(yīng)的詞表進(jìn)行檢索匹配,返回所匹配的結(jié)果。
[0047]步驟S203,挖掘地理詞和興趣點(diǎn)信息。挖掘前,對(duì)所述問(wèn)題的標(biāo)題進(jìn)行分詞和詞性標(biāo)注。其中,分詞的作用是將獲取的問(wèn)題標(biāo)題切分成有意義的字詞,以便后續(xù)處理。具體分詞的方法包括:正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī)場(chǎng)分詞等,例如,將問(wèn)題標(biāo)題“中關(guān)村附近的肯德基具體位置”通過(guò)分詞,得到“中關(guān)村/附近/的/肯德基/具體/位置”,
[0048]在此基礎(chǔ)上,對(duì)上述分詞后的結(jié)果進(jìn)行詞性標(biāo)注,如中關(guān)村一名詞,附近一形容詞,的一助詞,肯德基一名詞等。
[0049]對(duì)問(wèn)題的標(biāo)題分詞完畢后,從所切分的關(guān)鍵詞中挖掘地理詞,如果一個(gè)標(biāo)題中存在多個(gè)地理詞,則優(yōu)選第一個(gè)地理詞作為所挖掘的地理詞結(jié)果;否則,如果所述標(biāo)題中不存在地理詞,則默認(rèn)所挖掘的地理詞結(jié)果為空值。
[0050]進(jìn)一步地,從問(wèn)題的標(biāo)題中挖掘興趣點(diǎn)信息。優(yōu)選地,通過(guò)多模匹配的方式,使用興趣點(diǎn)詞典,從問(wèn)題標(biāo)題中挖掘興趣點(diǎn)信息,例如挖掘興趣點(diǎn)名稱(chēng)。其中,多模匹配涉及的算法包括哈希(Hash)算法、單詞查找樹(shù)(Trie樹(shù))、KMP (D.E.Knuth與V.R.Pratt和J.H.Morris 同時(shí)發(fā)現(xiàn)的)字符串匹配算法和 AC (Alfred V.Aho 和 Margaret J.Corasick提出的)算法等。挖掘中,如果一個(gè)問(wèn)題標(biāo)題中存在多個(gè)興趣點(diǎn)名稱(chēng),則優(yōu)選第一個(gè)興趣點(diǎn)名稱(chēng)作為所挖掘的興趣點(diǎn)信息結(jié)果,否則,如果所述標(biāo)題中不存在興趣點(diǎn)信息,則默認(rèn)所挖掘的興趣點(diǎn)信息結(jié)果為空值。
[0051]當(dāng)從所述標(biāo)題既不能挖掘出地理詞,也不能挖掘出興趣點(diǎn)信息時(shí),則默認(rèn)所挖掘的兩項(xiàng)值都為空。
[0052]步驟S104,基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖的位置接口,并獲得該接口所返回的地圖數(shù)據(jù)列表。
[0053]具體地,根據(jù)上述步驟獲取諸如城市名稱(chēng)、地理詞和興趣點(diǎn)信息的詞典項(xiàng)后,訪問(wèn)地圖的位置(Place)接口,并獲得該接口返回的數(shù)據(jù)列表。其中,所述位置接口是對(duì)外開(kāi)放的地圖應(yīng)用接口(API ),供程序調(diào)用的地圖檢索服務(wù)接口,通常對(duì)外開(kāi)放,并且,該接口可以應(yīng)用于PC端、移動(dòng)設(shè)備端和服務(wù)端等。其中,所返回的數(shù)據(jù)列表中的每一項(xiàng)包括興趣點(diǎn)的地址、標(biāo)題、經(jīng)度和緯度,如中關(guān)村大廈、肯德基、39.9° ,116.3°。
[0054]進(jìn)一步地,將數(shù)據(jù)列表中第一項(xiàng)的興趣點(diǎn)標(biāo)題與步驟S103中所挖掘的興趣點(diǎn)名稱(chēng)進(jìn)行比較,若兩者相同,則確認(rèn)該項(xiàng)數(shù)據(jù)是所需的數(shù)據(jù),否則,默認(rèn)該數(shù)據(jù)列表返回的為空值。
[0055]步驟S105,根據(jù)所獲得的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,獲取上層地理信息并返回。
[0056]具體地,根據(jù)步驟S104獲得的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析。例如,根據(jù)所獲得的地圖數(shù)據(jù)列表中的經(jīng)緯度信息,請(qǐng)求地圖地址解析(geocoder)接口進(jìn)行解析,得到上層地理信息。其中,所述上層地理信息包括興趣點(diǎn)對(duì)應(yīng)的省、市、區(qū)縣、街道以及商圈等地理信息。關(guān)于解析到的上層地理信息,具體可以參照?qǐng)D3,圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的基于地圖的地址解析接口獲取的地理信息示意圖。如圖3,其示出了上層地理信息的一個(gè)實(shí)例:緯度30.94093、經(jīng)度117.8、省份一安徽省、市一銅陵、區(qū)一銅管山、街道一育才路、城市編碼一337。
[0057]其中,所述地址解析接口為地圖向外發(fā)布的API接口。
[0058]經(jīng)過(guò)地址解析接口獲取上層地理信息后,將該信息返回。進(jìn)一步地,基于所述上層地理信息,生成問(wèn)題的地理標(biāo)簽,并將問(wèn)題按照地理信息予以分類(lèi)展示在前端,有助于用戶(hù)查看與地理位置相關(guān)的問(wèn)題。例如,將其中都含有地理信息A的問(wèn)題都分類(lèi)在地理標(biāo)簽A下,以便于用戶(hù)查看與地理信息A有關(guān)的問(wèn)題。
[0059]進(jìn)一步地,本方法還包括:基于所挖掘的地理信息,將相應(yīng)問(wèn)題推送給用戶(hù)。
[0060]具體地,基于所挖掘的地理信息,獲知用戶(hù)所在的地理位置后,自動(dòng)地篩選出與該地理位置及用戶(hù)所提問(wèn)題最相關(guān)、最相近的問(wèn)題,并將該篩選的問(wèn)題推送給所述用戶(hù)。例如,用戶(hù)提交的問(wèn)題是“中關(guān)村地鐵站怎么走?”,而基于上述步驟獲知所提問(wèn)題的用戶(hù)相關(guān)地理信息,經(jīng)過(guò)對(duì)問(wèn)題進(jìn)行篩選,得到與該問(wèn)題及用戶(hù)地理信息最相關(guān)和最相近的問(wèn)題包括:“中關(guān)村地鐵站在哪”、“中關(guān)村鼎好大廈附近有地鐵嗎”等,將這些所得到的問(wèn)題以問(wèn)題列表的形式推送給所述用戶(hù)。當(dāng)然,在此并不對(duì)所推送的問(wèn)題列表的顯示方式作限制,根據(jù)實(shí)際應(yīng)用需求確定即可。
[0061]與現(xiàn)有技術(shù)相比,本發(fā)明所提供的基于問(wèn)題的地理信息挖掘方法具有以下優(yōu)點(diǎn):
[0062]I)有效地挖掘出互動(dòng)問(wèn)答平臺(tái)的地理信息,提高了互動(dòng)平臺(tái)的信息利用率;
[0063]2)靈活地給問(wèn)題打上地理信息的標(biāo)簽,有助于用戶(hù)查看與不同地理位置相關(guān)的問(wèn)題;
[0064]3)將所挖掘的地理信息作為一種特征,用于推送待解決的問(wèn)題給感興趣的人,提升問(wèn)題的回答滿(mǎn)意度。
[0065]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種基于問(wèn)題的地理信息挖掘系統(tǒng)。
[0066]請(qǐng)參考圖4所示,圖4為根據(jù)本發(fā)明的基于問(wèn)題的地理信息挖掘系統(tǒng)的示意性框圖。根據(jù)圖4,該系統(tǒng)包括:
[0067]初始化模塊401,用于初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典和IP地址與城市名稱(chēng)的映射詞典信息;
[0068]信息接收模塊402,用于接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息;
[0069]詞典信息挖掘模塊403,用于從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息;
[0070]第一接口訪問(wèn)模塊404,基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖位置接口,并獲取該接口所返回的地圖數(shù)據(jù)列表;
[0071]第二接口訪問(wèn)模塊405,基于所獲取的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,并獲取上層地理信息;
[0072]信息返回模塊406,用于返回所述上層地理信息;
[0073]其中,所述地圖位置接口,用于獲取地圖數(shù)據(jù)列表;
[0074]其中,所述地圖地址解析接口,用于解析地圖數(shù)據(jù)列表中的信息。
[0075]下文將對(duì)上述各模塊的具體工作流程進(jìn)行詳述。
[0076]具體地,初始化模塊401初始化的對(duì)象包括興趣點(diǎn)詞典、城市名稱(chēng)詞典以及IP地址與城市名稱(chēng)的映射詞典等信息,對(duì)這些詞典進(jìn)行初始化實(shí)際上是加載原始的數(shù)據(jù)到這些詞典中。例如,在興趣點(diǎn)詞典中加載各類(lèi)興趣點(diǎn)信息,包括銀行、餐飲、住宿、交通等各類(lèi)生活信息;在城市名稱(chēng)詞典中加載各類(lèi)城市名稱(chēng),包括省級(jí)、地級(jí)、縣級(jí)等各級(jí)的城市名稱(chēng),常見(jiàn)的如上海、北京、紐約;在IP地址與城市名稱(chēng)的映射詞典中加載諸IP地址與城市名稱(chēng)之間的映射關(guān)系數(shù)據(jù)。
[0077]初始化所有詞典信息后,由信息接收模塊402接收用戶(hù)提交的各種問(wèn)題,例如“請(qǐng)問(wèn)立水橋附近有大型商場(chǎng)嗎?”、“請(qǐng)問(wèn)杜鵑花有哪些品種”等,這些問(wèn)題可以包含地理信息,也可以不包含地理信息。當(dāng)然,在接收問(wèn)題的同時(shí),信息接收模塊402進(jìn)一步獲取所提交問(wèn)題的用戶(hù)IP地址信息,該獲取的過(guò)程具體涉及域名解析、地址匹配等技術(shù),并且,在用戶(hù)的IP地址動(dòng)態(tài)變化的情況下,對(duì)所獲取的IP地址信息進(jìn)行實(shí)時(shí)更新。
[0078]進(jìn)一步地,所述接收模塊還用于接收用戶(hù)提交的注冊(cè)信息,如戶(hù)籍、工作地、居住地等屬性信息,這些屬性信息可作為后續(xù)對(duì)IP地址信息進(jìn)行調(diào)整的參考項(xiàng)。
[0079]接著,由詞典信息挖掘模塊403基于上述已接收的問(wèn)題及獲取的IP地址信息,從中挖掘各詞典項(xiàng)信息,包括興趣點(diǎn)名稱(chēng)、城市名稱(chēng)、IP地址與城市的映射關(guān)系,如招商銀行、北京、IP地址123.112.65.0與北京之間的映射關(guān)系。所述詞典信息挖掘模塊403的具體挖掘過(guò)程包括:
[0080]a)判斷所接收問(wèn)題的標(biāo)題是否包含城市名稱(chēng)信息,如果有,則直接從問(wèn)題的標(biāo)題中挖掘該名稱(chēng)信息;如果否,則基于上述已獲取的IP地址信息以及已初始化完畢的IP地址與城市名稱(chēng)的映射詞典,從該映射詞典中挖掘相匹配的城市名稱(chēng)。例如,判斷所接收的問(wèn)題標(biāo)題“請(qǐng)問(wèn)北京的消費(fèi)有多高”中包含了 “北京”,則直接從該標(biāo)題中挖掘城市名稱(chēng)“北京”;又如,所接收的問(wèn)題標(biāo)題為“請(qǐng)問(wèn)肯德基最近有什么優(yōu)惠活動(dòng)”,因該問(wèn)題標(biāo)題不包含城市名稱(chēng)信息,則基于上述步驟所獲知的IP地址以及已初始化的IP地址與映射詞典,挖掘與之相匹配的城市名稱(chēng)。
[0081]優(yōu)選地,所述詞典信息挖掘模塊403通過(guò)詞表匹配的方式從問(wèn)題標(biāo)題中挖掘城市名稱(chēng)信息,具體可以包括以下步驟:1)建立城市名稱(chēng)詞表庫(kù),并將詞表庫(kù)中的詞按照一定分類(lèi)標(biāo)準(zhǔn)劃分為多個(gè)詞表,所述分類(lèi)標(biāo)準(zhǔn)可以為行政區(qū)劃標(biāo)準(zhǔn);2)提取問(wèn)題標(biāo)題中的詞,調(diào)用詞表庫(kù)中與所提取的詞相對(duì)應(yīng)的詞表;3)將所提取的詞與對(duì)應(yīng)的詞表進(jìn)行檢索匹配,返回所匹配的結(jié)果。
[0082]b)挖掘地理詞和興趣點(diǎn)信息。
[0083]進(jìn)一步地,所述系統(tǒng)還包括分詞和標(biāo)注模塊,用于對(duì)問(wèn)題的標(biāo)題進(jìn)行分詞和詞性標(biāo)注。
[0084]挖掘前,通過(guò)系統(tǒng)的分詞和標(biāo)注模塊對(duì)所述問(wèn)題的標(biāo)題進(jìn)行分詞和詞性標(biāo)注。其中,分詞的作用是將獲取的問(wèn)題標(biāo)題切分成有意義的字詞,以便后續(xù)處理。所述分詞和標(biāo)注模塊可以基于下述方法之一或其結(jié)合進(jìn)行分詞:正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī)場(chǎng)分詞等,例如,將問(wèn)題標(biāo)題“中關(guān)村附近的肯德基具體位置”通過(guò)分詞,得到“中關(guān)村/附近/的/肯德基/具體/位置”,在此基礎(chǔ)上,所述分詞和標(biāo)注模塊對(duì)上述分詞后的結(jié)果進(jìn)行詞性標(biāo)注,如中關(guān)村一名詞,附近一形容詞,的一助詞,肯德基一名詞等。
[0085]由分詞和標(biāo)注模塊對(duì)所述問(wèn)題的標(biāo)題分詞后,詞典信息挖掘模塊403進(jìn)一步從所切分的關(guān)鍵詞中挖掘地理詞,如果一個(gè)標(biāo)題中存在多個(gè)地理詞,則優(yōu)選第一個(gè)地理詞作為所挖掘的地理詞結(jié)果;否則,如果所述標(biāo)題中不存在地理詞,則默認(rèn)所挖掘的地理詞結(jié)果為空值。
[0086]更進(jìn)一步地,詞典信息挖掘模塊403從所述問(wèn)題的標(biāo)題中挖掘興趣點(diǎn)信息。優(yōu)選地,通過(guò)多模匹配的方式,使用興趣點(diǎn)詞典,從問(wèn)題標(biāo)題中挖掘興趣點(diǎn)信息,例如挖掘興趣點(diǎn)名稱(chēng)。挖掘過(guò)程中,如果一個(gè)問(wèn)題標(biāo)題中存在多個(gè)興趣點(diǎn)名稱(chēng),則優(yōu)選第一個(gè)興趣點(diǎn)名稱(chēng)作為所挖掘的興趣點(diǎn)信息結(jié)果,否則,如果所述標(biāo)題中不存在興趣點(diǎn)信息,則默認(rèn)所挖掘的興趣點(diǎn)信息結(jié)果為空值。
[0087]當(dāng)所述詞典信息挖掘模塊403既不能挖掘出地理詞,也不能挖掘出興趣點(diǎn)信息時(shí),則默認(rèn)所挖掘的兩項(xiàng)值都為空。
[0088]信息挖掘完成后,由第一接口訪問(wèn)模塊404基于所挖掘的信息訪問(wèn)地圖位置接口,從該接口獲取其返回的地圖數(shù)據(jù)列表。其中,所述位置接口是對(duì)外開(kāi)放的地圖應(yīng)用接口(API ),供程序調(diào)用的地圖檢索服務(wù)接口,通常對(duì)外開(kāi)放,并且,該接口可以應(yīng)用于PC端、移動(dòng)設(shè)備端和服務(wù)端等。其中,所述返回的地圖數(shù)據(jù)列表中的每一項(xiàng)包括興趣點(diǎn)的地址、標(biāo)題、經(jīng)度和緯度,如中關(guān)村大廈、肯德基、39.9° >116.3°。
[0089]其中,所述獲取返回的地圖數(shù)據(jù)列表還包括:比較返回的數(shù)據(jù)列表中第一項(xiàng)數(shù)據(jù)的興趣點(diǎn)標(biāo)題與已挖掘的興趣點(diǎn)名稱(chēng),若兩者相同,則確認(rèn)該項(xiàng)數(shù)據(jù)是所需的數(shù)據(jù),否則,默認(rèn)該數(shù)據(jù)列表返回的為空值。
[0090]獲取地圖數(shù)據(jù)列表后,由第二接口訪問(wèn)模塊405請(qǐng)求地圖地址解析接口進(jìn)行解析,并從該接口獲取上層地理信息。其中,所述上層地理信息包括興趣點(diǎn)對(duì)應(yīng)的省、市、區(qū)縣、街道以及商圈等地理信息。具體地,根據(jù)地圖數(shù)據(jù)列表中的經(jīng)緯度信息請(qǐng)求地圖地址解析接口進(jìn)行解析,獲取相應(yīng)地理信息。其中,所述地址解析接口為地圖向外發(fā)布的API接□。
[0091]經(jīng)解析獲取上層地理信息后,由信息返回模塊將所述信息返回。
[0092]進(jìn)一步地,所述系統(tǒng)還包括:地理標(biāo)簽?zāi)K,用于生成問(wèn)題的地理標(biāo)簽。更進(jìn)一步地,信息返回模塊按照問(wèn)題的地理標(biāo)簽將問(wèn)題分類(lèi)展示在前端,有助于用戶(hù)查看與地理位置相關(guān)的問(wèn)題。
[0093]進(jìn)一步地,所述系統(tǒng)還包括:問(wèn)題推送模塊,基于所挖掘的地理信息,將相應(yīng)問(wèn)題推送給用戶(hù)。
[0094]具體地,所述問(wèn)題推送模塊基于所挖掘的地理信息,獲取用戶(hù)所在的地理位置后,自動(dòng)地篩選出與該地理位置及用戶(hù)所提問(wèn)題最相關(guān)、最相近的問(wèn)題,并將該篩選的問(wèn)題推送給所述用戶(hù)。例如,系統(tǒng)所接收的用戶(hù)問(wèn)題是“中關(guān)村地鐵站怎么走? ”,基于各模塊的處理獲取相應(yīng)用戶(hù)的地理信息后,經(jīng)過(guò)問(wèn)題篩選,得到與該問(wèn)題及用戶(hù)地理信息最相關(guān)和最相近的問(wèn)題包括:“中關(guān)村地鐵站在哪”、“中關(guān)村鼎好大廈附近有地鐵嗎”等,則將這些所得到的問(wèn)題以問(wèn)題列表的形式推送給所述用戶(hù)。當(dāng)然,在此并不對(duì)所推送的問(wèn)題列表的顯示方式作限制,根據(jù)實(shí)際應(yīng)用需求確定即可。
[0095]與現(xiàn)有技術(shù)相比,本發(fā)明所提供的系統(tǒng)具有以下優(yōu)點(diǎn):充分利用了問(wèn)答互動(dòng)平臺(tái)和地圖的開(kāi)放接口,將兩者予以巧妙銜接和利用,有效地挖掘出地理信息。
[0096]以上所揭露的僅為本發(fā)明的較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權(quán)利要求】
1.一種基于問(wèn)題的地理信息挖掘的方法,該方法包括以下步驟: a)初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典和IP地址與城市名稱(chēng)的映射詞典信息; b)接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息; c)從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息; d)基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖的位置接口,并獲得該接口返回的地圖數(shù)據(jù)列表; e)根據(jù)所獲得的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,獲取上層地理信息; f)返回所述上層地理信息。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟c)進(jìn)一步包括: g)從所述問(wèn)題的標(biāo)題中挖掘城市名稱(chēng)信息,若成功獲取城市名稱(chēng)信息,則進(jìn)入步驟h),否則,基于用戶(hù)的IP地址挖掘?qū)?yīng)的城市名稱(chēng)信息; h)從所述問(wèn)題的標(biāo)題中挖掘地理詞和興趣點(diǎn)信息。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟g)通過(guò)詞表匹配的方式從所述問(wèn)題的標(biāo)題中挖掘城市名稱(chēng)信息。
4.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟h)通過(guò)對(duì)所述問(wèn)題的標(biāo)題進(jìn)行分詞和詞性標(biāo)注,挖掘地理詞。
5.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟h)基于興趣點(diǎn)詞典,通過(guò)多模匹配的方式,從所述問(wèn)題的標(biāo)題中挖掘興趣點(diǎn)信息。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟h)中的地圖數(shù)據(jù)列表包括對(duì)應(yīng)興趣點(diǎn)的地址、標(biāo)題、經(jīng)度和緯度。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其中,所述步驟e)基于地圖數(shù)據(jù)列表中的經(jīng)緯度信息,通過(guò)地圖地址解析接口,獲得省、市、區(qū)縣、街道以及商圈信息。
8.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其中,還包括:基于所述上層地理信息,生成問(wèn)題的地理標(biāo)簽,并將問(wèn)題按照地理信息予以分類(lèi)展示在前端。
9.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其中,還包括:基于所述上層地理信息,將問(wèn)題推送給用戶(hù)。
10.一種基于問(wèn)題的地理信息挖掘系統(tǒng),包括: 初始化模塊,用于初始化興趣點(diǎn)詞典、城市名稱(chēng)詞典和IP地址與城市名稱(chēng)的映射詞典信息; 信息接收模塊,用于接收用戶(hù)提交的問(wèn)題并獲取用戶(hù)的IP地址信息; 詞典信息挖掘模塊,用于從所述問(wèn)題或IP地址信息中挖掘所述問(wèn)題對(duì)應(yīng)的詞典項(xiàng)信息; 第一接口訪問(wèn)模塊,基于所述對(duì)應(yīng)的詞典項(xiàng)信息訪問(wèn)地圖位置接口,并獲取該接口所返回的地圖數(shù)據(jù)列表; 第二接口訪問(wèn)模塊,基于所獲取的地圖數(shù)據(jù)列表,請(qǐng)求地圖地址解析接口進(jìn)行解析,并獲取上層地理信息; 信息返回模塊,用于返回所述上層地理信息; 其中,所述地圖位置接口,用于獲取地圖數(shù)據(jù)列表;其中,所述地圖地址解析接口,用于解析地圖數(shù)據(jù)列表中的信息。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,所述詞典信息挖掘模塊的挖掘過(guò)程包括: i )從所述問(wèn)題的標(biāo)題中挖掘城市名稱(chēng)信息,若成功獲取城市名稱(chēng)信息,則進(jìn)入步驟j ),否則,基于用戶(hù)的IP地址挖掘?qū)?yīng)的城市名稱(chēng)信息; j)從所述問(wèn)題的標(biāo)題中挖掘地理詞和興趣點(diǎn)信息。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述詞典信息挖掘模塊通過(guò)詞表匹配的方式從所述問(wèn)題的標(biāo)題中挖掘城市名稱(chēng)信息。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述系統(tǒng)還包括分詞和標(biāo)注模塊,用于對(duì)所述問(wèn)題的標(biāo)題進(jìn)行分詞和詞性標(biāo)注。
14.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述詞典信息挖掘模塊通過(guò)多模匹配的方式,從所述問(wèn)題的標(biāo)題中挖掘興趣點(diǎn)信息。
15.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,所述地圖數(shù)據(jù)列表包括對(duì)應(yīng)興趣點(diǎn)的地址、標(biāo)題、經(jīng)度和緯度。
16.根據(jù)權(quán)利要求10-15任一項(xiàng)所述的系統(tǒng),其中,所述第二接口訪問(wèn)模炔基于地圖數(shù)據(jù)列表中的經(jīng)緯度信息,通過(guò)地圖地址解析接口,獲得省、市、區(qū)縣、街道以及商圈信息。
17.根據(jù)權(quán)利要求10-15任一項(xiàng)所述的系統(tǒng),其中,所述系統(tǒng)還包括:地理標(biāo)簽?zāi)K,用于生成問(wèn)題的地理標(biāo)簽。
18.根據(jù)權(quán)利要求10-15任一項(xiàng)所述的系統(tǒng),其中,所述系統(tǒng)還包括問(wèn)題推送模塊,基于所述上層地理信息,將問(wèn)題推送給用戶(hù)。
【文檔編號(hào)】G06F17/30GK104077322SQ201310108951
【公開(kāi)日】2014年10月1日 申請(qǐng)日期:2013年3月30日 優(yōu)先權(quán)日:2013年3月30日
【發(fā)明者】謝雙賓 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司