本發(fā)明屬于空間模式挖掘技術領域,特別涉及一種基于co-location模式和本體的商業(yè)地址選擇方法。
背景技術:
商業(yè)選址是經濟學領域的一個重要的研究方向。對于任何一個商業(yè)體來說,位置選擇是其必經的一個階段,因為一個不利的商業(yè)位置所帶來的負面影響很難被其他的改進條件或行為而改變。要判斷一個位置是否是有利的,需要考慮多種因素,比如社會經濟學、地質學、生態(tài)學以及決策者的特定需求等。選址問題在經濟學領域一直是一個棘手的問題,因為它受多種主觀和客觀因素的制約,選址過程通常是漫長而又低效的。
隨著數(shù)據(jù)采集技術的日益發(fā)展,越來越多的與位置有關的數(shù)據(jù)能夠被很容易地采集到。這些數(shù)據(jù)不但包括類似于百度地圖的地圖數(shù)據(jù),還包括人口分布數(shù)據(jù)等。在大數(shù)據(jù)的背景下,一個商業(yè)體不得不去考慮多種數(shù)據(jù)庫,譬如從地區(qū)的購買力分布到居民的消費行為特性。對這些包含時間和空間信息的異構型數(shù)據(jù)庫進行分析通常是選址必須要考慮的關鍵性因素。
選址方面的研究工作已經延續(xù)了有一個世紀之長。與此同時,隨著信息技術的進步,地域的探索空間以及地理數(shù)據(jù)的容量都在不斷地增長,面對指數(shù)級增長的數(shù)據(jù),決策者很難憑經驗或簡單計算實現(xiàn)合理的地址選擇,因此,在實際中,決策者們往往采用一種自上(洲)而下(區(qū)/鎮(zhèn))的方式來進行分析,這種情況下,其他區(qū)域的數(shù)據(jù)就被排除掉,只在當前選定的小范圍區(qū)域內利用一些主觀的準則進行地址選擇。而在這個小范圍內,評估方法往往都是主觀地利用個人經驗(相關專家的主觀評估)來決定“最好的”地址。
空間數(shù)據(jù)挖掘是從空間數(shù)據(jù)庫中挖掘未知的有趣模式的過程。因為空間數(shù)據(jù)的海量性、多維性、相關性等特點,從空間中挖掘有趣的模式將比從傳統(tǒng)事務數(shù)據(jù)中挖掘有趣模式要困難得多。
傳統(tǒng)數(shù)據(jù)通常是相互獨立的,而空間上分布的數(shù)據(jù)則是相關的,或者更確切地說是空間并置的(co-located),即兩個對象的位置越近,就越有可能互相影響??臻gco-location模式是空間特征的一個子集,它們的實例在空間中頻繁關聯(lián)。
空間co-location模式在許多應用領域發(fā)揮著重要的作用。例如,移動服務運營商根據(jù)不同需求用戶的分布,搭配相應的服務套餐以增加收入;廣告運營商根據(jù)特定人群的聚集地段,投放相應的廣告;銀行根據(jù)不同地域人群的不同收入設定相應的信用卡服務和理財產品??臻gco-location模式的應用領域還包括地球科學、公共衛(wèi)生、公共交通、生物信息處理、基于位置的服務、gis信息系統(tǒng)等。
目前已經有很多經典的co-location模式挖掘算法,另外,由于經典的co-location模式挖掘算法會產生大量冗余的結果集,以精簡結果co-location模式為主要目的co-location模式挖掘算法也層出不窮。有趣模式的提出,意味著空間co-location模式開始向交互式的方向發(fā)展,在語義網(wǎng)中,本體(ontology)被認為最適合表示復雜的用戶領域知識,因此涌現(xiàn)了不少在本體指導下的co-location模式挖掘算法。
因為空間co-location模式描述的是空間特征之間的一種“共存”關系,利用co-location模式,可以得到一個商業(yè)圈中商業(yè)實體店的“共存”關系。即,co-location模式中隱含著選址的經驗及信息。譬如,如果在某個區(qū)域內飯店和旅館頻繁地“共存”,那么co-location模式{飯店,旅館}隱含著在飯店旁邊開旅館或者在旅館旁邊開飯店的選址信息。
對區(qū)域的分析主要是分析其地區(qū)因素(lf,locationfactor)與其他地區(qū)的不同。地區(qū)因素由該地區(qū)的屬性描述,比如購買力、居民數(shù)量以及與合作商的距離等等,選址對象目標不同,則對不同地區(qū)的地區(qū)因素的考慮就會不同。每一個商業(yè)體因目標或者需求不同,對地區(qū)因素的偏向程度亦不同。
在實際情況下,地址選擇過程常常被劃分為多個階段。zelenovic將其分成一個個的宏(macro)并對每個宏進行微觀選址(microselection)。bankhofer將其分成4個階段:洲選擇、國家選擇、市/區(qū)選擇,最終地址選擇。這種自頂向下的劃分方式效率很低,因其需要手動的分析和選擇。從大數(shù)據(jù)中手動地進行選址過程顯然是不可行的。
對地址選擇進行加權和評估的模型算法在近幾年被提出,比如離散選擇模型(discretechoicemodels)和計數(shù)模型(countdatamodels)。這些模型包含了很多可變化的地址因素。盡管這些模型在理論上是有用的,但由于時間和空間上巨大的消耗使得這些模型應用在實際情況下變得比較棘手。這就導致了管理者要同時根據(jù)給定的地址元素以及它們本身的喜好來做決策。
鑒于目前地址選擇的高主觀性以及高復雜度,本文采用“經驗”指導的方式進行地址選擇。co-location模式代表的是一組頻繁關聯(lián)的空間特征,通過這種關聯(lián)關系可以得出某個興趣點的影響特征集,而不必考慮復雜的地址因素,因為別人成功的經驗就是最好的借鑒,在這個“經驗”的基礎上,對用戶感興趣的興趣點進行co-location模式挖掘,并給出最終的推薦地址。從而提出一種基于co-location模式和本體的商業(yè)地址選擇方法coloc_site_miner(后簡稱csminer)。
技術實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種基于co-location模式和本體的商業(yè)地址選擇方法,給定一個用戶想要進行地址選擇的興趣點特征(比如:火鍋店),可以根據(jù)用戶的要求(互斥,半互斥,全互斥)給出適合創(chuàng)建該興趣點類型(適合開火鍋店)的地址列表供用戶進行進一步地評估。
本發(fā)明所采用的技術方案是,基于co-location模式和本體的商業(yè)地址選擇方法,按照以下步驟進行:
步驟1,從百度地圖上抓取北京市真實興趣點數(shù)據(jù)為源數(shù)據(jù),且同時抓取每個興趣點的類型,根據(jù)信息類型進行數(shù)據(jù)分類,創(chuàng)建相應的本體;
步驟2,借助百度地圖提供的api得到兩個興趣點之間的關鍵距離;
步驟3,計算每個興趣點的邊長;
步驟4,計算每個興趣點對應的鄰居興趣點集合;基于平面的網(wǎng)格法對地球球體進行網(wǎng)格劃分,對當前興趣點所在網(wǎng)格周圍的網(wǎng)格中其他興趣點進行搜索,計算周圍網(wǎng)格的興趣點與當前興趣點之間的關鍵距離以求取鄰近關系,從而進行鄰近關系判斷;
步驟5,當指定一個需要選址的興趣點特征,就要開始尋找包含該特征的關鍵co-location模式;特征f的關鍵co-location模式即給定一個空間特征f,參與度閾值p,設l為所有包含特征f且參與度不小于p的co-location模式集,l中包含廣義概念最多且階數(shù)最長的co-location模式即為f的關鍵co-location模式;
步驟6,在最終的選址方式上,需考慮用戶的選址偏向,即互利,半互斥和完全互斥;最后推薦滿足用戶需求的商業(yè)地址列表。
所述步驟1中,本體概念分為3種類型:葉概念、廣義概念和約束概念;葉概念為本體概念間包含關系的有向無環(huán)圖中的葉節(jié)點,在空間co-location模式挖掘中特征即葉概念;廣義概念為包含葉概念的概念;約束概念是定義在其他本體概念上的邏輯表達式;本體具體創(chuàng)建過程是:在抓取地圖數(shù)據(jù)的過程中,同時抓取每個興趣點的類型信息,類型信息是一個三元組(s1,s2,s3),其中
所述步驟1中,所述步驟3中,計算每個興趣點的邊長的具體步驟是:即在以興趣點標記地點為中心,以邊長為半徑的一個圓形區(qū)域均屬于該興趣點,為了得到某個興趣點的覆蓋范圍,首先計算當前興趣點的屬邊長l,設置邊界模糊度μ,0≤μ≤1,則其邊長為l(1-μ)。
所述步驟1中,所述步驟4中,鄰近關系的判斷準則為:給定兩個興趣點a和b,邊界模糊度μ,影響距離d,興趣點a和b的屬邊長分別為la,lb,若興趣點a和興趣點b的關鍵距離≤(la+lb)*(1-μ)+d,則a和b滿足鄰近關系;
進行鄰近關系判斷的具體方法是:將地球球體按照兩個垂直的方向進行180等分,即在豎直方向上,沿著每個維度的經線圈進行切分180等分;在水平方向上,沿著每個維度的緯線圈進行切分180等分;對于需要尋找其鄰近興趣點集合的某點p,需要對其所在的格子及周圍的8個格子進行搜索,搜索按照一定的方向且按寬度優(yōu)先的搜索方式;在搜索每個格子之前,都要判斷p與當前格子的最短距離是否大于影響距離,若大于影響距離,則當前被探索的格子及其相應方向的格子都無須再進行探索,因為被探索格子的任何一個點與p的距離都大于影響距離;若當前被探索的格子與p的最短距離不大于影響距離,則遍歷該格子的所有實例并計算各個實例與p的關鍵距離,若某個實例s與p的關鍵距離不大于影響距離且s與p不屬于同一個特征,則s與p滿足鄰近關系,若s與p屬于同一個廣義概念,則將s加入到鄰接關系表中對應廣義概念下p的鄰接實例集合中,否則,將s加入鄰接關系表中不同廣義概念下p的鄰接實例集合中;遍歷完當前格子的所有實例之后,將當前格子周圍的8個格子加入到隊列中,并繼續(xù)遍歷隊列的下一個格子,直到隊列中的格子全部遍歷完畢。
所述步驟1中,所述步驟6中,假設當前需要選址的特征為f;
所述互利:互利即與f同類型特征的商業(yè)體共同互利,與f同屬于一個本體廣義概念的特征都屬于f的同類型特征;選擇此偏向則依次遍歷f的關鍵co-location模式的行實例,以每個行實例的中心點作為選擇的地址送給客戶進行評估;
所述半互斥:半互斥即不能容忍選擇的地址存在f特征的商業(yè)體;選擇此偏向則需要對關鍵co-location模式進行拆分,將特征f從關鍵co-location模式中剔除,形成一個新的模式,然后尋找新模式的表實例,將f的關鍵co-location模式與新模式的行實例進行一一對比,得到的不同的行實例即為候選的地址;
所述全互斥:完全互斥即不能容忍選擇的地址存在與f同類型特征的商業(yè)體;選擇此偏向也需要尋找同半互斥相同的新的模式的表實例。
本發(fā)明的有益效果:空間co-location模式挖掘即挖掘空間特征間的“共存”關系,將現(xiàn)實生活中頻繁關聯(lián)的空間特征挖掘出來。而根據(jù)地理學第一定律:地理事物在空間分布上互為相關,利用co-location模式可以快速而準確地找到與空間某個特征最相關的特征集。在商業(yè)選址中,挖掘某個商業(yè)體的相關co-location模式可以給我們以經驗:這個商業(yè)體通常與哪些商業(yè)體頻繁合作可以獲利。而現(xiàn)實中商業(yè)體類型千千萬萬,某些商業(yè)體有很大的相似性,本發(fā)明利用本體的語義指導,將這些商業(yè)體進行分類,并在本體的指導下進行“利益最大化”的關鍵co-location模式挖掘,在關鍵co-location模式的指導下,給出滿足用戶要求的系統(tǒng)認為可以獲利的地址列表。之前大部分的商業(yè)選址需要各種主管的評估,耗費時間長,需要大量的人力和物力,本發(fā)明利用co-location模式借鑒成功商業(yè)體的“經驗”,快速給出具有高準確率的商業(yè)地址推薦供用戶有目的的進行下一步的評估,節(jié)省了大量的人力和物力??臻gco-location模式挖掘技術與本體的語義指導向結合,并考慮實際情況對數(shù)據(jù)進行了大量的預處理以提高結果的準確率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是空間鄰近關系示例。
圖2是本體h圖示例。
圖3是北京市部分興趣點本體圖示。
圖4是數(shù)據(jù)劃分示例。
圖5是比例參數(shù)下準確率評估。
圖6是影響距離下準確率評估。
圖7是邊界模糊度下準確率評估。
圖8是參與度下準確率評估。
圖9是距離閾值下鄰近關系時間效率評估。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
對基本概念進行解釋:
空間特征代表了空間中不同種類的事物,空間特征在空間位置上的一次出現(xiàn)稱為該空間特征的一個實例。給定空間特征集f及其實例集s,s上的空間鄰近關系r,即如果兩個不同實例之間的距離不大于給定的距離閾值d,則這兩個空間實例滿足空間鄰近關系r。一個co-location模式
圖1給出了一個空間實例分布的例子,包含5個特征a、b、c、d和e,其中a.1表示a特征的第1個實例;該空間共有5個a的實例,4個b的實例,3個c的實例,5個d的實例以及3個e的實例;連線表示兩個空間實例滿足鄰近關系,例如a.1和b.1是互相鄰近的。{b.4,c.1,d.2}形成一個團,且是一個3階co-location模式{b,c,d}的一個行實例。因為再無其他同時包含b,c,d這3個特征的實例形成團,則co-location模式{b,c,d}的表實例為{{b.4,c.1,d.2}}。因為模式{b,c,d}的表實例中只有一個b的實例b.4,所以pr({b,c,d},b)=1/4,同理pr({b,c,d},c)=1/3,pr({b,c,d},d)=1/5,則pi({b,c,d})=1/5。若設參與度閾值為1/5,則{b,c,d}為頻繁co-location模式。
本體是對共享概念模型的明確的規(guī)范的說明。本體可表示為5元組o={c,e,z,h,a},其中c是一組本體概念的集合;e是定義在c上的本體概念關系集合;z是本體概念的實例集;h是一個表示本體概念間包含關系(is-a關系,≤)的有向無環(huán)圖,如果本體概念c1包含本體概念c2,則c2is-ac1,在h圖(此處并非說明書附圖h)上則表示為c1指向c2的有向線段;a為加在本體上的額外定理的集合。
本文將本體的概念c分為3種類型,分別為葉概念、廣義概念和約束概念,葉概念即為本體h圖中的葉節(jié)點,廣義概念為包含葉概念的概念,約束概念是定義在其他本體概念上的邏輯表達式。
圖2為一個本體的h圖,其中鳥類和莊稼為約束概念,虛線表示了約束概念之間的映射關系。得到的概念集如下:
所有概念集合:{生物,鳥類,動物,植物,真菌,莊稼,麻雀,松鼠,蛇,麥子,松樹,柏樹,香菇,樹菇}
葉概念集合:{麻雀,松鼠,蛇,麥子,松樹,柏樹,香菇,樹菇}
廣義概念集合:{生物,動物,植物,真菌}
約束概念集合:{鳥類,莊稼}
箭頭表示了包含與被包含關系,假設f(c)表示本體概念c所包含的本體概念映射,則:
f(生物)={動物,植物,真菌}
f(植物)={麥子,松樹,柏樹}
f(動物)={麻雀,松鼠,蛇}
f(莊稼)={麥子}
……
本發(fā)明將本體應用到空間co-location模式挖掘,首先將空間特征映射到本體的葉概念,然后利用本體的語義將葉概念分類并在高層提取更加有意義的co-location模式,而不像經典co-location挖掘,僅僅只考慮本體葉概念之間的共生關系。
本發(fā)明的一種基于co-location模式和本體的商業(yè)地址選擇方法,包括數(shù)據(jù)預處理(本體創(chuàng)建、鄰近關系度量、邊界度量)、計算鄰近關系、關鍵co-location模式挖掘和地址選擇。
1.本體創(chuàng)建
本文以從百度地圖上抓取的真實興趣點數(shù)據(jù)為源數(shù)據(jù),且同時抓取每個興趣點的類型,根據(jù)這些類型信息,創(chuàng)建了相應的本體。圖3為基于北京市興趣點創(chuàng)建的本體的一部分,在本體可視圖的下方給出了每個概念的具體含義。該本體共包含21個廣義概念(c1到c20,根節(jié)點),155個空間特征,385616個空間實例(興趣點)。
將數(shù)據(jù)分類并創(chuàng)建成本體,有如下的優(yōu)勢:
將數(shù)據(jù)按語義劃分,更清晰明了。本體的廣義概念包含了具有相似性質的空間特征,更容易抓住這些特征的本質。co-location模式挖掘算法隨著co-location模式階數(shù)的遞增,計算代價呈指數(shù)性增長。以20個廣義概念(c1-c20)代替155個空間特征進行co-location模式挖掘,顯著減少了特征個數(shù),最終co-location模式的階數(shù)隨之降低,節(jié)省了大量的時間。在廣義概念層進行co-location模式挖掘不會丟失任何的團信息,且生成的co-location模式簡潔無冗余,可以讓用戶更容易做決策。
2.鄰近關系度量
若兩個空間實例之間滿足某種鄰近關系,則這兩個實例是互為鄰居的。在典型的co-location模式挖掘中,常以歐幾里得距離作為鄰近關系的度量準則,即,若兩個實例之間的歐式距離不大于一個給定的距離閾值,則這兩個實例是滿足鄰近關系的。鄰居關系暗示了一個“影響力”,距離近的兩個實體往往是互相依存互相影響的。
而在現(xiàn)實中,因為地球是一個球體,用歐幾里得距離來算兩個興趣點間的距離是不恰當?shù)?,因為興趣點之間總會有互相連接的路徑,借助百度地圖提供的api可以方便地得到兩個興趣點之間的可達距離。
定義1.關鍵距離。給定地球上的兩個興趣點a和b,任何一條從a走到b的可行路徑的距離稱作a到b的可達距離,其中,從a到b的最短可達距離稱為a和b的關鍵距離。
定義2.影響距離。給定一個距離閾值d,若兩個興趣點a和b之間的關鍵距離≤d,則a和b互為鄰居。距離閾值d被稱為影響距離。
如圖1所示,若c.3和e.3之間有一條河,則c.3和e.3之間無法直線到達,而從c.3到e.3有圖1所示兩條虛線的可達路徑,但因為比較粗的虛線是從c.3上橋到e.3要比細的虛線路徑要近,所以從c.3到e.3的那條粗虛線的距離即為c.3和e.3的關鍵距離。給定一個影響距離d,若c.3和e.3的關鍵距離不大于d,則c.3和e.3互為鄰居,滿足鄰近關系。
3.邊界度量
興趣點在地圖上都是以一個其占地范圍的中心點來表示,在實際情況中,每個興趣點的占地面積不同,而地圖上的標注點往往都是興趣點的中心點,若都從其中心位置開始尋找其影響距離之內的其他興趣點,則可能會造成某些鄰近關系的丟失。
例如,d.5的邊界如圖1所示。設影響距離為500米,若d.5的中心點和c.2的關鍵距離為1000米,按照經典的鄰近關系度量算法,d.5和c.2不滿足鄰居關系。而實際上,d.5的范圍包含了整個邊界之內的部分,由圖1可以明顯看出d.5和c.2以及d.3都滿足鄰近關系。
因此,興趣點邊界的判定是必要的,但是,因為每個興趣點的邊界都是不規(guī)則的,且利用模式識別的相關算法來進行近似計算復雜度太高,利用鄰近關系度量,可以估計一個興趣點的近似邊長。
定義3.屬邊長。給定一個興趣點a的標記地址,設興趣點b是與a直線距離最短的興趣點,則a和b之間的直線距離稱為a的屬邊長,即為la。
一般要考慮邊長的興趣點包括公園、景點、學校等大型建筑,其他像公司大樓、超市、火鍋店等中小型建筑的邊長默認為0。而經驗告訴我們,大型建筑旁邊直接挨著大型建筑的概率比較小,所以這種近似的估計在一定程度上可以提高選址的覆蓋率。
為了使算法更加靈活,設置一個邊界模糊度參數(shù)μ(0≤μ≤1),若一個興趣點的屬邊長為l,則其邊長為l(1-μ)。當μ=1時,邊長為0,這時遺漏掉的鄰近關系最多,隨著μ的減少,被加入的鄰近關系會越來越多,越來越完整,準確率在逐漸提高,當μ減少到一定程度時,準確率達到最高,隨后,隨著μ的減少,可能會增加一些錯誤的鄰近關系,則準確率會進一步降低。
4.計算鄰近關系
經過上面三個部分的數(shù)據(jù)預處理過程,就可以計算每個興趣點對應的鄰居興趣點集合。
定義4.鄰近關系。給定兩個興趣點a和b,邊界模糊度μ,影響距離d,a和b的屬邊長分別為la,lb,若興趣點a和興趣點b的關鍵距離≤(la+lb)*μ+d,則a和b滿足鄰近關系。
為了得到每個興趣點對應的鄰近關系,必須對當前興趣點周圍的其他興趣點進行搜索,計算周圍的興趣點與當前興趣點之間的關鍵距離以求取鄰近關系。一種很直觀的方法就是求出每個興趣點與其他所有興趣點的關鍵距離,再判斷鄰近關系,然而這種算法時間消耗太大,距離太遠的興趣點沒有必要進行計算?;诰W(wǎng)格法,本文給出了如下的在球體下進行鄰近關系判斷的方法。
將球體按照兩個垂直的方向進行180等分,即在豎直方向上,沿著每個維度的經線圈進行切分,在水平方向上,亦按照同樣的方法進行180等分。圖4顯示了將分割后的球體投影后的示例,對于圖4中需要尋找其鄰近興趣點集合的點a,需要對其所在的格子及周圍的8個格子進行搜索,搜索可以按照一定的方向按寬度優(yōu)先或者深度優(yōu)先搜索都可。在搜索每個格子之前,都要判斷該點與當前格子的最短距離是否大于影響距離,若大于影響距離,則當前被探索的格子及其相應方向的格子都無須再進行探索。例如,對于圖4中的點a,首先搜索其所在的格子,接著搜索1號格子,若1號格子與點a的距離大于影響距離,則2,8,9,10,11,12,13,23,24號格子均無須再搜索,否則,將1號格子周圍的格子(2,8,9,10,11)加入到隊列中去,以此類推。這種劃分方式可以有效地避免不必要的距離運算,提高了算法的效率。
依據(jù)圖3的本體以及圖1的部分特征的分布圖,假設圖1中直線相連的興趣點存在鄰近關系,表1給出了對應的鄰接關系表。因為之后的co-location模式挖掘算法均從廣義概念出發(fā),則特征a、b、c抽象為一個新特征,d和e抽象為1個新特征。所以,a.1雖然跟b.1鄰近,但因為a.1和b.1同屬一個新的廣義概念,所以鄰接關系表分為兩部分,一部分存儲不同廣義概念下的鄰接點,用來尋找關鍵co-location模式。一部分存儲同一廣義概念下的鄰接點,用來衡量同一廣義概念下特征的聯(lián)系緊密度。
表1鄰接關系表
5.關鍵co-location模式挖掘
當用戶指定一個需要選址的特征,csminer就要開始尋找包含該特征的頻繁co-location模式,即,該特征與哪些其他類型的特征頻繁地“共存”。
上文介紹了本體的創(chuàng)建,而且在co-location模式挖掘中,從高層廣義概念(圖1中c1到c20)進行co-location模式挖掘則類似于將具有相似屬性的特征進行聚類并合成為一個新的特征。例如圖1中,廣義概念“餐飲”包含了“中餐”、“西餐”、“咖啡屋”等原始特征信息。這種抽象對用戶是不可見的,用戶指定的是一個感興趣的特征,比如若用戶想在北京市建一個中餐廳,則他會直接選擇“中餐”這個特征。為了從數(shù)據(jù)中得到與“中餐”特征頻繁關聯(lián)的其他特征,需要挖掘其關鍵co-location模式。
定義5.關鍵co-location模式。給定一個空間特征f,參與度閾值p,設l為所有包含特征f且參與度不小于p的co-location模式集,l中包含廣義概念最多且階數(shù)最長的co-location模式即為f的關鍵co-location模式。
利用表1可以得到包含特征f的實例的所有極大團,并根據(jù)極大團算出每個包含特征f的模式的參與度值。例如,若用戶選擇的興趣點為“中餐”,則從表1中尋找“中餐”特征a的所有極大團:{{a.1,e.1},{a.2,d.1,e.2},{a.4,d.1,e.2},{a.4,d.4,e.2},{a.5,e.1}}。假設參與度閾值為1/4,則可知pi({a,d})=min{3/5,2/5}=2/5,pi({a,e})=min{3/5,2/3}=3/5,pi({a,d,e})=min{2/5,2/5,1/3}=1/3,則可得包含特征a的頻繁co-location模式集為{{a,d},{a,e},{a,d,e}},因這三個模式都包含了1個高層概念(c2),但{a,d,e}的階數(shù)最長,則{a,d,e}為特征a的關鍵co-location模式。關鍵co-location模式的選取是基于一個生活中的經驗:越多商業(yè)類型聚集的區(qū)域越有潛力。
若特征“中餐”的關鍵co-location模式為{中餐,公交站,便利店,超市,公園},則說明在一個附近(影響距離內)存在有公交站、便利店、超市和公園的地址最適合開一個中餐館。而關鍵co-location模式的每一個行實例都代表了包含f下實例的一個團,也指定了具體的選址范圍。
6.地址選擇
注意到在上節(jié)挖掘特征f的關鍵co-location模式的時候忽略了“同類”的鄰近關系,這是因為關鍵co-location模式的目的是為了找到特征f的最佳“共存”匹配,“同類”的鄰接關系則可以忽略。
然而在實際情況中,未必關鍵co-location模式中的每個行實例都是可行的地址。例如,特征“中餐”的關鍵co-location模式中的某個行實例代表的區(qū)域內中餐館已經趨于飽和,再加入相同類型的中餐館可能會有比較大的競爭。另外,由于關鍵co-location模式只考慮不同類別的最佳組合而忽略了同類別特征的影響,所以,在最終的選址策略上,還需要用戶的選址偏向。
本文給出3個選址偏向供用戶選擇:互利,半互斥和完全互斥?;ダ磁c同類型的商業(yè)體共同盈利;半互斥即不能容忍選擇的地址存在與自己同特征類型的商業(yè)體;完全互斥即不能容忍選擇的地址存在與自己同廣義概念的商業(yè)體。例如,參照圖3的本體,若用戶希望選址的特征為“中餐”,若用戶選址偏向為互利,則只要滿足關鍵co-location模式的分布地址都可以進行選擇;若用戶選址偏向為半互斥,則選擇的地址中附近不能存在中餐館;若用戶選擇偏向為完全互斥,則選擇的地址中不能包含“中餐館”、“西餐館”、“咖啡屋”等餐飲業(yè)。下面給出這三種偏向的地址選擇策略:
互利:選擇此偏向則依次遍歷關鍵co-location模式的行實例,以每個行實例的中心點作為選擇的地址送給客戶進行評估。需要注意的是,為了防止選擇過于靠近的地址,若當前待選擇的地址與目前已經選定的某個地址的距離小于影響距離的2倍,則放棄選擇該地址。
半互斥:選擇此偏向則需要對關鍵co-location模式進行拆分,將用戶感興趣的特征從關鍵co-location模式中剔除,形成一個新的模式,然后從表1所示的鄰近關系表中尋找新模式的表實例,將關鍵co-location模式與新模式的行實例進行一一對比,得到的不同的行實例即為候選的地址。若已知a的關鍵co-location模式為{a,c,d,e,f},則需要尋找{c,d,e,f}的表實例,若{c,d,e,f}的某個行實例{c.1,d.1,e.1,f.1}不存在于{a,c,d,e,f}的行實例中,則{c.1,d.1,e.1,f.1}即是一個候選的推薦區(qū)域。若{c,d,e,f}的所有行實例都在{a,c,d,e,f}中找到,則需要考察{c,d,e,f}的所有子集,直到有差集為止。事實上,重新尋找新模式的表實例代價比較大,為了更快地得到兩個模式表實例的差集,可以利用表1的同廣義概念下的鄰近點進行快速剪枝。例如,若表1中用戶選擇的興趣特征為a,則可知包含實例b.1的候選團必不滿足條件,因為a.1和a.5都與b.1是鄰近的,b.1形成的團附近必有a.1和a.5,同理可知包含b.2、b.3和c.3的候選團都不滿足條件,這樣可以顯著減少判團次數(shù),加快運行時間。
全互斥:此部分操作與半互斥相似,只是需要排除同一廣義概念下的所有特征。
算法描述如下:
輸入:原始興趣點數(shù)據(jù)文件data,參與度閾值p,影響距離d,邊界模糊度μ,用戶偏向r,用戶希望選址的特征f
輸出:滿足用戶需求的地址坐標列表result
①o=createontologies(data);/*創(chuàng)建本體*/
②girds=datadivision(data);/*數(shù)據(jù)劃分*/
③neighbors=findneighbors(o,grids,d,μ)/*計算鄰近關系*/
④c=minekeycolocation(f,neighbors,p)/*挖掘f的關鍵co-location模式*/
⑤result=findsites(c,neighbirs,r)/*給出最終的結果,其中r=0表示互利,r=1表示半互斥,r=2表示完全互斥*/
實驗評估
在北京市興趣點數(shù)據(jù)上驗證csminer在不同參數(shù)下的準確率,同時在最后進行了鄰近關系計算方法的時間評估。
1.實驗設置
實驗采用的真實數(shù)據(jù)為北京市興趣點數(shù)據(jù)集。該數(shù)據(jù)集包含155個空間特征,興趣點(空間實例)個數(shù)為385616個。限于篇幅,創(chuàng)建的本體的部分可視化如圖3所示。csminer利用c#語言編寫,實驗環(huán)境為win10系統(tǒng),8g內存,inteli5處理器。
本實驗中,采集到的北京市的興趣點的覆蓋范圍為北緯39度到41度,東經115度到118度,按照3.4節(jié)介紹的網(wǎng)格法的策略,為了更快地尋找鄰近關系,csminer將北京市的區(qū)域按0.1度的跨度進行分割,即將原始數(shù)據(jù)集分成了20行30列共600個格子。
為了評估csminer的準確率,實驗將原始數(shù)據(jù)分成兩個部分d1和d2,d1為原始訓練數(shù)據(jù)集,d2為測試數(shù)據(jù)集,實驗中按格子數(shù)對d1和d2進行劃分。設置一個比例參數(shù)
為了更好地測試csminer的準確率,需要進行多次的驗證。本實驗為求csminer的準確率共需要進行10次驗證,一次驗證過程如下:首先要從訓練集d1中獲取關鍵co-location模式,從d1的特征列表中隨機選取20個特征,并分別挖掘這20個特征的關鍵co-location模式,d2中則分20次分別刪除從d1中選取的20個特征下的所有興趣點,再對d2進行對應特征的地址推薦。將推薦的地址與之前刪掉的興趣點地址做對比,若兩個地址的距離滿足鄰近,則說明推薦的地址是正確的。則當前特征的推薦正確率=滿足鄰近關系的點的個數(shù)/生成的推薦點總數(shù)。注意,這個推薦正確率是真實正確率的下限,因為若推薦的點周圍原來不存在某個待驗證的興趣點,說明推薦點要么是錯誤的,要么是一個潛在的最佳地址。取20個特征下得到的正確率的平均值即作為1次驗證過程的正確率。將10次驗證過程的結果取平均值即為最終的csminer算法在ε劃分下的選址準確率。
本次實驗分別用比例參數(shù)、影響距離、邊界模糊度、參與度閾值4個參數(shù)來評估csminer的準確率,并在最后進行鄰近關系算法的效率評估,實驗中各個參數(shù)的具體設置見表2。
表2實驗設置
2.比例參數(shù)ε對準確率的影響
如圖5所示,隨著比例參數(shù)ε的增加,準確率在逐漸降低,這是因為隨著比例參數(shù)的增加,訓練集中的興趣點數(shù)目越來越少,訓練集規(guī)模的減少意味著可借鑒的經驗越來越少,很難得到完整的關鍵co-location模式,從而導致準確率的降低。從圖中亦可以看出隨著比例參數(shù)ε的增大,準確率降低的幅度越來越大,這是因為隨著比例參數(shù)ε的增加,從訓練集中可得到的頻繁co-location模式的階數(shù)在逐漸減少,導致關鍵co-location模式的階數(shù)減少,在低階的不完整的關鍵co-location模式的指導下,會在測試數(shù)據(jù)集中標注更多錯誤的地址。
3.影響距離對準確率的影響
如圖6所示,隨著影響距離d的增加,csminer的準確率先升高再降低,這是因為在影響距離過小的情況下,會將真實世界本來就存在的一些有聯(lián)系的興趣點忽略,導致得到的關鍵co-location模式不完整,隨著影響距離d的增加,得到的關鍵co-location模式會越來越完整,準確率逐漸增加。但當影響距離過大,一些現(xiàn)實中本沒有影響的興趣點被當作鄰近點來處理,會得到錯誤的關鍵co-location模式,這會導致準確率的降低。上節(jié)給出了比例參數(shù)ε與準確率的關系,這里給出了ε=1/15和ε=1/5的準確率比較,可以看出,隨著影響距離的增大兩條線越來越近,這是因為隨著影響距離的增大,關鍵co-location模式的階數(shù)也在變大,在測試集中尋找關鍵co-location模式下的團的數(shù)量也會急劇減少,使得準確率相差越來越少。
4.邊界模糊度對準確率的影響
如圖7所示,隨著邊界模糊度的增加,csminer的準確率先升高后降低,這是因為當邊界模糊度=1的時候丟失的鄰近關系最多,容易得到錯誤的關鍵co-location模式,這時的準確率最低,隨著邊界模糊度的降低,丟失的鄰近關系慢慢找回,準確率慢慢提高,但是當模糊度減少到一定限度之后,真實邊界外的一些本來沒有影響的興趣點被當作鄰居,導致準確率又慢慢降低。
5.參與度閾值
如圖8所示,隨著參與度閾值的增大,準確率先升高后降低,這是因為隨著參與度閾值的增大,頻繁co-location模式的數(shù)目越來越少,根據(jù)co-location模式的向下閉合性[12],co-location頻繁模式的階越來越低。只有當參與度閾值合理地設置在某個值的時候,才會得到較高的準確度。參與度閾值過低會導致某些階較短的co-location模式頻繁,導致錯誤的關鍵co-location模式;參與度閾值過高則會導致只有某些較長階的co-location模式頻繁,導致不完整的關鍵co-location模式。從圖8中還可以看到,當參與度閾值小于0.3的時候,準確率的變化比較平穩(wěn),而大于3之后急劇下滑,這是因為某些特征的關鍵co-location模式在參與度閾值不大于0.3的時候是完全一致的,當大于0.3的時候,各個特征的關鍵co-location模式變化較大,導致準確率在0.3之后急速下降。
6.鄰近關系計算方法效率評估
主要評估網(wǎng)格法尋找鄰近關系的效率。因為北京地區(qū)大約跨2個經度,3個緯度,以0.1度為間隔劃分成600個格子。每個格子的邊長大約在5千米左右,當影響距離小于5千米時,基本只考慮當前興趣點所在格子周圍的九宮格,為了更好地驗證網(wǎng)格法的時間效率,如圖9所示,對影響距離按5千米的跨度來進行評估。從圖9可以看出,遍歷法的運行時間與影響距離d無關,是一個固定的值,因為該算法每次都要遍歷所有興趣點之間的距離。而網(wǎng)格法的時間效率明顯優(yōu)于遍歷法,隨著影響距離的增加,判斷的格子的數(shù)目也在增加,所以時間會慢慢增加。按照圖9的趨勢,當影響距離上升到足夠大時,網(wǎng)格法的運行時間必定會超過遍歷法,因為網(wǎng)格法還有額外的判斷最短距離等操作的時間消耗,但是在實際情況下,特別是在本文所涉及的選址問題,兩個興趣點的影響距離一般不會超過10km,所以網(wǎng)格法在選址問題中依然有很大的優(yōu)勢。
因此,本文以co-location模式為基礎,利用co-location模式的“共存”性,尋找興趣點對應特征的其他頻繁共存的特征,挖掘其關鍵co-location模式,為了增加挖掘的準確率,本文做了許多相關的預處理工作以更加適應實際情況,以關鍵co-location模式,結合用戶的傾向,推薦給用戶感興趣的地址供用戶進一步決策。通過實驗對csminer的準確率以及鄰近關系算法的效率進行了驗證。數(shù)據(jù)劃分以及本體的高層挖掘使得csminer可以輕松地處理海量數(shù)據(jù)。從實驗中可以看到不同參數(shù)設置下csminer的準確率差距比較大。在圖5至圖8的數(shù)據(jù)圖中csminer的準確率均達到了80%以上,說明csminer在合適的參數(shù)設置下,選擇的地址具有較高的可靠性。合理的參數(shù)設置,可以讓csminer發(fā)揮得更好。
本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。