本發(fā)明屬于空間co-location(并置)模式挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種頻繁co-location(并置)模式的無損壓縮方法。
背景技術(shù):
:空間co-location模式挖掘(miningprevalentco-locationpatternsfromspatialdatasets)用于識別傳統(tǒng)地理空間數(shù)據(jù)集中頻繁地緊密相鄰出現(xiàn)的空間特征組。如圖1是一個(gè)空間數(shù)據(jù)集的例子。圖中以不同的圖標(biāo)表示不同的空間特征,如房子。圖中共有5個(gè)特征,每個(gè)特征有4個(gè)空間實(shí)例。從圖中可以觀察到,空間特征枯樹和山火以及房子和鳥的實(shí)例趨于頻繁地緊密相鄰出現(xiàn)。這兩個(gè)模式暗示著“山火頻繁與枯樹太多有關(guān)”,而“房子與鳥的頻繁出現(xiàn),說明人居環(huán)境得到了改善”??臻gco-location模式挖掘的應(yīng)用包括找出生活(或生長)空間相互重疊的動(或植)物、識別特定人群經(jīng)常聚集的地段以便有目的地放置特定廣告、理解地球氣候系統(tǒng)不同元素之間的聯(lián)系等。由于此研究領(lǐng)域具有較高的理論研究與實(shí)際應(yīng)用價(jià)值,國內(nèi)外許多研究者提出了各種空間co-location模式挖掘算法。與從事務(wù)數(shù)據(jù)庫中挖掘頻繁項(xiàng)集類似,從大型空間數(shù)據(jù)庫中挖掘頻繁co-location模式集的主要挑戰(zhàn)是這種挖掘常常產(chǎn)生大量滿足最小頻繁性閾值m的空間co-location模式,當(dāng)m設(shè)得很低時(shí)尤其如此。這是因?yàn)槿绻粋€(gè)co-location模式是頻繁的,則他的所有子集也是頻繁的。為此,現(xiàn)有技術(shù)(j.s.yooandm.bow.miningtop-kclosedco-locationpatterns[c].inproceedingsofieeeinternationalconferenceonspatialdataminingandgeographicalknowledgeservices(icsdm),pp.100-105,2011.記為文獻(xiàn)2)提出了一種top-k閉co-location模式概念和相應(yīng)的挖掘算法,在該文獻(xiàn)中,閉co-location模式的概念是:一個(gè)co-location模式c是閉的,當(dāng)且僅當(dāng)它的參與度值均大于它的任何超模式的參與度值,即:top-k閉co-location模式的概念是:設(shè)l是按參與度值降序排列的所有閉co-location模式的列表,p是列表l中第k個(gè)閉co-location模式的參與度,top-k閉co-location模式是指所有參與度值大于等于p的閉co-location模式的集合。top-k閉co-location模式挖掘的方法是:首先,把輸入數(shù)據(jù)組織成實(shí)例鄰居事務(wù)集和特征鄰居事務(wù)集。鄰居事務(wù)集的優(yōu)點(diǎn)在于:1、它不會丟失任何具有鄰近關(guān)系的實(shí)例對;2、它易建成;3、由它可方便地產(chǎn)生候選co-location模式;4、它可以給出co-location模式參與度的上界值。其次,使用類fp-tree結(jié)構(gòu)來存儲具有鄰近關(guān)系的空間特征,從而可以得到星型鄰居候選模式。然后,通過組合相關(guān)星型鄰居候選模式,可以得到候選co-location模式和候選模式參與度的上界值。接下來,利用內(nèi)部最小頻繁性閾值θ可以定義一個(gè)剪枝框架,從而減少搜索空間中候選模式的數(shù)量。這個(gè)剪枝框架的基本思想是:設(shè)定當(dāng)前top-k結(jié)果集中最小的參與度值為內(nèi)部最小頻繁性閾值θ,如果下一個(gè)候選的參與度的上界值小于θ,則它及它所有的超集均可以剪枝。再然后,對于不能剪枝的候選模式,利用實(shí)例鄰居事務(wù)集獲得候選模式的表實(shí)例,從而可以計(jì)算候選模式的真實(shí)參與度值。最后,利用折半查找的方法在top-k有序結(jié)果集中對比co-location模式的參與度值,從而得到最終的top-k閉模式集。對于圖2(a)所示的空間數(shù)據(jù)集,通常用f={a,b,c,d}來表示空間特征的集合,而特征實(shí)例則記為“特征.數(shù)字編號”,例如“a.1”,圖中用實(shí)例間的連線表示兩個(gè)實(shí)例間存在鄰近關(guān)系??梢钥吹?,在圖2(a)所示的這個(gè)空間數(shù)據(jù)集中特征a有4個(gè)實(shí)例,b有5個(gè)實(shí)例,c有3個(gè)實(shí)例,而d有4個(gè)實(shí)例。而參與率和參與度的引入,則可用來挑選出f中所有的頻繁co-location模式。假若此時(shí)設(shè)置最小參與度閾值m=0.3,那么這個(gè)數(shù)據(jù)集所包含的頻繁co-location模式為:{a,b,c,d},{a,b,c},{a,b,d},{a,c,d},{b,c,d},{a,b},{a,c},{a,d},{b,c},{b,d}和{c,d}(圖2(b)給出了圖2(a)數(shù)據(jù)集的所有co-location模式的表實(shí)例、參與率和參與度等值)。然而,由于滿足向下閉包性質(zhì)的co-location模式會產(chǎn)生大量的冗余模式,因此如何使用一個(gè)精簡集(較小的集合),使其不僅能描繪原始結(jié)果集且通過它能夠推導(dǎo)出原始的結(jié)果集便成了新的研究熱點(diǎn)。于是,學(xué)者們提出了極大co-location模式集和閉co-location模式集這兩個(gè)概念。極大co-location模式集是有損壓縮的精簡集,這是因?yàn)樗m能推導(dǎo)出原始結(jié)果集,但不一定能推導(dǎo)出相應(yīng)的參與度(pi)值。而閉co-location模式集是無損壓縮的精簡集,它解決了極大co-location模式集不能推導(dǎo)出相應(yīng)參與度(pi)值的問題。但這也使得閉co-location模式集的精簡能力變得很有限。例如,圖2(a)中數(shù)據(jù)集的閉co-location模式集是{{a,b,c,d},{a,b,d},{a,c,d},{b,c,d},{a,b},{a,d},{b,d},{c,d}},可以看到,這樣的精簡集依舊很大。實(shí)踐中,由空間數(shù)據(jù)集產(chǎn)生的頻繁co-location模式的數(shù)量可能非常大,因此,從中識別出可以推導(dǎo)出其他所有的頻繁co-location模式的、較小的、具有代表性的壓縮子集是有用的。頻繁閉co-location模式集(記為pi-閉co-location模式集)提供了頻繁co-location模式集的一種壓縮表示,該表示不丟失參與度信息。存在的頻繁閉co-location模式概念沿襲了傳統(tǒng)頻繁閉項(xiàng)集的思想,其結(jié)果是壓縮率極低,即頻繁閉co-location模式數(shù)目仍然偏大。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種頻繁co-location模式的無損壓縮方法,該方法提供了頻繁co-location模式集的更小的、不丟失參與度信息的壓縮表示。本發(fā)明所采用的技術(shù)方案是,頻繁co-location模式的無損壓縮方法,首先定義spi-閉co-location模式:定義1.對于兩個(gè)給定的co-location模式c和c′且c在c′中的超參與度spi(c|c')被定義為通過c'的表實(shí)例計(jì)算得到的c中所有特征參與率的最小值,即:spi(c|c')=min{pr(c',fi),fi∈c};定義2.一個(gè)co-location模式c是spi-閉co-location模式,當(dāng)且僅當(dāng)c的pi值大于c在它所有spi-閉的超模式c'中的spi值,即:當(dāng)且僅當(dāng)c'是spi-閉co-location模式,同時(shí)pi(c)>spi(c|c')→c是一個(gè)spi-閉co-location模式;定義3.若一個(gè)spi-閉co-location模式c是spi-閉頻繁co-location模式,當(dāng)且僅當(dāng)c是spi-閉的且pi(c)≥m,其中m表示的是用戶指定的頻繁性閾值;而對于一個(gè)co-location模式c,如果存在一個(gè)co-location模式c'使得且pi(c)=spi(c|c')(pi(c)=pi(c')),那么稱“c'spi-覆蓋c(pi-覆蓋)”;然后,按照以下步驟進(jìn)行:步驟1,預(yù)處理輸入數(shù)據(jù):生成鄰居事務(wù)集nt和特征鄰居事務(wù)集ent;步驟2,使用字典序前綴樹結(jié)構(gòu)來存儲特征鄰居事務(wù)集,基于特征鄰居事務(wù)集的前綴樹結(jié)構(gòu),生成星型spi-閉候選模式,組合星型spi-閉候選模式生成團(tuán)spi-閉候選模式;步驟3,生成了團(tuán)spi-閉候選模式之后,通過掃描鄰居事務(wù)集nt,可以得到候選模式的候選表實(shí)例,再通過檢測其它實(shí)例的鄰近關(guān)系,可以得到真正符合團(tuán)關(guān)系的表實(shí)例;基于表實(shí)例可以計(jì)算模式的參與度pi,同時(shí)可以通過以下方法判定一個(gè)模式是否是spi-閉co-location模式:對于k階候選模式c,若pi(c)=upi(c)(c的參與度pi=c的上界參與度upi),那么c一定是spi-閉co-location模式;否則,就需要先生成模式c的所有k-1階被剪枝的子模式作為候選,接下來,若pi(c)<m,那么c就被剪枝掉;如若大于等于m,則需要根據(jù)定義2和定義3來判定c是否是一個(gè)spi-閉co-location模式。進(jìn)一步的,所述步驟1中,預(yù)處理輸入數(shù)據(jù)具體過程為:使用給定的鄰近距離閾值處理輸入數(shù)據(jù)集,得到所有的鄰近實(shí)例對,通過分組鄰近實(shí)例對,生成鄰居事務(wù)集nt,然后,根據(jù)鄰居事務(wù)集nt生成特征鄰居事務(wù)集ent;對于一個(gè)空間特征實(shí)例f.i∈s,它的實(shí)例鄰居事務(wù)集是一個(gè)包含f.i和所有與f.i具有鄰近關(guān)系的其它空間特征實(shí)例的集合,也就是nt(f.i)={f.i,g.j∈s|nr(f.i,g.j)=trueandf≠g},其中nr表示空間實(shí)例之間的鄰近關(guān)系,f.i被稱為參考實(shí)例,所有實(shí)例的鄰居事務(wù)集的集合稱為空間數(shù)據(jù)的鄰居事務(wù)集,記為nt;實(shí)例鄰居事務(wù)集nt中不同空間特征的字典序集,稱為特征鄰居事務(wù)集ent。進(jìn)一步的,所述步驟2使用字典序前綴樹結(jié)構(gòu)來存儲特征鄰居事務(wù)集的具體過程為:步驟1.定義字典序前綴樹;以參考實(shí)例的特征類型為根節(jié)點(diǎn),以特征鄰居事務(wù)集中鄰居特征為子節(jié)點(diǎn);每個(gè)子節(jié)點(diǎn)由三部分內(nèi)容構(gòu)成:特征類型,計(jì)數(shù)值和節(jié)點(diǎn)連線;其中,特征類型用來標(biāo)識節(jié)點(diǎn);計(jì)數(shù)值代表在整個(gè)特征事務(wù)集中有幾條路徑可以從參考實(shí)例的特征類型到達(dá)該特征類型;節(jié)點(diǎn)連線連接的是在這棵樹中與該節(jié)點(diǎn)擁有相同特征類型的節(jié)點(diǎn);步驟2.由于在字典序前綴樹中,所有的子節(jié)點(diǎn)都與根節(jié)點(diǎn)具有鄰近關(guān)系,所以可以生成星型spi-閉候選co-location模式;而且通過字典序前綴樹,還可以得到此星型spi-閉co-location模式的參與率上界值(upr);若在同一棵樹中,某個(gè)候選的上界參與率等于它的超候選的上界參與率,那么,就標(biāo)紅這個(gè)星型候選;但若某個(gè)候選的上界參與率小于閾值m,那么就把它刪除掉;步驟3,通過組合k個(gè)相關(guān)星型spi-閉co-location候選模式,生成k階團(tuán)spi-閉co-location候選模式,且這k個(gè)星型候選中最小的上界參與率便是k階團(tuán)spi-閉co-location候選模式的上界參與度值(upi)。本發(fā)明的有益效果是:提出了一種頻繁co-location模式的無損壓縮新方法,稱為spi-閉co-location模式挖掘方法。spi-閉co-location模式集提供了頻繁co-location模式集的更小(比現(xiàn)有技術(shù)提出的閉co-location模式(稱為pi-閉co-location模式)集減少約30%)的、不丟失參與度信息的壓縮表示。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是空間數(shù)據(jù)集舉例。圖2a是一個(gè)空間數(shù)據(jù)集示例,圖2b是圖2a中所有可能的co-location模式的co-location實(shí)例、參與率和參與度值。圖3是候選模式的生成示例,其中圖3a是表1(a)數(shù)據(jù)集中特征的字典序前綴樹;圖3b是星型spi-閉候選模式;圖3c是團(tuán)spi-閉候選模式。圖4是本發(fā)明實(shí)施例中spi-挖掘器和pi-挖掘器運(yùn)行時(shí)間對比圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。首先,給出spi-閉co-location模式的相關(guān)定義和引理,然后給出能夠直接挖掘這一類模式的方法。定義1.超參與度,thesuperparticipationindexspi(c|c')對于兩個(gè)給定的co-location模式c和c′且c在c′中的超參與度spi(c|c')被定義為通過c'的表實(shí)例計(jì)算得到的c中所有特征參與率的最小值。即:spi(c|c')=min{pr(c',fi),fi∈c}。例1,在圖2(a)中,spi({a,c,d}|{a,b,c,d})=min{pr({a,b,c,d},a)=2/4,pr({a,b,c,d},c)=1/3,pr({a,b,c,d},d)=2/4}=1/3。類似地,spi({a,b,d}|{a,b,c,d})=2/5。定義2.spi-閉co-location模式,spi-closedco-locationpatterns一個(gè)co-location模式c是spi-閉co-location模式,當(dāng)且僅當(dāng)c的pi值大于c在它所有spi-閉的超模式c'中的spi值。即:當(dāng)且僅當(dāng)c'是spi-閉co-location模式,同時(shí)pi(c)>spi(c|c')→c是一個(gè)spi-閉co-location模式。為方便后面的描述,我們把傳統(tǒng)閉co-location模式(即文獻(xiàn)2提出的閉co-location模式)記作pi-閉co-location模式(pi-closedco-locationpatterns)。例2,對于圖2(a)中的空間數(shù)據(jù)集,若m=0.3,那么{a,b,c,d}是一個(gè)spi-閉co-location模式。而由于pi({a,b,c})=spi({a,b,c}|{a,b,c,d})=pi({a,b,c,d}),pi({a,b,d})=spi({a,b,d}|{a,b,c,d})>pi({a,b,c,d}),所以{a,b,c}和{a,b,d}都不是spi-閉co-location模式,但是,{a,b,d}是一個(gè)pi-閉co-location模式。定義3.spi-閉頻繁co-location模式,spi-closedprevalentco-locationpatterns若一個(gè)spi-閉co-location模式c是spi-閉頻繁co-location模式,當(dāng)且僅當(dāng)c是spi-閉的且pi(c)≥m,其中m表示的是用戶指定的頻繁性閾值。為了簡化陳述,用spi-閉co-location模式代替spi-閉頻繁co-location模式。而對于一個(gè)co-location模式c,如果存在一個(gè)co-location模式c'使得且pi(c)=spi(c|c')(pi(c)=pi(c')),那么稱“c'spi-覆蓋c(pi-覆蓋)”。引理1.若且“c'pi-覆蓋c”,那么“c'spi-覆蓋c”一定成立。引理2.在頻繁co-location模式集中,spi-覆蓋關(guān)系是一種偽偏序關(guān)系,它滿足:(1)“cspi-覆蓋c”。(自反性)(2)若“c′spi-覆蓋c”且“cspi-覆蓋c′”,那么c=c′。(反對稱性)(3)若pi(c)=pi(c′)且“c"spi-覆蓋c′”,那么“c"一定能夠spi-覆蓋c”。(偽傳遞性)我們注意到,“pi-覆蓋關(guān)系”是滿足傳遞性的,但是“spi-覆蓋關(guān)系”并非如此。這也就是為什么在定義2中附加了條件“c'是spi-閉co-location模式”。此外,尋找spi-閉co-location模式的過程必須自頂向下進(jìn)行,也就是說,spi-閉co-location模式的挖掘是從高階到低階依次生成的。最后,spi-閉模式集的壓縮性能比pi-閉模式集的壓縮性能要強(qiáng),也就是說,對于同一數(shù)據(jù)集,我們得到的spi-閉模式集sspi-closed中所包含的模式數(shù)量要比pi-閉模式集spi-closed中所包含的模式數(shù)量要少。引理3.若c∈sspi-closed,那么c∈spi-closed,反之則不一定成立。下面闡述直接挖掘spi-閉co-location模式的有效方法,稱為spi-閉挖掘器。為了快速生成spi-閉co-location模式集,需要預(yù)處理輸入數(shù)據(jù),其過程如下:對于一個(gè)空間特征實(shí)例f.i∈s,它的實(shí)例鄰居事務(wù)集是一個(gè)包含f.i和所有與f.i具有鄰近關(guān)系的其它空間特征實(shí)例的集合。也就是,nt(f.i)={f.i,g.j∈s|nr(f.i,g.j)=trueandf≠g},其中nr表示空間實(shí)例之間的鄰近關(guān)系,f.i被稱為參考實(shí)例。例如,在圖2(a)中,實(shí)例a.1的實(shí)例鄰居事務(wù)集是{a.1,b.1,c.1,d.1}。而表1(a)給出了圖2(a)中所有空間實(shí)例的鄰居事務(wù)集。實(shí)例鄰居事務(wù)集中不同空間特征的字典序集,稱為特征鄰居事務(wù)集,如表1(b)是表1(a)對應(yīng)的特征鄰居事務(wù)集。表1為圖2(a)空間數(shù)據(jù)集的實(shí)例鄰居事務(wù)集和特征鄰居事務(wù)集為了方便快捷地生成候選spi-閉co-location模式并剪枝候選搜索空間,使用字典序前綴樹結(jié)構(gòu)來存儲特征鄰居事務(wù)集。首先,我們定義字典序前綴樹。它以參考實(shí)例的特征類型為根節(jié)點(diǎn),以特征鄰居事務(wù)集中鄰居特征為子節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)由三部分內(nèi)容構(gòu)成:特征類型,計(jì)數(shù)值和節(jié)點(diǎn)連線。其中,特征類型用來標(biāo)識節(jié)點(diǎn);計(jì)數(shù)值代表在整個(gè)特征事務(wù)集中有幾條路徑可以從參考實(shí)例的特征類型到達(dá)該特征類型;節(jié)點(diǎn)連線連接的是在這棵樹中與該節(jié)點(diǎn)擁有相同特征類型的節(jié)點(diǎn)。例如,表1(b)中的特征鄰近事務(wù)集的字典序前綴樹如在圖3(a)所示。其次,由于在字典序前綴樹中,所有的子節(jié)點(diǎn)都與根節(jié)點(diǎn)具有鄰近關(guān)系,所以可以生成星型spi-閉候選co-location模式。而且通過字典序前綴樹,還可以得到此星型spi-閉co-location模式的參與率上界值(它是根節(jié)點(diǎn)的參與率上界值)。若在同一棵樹中,某個(gè)候選的上界參與率等于它的超候選的上界參與率,那么,就標(biāo)紅這個(gè)星型候選。但若某個(gè)候選的上界參與率小于閾值m,那么就把它刪除掉。例如,對于圖3(a)中特征a的字典序前綴樹,如果m=0.3,可以得到星型候選及上界參與度:{a,b,c,d}:2/4,{a,b,c}:2/4,{a,b,d}:2/4,{a,c,d}:3/4,{a,b}:3/4,{a,c}:3/4,{a,d}:3/4。而其中需要被標(biāo)紅的候選模式分別為:{a,b,c}:2/4,{a,b,d}:2/4,{a,c}:3/4和{a,d}:3/4。圖3(a)中4棵前綴樹所能生成的星型spi-閉co-location候選模式如圖3(b)所示。最后,通過組合k個(gè)相關(guān)星型spi-閉co-location候選模式,生成k階團(tuán)spi-閉co-location候選模式,且這k個(gè)星型候選中最小的上界參與率便是k階團(tuán)spi-閉co-location候選模式的上界參與度值。剪枝1(非頻繁剪枝):若一個(gè)co-location模式c不是某個(gè)特征fi(fi∈c)前綴樹的星型spi-閉co-location候選模式,那么c可以被剪枝掉。例如,若m=0.4,那么模式{c,a,b,d}和{c,a,b}就不是特征c前綴樹的星型spi-閉co-location候選模式。那么,{a,b,c,d}和{a,b,c}不能再組合形成團(tuán)spi-閉co-location候選模式,{a,b,c,d}和{a,b,c}可以被剪枝掉。剪枝2(非spi-閉剪枝1):若一個(gè)團(tuán)spi-閉候選模式c的upi值(上界參與度值)被標(biāo)紅,且upi(c)=upi(c')(c′是一個(gè)團(tuán)spi-閉候選模式),那么c可以被剪枝掉。例如,在圖3(c)中,upi({a,b,c})=upi({a,b,c,d}),若{a,b,c,d}是團(tuán)spi-閉候選模式,那么{a,b,c}可以被剪枝掉。同樣地,{a,c}和{b,c}也可以被剪枝掉。剪枝3(非spi-閉剪枝2):若一個(gè)團(tuán)spi-閉候選模式c的upi值被標(biāo)紅,且upi(c)=uspi(c|c')(c′是一個(gè)團(tuán)spi-閉候選模式,uspi(c|c')是指超參與度上界值),那么c可以被剪枝掉。例如,在圖3(c)中,upi({a,b,d})=uspi({a,b,d}|{a,b,c,d})=2/5,若{a,b,c,d}是團(tuán)spi-閉候選模式,那么{a,b,d}可以被剪枝掉。同樣地,{a,d}也可以被剪枝掉。但是,由于upi({b,d})≠uspi({b,d}|{b,c,d}),所以{b,d}不可以被剪枝掉。如圖3(c)所示,若m=0.3,那么可以得到的團(tuán)spi-閉候選模式和它們的upi值分別為:{a,b,c,d}:1/3,{a,c,d}:2/3,{b,c,d}:2/3},{a,b}:3/5,{b,d}:3/4和{c,d}:1。注意到,對于圖2(a)中的空間數(shù)據(jù)集,通過上述的剪枝過程,所有非spi-閉模式都已被剪枝掉。此外,注意到,剪枝3包含了剪枝2,也就是說,能被剪枝2剪枝掉的候選模式,也能用剪枝3剪枝掉。之所以保留剪枝2的原因在于:1、當(dāng)使用值對比策略時(shí),剪枝2的計(jì)算復(fù)雜性要比剪枝3的低;2、符合剪枝2條件的非spi-閉模式居多。一旦生成了候選模式之后,就需要找出每個(gè)候選模式的表實(shí)例并計(jì)算出它們的真實(shí)參與度(pi)值。對此,將以自頂向下的方式來完成。通過掃描鄰居事務(wù)集,可以得到候選模式的候選表實(shí)例,再通過檢測其它實(shí)例的鄰居事務(wù)集,可以得到真正符合團(tuán)關(guān)系的表實(shí)例。例如,在圖3(a)中,{a.2,b.2,c.1,d.2}是候選模式{a,b,c,d}的真實(shí)表實(shí)例。但{a.2,b.1,c.1,d.2}就不是了。對于k階候選模式c,若pi(c)=upi(c),那么c一定是spi-閉co-location模式。否則,就需要先生成模式c的所有k-1階子模式,接下來,若pi(c)<m,那么c就被剪枝掉;如若大于等于m,則需要根據(jù)定義2和定義3來檢測c是否是一個(gè)spi-閉co-location模式。需要注意的是,2階co-location模式的upi值是其真實(shí)的pi值。下面,給出直接挖掘spi-閉co-location模式的spi-閉挖掘器的算法:而第三部分的主要功能是計(jì)算cncc中每個(gè)候選模式的真實(shí)pi值,且生成spi-閉頻繁co-location模式集ω。特別地,若一個(gè)候選模式c,其pi(c)=upi(c),那么就直接把模式c從cncc移到ω中。但若候選模式c的pi(c)≠upi(c),那么就用steps25)–27)進(jìn)一步處理它們。下面通過一組實(shí)驗(yàn)(實(shí)施例)來驗(yàn)證本發(fā)明提出的spi-閉co-location模式集和spi-閉挖掘器的性能。本實(shí)驗(yàn)所采用的編程工具是visualc++。運(yùn)行spi-挖掘器的實(shí)驗(yàn)環(huán)境是:cpu:intelcorei53337u@1.80ghz;ram:2gb;operatingsystem:microsoftwindows7.實(shí)施例所使用的數(shù)據(jù)是來自“云南三江并流保護(hù)區(qū)”的植物分布數(shù)據(jù)集,它擁有少量空間特征,但含有大量特征實(shí)例。此組數(shù)據(jù)是分布在110000m×160000m區(qū)域范圍,它不僅含有離散分布的數(shù)據(jù),而且含有聚簇分布的數(shù)據(jù)。如表1所示。表1.云南三江并流保護(hù)區(qū)植物分布數(shù)據(jù)集數(shù)據(jù)集名特征數(shù)實(shí)例數(shù)(max,min)實(shí)例分布區(qū)域(米)云南三江并流植物分布數(shù)據(jù)集15501046(55646,8706)110000×160000(max,min):用來表示此數(shù)據(jù)集中所有特征的最大實(shí)例數(shù)目和最小實(shí)例數(shù)目使用表1所示的數(shù)據(jù)集,我們對spi-閉挖掘器和pi-閉挖掘器進(jìn)行對比。如表2所示,它給出的是隨著模式階數(shù)的增長,生成的候選模式的數(shù)量和最終結(jié)果模式的數(shù)量??梢钥吹?,spi-閉挖掘器生成的候選模式的數(shù)量比pi-閉挖掘器生成的候選模式的數(shù)量要少。此外,隨著模式階數(shù)的增長,spi-閉挖掘器生成的候選模式的數(shù)量和最終結(jié)果模式的數(shù)量越來越靠近。這樣就會大幅度地減少算法的運(yùn)行時(shí)間,因?yàn)榕卸ㄒ粋€(gè)長候選模式是否是閉模式所花費(fèi)的時(shí)間要比判定一個(gè)較短的候選模式所花費(fèi)的時(shí)間要長。表2.spi-閉挖掘器和pi-閉挖掘器對比在這個(gè)實(shí)驗(yàn)中,我們設(shè)置d=10000,m=0.3如圖4所示,我們可以看到,當(dāng)m和d比較小時(shí),spi-閉挖掘器要比pi-閉挖掘器運(yùn)行的快。特別是當(dāng)m=0.1時(shí),spi-閉挖掘器比pi-挖掘器快了三倍。本發(fā)明的優(yōu)點(diǎn)是:1、提出的spi-閉co-location模式集提供了頻繁co-location模式集的更小(比文獻(xiàn)2提出的閉co-location模式(稱為pi-閉co-location模式)集減少約30%)的、不丟失參與度信息的表示。2、設(shè)計(jì)的spi-閉挖掘器的運(yùn)行時(shí)間比傳統(tǒng)pi-閉co-location模式挖掘所用的時(shí)間要少。首先,因?yàn)閟pi-閉模式的約束條件要比pi-閉模式的約束條件要強(qiáng),所以,與pi-閉模式挖掘算法相比,在spi-閉挖掘器中生成的候選模式要少;其次,在spi-閉co-location模式生成的過程中,大量的時(shí)間被用在生成co-location實(shí)例和計(jì)算pi值上。因此,在生成候選模式的過程中,我們使用了3種剪枝策略來盡可能地去掉非spi-閉模式,如圖1(a)所示的數(shù)據(jù),在組合過濾階段,所有非spi-閉co-location模式已被全部剪枝掉了。本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁12