一種聚簇圖集合中的子圖檢索方法
【專利摘要】本發(fā)明公開了一種聚簇圖集合中的子圖檢索方法,包括:索引建立步驟,根據(jù)聚簇圖的結(jié)構(gòu)信息和結(jié)點屬性計算聚簇圖集合中各聚簇圖之間的相似性,根據(jù)各聚簇圖之間的相似性采用層次聚類算法將相近的聚簇圖聚類,直到剩下一個聚簇圖;子圖檢索步驟;根據(jù)用戶發(fā)起查詢圖的結(jié)構(gòu)以及頂點屬性,對聚簇圖索引樹采用樹的自頂向下的方式進(jìn)行查詢圖的同構(gòu)匹配。本發(fā)明通過在數(shù)據(jù)集合中建立樹形索引,盡早過濾不包含查詢圖的數(shù)據(jù)項,進(jìn)行加快查詢速度,提高查詢效率。
【專利說明】一種聚簇圖集合中的子圖檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖形數(shù)據(jù)檢索【技術(shù)領(lǐng)域】,更具體地,涉及一種聚簇圖集合中的子圖檢 索方法。
【背景技術(shù)】
[0002] 圖形數(shù)據(jù)被廣泛作為社交應(yīng)用的數(shù)學(xué)模型,為了防止惡意攻擊者根據(jù)用戶特有的 好友關(guān)系還原用戶并獲取用戶的敏感信息,科技工作者設(shè)計了各種各樣的匿名方法。聚簇 化是將屬性和結(jié)構(gòu)相近的用戶組合到一起,對外呈現(xiàn)同一屬性和結(jié)構(gòu)的方式。聚簇化后,數(shù) 據(jù)擁有者將數(shù)據(jù)發(fā)布到開放的數(shù)據(jù)共享平臺以供科技工作者利用社交應(yīng)用的數(shù)據(jù)進(jìn)行相 關(guān)的研究工作。但是,由于聚簇化后的圖數(shù)據(jù)匹配中,結(jié)點之間存在一對多的映射關(guān)系,目 前尚未存在有效子圖檢索技術(shù)用于解決該類型數(shù)據(jù)集合中的子圖檢索問題。
【發(fā)明內(nèi)容】
[0003] 針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明的目的是提供一種聚簇圖集合中的 子圖檢索方法,其通過為聚簇圖集合建立樹形索引,盡早過濾掉不符合查詢約束的聚簇圖 數(shù)據(jù)項,縮小查詢空間,進(jìn)而提高檢索效率。
[0004] 為實現(xiàn)上述目的,本發(fā)明提供了一種聚簇圖集合中的子圖檢索方法,所述包括以 下步驟:
[0005] (1)索引建立步驟:根據(jù)聚簇圖的結(jié)構(gòu)信息和結(jié)點屬性計算聚簇圖集合中各聚簇 圖之間的相似性,根據(jù)各聚簇圖之間的相似性采用層次聚類算法將相近的聚簇圖聚類,直 到剩下一個聚簇圖,從而將聚簇圖集合轉(zhuǎn)化成聚簇圖索引樹;
[0006] (2)子圖檢索步驟:根據(jù)用戶發(fā)起查詢圖的結(jié)構(gòu)以及頂點屬性,對聚簇圖索引樹 采用樹的自頂向下的方式進(jìn)行查詢圖的同構(gòu)匹配;若某中間聚簇圖不包含查詢圖,則其子 孫節(jié)點代表的聚簇圖不需要進(jìn)行匹配,因此將該中間聚簇圖及其子孫過濾掉;若某節(jié)點代 表的聚簇圖包含查詢圖,若該聚簇圖不是數(shù)據(jù)圖,則將其孩子節(jié)點表示的聚簇圖加入待檢 測隊列,若該聚簇圖是數(shù)據(jù)圖,則將其加入結(jié)果集;最終將結(jié)果集合返回給用戶。
[0007] 本發(fā)明的一個實施例中,所述步驟(1)中根據(jù)聚簇圖的結(jié)構(gòu)信息和結(jié)點屬性計算 聚簇圖集合中各聚簇圖之間的相似性具體根據(jù)下式計算:
【權(quán)利要求】
1. 一種聚簇圖集合中的子圖檢索方法,其特征在于,所述方法包括以下步驟: (1) 索引建立步驟:根據(jù)聚簇圖的結(jié)構(gòu)信息和結(jié)點屬性計算聚簇圖集合中各聚簇圖之 間的相似性,根據(jù)各聚簇圖之間的相似性采用層次聚類算法將相近的聚簇圖聚類,直到剩 下一個聚簇圖,從而將聚簇圖集合轉(zhuǎn)化成聚簇圖索引樹; (2) 子圖檢索步驟:根據(jù)用戶發(fā)起查詢圖的結(jié)構(gòu)以及頂點屬性,對聚簇圖索引樹采用 樹的自頂向下的方式進(jìn)行查詢圖的同構(gòu)匹配;若某中間聚簇圖不包含查詢圖,則其子孫節(jié) 點代表的聚簇圖不需要進(jìn)行匹配,因此將該中間聚簇圖及其子孫過濾掉;若某節(jié)點代表的 聚簇圖包含查詢圖,若該聚簇圖不是數(shù)據(jù)圖,則將其孩子節(jié)點表示的聚簇圖加入待檢測隊 列,若該聚簇圖是數(shù)據(jù)圖,則將其加入結(jié)果集;最終將結(jié)果集合返回給用戶。
2. 根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟(1)中根據(jù)聚簇圖的結(jié)構(gòu)信息和結(jié) 點屬性計算聚簇圖集合中各聚簇圖之間的相似性具體根據(jù)下式計算: 任意兩個聚簇圖h和G2之間的相似性為
甘由·
信息損失
用于計算屬性信息損失,(1-?)((:
I用于 計算結(jié)構(gòu)信息損失;ω為權(quán)重參數(shù),用于調(diào)節(jié)信息損失中屬性信息損失和結(jié)構(gòu)信息損失之 間的權(quán)重;L表示頂點屬性的個數(shù),|_|表示頂點u所在結(jié)點的第1個屬性的范圍或等級, 卜表示頂點u所在結(jié)點聯(lián)合之后相應(yīng)屬性的范圍;Pd。表示圖形聯(lián)合后,內(nèi)部兩個結(jié) 點之間被連接的概率,POTi表示聯(lián)合前的相應(yīng)概_
用于表示聯(lián)合后結(jié)點內(nèi)的結(jié)構(gòu)信 息損失;deg (u)表示頂點u所在結(jié)點的好友個數(shù),deg (V。)表示頂點u所在結(jié)點聯(lián)合后相應(yīng) 結(jié)點的好友個數(shù),用于計算聯(lián)合時結(jié)點間的信息損失;聯(lián)合一個結(jié)點時,結(jié)點內(nèi)所有頂點的 息損失是相同的;
用于計算聯(lián)合后得到的圖閉包closure中結(jié)點V。的信息損 失,|VC|表示聯(lián)合后圖中結(jié)點內(nèi)包含的頂點個數(shù),IL(u)表示聯(lián)合后圖結(jié)點內(nèi)某頂點的信 息損失,聯(lián)合后的息損失由聯(lián)合如的所有頂點息損失的平均值表不;
3于根據(jù)兩個聚簇圖聯(lián)合時的結(jié)點信息損失計算兩項 圖聯(lián)合的信息損失,其中,Gc是Gi和G2的closure, Gc = Closure (Gp G2),f是兩個圖進(jìn)行 聯(lián)合時的映射,公式= m/U
I示兩項聚簇圖聯(lián)合時,結(jié)點聯(lián)合的信息損 失的最小值表示聯(lián)合兩項圖的信息損失,取得該最小值的映射稱為最優(yōu)映射,該最小值可 作為圖集合聚類的度量。
3. 根據(jù)權(quán)利要求1或2所述方法,其特征在于,所述步驟⑴中根據(jù)各聚簇圖之間的相 似性采用層次聚類算法將相近的聚簇圖聚類,直到剩下一個聚簇圖,具體包括: (2-1)選擇相似性最大的兩個聚簇圖; (2-2)根據(jù)計算兩個聚簇圖信息損失時得到的最優(yōu)映射,聯(lián)合兩個聚簇圖,泛化相應(yīng)匹 配結(jié)點的屬性,組合結(jié)點內(nèi)部的頂點數(shù)和邊數(shù),以及結(jié)點之間的邊數(shù); (2-3)將步驟(2-2)中所得的聯(lián)合后的聚簇圖作為普通聚簇圖,若該聚簇圖并非只有 一個聚簇圖,則計算該聚簇圖與其他聚簇圖之間的相似性,跳到步驟(2-1); (2-4)否則,將該聚簇圖即為樹形檢索結(jié)構(gòu)的根節(jié)點,該聚簇圖即為檢索入口,索引建 立步驟結(jié)束。
4. 根據(jù)權(quán)利要求1或2所述方法,其特征在于,所述步驟(2)具體包括: (4-1)初始化遍歷隊列,并將索引樹的根節(jié)點加入隊列; (4-2)檢測遍歷隊列是否為空; (4-3)若為空,則跳轉(zhuǎn)步驟(4-9); (4-4)若不為空,取遍歷隊列的隊首節(jié)點,檢測其是否滿足查詢要求; (4-5)若該節(jié)點不滿足查詢要求,則跳轉(zhuǎn)步驟(4-2); (4-6)檢測該節(jié)點是否為數(shù)據(jù)集合中的數(shù)據(jù)圖, (4-7)若該節(jié)點不是數(shù)據(jù)集合中的數(shù)據(jù)圖,則將其子孫節(jié)點加入遍歷隊列,跳轉(zhuǎn)步驟 (4-2); (4-8)否則,將該節(jié)點加入結(jié)果集; (4-9)返回結(jié)果集。
【文檔編號】G06F17/30GK104102699SQ201410313170
【公開日】2014年10月15日 申請日期:2014年7月1日 優(yōu)先權(quán)日:2014年7月1日
【發(fā)明者】丁曉鋒, 金海 , 賈建紅, 徐慧 申請人:華中科技大學(xué)