一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖挖掘技術(shù),特別地,涉及一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與 優(yōu)化方法。
【背景技術(shù)】
[0002] 不確定性在現(xiàn)實(shí)應(yīng)用中,無(wú)論是對(duì)內(nèi)源還是外源,都是一種固有的屬性。例如,在 一個(gè)合作社交網(wǎng)絡(luò)中,利用目前掌握的信息,我們未必能明確斷言比爾和馬修兩人具有很 好的合作關(guān)系,通常我們使用概率來(lái)衡量這種合作關(guān)系的可能性。假設(shè)這種關(guān)系存在的概 率為p,P的值由本領(lǐng)域?qū)<彝ㄟ^(guò)可用信息人工確定,或者由信息抽取或生成規(guī)則自動(dòng)產(chǎn) 生。在大數(shù)據(jù)時(shí)代的今天,對(duì)于管理不確定數(shù)據(jù)有更為強(qiáng)烈的需求,因此目前出現(xiàn)了各種質(zhì) 量不一的數(shù)據(jù)。特別地,我們專(zhuān)注于不確定圖,尤其是圖的邊上具有存在概率的不確定圖。 不確定圖模型具有廣泛的應(yīng)用領(lǐng)域,除了社會(huì)網(wǎng)絡(luò),不確定圖模型還被應(yīng)用于通信網(wǎng)絡(luò),無(wú) 線傳感器網(wǎng)絡(luò),蛋白質(zhì)交互網(wǎng)絡(luò)以及生物學(xué)中的調(diào)控網(wǎng)絡(luò)等。
[0003]另一方面,頻繁模式挖掘作為數(shù)據(jù)挖掘領(lǐng)域高度關(guān)注的主題,一直持續(xù)了近十年, 相關(guān)研宄也取得了長(zhǎng)足的進(jìn)展,其中頻繁子圖引起了特別的研宄興趣。所謂頻繁子圖是指 從多個(gè)小確定圖的集合或者單個(gè)大確定圖中發(fā)現(xiàn)的支持度不小于用戶給定閾值的子圖。頻 繁子圖再刻畫(huà)確定圖的數(shù)據(jù)特征、分類(lèi)、聚類(lèi)以及建立索引方面具有重要作用。
[0004] 雖然目前對(duì)于頻繁子圖及其在確定圖上挖掘的方法已經(jīng)具有很好的理解,但在不 確定圖上,這一問(wèn)題變得更加有趣但也更少被研宄。一個(gè)不確定圖時(shí)特殊的邊加權(quán)圖,其中 每條邊(U,V)上的權(quán)重是其存在的概率。最近,研宄工作致力于在多個(gè)小的不確定圖的圖 集上挖掘頻繁子圖。但是,該問(wèn)題在單個(gè)大型不確定圖中雖然同等重要,因?yàn)楝F(xiàn)實(shí)生活中的 大型網(wǎng)絡(luò)越來(lái)越多地出現(xiàn)了不確定性一一比如,在社會(huì)網(wǎng)絡(luò)中一個(gè)人對(duì)另一個(gè)人的影響是 具有概率的;在生物網(wǎng)絡(luò)中的蛋白質(zhì)交互情況也有一定測(cè)量誤差一一但現(xiàn)有技術(shù)在本方面 是一片空白。
[0005] 針對(duì)現(xiàn)有技術(shù)中缺乏針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化技術(shù)方案的問(wèn)題, 目前尚缺乏有效的解決方案。
【發(fā)明內(nèi)容】
[0006] 針對(duì)現(xiàn)有技術(shù)中缺乏針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化技術(shù)方案的問(wèn)題, 本發(fā)明的目的在于提出一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方法,能允許針對(duì)單 個(gè)不確定圖進(jìn)行頻繁子圖挖掘并優(yōu)化挖掘算法,填補(bǔ)了本領(lǐng)域的技術(shù)空白。
[0007] 基于上述目的,本發(fā)明提供的技術(shù)方案如下:
[0008] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方 法,包括:
[0009] 獲取單個(gè)不確定圖;
[0010] 根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖;
[0011] 在單個(gè)不確定圖的所有蘊(yùn)含圖中指定部分蘊(yùn)含圖為樣本圖;
[0012] 使用計(jì)算重用方法分別計(jì)算單個(gè)不確定圖的每個(gè)樣本圖的存在概率,并使用計(jì)算 重用方法計(jì)算每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度;
[0013] 根據(jù)每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度與單個(gè)不確定圖的每個(gè) 樣本圖的存在概率,判定該子圖是否為頻繁子圖;
[0014] 輸出所有頻繁子圖。
[0015] 其中,使用計(jì)算重用方法分別計(jì)算單個(gè)不確定圖的每個(gè)樣本圖的存在概率,并使 用計(jì)算重用方法計(jì)算每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度,為根據(jù)單個(gè)不確 定圖構(gòu)造重用樹(shù),為單個(gè)不確定圖的每個(gè)樣本圖中的每條嵌入邊構(gòu)建反向索引,并根據(jù)重 用樹(shù)與反向索引分別計(jì)算單個(gè)不確定圖的每個(gè)樣本圖的存在概率與每個(gè)子圖在單個(gè)不確 定圖的樣本圖上的期望支持度。
[0016] 并且,根據(jù)單個(gè)不確定圖構(gòu)造重用樹(shù),為從單個(gè)不確定圖上選取一根節(jié)點(diǎn),根據(jù)一 條嵌入邊的存在與否生成第一層二叉樹(shù),再根據(jù)根節(jié)點(diǎn)的子節(jié)點(diǎn)上嵌入邊的存在與否生成 第二層二叉樹(shù),如此重復(fù)直到單個(gè)不確定圖上所有節(jié)點(diǎn)與嵌入邊的二叉樹(shù)形式均被重用樹(shù) 包括。
[0017] 另外,根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖包括:
[0018] 從單個(gè)不確定圖提取出多個(gè)蘊(yùn)含圖,每個(gè)蘊(yùn)含圖都是單個(gè)不確定圖可能的存在方 式;
[0019] 分別計(jì)算每個(gè)蘊(yùn)含圖所包含的所有子圖。
[0020] 并且,提取出多個(gè)蘊(yùn)含圖的個(gè)數(shù)為2的單個(gè)不確定圖中邊的個(gè)數(shù)次冪。
[0021] 并且,在單個(gè)不確定圖的所有蘊(yùn)含圖中指定部分蘊(yùn)含圖為樣本圖,為在單個(gè)不確 定圖的所有蘊(yùn)含圖隨機(jī)指定數(shù)個(gè)蘊(yùn)含圖為樣本圖,其中,樣本圖的數(shù)量與任一子圖在單個(gè) 不確定圖的所有蘊(yùn)含圖的支持度最大值的平方成正比,與不置信度的自然對(duì)數(shù)成反比,與 誤差系數(shù)的平方成反比,與支持度閾值的平方成反比。
[0022] 并且,使用計(jì)算重用方法分別計(jì)算單個(gè)不確定圖的每個(gè)樣本圖的存在概率,并使 用計(jì)算重用方法每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度包括:
[0023] 根據(jù)單個(gè)不確定圖中每條邊的概率,計(jì)算出每個(gè)蘊(yùn)含圖的存在概率;
[0024] 指定單個(gè)不確定圖的所有子圖中的一個(gè);
[0025] 分別計(jì)算被指定的子圖在每個(gè)樣本圖上的支持度;
[0026] 根據(jù)每個(gè)樣本圖的存在概率、被指定的子圖在每個(gè)樣本圖上的支持度,計(jì)算被指 定的子圖在每個(gè)樣本圖的支持度;
[0027] 繼續(xù)從單個(gè)不確定圖中指定下一個(gè)子圖并計(jì)算其在每個(gè)樣本圖上的支持度,直到 單個(gè)不確定圖的所有子圖都被指定;
[0028] 根據(jù)每個(gè)子圖在每個(gè)樣本圖上的支持度,計(jì)算每個(gè)子圖在單個(gè)不確定圖上的期望 支持度。
[0029] 并且,分別計(jì)算被指定的子圖在每個(gè)樣本圖上的支持度,為使用最大獨(dú)立集法計(jì) 算被指定的子圖在每個(gè)樣本圖上的基于最小像的支持度。
[0030] 并且,根據(jù)每個(gè)子圖在單個(gè)不確定圖的樣本圖上的期望支持度與單個(gè)不確定圖的 每個(gè)樣本圖的存在概率,判定該子圖是否為頻繁子圖包括:
[0031] 獲取期望支持度閾值;
[0032]根據(jù)單個(gè)不確定圖的每個(gè)樣本圖的存在概率,計(jì)算子圖在所有支持度等于一恒定 值的蘊(yùn)含圖上的聚合概率;
[0033] 根據(jù)子圖在所有支持度等于一恒定值的蘊(yùn)含圖上的聚合概率,計(jì)算子圖在單個(gè)不 確定圖的所有蘊(yùn)含圖中期望支持度不小于該恒定值的聚合概率;
[0034]根據(jù)子圖在單個(gè)不確定圖的所有蘊(yùn)含圖中期望支持度不小于該恒定值的聚合概 率,計(jì)算當(dāng)前概率觀察值與結(jié)果區(qū)間;
[0035]根據(jù)結(jié)果區(qū)間與期望支持度閾值判定子圖是否為頻繁子圖,將所有結(jié)果區(qū)間上限 大于期望支持度閾值、且結(jié)果區(qū)間下限大于期望支持度閾值與非誤差系數(shù)的乘積的子圖判 定為頻繁子圖,將所有結(jié)果區(qū)間上限小于期望支持度閾值的子圖判定為不是頻繁子圖。 [0036] 從上面所述可以看出,本發(fā)明提供的技術(shù)方案通過(guò)將單個(gè)不確定圖劃分為多個(gè)蘊(yùn) 含的確定圖并將蘊(yùn)含圖視作確定圖使用計(jì)算重用方法抽樣計(jì)算子圖的期望支持度的手段, 能在單個(gè)不確定圖上使用頻繁子圖挖掘技術(shù),填補(bǔ)了本領(lǐng)域的技術(shù)空白。
【附圖說(shuō)明】
[0037]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所 需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲 得其他的附圖。
[0038] 圖1為根據(jù)本發(fā)明實(shí)施例的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方法 的流程圖;
[0039] 圖2為根據(jù)本發(fā)明實(shí)施例的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方法 中,單個(gè)不確定圖、確定圖與子圖的一個(gè)實(shí)施例;
[0040] 圖3為根據(jù)本發(fā)明實(shí)施例的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方法 中,根據(jù)布爾表達(dá)式獲得的單個(gè)不確定圖及其子圖的一個(gè)實(shí)施例;
[0041]圖4為根據(jù)本發(fā)明實(shí)施例的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘與優(yōu)化方法 中,單個(gè)不確定圖的兩個(gè)樣本圖及其重用樹(shù)的一個(gè)實(shí)施例。
【具體實(shí)施方式】
[0042] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面將結(jié)合本發(fā)明實(shí)施例中 的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)一步進(jìn)行清