本發(fā)明涉及系統(tǒng)生物學(xué)研究技術(shù)領(lǐng)域,尤其涉及一種基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法。
背景技術(shù):
隨著生物芯片技術(shù)的產(chǎn)生和生物信息學(xué)的發(fā)展,通過基因組序列分析,大量未知功能的基因被識別出來。如何系統(tǒng)科學(xué)的“賦予”這些基因的功能是后基因組時代科學(xué)家們需解決的難題,然而大規(guī)模老鼠基因表達(dá)數(shù)據(jù)的產(chǎn)生,為這一問題的解決帶來了新的突破口。
另外,在生物體中,基因往往是通過與其他基因一起共同參與完成一個功能。這些基因往往具有相似的表達(dá)譜,因此如何根據(jù)這些基因表達(dá)的譜數(shù)據(jù)從而挖掘出這些共表達(dá)的基因團,在生物學(xué)中有很重要的研究價值(比如可以預(yù)測一個基因的未知功能或者推斷一個未知基因的功能),但是由于高通量技術(shù)本身具有高噪聲的影響以及生物系統(tǒng)本身的復(fù)雜性,人們得到的基因芯片數(shù)據(jù)轉(zhuǎn)化的生物網(wǎng)絡(luò)中,含有大量無關(guān)的“噪聲”,正是因為這些“噪聲”的存在,才使得科學(xué)家們尋找共表達(dá)的基因團變得很困難。如果能夠把這些大量無關(guān)的“噪聲”逐步的給剔除掉,那么尋找保守的共表達(dá)基因團的問題也就變得簡單起來。
在現(xiàn)有技術(shù)中,基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法有以下幾種:(1)基于廣度優(yōu)先算法:利用類Apriori性質(zhì)枚舉重復(fù)出現(xiàn)的子圖,主要代表有AGM和FSG。AGM在圖集中搜索所有“誘導(dǎo)”子圖。圖G的誘導(dǎo)子圖G′的節(jié)點為G′的邊為V(G′)中節(jié)點在圖G中的所有邊。FSG則利用邊增長的方式查找所有圖集中的頻繁連通子圖;(2)基于深度優(yōu)先算法:主要代表有g(shù)Span,CloseSpan和FFSM等,其基本思想是通過逐步擴展頻繁邊得到頻繁子圖,各種算法的主要區(qū)別在于圖的擴展過程;(3)基于摘要圖的啟發(fā)式方法,主要代表有CODENSE,NeMo等,其主要思想是首先將綜合網(wǎng)絡(luò)集中每個網(wǎng)絡(luò)的信息,然后將其并轉(zhuǎn)化為單圖中的頻繁模式挖掘,最后在返回到原網(wǎng)絡(luò)集。
但是發(fā)明人發(fā)現(xiàn),上述幾種預(yù)測方法均存在不足之處,其不足之處在于:(1)在第一種預(yù)測方法中,計算復(fù)雜度很高;(2)在第二種預(yù)測方法中,計算復(fù)雜度很高;(3)在第三種方法中,摘要圖的質(zhì)量直接決定算法的復(fù)雜度,而且模式重疊現(xiàn)象進一步增加了問題的復(fù)雜度;此外,為了避免譜分解方法的規(guī)模局限(約2000個節(jié)點),該方法只能對摘要圖進行分塊處理,這就導(dǎo)致分塊的合理性問題。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法,能夠降低計算復(fù)雜度,提高頻繁模式挖掘的準(zhǔn)確性、效率以及解決模式重疊問題。
為了解決上述技術(shù)問題,本發(fā)明實施例提供了基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法,所述預(yù)測方法包括:
第一步、尋找頻繁稠密點集無貢獻的不相關(guān)的邊:
步驟S11、獲取多個老鼠基因表達(dá)數(shù)據(jù)轉(zhuǎn)換成生物網(wǎng)絡(luò)后形成的初始圖集D={Gi=(V,Ei)}(1≤i≤m),并確定最小稠密度閾值δ、最小頻繁支持度閾值k和用戶自定義參數(shù)f,p,q分別對應(yīng)的數(shù)值;其中,所述初始圖集由多個均具有相同點集的子圖Gi形成,且不同子圖Gi之間至少存在一條相異的邊;
步驟S12:確定每一個子圖Gi的每條邊,在所述初始圖集中出現(xiàn)的次數(shù)均大于最小頻繁支持度閾值k和圖集大小m的乘積的最小正整數(shù)值;
步驟S13、刪除所述初始圖集中每一個子圖Gi中均滿足稠密度系數(shù)EDe<δ/f的邊;
步驟S14、構(gòu)建出與所述初始圖集中每一個子圖Gi具有相同點集的摘要圖,且所述初始圖集對應(yīng)的摘要圖中每條邊均需滿足稠密度系數(shù)
步驟S15、對所述初始圖集對應(yīng)的摘要圖中每條邊均做邊聚類系數(shù),刪除所述初始圖集對應(yīng)的摘要圖中邊聚類系數(shù)ECe<q的邊并更新;
步驟S16、將所述更新后的初始圖集對應(yīng)的摘要圖與所述每一個子圖Gi的邊進行一一對比,刪除每一個子圖Gi中不存在于所述更新后的初始圖集對應(yīng)的摘要圖中的邊并更新;
步驟S17、重復(fù)步驟S13至步驟S16,直到所述更新后的初始圖集對應(yīng)的摘要圖中的邊不在發(fā)生變化為止;
第二步、確定候選網(wǎng)絡(luò)子集:
步驟S21、給所述邊不在發(fā)生變化的摘要圖中每條邊的邊向量均賦予一個權(quán)值,并確定所述賦值的每條邊對應(yīng)邊支持向量的漢明值,且進一步將漢明值滿足篩選條件的邊向量并到集合A中,將漢明值不滿足篩選條件的邊向量并到集合B中;
步驟S22、分別對所述集合A和所述集合B中的邊向量進行歸并,把重復(fù)的邊向量刪除,僅保留一個并更新邊向量對應(yīng)的權(quán)值;
步驟S23、設(shè)置種子向量,并根據(jù)所述設(shè)置的種子向量,調(diào)整集合A和集合B中的邊向量;其中,所述種子向量為權(quán)重最大的邊;
步驟S24、按照最大邊向量相似度的準(zhǔn)則,把所述調(diào)整后的集合B中的邊向量均映射到所述調(diào)整后的集合A中,并待映射結(jié)束后,將所述完成映射后的集合A中的邊向量進行聚類運算,形成聚類中心集合;
步驟S25:刪除聚類中心集合中,1的個數(shù)出現(xiàn)的頻率小于k與圖集大小乘積的下取整數(shù)的聚類中心;
第三步、獲取摘要圖集:
步驟S31、根據(jù)所述形成的聚類中心集合,在所述初始圖集D={Gi=(V,Ei)}(1≤i≤m)中,提取分別與所述聚類中心集合中每一向量相一致的子圖,形成多個新圖集;
步驟S32、根據(jù)所述確定的最小稠密度閾值δ、最小頻繁支持度閾值k和用戶自定義參數(shù)f,p,q分別對應(yīng)的數(shù)值,刪除所述每一新圖集中均滿足稠密度系數(shù)EDe<δ/f的邊;
步驟S33、分別構(gòu)建出與所述每一新圖集中具有相同點集的摘要圖,且所述每一新圖集的摘要圖中每條邊均需滿足稠密度系數(shù)
步驟S34、對所述每一新圖集的摘要圖中每條邊均做邊聚類系數(shù),刪除所述每一新圖集的摘要圖中邊聚類系數(shù)ECe<q的邊并更新;
步驟S35、將所述更新后的每一新圖集的摘要圖分別與對應(yīng)的新圖集的邊進行一一對比,刪除每一新圖集中不存在于其相對應(yīng)的摘要圖中的邊并更新;
步驟S36、重復(fù)步驟S32至步驟S35,直到所述更新后的每一新圖集的摘要圖中的邊不在發(fā)生變化為止,得到摘要圖集;
第四步、查找稠密子圖,并確定頻繁稠密點集:
步驟S41、在所述得到的摘要圖集中,根據(jù)所述更新后的初始圖集對應(yīng)的摘要圖,查找與所述更新后的初始圖集對應(yīng)的摘要圖中邊集相一致的稠密子圖,并根據(jù)所述查找到的稠密子圖,確定頻繁稠密點集,且進一步將所述確定的頻繁稠密點集進行歸并后,作為老鼠基因共表達(dá)的基因團輸出。
其中,所述用戶自定義參數(shù)f取值范圍為[4,10];參數(shù)p取值范圍為[0.1,0.2];參數(shù)q取值為0.334。
實施本發(fā)明實施例,具有如下有益效果:
本發(fā)明實施例,首先對初始圖集做粗過濾,刪除對于尋找頻繁稠密點集無貢獻的不相關(guān)的邊得到摘要圖,接著在摘要圖的基礎(chǔ)上尋找可能的候選網(wǎng)絡(luò)子集,然后回到初始圖集中分別提取出候選網(wǎng)絡(luò)子集,并對提取的圖集再一次做粗過濾以便得到摘要圖集,最后分別對摘要圖進行稠密子圖查找,得到頻繁稠密點集作為共表達(dá)的基因團,從而能夠降低計算復(fù)雜度,提高頻繁模式挖掘的準(zhǔn)確性、效率以及解決模式重疊問題。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,根據(jù)這些附圖獲得其他的附圖仍屬于本發(fā)明的范疇。
圖1為本發(fā)明實施例提供的基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法的工作原理框圖;
圖2為本發(fā)明實施例提供的基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法中第一步尋找頻繁稠密點集無貢獻的不相關(guān)的邊的應(yīng)用場景圖;
圖3為本發(fā)明實施例提供的基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法中第二步確定候選網(wǎng)絡(luò)子集的應(yīng)用場景圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明是基于CODENSE、NeMo算法的基礎(chǔ)上,采用了摘要圖-候選網(wǎng)絡(luò)子集逐步迭代求精的策略來尋找多數(shù)據(jù)集中保守的共表達(dá)團。因此為了便于描述,統(tǒng)一把尋找多數(shù)據(jù)集中保守共表達(dá)團的問題轉(zhuǎn)化為圖論中的從多個圖集中尋找頻繁稠密點集的問題。采用這種方式后,噪聲邊是指這條邊所代表的兩個基因的之間的關(guān)系對于尋找共表達(dá)的基因團有干擾的邊,噪聲邊當(dāng)然也包括那些由于實驗數(shù)據(jù)本身產(chǎn)生的基因之間真陽性或假陽性的邊。
發(fā)明人發(fā)現(xiàn),問題解決的關(guān)鍵,是如何找出這些無關(guān)的噪聲邊并把它們給剔除。直觀上來說,對于噪聲邊,有以下幾點認(rèn)識:
(1)、如果一條邊e很稀疏的與其相鄰的邊聯(lián)通,那么這條邊必然會因為對尋找頻繁稠密點集無貢獻而為噪聲邊;
(2)、如果一條邊e只在幾個圖里表現(xiàn)出與其鄰居邊很強的連通性,那么這條邊必然會因為無法滿足頻繁性的要求,從而因為對尋找頻繁稠密點集無貢獻而成為噪聲邊;
(3)、如果一條邊e在摘要圖中是兩個稠密子圖之間連通的“橋”,那么這條邊必然會對尋找頻繁稠密點集無貢獻而成為噪聲邊;
(4)、如果一條邊e不在摘要圖中出現(xiàn)而在原圖集的某幾個圖中出現(xiàn),那么這條邊也是對尋找頻繁稠密點集無貢獻的邊;
(5)、如果一個點集V'是在原圖集中的某幾個圖集出現(xiàn)的頻繁稠密點集,那么這個點集在原圖集中剩余其他的幾個圖中導(dǎo)出子圖是對于繼續(xù)尋找其他頻繁稠密點集是沒有貢獻的。
因此,為了刪除以上五種噪聲邊從而挖掘頻繁稠密點集,在本發(fā)明實施例中,發(fā)明人首先提出尋找頻繁稠密點集無貢獻的不相關(guān)的邊來刪除前面四類噪聲邊,其次邊向量聚類來刪除第五類噪聲邊形成候選網(wǎng)絡(luò)子集,然后回到初始圖集中分別提取出候選網(wǎng)絡(luò)子集,并對提取的圖集再一次做粗過濾以便得到摘要圖集,最后分別對摘要圖進行稠密子圖查找,得到頻繁稠密點集作為共表達(dá)的基因團,具體工作原理如圖1所示。
綜上所述,發(fā)明人提出的一種基于復(fù)雜生物網(wǎng)絡(luò)集的頻繁模式挖掘老鼠基因共表達(dá)因的預(yù)測方法,具體包括:
第一步、尋找頻繁稠密點集無貢獻的不相關(guān)的邊,即FILTER算法:
步驟S11、獲取多個老鼠基因表達(dá)數(shù)據(jù)轉(zhuǎn)換成生物網(wǎng)絡(luò)后形成的初始圖集D={Gi=(V,Ei)}(1≤i≤m),并確定最小稠密度閾值δ、最小頻繁支持度閾值k和用戶自定義參數(shù)f,p,q分別對應(yīng)的數(shù)值;其中,所述初始圖集由多個均具有相同點集的子圖Gi形成,且不同子圖Gi之間至少存在一條相異的邊;
步驟S12:確定每一個子圖Gi的每條邊,在所述初始圖集中出現(xiàn)的次數(shù)均大于最小頻繁支持度閾值k和圖集大小m的乘積的最小正整數(shù)值;
步驟S13、刪除所述初始圖集中每一個子圖Gi中均滿足稠密度系數(shù)EDe<δ/f的邊,該步驟主要是刪除初始圖集中每一個子圖Gi中與其周圍邊稀疏連通的邊,為了防止刪除相關(guān)的邊;
步驟S14、構(gòu)建出與所述初始圖集中每一個子圖Gi具有相同點集的摘要圖,且所述初始圖集對應(yīng)的摘要圖中每條邊均需滿足稠密度系數(shù)該步驟主要是構(gòu)建初始圖集對應(yīng)的摘要圖,把滿足頻繁性的邊給提取出來,放在該摘要圖中;其中,0<p<1,主要是防止刪除對于查找頻繁稠密點集有貢獻的相關(guān)邊;
步驟S5、對所述初始圖集對應(yīng)的摘要圖中每條邊均做邊聚類系數(shù),刪除所述初始圖集對應(yīng)的摘要圖中邊聚類系數(shù)ECe<q的邊并更新,該步驟主要是刪除那些在初始圖集對應(yīng)的摘要圖中稀疏的連接兩個稠密子圖的邊;
步驟S16、將所述更新后的初始圖集對應(yīng)的摘要圖與所述每一個子圖Gi的邊進行一一對比,刪除每一個子圖Gi中不存在于所述更新后的初始圖集對應(yīng)的摘要圖中的邊并更新,該步驟主要是根據(jù)初始圖集對應(yīng)的摘要圖更新初始圖集,使得更新后的原圖集就過濾了一部分不相關(guān)的邊,從而更有助于發(fā)現(xiàn)頻繁稠密點集;
步驟S17、重復(fù)步驟S13至步驟S16,直到所述更新后的初始圖集對應(yīng)的摘要圖中的邊不在發(fā)生變化為止;
在一個實施例中,如圖2所示,具有相同點集的四張圖構(gòu)成的圖集一次運行過程變化展示情況。這里,假定要尋找這個圖集中滿足頻繁支持度大于等于2、稠密度大于等于0.9的頻繁稠密點集。很明顯,點集{a,b,d},{b,c,d}和{e,f,g,h}是滿足要求的頻繁稠密點集。f取值為4,p取值0.8,在該圖里,每個圖中實線表示一條在該圖中真正存在的邊,而虛線表示上一步驟需要刪除的邊。
從圖2可以看出,更新后的每一個子圖與初始圖集相比含有更少的噪聲邊。然而,卻不能一次直接從摘要圖中提取出所有的頻繁稠密點集,例如摘要圖中的稠密子圖{a,b,c,d}實際上代表兩個點集{a,b,d}和{b,c,d}。因為一個頻繁稠密點集往往出現(xiàn)在圖集中的某幾個圖里。所以,如果知道頻繁稠密點集在哪幾個圖里出現(xiàn),然后再對這幾個圖做摘要圖,那么頻繁稠密點集就很容易提取出來。理論上,一個圖集大小為m,頻繁稠密點集出現(xiàn)的支持度為k,則搜索空間就是對于一個圖集大小為20,要求頻繁支持度為6的稠密點集來說,則搜索空間就為個可能的候選網(wǎng)絡(luò)子集,這在實際中,顯然是不可行的。
因此需要確定可能的候選網(wǎng)絡(luò)子集,從而縮減了候選網(wǎng)絡(luò)子集的搜索空間,具體如下:
第二步、確定候選網(wǎng)絡(luò)子集,即GCLUSTER算法:
步驟S21、給所述邊不在發(fā)生變化的摘要圖中每條邊的邊向量均賦予一個權(quán)值,并確定所述賦值的每條邊對應(yīng)邊支持向量的漢明值,且進一步將漢明值滿足篩選條件的邊向量并到集合A中,將漢明值不滿足篩選條件的邊向量并到集合B中;
步驟S22、分別對所述集合A和所述集合B中的邊向量進行歸并,把重復(fù)的邊向量刪除,僅保留一個并更新邊向量對應(yīng)的權(quán)值;
步驟S23、設(shè)置種子向量,并根據(jù)所述設(shè)置的種子向量,調(diào)整集合A和集合B中的邊向量;其中,所述種子向量為權(quán)重最大的邊;
步驟S24、按照最大邊向量相似度的準(zhǔn)則,把所述調(diào)整后的集合B中的邊向量均映射到所述調(diào)整后的集合A中,并待映射結(jié)束后,將所述完成映射后的集合A中的邊向量進行聚類運算,形成聚類中心集合;
步驟S25:刪除聚類中心集合中,1的個數(shù)出現(xiàn)的頻率小于k與圖集大小乘積的下取整數(shù)的聚類中心;
在一個實施例中,輸入:摘要圖圖集大小m,最小頻繁支持度k,最小漢明距離閾值τ;
輸出:聚類中心C;
步驟1:對于摘要圖中的每條邊令該邊的邊向量ve的權(quán)值w(ve)=1,并且把摘要圖中的所有邊的邊支持向量的漢明值為k或者k+1的邊歸并到集合A中,其余的邊放在集合B中,并分別對集合A和集合B中的邊向量進行歸并,把重復(fù)的邊向量刪除僅保留一個并更新邊向量對應(yīng)的權(quán)值;
步驟2:for each edge ve∈B do
步驟3:把A中的邊向量,按照邊向量權(quán)值的大小進行降序排序;
上述算法對摘要圖的邊向量初始化一個權(quán)值,然后對邊向量進行了簡單的歸并,并更新了權(quán)值。經(jīng)過這一步處理,剩余的邊向量就互不重復(fù),各邊向量對應(yīng)的權(quán)值就表示了在摘要圖中有多少與該邊向量相同的邊向量的邊數(shù)。接下來的步驟,算法首先把漢明值等于用戶要求的頻繁支持度的邊向量作為種子放在一個集合A中,剩下的邊向量放到另一集合B中,然后按照最大邊向量相似度的準(zhǔn)則把B中的邊向量合理的映射到A中,最后把A中的邊向量進行聚類,最后形成聚類中心集合,也就是候選網(wǎng)絡(luò)子集的集合。
這里需要說明的是,有了T集合后,聚類中心是如何形成的。聚類中心在第i個圖中的值是由T集合中所有邊向量和對其對應(yīng)權(quán)值在第i個圖中的0的權(quán)值和和1的權(quán)值和的大小確定的。例如,如果1的權(quán)值和大,那么聚類中心在第一個i個圖中的值為1;否則就為零,如圖3所示。
第三步、獲取摘要圖集:
步驟S31、根據(jù)所述形成的聚類中心集合,在所述初始圖集D={Gi=(V,Ei)}(1≤i≤m)中,提取分別與所述聚類中心集合中每一向量相一致的子圖,形成多個新圖集;
步驟S32、根據(jù)所述確定的最小稠密度閾值δ、最小頻繁支持度閾值k和用戶自定義參數(shù)f,p,q分別對應(yīng)的數(shù)值,刪除所述每一新圖集中均滿足稠密度系數(shù)EDe<δ/f的邊;
步驟S33、分別構(gòu)建出與所述每一新圖集中具有相同點集的摘要圖,且所述每一新圖集的摘要圖中每條邊均需滿足稠密度系數(shù)
步驟S34、對所述每一新圖集的摘要圖中每條邊均做邊聚類系數(shù),刪除所述每一新圖集的摘要圖中邊聚類系數(shù)ECe<q的邊并更新;
步驟S35、將所述更新后的每一新圖集的摘要圖分別與對應(yīng)的新圖集的邊進行一一對比,刪除每一新圖集中不存在于其相對應(yīng)的摘要圖中的邊并更新;
步驟S36、重復(fù)步驟S32至步驟S35,直到所述更新后的每一新圖集的摘要圖中的邊不在發(fā)生變化為止,得到摘要圖集;
第四步、查找稠密子圖,并確定頻繁稠密點集:稠密子圖的查找方法為1:要求該子圖是一個聯(lián)通分支;2)該子圖的稠密度要求大于設(shè)定的稠密度,具體如下:
步驟S41、在所述得到的摘要圖集中,根據(jù)所述更新后的初始圖集對應(yīng)的摘要圖,查找與所述更新后的初始圖集對應(yīng)的摘要圖中邊集相一致的稠密子圖,并根據(jù)所述查找到的稠密子圖,確定頻繁稠密點集,且進一步將所述確定的頻繁稠密點集進行歸并后,作為老鼠基因共表達(dá)的基因團輸出。
應(yīng)當(dāng)說明的是,對頻繁稠密點集的歸并,采取如下方法。首先,對于頻繁稠密點集在原始圖集的各張圖對應(yīng)的導(dǎo)出子圖按照稠密度是否大于先前給定的閾值,建立頻繁稠密點集的向量。接下來按照下面三個原則進行歸并:
(1)、完全一樣的頻繁稠密點集進行歸并,只保留一個;
(2)、如果兩個頻繁稠密點集中有大約85%以上的元素相同或者一個是另一個的子集且這兩個頻繁稠密點集的向量均相同,則這兩個頻繁稠密點集采取“并集”的方式進行合并成一個;
(3)、如果兩個頻繁稠密點集中有大約85%以上的元素相同或者一個是另一個子集,但是這兩個頻繁稠密點集的向量不同,那么這樣的頻繁稠密點集不合并,并且要把元素多的頻繁稠密點集進行拆分
在本發(fā)明實施例中,用戶自定義參數(shù)f取值范圍為[4,10];參數(shù)p取值范圍為[0.1,0.2];參數(shù)q取值為0.334。
實施本發(fā)明實施例,具有如下有益效果:
本發(fā)明實施例,首先對初始圖集做粗過濾,刪除對于尋找頻繁稠密點集無貢獻的不相關(guān)的邊得到摘要圖,接著在摘要圖的基礎(chǔ)上尋找可能的候選網(wǎng)絡(luò)子集,然后回到初始圖集中分別提取出候選網(wǎng)絡(luò)子集,并對提取的圖集再一次做粗過濾以便得到摘要圖集,最后分別對摘要圖進行稠密子圖查找,得到頻繁稠密點集作為共表達(dá)的基因團,從而能夠降低計算復(fù)雜度,提高頻繁模式挖掘的準(zhǔn)確性、效率以及解決模式重疊問題。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,所述的存儲介質(zhì),如ROM/RAM、磁盤、光盤等。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。