欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于嵌套滑動窗口和遺傳算法的并行處理方法

文檔序號:6368277閱讀:198來源:國知局
專利名稱:一種基于嵌套滑動窗口和遺傳算法的并行處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及近期數(shù)據(jù)流頻繁項集挖掘的實現(xiàn)方法,具體地說是一種基于嵌套子窗口模型和遺傳算法的近期數(shù)據(jù)流頻繁項集挖掘并行處理方法,。
背景技術(shù)
數(shù)據(jù)流實際上就是連續(xù)移動的元素隊伍,其中的元素是由相關(guān)數(shù)據(jù)的集合組成。令t表示任一時間戳,at表示在該時間戳到達的數(shù)據(jù),流數(shù)據(jù)可以表示成{···,at 1,at,at+1,…區(qū)別于傳統(tǒng)應(yīng)用模型,流數(shù)據(jù)模型具有以下4點共性(I)數(shù)據(jù)實時到達;(2)數(shù)據(jù)到達次序獨立,不受應(yīng)用系統(tǒng)所控制;(3)數(shù)據(jù)規(guī)模宏大且不能預(yù)知其最大值;(4)數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理,或者再次提取數(shù)據(jù)代價昂貴。滑動窗口(sliding window)模型滑動窗口對窗口起點和終點都沒有明確給定,只明確給定窗口的長度W。窗口保持一定長度在數(shù)據(jù)流D= { d0, Cl1 -,dn }上滑動,處理的數(shù)據(jù)流范圍就由該窗口確定,隨著窗口的滑動不斷地把得到的結(jié)果輸出。滑動窗口 SW的長度既可由一個時間區(qū)間確定,也可由窗口所包含數(shù)據(jù)流元素個數(shù)確定;
嵌套子窗口模型某時刻T,窗口長度為W的滑動窗口 SW內(nèi)最新數(shù)據(jù)集dn落入到窗口大小為W2的嵌套子窗口 S_SW中,稱窗口 SW為嵌套子窗口。如圖I所示,應(yīng)用滑動窗口對動態(tài)更新數(shù)據(jù)集進行說明。窗口數(shù)據(jù)集為圖I (a)中標(biāo)識所示。當(dāng)新增數(shù)據(jù)集到達時,滑動窗口向前移動一個單位,如圖I (b)所示?;瑒哟翱诘念l繁項集對于當(dāng)前滑動窗口內(nèi)數(shù)據(jù),設(shè)I=U1, i2,…,in}是項的集合,事務(wù)數(shù)據(jù)集s={ s0, S1…,sn },其中,數(shù)據(jù)集中每個事務(wù)S是項的集合,s I。如果X S,則稱X是個項集。如果X中有k個元素,則稱X為k-項集。對于一個項集X,如果其支持度大于等于用戶給定的最小支持度閾值,則X為頻繁項集。遺傳算法一種基于隨機搜索的優(yōu)化算法,已成功應(yīng)用于函數(shù)優(yōu)化、自動控制、生產(chǎn)調(diào)度、機器人學(xué)、圖像處理、人工生命、機器學(xué)習(xí)和數(shù)據(jù)挖掘等領(lǐng)域。從代表問題可能潛在的解集的一個種群開始的,而一個種群則由經(jīng)過基因編碼的一定數(shù)目的個體組成。每個個體實際上是染色體帶有特征的實體。染色體作為遺傳物質(zhì)的主要載體,即多個基因的集合,其內(nèi)部表現(xiàn)(即基因型)是某種基因組合,它決定了個體的形狀的外部表現(xiàn),如黑頭發(fā)的特征是由染色體中控制這一特征的某種基因組合決定的。因此,在一開始需要實現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復(fù)雜,我們往往進行簡化,如二進制編碼,初代種群產(chǎn)生之后,按照適者生存和優(yōu)勝劣汰的原理,逐代演化產(chǎn)生出越來越好的近似解,在每一代,根據(jù)問題域中個體的適應(yīng)度大小選擇個體,并借助于自然遺傳學(xué)的遺傳算子進行組合交叉和變異,產(chǎn)生出代表新的解集的種群。這個過程將導(dǎo)致種群像自然進化一樣的后生代種群比前代更加適應(yīng)于環(huán)境,末代種群中的最優(yōu)個體經(jīng)過解碼,可以作為問題近似最優(yōu)解。遺傳算法的基本運算過程如下,算法流程示意圖如圖2
a)初始化設(shè)置進化代數(shù)計數(shù)器t=0,設(shè)置最大進化代數(shù)T,隨機生成M個個體作為初始群體P(C1)。
b)個體評價計算群體?(1)中各個個體的適應(yīng)度。
c)選擇運算將選擇算子作用于群體。選擇的目的是把優(yōu)化的個體直接遺傳到下一代或通過配對交叉產(chǎn)生新的個體再遺傳到下一代。選擇操作是建立在群體中個體的適應(yīng)度評估基礎(chǔ)上的。
d)交叉運算將交叉算子作用于群體。所謂交叉是指把兩個父代個體的部分結(jié)構(gòu)加以替換重組而生成新個體的操作。遺傳算法中起核心作用的就是交叉算子。
e)變異運算將變異算子作用于群體。即是對群體中的個體串的某些基因座上的基因值作變動。群體Ρω經(jīng)過選擇、交叉、變異運算之后得到下一代群體P(t D。
f)終止條件判斷若t=T,則以進化過程中所得到的具有最大適應(yīng)度個體作為最優(yōu)解輸出,終止計算。CUDA是一種并行編程模型和軟件環(huán)境,采用C語言等標(biāo)準(zhǔn)編程語言進行操作。該技術(shù)封裝了 GPU的硬件細節(jié),CUDA的核心有三個重要抽象概念線程組層次結(jié)構(gòu)、共享存儲器、屏蔽同步(barrier synchronization)。這些抽象提供了細粒度的數(shù)據(jù)并行化和線程并行化,嵌套于粗粒度的數(shù)據(jù)并行化和任務(wù)并行化之中,將問題分解為更小的片段,以便通過協(xié)作的方法并行解決。這樣的分解保留了語言表達,允許線程在解決各子問題時協(xié)作,同時支持透明的可伸縮性。因而,該技術(shù)可以利用GPU的眾核特性,大幅加速并行化的應(yīng)用。但是,目前還沒有一種能快速有效地獲得流數(shù)據(jù)頻繁項集的技術(shù)來提高用戶的操作體驗。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是需要提供一種適應(yīng)流數(shù)據(jù)的流動性特點,采用遺傳算法的并行形式,得到一種并行處理的理論依據(jù)和解決方法及以快速有效地獲得流數(shù)據(jù)的頻繁項集。本發(fā)明的目的是按以下方式實現(xiàn)的
采用基于滑動窗口之上的嵌套子窗口模型和利用遺傳算法,根據(jù)數(shù)據(jù)流數(shù)據(jù)量大需要實時處理的特點,采用GPU-CUDA并行處理技術(shù)來進行動態(tài)挖掘出最新數(shù)據(jù)的頻繁項集,綜合處理滑動窗口內(nèi)各嵌套子窗口中頻繁項集,獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集,最后采用遺傳算法的并行模式,得到數(shù)據(jù)流的頻繁項集模式,獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集的步驟,包括
1)滑動窗口內(nèi)的數(shù)據(jù)分成Z段,將每個嵌套子窗口內(nèi)的數(shù)據(jù)交給一個線程進行并行處理,獲得初始種群,計算個體支持度值是初始種群內(nèi)待考察頻繁模式與實際事務(wù)匹配的過程,選擇,交叉,變異,掃描確定變異后個體支持度值,判斷結(jié)束條件;
2)獲得的各個頻繁項集模式與之前U(U=W1ZV2-I)次獲得的頻繁項集模式共同組成初始種群,進行一次搜索,最終滿足條件的模式個體為滑動窗口內(nèi)數(shù)據(jù)的頻繁項集,隨著數(shù)據(jù)流的流動,繼續(xù)處理新接收到的數(shù)據(jù),并拋棄最早的數(shù)據(jù);
3)利用遺傳算法的并行性搜索嵌套子窗口內(nèi)最新數(shù)據(jù)的頻繁項集,從一組初始種群開始搜索過程,種群中的每個個體是一個可能的頻繁模式,遺傳算法通過交叉、變異、選擇運算實現(xiàn),經(jīng)過若干代選擇之后,得到最終頻繁項集,其中變異操作是通過動態(tài)、隨機改變個體中某些基因而產(chǎn)生新的個體,變異操作是產(chǎn)生全局最優(yōu)的一個重要原因,有助于增加種群的多樣性,但本算法中頻繁項集產(chǎn)生所需的各對應(yīng)非零基因都已存在,經(jīng)交叉操作產(chǎn)生的基因基本上涵蓋所有頻繁項集,因此采用一個較低的變異率;
4)綜合處理滑動窗口內(nèi)各嵌套子窗口中頻繁項集,最終獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集;
5)隨著新數(shù)據(jù)的流入,周期性刪除過期流數(shù)據(jù),并重復(fù)以上兩部分操作;
具體步驟如下
1)設(shè)定滑動窗口SW及子窗口 S_SW大小,分別為^、《2輸入各類參數(shù)之后,根據(jù)數(shù)據(jù)流 屬性來確定窗口大小,Sff內(nèi)容是根據(jù)當(dāng)前多少條事務(wù)的頻繁項集的興趣度來決定的,子窗口是根據(jù)數(shù)據(jù)的處理能力以及被拋棄的舊數(shù)據(jù)條數(shù)來確定,也決定了需求所要求統(tǒng)計的頻率;
2)給定支持度閾值S,若某個個體i,其適應(yīng)度為Fi,當(dāng)匕>=S,事務(wù)i即為滑動窗口內(nèi)數(shù)據(jù)集的頻繁項集模式;
3)事務(wù)的屬性種數(shù)、各屬性的取值范圍以及生成原始種群大小來確定最大迭代次數(shù)T,處理方法是采用子窗口模型,避免在舊數(shù)據(jù)被淘汰之后,對滑動窗口 SW內(nèi)存在的數(shù)據(jù)進行多次重復(fù)處理;
4)設(shè)定交叉概率P,個體變異概率Q,子窗口內(nèi)的數(shù)據(jù)分成Z段并行計算,函數(shù)采用GPUCUDA并行技術(shù),將每個子窗口內(nèi)的數(shù)據(jù)交給一個線程進行并行處理;
5)獲得初始種群,數(shù)據(jù)在流動過程中,獲取子窗口內(nèi)最新到來的數(shù)據(jù),同時得到此數(shù)據(jù)的頻繁I-項集,將頻繁I-項集編碼為實數(shù)串,并將頻繁I-項集非零項按原來所在位置隨機組合編碼,共同組成嵌套子窗口內(nèi)的初始種群,此種群中個體為待考察頻繁項集模式;
具體過程如下
(I )統(tǒng)計A、B和C的屬性值為VI,V2,V3的個數(shù)分別作為第一列、第二列和第三列;
(2)大于等于閾值N的保留,并按其所對應(yīng)的行進行賦值,小于N的賦值O,并去掉;
(3)將每一個非O值單獨成一行,并保持其原來所在行的位置,其余位置填O;
(4)非零項按原來所在位置隨機組合編碼,共同組成初始種群;
(5)函數(shù)是采用GPUCUDA編程模式,采用流技術(shù)和共享存儲器的優(yōu)化手段,將每個屬性 的求解過程進行并行處理;
(6)計算個體支持度值是初始種群內(nèi)待考察頻繁模式與實際事務(wù)匹配的過程,當(dāng)個體支持度值大于S時,將該個體模式加入當(dāng)前子窗口頻繁項集內(nèi),F(xiàn)i=WiZiWz ,Fi為事務(wù)i的支持度,Wi為當(dāng)前子窗口內(nèi)具有相同屬性值的事務(wù)條數(shù),WzS當(dāng)前子窗口內(nèi)事務(wù)總條數(shù);
分Z段并行匹配,雖然增大了內(nèi)存開銷,但大量減少運行時間,對于數(shù)據(jù)流頻繁項集挖掘具有很大意義;
(7)選擇將種群中個體按支持度值進行輪盤選擇;
(8)交叉以交叉概率P進行一次交叉;
(9)變異個體按變異概率Q進行基本位變異;
(10)掃描確定變異后個體支持度值,新增的滿足條件的個體添加到頻繁項集中;
(11)判斷結(jié)束條件,迭代次數(shù)小于T,轉(zhuǎn)步驟3,T次迭代運算后,則終止迭代并獲得當(dāng)前嵌套子窗口內(nèi)數(shù)據(jù)的頻繁項集;
(12)隨著數(shù)據(jù)流的流動,繼續(xù)處理新接收到的數(shù)據(jù),并拋棄最早的數(shù)據(jù),轉(zhuǎn)步驟S102繼續(xù)以上操作,至數(shù)據(jù)流結(jié)束為止。本發(fā)明與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案通過GPU強大的浮點計算能力和在GPU上進行編程的CUDA加速技術(shù),處理流數(shù)據(jù)的頻繁項集,可以采用遺傳算法的并行形式進行建模,提升了用戶操作體驗。本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多 個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。雖然本發(fā)明所揭露的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化,但本發(fā)明的專利保護范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。


圖I是窗口數(shù)據(jù)集中的數(shù)據(jù)更新過程示意 圖2是遺傳算法流程示意圖示意 圖3是獲取當(dāng)前子窗口內(nèi)頻繁項集的流程圖示意 圖4初始種群生成示意 圖5計算個體支持度;
圖6頻繁模式群形成;
圖7掃描獲得當(dāng)前窗口最終頻繁項集。
具體實施例方式參照說明書附圖對本發(fā)明的方法作以下詳細地說明。以下將結(jié)合附圖及實施例來詳細說明本發(fā)明的實施方式,借此對本發(fā)明如何應(yīng)用理論模型和技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程能充分理解并據(jù)以實施。首先,如果不沖突,本發(fā)明實施例以及實施例中的各個特征的相互結(jié)合,均在本發(fā)明的保護范圍之內(nèi)。另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。利用遺傳算法動態(tài)挖掘出最新數(shù)據(jù)的頻繁項集,從一組初始種群開始搜索過程,種群中的每個個體是一個可能的頻繁模式。遺傳算法主要通過交叉、變異、選擇運算實現(xiàn)。經(jīng)過若干代選擇之后,得到最終頻繁項集。其中變異操作是通過動態(tài)、隨機改變個體中某些基因而產(chǎn)生新的個體,變異操作是產(chǎn)生全局最優(yōu)的一個重要原因,有助于增加種群的多樣性,但本算法中頻繁項集產(chǎn)生所需的各對應(yīng)非零基因都已存在,經(jīng)交叉操作產(chǎn)生的基因基本上可以涵蓋所有頻繁項集,因此采用一個較低的變異率。本專利的方法分為三大部分如圖1、2所示;
I)利用遺傳算法的并行性搜索嵌套子窗口內(nèi)最新數(shù)據(jù)的頻繁項集;
2)綜合處理滑動窗口內(nèi)各嵌套子窗口中頻繁項集,最終獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集;
3)隨著新數(shù)據(jù)的流入,周期性刪除過期流數(shù)據(jù),并重復(fù)以上兩部分操作。實施例I
利用遺傳算法的并行性搜索嵌套子窗口內(nèi)最新數(shù)據(jù)的頻繁項集;如圖3所示,本實施例主要包括如下步驟
1)設(shè)定滑動窗口SW及子窗口 S_SW大小,分別為^、《2輸入各類參數(shù)之后,根據(jù)數(shù)據(jù)流屬性來確定窗口大小,Sff內(nèi)容是根據(jù)當(dāng)前多少條事務(wù)的頻繁項集的興趣度來決定的,子窗口是根據(jù)數(shù)據(jù)的處理能力以及被拋棄的舊數(shù)據(jù)條數(shù)來確定,也決定了需求所要求統(tǒng)計的頻率;
2)給定支持度閾值S,若某個個體i,其適應(yīng)度為Fi,當(dāng)匕>=S,事務(wù)i即為滑動窗口內(nèi)數(shù)據(jù)集的頻繁項集模式;
3)事務(wù)的屬性種數(shù)、各屬性的取值范圍以及生成原始種群大小來確定最大迭代次數(shù)T。本處理方法是采用子窗口模型,避免在舊數(shù)據(jù)被淘汰之后,對滑動窗口 SW內(nèi)存在的數(shù)據(jù)進行多次重復(fù)處理;
4)設(shè)定交叉概率P,個體變異概率Q,子窗口內(nèi)的數(shù)據(jù)分成Z段并行計算。該處的函數(shù)采用GPU CUDA并行技術(shù),將每個子窗口內(nèi)的數(shù)據(jù)交給一個線程進行并行處理;
5)獲得初始種群。數(shù)據(jù)在流動過程中,獲取子窗口內(nèi)最新到來的數(shù)據(jù),同時得到此數(shù)據(jù)的頻繁I-項集,將頻繁I-項集編碼為實數(shù)串,并將頻繁I-項集非零項按原來所在位置隨機組合編碼,共同組成嵌套子窗口內(nèi)的初始種群,此種群中個體為待考察頻繁項集模式。具體過程如下
(I )統(tǒng)計A、B和C的屬性值為VI,V2,V3的個數(shù)分別作為第一列、第二列和第三列;
(2)大于等于閾值N的保留,并按其所對應(yīng)的行進行賦值,小于N的賦值0,并去掉(本例N取3);
(3)將每一個非O值單獨成一行,并保持其原來所在行的位置,其余位置填O;
(4)非零項按原來所在位置隨機組合編碼,共同組成初始種群;
過程如圖4所示,該步驟的函數(shù)是采用GPU CUDA編程模式,采用流技術(shù)和共享存儲器等優(yōu)化手段,將每個屬性的求解過程進行并行處理;
5)計算個體支持度值是初始種群內(nèi)待考察頻繁模式與實際事務(wù)匹配的過程。當(dāng)個體支持度值大于S時,將該個體模式加入當(dāng)前子窗口頻繁項集內(nèi)。Fi=WiZiWz , Fi為事務(wù)i的支持度,Wi為當(dāng)前子窗口內(nèi)具有相同屬性值的事務(wù)條數(shù),WzS當(dāng)前子窗口內(nèi)事務(wù)總條數(shù);
6)分Z段并行匹配,雖然增大了內(nèi)存開銷,但大量減少運行時間,對于數(shù)據(jù)流頻繁項集挖掘具有很大意義。并行匹配,過程如圖5所示;
7)選擇。將種群中個體按支持度值進行輪盤選擇;
8)交叉。以交叉概率P進行一次交叉;9)變異。個體按變異概率Q進行基本位變異;
10)掃描確定變異后個體支持度值,新增的滿足條件的個體添加到頻繁項集中;
11)判斷結(jié)束條件。如迭代次數(shù)小于T,轉(zhuǎn)步驟3,T次迭代運算后,則終止迭代并獲得當(dāng)前嵌套子窗口內(nèi)數(shù)據(jù)的頻繁項集;
12)隨著數(shù)據(jù)流的流動,繼續(xù)處理新接收到的數(shù)據(jù),并拋棄最早的數(shù)據(jù),轉(zhuǎn)步驟S102繼 續(xù)以上操作,至數(shù)據(jù)流結(jié)束為止;
實施例2 獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集,步驟如下
I)本次獲得的各個頻繁項集模式與之前U (U=W1ZV2-I)次獲得的頻繁項集模式共同組成初始種群,進行一次搜索,最終滿足條件的模式個體為滑動窗口內(nèi)數(shù)據(jù)的頻繁項集。過程如圖6和圖7所示;
(1)For i=l U+1 ;
(2)將各段得到的頻繁模式組合成為頻繁模式群;
(3)End;
(4)將頻繁模式群在滑動窗口SW內(nèi)進行一次并行搜索;
(5)支持度大于S的最終確定為頻繁模式;函數(shù)采用OpenMP共享編程模式進行多線程并行處理;
(6)隨著數(shù)據(jù)流的流動,繼續(xù)處理新接收到的數(shù)據(jù),并拋棄最早的數(shù)據(jù),轉(zhuǎn)步驟S102繼續(xù)以上操作,至數(shù)據(jù)流結(jié)束為止。除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
權(quán)利要求
1. 一種基于嵌套滑動窗口和遺傳算法的并行處理方法,其特征在于,采用基于滑動窗口之上的嵌套子窗口模型和利用遺傳算法,根據(jù)數(shù)據(jù)流數(shù)據(jù)量大需要實時處理的特點,采用GPU-CUDA并行處理技術(shù)來進行動態(tài)挖掘出最新數(shù)據(jù)的頻繁項集,綜合處理滑動窗口內(nèi)各嵌套子窗口中頻繁項集,獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集,最后采用遺傳算法的并行模式,得到數(shù)據(jù)流的頻繁項集模式,獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集的步驟,包括 1)滑動窗口內(nèi)的數(shù)據(jù)分成Z段,將每個嵌套子窗口內(nèi)的數(shù)據(jù)交給一個線程進行并行處理,獲得初始種群,計算個體支持度值是初始種群內(nèi)待考察頻繁模式與實際事務(wù)匹配的過程,選擇,交叉,變異,掃描確定變異后個體支持度值,判斷結(jié)束條件; 2)獲得的各個頻繁項集模式與之前U(U=W1ZV2-I)次獲得的頻繁項集模式共同組成初始種群,進行一次搜索,最終滿足條件的模式個體為滑動窗口內(nèi)數(shù)據(jù)的頻繁項集,隨著數(shù)據(jù)流的流動,繼續(xù)處理新接收 到的數(shù)據(jù),并拋棄最早的數(shù)據(jù); 3)利用遺傳算法的并行性搜索嵌套子窗口內(nèi)最新數(shù)據(jù)的頻繁項集,從一組初始種群開始搜索過程,種群中的每個個體是一個可能的頻繁模式,遺傳算法通過交叉、變異、選擇運算實現(xiàn),經(jīng)過若干代選擇之后,得到最終頻繁項集,其中變異操作是通過動態(tài)、隨機改變個體中某些基因而產(chǎn)生新的個體,變異操作是產(chǎn)生全局最優(yōu)的一個重要原因,有助于增加種群的多樣性,但本算法中頻繁項集產(chǎn)生所需的各對應(yīng)非零基因都已存在,經(jīng)交叉操作產(chǎn)生的基因基本上涵蓋所有頻繁項集,因此采用一個較低的變異率; 4)綜合處理滑動窗口內(nèi)各嵌套子窗口中頻繁項集,最終獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集; 5)隨著新數(shù)據(jù)的流入,周期性刪除過期流數(shù)據(jù),并重復(fù)以上兩部分操作; 具體步驟如下 1)設(shè)定滑動窗口SW及子窗口 S_SW大小,分別為%、《2輸入各類參數(shù)之后,根據(jù)數(shù)據(jù)流屬性來確定窗口大小,Sff內(nèi)容是根據(jù)當(dāng)前多少條事務(wù)的頻繁項集的興趣度來決定的,子窗口是根據(jù)數(shù)據(jù)的處理能力以及被拋棄的舊數(shù)據(jù)條數(shù)來確定,也決定了需求所要求統(tǒng)計的頻率; 2)給定支持度閾值S,若某個個體i,其適應(yīng)度為Fi,當(dāng)匕>=S,事務(wù)i即為滑動窗口內(nèi)數(shù)據(jù)集的頻繁項集模式; 3)事務(wù)的屬性種數(shù)、各屬性的取值范圍以及生成原始種群大小來確定最大迭代次數(shù)T,處理方法是采用子窗口模型,避免在舊數(shù)據(jù)被淘汰之后,對滑動窗口 SW內(nèi)存在的數(shù)據(jù)進行多次重復(fù)處理; 4)設(shè)定交叉概率P,個體變異概率Q,子窗口內(nèi)的數(shù)據(jù)分成Z段并行計算,函數(shù)采用GPUCUDA并行技術(shù),將每個子窗口內(nèi)的數(shù)據(jù)交給一個線程進行并行處理; 5)獲得初始種群,數(shù)據(jù)在流動過程中,獲取子窗口內(nèi)最新到來的數(shù)據(jù),同時得到此數(shù)據(jù)的頻繁I-項集,將頻繁I-項集編碼為實數(shù)串,并將頻繁I-項集非零項按原來所在位置隨機組合編碼,共同組成嵌套子窗口內(nèi)的初始種群,此種群中個體為待考察頻繁項集模式; 具體過程如下 (I )統(tǒng)計A、B和C的屬性值為VI,V2,V3的個數(shù)分別作為第一列、第二列和第三列; (2)大于等于閾值N的保留,并按其所對應(yīng)的行進行賦值,小于N的賦值O,并去掉;(3)將每一個非O值單獨成一行,并保持其原來所在行的位置,其余位置填O; (4)非零項按原來所在位置隨機組合編碼,共同組成初始種群; (5)函數(shù)是采用GPUCUDA編程模式,采用流技術(shù)和共享存儲器的優(yōu)化手段,將每個屬性的求解過程進行并行處理; 6)計算個體支持度值是初始種群內(nèi)待考察頻繁模式與實際事務(wù)匹配的過程,當(dāng)個體支持度值大于S時,將該個體模式加入當(dāng)前子窗口頻繁項集內(nèi),F(xiàn)i=WiZiWz ,Fi為事務(wù)i的支持度,Wi為當(dāng)前子窗口內(nèi)具有相同屬性值的事務(wù)條數(shù),Wz為當(dāng)前子窗口內(nèi)事務(wù)總條數(shù); 分Z段并行匹配,雖然增大了內(nèi)存開銷,但大量減少運行時間,對于數(shù)據(jù)流頻繁項集挖掘具有很大意義; 7)選擇將種群中個體按支持度值進行輪盤選擇; 8)交叉以交叉概率P進行一次交叉; 9)變異個體按變異概率Q進行基本位變異; 10)掃描確定變異后個體支持度值,新增的滿足條件的個體添加到頻繁項集中; 11)判斷結(jié)束條件,迭代次數(shù)小于T,轉(zhuǎn)步驟3,T次迭代運算后,則終止迭代并獲得當(dāng)前嵌套子窗口內(nèi)數(shù)據(jù)的頻繁項集; 12)隨著數(shù)據(jù)流的流動,繼續(xù)處理新接收到的數(shù)據(jù),并拋棄最早的數(shù)據(jù),轉(zhuǎn)步驟S102繼續(xù)以上操作,至數(shù)據(jù)流結(jié)束為止。
全文摘要
本發(fā)明提供一種基于嵌套滑動窗口和遺傳算法的并行處理方法,采用基于滑動窗口之上的嵌套子窗口模型和利用遺傳算法,根據(jù)數(shù)據(jù)流數(shù)據(jù)量大需要實時處理的特點,采用GPU-CUDA并行處理技術(shù)來進行動態(tài)挖掘出最新數(shù)據(jù)的頻繁項集,綜合處理滑動窗口內(nèi)各嵌套子窗口中頻繁項集,獲得當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的頻繁項集,最后采用遺傳算法的并行模式,得到數(shù)據(jù)流的頻繁項集模式。
文檔編號G06F9/38GK102662642SQ201210116428
公開日2012年9月12日 申請日期2012年4月20日 優(yōu)先權(quán)日2012年4月20日
發(fā)明者盧曉偉 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
柳河县| 新河县| 保德县| 江城| 凤阳县| 光泽县| 桦甸市| 迁安市| 稷山县| 宜君县| 郎溪县| 长春市| 民权县| 南澳县| 滨州市| 军事| 宣武区| 秭归县| 石屏县| 鞍山市| 安西县| 和静县| 措美县| 吴桥县| 乌海市| 仁怀市| 诏安县| 黔西| 平度市| 英德市| 肥东县| 米易县| 英超| 金堂县| 大田县| 富裕县| 行唐县| 香港| 清河县| 威海市| 繁昌县|