專利名稱:數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)業(yè)務(wù),尤其涉及一種數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)方法與相應(yīng)的實現(xiàn)系 統(tǒng)。
背景技術(shù):
在數(shù)據(jù)挖掘處理中,數(shù)據(jù)關(guān)聯(lián)規(guī)則(Association Rule)的挖掘目的,是發(fā)現(xiàn)在大 量的數(shù)據(jù)項之間存在的值得關(guān)注的關(guān)聯(lián)或相關(guān)關(guān)系,典型應(yīng)用是零售業(yè)的購物籃分析。所 謂購物籃分析是指對數(shù)據(jù)進行關(guān)聯(lián)規(guī)則研究,有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(或不同 項)之間的聯(lián)系,找出顧客購買行為的模式,例如,如果面包和牛奶經(jīng)常被顧客同時購買, 則把它們擺放在一起有助于增加兩種商品的銷售量。為了衡量一條規(guī)則的重要程度,關(guān)聯(lián) 規(guī)則通常采用支持度(support)和可信度(confidence)作為度量標(biāo)準(zhǔn)。支持度可以表示 商品在超市銷售中的重要程度,可信度反映了商品之間的關(guān)聯(lián)程度。如果在購買面包的交 易中,有60%的交易既購買了面包又購買了牛奶,則稱關(guān)聯(lián)規(guī)則“面包牛奶”(表示如果購 買面包則購買牛奶)的可信度為60%。關(guān)聯(lián)規(guī)則(表示A與B同時存在)在事務(wù)數(shù)據(jù)庫D中的支持度,可用概率表示;關(guān) 聯(lián)規(guī)則在事務(wù)數(shù)據(jù)庫D中的可信度,是在事務(wù)數(shù)據(jù)庫D中的那些包含A的事務(wù)中,B也同時 出現(xiàn)的概率,即條件概率。一個項集X在事務(wù)數(shù)據(jù)庫D中的支持度,是事務(wù)數(shù)據(jù)庫D中包含X的事務(wù)count (X) 占事務(wù)總數(shù)N的百分比,即概率P (X)。對于一個項集X,如果其支持度大于或等于預(yù)先給定 的支持度閾值min_Sup,則稱X為頻繁項集(FI :Frequent Itemset)或頻繁模式。FP-growth算法(頻繁模式增長算法)只需要對數(shù)據(jù)庫進行兩次掃描第一次掃 描得到頻繁1-項集;第二次掃描構(gòu)建FP-Tree。最后挖掘FP-Tree得到強關(guān)聯(lián)規(guī)則。算法 的核心是FP-Tree (Frequent Pattern Tree,頻繁模式樹)的構(gòu)建。FP-Tree通過合并一些 重復(fù)路徑,實現(xiàn)了數(shù)據(jù)的壓縮,從而使得將頻繁項集加載到內(nèi)存中成為可能,從而提高了運 算效率。FP-growth算法的具體實現(xiàn)如下(1)掃描一遍數(shù)據(jù)庫,獲取所有頻繁項集。以下表一所述數(shù)據(jù)記錄為例,得到的頻 繁項集為Kc :4),(f 4), (a:3), (b:3), (m 3), (p:3)},“: ”之后的數(shù)字表示對應(yīng)數(shù)據(jù) 項的出現(xiàn)頻率(即出現(xiàn)次數(shù))。上述頻繁項集是首先按照各數(shù)據(jù)項出現(xiàn)頻率從大到小排序, 再按照字母順序(即規(guī)定的數(shù)據(jù)項順序)排序,并刪除出現(xiàn)次數(shù)小于最小支持度的相應(yīng)數(shù) 據(jù)項。需要注意的是這里的排序非常重要,之后每個數(shù)據(jù)記錄中的各項都要按照這個順序 進行排列,排列順序是有效合并重復(fù)路徑的前提。表一
權(quán)利要求
一種數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)方法,其特征在于,包括主控節(jié)點對數(shù)據(jù)記錄進行分塊,將分塊數(shù)據(jù)記錄分配并分發(fā)給至少兩個計算節(jié)點;每個所述計算節(jié)點并行對分配的每條分塊數(shù)據(jù)記錄中包含的每個數(shù)據(jù)項,分別統(tǒng)計本地出現(xiàn)次數(shù),并發(fā)送統(tǒng)計出的每個數(shù)據(jù)項的本地出現(xiàn)次數(shù)給第一類合并節(jié)點;所述第一類合并節(jié)點累計每個所述計算節(jié)點發(fā)送的每個數(shù)據(jù)項的本地出現(xiàn)次數(shù),得到每個數(shù)據(jù)項的總出現(xiàn)次數(shù),并確定出總出現(xiàn)次數(shù)大于設(shè)定的支持度閾值的對應(yīng)數(shù)據(jù)項為頻繁1 項集,并發(fā)送頻繁1 項集及對應(yīng)的總出現(xiàn)次數(shù)給每個所述計算節(jié)點;每個所述計算節(jié)點按總出現(xiàn)次數(shù)由大到小的順序排序各頻繁1 項集,對分配的每條分塊數(shù)據(jù)記錄中包含的數(shù)據(jù)項,按照排序后的各頻繁1 項集的順序進行排序,并刪除每條記錄中包含的非頻繁1 項集數(shù)據(jù)項,得到對應(yīng)的每條處理后記錄;以及每個所述計算節(jié)點對每條處理后記錄,分別以包含的每個頻繁1 項集為終止數(shù)據(jù)項,以該條處理后記錄包含的首個頻繁1 項集為起始數(shù)據(jù)項,得到由該條處理后記錄生成的全部子數(shù)據(jù)項串;并分別統(tǒng)計每個子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),將本地的每個子數(shù)據(jù)項串及對應(yīng)的本地出現(xiàn)次數(shù)發(fā)送給第二類合并節(jié)點;所述第二類合并節(jié)點累計每個所述計算節(jié)點發(fā)送的每個子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),得到每個子數(shù)據(jù)項串的總出現(xiàn)次數(shù);并根據(jù)每個子數(shù)據(jù)項串及其總出現(xiàn)次數(shù),構(gòu)建對應(yīng)的頻繁模式FP子樹,發(fā)送給所述主控節(jié)點或第三類合并節(jié)點;以及由所述主控節(jié)點或所述第三類合并節(jié)點合并各FP子樹,得到全局FP樹,再根據(jù)得到的全局FP樹挖掘關(guān)聯(lián)規(guī)則。
2.如權(quán)利要求1所述的方法,其特征在于,所述第一類合并節(jié)點至少包括兩個;由所述 主控節(jié)點預(yù)先分配每個第一類合并節(jié)點進行合并的對應(yīng)數(shù)據(jù)項;每個所述計算節(jié)點發(fā)送統(tǒng)計出的每個數(shù)據(jù)項的本地出現(xiàn)次數(shù)給第一類合并節(jié)點,具體 包括每個所述計算節(jié)點根據(jù)每個第一類合并節(jié)點進行合并的對應(yīng)數(shù)據(jù)項,將本地統(tǒng)計出的 相應(yīng)數(shù)據(jù)項的本地出現(xiàn)次數(shù),上報給對應(yīng)的第一類合并節(jié)點;或者每個第一類合并節(jié)點根據(jù)自身進行合并的對應(yīng)數(shù)據(jù)項,分別向每個所述計算節(jié)點請求 上傳所述對應(yīng)數(shù)據(jù)項的統(tǒng)計信息;每個所述計算節(jié)點向每個所述第一類合并節(jié)點返回其請 求的所述對應(yīng)數(shù)據(jù)項的本地出現(xiàn)次數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,所述第二類合并節(jié)點至少包括兩個;由所述 主控節(jié)點預(yù)先分配每個第二類合并節(jié)點進行合并的對應(yīng)子數(shù)據(jù)項串;每個所述計算節(jié)點將本地的每個子數(shù)據(jù)項串及對應(yīng)的本地出現(xiàn)次數(shù)發(fā)送給第二類合 并節(jié)點,具體包括每個所述計算節(jié)點根據(jù)每個第二類合并節(jié)點進行合并的對應(yīng)子數(shù)據(jù)項串,將本地統(tǒng)計 出的相應(yīng)子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),上報給對應(yīng)的第二類合并節(jié)點;或者每個第二類合并節(jié)點根據(jù)自身進行合并的對應(yīng)子數(shù)據(jù)項串,分別向每個所述計算節(jié)點 請求上傳所述對應(yīng)子數(shù)據(jù)項串的統(tǒng)計信息;每個所述計算節(jié)點向每個所述第二類合并節(jié)點 返回其請求的所述對應(yīng)子數(shù)據(jù)項串的本地出現(xiàn)次數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,當(dāng)由第三類合并節(jié)點進行FP子樹合并時,所 述第三類合并節(jié)點由至少兩個子樹合并分節(jié)點和一個子樹合并總節(jié)點組成;由所述主控節(jié)點預(yù)先分配每個子樹合并分節(jié)點進行合并的至少兩個對應(yīng)FP子樹,并通知所述第二類合 并節(jié)點;所述第二類合并節(jié)點構(gòu)建繁模式FP子樹,并發(fā)送給第三類合并節(jié)點,具體包括 每一個第二類合并節(jié)點根據(jù)每個子樹合并分節(jié)點進行合并的對應(yīng)FP子樹,將本地構(gòu) 建的對應(yīng)FP子樹發(fā)送給進行合并的對應(yīng)的子樹合并分節(jié)點;每個子樹合并分節(jié)點進行子 樹合并后,傳送給所述子樹合并總節(jié)點。
5.一種數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)方法,其特征在于,包括主控節(jié)點對數(shù)據(jù)記錄進行分塊,將分塊數(shù)據(jù)記錄分配并分發(fā)給至少兩個計算節(jié)點; 每個所述計算節(jié)點并行對分配的每條分塊數(shù)據(jù)記錄中包含的每個數(shù)據(jù)項,確定出基于 數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的本地出現(xiàn)次數(shù),并發(fā)送給第一類合并節(jié)點;所述第一類合并節(jié)點累計每個所述計算節(jié)點發(fā)送的每個數(shù)據(jù)項基于數(shù)據(jù)項權(quán)重或數(shù) 據(jù)記錄權(quán)重的本地出現(xiàn)次數(shù),得到每個數(shù)據(jù)項基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的總出現(xiàn)次 數(shù),并確定出總出現(xiàn)次數(shù)大于設(shè)定的支持度閾值的對應(yīng)數(shù)據(jù)項為頻繁1-項集,并發(fā)送頻繁 1-項集及對應(yīng)的基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的總出現(xiàn)次數(shù)給每個所述計算節(jié)點;每個所述計算節(jié)點按基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的總出現(xiàn)次數(shù)由大到小的順序 排序各頻繁1-項集,對分配的每條分塊數(shù)據(jù)記錄中包含的數(shù)據(jù)項,按照排序后的各頻繁 1-項集的順序進行排序,并刪除每條記錄中包含的非頻繁1-項集數(shù)據(jù)項,得到對應(yīng)的每條 處理后記錄;以及每個所述計算節(jié)點對每條處理后記錄,分別以包含的每個頻繁1-項集為終止數(shù)據(jù)項, 以該條處理后記錄包含的首個頻繁1-項集為起始數(shù)據(jù)項,得到由該條處理后記錄生成的 全部子數(shù)據(jù)項串;并分別統(tǒng)計每個子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),將本地的每個子數(shù)據(jù)項串 及對應(yīng)的本地出現(xiàn)次數(shù)發(fā)送給第二類合并節(jié)點;所述第二類合并節(jié)點累計每個所述計算節(jié)點發(fā)送的每個子數(shù)據(jù)項串的本地出現(xiàn)次數(shù), 得到每個子數(shù)據(jù)項串的總出現(xiàn)次數(shù);并根據(jù)每個子數(shù)據(jù)項串及其總出現(xiàn)次數(shù),構(gòu)建頻繁模 式FP子樹,發(fā)送給所述主控節(jié)點或第三類合并節(jié)點;以及由所述主控節(jié)點或所述第三類合并節(jié)點合并各FP子樹,得到全局FP樹,再根據(jù)得到的 全局FP樹輸出關(guān)聯(lián)規(guī)則。
6.如權(quán)利要求5所述的方法,其特征在于,所述確定出基于數(shù)據(jù)項權(quán)重的本地出現(xiàn)次 數(shù),具體包括將每個數(shù)據(jù)項本地出現(xiàn)次數(shù)乘以預(yù)設(shè)的該數(shù)據(jù)項的對應(yīng)權(quán)重系數(shù),得到每個 數(shù)據(jù)項基于權(quán)重的本地出現(xiàn)次數(shù);以及所述確定出基于數(shù)據(jù)記錄的權(quán)重的本地出現(xiàn)次數(shù),具體包括對本地每條數(shù)據(jù)記錄中 的每一個數(shù)據(jù)項的出現(xiàn)次數(shù)進行第一次計算,使其等于所屬數(shù)據(jù)記錄設(shè)置的權(quán)重系數(shù);再 對本地每個數(shù)據(jù)項累加對應(yīng)的第一次計算結(jié)果,得到每個數(shù)據(jù)項基于數(shù)據(jù)記錄的權(quán)重的本 地出現(xiàn)次數(shù)。
7.如權(quán)利要求6所述的方法,其特征在于,所述第一類合并節(jié)點至少包括兩個;由所述 主控節(jié)點預(yù)先分配每個第一類合并節(jié)點進行合并的對應(yīng)數(shù)據(jù)項;每個所述計算節(jié)點發(fā)送統(tǒng)計出的每個數(shù)據(jù)項的基于數(shù)據(jù)項權(quán)重或基于數(shù)據(jù)記錄權(quán)重 的本地出現(xiàn)次數(shù)給第一類合并節(jié)點,具體包括每個所述計算節(jié)點根據(jù)每個第一類合并節(jié)點進行合并的對應(yīng)數(shù)據(jù)項,將本地統(tǒng)計出的相應(yīng)數(shù)據(jù)項基于數(shù)據(jù)項權(quán)重或基于數(shù)據(jù)記錄權(quán)重的本地出現(xiàn)次數(shù),上報給對應(yīng)的第一類合 并節(jié)點;或者每個第一類合并節(jié)點根據(jù)自身進行合并的對應(yīng)數(shù)據(jù)項,分別向每個所述計算節(jié)點請求 上傳所述對應(yīng)數(shù)據(jù)項的統(tǒng)計信息;每個所述計算節(jié)點向每個所述第一類合并節(jié)點返回其請 求的所述對應(yīng)數(shù)據(jù)項基于數(shù)據(jù)項權(quán)重或基于數(shù)據(jù)記錄權(quán)重的本地出現(xiàn)次數(shù)。
8.如權(quán)利要求7所述的方法,其特征在于,所述第二類合并節(jié)點至少包括兩個;由所述 主控節(jié)點預(yù)先分配每個第二類合并節(jié)點進行合并的對應(yīng)子數(shù)據(jù)項串;每個所述計算節(jié)點將本地的每個子數(shù)據(jù)項串及對應(yīng)的本地出現(xiàn)次數(shù)發(fā)送給第二類合 并節(jié)點,具體包括每個所述計算節(jié)點根據(jù)每個第二類合并節(jié)點進行合并的對應(yīng)子數(shù)據(jù)項串,將本地統(tǒng)計 出的相應(yīng)子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),上報給對應(yīng)的第二類合并節(jié)點;或者每個第二類合并節(jié)點根據(jù)自身進行合并的對應(yīng)子數(shù)據(jù)項串,分別向每個所述計算節(jié)點 請求上傳所述對應(yīng)子數(shù)據(jù)項串的統(tǒng)計信息;每個所述計算節(jié)點向每個所述第二類合并節(jié)點 返回其請求的所述對應(yīng)子數(shù)據(jù)項串的本地出現(xiàn)次數(shù)。
9.如權(quán)利要求8所述的方法,其特征在于,當(dāng)由第三類合并節(jié)點進行FP子樹合并時,所 述第三類合并節(jié)點由至少兩個子樹合并分節(jié)點和一個子樹合并總節(jié)點組成;由所述主控節(jié) 點預(yù)先分配每個子樹合并分節(jié)點進行合并的至少兩個對應(yīng)FP子樹;所述第二類合并節(jié)點構(gòu)建繁模式FP子樹,并發(fā)送給第三類合并節(jié)點,具體包括每一個第二類合并節(jié)點根據(jù)每個子樹合并分節(jié)點進行合并的對應(yīng)FP子樹,將本地構(gòu) 建的對應(yīng)FP子樹發(fā)送給進行合并的對應(yīng)的子樹合并分節(jié)點,每個子樹合并分節(jié)點進行子 樹合并后,傳送給所述子樹合并總節(jié)點。
10.如權(quán)利要求5-9任一所述的方法,其特征在于,還包括所述主控節(jié)點預(yù)先設(shè)置每 個數(shù)據(jù)項的對應(yīng)權(quán)重系數(shù)或每個數(shù)據(jù)記錄的對應(yīng)權(quán)重系數(shù),并發(fā)送給所述計算節(jié)點;或者預(yù)先在各計算節(jié)點中配置各數(shù)據(jù)項的對應(yīng)權(quán)重系數(shù)或每個數(shù)據(jù)記錄的對應(yīng)權(quán)重系數(shù)。
11.一種數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)系統(tǒng),其特征在于,包括主控節(jié)點、計算節(jié)點、第一類 合并節(jié)點和第二類合并節(jié)點;或者還包括第三類合并節(jié)點;所述主控節(jié)點,用于對數(shù)據(jù)記錄進行分塊,將分塊數(shù)據(jù)記錄分配并分發(fā)給至少兩個計 算節(jié)點;以及當(dāng)系統(tǒng)中不包括所述第三類合并節(jié)點時,所述主控節(jié)點還合并所述第二合并 節(jié)點發(fā)送的各FP子樹,得到全局FP樹,再根據(jù)得到的全局FP樹輸出關(guān)聯(lián)規(guī)則;所述計算節(jié)點,用于對分配的每條分塊數(shù)據(jù)記錄中包含的每個數(shù)據(jù)項,分別統(tǒng)計本地 出現(xiàn)次數(shù),并將統(tǒng)計出的每個數(shù)據(jù)項的本地出現(xiàn)次數(shù)發(fā)送給所述第一類合并節(jié)點;以及根據(jù)所述第一類合并節(jié)點發(fā)送的頻繁1-項集及對應(yīng)的總出現(xiàn)次數(shù),按總出現(xiàn)次數(shù)由 大到小的順序排序各頻繁1-項集,對分配的每條分塊數(shù)據(jù)記錄中包含的數(shù)據(jù)項,按照排序 后的各頻繁1-項集的順序進行排序,并刪除每條記錄中包含的非頻繁1-項集數(shù)據(jù)項,得到 對應(yīng)的每條處理后記錄;以及對每條處理后記錄,分別以包含的每個頻繁1-項集為終止數(shù)據(jù)項,以該條處理后記錄 包含的首個頻繁1-項集為起始數(shù)據(jù)項,得到由該條處理后記錄生成的全部子數(shù)據(jù)項串;并 分別統(tǒng)計每個子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),將本地的每個子數(shù)據(jù)項串及對應(yīng)的本地出現(xiàn)次 數(shù)發(fā)送給所述第二類合并節(jié)點;所述第一類合并節(jié)點,用于累計每個所述計算節(jié)點發(fā)送的每個數(shù)據(jù)項的本地出現(xiàn)次 數(shù),得到每個數(shù)據(jù)項的總出現(xiàn)次數(shù),并確定出總出現(xiàn)次數(shù)大于設(shè)定的支持度閾值的對應(yīng)數(shù) 據(jù)項為頻繁ι-項集,并發(fā)送頻繁ι-項集及對應(yīng)的總出現(xiàn)次數(shù)給每個所述計算節(jié)點;所述第二類合并節(jié)點,用于累計每個所述計算節(jié)點發(fā)送的每個子數(shù)據(jù)項串的本地出現(xiàn) 次數(shù),得到每個子數(shù)據(jù)項串的總出現(xiàn)次數(shù);并根據(jù)每個子數(shù)據(jù)項串及其總出現(xiàn)次數(shù),構(gòu)建頻 繁模式FP子樹,發(fā)送給所述主控節(jié)點或所述第三類合并節(jié)點;所述第三類合并節(jié)點,用于合并所述第二合并節(jié)點發(fā)送的各FP子樹,得到全局FP樹, 再根據(jù)得到的全局FP樹輸出關(guān)聯(lián)規(guī)則。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述第一類合并節(jié)點至少包括兩個節(jié)點, 所述第二類合并節(jié)點至少包括兩個節(jié)點;所述第一類合并節(jié)點與所述第二類合并節(jié)點全部為不同的節(jié)點;或者 全部第一類合并節(jié)點或部分第一類合并節(jié)點為第二類合并節(jié)點;或者 部分第一類合并節(jié)點為部分第二類合并節(jié)點。
13.如權(quán)利要求11或12所述的系統(tǒng),其特征在于,當(dāng)系統(tǒng)中包括所述第三類合并節(jié)點 時,所述第三類合并節(jié)點由至少兩個子樹合并分節(jié)點和一個子樹合并總節(jié)點組成;所述主 控節(jié)點還用于預(yù)先分配每個子樹合并分節(jié)點進行合并的至少兩個對應(yīng)FP子樹,并通知第 二類合并節(jié)點;每一個第二類合并節(jié)點,根據(jù)每個子樹合并分節(jié)點進行合并的對應(yīng)FP子樹,將本地構(gòu) 建的對應(yīng)FP子樹發(fā)送給進行合并的對應(yīng)的子樹合并分節(jié)點,每個子樹合并分節(jié)點進行子 樹合并后,傳送給所述子樹合并總節(jié)點。
14.一種數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)系統(tǒng),其特征在于,包括主控節(jié)點、計算節(jié)點、第一類 合并節(jié)點和第二類合并節(jié)點;或者還包括第三類合并節(jié)點;所述主控節(jié)點,用于對數(shù)據(jù)記錄進行分塊,將分塊數(shù)據(jù)記錄分配并分發(fā)給至少兩個計 算節(jié)點;以及當(dāng)不包括所述第三類合并節(jié)點時,所述主控節(jié)點還合并所述第二合并節(jié)點發(fā) 送的各FP子樹,得到全局FP樹,再根據(jù)得到的全局FP樹輸出關(guān)聯(lián)規(guī)則;所述計算節(jié)點,用于對分配的每條分塊數(shù)據(jù)記錄中包含的每個數(shù)據(jù)項,確定出基于數(shù) 據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的本地出現(xiàn)次數(shù),并發(fā)送給第一類合并節(jié)點;以及根據(jù)所述第一類合并節(jié)點發(fā)送的頻繁1-項集及對應(yīng)的基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán) 重的總出現(xiàn)次數(shù),按照基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的總出現(xiàn)次數(shù)由大到小的順序排序 各頻繁1-項集,對分配的每條分塊數(shù)據(jù)記錄中包含的數(shù)據(jù)項,按照排序后的各頻繁ι-項集 的順序進行排序,并刪除每條記錄中包含的非頻繁1-項集數(shù)據(jù)項,得到對應(yīng)的每條處理后 記錄;以及對每條處理后記錄,分別以包含的每個頻繁1-項集為終止數(shù)據(jù)項,以該條處理后記錄 包含的首個頻繁1-項集為起始數(shù)據(jù)項,得到由該條處理后記錄生成的全部子數(shù)據(jù)項串;并 分別統(tǒng)計每個子數(shù)據(jù)項串的本地出現(xiàn)次數(shù),將本地的每個子數(shù)據(jù)項串及對應(yīng)的本地出現(xiàn)次 數(shù)發(fā)送給所述第二類合并節(jié)點;所述第一類合并節(jié)點,用于累計每個所述計算節(jié)點發(fā)送的每個數(shù)據(jù)項基于數(shù)據(jù)項權(quán)重 或數(shù)據(jù)記錄權(quán)重的本地出現(xiàn)次數(shù),得到每個數(shù)據(jù)項基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的總出 現(xiàn)次數(shù),并確定出總出現(xiàn)次數(shù)大于設(shè)定的支持度閾值的對應(yīng)數(shù)據(jù)項為頻繁ι-項集;并發(fā)送頻繁ι-項集及對應(yīng)的基于數(shù)據(jù)項權(quán)重或數(shù)據(jù)記錄權(quán)重的總出現(xiàn)次數(shù)給每個所述計算節(jié)點所述第二類合并節(jié)點,用于累計每個所述計算節(jié)點發(fā)送的每個子數(shù)據(jù)項串的本地出現(xiàn) 次數(shù),得到每個子數(shù)據(jù)項串的總出現(xiàn)次數(shù);并根據(jù)每個子數(shù)據(jù)項串及其總出現(xiàn)次數(shù),構(gòu)建頻 繁模式FP子樹,發(fā)送給所述主控節(jié)點或所述第三類合并節(jié)點;所述第三類合并節(jié)點,用于合并所述第二合并節(jié)點發(fā)送的各FP子樹,得到全局FP樹, 再根據(jù)得到的全局FP樹輸出關(guān)聯(lián)規(guī)則。
15.如權(quán)利要求14所述的系統(tǒng),其特征在于,所述第一類合并節(jié)點至少包括兩個節(jié)點, 所述第二類合并節(jié)點至少包括兩個節(jié)點;所述第一類合并節(jié)點與所述第二類合并節(jié)點全部為不同的節(jié)點;或者 全部第一類合并節(jié)點或部分第一類合并節(jié)點為第二類合并節(jié)點;或者 部分第一類合并節(jié)點為部分第二類合并節(jié)點。
16.如權(quán)利要求14或15所述的系統(tǒng),其特征在于,當(dāng)系統(tǒng)中包括所述第三類合并節(jié)點 時,所述第三類合并節(jié)點由至少兩個子樹合并分節(jié)點和一個子樹合并總節(jié)點組成;所述主 控節(jié)點還用于預(yù)先分配每個子樹合并分節(jié)點進行合并的至少兩個對應(yīng)FP子樹,并通知第 二類合并節(jié)點;每一個第二類合并節(jié)點,根據(jù)每個子樹合并分節(jié)點進行合并的對應(yīng)FP子樹,將本地構(gòu) 建的對應(yīng)FP子樹發(fā)送給進行合并的對應(yīng)的子樹合并分節(jié)點,每個子樹合并分節(jié)點進行子 樹合并后,傳送給所述子樹合并總節(jié)點。
全文摘要
本發(fā)明公開了數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)方法及系統(tǒng)。通過主控節(jié)點將數(shù)據(jù)記錄進行分塊,將分塊數(shù)據(jù)記錄分配并分發(fā)給至少兩個計算節(jié)點。由各計算節(jié)點并行查找頻繁1-項集;并根據(jù)排序后的頻繁1-項集,產(chǎn)生子數(shù)據(jù)項串。由合并節(jié)點并行對全部子數(shù)據(jù)項串進行統(tǒng)計,構(gòu)建本地FP子樹。通過合并FP子樹,得到合局FP樹,進行數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。由于每個計算節(jié)點僅處理一部分數(shù)據(jù)記錄,解決了海量數(shù)據(jù)無法由單機讀入內(nèi)存進行處理的問題;且多個節(jié)點并行參與處理,有效提高了處理效率。
文檔編號G06F9/50GK101996102SQ20091009186
公開日2011年3月30日 申請日期2009年8月31日 優(yōu)先權(quán)日2009年8月31日
發(fā)明者何清, 周文輝, 孫少陵, 徐萌, 曾立, 羅治國, 鄧超, 高丹 申請人:中國移動通信集團公司