一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法,采用并行計(jì)算和分布式數(shù)據(jù)存儲(chǔ)的方式,能夠解決現(xiàn)有技術(shù)所存在的瓶頸和缺點(diǎn),實(shí)現(xiàn)海量數(shù)據(jù)的快速、簡單關(guān)聯(lián)規(guī)則挖掘。本發(fā)明實(shí)施例方法包括:定義最小支持度和最小置信度;掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;根據(jù)所述最小支持度篩選所述一維候選集,得到新候選集;根據(jù)所述新候選集產(chǎn)生所有維度大于1且不大于最大維度的可能候選集鍵值對<Key,Val>;根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果;將所述計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
【專利說明】一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及通信領(lǐng)域,具體涉及一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法及裝置。
【背景技術(shù)】
[0002]關(guān)聯(lián)規(guī)則挖掘指的是通過對大量數(shù)據(jù)中項(xiàng)集的分析,發(fā)現(xiàn)數(shù)據(jù)項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。它在數(shù)據(jù)挖掘中是一個(gè)重要的課題,該技術(shù)被廣泛的應(yīng)用于各個(gè)行業(yè),尤其是電商和零售業(yè)。
[0003]關(guān)聯(lián)規(guī)則定義為:假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫D,其中每個(gè)事務(wù)(Transaction) t是I的非空子集,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID (TransactionID)對應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率,用符號(hào)記做X=>Y。如果滿足最小支持度閾值和最小置信度閾值。
[0004]請參閱圖1,現(xiàn)有的技術(shù)方案,采用串行的計(jì)算方式,編程方式比較簡單。第一步定義最小支持度min_sup和最新置信度;第二步掃描數(shù)據(jù)庫判斷是否產(chǎn)生候選集,如果否結(jié)束計(jì)算,如果是產(chǎn)生候選集和計(jì)算候選集支持度;第三步判斷候選集的各個(gè)元素的支持度是否大于等于最小支持度,如果元素滿足條件則進(jìn)入頻繁項(xiàng)集,如果候選集中沒有滿足條件的元素則結(jié)束;第四步產(chǎn)生頻繁項(xiàng)集,并再次掃描數(shù)據(jù)庫計(jì)算頻繁項(xiàng)集的置信度,判斷是否滿足置信度產(chǎn)生關(guān)聯(lián)規(guī)則集。重復(fù)循環(huán)第二到第四步產(chǎn)生所有關(guān)聯(lián)規(guī)則。
[0005]由于該挖掘算法本身計(jì)算量較大,且不可避免的存在掃描整個(gè)待挖掘數(shù)據(jù)集的情況,隨著當(dāng)前數(shù)據(jù)量的爆炸式增長和用戶對挖掘結(jié)果精準(zhǔn)度、實(shí)時(shí)性的要求,傳統(tǒng)串行的計(jì)算方式已經(jīng)很難滿足當(dāng)前的挖掘需求,主要體現(xiàn)在挖掘效率和可處理的數(shù)據(jù)量兩個(gè)方面,串行的計(jì)算方式只能單機(jī)運(yùn)行,對于一次處理需求往往需要計(jì)算幾十個(gè)小時(shí)或者更長時(shí)間,并且單機(jī)由于受到磁盤空間、內(nèi)存和處理器等多方面的限制一次處理的數(shù)據(jù)量也是有限的。同時(shí)現(xiàn)有技術(shù)存在多次掃描這個(gè)挖掘樣本的情況,對于海量數(shù)據(jù)的挖掘來說是無法忍受的,也無法利用數(shù)據(jù)分布式存儲(chǔ)的優(yōu)勢。
【發(fā)明內(nèi)容】
[0006]本發(fā)明實(shí)施例提供了一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法,采用并行計(jì)算和分布式數(shù)據(jù)存儲(chǔ)的方式,能夠解決現(xiàn)有技術(shù)所存在的瓶頸和缺點(diǎn),實(shí)現(xiàn)海量數(shù)據(jù)的快速、簡單關(guān)聯(lián)規(guī)則挖掘。
[0007]本發(fā)明實(shí)施例提供的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法,包括:
[0008]定義最小支持度和最小置信度;
[0009]掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;
[0010]根據(jù)所述最小支持度篩選所述一維候選集,得到新候選集;[0011]根據(jù)所述新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key, Val> ;
[0012]根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;
[0013]根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果;
[0014]將所述計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
[0015]可選地,
[0016]步驟所述根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算包括:
[0017]計(jì)算〈Key, Val>中的Val的維度vk ;
·[0018]根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的支持度;
[0019]若Val的支持度不小于最小支持度,記錄Val為頻繁項(xiàng);
[0020]根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的置信度;
[0021]若Val的置信度不小于最小置信度,記錄Val為強(qiáng)關(guān)聯(lián)規(guī)則。
[0022]本發(fā)明實(shí)施例提供的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算裝置,包括:
[0023]定義單元,用于定義最小支持度和最小置信度;
[0024]處理單元,用于掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;
[0025]篩選單元,用于根據(jù)所述最小支持度篩選所述一維候選集,得到新候選集;
[0026]產(chǎn)生單元,用于根據(jù)所述新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val> ;
[0027]分發(fā)單元,用于根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;
[0028]計(jì)算單元,用于根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果;
[0029]關(guān)聯(lián)單元,用于將所述計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
[0030]可選地,
[0031]所述計(jì)算單元包括:
[0032]第一計(jì)算子單元,用于計(jì)算〈Key, Val>中的Val的維度vk ;
[0033]第二計(jì)算子單元,用于根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的支持度;
[0034]第一記錄子單元,用于判斷Val的支持度是否不小于最小支持度,如果是記錄Val為頻繁項(xiàng);
[0035]第三計(jì)算子單元,用于根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的置?目度;
[0036]第二記錄子單元,用于判斷置信度是否不小于最小置信度,如果是記錄Val為強(qiáng)關(guān)聯(lián)規(guī)則。
[0037]本發(fā)明實(shí)施例中,首先定義最小支持度和最小置信度;然后掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;接著根據(jù)所述最小支持度篩選所述一維候選集,得到新候選集;然后根據(jù)所述新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key, Val> ;接著根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;然后根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果;最后將所述計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。由于本發(fā)明實(shí)施例的方法和裝置采用并行計(jì)算和分布式數(shù)據(jù)存儲(chǔ)的方式,能夠讓復(fù)雜的計(jì)算分布到各個(gè)計(jì)算集群分塊同時(shí)進(jìn)行計(jì)算,從而大大提高了挖掘效率和數(shù)據(jù)處理能力;同時(shí)源數(shù)據(jù)按數(shù)據(jù)維度分布式存儲(chǔ),每個(gè)計(jì)算集群只需要掃描不小于自身數(shù)據(jù)維度的數(shù)據(jù)庫即可,能夠有效地減少掃描數(shù)據(jù)庫的次數(shù),從而實(shí)現(xiàn)海量數(shù)據(jù)的快速、簡單關(guān)聯(lián)規(guī)則挖掘。
【專利附圖】
【附圖說明】
[0038]圖1為現(xiàn)有技術(shù)中使用串行計(jì)算方式進(jìn)行關(guān)聯(lián)規(guī)則挖掘的流程圖;
[0039]圖2為本發(fā)明實(shí)施例中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法第一實(shí)施例流程圖;
[0040]圖3為本發(fā)明實(shí)施例中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法第二實(shí)施例流程圖;
[0041]圖4為本發(fā)明實(shí)施例中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算裝置實(shí)施例結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0042]本發(fā)明實(shí)施例提供了一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法,采用并行計(jì)算和分布式數(shù)據(jù)存儲(chǔ)的方式,能夠解決現(xiàn)有技術(shù)所存在的瓶頸和缺點(diǎn),實(shí)現(xiàn)海量數(shù)據(jù)的快速、簡單關(guān)聯(lián)規(guī)則挖掘。
[0043]請參閱圖2,本發(fā)明實(shí)施例中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法的第一實(shí)施例包括:
[0044]201、定義最小支持度和最小置信度;
[0045]在進(jìn)行本發(fā)明實(shí)施例的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算之前,可以定義最小支持度和最小置信度,其中最小支持度可以記為min_sup,最小置信度可以記為min_cnf。
[0046]202、掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;
[0047]定義最小支持度和最小置信度,可以對數(shù)據(jù)庫進(jìn)行掃描,掃描數(shù)據(jù)庫可以產(chǎn)生一維候選集、一維候選集的支持度和以及數(shù)據(jù)最大維度,然后可以將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫。
[0048]203、根據(jù)最小支持度篩選一維候選集,得到新候選集;
[0049]掃描數(shù)據(jù)庫產(chǎn)生一維候選集之后,可以根據(jù)最小支持度對一維候選集進(jìn)行篩選,進(jìn)而可以得到新候選集。
[0050]204、根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key, Val> ;
[0051]得到新候選集之后,可以根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val>。
[0052]205、根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;
[0053]根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val>之后,可以根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群。例如鍵值Key對應(yīng)10個(gè)可能候選集Val,則可以將10個(gè)可能候選集Val分到10個(gè)并行計(jì)算集群中。[0054]206、根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果;
[0055]根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群,可以根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,并得到計(jì)算結(jié)果。假設(shè)將10個(gè)可能候選集Val分到10個(gè)并行計(jì)算集群中,則10個(gè)并行計(jì)算集群分別根據(jù)預(yù)設(shè)規(guī)則對可能候選集Val進(jìn)行計(jì)算,可以得到計(jì)算結(jié)果。
[0056]207、將計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
[0057]得到計(jì)算結(jié)果之后,可以將計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
[0058]本發(fā)明實(shí)施例中,首先定義最小支持度和最小置信度;然后掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;接著根據(jù)最小支持度篩選一維候選集,得到新候選集;然后根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key, Val> ;接著根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;然后根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果;最后將計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。由于本發(fā)明實(shí)施例的方法和裝置采用并行計(jì)算和分布式數(shù)據(jù)存儲(chǔ)的方式,能夠讓復(fù)雜的計(jì)算分布到各個(gè)計(jì)算集群分塊同時(shí)進(jìn)行計(jì)算,從而大大提高了挖掘效率和數(shù)據(jù)處理能力;同時(shí)源數(shù)據(jù)按數(shù)據(jù)維度分布式存儲(chǔ),每個(gè)計(jì)算集群只需要掃描不小于自身數(shù)據(jù)維度的數(shù)據(jù)庫即可,能夠有效地減少掃描數(shù)據(jù)庫的次數(shù),從而實(shí)現(xiàn)海量數(shù)據(jù)的快速、簡單關(guān)聯(lián)規(guī)則挖掘。
[0059]上面簡單介紹了本發(fā)明關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法的第一實(shí)施例,下面對本發(fā)明關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法的第二實(shí)施例進(jìn)行詳細(xì)的描述,請參閱圖3,本發(fā)明實(shí)施例中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法第二實(shí)施例包括:
[0060]301、定義最小支持度和最小置信度;
[0061]在進(jìn)行本發(fā)明實(shí)施例的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算之前,可以定義最小支持度和最小置信度,其中最小支持度可以記為min_sup,最小置信度可以記為min_cnf。
[0062]302、掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫;
[0063]定義最小支持度和最小置信度,可以對數(shù)據(jù)庫進(jìn)行掃描,掃描數(shù)據(jù)庫可以產(chǎn)生一維候選集、一維候選集的支持度和以及數(shù)據(jù)最大維度,然后可以將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫。
[0064]303、根據(jù)最小支持度篩選一維候選集,得到新候選集;
[0065]掃描數(shù)據(jù)庫產(chǎn)生一維候選集之后,可以根據(jù)最小支持度對一維候選集進(jìn)行篩選,進(jìn)而可以得到新候選集。
[0066]304、根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key, Val> ;
[0067]得到新候選集之后,可以根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val>。
[0068]305、根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群;
[0069]根據(jù)新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val>之后,可以根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群。例如鍵值Key對應(yīng)10個(gè)可能候選集Val,則可以將10個(gè)可能候選集Val分到10個(gè)并行計(jì)算集群中。[0070]306、根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算并得到計(jì)算結(jié)果;
[0071]根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群,可以根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,并得到計(jì)算結(jié)果。假設(shè)將10個(gè)可能候選集Val分到10個(gè)并行計(jì)算集群中,則10個(gè)并行計(jì)算集群分別根據(jù)預(yù)設(shè)規(guī)則對可能候選集Val進(jìn)行計(jì)算,可以得到計(jì)算結(jié)果。
[0072]上述根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算的具體過程可以是:計(jì)算〈Key, Val>中的Val的維度vk ;根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的支持度的支持度不小于最小支持度,記錄Val為頻繁項(xiàng);根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的置信度;若Val的置信度不小于最小置信度,記錄Val為強(qiáng)關(guān)聯(lián)規(guī)則。
[0073]307、將計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
[0074]得到計(jì)算結(jié)果之后,可以將計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
[0075]下面結(jié)合一個(gè)具體例子來說明本發(fā)明實(shí)施例中各步驟的工作過程:
[0076]一、初始化計(jì)算步驟
[0077]1、設(shè)定最小支持度min_sup=2,最小置信度min_cnf=0.7 ;
[0078]2,(1)掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度;(2)將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫。例如,待挖掘數(shù)據(jù)庫有一下數(shù)據(jù)項(xiàng):
【權(quán)利要求】
1.一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法,其特征在于,包括: 定義最小支持度和最小置信度; 掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫; 根據(jù)所述最小支持度篩選所述一維候選集,得到新候選集; 根據(jù)所述新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val> ; 根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群; 根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果; 將所述計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
2.根據(jù)權(quán)利要求1所述的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算方法,其特征在于,步驟所述根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算包括: 計(jì)算〈Key, Val>中的Val的維度vk ; 根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的支持度; 若Val的支持度不小于最小支持度,記錄Val為頻繁項(xiàng); 根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的置信度; 若Val的置信度不小于最小置信度,記錄Val為強(qiáng)關(guān)聯(lián)規(guī)則。
3.一種關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算裝置,其特征在于,包括: 定義單元,用于定義最小支持度和最小置信度; 處理單元,用于掃描數(shù)據(jù)庫產(chǎn)生一維候選集及其支持度和數(shù)據(jù)最大維度并將源數(shù)據(jù)按數(shù)據(jù)維度分成多個(gè)分布式存儲(chǔ)的數(shù)據(jù)庫; 篩選單元,用于根據(jù)所述最小支持度篩選所述一維候選集,得到新候選集; 產(chǎn)生單元,用于根據(jù)所述新候選集產(chǎn)生所有維度大于I且不大于最大維度的可能候選集鍵值對〈Key,Val> ; 分發(fā)單元,用于根據(jù)鍵值Key將可能候選集Val分發(fā)到并行計(jì)算集群; 計(jì)算單元,用于根據(jù)預(yù)設(shè)規(guī)則分別對各并行計(jì)算集群進(jìn)行計(jì)算,得到計(jì)算結(jié)果; 關(guān)聯(lián)單元,用于將所述計(jì)算結(jié)果匯總并產(chǎn)生關(guān)聯(lián)規(guī)則集。
4.根據(jù)權(quán)利要求8所述的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的并行計(jì)算裝置,其特征在于,所述計(jì)算單元包括: 第一計(jì)算子單元,用于計(jì)算〈Key, Val>中的Val的維度vk ; 第二計(jì)算子單元,用于根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的支持度;第一記錄子單元,用于判斷Val的支持度是否不小于最小支持度,如果是記錄Val為頻繁項(xiàng); 第三計(jì)算子單元,用于根據(jù)vk值選擇數(shù)據(jù)維度不小于vk的數(shù)據(jù)庫計(jì)算Val的置信度;第二記錄子單元,用于判斷置信度是否不小于最小置信度,如果是記錄Val為強(qiáng)關(guān)聯(lián)規(guī)則。
【文檔編號(hào)】G06F17/30GK103440351SQ201310432964
【公開日】2013年12月11日 申請日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】羅建, 李引, 袁峰 申請人:廣州中國科學(xué)院軟件應(yīng)用技術(shù)研究所