欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

項(xiàng)集挖掘方法及裝置的制造方法

文檔序號:10665781閱讀:589來源:國知局
項(xiàng)集挖掘方法及裝置的制造方法【專利摘要】本發(fā)明公開了一種項(xiàng)集挖掘方法及裝置,屬于數(shù)據(jù)挖掘領(lǐng)域。所述方法包括:獲取自定義的最小期望支持度μ和最低效用比例ε;計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,該項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);當(dāng)expSup≥|D|*μ,且u≥總效用值TU*ε時(shí),確定該項(xiàng)集為高概率且高效用項(xiàng)集;TU表示不確定性數(shù)據(jù)庫D中所有數(shù)據(jù)項(xiàng)的效用之和;|D|表示不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。本發(fā)明達(dá)到了挖掘出的項(xiàng)集效用值較高,且發(fā)生概率較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果?!緦@f明】項(xiàng)集挖掘方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實(shí)施例涉及數(shù)據(jù)挖掘
技術(shù)領(lǐng)域
,特別涉及一種項(xiàng)集挖掘方法及裝置。【
背景技術(shù)
】[0002]數(shù)據(jù)庫中通常包括有至少一個(gè)事務(wù)(英文transaction),每個(gè)事務(wù)中包括至少一個(gè)數(shù)據(jù)項(xiàng)(英文比如,一條關(guān)于人物記錄的事務(wù)中,包括姓名、出生年月、性別、血型等數(shù)據(jù)項(xiàng)。[0003]為了發(fā)現(xiàn)不同數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則,需要進(jìn)行目標(biāo)數(shù)據(jù)項(xiàng)集的挖掘。項(xiàng)集(英文:ItemSetS)是由至少一個(gè)數(shù)據(jù)項(xiàng)構(gòu)成的集合,用于表征數(shù)據(jù)庫中內(nèi)在的一種關(guān)聯(lián)規(guī)則。HUIM(High-UtilityItemsetsMining,高效用項(xiàng)集挖掘)作為一種常見的數(shù)據(jù)挖掘方式,用于從數(shù)據(jù)庫中挖掘出由不同數(shù)據(jù)項(xiàng)組成的效用值較高的項(xiàng)集。在現(xiàn)有的基于HUIM的算法中,通過計(jì)算數(shù)據(jù)庫中各個(gè)項(xiàng)集對應(yīng)的效用值,當(dāng)該效用值大于或等于預(yù)設(shè)效用值時(shí),確定該項(xiàng)集為高效用項(xiàng)集并進(jìn)行挖掘,從而實(shí)現(xiàn)從數(shù)據(jù)庫中挖掘出高效用的項(xiàng)集。[0004]在實(shí)現(xiàn)本發(fā)明實(shí)施例的過程中,發(fā)明人發(fā)現(xiàn)上述技術(shù)至少存在以下問題:在實(shí)際情況中,數(shù)據(jù)庫中存儲的數(shù)據(jù)往往是不確定性數(shù)據(jù),即數(shù)據(jù)庫中的事務(wù)存在一個(gè)發(fā)生概率,且每個(gè)事務(wù)對應(yīng)的發(fā)生概率存在較大差異。而現(xiàn)有的基于ΗΙΠΜ的算法并未考慮事務(wù)的發(fā)生概率,容易挖掘出效用值較高但是發(fā)生概率較低的項(xiàng)集,導(dǎo)致挖掘出的項(xiàng)集的實(shí)際使用價(jià)值較低?!?br/>發(fā)明內(nèi)容】[0005]為了解決上述技術(shù)的問題,本發(fā)明實(shí)施例提供了一種項(xiàng)集挖掘方法及裝置。所述技術(shù)方案如下:[0006]根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種項(xiàng)集挖掘方法,所述方法包括:[0007]獲取自定義的最小期望支持度μ和最低效用比例ε;[0008]計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度(英文:eXpSup)和實(shí)際效用值u,該項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);[0009]當(dāng)expSup彡|?|*μ,且u彡TU(TotalUtility,總效用值)*ε時(shí),確定項(xiàng)集為高概率且高效用項(xiàng)集;TU表示不確定性數(shù)據(jù)庫D中所有數(shù)據(jù)項(xiàng)的效用之和;|D|表示不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。[0010]根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種項(xiàng)集挖掘裝置,所述裝置包括:[0011]獲取模塊,用于獲取自定義的最小期望支持度μ和最低效用比例ε;[0012]計(jì)算模塊,用于計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);[0013]第一確定模塊,用于當(dāng)expSup彡|D|*μ,且u彡總效用值TU*ε時(shí),確定項(xiàng)集為高概率且高效用項(xiàng)集;TU表示不確定性數(shù)據(jù)庫d中所有數(shù)據(jù)項(xiàng)的效用之和;ID|表示不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。[0014]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:[0015]通過從不確定性數(shù)據(jù)庫中挖掘出實(shí)際期望支持度大于最小期望支持度,且實(shí)際效用值大于最低效用的高概率且高效用項(xiàng)集;解決了現(xiàn)有的基于ΗΙΠΜ的算法由于未考慮事務(wù)的發(fā)生概率,導(dǎo)致挖掘出實(shí)際使用價(jià)值較低的項(xiàng)集的問題;達(dá)到了挖掘出的項(xiàng)集效用值較高,且發(fā)生概率較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果?!靖綀D說明】[0016]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0017]圖1A是本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0018]圖1B是本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0019]圖2A是本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0020]圖2B是本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0021]圖3A是本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖;[0022]圖3B是本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法中生成的第1-PU表的結(jié)構(gòu)示意圖;[0023]圖3C是本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法所涉及的枚舉樹的示意圖;[0024]圖4是本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖;[0025]圖5是本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖?!揪唧w實(shí)施方式】[0026]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。[0027]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0028]為了便于對本發(fā)明實(shí)施例進(jìn)行說明,預(yù)先對本發(fā)明實(shí)施例涉及的基本概念進(jìn)行如下介紹:[0029]1、事務(wù):指數(shù)據(jù)庫中的一條記錄。比如,當(dāng)數(shù)據(jù)庫中記錄的是超市商品的購買記錄,則數(shù)據(jù)庫中的每一個(gè)事務(wù)對應(yīng)商品的購買記錄,該購買記錄中包含購買商品的數(shù)量和名稱等信息。[0030]2、數(shù)據(jù)項(xiàng):事務(wù)中記錄的每條信息項(xiàng)目,且一個(gè)事務(wù)中包含至少一個(gè)數(shù)據(jù)項(xiàng)。比如,當(dāng)數(shù)據(jù)庫中的事務(wù)對應(yīng)顧客的購買記錄時(shí),事務(wù)中的數(shù)據(jù)項(xiàng)則可以是購買記錄中,購買商品的數(shù)量和名稱等信息。[0031]3、項(xiàng)集:至少一個(gè)數(shù)據(jù)項(xiàng)構(gòu)成的集合,用于表征數(shù)據(jù)庫內(nèi)在的一種關(guān)聯(lián)規(guī)則。事務(wù)與項(xiàng)集的不同的點(diǎn)是,事務(wù)通常是由實(shí)際的事件所觸發(fā)生成的數(shù)據(jù)庫中的記錄;而項(xiàng)集通常是從數(shù)據(jù)庫挖掘而出的,并不一定有實(shí)際的含義。[0032]4、k_項(xiàng)集:包含有k個(gè)數(shù)據(jù)項(xiàng)的集合。比如,1-項(xiàng)集可以為A,即只包含數(shù)據(jù)項(xiàng)A;2-項(xiàng)集可以為AB,即包含數(shù)據(jù)項(xiàng)A和B。[0033]5、不確定性數(shù)據(jù)庫(英文:UncertainDatabases):指數(shù)據(jù)庫中的每個(gè)事務(wù)都存在一個(gè)發(fā)生概率。一種示意性的不確定性數(shù)據(jù)庫的結(jié)構(gòu)如表一所示。不確定性數(shù)據(jù)庫中記錄的是超市商品的購買記錄,數(shù)據(jù)庫中每一條購買記錄對應(yīng)一個(gè)發(fā)生概率,即不確定性數(shù)據(jù)庫中的每個(gè)事務(wù)對應(yīng)一個(gè)發(fā)生概率。[0034]表一[0035][0036][0037]6、事務(wù)的編號(英文:TID):數(shù)據(jù)庫中不同事務(wù)的編號。[0038]7、|D|:數(shù)據(jù)庫中包含的事務(wù)總數(shù),比如,表一所示的不確定性數(shù)據(jù)庫對應(yīng)的|D為10〇[0039]8、發(fā)生概率:指不確定性數(shù)據(jù)庫中,每個(gè)事務(wù)所對應(yīng)的發(fā)生概率。[0040]9、實(shí)際期望支持度:指定項(xiàng)集的期望支持度,是指不確定性數(shù)據(jù)庫中,包含指定項(xiàng)集的各個(gè)事務(wù)各自對應(yīng)的期望支持度之和。比如,不確定性數(shù)據(jù)庫如表一所示,指定項(xiàng)集為AB,包含指定項(xiàng)集AB的事務(wù)的編號為3和7,對應(yīng)的發(fā)生概率分別為0.85和0.45,即項(xiàng)集AB對應(yīng)的expSup為0·85+0.45=1.3。[0041]10、效用值:數(shù)據(jù)庫中各個(gè)數(shù)據(jù)項(xiàng)對應(yīng)的效用或利益,表示為效用值。比如,以數(shù)據(jù)庫為包含超市商品的購買記錄的不確定性數(shù)據(jù)庫為例,效用值可以表示為賣出不同商品所帶來的利潤。[0042]11、效用表(英文:ProfitTable):記錄數(shù)據(jù)庫中不同數(shù)據(jù)項(xiàng)及其效用值對應(yīng)關(guān)系的表。比如,效用表可以如表二所示。[0043]表二[0044][0045]12、TWU(Transaction-WeightedUtility,事務(wù)權(quán)重效用):指包含指定項(xiàng)集的事務(wù)對應(yīng)的效用值之和。比如,結(jié)合表一和表二,當(dāng)指定項(xiàng)集為AB時(shí),包含項(xiàng)集AB的事務(wù)的編號為3和7,事務(wù)3和事務(wù)7對應(yīng)的效用值之和為1*4+2*1+1*12+0*6+3*15+1*4+1*1+0*12+4*6+1+15=107。[0046]13、u:指定項(xiàng)集對應(yīng)的效用值之和。比如,結(jié)合表一和表二,當(dāng)指定項(xiàng)集為AB時(shí),包含項(xiàng)集AB的事務(wù)的編號為3和7,項(xiàng)集AB的實(shí)際效用值為1*4+2*1+1*4*1*1=11。[0047]14、TU:指數(shù)據(jù)庫中所有事務(wù)對應(yīng)的效用值之和。比如,結(jié)合表一和表二,該不確定性數(shù)據(jù)庫對應(yīng)的總效用為74+13+63+24+30+62+44+19+60+53=442[0048]15、μ:即用戶自定義的最小期望支持度,指挖掘出的項(xiàng)集占數(shù)據(jù)庫中事務(wù)總數(shù)的最小比例。比如,如表一所示,當(dāng)用戶自定義的μ=15%時(shí),挖掘出的項(xiàng)集占不確定性數(shù)據(jù)庫中事務(wù)總數(shù)的最小比例即為15%,即挖掘出的項(xiàng)集對應(yīng)的expSup最小為10*15%=1.5。[0049]16、ε:即用戶自定義的最低效用比例,指挖掘出的項(xiàng)集占數(shù)據(jù)庫總效用的最小比例。比如,如表一所示,當(dāng)用戶自定義的ε=25%時(shí),挖掘出的項(xiàng)集占不確定性數(shù)據(jù)庫總效用的最小比例即為25%,即挖掘出的項(xiàng)集對應(yīng)的u最小為442*25%=110.5。[0050]17、HPUIs(HighProbability-UtilityItemsets,高概率且高效用項(xiàng)集):指實(shí)際期望支持度expSup彡|D|*y且實(shí)際效用值u彡總效用值Τυ*ε的項(xiàng)集。比如,結(jié)合表一和表二,以μ=15%,ε=25%為例,項(xiàng)集C對應(yīng)的實(shí)際期望支持度expSup=4.36彡1.5,且實(shí)際效用值u=168彡110.5,即項(xiàng)集C為高概率且高效用項(xiàng)集。[0051]18、項(xiàng)集效用(英文:Iutility):指定項(xiàng)集在指定事務(wù)中的對應(yīng)的效用值。比如,結(jié)合表一和表二,指定項(xiàng)集D在指定事務(wù)2中的項(xiàng)集效用為2*6=12。[0052]19、項(xiàng)集剩余效用(英文:Rutility):在指定事務(wù)中,除指定項(xiàng)集的項(xiàng)集效用之外的效用值。比如,結(jié)合表一和表二,指定事務(wù)3中,指定項(xiàng)集D的項(xiàng)集剩余效用為1*1=1。[0053]20、PU表(英文:Probability-UtilityList):包含項(xiàng)集所在事務(wù)的TID、項(xiàng)集所在事務(wù)的發(fā)生概率、項(xiàng)集對應(yīng)的Iutility以及項(xiàng)集對應(yīng)的Rutility的表。比如,結(jié)合表一和表二,項(xiàng)集D對應(yīng)的PU表可以如表三所示。[0054]表三[0055][0057]請參考圖1A,其示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖。該方法包括:[0058]步驟101,獲取自定義的最小期望支持度μ和最低效用比例ε。[0059]步驟102,計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,該項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng)。[0060]步驟103,當(dāng)expSup彡|D|*μ,且u彡總效用值TU*ε時(shí),確定該項(xiàng)集為高概率且高效用項(xiàng)集;TU表示不確定性數(shù)據(jù)庫d中所有數(shù)據(jù)項(xiàng)的效用之和;ID|表示不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。[0061]綜上所述,本實(shí)施例提供的項(xiàng)集挖掘方法,通過從不確定性數(shù)據(jù)庫中挖掘出實(shí)際期望支持度大于最小期望支持度,且實(shí)際效用值大于最低效用的高概率且高效用項(xiàng)集;解決了現(xiàn)有的基于ΗΙΠΜ的算法由于未考慮事務(wù)的發(fā)生概率,導(dǎo)致挖掘出實(shí)際使用價(jià)值較低的項(xiàng)集的問題;達(dá)到了挖掘出的項(xiàng)集效用值較高,且發(fā)生概率較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果。[0062]可選地,如圖1B所示,上述步驟102可以包括步驟102A和步驟102B:[0063]步驟102A,對于一個(gè)項(xiàng)集,計(jì)算包含該項(xiàng)集的事務(wù)各自對應(yīng)的發(fā)生概率之和,得到項(xiàng)集對應(yīng)的實(shí)際期望支持度expSup。[0064]首先,定義事務(wù)Tq中項(xiàng)集X對應(yīng)的發(fā)生概率P(X,Tq)=P(Tq),其中P(Tq)表示事務(wù)Tq對應(yīng)的發(fā)生概率。比如,表一所示事務(wù)2對應(yīng)發(fā)生概率為0.7,則事務(wù)2中包含的項(xiàng)集B、項(xiàng)集D和項(xiàng)集BD對應(yīng)的發(fā)生概率均為0.7。[0065]相應(yīng)的,指定項(xiàng)集X對應(yīng)的實(shí)際期望支持度即為包含該項(xiàng)集的事務(wù)各自對應(yīng)的發(fā)生概率之和,表示為:[0066][0067]比如,如表一所述,包含項(xiàng)集ABE的事務(wù)為事務(wù)3和事務(wù)7,則項(xiàng)集ABE對應(yīng)的實(shí)際期望支持度為〇.85+0.45=1.3。[0068]步驟102B,將包含該項(xiàng)集的事務(wù)中項(xiàng)集所對應(yīng)的效用值相加,得到該項(xiàng)集對應(yīng)的Uo[0069]首先,定義事務(wù)Tq中數(shù)據(jù)項(xiàng)i_j在事務(wù)Tq中的效用值u(i_j,Tq)=q(i_j,Tq)Xpr(i_j),其中,qh,Tq)表示事務(wù)Tq包含的數(shù)據(jù)項(xiàng)i,的個(gè)數(shù),pr(i,)表示效用表中數(shù)據(jù)項(xiàng)i,對應(yīng)的效用值。比如,結(jié)合表一和表二,在事務(wù)1中,數(shù)據(jù)項(xiàng)A的效用值即為2*4=8。[0070]顯而易見的,指定項(xiàng)集X在事務(wù)Tq中的效用值可以表不為:[0071][0072]比如,如表一所示,項(xiàng)集AC在事務(wù)1中的效用值為2*4+3+12=44。[0073]相應(yīng)的,指定項(xiàng)集X對應(yīng)的實(shí)際效用值即為包含該項(xiàng)集的事務(wù)中項(xiàng)集所對應(yīng)的效用值相加,表示為'比如,如表一所示,項(xiàng)集A對應(yīng)的實(shí)際效用值u(A)=8+4+8+4+12=36;項(xiàng)集AC對應(yīng)的實(shí)際效用值u(AC)=44+16+32+48=140。[0074]對不確定性數(shù)據(jù)庫進(jìn)行挖掘的過程,即可以認(rèn)為是計(jì)算不確定性數(shù)據(jù)庫中,所有項(xiàng)集對應(yīng)的實(shí)際期望支持度和實(shí)際效用值的過程。[0075]需要說明的是,上述步驟102A與步驟102B不存在嚴(yán)格的先后順序,本發(fā)明僅以步驟102A在步驟102B之前進(jìn)行說明,并不對本發(fā)明構(gòu)成限定。[0076]在步驟103中,與上述步驟102相似的,在對不確定性數(shù)據(jù)庫進(jìn)行挖掘的過程中,還會根據(jù)公hTqeD,,算該不確定性數(shù)據(jù)庫的總效用,其中,tu(Tq)為事務(wù)Tq對應(yīng)的效用值,并可以表示為,其中,m表示為事務(wù)Tq中包含的數(shù)據(jù)項(xiàng)的個(gè)數(shù)。比如,如表一所示,事務(wù)2對應(yīng)的效用值為1*1+2*6=13;該不確定性數(shù)據(jù)庫的總效用為74+13+63+24+30+62+44+19+60+53=442〇[0077]最后,比較各個(gè)項(xiàng)集對應(yīng)的實(shí)際期望支持度與|D|*μ的大小關(guān)系,以及各個(gè)項(xiàng)集對應(yīng)的實(shí)際效用值與TU*ε的大小關(guān)系,當(dāng)項(xiàng)集對應(yīng)的expSup彡IDI*μ,且u彡TU*ε時(shí),即可確定該項(xiàng)集為高概率且高效用項(xiàng)集。[0078]由于計(jì)算不確定性數(shù)據(jù)庫中所有項(xiàng)集的實(shí)際期望支持度和實(shí)際效用值,需要耗費(fèi)大量的計(jì)算資源,且需要耗費(fèi)大量時(shí)間,造成數(shù)據(jù)挖掘效率較低。為了減少數(shù)據(jù)挖掘過程中消耗的計(jì)算資源,從而提高挖掘的速度,本發(fā)明提出了兩種優(yōu)化挖掘的方法,分別為HPUI-apriori算法和HPUI-List算法。下面采用兩個(gè)實(shí)施例分別進(jìn)行說明。[0079]請參考圖2A,其示出了本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖,該方法包括:[0080]步驟201,獲取自定義的最小期望支持度μ和最低效用比例ε。[0081]該最小期望支持度μ和最低效用比例ε可以由用戶根據(jù)實(shí)際挖掘需要進(jìn)行自定義設(shè)置。[0082]比如,當(dāng)需要挖掘的不確定性數(shù)據(jù)庫中記錄的是天氣情況,即不確定性數(shù)據(jù)庫中每一個(gè)事務(wù)包含的數(shù)據(jù)項(xiàng)可以是日期、溫度和降雨概率,對應(yīng)的每個(gè)事務(wù)的發(fā)生概率即為出現(xiàn)該天氣情況的概率。為了保證挖掘的項(xiàng)集具有較高的發(fā)生概率,用戶可以將最小期望支持度μ設(shè)置的較大。[0083]又比如,當(dāng)需要挖掘的不確定性數(shù)據(jù)庫中記錄的是超市商品的購買記錄,即不確定性數(shù)據(jù)庫中每一個(gè)事務(wù)包含的數(shù)據(jù)項(xiàng)可以是購買A商品的數(shù)量、購買B商品的數(shù)量、購買C商品的數(shù)量和購買D商品的數(shù)量,每個(gè)事務(wù)的發(fā)生概率即為出現(xiàn)這種購買情況的概率,對應(yīng)的,各個(gè)數(shù)據(jù)項(xiàng)的效用值可以表示為賣出一件該商品能夠獲得的利潤。為了保證挖掘的項(xiàng)集具有較高的效用值,即挖掘出的項(xiàng)集所對應(yīng)的商品或商品的組合具有較高的利潤,用戶可以將最低效用比例ε設(shè)置的較大。[0084]需要說明的是,該不確定性數(shù)據(jù)庫中記錄的內(nèi)容為天氣情況或超市商品的購買記錄進(jìn)行舉例說明,本發(fā)明并不對此進(jìn)行限定。[0085]步驟202,掃描不確定性數(shù)據(jù)庫D,將不確定性數(shù)據(jù)庫D中TWU多TU*e且expSup彡|D|*μ的k-項(xiàng)集確定為候選項(xiàng)集,TWU表示包含該項(xiàng)集的事務(wù)對應(yīng)的效用值之和,k-項(xiàng)集中包含k個(gè)數(shù)據(jù)項(xiàng),k彡1。[0086]首先,定義TWU為包含指定項(xiàng)集X的所有事務(wù)的效用值之和,即對于指定項(xiàng)集X,其對應(yīng)[0087]比如,如表一所示,在不確定性數(shù)據(jù)庫中,包含項(xiàng)集E的事務(wù)分別為事務(wù)1、事務(wù)3、事務(wù)5、事務(wù)7、事務(wù)8和事務(wù)10,而這些事務(wù)對應(yīng)的效用值又分別為74、63、30、44、19和53,則項(xiàng)集E對應(yīng)的TWU(E)=74+63+30+44+19+53=283。[0088]根據(jù)高概率項(xiàng)集的向下封閉特性,可以得到推論1:如果一個(gè)項(xiàng)集Xk是高概率項(xiàng)集,那么它的子集Xkl也是高概率項(xiàng)集;如果一個(gè)項(xiàng)集XkF是高概率項(xiàng)集,那么它的超集xk+1也不是高概率項(xiàng)集。推論1的證明可以如下。[0089]設(shè)k-項(xiàng)集為Xk,k-項(xiàng)集的子集(k-Ι)項(xiàng)集為Xk\而在不確定性數(shù)據(jù)庫D中,必定有p(Xkl,Tq)彡p(Xk,Tq),可以得出,[0090][0091]所以,當(dāng)Xk是高概率項(xiàng)集,它的子集Xk1也是高概率項(xiàng)集,推論1得證。[0092]根據(jù)高事務(wù)權(quán)重且高效用項(xiàng)集的向下封閉特性,可以得到推論2:如果一個(gè)項(xiàng)集Xk是高事務(wù)權(quán)重且高效用項(xiàng)集,那么它的子集xk1也是高事務(wù)權(quán)重且高效用項(xiàng)集;如果一個(gè)項(xiàng)集#不是高事務(wù)權(quán)重且高效用項(xiàng)集,那么它的超集xk+1也不是高事務(wù)權(quán)重且高效用項(xiàng)集。推論2的證明可以如下。[0093]設(shè)k_項(xiàng)集為Xk,k_項(xiàng)集的子集(k-Ι)-項(xiàng)集為Xk1,有[0094][0095]結(jié)合高概率項(xiàng)集的向下封閉特性,可以推出,當(dāng)Xk是高事務(wù)權(quán)重且高效用項(xiàng)集,那么它的子集Xk1也是高事務(wù)權(quán)重且高效用項(xiàng)集,推論2得證。[0096]結(jié)合上述兩個(gè)推論,可以認(rèn)為TWU彡TU*ε且expSup彡|D|*μ的項(xiàng)集才是有前途的項(xiàng)集,而不滿足該條件的項(xiàng)集可以進(jìn)行過濾,從而起到減小挖掘范圍的效果。[0097]基于上述推論,作為一種可能的實(shí)現(xiàn)方式,如圖2Β所示,步驟202又可以包括步驟202A至步驟202C。[0098]步驟202A,掃描不確定性數(shù)據(jù)庫D,獲取TWU彡TU*ε且expSup彡IDI*μ的k-項(xiàng)集,并將k項(xiàng)集添加到第k候選項(xiàng)集。[0099]在第k次掃描數(shù)據(jù)庫時(shí),獲取k-項(xiàng)集對應(yīng)的TWU和expSup,將TWU彡TU*ε且expSup彡|D|*μ的k-項(xiàng)集添加到第k候選項(xiàng)集,并將不滿足該條件的k-項(xiàng)集進(jìn)行過濾,其中,該k-項(xiàng)集為是(k-Ι)-項(xiàng)集自連接生成的。[0100]當(dāng)?shù)趉候選項(xiàng)集為空時(shí),執(zhí)行步驟203;當(dāng)?shù)趉候選項(xiàng)集不為空時(shí),令k=k+Ι,再次執(zhí)行步驟202B。[0101]比如,結(jié)合表一和表二所示,并以ε=25%且μ=15%為例,當(dāng)?shù)谝淮螔呙璨淮_定性數(shù)據(jù)庫時(shí),計(jì)算各個(gè)1-項(xiàng)集對應(yīng)的TWU和expSup,可以得到Α對應(yīng)的TWU=303,expSup=3.71;B對應(yīng)的TWU=222,expSup=3.71;C對應(yīng)的TWU=336,expSup=4.36;D對應(yīng)的TWU=209,expSup=3·41;E對應(yīng)的TWU=283,expSup=3·91;均滿足TWU彡TU*ε且expSup彡IDI*μ,所以將A、B、C、D和E均添加到第1候選項(xiàng)集。[0102]步驟202B,當(dāng)?shù)趉候選項(xiàng)集不為空時(shí),根據(jù)第k候選項(xiàng)集中的k-項(xiàng)集自連接生成(k+l)_項(xiàng)集,(k+l)_項(xiàng)集是k-項(xiàng)集的超集,(k+l)_項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集。[0103]當(dāng)?shù)趉候選項(xiàng)集不為空時(shí),按照第k候選項(xiàng)集中項(xiàng)集的排列順序,將每個(gè)項(xiàng)集與排在該項(xiàng)集之后的項(xiàng)集進(jìn)行合并且去重后,生成一個(gè)(k+l)_項(xiàng)集。[0104]比如,當(dāng)?shù)?候選項(xiàng)集中包含的項(xiàng)集為A、B、C、D和E時(shí),且排列順序?yàn)锳-B-C-D-E時(shí),自連接生成的2-項(xiàng)集即為AB、AC、AD、AE、BC、BD、BE、CD、CE和DE。[0105]又比如,當(dāng)?shù)?候選項(xiàng)集為AC、AD、AE、BE、⑶和CE時(shí),生成的3-項(xiàng)集即為A⑶、ACE、ABE、BCE和CDE。[0106]顯而易見的,根據(jù)上述步驟202A對不滿足TWU彡TU*ε且expSup彡|D|*μ的項(xiàng)集進(jìn)行過濾,使得根據(jù)第k候選項(xiàng)集中的k-項(xiàng)集自連接生成(k+1)-項(xiàng)集數(shù)量遠(yuǎn)小于不確定性數(shù)據(jù)庫中包含的(k+Ι)-項(xiàng)集的總數(shù),從而達(dá)到了縮小挖掘范圍的效果。[0107]步驟202C,掃描不確定性數(shù)據(jù)庫D,獲取(k+Ι)-項(xiàng)集中TWU彡TU*ε且expSup彡|D|*μ的項(xiàng)集,并將項(xiàng)集添加到第k+Ι候選項(xiàng)集。[0108]再次掃描不確定性數(shù)據(jù)庫時(shí),獲取上述步驟中生成的各個(gè)(k+1)-項(xiàng)集對應(yīng)的TWU和expSup,并將滿足TWU彡TU*ε且expSup彡|D|*μ的k+Ι項(xiàng)集添加到第k+Ι候選項(xiàng)集。[0109]當(dāng)?shù)趉+Ι候選項(xiàng)集不為空時(shí),令k=k+Ι,重復(fù)上述步驟202B,直到獲取不到候選項(xiàng)集。[0110]比如,結(jié)合表一和表二所示,根據(jù)第1候選項(xiàng)集中的1-項(xiàng)集自連接生成的2-項(xiàng)集分別為AB、AC、AD、AE、BC、BD、BE、CD、CE和DE,掃描不確定性數(shù)據(jù)庫,獲取到AB對應(yīng)TWU=107,expSup=1.3;AC對應(yīng)TWU=259,expSup=3.26;AD對應(yīng)TWU=166,expSup=1·96;AE對應(yīng)TWU=181,expSup=2·2;BC對應(yīng)TWU=116,expSup=1·45;BD對應(yīng)TWU=87,expSup=1.9;BE對應(yīng)TWU=209,expSup=3.01;CD對應(yīng)TWU=122,expSup=1.51;CE對應(yīng)TWU=190,expSup=2.35;DE對應(yīng)TWU=74,expSup=1.2。其中,滿足TWU彡TU*ε且expSup彡IDI*μ的2-項(xiàng)集為AC、AD、AE、BE、CD、CE,并將上述2-項(xiàng)集添加到第2候選項(xiàng)集中。[0111]由于獲取到的第2候選項(xiàng)集不為空,所以執(zhí)行上述步驟202B,將第2候選項(xiàng)集中的2-項(xiàng)集自連接,生成的3-項(xiàng)集為ACD、ACE、ABE、BCE和CDE。[0112]再次掃描不確定性數(shù)據(jù)庫,獲得上述3-項(xiàng)集對應(yīng)的TWU和expSup,發(fā)現(xiàn)僅有3-項(xiàng)集ACD(TWU=122,expSup=1.51)和ACE(TWU=137,expSup=1.75)滿足上述條件,并將A⑶和ACE添加到第3候選項(xiàng)集。[0113]由于第3候選項(xiàng)集不為空,根據(jù)第3候選項(xiàng)集中的3-項(xiàng)集A⑶和ACE生成4-項(xiàng)集ACDE〇[0114]再次掃描不確定性數(shù)據(jù)庫,發(fā)現(xiàn)事務(wù)中不存在項(xiàng)集ACDE,無法生成第4候選項(xiàng)集,即結(jié)束上述循環(huán),將第1、2、3候選項(xiàng)集匯總,生成表四所述的候選項(xiàng)集表。[0115]表四[0116][0117]步驟203,再次掃描不確定性數(shù)據(jù)庫D,計(jì)算候選項(xiàng)集中的各個(gè)項(xiàng)集對應(yīng)的u。[0118]結(jié)束上述步驟202后,再次掃描不確定性數(shù)據(jù)庫,計(jì)算候選項(xiàng)集中各個(gè)項(xiàng)集對應(yīng)的實(shí)際效用值。[0119]步驟204,將候選項(xiàng)集中,expSup彡|D|*μ且u彡TU*ε的項(xiàng)集確定為高概率且尚效用項(xiàng)集。[0120]根據(jù)計(jì)算得到的候選項(xiàng)集中各個(gè)項(xiàng)集對應(yīng)的實(shí)際效用值和實(shí)際期望支持度,獲取滿足expSup彡IDI*μ且u彡TU*ε的項(xiàng)集,并將該項(xiàng)集確定為高概率且高效用項(xiàng)集。[0121]結(jié)合表一、表二和表四,不確定性數(shù)據(jù)庫中的高概率且高效用項(xiàng)集如表五所示。[0122]表五[0123][0124]綜上所述,本實(shí)施例提供的項(xiàng)集挖掘方法,通過從不確定性數(shù)據(jù)庫中挖掘出實(shí)際期望支持度大于最小期望支持度,且實(shí)際效用值大于最低效用的高概率且高效用項(xiàng)集;解決了現(xiàn)有的基于ΗΙΠΜ的算法由于未考慮事務(wù)的發(fā)生概率,導(dǎo)致挖掘出實(shí)際使用價(jià)值較低的項(xiàng)集的問題;達(dá)到了挖掘出的項(xiàng)集效用值較高,且發(fā)生概率較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果。[0125]本實(shí)施還通過多次掃描不確定性數(shù)據(jù)庫,獲取多個(gè)候選項(xiàng)集,并將候選項(xiàng)集中expSup彡|D|*y且u彡TU*ε的項(xiàng)集確定為高概率且高效用項(xiàng)集,達(dá)到了加快挖掘速度,節(jié)約計(jì)算資源的效果。[0126]本實(shí)施例提供的項(xiàng)集挖掘方法,可以通過HPUI-apriori算法實(shí)現(xiàn),該算法的偽代碼可以如下所示。[0127]Input:D,uncertaindatabases;ptable,profittable;ε,minimumutilitythreshold;μ,minimumexpectedsupportthreshold.//輸入:不確定性數(shù)據(jù)庫D;效用表;ε;μ[0128]0utput:thesetofhighprobability-utilityitemsets(HPUIs).//輸出:高概率且高效用項(xiàng)集[0129][0131]上述算法中,步驟1至4為第一次掃描不確定性數(shù)據(jù)庫,并獲取不確定性數(shù)據(jù)庫中所有1-項(xiàng)集的TWU和expSup;步驟5至9為根據(jù)獲取的1-項(xiàng)集生成第1候選項(xiàng)集;步驟12至21為多次掃描不確定性數(shù)據(jù)庫,生成后續(xù)候選項(xiàng)集的過程;步驟22至30是不再生成候選項(xiàng)集時(shí),再次掃描不確定性數(shù)據(jù)庫,獲取候選項(xiàng)集中實(shí)際效用值多TU*ε的項(xiàng)集,并確定為高概率且高效用項(xiàng)集。[0132]請參考圖3Α,其示出了本發(fā)明再一實(shí)施例提供的項(xiàng)集挖掘方法的方法流程圖,該方法包括:[0133]步驟301,獲取自定義的最小期望支持度μ和最低效用比例ε。[0134]本步驟具體實(shí)現(xiàn)方式與上述步驟201相似,在此不再贅述。且為了方便描述,下述步驟中,均以上述表一和表二為例進(jìn)行說明,對應(yīng)的μ=15%,ε=25%。[0135]步驟302,構(gòu)建概率效用PU表,PU表包含k-項(xiàng)集所在事務(wù)的編號TID、k-項(xiàng)集所在事務(wù)對應(yīng)的發(fā)生概率、k_項(xiàng)集在事務(wù)中的項(xiàng)集效用Iutility以及k_項(xiàng)集在事務(wù)中的項(xiàng)集剩余效用Rutility,項(xiàng)集剩余效用Rutility表示事務(wù)中除k-項(xiàng)集以外的其它數(shù)據(jù)項(xiàng)的效用和,k-項(xiàng)集包含k個(gè)數(shù)據(jù)項(xiàng),k彡1。[0136]在進(jìn)行數(shù)據(jù)挖掘的過程中,只需要掃描一次不確定性數(shù)據(jù)庫,生成第1-HJ表,并根據(jù)該第1-PU表生成后續(xù)的表,而不再需要重復(fù)掃描不確定性數(shù)據(jù)庫,從而節(jié)省計(jì)算資源,提高挖掘效率。[0137]作為一種可能的實(shí)現(xiàn)方式,步驟302可以包括步驟302A和302B。[0138]步驟302A,掃描不確定性數(shù)據(jù)庫D,構(gòu)建第1-PU表,第1-PU表包括1-項(xiàng)集對應(yīng)的TID、發(fā)生概率、Iutility和Rutility。[0139]構(gòu)建表的過程,可以看做是生成枚舉樹的過程,而生成枚舉樹的第一步,則是需要生成第一級節(jié)點(diǎn),即對應(yīng)構(gòu)建第ι-PU表。[0140]與上述步驟202相似的是,對不確定性數(shù)據(jù)庫進(jìn)行挖掘時(shí),都需要對該不確定性數(shù)據(jù)庫進(jìn)行一次掃描,計(jì)算不確定性數(shù)據(jù)庫中的1-項(xiàng)集對應(yīng)的TWU和expSup,并獲取TWU彡TU*ε且expSup彡|D|*μ的1-項(xiàng)集。在獲取到該1-項(xiàng)集后,還按照1-項(xiàng)集對應(yīng)TWU大小,按照升序進(jìn)行排列,遞歸生成1-項(xiàng)集各自對應(yīng)的第1-PU表。[0141]其中,第1-PU表中TID表示包含該1-項(xiàng)集的事務(wù)的編號,發(fā)生概率表示包含該1-項(xiàng)集的事務(wù)對應(yīng)的發(fā)生概率,Iutility表示該1-項(xiàng)集的事務(wù)中的效用值,Rutility則表示該事務(wù)中,除了該1-項(xiàng)集外,其他數(shù)據(jù)項(xiàng)的效用值之和。需要說明的是,由于在生成第1-PU表的過程中,需要先根據(jù)各個(gè)1-項(xiàng)集對應(yīng)的TWU大小,按照升序進(jìn)行排序,并在排序后遞歸生成各自對應(yīng)的第1-PU表,所以1-項(xiàng)集在指定事務(wù)中對應(yīng)的Rutility,還需要減去排列在該1-項(xiàng)集的左邊的1-項(xiàng)集在該事務(wù)中對應(yīng)的Iutility。[0142]比如,對如表一所示的不確定性數(shù)據(jù)庫進(jìn)行挖掘,知悉1-項(xiàng)集A、B、C、D和E均滿足TWU彡TU*ε且expSup彡IDI*μ,即根據(jù)各個(gè)1-項(xiàng)集對應(yīng)的TWU的大小進(jìn)行排序,得到序列為DBEAC。按照該序列的順序依次構(gòu)建D對應(yīng)的第1-PU表、B對應(yīng)的第1-PU表、E對應(yīng)的第1-PU表、A對應(yīng)的第1-PU表和C對應(yīng)的第1-PU表。其中D對應(yīng)的第1-PU表如表六所示。[0143]表六[0144][0145]由于首先構(gòu)建D對應(yīng)的第1-PU表,所以D的左邊不存在其他1-項(xiàng)集,對應(yīng)的Rutility即為事務(wù)中除D以外的其它數(shù)據(jù)項(xiàng)的效用和。[0146]在構(gòu)建完D對應(yīng)的第1-PU表后,構(gòu)建B對應(yīng)的第1-PU表。由于B的左邊存在1-項(xiàng)集D,所以Rutility為除了B和D以外,其他數(shù)據(jù)項(xiàng)的效用和。如表七所示,由于事務(wù)2中同時(shí)出現(xiàn)了8和0,所以8在事務(wù)2中對應(yīng)的1?1^1^7為11(1'2)-11出,1'2)-11(0,1'2)=13-1-12=0;相似的,8在事務(wù)5中對應(yīng)的1?1^1^7為11(1'5)-11出,1'5)-11(0,1'5)=30-3-12=15出在事務(wù)7中對應(yīng)的Rutility為u(T7)-u(B,T7)-u(D,T7)=44-1-24=19。[0147]表七[0148][0149]根據(jù)上述構(gòu)建表的方法,依次構(gòu)建Ε對應(yīng)的第1-PU表、Α對應(yīng)的第1-PU表和C對應(yīng)的第1-PU表,合并為如圖3B所示。[0150]步驟302B,在第k-PU表中,當(dāng)(項(xiàng)集效用和Iuti1ity.SUM+項(xiàng)集剩余效用和Rutility.SUM)多??*ε,且k-項(xiàng)集所在事務(wù)的發(fā)生概率之和多|D|*y時(shí),根據(jù)第k-PU表遞歸生成第(k+l)-PU表,第(k+l)-PU表中的(k+l)_項(xiàng)集為k項(xiàng)集的超集;Iutility.SUM表示k_項(xiàng)集在不同事務(wù)中Iutility之和;Rutility.SUM表示k_項(xiàng)集在不同事務(wù)中Rutility之和。[0151]當(dāng)項(xiàng)集對應(yīng)的(Iutility.SUM+Rutility.SUM)彡TU*ε且所在事務(wù)的發(fā)生概率之和多|?|*μ時(shí),即表明該項(xiàng)集的超集中可能包含高概率且高效用項(xiàng)集,并進(jìn)一步根據(jù)該項(xiàng)集對應(yīng)的表遞歸生成其超集對應(yīng)的PU表。[0152]步驟303,計(jì)算PU表中k_項(xiàng)集對應(yīng)的expSup和u。[0153]根據(jù)生成的各個(gè)PU表計(jì)算k-項(xiàng)集對應(yīng)的expSup即將PU表中的各個(gè)事務(wù)對應(yīng)的發(fā)生概率相加;而計(jì)算k-項(xiàng)集對應(yīng)的u即計(jì)算該k-項(xiàng)集對應(yīng)的Iutility.SUM。[0154]步驟304,當(dāng)?shù)趉-PU表中,k-項(xiàng)集的Iutility.SUM彡??*ε,且k-項(xiàng)集所在事務(wù)的發(fā)生概率之和彡IDI*μ時(shí),確定k-項(xiàng)集為高概率且高效用項(xiàng)集。[0155]由于k-項(xiàng)集的Iutility.SUM即k-項(xiàng)集的實(shí)際效用值u,k_項(xiàng)集所在事務(wù)的發(fā)生概率之和即k-項(xiàng)集的實(shí)際期望支持度expSup,所以當(dāng)?shù)趉-PU表中,k-項(xiàng)集的Iutility.SUM彡TU*ε且k-項(xiàng)集所在事務(wù)的發(fā)生概率之和彡|D|*μ時(shí),即可確定k-項(xiàng)集為高概率且高效用項(xiàng)集。[0156]步驟305,當(dāng)?shù)趉-PU表中,k-項(xiàng)集所在事務(wù)的發(fā)生概率之和彡|D|*y,確定該k_項(xiàng)集及其超集均不是高概率且高效用項(xiàng)集,并對k-項(xiàng)集進(jìn)行過濾。[0157]由于在第k-PU表中,k-項(xiàng)集所在事務(wù)的發(fā)生概率之和即k-項(xiàng)集對應(yīng)的實(shí)際期望支持度expSup,所以,當(dāng)k-項(xiàng)集所在事務(wù)的發(fā)生概率之和<|D|*μ,即k-項(xiàng)集對應(yīng)的實(shí)際期望支持度expSup<|D|*μ,可以確定該k-項(xiàng)集不是高概率項(xiàng)集,與得到步驟202中的推論1過程相似的,可以推出該k-項(xiàng)集的超集也不是高概率項(xiàng)集。[0158]顯而易見的,當(dāng)該k-項(xiàng)集不是高概率項(xiàng)集時(shí),該k-項(xiàng)集也不是高概率且高效用項(xiàng)集;當(dāng)該k-項(xiàng)集的超集不是高概率項(xiàng)集時(shí),該k-項(xiàng)集的超集也不是高概率且高效用項(xiàng)集。[0159]根據(jù)上述結(jié)論,當(dāng)確定第k-PU表中的k-項(xiàng)集不是高概率且高效用項(xiàng)集時(shí),即可對該k-項(xiàng)集進(jìn)行過濾,在后續(xù)根據(jù)第k-PU表生成第(k+1)-PU表的過程中,就不再需要生成該k-項(xiàng)集的超集對應(yīng)的第(k+1)-PU表,從而節(jié)約了計(jì)算資源。[0160]需要說明的是,當(dāng)對第k-PU表中的部分項(xiàng)集進(jìn)行過濾后,[0161]步驟306,當(dāng)?shù)趉_PU表中,k_項(xiàng)集的(Iutility.SUM+Rutility.SUM)<TU*ε,確定k-項(xiàng)集及其超集均不是高概率且高效用項(xiàng)集,并對k-項(xiàng)集進(jìn)行過濾。[0162]在第k-PU表中,存在推論3:當(dāng)?shù)趉-PU表中,k-項(xiàng)集的(Iutility.SUM+Rutility.SUM)<TU*ε,確定k-項(xiàng)集及其超集均不是高概率且高效用項(xiàng)集。推論3的證明可以如下。[0163][0164][0165].··inTq,[0166]Xk.Iutility=XkIutility+(Xk/XkIutility[0167]=XkIutility+Σ?e(Xk/Xk^1·1^111^[0168]彡Xk、Iutility+Σ?e(Tq/Xk31.Iutlllty[0169]=XkIutility+XkRutility[0170]···ineachTq,[0171]Xk.Iutility^XkIutility+XkRutility.[0178]=Xkx.Iutility.SUM+Xkx.Rutility.SUM.[0179]即Xk.Iutility.SUM<Xk、Iutility.SUM+Xk、Rutility.SUM,所以當(dāng)(k_l)-項(xiàng)集的(Iutility.SUM+Rutility.SUM)彡TU*ε時(shí),k-項(xiàng)集對應(yīng)的Iutility.SUM彡TU*ε,即k-項(xiàng)集不是高效用項(xiàng)集,顯而易見的,當(dāng)k-項(xiàng)集不是高效用項(xiàng)集時(shí),k-項(xiàng)集也不是高概率且高效用項(xiàng)集,推論3得證。[0180]所以當(dāng)?shù)趉_PU表中,k_項(xiàng)集的(Iutility.SUM+Rutility.SUM)<TU*ε,即可確定k-項(xiàng)集及其超集均不是高概率且高效用項(xiàng)集,即可對該k-項(xiàng)集進(jìn)行過濾,在后續(xù)根據(jù)第k-PU表生成第(k+l)-PU表的過程中,就不再需要生成該k-項(xiàng)集的超集對應(yīng)的第(k+l)-PU表,從而節(jié)約了計(jì)算資源。[0181]上述步驟304至步驟306即對生成的PU-表中的部分沒有前途的項(xiàng)集進(jìn)行過濾,僅保留有前途的項(xiàng)集。在執(zhí)行完上述步驟304至步驟306后,由于僅需要根據(jù)保留的有前途的項(xiàng)集生成相應(yīng)的PU-表,從而大大減少了最終生成的PU-表的數(shù)量。[0182]為了方便理解,結(jié)合表一、表二及圖3B對本實(shí)施例進(jìn)行說明。[0183]1、掃描不確定性數(shù)據(jù)庫后,得到的圖3B所示的第1-PU表,對應(yīng)的,生成了如圖3C所示的枚舉樹。該枚舉樹中包含第一級節(jié)點(diǎn)D、B、E、A和C,第二級節(jié)點(diǎn)DB、DE、DA、DC···,第三級節(jié)點(diǎn)DBE、DBA、DBC、DEA、DEC、DAC..·,第四級節(jié)點(diǎn)DBEA、DBEC、DBAC、DEAC..·,第五節(jié)點(diǎn)DBEAC〇[0184]2、第1-PU表中的第一個(gè)項(xiàng)集D對應(yīng)的Iutility.SUM=12+12+30+24+12=90<110.5,所以D不是一個(gè)高效用且高效率項(xiàng)集,但是D對應(yīng)的1此丨1^7.51]1+1?此丨1^7·SUM=90+1+18+32+20+48=209>110.5,且D的實(shí)際期望支持度expSup=0.7+0.75+0.7+0.45+0.81=3.41>1.5,所以D的超集中可能存在高效用且高效率項(xiàng)集。[0185]3、由于D的超集中可能存在高效用且高效率項(xiàng)集,所以進(jìn)一步根據(jù)第1-PU表生成相應(yīng)的第2-PU表。生成的DB、DE、DA和DC對應(yīng)的第2-PU表如表八所示。[0186]表八[0187][0188]4、由于DB對應(yīng)的Iutility.SUM+Rutility.SUM=13+15+25+0+15+19=87<110.5,所以DB及其超集均不是高效用且高效率項(xiàng)集,并將項(xiàng)集DB過濾。對應(yīng)的,在圖3C所示的枚舉樹中,第二級節(jié)點(diǎn)DB及其子節(jié)點(diǎn)被終止。[0189]由于DE對應(yīng)的Iutility.SUM+Rutility.SUM=27+39+0+4=70<110.5,所以DE及其超集均不是高效用且高效率項(xiàng)集,并將項(xiàng)集DE過濾。對應(yīng)的,在圖3C所示的枚舉樹中,第二級節(jié)點(diǎn)DE及其子節(jié)點(diǎn)被終止。[0190]由于DA對應(yīng)的Iutility.SUM=90<110.5,所以DA不是高效用且高效率項(xiàng)集;但是DA對應(yīng)的Iutility.SUM+Rutility.SUM=90+24+36=150>110.5,且DA對應(yīng)的實(shí)際期望支持度expSup=0.7+0.45+0.81=1.96>1.5,所以DA的超集中可能存在高效用且高效率項(xiàng)集。相應(yīng)的,根據(jù)DA和DC對應(yīng)的第2-PU表生成DAC對應(yīng)的第3-PU表。[0191]由于DC對應(yīng)的Iutility.SUM+Rutility.SUM=54+48=102<110.5,所以DC不是高效用且高效率項(xiàng)集,并將項(xiàng)集DC過濾。對應(yīng)的,在圖3C所示的枚舉樹中,第二級節(jié)點(diǎn)DC被終止。[0192]5、經(jīng)過上述步驟,僅生成了DAC對應(yīng)的第3-PU表,該第3-PU表如表九所示。[0193]表九[0194][0195]由于DAC對應(yīng)的Iutility.SUM=62+60=122>110.5,且DAC對應(yīng)的實(shí)際期望支持度expSup=0.7+0.81=1.51>1.5,所以DAC為高效用且高效率項(xiàng)集。[0196]6、與上述步驟相似的,依次對B、E、A和C進(jìn)行判斷,直到查找出所有高效用且高效率項(xiàng)集。[0197]綜上所述,本實(shí)施例提供的項(xiàng)集挖掘方法,通過從不確定性數(shù)據(jù)庫中挖掘出實(shí)際期望支持度大于最小期望支持度,且實(shí)際效用值大于最低效用的高概率且高效用項(xiàng)集;解決了現(xiàn)有的基于ΗΙΠΜ的算法由于未考慮事務(wù)的發(fā)生概率,導(dǎo)致挖掘出實(shí)際使用價(jià)值較低的項(xiàng)集的問題;達(dá)到了挖掘出的項(xiàng)集效用值較高,且發(fā)生概率較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果。[0198]本實(shí)施例還通過對生成的表中的沒有前途的項(xiàng)集進(jìn)行過濾,并根據(jù)剩余的有前途的項(xiàng)集生成對應(yīng)超集的PU表,使得數(shù)據(jù)挖掘過程中只需要掃描一次不確定性數(shù)據(jù)庫,并生成第1-PU表,并需要根據(jù)該第1-PU表生成后續(xù)的PU表,不僅減少了掃描不確定性數(shù)據(jù)庫的次數(shù),而且通過縮小所要挖掘數(shù)據(jù)的范圍,提高了挖掘的速度,節(jié)約了計(jì)算資源。[0199]本實(shí)施例還根據(jù)HJ表檢測對應(yīng)的項(xiàng)集是否有前途,并對沒有前途的項(xiàng)集進(jìn)行過濾,從而減少了后續(xù)生成的PU表數(shù)量,達(dá)到了節(jié)約計(jì)算資源,提高挖掘速度的效果。[0200]本實(shí)施例提供的項(xiàng)集挖掘方法,可以通過HPUI-List算法實(shí)現(xiàn),該算法的偽代碼可以如下所示。[0201]Input:D,uncertaindatabases;ptable,aprofittable;ε,minimumutilitythreshold;μ,minimumexpectedsupportthreshold.//輸入:不確定性數(shù)據(jù)庫D;效用表;ε;μ[0202]Output:Thesetofhighprobability-utilityitemsets(HPUIs)·//輸出:高概率且高效用項(xiàng)集。[0203][0205]上述算法中,步驟1為掃描不確定性數(shù)據(jù)庫,找到高事務(wù)權(quán)重且高概率且高效用1-項(xiàng)集;步驟2至6為根據(jù)高事務(wù)權(quán)重且高概率且高效用1-項(xiàng)集生成第1PU表;步驟8至11為從第1HJ表中挖掘高概率且高效用項(xiàng)集;步驟12至20則是根據(jù)第1PU表生成后續(xù)的PU表,并從生成的PU表中挖掘高概率且高效用項(xiàng)集。[0206]另外,在實(shí)現(xiàn)本實(shí)施例的過程中,還包括根據(jù)k_項(xiàng)集對應(yīng)的第k-PU表生成(k+Ι)-項(xiàng)集對應(yīng)的第(k+1)-PU表的過程,對應(yīng)上述步驟302B。該過程對應(yīng)算法的偽代碼如下。[0207]Input:X,anitemset;X.PUListhePU-listofX;Xab.PUL,Xa.PUL,Xb.PUL,XQXandXa6=Xb.//輸入:項(xiàng)集X;X對應(yīng)的PU表;Xab對應(yīng)的PU表;Xa對應(yīng)的HJ表;Xb對應(yīng)的PU表,Xa、Xb均是X的子集,且XXb[0208]Output:Xab.PUL.//輸出:父4的PU表[0209][0210][0211]請參考圖4,其示出了本發(fā)明一個(gè)實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖,該項(xiàng)集挖掘裝置,包括:[0212]獲取模塊401,用于獲取自定義的最小期望支持度μ和最低效用比例ε;[0213]計(jì)算模塊402,用于計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的期望支持度expSup和實(shí)際效用值u,項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);[0214]第一確定模塊403,用于當(dāng)expSup彡|D|*μ,且u彡總效用值TU*ε時(shí),確定項(xiàng)集為高概率且高效用項(xiàng)集;TU表示不確定性數(shù)據(jù)庫d中所有數(shù)據(jù)項(xiàng)的效用之和;ID|表示不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。[0215]綜上所述,本實(shí)施例提供的項(xiàng)集挖掘裝置,通過從不確定性數(shù)據(jù)庫中挖掘出實(shí)際期望支持度大于最小期望支持度,且實(shí)際效用值大于最低效用的高概率且高效用項(xiàng)集;解決了現(xiàn)有的基于ΗΙΠΜ的算法由于未考慮事務(wù)的發(fā)生概率,導(dǎo)致挖掘出實(shí)際使用價(jià)值較低的項(xiàng)集的問題;達(dá)到了挖掘出的項(xiàng)集效用值較高,且實(shí)際期望支持度較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果。[0216]請參考圖5,其示出了本發(fā)明另一實(shí)施例提供的項(xiàng)集挖掘裝置的結(jié)構(gòu)方框圖,該項(xiàng)集挖掘裝置,包括:[0217]獲取模塊501,用于獲取自定義的最小期望支持度μ和最低效用比例ε;[0218]計(jì)算模塊502,用于計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的期望支持度expSup和實(shí)際效用值u,項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);[0219]第一確定模塊503,用于當(dāng)expSup彡|D|*μ,且u彡總效用值TU*ε時(shí),確定項(xiàng)集為高概率且高效用項(xiàng)集;TU表示不確定性數(shù)據(jù)庫d中所有數(shù)據(jù)項(xiàng)的效用之和;ID|表示不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。[0220]作為第一種可能的實(shí)現(xiàn)方式,計(jì)算模塊502,包括:[0221]第一計(jì)算單元502A,用于對于一個(gè)項(xiàng)集,計(jì)算包含項(xiàng)集的事務(wù)各自對應(yīng)的發(fā)生概率之和,得到項(xiàng)集對應(yīng)的expSup;[0222]第二計(jì)算單元502B,用于將包含項(xiàng)集的事務(wù)中項(xiàng)集所對應(yīng)的效用值相加,得到項(xiàng)集對應(yīng)的u。[0223]作為第二種可能的實(shí)現(xiàn)方式,計(jì)算模塊502,包括:[0224]第一掃描單元502C,用于掃描不確定性數(shù)據(jù)庫D,將不確定性數(shù)據(jù)庫D中事務(wù)權(quán)重效用TWU彡TU*ε且expSup彡|D|*μ的k-項(xiàng)集確定為候選項(xiàng)集,TWU表示包含項(xiàng)集的事務(wù)對應(yīng)的效用值之和,k-項(xiàng)集中包含k個(gè)數(shù)據(jù)項(xiàng),k彡1;[0225]第二掃描單元502D,用于再次掃描不確定性數(shù)據(jù)庫D,計(jì)算候選項(xiàng)集中的各個(gè)項(xiàng)集對應(yīng)的u。[0226]可選地,第一掃描單元502C,包括:[0227]第一添加子單元502Ca,用于掃描不確定性數(shù)據(jù)庫D,獲取TWU彡TU*ε且expSup彡|D|*μ的k-項(xiàng)集,并將k項(xiàng)集添加到第k候選項(xiàng)集;[0228]生成子單元502Cb,用于當(dāng)?shù)趉候選項(xiàng)集不為空時(shí),根據(jù)第k候選項(xiàng)集中的k-項(xiàng)集自連接生成(k+l)_項(xiàng)集,(k+l)_項(xiàng)集是k-項(xiàng)集的超集,(k+l)_項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;[0229]第二添加子單元502Cc,用于掃描不確定性數(shù)據(jù)庫D,獲?。╧+l)_項(xiàng)集中TWU彡TU*ε且expSup彡|D|*μ的項(xiàng)集,并將項(xiàng)集添加到第k+Ι候選項(xiàng)集。[0230]可選地,第一確定模塊503,包括:[0231]第一確定單元503A,用于將候選項(xiàng)集中,所述expSup彡|?|*μ且u彡TU*ε的項(xiàng)集確定為高概率且高效用項(xiàng)集。[0232]作為第三種可能的實(shí)現(xiàn)方式,計(jì)算模塊502,包括:[0233]構(gòu)建單元502Ε,用于構(gòu)建概率效用PU表,PU表包含k-項(xiàng)集所在事務(wù)的編號TID、項(xiàng)集所在事務(wù)對應(yīng)的發(fā)生概率、k_項(xiàng)集在事務(wù)中的項(xiàng)集效用Iutility以及k_項(xiàng)集在事務(wù)中的項(xiàng)集剩余效用Rutility,項(xiàng)集剩余效用Rutility表示事務(wù)中除k-項(xiàng)集以外的其它數(shù)據(jù)項(xiàng)的效用和,k-項(xiàng)集包含k個(gè)數(shù)據(jù)項(xiàng),k彡1;[0234]第三計(jì)算單元502F,用于計(jì)算PU表中k-項(xiàng)集對應(yīng)的expSup和u。[0235]可選地,構(gòu)建單元502E,包括:[0236]第一構(gòu)建子單元502Ea,用于掃描不確定性數(shù)據(jù)庫D,構(gòu)建第1-PU表,第1-PU表包括1-項(xiàng)集對應(yīng)的TID、發(fā)生概率、Iutility和Rutility;[0237]或,[0238]第二構(gòu)建子單元502Eb,用于在第k-PU表中,當(dāng)(項(xiàng)集效用和Iutility.SUM+項(xiàng)集剩余效用和Rutility.SUM)彡TU*e,且k-項(xiàng)集所在事務(wù)的發(fā)生概率之和彡|D|*μ時(shí),根據(jù)第k-PU表遞歸生成第(k+l)-PU表,第(k+l)-PU表中的(k+l)_項(xiàng)集為k項(xiàng)集的超集;Iutility.SUM表不k_項(xiàng)集在不同事務(wù)中Iutility之和;Rutility.SUM表不k_項(xiàng)集在不同事務(wù)中Rutility之和。[0239]可選地,第一確定模塊503,包括:[0240]第二確定單元503B,用于當(dāng)?shù)趉-PU表中,k-項(xiàng)集的Iutility.SUM彡??*ε,且k-項(xiàng)集所在事務(wù)的發(fā)生概率之和彡所述IDI*μ時(shí),確定k-項(xiàng)集為高概率且高效用項(xiàng)集。[0241]可選地,該裝置,還包括:[0242]第二確定模塊504,用于當(dāng)?shù)趉-PU表中,k-項(xiàng)集的(111衍1^7.3通+此衍1^7·SUM)<TU*ε,確定k-項(xiàng)集及其超集均不是高概率且高效用項(xiàng)集,并對k-項(xiàng)集進(jìn)行過濾;[0243]或,[0244]第三確定模塊505,用于當(dāng)?shù)趉-PU表中,k-項(xiàng)集所在事務(wù)的發(fā)生概率之和<|D|*μ,確定k-項(xiàng)集及其超集均不是高概率且高效用項(xiàng)集,并對k-項(xiàng)集進(jìn)行過濾。[0245]綜上所述,本實(shí)施例提供的項(xiàng)集挖掘裝置,通過從不確定性數(shù)據(jù)庫中挖掘出實(shí)際期望支持度大于最小期望支持度,且實(shí)際效用值大于最低效用的高概率且高效用項(xiàng)集;解決了現(xiàn)有的基于ΗΙΠΜ的算法由于未考慮事務(wù)的發(fā)生概率,導(dǎo)致挖掘出實(shí)際使用價(jià)值較低的項(xiàng)集的問題;達(dá)到了挖掘出的項(xiàng)集效用值較高,且實(shí)際期望支持度較大,從而保證挖掘出的項(xiàng)集具有較高的實(shí)際使用價(jià)值的效果。[0246]本實(shí)施還通過多次掃描不確定性數(shù)據(jù)庫,獲取多個(gè)候選項(xiàng)集,并將候選項(xiàng)集中expSup彡|D|*y且u彡TU*ε的項(xiàng)集確定為高概率且高效用項(xiàng)集,達(dá)到了加快挖掘速度,節(jié)約計(jì)算資源的效果。[0247]本實(shí)施例還通過對生成的表中的沒有前途的項(xiàng)集進(jìn)行過濾,并根據(jù)剩余的有前途的項(xiàng)集生成對應(yīng)超集的PU表,使得數(shù)據(jù)挖掘過程中只需要掃描一次不確定性數(shù)據(jù)庫,并生成第1-PU表,并需要根據(jù)該第1-PU表生成后續(xù)的PU表,不僅減少了掃描不確定性數(shù)據(jù)庫的次數(shù),而且通過縮小所要挖掘數(shù)據(jù)的范圍,提高了挖掘的速度,節(jié)約了計(jì)算資源。[0248]本實(shí)施例還根據(jù)表檢測對應(yīng)的項(xiàng)集是否有前途,并對沒有前途的項(xiàng)集進(jìn)行過濾,從而減少了后續(xù)生成的PU表數(shù)量,達(dá)到了節(jié)約計(jì)算資源,提高挖掘速度的效果。[0249]需要說明的是:上述實(shí)施例提供的項(xiàng)集挖掘裝置在進(jìn)行項(xiàng)集挖掘時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的項(xiàng)集挖掘裝置與項(xiàng)集挖掘方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。[0250]應(yīng)當(dāng)理解的是,在本文中使用的,除非上下文清楚地支持例外情況,單數(shù)形式"一個(gè)"("a"、"an"、"the")旨在也包括復(fù)數(shù)形式。還應(yīng)當(dāng)理解的是,在本文中使用的"和/或"是指包括一個(gè)或者一個(gè)以上相關(guān)聯(lián)地列出的項(xiàng)目的任意和所有可能組合。[0251]上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。[0252]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。[0253]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。【主權(quán)項(xiàng)】1.一種項(xiàng)集挖掘方法,其特征在于,所述方法包括:獲取自定義的最小期望支持度μ和最低效用比例ε;計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,所述項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);當(dāng)所述expSup彡|D|*μ,且所述u彡總效用值TU*ε時(shí),確定所述項(xiàng)集為高概率且高效用項(xiàng)集;所述TU表示所述不確定性數(shù)據(jù)庫D中所有數(shù)據(jù)項(xiàng)的效用之和;所述|D|表示所述不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,包括:對于一個(gè)項(xiàng)集,計(jì)算包含所述項(xiàng)集的事務(wù)各自對應(yīng)的發(fā)生概率之和,得到所述項(xiàng)集對應(yīng)的所述expSup;將包含所述項(xiàng)集的事務(wù)中所述項(xiàng)集所對應(yīng)的效用值相加,得到所述項(xiàng)集對應(yīng)的所述u。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,包括:掃描所述不確定性數(shù)據(jù)庫D,將所述不確定性數(shù)據(jù)庫D中事務(wù)權(quán)重效用TWU多所述TU*ε且所述expSup多所述IDI*μ的k-項(xiàng)集確定為候選項(xiàng)集,所述TWU表示包含所述項(xiàng)集的事務(wù)對應(yīng)的效用值之和,所述k-項(xiàng)集中包含k個(gè)數(shù)據(jù)項(xiàng),k多1;再次掃描所述不確定性數(shù)據(jù)庫D,計(jì)算所述候選項(xiàng)集中的各個(gè)項(xiàng)集對應(yīng)的所述u。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述掃描所述不確定性數(shù)據(jù)庫D,將所述不確定性數(shù)據(jù)庫D中事務(wù)權(quán)重效用TWU彡所述TU*ε且所述expSup彡所述|D|*μ的k-項(xiàng)集確定為候選項(xiàng)集,包括:掃描所述不確定性數(shù)據(jù)庫D,獲取所述TWU多所述TU*ε且所述expSup多所述|D|*μ的k-項(xiàng)集,并將所述k項(xiàng)集添加到第k候選項(xiàng)集;當(dāng)所述第k候選項(xiàng)集不為空時(shí),根據(jù)所述第k候選項(xiàng)集中的所述k-項(xiàng)集自連接生成(k+1)-項(xiàng)集,所述(k+1)-項(xiàng)集是所述k-項(xiàng)集的超集,所述(k+1)-項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;掃描所述不確定性數(shù)據(jù)庫D,獲取所述(k+l)_項(xiàng)集中所述TWU多所述Τυ*ε且所述expSup彡所述|D|*μ的項(xiàng)集,并將所述項(xiàng)集添加到第k+Ι候選項(xiàng)集。5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述當(dāng)所述expSup多|D|*μ,且所述u彡總效用值TU*ε時(shí),確定所述項(xiàng)集為高概率且高效用項(xiàng)集,包括:將所述候選項(xiàng)集中,所述expSup彡所述|D|*μ且所述u彡所述TU*ε的項(xiàng)集確定為所述高概率且高效用項(xiàng)集。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,包括:構(gòu)建概率效用PU表,所述PU表包含k-項(xiàng)集所在事務(wù)的編號TID、所述k-項(xiàng)集所在事務(wù)對應(yīng)的發(fā)生概率、所述k-項(xiàng)集在事務(wù)中的項(xiàng)集效用Iutility以及所述k-項(xiàng)集在事務(wù)中的項(xiàng)集剩余效用Rutility,所述項(xiàng)集剩余效用Rutility表示事務(wù)中除所述k-項(xiàng)集以外的其它數(shù)據(jù)項(xiàng)的效用和,所述k-項(xiàng)集包含k個(gè)數(shù)據(jù)項(xiàng),k多1;計(jì)算所述PU表中所述k-項(xiàng)集對應(yīng)的所述expSup和所述u。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述構(gòu)建概率效用PU表,包括:掃描所述不確定性數(shù)據(jù)庫D,構(gòu)建第1-PU表,所述第1-PU表包括1-項(xiàng)集對應(yīng)的所述TID、所述發(fā)生概率、所述Iutility和所述Rutility;或,在第k-PU表中,當(dāng)(項(xiàng)集效用和Iutility.SUM+項(xiàng)集剩余效用和Rutility.SUM)彡所述Τυ*ε,且所述k-項(xiàng)集所在事務(wù)的所述發(fā)生概率之和多所述|D|*y時(shí),根據(jù)所述第k-PU表遞歸生成第(k+l)-PU表,所述第(k+l)-PU表中的(k+l)_項(xiàng)集為所述k項(xiàng)集的超集;所述Iutility.SUM表示所述k_項(xiàng)集在不同事務(wù)中所述Iutility之和;所述Rutility.SUM表示所述k-項(xiàng)集在不同事務(wù)中所述Rutility之和。8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述當(dāng)所述expSup多|D|*μ,且所述u彡總效用值TU*ε時(shí),確定所述項(xiàng)集為高概率且高效用項(xiàng)集,包括:當(dāng)所述第k-PU表中,所述k-項(xiàng)集的所述Iutility.SUM多TU*ε,且所述k-項(xiàng)集所在事務(wù)的所述發(fā)生概率之和彡所述|D|*y時(shí),確定所述k-項(xiàng)集為所述高概率且高效用項(xiàng)集。9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法,還包括:當(dāng)所述第k_PU表中,所述k-項(xiàng)集的(所述Iutility.SUM+所述Rutility.SUM)<所述TU*ε,確定所述k-項(xiàng)集及其超集均不是所述高概率且高效用項(xiàng)集,并對所述k-項(xiàng)集進(jìn)行過濾;或,當(dāng)所述第k-PU表中,所述k-項(xiàng)集所在事務(wù)的所述發(fā)生概率之和<所述|D|*μ,確定所述k-項(xiàng)集及其超集均不是所述高概率且高效用項(xiàng)集,并對所述k-項(xiàng)集進(jìn)行過濾。10.-種項(xiàng)集挖掘裝置,其特征在于,所述裝置包括:獲取模塊,用于獲取自定義的最小期望支持度μ和最低效用比例ε;計(jì)算模塊,用于計(jì)算不確定性數(shù)據(jù)庫D中項(xiàng)集的實(shí)際期望支持度expSup和實(shí)際效用值u,所述項(xiàng)集中包含至少一個(gè)數(shù)據(jù)項(xiàng);第一確定模塊,用于當(dāng)所述expSup彡|D|*μ,且所述u彡總效用值??*ε時(shí),確定所述項(xiàng)集為高概率且高效用項(xiàng)集;所述TU表示所述不確定性數(shù)據(jù)庫D中所有數(shù)據(jù)項(xiàng)的效用之和;所述|DI表示所述不確定性數(shù)據(jù)庫D中包含的事務(wù)總數(shù)。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述計(jì)算模塊,包括:第一計(jì)算單元,用于對于一個(gè)項(xiàng)集,計(jì)算包含所述項(xiàng)集的事務(wù)各自對應(yīng)的發(fā)生概率之和,得到所述項(xiàng)集對應(yīng)的所述expSup;第二計(jì)算單元,用于將包含所述項(xiàng)集的事務(wù)中所述項(xiàng)集所對應(yīng)的效用值相加,得到所述項(xiàng)集對應(yīng)的所述u。12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述計(jì)算模塊,包括:第一掃描單元,用于掃描所述不確定性數(shù)據(jù)庫D,將所述不確定性數(shù)據(jù)庫D中事務(wù)權(quán)重效用TWU彡所述TU*ε且所述expSup彡所述IDI*μ的k-項(xiàng)集確定為候選項(xiàng)集,所述TWU表示包含所述項(xiàng)集的事務(wù)對應(yīng)的效用值之和,所述k-項(xiàng)集中包含k個(gè)數(shù)據(jù)項(xiàng),k多1;第二掃描單元,用于再次掃描所述不確定性數(shù)據(jù)庫D,計(jì)算所述候選項(xiàng)集中的各個(gè)項(xiàng)集對應(yīng)的所述u。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第一掃描單元,包括:第一添加子單元,用于掃描所述不確定性數(shù)據(jù)庫D,獲取所述TWU多所述TU*ε且所述expSup彡所述|D|*μ的k-項(xiàng)集,并將所述k項(xiàng)集添加到第k候選項(xiàng)集;生成子單元,用于當(dāng)所述第k候選項(xiàng)集不為空時(shí),根據(jù)所述第k候選項(xiàng)集中的所述k_項(xiàng)集自連接生成(k+l)_項(xiàng)集,所述(k+l)_項(xiàng)集是所述k-項(xiàng)集的超集,所述(k+l)_項(xiàng)集是包含k+Ι個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;第二添加子單元,用于掃描所述不確定性數(shù)據(jù)庫D,獲取所述(k+Ι)-項(xiàng)集中所述TWU多所述TU*ε且所述expSup彡所述IDI*μ的項(xiàng)集,并將所述項(xiàng)集添加到第k+Ι候選項(xiàng)集。14.根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述第一確定模塊,包括:第一確定單元,用于將所述候選項(xiàng)集中,所述expSup多所述|?|*μ且所述u多所述TU*ε的項(xiàng)集確定為所述高概率且高效用項(xiàng)集。15.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述計(jì)算模塊,包括:構(gòu)建單元,用于構(gòu)建概率效用表,所述PU表包含k-項(xiàng)集所在事務(wù)的編號TID、所述k_項(xiàng)集所在事務(wù)對應(yīng)的發(fā)生概率、所述k-項(xiàng)集在事務(wù)中的項(xiàng)集效用Iutility以及所述k_項(xiàng)集在事務(wù)中的項(xiàng)集剩余效用Rutility,所述項(xiàng)集剩余效用Rutility表示事務(wù)中除所述k-項(xiàng)集以外的其它數(shù)據(jù)項(xiàng)的效用和,所述k-項(xiàng)集包含k個(gè)數(shù)據(jù)項(xiàng),k多1;第三計(jì)算單元,用于計(jì)算所述PU表中所述k-項(xiàng)集對應(yīng)的所述expSup和所述u。16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述構(gòu)建單元,包括:第一構(gòu)建子單元,用于掃描所述不確定性數(shù)據(jù)庫D,構(gòu)建第1-PU表,所述第1-PU表包括卜項(xiàng)集對應(yīng)的所述TID、所述發(fā)生概率、所述Iutility和所述Rutility;或,第二構(gòu)建子單元,用于在第k-PU表中,當(dāng)(項(xiàng)集效用和Iutility.SUM+項(xiàng)集剩余效用和Rutility.SUM)多所述TU*ε,且所述k-項(xiàng)集所在事務(wù)的所述發(fā)生概率之和多所述D|*y時(shí),根據(jù)所述第k-PU表遞歸生成第(k+l)-PU表,所述第(k+l)-PU表中的(k+Ι)-項(xiàng)集為所述k項(xiàng)集的超集;所述Iutility.SUM表示所述k-項(xiàng)集在不同事務(wù)中所述Iutility之和;所述Rutility.SUM表示所述k-項(xiàng)集在不同事務(wù)中所述Rutility之和。17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述第一確定模塊,包括:第二確定單元,用于當(dāng)所述第k-PU表中,所述k-項(xiàng)集的所述Iutility.SUM彡TU*ε,且所述k-項(xiàng)集所在事務(wù)的所述發(fā)生概率之和多所述|D|*y時(shí),確定所述k-項(xiàng)集為所述高概率且高效用項(xiàng)集。18.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述裝置,還包括:第二確定模塊,用于當(dāng)所述第k-PU表中,所述k-項(xiàng)集的(所述Iutility.SUM+所述Rutility.SUM)<所述TU*ε,確定所述k-項(xiàng)集及其超集均不是所述高概率且高效用項(xiàng)集,并對所述k-項(xiàng)集進(jìn)行過濾;或,第三確定模塊,用于當(dāng)所述第k-PU表中,所述k-項(xiàng)集所在事務(wù)的所述發(fā)生概率之和<所述|D|*μ,確定所述k-項(xiàng)集及其超集均不是所述高概率且高效用項(xiàng)集,并對所述k-項(xiàng)集進(jìn)行過濾。【文檔編號】G06F17/30GK106033447SQ201510115234【公開日】2016年10月19日【申請日】2015年3月16日【發(fā)明人】林?,|,賴曉平,李勇,王巨宏,甘文生【申請人】哈爾濱工業(yè)大學(xué)深圳研究生院,深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
阳谷县| 秦安县| 衡东县| 苍南县| 南皮县| 阿瓦提县| 景谷| 宜昌市| 齐齐哈尔市| 垣曲县| 莱西市| 罗田县| 行唐县| 崇明县| 黄梅县| 建德市| 临颍县| 金寨县| 怀柔区| 临沧市| 武夷山市| 乐陵市| 英超| 东至县| 蒙城县| 枣阳市| 远安县| 余庆县| 禄劝| 千阳县| 巨鹿县| 嘉祥县| 武陟县| 牡丹江市| 台安县| 房山区| 开平市| 岳西县| 西宁市| 依安县| 龙口市|