欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

有趣項集獲取方法和裝置的制造方法

文檔序號:8922775閱讀:359來源:國知局
有趣項集獲取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種有趣項集獲取方法和裝置。
【背景技術(shù)】
[0002] 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘技術(shù)中研究的熱點之一。通過對大型事務(wù)集進(jìn)行關(guān)聯(lián)規(guī) 則挖掘,可以挖掘出隱藏在該大型事務(wù)集中不同項之間的關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則可以應(yīng) 用于電子商務(wù)推薦、購物籃分析等多種領(lǐng)域。
[0003] 關(guān)聯(lián)規(guī)則挖掘算法中一般使用"支持度-置信度"框架,挖掘出支持度不小于支持 度閾值的候選項集,再基于這些候選項集,挖掘出置信度不小于置信度閾值的關(guān)聯(lián)規(guī)則。但 是,這種方法容易產(chǎn)生沒有實際應(yīng)用價值的"干擾性"的關(guān)聯(lián)規(guī)則,具有一定的局限性。例 如,對于"茶"和"咖啡"兩個項來說,通過對事務(wù)集進(jìn)行挖掘后,得到關(guān)聯(lián)規(guī)則"不買茶,則 不買咖啡",該否定式的關(guān)聯(lián)規(guī)則沒有實際應(yīng)用價值。
[0004] 為了彌補(bǔ)"支持度-置信度"框架的不足,引入了興趣度,以修剪具有"干擾性"的 關(guān)聯(lián)規(guī)則。該興趣度用于在挖掘出關(guān)聯(lián)規(guī)則之后,對關(guān)聯(lián)規(guī)則進(jìn)行評價和過濾。但是,對于 被過濾掉的項集來說,在挖掘關(guān)聯(lián)規(guī)則的過程中仍然需要計算該項集的支持度和置信度, 增加了冗余的計算量,極大地降低了效率。

【發(fā)明內(nèi)容】

[0005] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提供了一種有趣項集獲取方法和裝置。 所述技術(shù)方案如下:
[0006] 第一方面,提供了一種有趣項集獲取方法,所述方法包括:
[0007] 掃描待分析的事務(wù)集,得到所述事務(wù)集中的每個項目,并計算每個項目的支持度, 所述事務(wù)集包括多個事務(wù),每個事務(wù)包括至少一個項目;
[0008] 基于每個項目的支持度,得到多個候選項集;
[0009] 對于每個候選項集,計算所述候選項集的支持度和余弦相似度;
[0010] 判斷所述候選項集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷所述候選項集的 支持度是否大于第二預(yù)設(shè)閾值;
[0011] 當(dāng)所述候選項集的余弦相似度大于所述第一預(yù)設(shè)閾值,且所述候選項集的支持度 大于所述第二預(yù)設(shè)閾值時,將所述候選項集作為有趣項集。
[0012] 第二方面,提供了一種有趣項集獲取裝置,所述裝置包括:
[0013] 掃描模塊,用于掃描待分析的事務(wù)集,得到所述事務(wù)集中的每個項目,并計算每個 項目的支持度,所述事務(wù)集包括多個事務(wù),每個事務(wù)包括至少一個項目;
[0014] 候選項集獲取模塊,用于基于每個項目的支持度,得到多個候選項集;
[0015] 計算模塊,用于對于每個候選項集,計算所述候選項集的支持度和余弦相似度;
[0016] 判斷模塊,用于判斷所述候選項集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷 所述候選項集的支持度是否大于第二預(yù)設(shè)閾值;
[0017] 有趣項集獲取模塊,用于當(dāng)所述候選項集的余弦相似度大于所述第一預(yù)設(shè)閾值, 且所述候選項集的支持度大于所述第二預(yù)設(shè)閾值時,將所述候選項集作為有趣項集。
[0018] 本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0019] 本發(fā)明實施例提供的方法和裝置,通過定義項集的余弦相似度,在獲取有趣項集 的過程中,計算候選項集的支持度和余弦相似度,通過判斷該候選項集的余弦相似度是否 大于第一預(yù)設(shè)閾值,并判斷該候選項集的支持度是否大于第二預(yù)設(shè)閾值,對候選項集進(jìn)行 過濾。與使用"支持度-置信度"框架挖掘出關(guān)聯(lián)規(guī)則再使用興趣度進(jìn)行過濾相比,應(yīng)用余 弦相似度這一客觀興趣度和支持度,能夠在挖掘有趣項集的同時,對候選項集進(jìn)行評價和 過濾,以修剪"干擾性"的候選項集,無需計算出所有候選項集的支持度和置信度后再進(jìn)行 過濾,降低了計算量,提高了挖掘效率。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0021] 圖1是本發(fā)明實施例提供的一種有趣項集獲取方法的流程圖;
[0022] 圖2是本發(fā)明實施例提供的一種有趣項集獲取方法的流程圖;
[0023] 圖3是本發(fā)明實施例提供的項集枚舉樹形圖;
[0024] 圖4是本發(fā)明實施例提供的一種有趣項集獲取裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0025] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā) 明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明保護(hù)的范圍。
[0026] 圖1是本發(fā)明實施例提供的一種有趣項集獲取方法的流程圖,參見圖1,所述方法 包括:
[0027] 101、掃描待分析的事務(wù)集,得到該事務(wù)集中的每個項目,并計算每個項目的支持度。
[0028] 102、基于每個項目的支持度,得到多個候選項集。
[0029] 103、對于每個候選項集,計算該候選項集的支持度和余弦相似度。
[0030] 104、判斷該候選項集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷該候選項集的 支持度是否大于第二預(yù)設(shè)閾值。
[0031] 105、當(dāng)該候選項集的余弦相似度大于該第一預(yù)設(shè)閾值,且該候選項集的支持度大 于該第二預(yù)設(shè)閾值時,將該候選項集作為有趣項集。
[0032] 本發(fā)明實施例提供的方法,通過定義項集的余弦相似度,在獲取有趣項集的過程中,計 算候選項集的支持度和余弦相似度,通過判斷該候選項集的余弦相似度是否大于第一預(yù)設(shè)閾值, 并判斷該候選項集的支持度是否大于第二預(yù)設(shè)閾值,對候選項集進(jìn)行過濾。與使用"支持度-置 信度"框架挖掘出關(guān)聯(lián)規(guī)則再使用興趣度進(jìn)行過濾相比,應(yīng)用余弦相似度這一客觀興趣度和支持 度,能夠在挖掘有趣項集的同時,對候選項集進(jìn)行評價和過濾,以修剪"干擾性"的候選項集,無需 計算出所有候選項集的支持度和置信度后再進(jìn)行過濾,降低了計算量,提高了挖掘效率。
[0033] 可選地,計算該候選項集的支持度和余弦相似度包括:
[0034] 獲取該事務(wù)集包含的事務(wù)數(shù)目,并獲取該候選項集中的每個項目在該事務(wù)集中同 時出現(xiàn)的次數(shù);
[0035] 根據(jù)該事務(wù)數(shù)目以及該候選項集中每個項目在該事務(wù)集中同時出現(xiàn)的次數(shù),計算 該候選項集的支持度;
[0036] 根據(jù)該候選項集的支持度以及該候選項集中每個項目的支持度,應(yīng)用以下公式計 算該候選項集的余弦相似度:
[0038] 其中,X為該候選項集,XHii,i2, . . .,iK},K為該候選項集的寬度,K彡2, k=l,2,...K,cos(X)為該候選項集的余弦相似度,supp(X)為該候選項集的支持度, supp({ik})為該候選項集中項目ik的支持度。
[0039] 可選地,基于每個項目的支持度,得到多個候選項集包括:
[0040] 將每個項目所構(gòu)成的項集分別作為候選項集。
[0041] 可選地,該方法還包括:
[0042] 當(dāng)該第一候選項集的余弦相似度大于該第一預(yù)設(shè)閾值,且該第一候選項集的支持 度大于該第二預(yù)設(shè)閾值時,將該第一候選項集的直接超集作為該第二候選項集,繼續(xù)執(zhí)行 計算該第二候選項集的支持度和余弦相似度的步驟;
[0043] 其中,在該第一候選項集的直接超集與該第一候選項集的差集中,每個項目的支 持度均大于該第一候選項集中每個項目的支持度。
[0044] 可選地,將該第一候選項集的直接超集作為該第二候選項集包括:
[0045] 從不屬于該第一候選項集的項目中選取第一項目,該第一項目的支持度大于該第 一候選項集中每個項目的支持度;
[0046] 將該第一候選項集與該第一項目合并后的項集作為該第二候選項集。
[0047] 可選地,判斷該候選項集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷該候選項 集的支持度是否大于第二預(yù)設(shè)閾值之后,該方法還包括:
[0048] 當(dāng)該候選項集的余弦相似度不大于該第一預(yù)設(shè)閾值時,過濾該候選項集的直接超 集和該候選項集;
[0049] 當(dāng)該候選項集的支持度不大于該第二預(yù)設(shè)閾值時,過濾該候選項集的超集和該候 選項集;
[0050] 其中,在該候選項集的直接超集與該候選項集的差集中,每個項目的支持度均大 于該候選項集中每個項目的支持度。
[0051] 可選地,余弦相似度具有如下的條件反單調(diào)性:
[0052] 對于任意的項集X和Y,滿足.
,當(dāng) 8即卩({;[})〈8即卩({;['})時,(30800>(308(¥);
[0053] 其中,i為項集X中的任一項,i'為項集Y與項集X的差集中的任一項,supp({i}) 為i的支持度,supp(U'})為i'的支持度,cos(X)為項集X的余弦相似度,cos(Y)為項集Y的余弦相似度。
[0054] 上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實施例,在此不再 --贅述。
[0055] 圖2是本發(fā)明實施例提供的一種有趣項集獲取方法的流程圖,參見圖2,所述方法 包括:
[0056] 201、掃描待分析的事務(wù)集,得到該事務(wù)集中的每個項目。
[0057] 其中,該事務(wù)集包括多個事務(wù),每個事務(wù)包括至少一個項目,則一個事務(wù)可以看作 一個項集。例如,該事務(wù)集可以根據(jù)用戶選擇物品的行為生成,一個用戶一次可以選擇多種 物品,用戶的一次選擇行為構(gòu)成一個事務(wù),此次用戶所選擇的至少一種物品即為該事務(wù)包 括的至少一個項目。
[0058] 該事務(wù)集用于挖掘隱藏在該至少一個項目中的關(guān)聯(lián)規(guī)則,通過對該事務(wù)集進(jìn)行分 析,可以確定每個項目的出現(xiàn)頻率
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
潮州市| 滕州市| 乐陵市| 河东区| 太康县| 甘泉县| 中宁县| 柘城县| 兴国县| 肥西县| 正阳县| 瓮安县| 边坝县| 会宁县| 新竹市| 南充市| 铜陵市| 同德县| 新和县| 都江堰市| 太湖县| 灵璧县| 长春市| 类乌齐县| 青州市| 桓台县| 深圳市| 冷水江市| 辽阳县| 乌鲁木齐市| 盐源县| 武穴市| 光山县| 渭源县| 鱼台县| 南部县| 仁化县| 县级市| 普兰县| 汉川市| 横峰县|