欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端的制作方法

文檔序號:6617077閱讀:245來源:國知局
專利名稱:一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及近似字典規(guī)則挖掘領(lǐng)域,尤其涉及一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法,系統(tǒng)及數(shù)據(jù)庫終端。
背景技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展和社會各領(lǐng)域信息化水平的提高,數(shù)據(jù)量正以史無前例的速度井噴,人類正在進(jìn)入大數(shù)據(jù)時代。大數(shù)據(jù)時代的特征是數(shù)據(jù)量更大,數(shù)據(jù)來源更復(fù)雜,數(shù)據(jù)更新速度更快,數(shù)據(jù)質(zhì)量良莠不齊,僅靠人工手段幾乎無法進(jìn)行數(shù)據(jù)質(zhì)量管理。數(shù)據(jù)管理領(lǐng)域正孕育著大變革、大突破,已經(jīng)商用的技術(shù)基本停留在手工的、基于經(jīng)驗的第二代數(shù)據(jù)質(zhì)量管理階段,自動化的、基于嚴(yán)謹(jǐn)理論體系的第三代數(shù)據(jù)質(zhì)量管理商用系統(tǒng)還沒有出現(xiàn)。自動化的管理體系中一個重要的內(nèi)容就是自動化的挖掘數(shù)據(jù)質(zhì)量規(guī)則,其中一類規(guī)則就是字典規(guī)則,特別是近似字典規(guī)則。如考慮如下表所示的部分郵政編碼數(shù)據(jù),根據(jù)規(guī)則{區(qū)縣編碼,014060} => {郵政編碼,014060},表明當(dāng)區(qū)縣編碼為014060時,90%情況下郵政編碼為014060,另外10%數(shù)據(jù)(010460)則是可疑的,很可能是數(shù)據(jù)錯誤。
權(quán)利要求
1.一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法,其特征在于,所述方法包括如下步驟 步驟Si:對數(shù)據(jù)庫r進(jìn)行掃描分析,剔除單一值列和所有值都唯一的列,其余候選列集記為R ; 步驟S2 :統(tǒng)計所述候選列集R各列中各項的支持度,并對支持度大于給定最小支持度的項用整數(shù)編碼; 步驟S3 以位數(shù)組VD [M]儲存所述數(shù)據(jù)庫r的數(shù)據(jù),計算各項對應(yīng)的位數(shù)組中I值的個數(shù),并計算項集的事務(wù)個數(shù); 步驟S4 :使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則; 步驟S5 :輸出所述近似字典規(guī)則。
2.如權(quán)利要求I所述的挖掘方法,其特征在于,步驟S3中所述位數(shù)組VD[M]的格式是垂直數(shù)據(jù)格式。
3.如權(quán)利要求I所述的挖掘方法,其特征在于,步驟S3中所述位數(shù)組VD[M],M為所述候選列集R大小,VD中每個元素為以哈希表格式存儲的各項事務(wù)位數(shù)組。
4.如權(quán)利要求3所述的挖掘方法,其特征在于,若所述數(shù)據(jù)庫!■第k行事務(wù)的第i列為項 j 時,VD [i] [j] [k]取值 1,否則 VD [i] [j] [k]取值 0。
5.如權(quán)利要求4所述的挖掘方法,其特征在于,步驟S4中計算項集的事務(wù)個數(shù)是將項集中各項的位數(shù)組I值做與操作。
6.如權(quán)利要求I所述的挖掘方法,其特征在于,步驟S4中使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則包括以下步驟 步驟S41 :對所述候選列集R排序,采用策略搜索滿足條件的近似字典規(guī)則左部; 步驟S42 :對所述策略搜索的搜索空間,采用修剪方法對搜索樹進(jìn)行剪枝,壓縮所述搜索空間; 步驟S43 :對所述經(jīng)過壓縮的搜索空間進(jìn)行計算并生成近似字典規(guī)則右部,同時生成近似字典規(guī)則; 步驟S44 :緩存所述生成的近似字典規(guī)則。
7.如權(quán)利要求6所述的挖掘方法,其特征在于,步驟S41中對所述候選列集R排序可為按其在數(shù)據(jù)庫中的順序排序。
8.如權(quán)利要求6所述的挖掘方法,其特征在于,步驟S41中所述搜索策略可為逆序遞增策略,按從大到小的順序搜索所述候選列集R,并按從小到大的順序搜索已有規(guī)則左部和新增規(guī)則左部。
9.如權(quán)利要求8所述的挖掘方法,其特征在于,所述新增規(guī)則左部可由已有規(guī)則左部對應(yīng)的位數(shù)組與新加項的位數(shù)組做與操作得到。
10.如權(quán)利要求6所述的挖掘方法,其特征在于,步驟S42中所述修剪方法可為若存在規(guī)則{X,xj — {Y,yj,則剪掉(xl,yl)及其所有超集。
11.如權(quán)利要求6所述的挖掘方法,其特征在于,步驟S42中所述修剪方法可為若存在規(guī)則{X,xj — {Y,yj,則剪掉X的超集下所有Y枝點。
12.如權(quán)利要求6所述的挖掘方法,其特征在于,步驟S44中所述緩存可用帶索引的字典規(guī)則樹存貯。
13.如權(quán)利要求6所述的挖掘方法,其特征在于,所述步驟S43中的生成近似字典規(guī)則右部,同時生成近似字典規(guī)則,包括以下步驟 步驟S431 初始化規(guī)則左部的列freesetCol、項集freesetltems和閉集列closureCol均為空,使所述事務(wù)位數(shù)組tranSet包含所有事務(wù); 步驟S432 :判斷所述freesetltems是否非freeset,若是則跳轉(zhuǎn)至步驟S439 ;否則跳轉(zhuǎn)到步驟S433 ; 步驟S433 :根據(jù)所述修剪方法進(jìn)行剪枝,并將剪去的列更新至所述閉集列closureCol ; 步驟S434 :根據(jù)所述閉集列closureCol計算出候選列集avaiIableCol,即未在closureCol出現(xiàn)的列; 步驟S435 :在所述候選列集availableCol中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closedltems,以及所述候選子集candidates的列、項及項的事務(wù)位數(shù)組 itemTranSet ; 步驟S436:判斷所述閉集項closedltems是否為非空,若是則對所述閉集列closureCol和所述閉集項closedltems中的每一對列col和項item產(chǎn)生一條字典規(guī)則{freesetCol, freesetltems} => {col,item},并將所述規(guī)則保存到字典規(guī)則樹; 步驟S437:按逆序遍歷所述候選子集candidates,更新所述規(guī)則左部的列freesetCol、所述項集freeset Items、所述閉集列closureCol和所述tranSet,并遞歸調(diào)用DCfd字典規(guī)則挖掘方法; 步驟S438 :回退closureCol至進(jìn)入狀態(tài); 步驟S439 :結(jié)束。
14.如權(quán)利要求13所述的挖掘方法,其特征在于,所述步驟S435中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closureltems,以及所述候選子集candidates,包括以下步驟 步驟S4351 :計算當(dāng)前freesetltems的支持度supp,即所述事務(wù)位數(shù)組tranSet中I位的個數(shù); 步驟S4352 :遍歷所述候選列集availableCol的各列col,若遍歷結(jié)束則跳轉(zhuǎn)至步驟S43510 ; 步驟S4353 :遍歷所述各列col的各個項item,若遍歷結(jié)束則跳轉(zhuǎn)至步驟S4352 ; 步驟S4354 :從所述位數(shù)組VD中取各項item的事務(wù)位數(shù)組與tranSet做與操作,所得結(jié)果記為itemTranSet ; 步驟S4355 :計算各項item的支持度,即itemTranSet中I的位數(shù); 步驟S4356 :判斷itemSupp/supp的值是否大于或等于置信度C,若是則跳轉(zhuǎn)至步驟S4357,否則跳轉(zhuǎn)至步驟S4358 ; 步驟S4357 :將所述item添加到閉集項closedltems、將列col添加到閉集列colsedCol和候選列closureCol,并跳轉(zhuǎn)至步驟S4353遍歷下一項item ; 步驟S4358 :判斷列col是否大于freesetCol中最大的列且itemSupp是否大于或等于最小支持度,若是則跳轉(zhuǎn)至步驟S4359,否則跳轉(zhuǎn)至步驟S4353遍歷下一個item ; 步驟S4359 :將列col、項item及其對應(yīng)的事務(wù)位數(shù)組itemTranSet保存到候選子集candidates中,并跳轉(zhuǎn)至步驟S4353遍歷下一個項item ;步驟S43510 :結(jié)束。
15.如權(quán)利要求13所述的挖掘方法,其特征在于,所述步驟S437中按逆序遍歷所述候選子集candidates、更新所述規(guī)則左部并遞歸調(diào)用DCfd字典規(guī)則挖掘方法,包括如下步驟 步驟S4371 :按逆序遍歷所述候選子集candidates的列col,若遍歷結(jié)束則跳轉(zhuǎn)至步驟S4377 ; 步驟S4372 :將所述列col更新至freesetCol和閉集列closureCol ; 步驟S4373 :遍歷所述列col中的候選項item,若遍歷結(jié)束則跳轉(zhuǎn)至步驟S4377 ;步驟S4374 :將所述候選項item更新至freesetltems,并將tranSet設(shè)為候選項item對應(yīng)的事務(wù)列表itemTranSet,并遞歸調(diào)用DCfd方法; 步驟S4375 :回退freesetltems至遍歷前狀態(tài),跳至步驟S4373遍歷下一項item ; 步驟S4376 :所有候選項item遍歷完成后回退freesetCol和closureCol,跳至步驟S4372遍歷下一列col ; 步驟S4377 :回退closureCol到進(jìn)入前狀態(tài); 步驟S4378 :遍歷完成則結(jié)束。
16.一種數(shù)據(jù)庫近似字典規(guī)則的挖掘系統(tǒng),其特征在于,所述系統(tǒng)包括 (1)數(shù)據(jù)庫掃描分析裝置,用于對數(shù)據(jù)庫r進(jìn)行掃描分析,剔除單一值列和所有值都唯一的列,其余候選列集記為R ; (2)支持度統(tǒng)計和編碼裝置,用于統(tǒng)計所述候選列集R各列中各項的支持度,并對支持度大于給定最小支持度的項用整數(shù)編碼; (3)位數(shù)組儲存和計算裝置,用于以位數(shù)組VD[M]儲存所述數(shù)據(jù)庫r的數(shù)據(jù),計算各項對應(yīng)的位數(shù)組中I值的個數(shù),并計算項集的事務(wù)個數(shù); (4)近似字典規(guī)則挖掘裝置,用于使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則; (5)近似字典規(guī)則輸出裝置,用于輸出所述近似字典規(guī)則。
17.如權(quán)利要求16所述的挖掘系統(tǒng),其特征在于,所述近似字典規(guī)則挖掘裝置包括 (41)規(guī)則左部搜索單元,用于對所述候選列集R排序,采用策略搜索滿足條件的近似字典規(guī)則左部; (42)剪枝壓縮單元,用于對所述策略搜索的搜索空間,采用修剪方法對搜索樹進(jìn)行剪枝,壓縮所述搜索空間; (43)規(guī)則生成單元,用于所述經(jīng)過壓縮的搜索空間進(jìn)行計算并生成近似字典規(guī)則右部,同時生成近似字典規(guī)則; (44)規(guī)則緩存單元,用于緩存所述生成的近似字典規(guī)則。
18.如權(quán)利要求17所述的挖掘系統(tǒng),其特征在于,所述規(guī)則生成單元包括如下 (431)規(guī)則左部初始化模塊,初始化規(guī)則左部的列freesetCol、項集freesetltems和閉集列closureCol均為空,使所述事務(wù)位數(shù)組tranSet包含所有事務(wù); (432)判斷模塊,用于判斷所述freesetltems是否非freeset,若是則跳轉(zhuǎn)至步驟S439 ;否則跳轉(zhuǎn)到步驟S433 ; (433)剪枝模塊,用于根據(jù)所述修剪方法進(jìn)行剪枝,并將剪去的列更新至所述閉集列closureCol ;(434)候選列集計算模塊,用于根據(jù)所述閉集列closureCol計算出候選列集availableCol,即未在 closureCol 出現(xiàn)的列; (435)閉集和候選子集計算模塊,用于在所述候選列集availableCol中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closedltems,以及所述候選子集candidates的列、項及項的事務(wù)位數(shù)組itemTranSet ; (436)近似字典規(guī)則生成模塊,用于判斷所述閉集項closedltems是否為非空,若是則對所述閉集列closureCol和所述閉集項closedltems中的每一對列col和項item產(chǎn)生一條字典規(guī)則{freesetCol, freesetltems} => {col, item},并將所述規(guī)則保存到字典規(guī)則樹; (437)候選子集遍歷模塊,用于按逆序遍歷所述候選子集candidates,更新所述規(guī)則 左部的列freesetCol、所述項集freesetltems、所述閉集列closureCol和所述tranSet,并遞歸調(diào)用DCfd字典規(guī)則挖掘方法; (438)閉集回退模塊,用于回退closureCol至進(jìn)入狀態(tài); (439)規(guī)則生成結(jié)束模塊。
19.一種數(shù)據(jù)庫終端,其特征在于,所述數(shù)據(jù)庫包括近似字典規(guī)則挖掘系統(tǒng),所述系統(tǒng)包括 (1)數(shù)據(jù)庫掃描分析裝置,用于對數(shù)據(jù)庫r進(jìn)行掃描分析,剔除單一值列和所有值都唯一的列,其余候選列集記為R ; (2)支持度統(tǒng)計和編碼裝置,用于統(tǒng)計所述候選列集R各列中各項的支持度,并對支持度大于給定最小支持度的項用整數(shù)編碼; (3)位數(shù)組儲存和計算裝置,用于以位數(shù)組VD[M]儲存所述數(shù)據(jù)庫r的數(shù)據(jù),計算各項對應(yīng)的位數(shù)組中I值的個數(shù),并計算項集的事務(wù)個數(shù); (4)近似字典規(guī)則挖掘裝置,用于使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則; (5)近似字典規(guī)則輸出裝置,用于輸出所述近似字典規(guī)則。
20.如權(quán)利要求19所述的數(shù)據(jù)庫終端,其特征在于,所述近似字典規(guī)則挖掘裝置包括 (41)規(guī)則左部搜索單元,用于對所述候選列集R排序,采用策略搜索滿足條件的近似字典規(guī)則左部; (42)剪枝壓縮單元,用于對所述策略搜索的搜索空間,采用修剪方法對搜索樹進(jìn)行剪枝,壓縮所述搜索空間; (43)規(guī)則生成單元,用于所述經(jīng)過壓縮的搜索空間進(jìn)行計算并生成近似字典規(guī)則右部,同時生成近似字典規(guī)則; (44)規(guī)則緩存單元,用于緩存所述生成的近似字典規(guī)則。
.20.如權(quán)利要求19所述的數(shù)據(jù)庫終端,其特征在于,所述規(guī)則生成單元包括如下 (431)規(guī)則左部初始化模塊,初始化規(guī)則左部的列freesetCol、項集freesetltems和閉集列closureCol均為空,使所述事務(wù)位數(shù)組tranSet包含所有事務(wù); (432)判斷模塊,用于判斷所述freesetltems是否非freeset,若是則跳轉(zhuǎn)至步驟S439 ;否則跳轉(zhuǎn)到步驟S433 ; (433)剪枝模塊,用于根據(jù)所述修剪方法進(jìn)行剪枝,并將剪去的列更新至所述閉集列closureCol ;(434)候選列集計算模塊,用于根據(jù)所述閉集列closureCol計算出候選列集availableCol,即未在 closureCol 出現(xiàn)的列; (435)閉集和候選子集計算模塊,用于在所述候選列集availableCol中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closedltems,以及所述候選子集candidates的列、項及項的事務(wù)位數(shù)組itemTranSet ; (436)近似字典規(guī)則生成模塊,用于判斷所述閉集項closedltems是否為非空,若是則對所述閉集列closureCol和所述閉集項closedltems中的每一對列col和項item產(chǎn)生一條字典規(guī)則{freesetCol, freesetltems} => {col, item},并將所述規(guī)則保存到字典規(guī)則樹; (437)候選子集遍歷模塊,用于按逆序遍歷所述候選子集candidates,更新所述規(guī)則左部的列freesetCol、所述項集freesetltems、所述閉集列closureCol和所述tranSet,并遞歸調(diào)用DCfd字典規(guī)則挖掘方法; (438)閉集回退模塊,用于回退closureCol至進(jìn)入狀態(tài); (439)規(guī)則生成結(jié)束模塊。
全文摘要
本發(fā)明適用于近似字典規(guī)則挖掘領(lǐng)域,提供了一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端,所述近似字典依賴規(guī)則挖掘方法包括如下步驟對數(shù)據(jù)庫r進(jìn)行掃描分析,剔除單一值列和所有值都唯一的列,其余候選列集記為R;統(tǒng)計所述候選列集R各列中各項的支持度,并對支持度大于給定最小支持度的項用整數(shù)編碼;將所述數(shù)據(jù)庫r的每一行事務(wù)按順序編號,并以列表記錄所述各項包含的行事務(wù)編號,再緩存;使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則;輸出所述近似字典規(guī)則。在本發(fā)明中,通過在數(shù)據(jù)庫中運用DCfd的近似字典規(guī)則挖掘方法,采用逆序遞增的搜索策略,并通過修剪方法對搜索樹進(jìn)行剪枝,同時緩存已經(jīng)發(fā)現(xiàn)的規(guī)則,可減少整個挖掘方法的計算量,自動、高效地找出數(shù)據(jù)庫中的近似字典規(guī)則。
文檔編號G06F17/30GK102968481SQ201210471789
公開日2013年3月13日 申請日期2012年11月20日 優(yōu)先權(quán)日2012年11月20日
發(fā)明者王明興, 賈西貝 申請人:深圳市華傲數(shù)據(jù)技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
珲春市| 久治县| 吉木乃县| 拉萨市| 宿松县| 静海县| 台南县| 汉川市| 永康市| 昌平区| 迁安市| 夏津县| 于田县| 汉川市| 高台县| 合阳县| 宣汉县| 宜阳县| 澜沧| 诸城市| 分宜县| 泾源县| 麟游县| 奇台县| 宁远县| 渝北区| 二连浩特市| 乐东| 包头市| 洛阳市| 大安市| 宁安市| 阳城县| 库尔勒市| 安西县| 宁津县| 瑞昌市| 全州县| 琼中| 徐闻县| 安福县|