一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端的制作方法

文檔序號：6617077閱讀：245來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及近似字典規(guī)則挖掘領(lǐng)域，尤其涉及一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法，系統(tǒng)及數(shù)據(jù)庫終端。
背景技術(shù)：
隨著互聯(lián)網(wǎng)的快速發(fā)展和社會各領(lǐng)域信息化水平的提高，數(shù)據(jù)量正以史無前例的速度井噴，人類正在進(jìn)入大數(shù)據(jù)時代。大數(shù)據(jù)時代的特征是數(shù)據(jù)量更大，數(shù)據(jù)來源更復(fù)雜，數(shù)據(jù)更新速度更快，數(shù)據(jù)質(zhì)量良莠不齊，僅靠人工手段幾乎無法進(jìn)行數(shù)據(jù)質(zhì)量管理。數(shù)據(jù)管理領(lǐng)域正孕育著大變革、大突破，已經(jīng)商用的技術(shù)基本停留在手工的、基于經(jīng)驗的第二代數(shù)據(jù)質(zhì)量管理階段，自動化的、基于嚴(yán)謹(jǐn)理論體系的第三代數(shù)據(jù)質(zhì)量管理商用系統(tǒng)還沒有出現(xiàn)。自動化的管理體系中一個重要的內(nèi)容就是自動化的挖掘數(shù)據(jù)質(zhì)量規(guī)則，其中一類規(guī)則就是字典規(guī)則，特別是近似字典規(guī)則。如考慮如下表所示的部分郵政編碼數(shù)據(jù)，根據(jù)規(guī)則{區(qū)縣編碼，014060} => {郵政編碼，014060}，表明當(dāng)區(qū)縣編碼為014060時，90%情況下郵政編碼為014060，另外10%數(shù)據(jù)(010460)則是可疑的，很可能是數(shù)據(jù)錯誤。
權(quán)利要求
1.一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法，其特征在于，所述方法包括如下步驟步驟Si:對數(shù)據(jù)庫r進(jìn)行掃描分析，剔除單一值列和所有值都唯一的列，其余候選列集記為R ；步驟S2 :統(tǒng)計所述候選列集R各列中各項的支持度，并對支持度大于給定最小支持度的項用整數(shù)編碼；步驟S3 以位數(shù)組VD [M]儲存所述數(shù)據(jù)庫r的數(shù)據(jù)，計算各項對應(yīng)的位數(shù)組中I值的個數(shù)，并計算項集的事務(wù)個數(shù)；步驟S4 :使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則；步驟S5 :輸出所述近似字典規(guī)則。
2.如權(quán)利要求I所述的挖掘方法，其特征在于，步驟S3中所述位數(shù)組VD[M]的格式是垂直數(shù)據(jù)格式。
3.如權(quán)利要求I所述的挖掘方法，其特征在于，步驟S3中所述位數(shù)組VD[M]，M為所述候選列集R大小，VD中每個元素為以哈希表格式存儲的各項事務(wù)位數(shù)組。
4.如權(quán)利要求3所述的挖掘方法，其特征在于，若所述數(shù)據(jù)庫!■第k行事務(wù)的第i列為項 j 時，VD [i] [j] [k]取值 1，否則 VD [i] [j] [k]取值 0。
5.如權(quán)利要求4所述的挖掘方法，其特征在于，步驟S4中計算項集的事務(wù)個數(shù)是將項集中各項的位數(shù)組I值做與操作。
6.如權(quán)利要求I所述的挖掘方法，其特征在于，步驟S4中使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則包括以下步驟步驟S41 :對所述候選列集R排序，采用策略搜索滿足條件的近似字典規(guī)則左部；步驟S42 :對所述策略搜索的搜索空間，采用修剪方法對搜索樹進(jìn)行剪枝，壓縮所述搜索空間；步驟S43 :對所述經(jīng)過壓縮的搜索空間進(jìn)行計算并生成近似字典規(guī)則右部，同時生成近似字典規(guī)則；步驟S44 :緩存所述生成的近似字典規(guī)則。
7.如權(quán)利要求6所述的挖掘方法，其特征在于，步驟S41中對所述候選列集R排序可為按其在數(shù)據(jù)庫中的順序排序。
8.如權(quán)利要求6所述的挖掘方法，其特征在于，步驟S41中所述搜索策略可為逆序遞增策略，按從大到小的順序搜索所述候選列集R，并按從小到大的順序搜索已有規(guī)則左部和新增規(guī)則左部。
9.如權(quán)利要求8所述的挖掘方法，其特征在于，所述新增規(guī)則左部可由已有規(guī)則左部對應(yīng)的位數(shù)組與新加項的位數(shù)組做與操作得到。
10.如權(quán)利要求6所述的挖掘方法，其特征在于，步驟S42中所述修剪方法可為若存在規(guī)則{X，xj — {Y，yj，則剪掉(xl，yl)及其所有超集。
11.如權(quán)利要求6所述的挖掘方法，其特征在于，步驟S42中所述修剪方法可為若存在規(guī)則{X，xj — {Y，yj，則剪掉X的超集下所有Y枝點。
12.如權(quán)利要求6所述的挖掘方法，其特征在于，步驟S44中所述緩存可用帶索引的字典規(guī)則樹存貯。
13.如權(quán)利要求6所述的挖掘方法，其特征在于，所述步驟S43中的生成近似字典規(guī)則右部，同時生成近似字典規(guī)則，包括以下步驟步驟S431 初始化規(guī)則左部的列freesetCol、項集freesetltems和閉集列closureCol均為空,使所述事務(wù)位數(shù)組tranSet包含所有事務(wù)；步驟S432 :判斷所述freesetltems是否非freeset,若是則跳轉(zhuǎn)至步驟S439 ;否則跳轉(zhuǎn)到步驟S433 ；步驟S433 :根據(jù)所述修剪方法進(jìn)行剪枝，并將剪去的列更新至所述閉集列closureCol ；步驟S434 :根據(jù)所述閉集列closureCol計算出候選列集avaiIableCol，即未在closureCol出現(xiàn)的列；步驟S435 :在所述候選列集availableCol中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closedltems，以及所述候選子集candidates的列、項及項的事務(wù)位數(shù)組 itemTranSet ；步驟S436:判斷所述閉集項closedltems是否為非空，若是則對所述閉集列closureCol和所述閉集項closedltems中的每一對列col和項item產(chǎn)生一條字典規(guī)則{freesetCol, freesetltems} => {col，item}，并將所述規(guī)則保存到字典規(guī)則樹；步驟S437:按逆序遍歷所述候選子集candidates，更新所述規(guī)則左部的列freesetCol、所述項集freeset Items、所述閉集列closureCol和所述tranSet，并遞歸調(diào)用DCfd字典規(guī)則挖掘方法；步驟S438 :回退closureCol至進(jìn)入狀態(tài)；步驟S439 :結(jié)束。
14.如權(quán)利要求13所述的挖掘方法，其特征在于，所述步驟S435中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closureltems，以及所述候選子集candidates，包括以下步驟步驟S4351 :計算當(dāng)前freesetltems的支持度supp，即所述事務(wù)位數(shù)組tranSet中I位的個數(shù)；步驟S4352 :遍歷所述候選列集availableCol的各列col，若遍歷結(jié)束則跳轉(zhuǎn)至步驟S43510 ；步驟S4353 :遍歷所述各列col的各個項item，若遍歷結(jié)束則跳轉(zhuǎn)至步驟S4352 ；步驟S4354 :從所述位數(shù)組VD中取各項item的事務(wù)位數(shù)組與tranSet做與操作，所得結(jié)果記為itemTranSet ；步驟S4355 :計算各項item的支持度，即itemTranSet中I的位數(shù)；步驟S4356 :判斷itemSupp/supp的值是否大于或等于置信度C，若是則跳轉(zhuǎn)至步驟S4357，否則跳轉(zhuǎn)至步驟S4358 ；步驟S4357 :將所述item添加到閉集項closedltems、將列col添加到閉集列colsedCol和候選列closureCol，并跳轉(zhuǎn)至步驟S4353遍歷下一項item ；步驟S4358 :判斷列col是否大于freesetCol中最大的列且itemSupp是否大于或等于最小支持度，若是則跳轉(zhuǎn)至步驟S4359，否則跳轉(zhuǎn)至步驟S4353遍歷下一個item ；步驟S4359 :將列col、項item及其對應(yīng)的事務(wù)位數(shù)組itemTranSet保存到候選子集candidates中，并跳轉(zhuǎn)至步驟S4353遍歷下一個項item ；步驟S43510 :結(jié)束。
15.如權(quán)利要求13所述的挖掘方法，其特征在于，所述步驟S437中按逆序遍歷所述候選子集candidates、更新所述規(guī)則左部并遞歸調(diào)用DCfd字典規(guī)則挖掘方法，包括如下步驟步驟S4371 :按逆序遍歷所述候選子集candidates的列col,若遍歷結(jié)束則跳轉(zhuǎn)至步驟S4377 ；步驟S4372 :將所述列col更新至freesetCol和閉集列closureCol ；步驟S4373 :遍歷所述列col中的候選項item,若遍歷結(jié)束則跳轉(zhuǎn)至步驟S4377 ；步驟S4374 :將所述候選項item更新至freesetltems,并將tranSet設(shè)為候選項item對應(yīng)的事務(wù)列表itemTranSet,并遞歸調(diào)用DCfd方法；步驟S4375 :回退freesetltems至遍歷前狀態(tài),跳至步驟S4373遍歷下一項item ；步驟S4376 :所有候選項item遍歷完成后回退freesetCol和closureCol,跳至步驟S4372遍歷下一列col ；步驟S4377 :回退closureCol到進(jìn)入前狀態(tài)；步驟S4378 :遍歷完成則結(jié)束。
16.一種數(shù)據(jù)庫近似字典規(guī)則的挖掘系統(tǒng)，其特征在于，所述系統(tǒng)包括 (1)數(shù)據(jù)庫掃描分析裝置，用于對數(shù)據(jù)庫r進(jìn)行掃描分析，剔除單一值列和所有值都唯一的列，其余候選列集記為R ； (2)支持度統(tǒng)計和編碼裝置，用于統(tǒng)計所述候選列集R各列中各項的支持度，并對支持度大于給定最小支持度的項用整數(shù)編碼； (3)位數(shù)組儲存和計算裝置，用于以位數(shù)組VD[M]儲存所述數(shù)據(jù)庫r的數(shù)據(jù)，計算各項對應(yīng)的位數(shù)組中I值的個數(shù)，并計算項集的事務(wù)個數(shù)； (4)近似字典規(guī)則挖掘裝置，用于使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則； (5)近似字典規(guī)則輸出裝置，用于輸出所述近似字典規(guī)則。
17.如權(quán)利要求16所述的挖掘系統(tǒng)，其特征在于，所述近似字典規(guī)則挖掘裝置包括 (41)規(guī)則左部搜索單元，用于對所述候選列集R排序，采用策略搜索滿足條件的近似字典規(guī)則左部； (42)剪枝壓縮單元，用于對所述策略搜索的搜索空間，采用修剪方法對搜索樹進(jìn)行剪枝，壓縮所述搜索空間； (43)規(guī)則生成單元，用于所述經(jīng)過壓縮的搜索空間進(jìn)行計算并生成近似字典規(guī)則右部，同時生成近似字典規(guī)則； (44)規(guī)則緩存單元，用于緩存所述生成的近似字典規(guī)則。
18.如權(quán)利要求17所述的挖掘系統(tǒng)，其特征在于，所述規(guī)則生成單元包括如下 (431)規(guī)則左部初始化模塊,初始化規(guī)則左部的列freesetCol、項集freesetltems和閉集列closureCol均為空,使所述事務(wù)位數(shù)組tranSet包含所有事務(wù)； (432)判斷模塊，用于判斷所述freesetltems是否非freeset,若是則跳轉(zhuǎn)至步驟S439 ;否則跳轉(zhuǎn)到步驟S433 ； (433)剪枝模塊，用于根據(jù)所述修剪方法進(jìn)行剪枝，并將剪去的列更新至所述閉集列closureCol ；(434)候選列集計算模塊，用于根據(jù)所述閉集列closureCol計算出候選列集availableCol,即未在 closureCol 出現(xiàn)的列； (435)閉集和候選子集計算模塊,用于在所述候選列集availableCol中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closedltems,以及所述候選子集candidates的列、項及項的事務(wù)位數(shù)組itemTranSet ； (436)近似字典規(guī)則生成模塊，用于判斷所述閉集項closedltems是否為非空，若是則對所述閉集列closureCol和所述閉集項closedltems中的每一對列col和項item產(chǎn)生一條字典規(guī)則{freesetCol, freesetltems} => {col, item},并將所述規(guī)則保存到字典規(guī)則樹； (437)候選子集遍歷模塊，用于按逆序遍歷所述候選子集candidates，更新所述規(guī)則左部的列freesetCol、所述項集freesetltems、所述閉集列closureCol和所述tranSet,并遞歸調(diào)用DCfd字典規(guī)則挖掘方法； (438)閉集回退模塊,用于回退closureCol至進(jìn)入狀態(tài)； (439)規(guī)則生成結(jié)束模塊。
19.一種數(shù)據(jù)庫終端，其特征在于，所述數(shù)據(jù)庫包括近似字典規(guī)則挖掘系統(tǒng)，所述系統(tǒng)包括 (1)數(shù)據(jù)庫掃描分析裝置，用于對數(shù)據(jù)庫r進(jìn)行掃描分析，剔除單一值列和所有值都唯一的列，其余候選列集記為R ； (2)支持度統(tǒng)計和編碼裝置，用于統(tǒng)計所述候選列集R各列中各項的支持度，并對支持度大于給定最小支持度的項用整數(shù)編碼； (3)位數(shù)組儲存和計算裝置，用于以位數(shù)組VD[M]儲存所述數(shù)據(jù)庫r的數(shù)據(jù)，計算各項對應(yīng)的位數(shù)組中I值的個數(shù)，并計算項集的事務(wù)個數(shù)； (4)近似字典規(guī)則挖掘裝置，用于使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則； (5)近似字典規(guī)則輸出裝置，用于輸出所述近似字典規(guī)則。
20.如權(quán)利要求19所述的數(shù)據(jù)庫終端，其特征在于，所述近似字典規(guī)則挖掘裝置包括 (41)規(guī)則左部搜索單元，用于對所述候選列集R排序，采用策略搜索滿足條件的近似字典規(guī)則左部； (42)剪枝壓縮單元，用于對所述策略搜索的搜索空間，采用修剪方法對搜索樹進(jìn)行剪枝，壓縮所述搜索空間； (43)規(guī)則生成單元，用于所述經(jīng)過壓縮的搜索空間進(jìn)行計算并生成近似字典規(guī)則右部，同時生成近似字典規(guī)則； (44)規(guī)則緩存單元，用于緩存所述生成的近似字典規(guī)則。
.20.如權(quán)利要求19所述的數(shù)據(jù)庫終端，其特征在于，所述規(guī)則生成單元包括如下 (431)規(guī)則左部初始化模塊,初始化規(guī)則左部的列freesetCol、項集freesetltems和閉集列closureCol均為空,使所述事務(wù)位數(shù)組tranSet包含所有事務(wù)； (432)判斷模塊，用于判斷所述freesetltems是否非freeset,若是則跳轉(zhuǎn)至步驟S439 ;否則跳轉(zhuǎn)到步驟S433 ； (433)剪枝模塊，用于根據(jù)所述修剪方法進(jìn)行剪枝，并將剪去的列更新至所述閉集列closureCol ；(434)候選列集計算模塊，用于根據(jù)所述閉集列closureCol計算出候選列集availableCol,即未在 closureCol 出現(xiàn)的列； (435)閉集和候選子集計算模塊,用于在所述候選列集availableCol中計算當(dāng)前項集freesetltems的閉集列closureCol和閉集項closedltems,以及所述候選子集candidates的列、項及項的事務(wù)位數(shù)組itemTranSet ； (436)近似字典規(guī)則生成模塊，用于判斷所述閉集項closedltems是否為非空，若是則對所述閉集列closureCol和所述閉集項closedltems中的每一對列col和項item產(chǎn)生一條字典規(guī)則{freesetCol, freesetltems} => {col, item},并將所述規(guī)則保存到字典規(guī)則樹； (437)候選子集遍歷模塊，用于按逆序遍歷所述候選子集candidates，更新所述規(guī)則左部的列freesetCol、所述項集freesetltems、所述閉集列closureCol和所述tranSet,并遞歸調(diào)用DCfd字典規(guī)則挖掘方法； (438)閉集回退模塊,用于回退closureCol至進(jìn)入狀態(tài)； (439)規(guī)則生成結(jié)束模塊。
全文摘要
本發(fā)明適用于近似字典規(guī)則挖掘領(lǐng)域，提供了一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端，所述近似字典依賴規(guī)則挖掘方法包括如下步驟對數(shù)據(jù)庫r進(jìn)行掃描分析，剔除單一值列和所有值都唯一的列，其余候選列集記為R；統(tǒng)計所述候選列集R各列中各項的支持度，并對支持度大于給定最小支持度的項用整數(shù)編碼；將所述數(shù)據(jù)庫r的每一行事務(wù)按順序編號，并以列表記錄所述各項包含的行事務(wù)編號，再緩存；使用DCfd的方法挖掘數(shù)據(jù)庫r的近似字典規(guī)則；輸出所述近似字典規(guī)則。在本發(fā)明中，通過在數(shù)據(jù)庫中運用DCfd的近似字典規(guī)則挖掘方法，采用逆序遞增的搜索策略，并通過修剪方法對搜索樹進(jìn)行剪枝，同時緩存已經(jīng)發(fā)現(xiàn)的規(guī)則，可減少整個挖掘方法的計算量，自動、高效地找出數(shù)據(jù)庫中的近似字典規(guī)則。
文檔編號G06F17/30GK102968481SQ201210471789
公開日2013年3月13日申請日期2012年11月20日優(yōu)先權(quán)日2012年11月20日
發(fā)明者王明興, 賈西貝申請人:深圳市華傲數(shù)據(jù)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王明興;賈西貝
技術(shù)所有人：深圳市華傲數(shù)據(jù)技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

vlookup近似匹配規(guī)則相關(guān)技術(shù)

數(shù)據(jù)庫字段命名規(guī)則相關(guān)技術(shù)

數(shù)據(jù)庫表字段命名規(guī)則相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端的制作方法

一種數(shù)據(jù)庫近似字典規(guī)則的挖掘方法、系統(tǒng)及數(shù)據(jù)庫終端的制作方法