一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置的制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,包括數(shù)據(jù)質(zhì)量管理模塊和有用數(shù)據(jù)挖掘模塊,其中質(zhì)量管理模塊包括初步處理子模塊、數(shù)據(jù)描述子模塊、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊和數(shù)據(jù)質(zhì)量分級(jí)管理子模塊,有用數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理子模塊、有用數(shù)據(jù)構(gòu)建子模塊、有用數(shù)據(jù)修正子模塊和有用數(shù)據(jù)分層挖掘子模塊。
【專(zhuān)利說(shuō)明】
一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置。
【背景技術(shù)】
[0002] 大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的 數(shù)據(jù)集合,大數(shù)據(jù)的研究和應(yīng)用已經(jīng)成為現(xiàn)代信息一個(gè)不可或缺的研究領(lǐng)域。
[0003] 在現(xiàn)在使用的數(shù)據(jù)信息中,有很大一部分的數(shù)據(jù)是由管理者來(lái)進(jìn)行發(fā)布,并且根 據(jù)用戶(hù)的建議或者管理者自身的需求由管理者來(lái)進(jìn)行修改的,對(duì)于這部分的海量信息,如 何能夠更好地進(jìn)行質(zhì)量管理和挖掘,快速有效地從中找到有用的信息,是一個(gè)亟需解決的 問(wèn)題。
【發(fā)明內(nèi)容】
[0004] 針對(duì)上述問(wèn)題,本發(fā)明提供一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置。
[0005] 本發(fā)明的目的采用以下技術(shù)方案來(lái)實(shí)現(xiàn):
[0006] -種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,其特征是,包括數(shù)據(jù)質(zhì)量管理模塊和 有用數(shù)據(jù)挖掘模塊,其中質(zhì)量管理模塊包括初步處理子模塊、數(shù)據(jù)描述子模塊、數(shù)據(jù)質(zhì)量評(píng) 價(jià)子模塊和數(shù)據(jù)質(zhì)量分級(jí)管理子模塊,有用數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理子模塊、有用數(shù) 據(jù)構(gòu)建子模塊、有用數(shù)據(jù)修正子模塊和有用數(shù)據(jù)分層挖掘子模塊;
[0007] 初步處理子模塊包括:
[0008] 信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息;
[0009] 質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取 性這五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。
[0010] 優(yōu)選地,其特征是,初步處理子模塊還包括
[0011] 數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì) 量規(guī)則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果;
[0012] 數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息以不同用戶(hù)使用的方式傳遞 給所述用戶(hù);
[0013] 數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清 單,按照級(jí)別高低處理質(zhì)量問(wèn)題。
[0014] 優(yōu)選地,所述數(shù)據(jù)質(zhì)量診斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。
[0015] 優(yōu)選地,
[0016] (1)數(shù)據(jù)描述子模塊
[0017]通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù) 據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它 數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f來(lái)表 示,f由以下方法得到:
[0018] 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管 理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議, 而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
[0019] 則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f定義為:
[0020]
[0021]式中,〇1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);〇2表示 用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自 行修改一次數(shù)據(jù)施加的影響因子,〇4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響 因子,δ4Ρδ2分別為〇3和〇4權(quán)值,η表示管理者修改總次數(shù)
為用戶(hù)修改頻率系 數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁;
[0022] (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊
[0023]采用"三級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi), 然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
[0024] 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值 Ti,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值!^但是小于閥值h,則該數(shù)據(jù)屬于中質(zhì) 量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),1' 1>1'2且1'1、1'2的取值范圍是 [1ΚΒ,1ΜΒ];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成 向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值 向量,新數(shù)據(jù)向量用X=(xi,···,χν)表示,某個(gè)等級(jí)的均值向量用Y=(yi,···,yN)表示,Ν表示 除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
[0025]
[0026] R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不 同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí);
[0027] (3)數(shù)據(jù)質(zhì)量分級(jí)管理子模塊
[0028] 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù) 據(jù)進(jìn)行分級(jí)管理;
[0029] 優(yōu)選地,
[0030] (1)數(shù)據(jù)預(yù)處理子模塊
[0031] 將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí) 評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
[0032] (2)有用數(shù)據(jù)構(gòu)建子模塊
[0033] 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù) 據(jù)分類(lèi):
[0034]
[0035] 式中,Zs表示新數(shù)據(jù)表K 一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能 從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,p = $,.其中N表示一個(gè) 分類(lèi)中數(shù)據(jù)的總數(shù);
[0036] (3)有用數(shù)據(jù)修正子模塊
[0037] 有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩 方面修正后的相關(guān)系數(shù)為同時(shí)設(shè)定閾值!',1^(〇,〇.1],若1^>1',則表明這個(gè)分類(lèi)是有 用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù) 據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P'最大 值小于T,或者雖然P'的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú) 法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則 此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5;
[0038] (4)有用數(shù)據(jù)分層挖掘模塊
[0039] 首先掃描數(shù)據(jù)表K,假設(shè)P'的最大值和最小值分別為和,將數(shù)據(jù)表K分割 姑
個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利 用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支 持度以確定全局頻繁項(xiàng)集。
[0040] 有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
[0041] ρ7 =ρχ(1-γ)χ(1+Η)
[0042] 式中,Υ表示數(shù)據(jù)受到人為破壞的概率,Η表示投票用戶(hù)占總?cè)藬?shù)的比例。
[0043] 有益效果為:引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和 數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工 干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算 效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確; 引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影 響;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后 的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè) 數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更 強(qiáng)。
【附圖說(shuō)明】
[0044] 利用附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明,但附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明的任何限 制,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)以下附圖獲得 其它的附圖。
[0045] 圖1是一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置的結(jié)構(gòu)框圖。
[0046]附圖標(biāo)記:質(zhì)量管理模塊-1;有用數(shù)據(jù)挖掘模塊-2;初步處理子模塊-11;數(shù)據(jù)描述 子模塊-12;數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊-13;數(shù)據(jù)質(zhì)量分級(jí)管理子模塊-14;數(shù)據(jù)預(yù)處理子模塊-21;有用數(shù)據(jù)構(gòu)建子模塊-22;有用數(shù)據(jù)修正子模塊-23;有用數(shù)據(jù)分層挖掘子模塊-24。
【具體實(shí)施方式】
[0047]結(jié)合以下實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。
[0048] 實(shí)施例1:
[0049]如圖1所示的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,包括數(shù)據(jù)質(zhì)量管理模塊1 和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù) 據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模 塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
[0050] 初步處理子模塊11包括:
[0051] 信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息; [0052]質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取 性這五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。
[0053]優(yōu)選地,其特征是,初步處理子模塊還包括
[0054]數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì) 量規(guī)則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果; [0055]數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息以不同用戶(hù)使用的方式傳遞 給所述用戶(hù);
[0056]數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清 單,按照級(jí)別高低處理質(zhì)量問(wèn)題。
[0057]優(yōu)選地,所述數(shù)據(jù)質(zhì)量診斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。 [0058] 優(yōu)選地,
[0059] (1)數(shù)據(jù)描述子模塊12:
[0060] 通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù) 據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它 數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)元來(lái)表 示,K由以下方法得到:
[0061] 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管 理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議, 而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
[0062] 則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f定義為:
[0063]
[0064] 式中,〇1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);〇2表示 用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);σ 3表示管理者每自 行修改一次數(shù)據(jù)施加的影響因子,〇4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響 因子,δ4Ρδ2分別為〇3和〇4權(quán)值,n表示管理者修改總次數(shù)
1為用戶(hù)修改頻率系 數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
[0065] (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
[0066]采用"三級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi), 然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
[0067] 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值 Ti,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值!^但是小于閥值h,則該數(shù)據(jù)屬于中質(zhì) 量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),1' 1>1'2且1'1、1'2的取值范圍是 [1ΚΒ,1ΜΒ];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成 向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值 向量,新數(shù)據(jù)向量用X=(xi,···,χν)表示,某個(gè)等級(jí)的均值向量用Y=(yi,···,yN)表示,Ν表示 除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
[0068]
[0069] KU,γ ;俚趣小,則衣明TO似反趣入,漢乙,則TO似反趣小,每個(gè)數(shù)據(jù)分別計(jì)算與不 同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
[0070] (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
[0071] 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù) 據(jù)進(jìn)行分級(jí)管理。
[0072] 優(yōu)選地,
[0073] (1)數(shù)據(jù)預(yù)處理子模塊
[0074]將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí) 評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
[0075] (2)有用數(shù)據(jù)構(gòu)建子模塊
[0076] 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù) 據(jù)分類(lèi):
[0077]
[0078]式中,Zs表示新數(shù)據(jù)表K 一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能 從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,_p = $·.其中N表示一個(gè) 分類(lèi)中數(shù)據(jù)的總數(shù);
[0079] (3)有用數(shù)據(jù)修正子模塊
[0080]有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩 方面修正后的相關(guān)系數(shù)為同時(shí)設(shè)定閾值!',1^(〇,〇.1],若1^>1',則表明這個(gè)分類(lèi)是有 用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù) 據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P'最大 值小于T,或者雖然P'的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú) 法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則 此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5;
[0081] (4)有用數(shù)據(jù)分層挖掘模塊
[0082] 首先掃描數(shù)據(jù)表K,假設(shè)P'的最大值和最小值分別為和,將數(shù)據(jù)表K分割 成
_)個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利 用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支 持度以確定全局頻繁項(xiàng)集。
[0083]有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
[0084] Ρ7 =ρχ(1-γ)χ(1+Η)
[0085] 式中,Υ表示數(shù)據(jù)受到人為破壞的概率,Η表示投票用戶(hù)占總?cè)藬?shù)的比例。
[0086] 本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和 數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工 干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算 效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確; 引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影 響,取C = T/5,提示數(shù)據(jù)范圍增加5%,但是計(jì)算量增加了3.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī) 則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖 掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大 幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
[0087] 實(shí)施例2:
[0088]如圖1所示的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,包括數(shù)據(jù)質(zhì)量管理模塊1 和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù) 據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模 塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。 [0089]初步處理子模塊11包括:
[0090] 信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息;
[0091] 質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取 性這五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。
[0092] 優(yōu)選地,其特征是,初步處理子模塊還包括
[0093] 數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì) 量規(guī)則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果;
[0094] 數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息以不同用戶(hù)使用的方式傳遞 給所述用戶(hù);
[0095]數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清 單,按照級(jí)別高低處理質(zhì)量問(wèn)題。
[0096]優(yōu)選地,所述數(shù)據(jù)質(zhì)量診斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。 [0097] 優(yōu)選地,
[0098] (1)數(shù)據(jù)描述子模塊12:
[0099] 通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù) 據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它 數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f來(lái)表 示,疋由以下方法得到:
[0100] 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管 理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議, 而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
[0101]則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f定義為:
[0102]
[0103] 式中,〇1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);〇2表示 用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);σ 3表示管理者每自 行修改一次數(shù)據(jù)施加的影響因子,〇4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響 因子,δ4Ρδ2分別為〇3和〇4權(quán)值,η表示管理者修改總次數(shù)
5為用戶(hù)修改頻率系 數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
[0104] (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
[0105]采用"三級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi), 然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
[0106] 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值 Ti,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值!^但是小于閥值h,則該數(shù)據(jù)屬于中質(zhì) 量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),1' 1>1'2且1'1、1'2的取值范圍是 [1ΚΒ,1ΜΒ];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成 向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值 向量,新數(shù)據(jù)向量用X=(xi,···,χν)表示,某個(gè)等級(jí)的均值向量用Y=(yi,···,yN)表示,Ν表示 除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
[0107]
[0108] R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不 同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
[0109] (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
[0110] 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù) 據(jù)進(jìn)行分級(jí)管理。
[0111] 優(yōu)選地,
[0112] (1)數(shù)據(jù)預(yù)處理子模塊
[0113] 將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí) 評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表κ;
[0114] (2)有用數(shù)據(jù)構(gòu)建子模塊
[0115] 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)Ρ篩選有用數(shù) 據(jù)分類(lèi),
[0116]
[0117]式中,Zs表示新數(shù)據(jù)表Κ 一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)Α和Β,既能 從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,ρ = 其中N表示一個(gè) 分類(lèi)中數(shù)據(jù)的總數(shù);
[0118] (3)有用數(shù)據(jù)修正子模塊
[0119] 有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩 方面修正后的相關(guān)系數(shù)為同時(shí)設(shè)定閾值!',1^(〇,〇.1],若1^>1',則表明這個(gè)分類(lèi)是有 用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù) 據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P'最大 值小于T,或者雖然P'的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú) 法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則 此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5;
[0120] (4)有用數(shù)據(jù)分層挖掘模塊
[0121 ]首先掃描數(shù)據(jù)表K,假設(shè)P'的最大值和最小值分別為P' max和P' min,將數(shù)據(jù)表K分割 姑
個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利 用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支 持度以確定全局頻繁項(xiàng)集。
[0122] 有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
[0123] Ρ7 =ρχ(1-γ)χ(1+Η)
[0124] 式中,Υ表示數(shù)據(jù)受到人為破壞的概率,Η表示投票用戶(hù)占總?cè)藬?shù)的比例。
[0125] 本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和 數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工 干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算 效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確; 引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影 響,取C = T/6,提示數(shù)據(jù)范圍增加4%,但是計(jì)算量增加了3.3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī) 則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖 掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大 幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
[0126] 實(shí)施例3:
[0127] 如圖1所示的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,包括數(shù)據(jù)質(zhì)量管理模塊1 和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù) 據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模 塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
[0128] 初步處理子模塊11包括:
[0129] 信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息; [0130]質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取 性這五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。
[0131 ]優(yōu)選地,其特征是,初步處理子模塊還包括
[0132] 數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì) 量規(guī)則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果;
[0133] 數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息以不同用戶(hù)使用的方式傳遞 給所述用戶(hù);
[0134] 數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清 單,按照級(jí)別高低處理質(zhì)量問(wèn)題。
[0135] 優(yōu)選地,所述數(shù)據(jù)質(zhì)量診斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。
[0136] 優(yōu)選地,
[0137] (1)數(shù)據(jù)描述子模塊12:
[0138] 通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù) 據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它 數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f來(lái)表 示,瓦由以下方法得到:
[0139] 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管 理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議, 而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
[0140] 則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f,定義為:
[0141]
[0142] 式中,〇1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);〇2表示 用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);σ 3表示管理者每自 行修改一次數(shù)據(jù)施加的影響因子,〇4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響 因子,δ4Ρδ2分別為〇3和〇4權(quán)值,η表示管理者修改總次數(shù)
為用戶(hù)修改頻率系 數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
[0143] (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
[0144] 采用"三級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi), 然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
[0145] 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值 Ti,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值!^但是小于閥值h,則該數(shù)據(jù)屬于中質(zhì) 量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),1' 1>1'2且1'1、1'2的取值范圍是
[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成 向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值 向量,新數(shù)據(jù)向量用X=(xi,···,xn)表示,某個(gè)等級(jí)的均值向量用Y=(yi,···,yN)表示,N表示 除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
[0146]
[0147] R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不 同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
[0148] (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
[0149] 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù) 據(jù)進(jìn)行分級(jí)管理。
[0150] 優(yōu)選地,
[0151] (1)數(shù)據(jù)預(yù)處理子模塊
[0152]將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí) 評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
[0153] (2)有用數(shù)據(jù)構(gòu)建子模塊
[0154] 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù) 據(jù)分類(lèi):
[0155]
[0156]式中,Zs表示新數(shù)據(jù)表K 一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能 從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,p ==$·:,其中N表示一個(gè) 分類(lèi)中數(shù)據(jù)的總數(shù);
[0157] (3)有用數(shù)據(jù)修正子模塊
[0158] 有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩 方面修正后的相關(guān)系數(shù)為同時(shí)設(shè)定閾值!',1^(〇,〇.1],若1^>1',則表明這個(gè)分類(lèi)是有 用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù) 據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P'最大 值小于T,或者雖然P'的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú) 法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則 此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5;
[0159] (4)有用數(shù)據(jù)分層挖掘模塊
[0160] 首先掃描數(shù)據(jù)表K,假設(shè)P'的最大值和最小值分別為P' max和P' min,將數(shù)據(jù)表K分割 姑
> 個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利 用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支 持度以確定全局頻繁項(xiàng)集。
[0161]有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
[0162] Ρ7 =ρχ(1-γ)χ(1+Η)
[0163] 式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
[0164] 本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和 數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工 干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算 效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確; 引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影 響,取C = T/7,提示數(shù)據(jù)范圍增加3.5%,但是計(jì)算量增加了3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī) 則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖 掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大 幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
[0165] 實(shí)施例4:
[0166] 如圖1所示的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,包括數(shù)據(jù)質(zhì)量管理模塊1 和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù) 據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模 塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
[0167] 初步處理子模塊11包括:
[0168] 信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息;
[0169] 質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取 性這五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。
[0170]優(yōu)選地,其特征是,初步處理子模塊還包括
[0171]數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì) 量規(guī)則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果; [0172]數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息以不同用戶(hù)使用的方式傳遞 給所述用戶(hù);
[0173]數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清 單,按照級(jí)別高低處理質(zhì)量問(wèn)題。
[0174] 優(yōu)選地,所述數(shù)據(jù)質(zhì)量診斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。
[0175] 優(yōu)選地,
[0176] (1)數(shù)據(jù)描述子模塊12:
[0177] 通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù) 據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它 數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f來(lái)表 示,犮由以下方法得到:
[0178] 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管 理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議, 而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
[0179] 則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f定義為:
[0180]
[0181] 式中,〇1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);〇2表示 用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);σ 3表示管理者每自 行修改一次數(shù)據(jù)施加的影響因子,〇4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響 因子,δ#Ρδ2分別為〇3和〇4權(quán)值,η表示管理者修改總次f
為用戶(hù)修改頻率系 數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
[0182] (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
[0183] 采用"三級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi), 然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
[0184] 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值 Ti,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值!^但是小于閥值h,則該數(shù)據(jù)屬于中質(zhì) 量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),1' 1>1'2且1'1、1'2的取值范圍是 [1ΚΒ,1ΜΒ];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成 向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值 向量,新數(shù)據(jù)向量用X=(xi,···,χν)表示,某個(gè)等級(jí)的均值向量用Y=(yi,···,yN)表示,Ν表示 除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
[0185]
[0186] R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不 同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
[0187] (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
[0188] 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù) 據(jù)進(jìn)行分級(jí)管理。
[0189] 優(yōu)選地,
[0190] (1)數(shù)據(jù)預(yù)處理子模塊
[0191]將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí) 評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
[0192] (2)有用數(shù)據(jù)構(gòu)建子模塊
[0193] 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù) 據(jù)分類(lèi):
[0194]
[0195] 式中,Zs表示新數(shù)據(jù)表K 一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能 從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,ρ = &其中N表示一個(gè) 分類(lèi)中數(shù)據(jù)的總數(shù);
[0196] (3)有用數(shù)據(jù)修正子模塊
[0197] 有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩 方面修正后的相關(guān)系數(shù)為同時(shí)設(shè)定閾值!',1^(〇,〇.1],若1^>1',則表明這個(gè)分類(lèi)是有 用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù) 據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P'最大 值小于T,或者雖然P'的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú) 法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則 此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5;
[0198] (4)有用數(shù)據(jù)分層挖掘模塊
[0199] 首先掃描數(shù)據(jù)表K,假設(shè)P'的最大值和最小值分別為P' max和P' min,將數(shù)據(jù)表K分割 姑
個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利 用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支 持度以確定全局頻繁項(xiàng)集。
[0200] 有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
[0201] ρ7 =ρχ(1-γ)χ(1+Η)
[0202] 式中,Υ表示數(shù)據(jù)受到人為破壞的概率,Η表示投票用戶(hù)占總?cè)藬?shù)的比例。
[0203]本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和 數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工 干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算 效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確; 引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影 響,取C = T/8,提示數(shù)據(jù)范圍增加3%,但是計(jì)算量增加了2.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī) 則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖 掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大 幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
[0204] 實(shí)施例5:
[0205]如圖1所示的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,包括數(shù)據(jù)質(zhì)量管理模塊1 和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù) 據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模 塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。 [0206]初步處理子模塊11包括:
[0207]信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息; [0208]質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取 性這五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。
[0209] 優(yōu)選地,其特征是,初步處理子模塊還包括
[0210] 數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì) 量規(guī)則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果;
[0211]數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息以不同用戶(hù)使用的方式傳遞 給所述用戶(hù);
[0212]數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清 單,按照級(jí)別高低處理質(zhì)量問(wèn)題。
[0213]優(yōu)選地,所述數(shù)據(jù)質(zhì)量診斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。 [0214] 優(yōu)選地,
[0215] (1)數(shù)據(jù)描述子模塊12:
[0216] 通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù) 據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它 數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f來(lái)表 示,犮由以下方法得到:
[0217] 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管 理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議, 而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
[0218] 則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)f定義為:
[0219]
[0220] 式中,〇1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);〇2表示 用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);σ 3表示管理者每自 行修改一次數(shù)據(jù)施加的影響因子,〇4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響
因子,δ4Ρδ2分別為〇3和〇4權(quán)值,η表示管理者修改總次數(shù) 1戶(hù)修改頻率系 數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)別效《的11多以腿頻繁。
[0221] (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
[0222]采用"三級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi), 然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
[0223] 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值 Ti,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值!^但是小于閥值h,則該數(shù)據(jù)屬于中質(zhì) 量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),1' 1>1'2且1'1、1'2的取值范圍是 [1ΚΒ,1ΜΒ];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成 向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值 向量,新數(shù)據(jù)向量用X=(xi,···,χν)表示,某個(gè)等級(jí)的均值向量用Y=(yi,···,yN)表示,Ν表示 除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
[0224]
[0225] R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不 同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
[0226] (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
[0227] 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù) 據(jù)進(jìn)行分級(jí)管理。
[0228] 優(yōu)選地,
[0229] (1)數(shù)據(jù)預(yù)處理子模塊
[0230]將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí) 評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
[0231] (2)有用數(shù)據(jù)構(gòu)建子模塊
[0232] 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù) 據(jù)分類(lèi):
[0233]
[0234]式中,Zs表示新數(shù)據(jù)表K 一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能 從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,_p = $,其中N表示一個(gè) 分類(lèi)中數(shù)據(jù)的總數(shù);
[0235] (3)有用數(shù)據(jù)修正子模塊
[0236] 有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩 方面修正后的相關(guān)系數(shù)為同時(shí)設(shè)定閾值!',1^(〇,〇.1],若1^>1',則表明這個(gè)分類(lèi)是有 用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù) 據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P'最大 值小于T,或者雖然P'的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú) 法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則 此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5;
[0237] (4)有用數(shù)據(jù)分層挖掘模塊
[0238] 首先掃描數(shù)據(jù)表K,假設(shè)P'的最大值和最小值分別為P' max和P' min,將數(shù)據(jù)表K分割 成int
_)個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利 用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支 持度以確定全局頻繁項(xiàng)集。
[0239]有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
[0240] Ρ7 =ρχ(1-γ)χ(1+Η)
[0241] 式中,Υ表示數(shù)據(jù)受到人為破壞的概率,Η表示投票用戶(hù)占總?cè)藬?shù)的比例。
[0242] 本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和 數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工 干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算 效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確; 引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影 響,取C = T/9,提示數(shù)據(jù)范圍增加2.7%,但是計(jì)算量增加了2.5%;將基于區(qū)域劃分的關(guān)聯(lián) 規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖 掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大 幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
[0243]最后應(yīng)當(dāng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明保 護(hù)范圍的限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明作了詳細(xì)地說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng) 當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí) 質(zhì)和范圍。
【主權(quán)項(xiàng)】
1. 一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,其特征是,包括數(shù)據(jù)質(zhì)量管理模塊和有 用數(shù)據(jù)挖掘模塊,其中質(zhì)量管理模塊包括初步處理子模塊、數(shù)據(jù)描述子模塊、數(shù)據(jù)質(zhì)量評(píng)價(jià) 子模塊和數(shù)據(jù)質(zhì)量分級(jí)管理子模塊,有用數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理子模塊、有用數(shù)據(jù) 構(gòu)建子模塊、有用數(shù)據(jù)修正子模塊和有用數(shù)據(jù)分層挖掘子模塊; 初步處理子模塊包括: 信息采集單元,用于收集質(zhì)量規(guī)則管理和數(shù)據(jù)質(zhì)量診斷所需要的各種原始信息; 質(zhì)量規(guī)則管理單元,用于管理所有對(duì)象在準(zhǔn)確性、一致性、完整性、及時(shí)性、可獲取性運(yùn) 五大質(zhì)量度量方面所應(yīng)遵循的質(zhì)量規(guī)則。2. 根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,其特征是,初步處 理子模塊還包括 數(shù)據(jù)質(zhì)量診斷單元,用于根據(jù)信息采集模塊傳遞的數(shù)據(jù)、質(zhì)量規(guī)則管理模塊的質(zhì)量規(guī) 則定義和具體的數(shù)據(jù)質(zhì)量診斷任務(wù)、定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量診斷并生成質(zhì)量診斷結(jié)果; 數(shù)據(jù)質(zhì)量報(bào)告單元,用于將數(shù)據(jù)質(zhì)量診斷的結(jié)果信息W不同用戶(hù)使用的方式傳遞給所 述用戶(hù); 數(shù)據(jù)質(zhì)量處理單元,用于根據(jù)所述數(shù)據(jù)質(zhì)量報(bào)告模塊所列的待處理質(zhì)量問(wèn)題清單,按 照級(jí)別高低處理質(zhì)量問(wèn)題。3. 根據(jù)權(quán)利要求2所述的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,所述數(shù)據(jù)質(zhì)量診 斷包括手工質(zhì)量診斷和定時(shí)自動(dòng)質(zhì)量診斷兩種方式。4. 根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,其特征是, (1) 數(shù)據(jù)描述子模塊 通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大 小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù) 和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)巧來(lái)表示,巧 由W下方法得到: 構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者, 其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可W瀏覽數(shù)據(jù),也可W對(duì)數(shù)據(jù)提出修改的建議,而管理 者既可W自行對(duì)數(shù)據(jù)進(jìn)行修改,也可W根據(jù)用戶(hù)建議進(jìn)行修改, 則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)巧定義為:式中,01表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);02表示用戶(hù) 每提出一次修改意見(jiàn)施加的影響因子,1表示用戶(hù)提出建議總次數(shù);化表示管理者每自行修 改一次數(shù)據(jù)施加的影響因子,04表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因 子,δι和δ2分別為〇3和〇4權(quán)值,η表示管理者修改總次數(shù)^用戶(hù)修改頻率系數(shù), 用于表示用戶(hù)對(duì)數(shù)據(jù)的滿(mǎn)意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁; (2) 數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊 采用"Ξ級(jí)評(píng)價(jià)模型"對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為Ξ類(lèi),然后 綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下: 將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于闊值。,貝。 該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值Tl,則該數(shù)據(jù)屬于中質(zhì)量數(shù) 據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),Τι>Τ2且Τι、Τ2的取值范圍是[化B, 1ΜΒ];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量, 并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量, 新數(shù)據(jù)向量用Χ= (XI,…,XN)表示,某個(gè)等級(jí)的均值向量用Υ= (yi,…,yN)表示,Ν表示除數(shù) 據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等 級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí); (3)數(shù)據(jù)質(zhì)量分級(jí)管理子模塊 數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn) 行分級(jí)管理。5.根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)質(zhì)量管理與有用數(shù)據(jù)挖掘裝置,其特征是, (1) 數(shù)據(jù)預(yù)處理子模塊 將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的Ξ級(jí)評(píng)價(jià) 模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K; (2) 有用數(shù)據(jù)構(gòu)建子模塊 經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分 類(lèi):式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指 向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,p = ^;,其中N表示一個(gè)分類(lèi)中 數(shù)據(jù)的總數(shù); (3) 有用數(shù)據(jù)修正子模塊 有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)運(yùn)兩方面 修正后的相關(guān)系數(shù)為p/ ;同時(shí)設(shè)定闊值1',1'£(〇,〇.1],若口/>1',則表明運(yùn)個(gè)分類(lèi)是有用數(shù) 據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中 進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的p/最大值小 于T,或者雖然p/的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找 到有用數(shù)據(jù)或者雖然可W找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí) 自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C = T/5; (4) 有用數(shù)據(jù)分層挖掘模塊 首先掃描數(shù)據(jù)表K,假設(shè)P/的最大值和最小值分別為P\ax和p/"in,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用 先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持 度W確定全局頻繁項(xiàng)集; 有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為: P' =PX(1-Y)X(1+H) 式中,Y表示數(shù)據(jù)受到人為破壞的概率,Η表示投票用戶(hù)占總?cè)藬?shù)的比例。
【文檔編號(hào)】G06F17/30GK105975640SQ201610528597
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2016年7月4日
【發(fā)明人】不公告發(fā)明人
【申請(qǐng)人】吳本剛