欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法

文檔序號(hào):9217239閱讀:235來源:國(guó)知局
一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域,具體地說是實(shí)用性強(qiáng)、基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)的快速發(fā)展,各個(gè)領(lǐng)域都在每時(shí)每刻以驚人的速度產(chǎn)生出各式各樣的規(guī)模巨大的數(shù)據(jù)信息,人類也在工作生活的方方面面接觸到越來越多的數(shù)據(jù)信息。然而,人類對(duì)數(shù)據(jù)信息理解的匱乏與數(shù)據(jù)爆炸的趨勢(shì)顯得并不對(duì)稱,人類在努力將數(shù)據(jù)信息轉(zhuǎn)化為有利信息知識(shí)的同時(shí),也面臨著大數(shù)據(jù)之中夾雜的“臟數(shù)據(jù)”的挑戰(zhàn),對(duì)原始數(shù)據(jù)源的清洗,將其轉(zhuǎn)化為可被理解利用的目標(biāo)數(shù)據(jù)源,成為了人類理解數(shù)據(jù)過程中尤為重要的一步。
[0003]“臟數(shù)據(jù)”會(huì)對(duì)建立的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)造成不良影響,扭曲從數(shù)據(jù)中獲得的信息,影響數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行效果,進(jìn)一步影響數(shù)據(jù)挖掘效能,最終影響決策管理。因此,為了使數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的記錄更準(zhǔn)確、一致,消除重復(fù)數(shù)據(jù)就變得很重要,所以數(shù)據(jù)預(yù)處理工作是相當(dāng)必要的。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理的一個(gè)重要環(huán)節(jié),在數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建過程中占據(jù)重要位置。
[0004]數(shù)據(jù)清洗:如填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等,主要是通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的數(shù)據(jù)挖掘手段和方法去清洗“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的質(zhì)量,滿足現(xiàn)階段數(shù)據(jù)分析的需求。
[0005]基于此,現(xiàn)提供一種可解決上述問題、基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法。該方法通過設(shè)計(jì)獨(dú)立的運(yùn)行消除重復(fù)數(shù)據(jù)組件,從而使得清洗平臺(tái)具有獨(dú)立的操作語義和元數(shù)據(jù)描述,包括了數(shù)據(jù)清洗流程中的所有操作方式,如數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)處理、流程控制等等。從而降低整個(gè)數(shù)據(jù)清洗的成本,提高數(shù)據(jù)清洗的工作效率,而且能消除簡(jiǎn)單的重復(fù)勞動(dòng)過程,提高生產(chǎn)率。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足之處,提供一種實(shí)用性強(qiáng)、基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法。
[0007]—種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,其具體實(shí)現(xiàn)過程為:
創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)類,
創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)界面類;
創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)控制類;
元數(shù)據(jù)類內(nèi)聚元數(shù)據(jù)界面類、元數(shù)據(jù)控制類,負(fù)責(zé)對(duì)兩個(gè)類進(jìn)行初始化;
配置元數(shù)據(jù)類的基本信息,該基本信息包括名稱、XML標(biāo)簽和類型編號(hào);
將元數(shù)據(jù)類、元數(shù)據(jù)界面類和元數(shù)據(jù)控制類放入一個(gè)文件夾中,同時(shí)將該文件夾放置在設(shè)計(jì)器的文件夾中;
修改設(shè)計(jì)器的配置文件,增加相關(guān)組件模型的信息,該信息包括類名、包名、圖標(biāo)文件路徑; 從設(shè)計(jì)器組件中拖取去除重復(fù)記錄組件模型,將需要處理的數(shù)據(jù)作為輸入,組件在除去重復(fù)記錄后,進(jìn)行數(shù)據(jù)更新;
監(jiān)控端接收數(shù)據(jù)后,將其分配至一個(gè)執(zhí)行引擎中運(yùn)行;
執(zhí)行引擎反饋執(zhí)行結(jié)果。
[0008]所述元數(shù)據(jù)類實(shí)現(xiàn)核心方法,方法的實(shí)現(xiàn)思路為:
首先獲取輸入數(shù)據(jù)行的字段名和值;
然后生成Object列表,并遍歷輸入數(shù)據(jù)的數(shù)據(jù)項(xiàng);
將第一個(gè)數(shù)據(jù)項(xiàng)放入列表,再將剩下的數(shù)據(jù)項(xiàng)與列表中的數(shù)據(jù)項(xiàng)的值進(jìn)行比較:如果數(shù)據(jù)項(xiàng)中字段的值與列表中數(shù)據(jù)項(xiàng)的值一樣,則判斷為重復(fù)數(shù)據(jù),將不存儲(chǔ)至列表中,否則就作為不重復(fù)的數(shù)據(jù)存入列表中;
遍歷完后,最后將列表中的數(shù)據(jù)作為輸出數(shù)據(jù)。
[0009]所述元數(shù)據(jù)界面類繼承自BaseStepDialog類,實(shí)現(xiàn)了 showDialog方法,負(fù)責(zé)呈現(xiàn)模型組件的界面,是模型組件與用戶進(jìn)行數(shù)據(jù)交互的接口。
[0010]所述元數(shù)據(jù)控制類,繼承自BaseStepMgr類,實(shí)現(xiàn)了 BaseStepMgr中的方法,用以控制界面的調(diào)用和數(shù)據(jù)的輸出。
[0011]本發(fā)明的一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,具有以下優(yōu)點(diǎn): 該發(fā)明的一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法通過設(shè)計(jì)重復(fù)數(shù)據(jù)消除組件,使得整個(gè)數(shù)據(jù)清洗平臺(tái)具有以下特點(diǎn):開發(fā)效率高、運(yùn)行可靠性高,開發(fā)成本低,靈活性高,可復(fù)用性高,良好的擴(kuò)展性等??梢宰畲蠡臐M足目前的數(shù)據(jù)清洗需求,同時(shí)減少了軟件開發(fā)的難度,減少了開發(fā)人員的重復(fù)勞動(dòng);實(shí)用性強(qiáng),適用范圍廣泛,易于推廣。
【附圖說明】
[0012]附圖1為本發(fā)明的實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0013]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
[0014]本發(fā)明的提供一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,本方法利用MDA技術(shù),通過定義統(tǒng)一、準(zhǔn)確、完整的模型,由相應(yīng)的平臺(tái)便可自動(dòng)生成所需要的系統(tǒng)模塊和代碼,就可以在數(shù)據(jù)處理過程中將問題域、業(yè)務(wù)邏輯過程、具體實(shí)現(xiàn)相分離,完成數(shù)據(jù)處理過程,從而極大的降低工作人員的編碼時(shí)間,使其將更多的精力用在功能需求的設(shè)計(jì)、數(shù)據(jù)模型的建立和數(shù)據(jù)清洗的邏輯流程設(shè)計(jì)上,這不僅能降低整個(gè)數(shù)據(jù)清洗的成本,提高數(shù)據(jù)清洗的工作效率,而且能消除簡(jiǎn)單的重復(fù)勞動(dòng)過程,提高生產(chǎn)率。
[0015]基于消除重復(fù)記錄的組件是組成設(shè)計(jì)器的基本業(yè)務(wù)單元,組件的功能直接反應(yīng)了數(shù)據(jù)清洗的功能,而組件的創(chuàng)建也是很容易進(jìn)行的。如附圖1所示,該方法的具體實(shí)現(xiàn)過程為:
創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)類UniqueRowsMeta,該類繼承自BaseStepMeta類。該類實(shí)現(xiàn)核心方法processRow,方法的實(shí)現(xiàn)思路為:首先獲取輸入數(shù)據(jù)行的字段名和值;然后生成Object列表,并遍歷輸入數(shù)據(jù)的數(shù)據(jù)項(xiàng),將第一個(gè)數(shù)據(jù)項(xiàng)放入列表,再將剩下的數(shù)據(jù)項(xiàng)與列表中的數(shù)據(jù)項(xiàng)的值進(jìn)行比較,如果數(shù)據(jù)項(xiàng)中字段的值與列表中數(shù)據(jù)項(xiàng)的值一樣,則判斷為重復(fù)數(shù)據(jù),將不存儲(chǔ)至列表中,否則就作為不重復(fù)的數(shù)據(jù)存入列表中;遍歷完后,最后將列表中的數(shù)據(jù)作為輸出數(shù)據(jù)。
[0016]創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)界面類UniqueRowsDialog,該類繼承自BaseStepDialog類。該類實(shí)現(xiàn)了核心的showDialog方法,showDialog負(fù)責(zé)呈現(xiàn)模型組件的界面,是模型組件與用戶進(jìn)行數(shù)據(jù)交互的接口。
[0017]創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)控制類UniqueRowsMgr,該類繼承自BaseStepMgr類。該類主要實(shí)現(xiàn)了 BaseStepMgr中的方法,用以控制界面的調(diào)用和數(shù)據(jù)的輸出。
[0018]UniqueRowsMeta 內(nèi)聚了 UniqueRowsDialog類對(duì)象UniqueRowsMgr類對(duì)象,實(shí)現(xiàn)了init方法,負(fù)責(zé)對(duì)兩個(gè)類進(jìn)行初始化。
[0019]配置UniqueRowsMeta的基本信息,如名稱、XML標(biāo)簽和類型編號(hào)等。
[0020]將UniqueRowsMeta 類、UniqueRowsDialog 類和 UniqueRowsMgr 類放入一個(gè)文件夾中,同時(shí)將該文件夾放置在設(shè)計(jì)器的plugin文件夾中。
[0021]修改設(shè)計(jì)器的配置文件,增加相關(guān)組件模型的信息,如類名、包名、圖標(biāo)文件路徑。
[0022]從設(shè)計(jì)器組件中拖取去除重復(fù)記錄組件模型,將需要處理的數(shù)據(jù)作為輸入,組件在除去重復(fù)記錄后,進(jìn)行數(shù)據(jù)更新。
[0023]監(jiān)控端接收數(shù)據(jù)后,將其分配至一個(gè)執(zhí)行引擎中運(yùn)行。
[0024]執(zhí)行引擎反饋執(zhí)行結(jié)果。
[0025]上述【具體實(shí)施方式】?jī)H是本發(fā)明的具體個(gè)案,本發(fā)明的專利保護(hù)范圍包括但不限于上述【具體實(shí)施方式】,任何符合本發(fā)明的一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法的權(quán)利要求書的且任何所屬技術(shù)領(lǐng)域的普通技術(shù)人員對(duì)其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,其特征在于其具體實(shí)現(xiàn)過程為: 創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)類, 創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)界面類; 創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)控制類; 元數(shù)據(jù)類內(nèi)聚元數(shù)據(jù)界面類、元數(shù)據(jù)控制類,負(fù)責(zé)對(duì)兩個(gè)類進(jìn)行初始化; 配置元數(shù)據(jù)類的基本信息,該基本信息包括名稱、XML標(biāo)簽和類型編號(hào); 將元數(shù)據(jù)類、元數(shù)據(jù)界面類和元數(shù)據(jù)控制類放入一個(gè)文件夾中,同時(shí)將該文件夾放置在設(shè)計(jì)器的文件夾中; 修改設(shè)計(jì)器的配置文件,增加相關(guān)組件模型的信息,該信息包括類名、包名、圖標(biāo)文件路徑; 從設(shè)計(jì)器組件中拖取去除重復(fù)記錄組件模型,將需要處理的數(shù)據(jù)作為輸入,組件在除去重復(fù)記錄后,進(jìn)行數(shù)據(jù)更新; 監(jiān)控端接收數(shù)據(jù)后,將其分配至一個(gè)執(zhí)行引擎中運(yùn)行; 執(zhí)行引擎反饋執(zhí)行結(jié)果。2.根據(jù)權(quán)利要求1所述的一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,其特征在于:所述元數(shù)據(jù)類實(shí)現(xiàn)核心方法,方法的實(shí)現(xiàn)思路為: 首先獲取輸入數(shù)據(jù)行的字段名和值; 然后生成Object列表,并遍歷輸入數(shù)據(jù)的數(shù)據(jù)項(xiàng); 將第一個(gè)數(shù)據(jù)項(xiàng)放入列表,再將剩下的數(shù)據(jù)項(xiàng)與列表中的數(shù)據(jù)項(xiàng)的值進(jìn)行比較:如果數(shù)據(jù)項(xiàng)中字段的值與列表中數(shù)據(jù)項(xiàng)的值一樣,則判斷為重復(fù)數(shù)據(jù),將不存儲(chǔ)至列表中,否則就作為不重復(fù)的數(shù)據(jù)存入列表中; 遍歷完后,最后將列表中的數(shù)據(jù)作為輸出數(shù)據(jù)。3.根據(jù)權(quán)利要求2所述的一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,其特征在于:所述元數(shù)據(jù)界面類繼承自BaseStepDialog類,實(shí)現(xiàn)了 showDialog方法,負(fù)責(zé)呈現(xiàn)模型組件的界面,是模型組件與用戶進(jìn)行數(shù)據(jù)交互的接口。4.根據(jù)權(quán)利要求2所述的一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,其特征在于:所述元數(shù)據(jù)控制類,繼承自BaseStepMgr類,實(shí)現(xiàn)了 BaseStepMgr中的方法,用以控制界面的調(diào)用和數(shù)據(jù)的輸出。
【專利摘要】本發(fā)明公開了一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法,其具體實(shí)現(xiàn)過程為:創(chuàng)建消除重復(fù)記錄組件元數(shù)據(jù)類、元數(shù)據(jù)界面類、元數(shù)據(jù)控制類;元數(shù)據(jù)類內(nèi)聚元數(shù)據(jù)界面類、元數(shù)據(jù)控制類;配置元數(shù)據(jù)類的基本信息;將元數(shù)據(jù)類、元數(shù)據(jù)界面類和元數(shù)據(jù)控制類放入一個(gè)文件夾中;修改設(shè)計(jì)器的配置文件,增加相關(guān)組件模型的信息;從設(shè)計(jì)器組件中拖取去除重復(fù)記錄組件模型,將需要處理的數(shù)據(jù)作為輸入,組件在除去重復(fù)記錄后,進(jìn)行數(shù)據(jù)更新;監(jiān)控端接收數(shù)據(jù)后,將其分配至一個(gè)執(zhí)行引擎中運(yùn)行;執(zhí)行引擎反饋執(zhí)行結(jié)果。該一種基于消除重復(fù)記錄的數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)方法與現(xiàn)有技術(shù)相比,有效降低整個(gè)數(shù)據(jù)清洗的成本,提高數(shù)據(jù)清洗的工作效率。
【IPC分類】G06F17/30
【公開號(hào)】CN104933098
【申請(qǐng)?zhí)枴緾N201510281346
【發(fā)明人】武斌, 徐宏偉, 鄒建軍
【申請(qǐng)人】浪潮軟件集團(tuán)有限公司
【公開日】2015年9月23日
【申請(qǐng)日】2015年5月28日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
天长市| 嵊州市| 濮阳县| 西丰县| 尼勒克县| 宜阳县| 高台县| 霞浦县| 平谷区| 桐城市| 凤阳县| 镇沅| 丹江口市| 白玉县| 武鸣县| 喀喇沁旗| 泰来县| 阳新县| 满洲里市| 新宁县| 宁安市| 正宁县| 万荣县| 金华市| 本溪| 鹿泉市| 大化| 措勤县| 丹凤县| 南昌市| 杂多县| 贞丰县| 汶上县| 家居| 普格县| 房山区| 十堰市| 西贡区| 冕宁县| 收藏| 茌平县|