欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)處理方法與流程

文檔序號:12305456閱讀:254來源:國知局
一種數(shù)據(jù)處理方法與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更具體的,涉及一種數(shù)據(jù)清洗處理方法。



背景技術(shù):

隨著數(shù)據(jù)挖掘領(lǐng)域的研究日益成熟,人們對數(shù)據(jù)質(zhì)量的要求也越來越高。但是因為數(shù)據(jù)倉庫中存在著很多冗余的或缺失的數(shù)據(jù),以及存在不一致數(shù)據(jù)或不確定數(shù)據(jù),導(dǎo)致數(shù)據(jù)質(zhì)量下降,我們把這些影響數(shù)據(jù)質(zhì)量的數(shù)據(jù)稱為“臟數(shù)據(jù)”。根據(jù)“垃圾進,垃圾出”的原理,臟數(shù)據(jù)將會影響數(shù)據(jù)挖掘的質(zhì)量,使得決策分析系統(tǒng)得到錯誤的分析結(jié)果,最終誤導(dǎo)決策,影響決策者預(yù)測和決策的準(zhǔn)確性。除此之外,臟數(shù)據(jù)還會導(dǎo)致昂貴的操作費用和漫長的響應(yīng)時間。因此我們必須對臟數(shù)據(jù)進行清洗。大量的研究發(fā)現(xiàn),數(shù)據(jù)清洗在決策分析和數(shù)據(jù)挖掘系統(tǒng)中所占的工作量幾乎是整個工作量的到。

在基于歷史數(shù)據(jù)的數(shù)據(jù)倉庫的基礎(chǔ)上為企業(yè)的發(fā)展進行指導(dǎo)和預(yù)測時,數(shù)據(jù)的質(zhì)量問題變得非常關(guān)鍵。根據(jù)“垃圾進,垃圾出”原理,數(shù)據(jù)倉庫中的數(shù)據(jù)經(jīng)常會存在數(shù)據(jù)缺失、數(shù)據(jù)噪聲、數(shù)據(jù)不一致和數(shù)據(jù)冗余等質(zhì)量問題。這些存在質(zhì)量問題的污點數(shù)據(jù)往往會導(dǎo)致漫長的響應(yīng)時間和昂貴的操作費用,并且會影響到從數(shù)據(jù)中導(dǎo)出規(guī)則的導(dǎo)出準(zhǔn)確性和從數(shù)據(jù)中挖掘隱藏信息的挖掘模式的正確性,進而使決策支持系統(tǒng)產(chǎn)生誤導(dǎo)決策。

企業(yè)對存在質(zhì)量問題的污點數(shù)據(jù)處理的需求與日俱增,對數(shù)據(jù)清洗的要求也越來越高。在傳統(tǒng)的污點數(shù)據(jù)清洗工作中,主要還是依賴人工對不同數(shù)據(jù)庫中的數(shù)據(jù)進行人工處理。這樣的數(shù)據(jù)清洗方式不僅會耗費大量的時間,而且由于不可控因素太多,數(shù)據(jù)清洗的錯誤率也會增加,導(dǎo)致數(shù)據(jù)質(zhì)量的提高程度不高、可靠性不強。

在大數(shù)據(jù)領(lǐng)域,數(shù)據(jù)的來源往往是不確定的,而針對一個數(shù)據(jù)庫的系統(tǒng)而言,其獲取的數(shù)據(jù)可能是格式多樣的,而且這些數(shù)據(jù)來源很可能也是“臟數(shù)據(jù)”,對于整個的系統(tǒng)并沒有用戶,反而會帶來數(shù)據(jù)庫的存儲壓力和處理器的處理壓力。所以能設(shè)計一種針對數(shù)據(jù)來源進行格式統(tǒng)一,并清洗垃圾數(shù)據(jù)的方法是亟不可待的。



技術(shù)實現(xiàn)要素:

本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。

為此,本發(fā)明的目的在于,通過設(shè)計一種數(shù)據(jù)處理方法,該方法利用關(guān)鍵字段字符的區(qū)位碼對數(shù)據(jù)集進行排序及分組,提高了算法的運行效率和檢測精度。并且通過特征字段優(yōu)選方法選出分組中具有代表性的字段,刪除無關(guān)字段,減少了相似重復(fù)記錄檢測時的字段匹配次數(shù),進而減少了記錄匹配的運行時間。能夠有效地解決大數(shù)據(jù)量的相似重復(fù)記錄檢測問題。

為實現(xiàn)上述目的,本發(fā)明提供一種數(shù)據(jù)處理方法,包括如下步驟:

步驟1,對所要清洗的數(shù)據(jù)源進行數(shù)據(jù)分析,定義出數(shù)據(jù)清洗規(guī)則,并選擇預(yù)設(shè)的清洗算法;

步驟2,根據(jù)規(guī)則庫中定義好的或用戶自定義的清洗規(guī)則對數(shù)據(jù)進行預(yù)處理,將數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的預(yù)設(shè)的數(shù)據(jù)格式;

步驟3,根據(jù)預(yù)設(shè)的數(shù)據(jù)清理算法對數(shù)據(jù)中的相似重復(fù)記錄、異常數(shù)據(jù)和不完整數(shù)據(jù)進行檢測;

步驟4,根據(jù)清理算法和規(guī)則庫中定義的清理規(guī)則對所述相似重復(fù)記錄、異常數(shù)據(jù)和不完整數(shù)據(jù)進行數(shù)據(jù)清理;

步驟5,將清理后的數(shù)據(jù)反饋至用戶端,獲取用戶端的反饋信息,根據(jù)所述反饋信息確定是否重新進行數(shù)據(jù)清洗步驟。

具體的,所述相似重復(fù)記錄的檢測步驟如下:

步驟1.1,選取數(shù)據(jù)的關(guān)鍵字段,計算關(guān)鍵字段的字符區(qū)位碼,利用所述字符區(qū)位碼對數(shù)據(jù)進行排序,對所述排序后的數(shù)據(jù)進行分組,形成小數(shù)據(jù)集;

步驟1.2,對所述小數(shù)據(jù)集進行特征優(yōu)選計算,計算出代表性的字段,然后刪除其他無關(guān)字段;

步驟1.3,利用字段加權(quán)匹配算法對所述小數(shù)據(jù)集檢測重復(fù)記錄,并對重復(fù)記錄進行標(biāo)記;

步驟1.4,將所述檢測出的重復(fù)記錄按照預(yù)設(shè)的規(guī)則輸出。

具體的,所述對所述排序后的數(shù)據(jù)進行分組具體步驟如下:

步驟2.1,將記錄中的關(guān)鍵字段或關(guān)鍵字段的某些位選取出來,并將其區(qū)位碼計算出來,如果所選出的是關(guān)鍵字段的某一位,則計算出該字符所對應(yīng)的區(qū)位碼,如果所選出的的是關(guān)鍵字段的某幾位,則計算出這幾位所對應(yīng)的區(qū)位碼的平均值,如果選出的是整個的關(guān)鍵字段,則將該字段所有字符的區(qū)位碼計算出來,并計算出這些字符的平均值;

步驟2.2,利用所選出字符的區(qū)位碼排序整個記錄集,使得可能的重復(fù)記錄排在相鄰區(qū)域;

對記錄的字符區(qū)位碼進行比較,如果記錄的區(qū)位碼是相等的,或記錄的區(qū)位碼的平均值相差不大,則將記錄聚集到一個數(shù)據(jù)集中,從而逐漸把大數(shù)據(jù)集分割成很多個不相交的小數(shù)據(jù)集;

步驟2.3,分組后如果還有比較大的數(shù)據(jù)集,則在該數(shù)據(jù)集中選取另外的關(guān)鍵字段繼續(xù)對該數(shù)據(jù)集進行分組;

步驟2.4,重復(fù)上一步,直至得到符合需求的分組為止。

具體的,所述步驟1.2具體為:

步驟3.1,計算每個分組中個記錄各維字段的均值,計算出每維字段的方差,其中方差越大,則該字段越不具有代表性,具體計算公式如下:

其中,表示第k維字段的均值,表示記錄xik的字段值;

步驟3.2,將所述方差與預(yù)設(shè)的閾值進行比較,將方差大于閾值的字段的序列號組成一個與數(shù)據(jù)記錄無關(guān)的字段的集合,將其刪除。

具體的,所述方差的計算公式如下:

其中為每維字段的方差。

優(yōu)選的,所述閾值的大小為0.9。

通過本發(fā)明的技術(shù)方案,可知本發(fā)明該方法利用關(guān)鍵字段字符的區(qū)位碼對數(shù)據(jù)集進行排序及分組,提高了算法的運行效率和檢測精度。并且通過特征字段優(yōu)選方法選出分組中具有代表性的字段,刪除無關(guān)字段,減少了相似重復(fù)記錄檢測時的字段匹配次數(shù),進而減少了記錄匹配的運行時間。能夠有效地解決大數(shù)據(jù)量的相似重復(fù)記錄檢測問題。

附圖說明

圖1示出了本發(fā)明的一種數(shù)據(jù)處理方法的流程圖;

圖2示出了本發(fā)明一種數(shù)據(jù)處理方法的實施例。

具體實施方式

為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。

在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。

本發(fā)明設(shè)計的清洗系統(tǒng)具有算法庫和規(guī)則庫,這些算法庫和規(guī)則庫是開放的,里面含有大量豐富的清洗算法和清洗規(guī)則,同時包含了質(zhì)量評估模塊,使用評估庫中設(shè)計好的優(yōu)良評估方法,由用戶根據(jù)需求選用恰當(dāng)?shù)那逑此惴ê颓逑匆?guī)則,使得在不同應(yīng)用中達到最佳的清洗效果。該框架有數(shù)據(jù)分析模塊、數(shù)據(jù)清洗前的預(yù)處理模塊、數(shù)據(jù)檢測模塊、數(shù)據(jù)清理模塊及質(zhì)量評估模塊五個模塊。

用戶不僅可以使用現(xiàn)成的系統(tǒng)庫中提供的檢測算法、清洗算法、清洗規(guī)則以及質(zhì)量評估方法對臟數(shù)據(jù)進行清洗和對清洗的效果進行質(zhì)量評估,還可以根據(jù)實際的需要編寫適應(yīng)的算法或自定義的新規(guī)則以及新的評估方法,并將這些算法或規(guī)則加入到相應(yīng)的算法庫或規(guī)則庫中將清洗結(jié)果通過質(zhì)量評估模塊反饋給用戶,用戶根據(jù)清洗效果及實際的需要決定是否進行重新清洗,如果需要重新清洗,則重新選擇適當(dāng)?shù)乃惴ê鸵?guī)則進行清洗在清洗過程中,由于系統(tǒng)異?;驍?shù)據(jù)多樣性、復(fù)雜性等問題導(dǎo)致系統(tǒng)無法自動完成整個清洗工作,這時就需要用戶參與處理,這個過程中用戶是通過人機交互界面參與其中的。

圖1示出了本發(fā)明的一種數(shù)據(jù)處理方法的流程圖。

如圖1所示,本發(fā)明提供一種數(shù)據(jù)處理方法,包括如下步驟:

步驟1,對所要清洗的數(shù)據(jù)源進行數(shù)據(jù)分析,定義出數(shù)據(jù)清洗規(guī)則,并選擇預(yù)設(shè)的清洗算法;

步驟2,根據(jù)規(guī)則庫中定義好的或用戶自定義的清洗規(guī)則對數(shù)據(jù)進行預(yù)處理,將數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的預(yù)設(shè)的數(shù)據(jù)格式;

步驟3,根據(jù)預(yù)設(shè)的數(shù)據(jù)清理算法對數(shù)據(jù)中的相似重復(fù)記錄、異常數(shù)據(jù)和不完整數(shù)據(jù)進行檢測;

步驟4,根據(jù)清理算法和規(guī)則庫中定義的清理規(guī)則對所述相似重復(fù)記錄、異常數(shù)據(jù)和不完整數(shù)據(jù)進行數(shù)據(jù)清理;

步驟5,將清理后的數(shù)據(jù)反饋至用戶端,獲取用戶端的反饋信息,根據(jù)所述反饋信息確定是否重新進行數(shù)據(jù)清洗步驟。

具體的,所述相似重復(fù)記錄的檢測步驟如下:

步驟1.1,選取數(shù)據(jù)的關(guān)鍵字段,計算關(guān)鍵字段的字符區(qū)位碼,利用所述字符區(qū)位碼對數(shù)據(jù)進行排序,對所述排序后的數(shù)據(jù)進行分組,形成小數(shù)據(jù)集;

步驟1.2,對所述小數(shù)據(jù)集進行特征優(yōu)選計算,計算出代表性的字段,然后刪除其他無關(guān)字段;

步驟1.3,利用字段加權(quán)匹配算法對所述小數(shù)據(jù)集檢測重復(fù)記錄,并對重復(fù)記錄進行標(biāo)記;

步驟1.4,將所述檢測出的重復(fù)記錄按照預(yù)設(shè)的規(guī)則輸出。

具體的,所述對所述排序后的數(shù)據(jù)進行分組具體步驟如下:

步驟2.1,將記錄中的關(guān)鍵字段或關(guān)鍵字段的某些位選取出來,并將其區(qū)位碼計算出來,如果所選出的是關(guān)鍵字段的某一位,則計算出該字符所對應(yīng)的區(qū)位碼,如果所選出的的是關(guān)鍵字段的某幾位,則計算出這幾位所對應(yīng)的區(qū)位碼的平均值,如果選出的是整個的關(guān)鍵字段,則將該字段所有字符的區(qū)位碼計算出來,并計算出這些字符的平均值;

步驟2.2,利用所選出字符的區(qū)位碼排序整個記錄集,使得可能的重復(fù)記錄排在相鄰區(qū)域;

對記錄的字符區(qū)位碼進行比較,如果記錄的區(qū)位碼是相等的,或記錄的區(qū)位碼的平均值相差不大,則將記錄聚集到一個數(shù)據(jù)集中,從而逐漸把大數(shù)據(jù)集分割成很多個不相交的小數(shù)據(jù)集;

步驟2.3,分組后如果還有比較大的數(shù)據(jù)集,則在該數(shù)據(jù)集中選取另外的關(guān)鍵字段繼續(xù)對該數(shù)據(jù)集進行分組;

步驟2.4,重復(fù)上一步,直至得到符合需求的分組為止。

具體的,所述步驟1.2具體為:

步驟3.1,計算每個分組中個記錄各維字段的均值,計算出每維字段的方差,其中方差越大,則該字段越不具有代表性,具體計算公式如下:

其中,表示第k維字段的均值,表示記錄xik的字段值;

步驟3.2,將所述方差與預(yù)設(shè)的閾值進行比較,將方差大于閾值的字段的序列號組成一個與數(shù)據(jù)記錄無關(guān)的字段的集合,將其刪除。

具體的,所述方差的計算公式如下:

其中為每維字段的方差。

優(yōu)選的,所述閾值的大小為0.9。

圖2示出了本發(fā)明一種數(shù)據(jù)處理方法的實施例。

如圖2所示,本實施例具體數(shù)據(jù)處理如下:

對所要清洗的數(shù)據(jù)源進行數(shù)據(jù)分析,定義出數(shù)據(jù)清洗規(guī)則,并選擇合適的清洗算法根據(jù)規(guī)則庫中定義好的或用戶自定義的清洗規(guī)則對數(shù)據(jù)進行預(yù)處理,將數(shù)據(jù)格式規(guī)范化,數(shù)據(jù)表達方式統(tǒng)一化,使用統(tǒng)一的全稱替換縮寫以改善數(shù)據(jù)質(zhì)量,為之后的數(shù)據(jù)清洗工作做準(zhǔn)備根據(jù)實際情況的需要,調(diào)用算法庫中相應(yīng)的算法或根據(jù)實際情況調(diào)整算法或自定義算法對相似重復(fù)記錄、異常數(shù)據(jù)和不完整數(shù)據(jù)進行檢測利用算法庫中提供的清理算法和規(guī)則庫中定義好的清理規(guī)則對檢測出來的不同類型的重復(fù)記錄、異常記錄和不完整數(shù)據(jù)進行清理,也可根據(jù)實際情況調(diào)整清理規(guī)則或自定義新的規(guī)則合并與清除相似重復(fù)記錄,提取異常記錄,填充不完整數(shù)據(jù)中的缺失值。對于程序無法處理的數(shù)據(jù),就提交給用戶,由用戶進行人工處理利用評估庫中的評估方法對數(shù)據(jù)清洗的效果進行評估,并將清洗效果的情況反饋給用戶,用戶根據(jù)反饋結(jié)果決定是否進行重新清洗。若達到用戶要求,則把清洗后的干凈數(shù)據(jù)輸出到目標(biāo)數(shù)據(jù)源中,若未達到用戶的要求則重新選擇合適的清洗規(guī)則重新清洗數(shù)據(jù)。

其中最主要的為相似重復(fù)記錄檢測清洗數(shù)據(jù)的過程。為了能夠更好的適用于中文數(shù)據(jù)集的處理,算法首先采用關(guān)鍵字段字符的區(qū)位碼對數(shù)據(jù)集進行初始排序,將相似重復(fù)記錄大致排在鄰近的區(qū)域。由于數(shù)據(jù)倉庫的數(shù)據(jù)量比較大,為了提高對數(shù)據(jù)倉庫中大數(shù)據(jù)量的數(shù)據(jù)檢測的效率,首先要對大數(shù)據(jù)集進行處理,將大數(shù)據(jù)分割成多個小數(shù)據(jù)集,使得這些小數(shù)據(jù)集不相交。然后在分割后的小數(shù)據(jù)集中使用特征優(yōu)選算法選出有代表性的記錄字段,減少接下來所要匹配的字段的維數(shù),把維數(shù)從原來的t維降到q維,將不具有代表性的字段即對相似重復(fù)記錄檢測無關(guān)的字段刪除,從而減少相似重復(fù)記錄檢測時字段的匹配次數(shù),進而減少記錄檢測時的時間開銷,提高運行效率。為了進一步提高記錄的檢測精度,通過每個字段在記錄中的重要程度不同,給每個字段賦予不同的權(quán)值,通過字段加權(quán)匹配進而對記錄進行比較。為了有效地解決漏查的問題,還引入了多趟檢測方法。具體的思想如下:

(1)選取能區(qū)別記錄的關(guān)鍵字段或字段的某些位,計算出所選取關(guān)鍵字字符的區(qū)位碼,利用其對數(shù)據(jù)集進行初始排序,使相似記錄盡可能排在相鄰區(qū)域。接著根據(jù)分組思想,選擇關(guān)鍵字段將數(shù)據(jù)集逐步分割成多個小數(shù)據(jù)集,直到所得到的小數(shù)據(jù)集大小合適為止。

(2)對記錄進行排序、分組之后,需要在小數(shù)據(jù)集中運用特征優(yōu)選算法選出對記錄具有代表性的字段,刪除無關(guān)字段,減少字段維數(shù),以便減少下一步的相似重復(fù)記錄匹配時的字段比較次數(shù),從而減少的時間開銷,提高檢測效率。

(3)在各個小數(shù)據(jù)集中利用字段加權(quán)匹配的方法來檢測重復(fù)記錄,并且把檢測出來重復(fù)記錄作上標(biāo)記。

(4)在進行記錄檢測過程中,由于會存在重復(fù)記錄漏配的情況,為了解決此問題,可以使用多趟檢測技術(shù),每趟選取不同的關(guān)鍵字段或字段的某些位,對大的數(shù)據(jù)集進行重新分組,然后再分組后的小數(shù)據(jù)集中進行檢測,并且對檢測出的重復(fù)記錄作上重復(fù)標(biāo)記。

(5)將檢測出來的重復(fù)記錄按一定的規(guī)則輸出。

在上述的方法描述中,其中還應(yīng)用了漢字區(qū)位碼對其進行排序處理。選取關(guān)鍵字段,用關(guān)鍵字段字符的區(qū)位碼對數(shù)據(jù)集進行排序,將相似記錄盡量排在相鄰位置,為接下來的重復(fù)記錄檢測奠定良好的基礎(chǔ)。

對此,在計算機內(nèi)部,英文字符采用的是編碼標(biāo)準(zhǔn),而中文字符是采用國標(biāo)碼進行編碼的,一個漢字在計算機的國標(biāo)碼中以兩個字節(jié)位二進制數(shù)存儲,前一個字節(jié)前八位是區(qū)碼,后一個字節(jié)后八位是位碼。所有的國標(biāo)漢字與符號組成一個的方陣。即漢字字符集是一個有個區(qū),每個區(qū)有個位的方陣構(gòu)成。此方陣中,每一行代表一個“區(qū)”,每一列代表一個“位”。每個漢字的區(qū)號和位號都是從到,將區(qū)碼和位碼簡單地組合在一起就構(gòu)成了漢字的“區(qū)位碼”因此,在漢字的區(qū)位碼中,用高兩位表示區(qū)號,低兩位表示位號。例如“王”的區(qū)位碼為“4585”。

由于數(shù)據(jù)集中的數(shù)據(jù)量很大,所以在重復(fù)記錄檢測時,使用傳統(tǒng)方法對整個數(shù)據(jù)集中的所有記錄進行匹配比較需要進行大量的磁盤操作,會浪費大量的存儲空間,從而使得算法的運行速度緩慢。為了彌補這一缺陷,本發(fā)明通過關(guān)鍵字段字符的區(qū)位碼對數(shù)據(jù)集進行排序,這樣能夠減少常見的交換錯誤和同音字、近音字輸入錯誤的情況。同時,利用分組思想,把大數(shù)據(jù)集分割成多個小數(shù)據(jù)集,然后在各個小數(shù)據(jù)集中進行重復(fù)記錄的檢測,這樣做就可以減少磁盤操作的次數(shù),而且也能節(jié)省運行時的存儲空間,從而提高檢測效率。分組的思想如下:

(1)將記錄中的關(guān)鍵字段或關(guān)鍵字段的某些位選取出來,并將其區(qū)位碼計算出來,如果所選出的是關(guān)鍵字段的某一位,則計算出該字符所對應(yīng)的區(qū)位碼,如果所選出的的是關(guān)鍵字段的某幾位,則計算出這幾位所對應(yīng)的區(qū)位碼的平均值,如果選出的是整個的關(guān)鍵字段,則將該字段所有字符的區(qū)位碼計算出來,并計算出這些字符的平均值。

(2)利用所選出字符的區(qū)位碼排序整個記錄集,使得可能的重復(fù)記錄排在相鄰區(qū)域,以便進一步對數(shù)據(jù)集進行分組。

(3)對記錄的字符區(qū)位碼進行比較,如果記錄的區(qū)位碼是相等的,或記錄的區(qū)位碼的平均值相差不大,則將記錄聚集到一個數(shù)據(jù)集中,從而逐漸把大數(shù)據(jù)集分割成很多個不相交的小數(shù)據(jù)集。

(4)分組后如果還有比較大的數(shù)據(jù)集,則在該數(shù)據(jù)集中選取另外的關(guān)鍵字段繼續(xù)對該數(shù)據(jù)集進行分組。

(5)重復(fù)上一步,直至得到滿意的分組為止。

本發(fā)明還針對數(shù)據(jù)清洗方法中進一步提出了進行特征優(yōu)選的方法。由于記錄的字段是用來描述記錄特征的,但是不同字段由于其重要程度不同,因而對記錄的貢獻也是不同的,比如說,有些字段可以唯一確定一條記錄,而有些字段卻只能對記錄的某一方面進行描述。我們在比較兩記錄的相似性時,首先考慮關(guān)鍵字段,然后再考慮非關(guān)鍵字段。我們知道,一個記錄往往是由多個字段構(gòu)成的,如果對每個字段都進行匹配比較,會浪費很多時間,使檢測效率大打折扣,字段太少又不能反映出記錄的總體特征,而實際應(yīng)用中,我們事先并不知道能夠反映記錄特征的關(guān)鍵字段的準(zhǔn)確維數(shù)。因此我們需要通過一種方法,選取出能夠反映記錄特征的字段,只對這些字段進行匹配比較,這樣就可以減少檢測時間,提高檢測效率。字段優(yōu)選方法的基本思想是首先計算出各維字段的均值,根據(jù)每維字段在所有記錄中的字段值與該維字段的均值得出每維字段的方差設(shè)定一個閉值,用該閉值與每維屬性上的方差進行比較,將方差大于閉值的字段刪除,保留下來的字段即為特征字段,接下來的記錄檢測中只對這些特征字段進行匹配。其具體的方法如下:

(1)計算每個分組中個記錄各維字段的均值,計算出每維字段的方差,其中方差越大,則該字段越不具有代表性,具體計算公式如下:

其中,表示第k維字段的均值,表示記錄xik的字段值;

(2)所述方差與預(yù)設(shè)的閾值進行比較,將方差大于閾值的字段的序列號組成一個與數(shù)據(jù)記錄無關(guān)的字段的集合,將其刪除。

經(jīng)過特征屬性優(yōu)選后,保留了具有代表性的字段,刪除了不具有代表性的字段,從而壓縮了字段的維數(shù),接下來就要對相似重復(fù)記錄進行檢測,在記錄檢測時只對這些特征字段進行匹配比較。檢測之前,需根據(jù)實際情況給各字段分配適當(dāng)?shù)臋?quán)重。由于權(quán)重的大小決定了所對應(yīng)字段在記錄中的重要程度,因此需根據(jù)領(lǐng)域特征和實際情況給各特征字段分配相應(yīng)的權(quán)重,并且記錄的所有字段的權(quán)重之和為1。

通過本發(fā)明的方法,還需要通過字段匹配和記錄匹配確定最終的清洗數(shù)據(jù)結(jié)果。本發(fā)明利用關(guān)鍵字段字符的區(qū)位碼對數(shù)據(jù)集進行排序及分組,提高了算法的運行效率和檢測精度。并且通過特征字段優(yōu)選方法選出分組中具有代表性的字段,刪除無關(guān)字段,減少了相似重復(fù)記錄檢測時的字段匹配次數(shù),進而減少了記錄匹配的運行時間。能夠有效地解決大數(shù)據(jù)量的相似重復(fù)記錄檢測問題。

應(yīng)理解,說明書通篇中提到的“一個實施例”或“一實施例”意味著與實施例有關(guān)的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,在整個說明書各處出現(xiàn)的“在一個實施例中”或“在一實施例中”未必一定指相同的實施例。此外,這些特定的特征、結(jié)構(gòu)或特性可以任意適合的方式結(jié)合在一個或多個實施例中。應(yīng)理解,在本發(fā)明的各種實施例中,上述各過程的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本發(fā)明實施例的實施過程構(gòu)成任何限定。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。

需要說明的是,在本發(fā)明中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。

在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設(shè)備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,如:多個單元或組件可以結(jié)合,或可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設(shè)備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。

上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元;既可以位于一個地方,也可以分布到多個網(wǎng)絡(luò)單元上;可以根據(jù)實際的需要選擇其中的部分或全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。

本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:移動存儲設(shè)備、只讀存儲器(readonlymemory,rom)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

或者,本發(fā)明上述集成的單元如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明實施例的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分。而前述的存儲介質(zhì)包括:移動存儲設(shè)備、rom、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
娱乐| 怀集县| 囊谦县| 忻州市| 沁水县| 新营市| 交口县| 乌拉特前旗| 忻州市| 安岳县| 东乡族自治县| 北京市| 阳谷县| 清涧县| 镇原县| 祁连县| 华容县| 青岛市| 丹东市| 二手房| 上蔡县| 通化县| 囊谦县| 靖安县| 玛沁县| 应用必备| 铁岭县| 长海县| 财经| 普安县| 台南市| 巩留县| 玛曲县| 壤塘县| 襄城县| 抚宁县| 都匀市| 平遥县| 银川市| 游戏| 宁强县|