欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)清洗方法及系統(tǒng)與流程

文檔序號:11276472閱讀:616來源:國知局
一種數(shù)據(jù)清洗方法及系統(tǒng)與流程

本發(fā)明涉及計算機技術(shù),尤其涉及一種數(shù)據(jù)清洗方法及系統(tǒng)。



背景技術(shù):

數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中的可識別的錯誤,主要包括檢查數(shù)據(jù)一致性,處理數(shù)據(jù)中的無效值和缺失值等。目前,數(shù)據(jù)清洗的大部分工作都是通過機器完成,但是對于數(shù)據(jù)中存在的機器無法識別或糾正的錯誤,仍需通過人工來處理。

目前,對于數(shù)據(jù)中機器無法識別或糾正的錯誤,通常采用固定的若干個人來對數(shù)據(jù)進行清洗,然而,對于非常龐大的數(shù)據(jù)系統(tǒng)而言,這種采用固定人員進行數(shù)據(jù)清洗的方式,成本高,效率低。



技術(shù)實現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題是提供一種數(shù)據(jù)清洗方法及系統(tǒng),將需要進行人工清洗的數(shù)據(jù)進行任務切分,并將切分的任務通過眾包平臺發(fā)送給數(shù)量較多的不固定的任務領(lǐng)取者,從而完成數(shù)據(jù)的清洗,可以提高數(shù)據(jù)清洗效率以及降低成本。

為解決上述技術(shù)問題,本發(fā)明提供的技術(shù)方案是:

一方面,本發(fā)明提供一種數(shù)據(jù)清洗方法,包括,對需要進行人工清洗的數(shù)據(jù)進行任務切分;將切分好的任務發(fā)布到眾包平臺;接收任務領(lǐng)取者通過所述眾包平臺返回的人工清洗結(jié)果數(shù)據(jù),并將所述人工清洗結(jié)果數(shù)據(jù)與機器清洗結(jié)果數(shù)據(jù)進行整合。

進一步地,任務領(lǐng)取者的數(shù)量與任務的數(shù)量相等,且每個任務領(lǐng)取者只能領(lǐng)取一個任務。

進一步地,對需要進行人工清洗的數(shù)據(jù)進行任務切分,包括,根據(jù)數(shù)據(jù)質(zhì)量目標進行任務切分,其中,數(shù)據(jù)質(zhì)量目標包括數(shù)據(jù)一致性,實體同一性,精確性,時效性和信息完整性。

進一步地,在將切分好的任務發(fā)布到眾包平臺之前,還包括,對切分好的任務進行數(shù)據(jù)脫敏。

進一步地,對切分好的任務進行數(shù)據(jù)脫敏,包括對數(shù)據(jù)的至少一個字段的取值進行替換和/或打亂數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。

進一步地,將切分好的任務發(fā)布到眾包平臺,包括將切分好的任務采用隨機分布的方式發(fā)布到所述眾包平臺。

另一方面,本發(fā)明提供一種數(shù)據(jù)清洗系統(tǒng),包括,任務切分模塊:用于對需要進行人工清洗的數(shù)據(jù)進行任務切分;任務發(fā)布模塊:用于將切分好的任務發(fā)布到眾包平臺;數(shù)據(jù)整合模塊:用于接收任務領(lǐng)取者通過所述眾包平臺返回的人工清洗結(jié)果數(shù)據(jù),并將所述人工清洗結(jié)果數(shù)據(jù)與機器清洗結(jié)果數(shù)據(jù)進行整合。

進一步地,任務切分模塊包括,用于根據(jù)數(shù)據(jù)質(zhì)量目標進行任務切分,其中,數(shù)據(jù)質(zhì)量目標包括數(shù)據(jù)一致性,實體同一性,精確性,時效性和信息完整性。

進一步地,還包括任務脫敏模塊,用于對任務切分模塊中切分好的任務進行數(shù)據(jù)脫敏。

進一步地,任務脫敏模塊具體用于對數(shù)據(jù)的至少一個字段的取值進行替換和/或打亂數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。

本發(fā)明提供的數(shù)據(jù)清洗方法及系統(tǒng),將需要進行人工清洗的數(shù)據(jù)進行任務切分,并將切分的任務通過眾包平臺發(fā)送給數(shù)量較多的不固定的任務領(lǐng)取者,從而完成數(shù)據(jù)的清洗,可以提高數(shù)據(jù)清洗效率以及降低成本。

附圖說明

圖1是本發(fā)明實施例提供的數(shù)據(jù)清洗方法的流程圖;

圖2是本發(fā)明實施例提供的數(shù)據(jù)清洗系統(tǒng)的框圖。

具體實施方式

下面通過具體的實施例進一步說明本發(fā)明,但是,應當理解為,這些實施例僅僅是用于更詳細具體地說明之用,而不應理解為用于以任何形式限制本發(fā)明。

實施例一

結(jié)合圖1,本實施例提供的數(shù)據(jù)清洗方法,包括:

步驟s1:對需要進行人工清洗的數(shù)據(jù)進行任務切分;

步驟s2:將切分好的任務發(fā)布到眾包平臺;

步驟s3:接收任務領(lǐng)取者通過所述眾包平臺返回的人工清洗結(jié)果數(shù)據(jù),并將所述人工清洗結(jié)果數(shù)據(jù)與機器清洗結(jié)果數(shù)據(jù)進行整合。

本發(fā)明實施例提供的數(shù)據(jù)清洗方法,將需要進行人工清洗的數(shù)據(jù)進行任務切分,并將切分的任務通過眾包平臺發(fā)送給數(shù)量較多的不固定的任務領(lǐng)取者,從而完成數(shù)據(jù)的清洗,可以提高數(shù)據(jù)清洗效率以及降低成本。

優(yōu)選地,需要進行人工清洗的數(shù)據(jù)包括,機器在進行數(shù)據(jù)清洗過程中提交的異常數(shù)據(jù),這些異常數(shù)據(jù)包括,機器能夠發(fā)現(xiàn)但無法糾正錯誤的數(shù)據(jù),無法確定是否錯誤的數(shù)據(jù),以及無法確定錯誤類型的數(shù)據(jù)。

優(yōu)選地,任務領(lǐng)取者的數(shù)量與任務的數(shù)量相等,且每個任務領(lǐng)取者只能領(lǐng)取一個任務。優(yōu)選地,每一個任務領(lǐng)取者需要進行實名認證后才能夠進行任務的領(lǐng)取,且每個任務領(lǐng)取者只能領(lǐng)取一個任務。如此,可以避免惡意程序?qū)⑷舾蓚€任務中的數(shù)據(jù)進行重構(gòu),從而,可以避免因信息泄露造成的損失。

此外,每一個任務領(lǐng)取者在領(lǐng)取任務并按照規(guī)定完成數(shù)據(jù)清洗任務后,能夠獲得一定的酬勞,且每一個人都可以通過注冊賬號并實名認證來領(lǐng)取并完成任務。

進一步優(yōu)選地,對需要進行人工清洗的數(shù)據(jù)進行任務切分,包括,根據(jù)數(shù)據(jù)質(zhì)量目標進行任務切分,其中,數(shù)據(jù)質(zhì)量目標包括數(shù)據(jù)一致性,實體同一性,精確性,時效性和信息完整性。

本實施例中,數(shù)據(jù)一致性是指存在依賴關(guān)系的數(shù)據(jù)之間不存在邏輯矛盾。例如,對于同一個人,其年齡字段與學歷字段是存在依賴關(guān)系的,若年齡字段的取值為70,而其對應的學歷字段的取值為幼兒園,也就是說這個70歲的人正在讀幼兒園,顯然是矛盾的,即不滿足數(shù)據(jù)一致性。此外,實體同一性是指,同一數(shù)據(jù)庫或跨庫的兩條或兩條以上數(shù)據(jù)所對應的實體相同。例如,在兩條不同的數(shù)據(jù)中,雖然記錄的用戶名稱不完全一致,但實際上是同一個人,則稱這兩條數(shù)據(jù)是具有實體同一性的。精確性是指,當對于同一個實體,它具有多個數(shù)據(jù)來源時,篩選出最真實的數(shù)據(jù)的過程則是提高數(shù)據(jù)精確性的過程。時效性,是指數(shù)據(jù)往往具有時效性,保持數(shù)據(jù)的時效性就是需要不斷地對數(shù)據(jù)進行更新。信息完整性,是指對數(shù)據(jù)進行完整評估。

本實施例中,任務切分的具體方式與數(shù)據(jù)質(zhì)量目標有關(guān)。例如,若所選的數(shù)據(jù)質(zhì)量目標為實體同一性,則按條切分任務。

進一步優(yōu)選地,在將切分好的任務發(fā)布到眾包平臺之前,還包括,對切分好的任務進行數(shù)據(jù)脫敏。其中,脫敏的目的在于,減少任務中信息的暴露,以使得無法對數(shù)據(jù)進行重構(gòu)。本實施例中,對任務進行數(shù)據(jù)脫敏的方式包括,對數(shù)據(jù)的至少一個字段的取值進行替換和/或打亂數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。具體地,對數(shù)據(jù)中的字段取值進行替換,是選取不影響人工清洗的字段的取值進行替換,例如,可以將姓名進行替換,例如,張三替換成李三或者替換為李四,名字替換并不影響對任務的處理。此外,打亂數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,包括打亂數(shù)據(jù)間的時間關(guān)聯(lián)關(guān)系以及空間上的關(guān)聯(lián)關(guān)系。且進一步優(yōu)選地,本實施采用隨機分布的方式將任務發(fā)布到所述眾包平臺,如此可以進一步地避免任務數(shù)據(jù)重構(gòu)。例如,當一個人同時蓄意使用多個手機注冊認證,并領(lǐng)取任務時,他所領(lǐng)取的這多個任務也無法完成數(shù)據(jù)的重構(gòu),既能完成數(shù)據(jù)清洗,還能同時保證數(shù)據(jù)信息盡量不暴露。

進一步優(yōu)選地,通過眾包平臺返回的人工清洗結(jié)果數(shù)據(jù)還可以作為數(shù)據(jù)清洗機器的訓練數(shù)據(jù)樣本,從而提高機器對數(shù)據(jù)清洗的能力。此外,通過眾包平臺返回的人工清洗結(jié)果數(shù)據(jù)還可以作為機器進行數(shù)據(jù)清洗的規(guī)則的的依據(jù)或者直接作為機器進行數(shù)據(jù)清洗的規(guī)則。也即是說,可以提高數(shù)據(jù)清洗機器對數(shù)據(jù)的清洗能力。

實施例二

結(jié)合圖2,本發(fā)明實施例提供的數(shù)據(jù)清洗系統(tǒng),包括,任務切分模塊1:用于對需要進行人工清洗的數(shù)據(jù)進行任務切分;任務發(fā)布模塊2:用于將切分好的任務發(fā)布到眾包平臺;數(shù)據(jù)整合模塊3:用于接收任務領(lǐng)取者通過所述眾包平臺返回的人工清洗結(jié)果數(shù)據(jù),并將所述人工清洗結(jié)果數(shù)據(jù)與機器清洗結(jié)果數(shù)據(jù)進行整合。

本發(fā)明實施例提供的數(shù)據(jù)清洗系統(tǒng),將需要進行人工清洗的數(shù)據(jù)進行任務切分,并將切分的任務通過眾包平臺發(fā)送給數(shù)量較多的不固定的任務領(lǐng)取者,從而完成數(shù)據(jù)的清洗,可以提高數(shù)據(jù)清洗效率以及降低成本。

優(yōu)選地,需要進行人工清洗的數(shù)據(jù)包括,機器在進行數(shù)據(jù)清洗過程中提交的異常數(shù)據(jù),這些異常數(shù)據(jù)包括,機器能夠發(fā)現(xiàn)但無法糾正錯誤的數(shù)據(jù),無法確定是否錯誤的數(shù)據(jù),以及無法確定錯誤類型的數(shù)據(jù)。

優(yōu)選地,任務領(lǐng)取者的數(shù)量與任務的數(shù)量相等,且每個任務領(lǐng)取者只能領(lǐng)取一個任務。優(yōu)選地,每一個任務領(lǐng)取者需要進行實名認證后才能夠進行任務的領(lǐng)取,且每個任務領(lǐng)取者只能領(lǐng)取一個任務。如此,可以避免惡意程序?qū)⑷舾蓚€任務中的數(shù)據(jù)進行重構(gòu),從而,可以避免因信息泄露造成的損失。

此外,每一個任務領(lǐng)取者在領(lǐng)取任務并按照規(guī)定完成數(shù)據(jù)清洗任務后,能夠獲得一定的酬勞,且每一個人都可以通過注冊賬號并實名認證來領(lǐng)取并完成任務。

進一步優(yōu)選地,任務切分模塊1包括,用于根據(jù)數(shù)據(jù)質(zhì)量目標進行任務切分,其中,數(shù)據(jù)質(zhì)量目標包括數(shù)據(jù)一致性,實體同一性,精確性,時效性和信息完整性。

本實施例中,數(shù)據(jù)一致性是指存在依賴關(guān)系的數(shù)據(jù)之間不存在邏輯矛盾。例如,對于同一個人,其年齡字段與學歷字段是存在依賴關(guān)系的,若年齡字段的取值為70,而其對應的學歷字段的取值為幼兒園,也就是說這個70歲的人正在讀幼兒園,顯然是矛盾的,即不滿足數(shù)據(jù)一致性。此外,實體同一性是指,同一數(shù)據(jù)庫或跨庫的兩條或兩條以上數(shù)據(jù)所對應的實體相同。例如,在兩條不同的數(shù)據(jù)中,雖然記錄的用戶名稱不完全一致,但實際上是同一個人,則稱這兩條數(shù)據(jù)是具有實體同一性的。精確性是指,當對于同一個實體,它具有多個數(shù)據(jù)來源時,篩選出最真實的數(shù)據(jù)的過程則是提高數(shù)據(jù)精確性的過程。時效性,是指數(shù)據(jù)往往具有時效性,保持數(shù)據(jù)的時效性就是需要不斷地對數(shù)據(jù)進行更新。信息完整性,是指對數(shù)據(jù)進行完整評估。

本實施例中,任務切分的具體方式與數(shù)據(jù)質(zhì)量目標有關(guān)。例如,若所選的數(shù)據(jù)質(zhì)量目標為實體同一性,則按條切分任務。

進一步地,還包括任務脫敏模塊,用于對任務切分模塊1中切分好的任務進行數(shù)據(jù)脫敏。其中,脫敏的目的在于,減少任務中信息的暴露,以使得無法對數(shù)據(jù)進行重構(gòu)。本實施例中,對任務進行數(shù)據(jù)脫敏的方式包括,對數(shù)據(jù)的至少一個字段的取值進行替換和/或打亂數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。具體地,對數(shù)據(jù)中的字段取值進行替換,是選取不影響人工清洗的字段的取值進行替換,例如,可以將姓名進行替換,例如,張三替換成李三或者替換為李四,名字替換并不影響對任務的處理。此外,打亂數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,包括打亂數(shù)據(jù)間的時間關(guān)聯(lián)關(guān)系以及空間上的關(guān)聯(lián)關(guān)系。且進一步優(yōu)選地,本實施采用隨機分布的方式將任務發(fā)布到所述眾包平臺,如此可以進一步地避免任務數(shù)據(jù)重構(gòu)。例如,當一個人同時蓄意使用多個手機注冊認證,并領(lǐng)取任務時,他所領(lǐng)取的這多個任務也無法完成數(shù)據(jù)的重構(gòu),既能完成數(shù)據(jù)清洗,還能同時保證數(shù)據(jù)信息盡量不暴露。

進一步優(yōu)選地,通過眾包平臺返回的人工清洗結(jié)果數(shù)據(jù)還可以作為數(shù)據(jù)清洗機器的訓練數(shù)據(jù)樣本,從而提高機器對數(shù)據(jù)清洗的能力。此外,通過眾包平臺返回的人工清洗結(jié)果數(shù)據(jù)還可以作為機器進行數(shù)據(jù)清洗的規(guī)則的的依據(jù)或者直接作為機器進行數(shù)據(jù)清洗的規(guī)則。也即是說,可以提高數(shù)據(jù)清洗機器對數(shù)據(jù)的清洗能力。

盡管本發(fā)明已進行了一定程度的描述,明顯地,在不脫離本發(fā)明的精神和范圍的條件下,可進行各個條件的適當變化??梢岳斫?,本發(fā)明不限于所述實施方案,而歸于權(quán)利要求的范圍,其包括所述每個因素的等同替換。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
泾阳县| 镇赉县| 宕昌县| 济南市| 呼和浩特市| 顺义区| 菏泽市| 凤庆县| 五原县| 历史| 正宁县| 老河口市| 中山市| 长泰县| 岚皋县| 仪征市| 新田县| 彰化市| 南安市| 莱西市| 金昌市| 德昌县| 平顶山市| 泸溪县| 通山县| 孙吴县| 博野县| 尤溪县| 台江县| 富阳市| 阿克苏市| 沁水县| 青州市| 扎囊县| 嘉定区| 武宣县| 徐汇区| 东方市| 东丽区| 新乡市| 阳曲县|