提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法及清洗系統(tǒng)的制作方法

文檔序號：6466575閱讀：284來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法及清洗系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)庫領(lǐng)域，特別是涉及對數(shù)據(jù)倉庫中目標(biāo)數(shù)據(jù)進(jìn)行清洗的數(shù)據(jù)清洗方法及數(shù)據(jù)清洗系統(tǒng)。
背景技術(shù)：
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題、集成的、與時間相關(guān)的、不
可修改的數(shù)據(jù)集合。也就是說，對所有的應(yīng)用系統(tǒng)，例如客戶關(guān)系管理(CRM, Customer Relationship Management)系統(tǒng)、財務(wù)系統(tǒng)等，按主題進(jìn)行集成，并記錄整個歷史變化情況。隨著企業(yè)信息化程度的不斷提高，企業(yè)內(nèi)部積累了大量的業(yè)務(wù)數(shù)據(jù)，數(shù)據(jù)倉庫用于對這些相互獨立、分散的數(shù)據(jù)進(jìn)行統(tǒng)一處理，以滿足企業(yè)高層決策與分析需要。
參照圖1,其為數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)框圖。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu)，包括數(shù)據(jù)源101、數(shù)據(jù)倉庫102、聯(lián)機(jī)分析處理 (OLAP, on-line analytical processing)系統(tǒng)103及前端工具104，其中
數(shù)據(jù)源101，是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ)，通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)，外部信息包括各類法律法規(guī)、市場信息和竟?fàn)帉κ值男畔⒌?。例如，CRM系統(tǒng)，財務(wù)系統(tǒng)。
數(shù)據(jù)倉庫102，是以數(shù)據(jù)表的結(jié)構(gòu)存儲所述數(shù)據(jù)源101的數(shù)據(jù)，每個數(shù)據(jù) 表對應(yīng) 一個數(shù)據(jù)對象，一個數(shù)據(jù)源可以對應(yīng)多個數(shù)據(jù)對像。
OLAP系統(tǒng)103，用于對分析需要的數(shù)據(jù)進(jìn)行有效集成，按多維模型予以組織，以便進(jìn)行多角度、多層次的分析，并發(fā)現(xiàn)趨勢。
前端工具104，主要包括各種報表工具，查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù) 挖掘工具以及各種基于數(shù)據(jù)倉庫的應(yīng)用開發(fā)工具，實現(xiàn)對數(shù)據(jù)倉庫102的訪問。其中，數(shù)據(jù)分析工具主要針對OLAP服務(wù)器，才艮表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫的ETL模塊是對數(shù)據(jù)抽取(extract)、轉(zhuǎn)換(Transform )、清洗 (Cleansing)、裝載(Load)的過程，是對OLAP系統(tǒng)開發(fā)的過程。其中，所述數(shù)據(jù)抽取是指從源系統(tǒng)中提取數(shù)據(jù)；所述數(shù)據(jù)轉(zhuǎn)換是指開發(fā)者將提取的數(shù)據(jù) 進(jìn)行轉(zhuǎn)換，lt據(jù)清洗是指將提取的數(shù)據(jù)按照業(yè)務(wù)需要轉(zhuǎn)換為目標(biāo)數(shù)據(jù)結(jié)構(gòu)，并實現(xiàn)匯總；所述數(shù)據(jù)裝載是指加載經(jīng)轉(zhuǎn)換和匯總的數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉庫中。每一ETL模塊用于完成對數(shù)據(jù)的一項處理，如上述提及的數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、裝載，并對處理結(jié)果以數(shù)據(jù)表的形式保存在數(shù)據(jù)倉庫中，以提供企業(yè) 管理和決策中使用。
在現(xiàn)有的ETL過程中，數(shù)據(jù)源101中的數(shù)據(jù)質(zhì)量是一個非常令人頭疼的問題，沒有良好數(shù)據(jù)質(zhì)量的數(shù)據(jù)源，使得ELT模塊處理后的數(shù)據(jù)表，并不一定能體現(xiàn)用戶的真實信息，很容易誤導(dǎo)公司的決策。特別是在互聯(lián)網(wǎng)上，通常存在很多用戶不能信任服務(wù)提供商或者保護(hù)自身的隱私的角度不填寫真實信息的情況發(fā)生，基于這些不準(zhǔn)確或沒有填寫的資料進(jìn)行數(shù)據(jù)清洗時，通常是通過一個原始數(shù)據(jù)的簡單加工輸出至目標(biāo)數(shù)據(jù)，這種清選得到的數(shù)據(jù)準(zhǔn)確性差，容易使得數(shù)據(jù)準(zhǔn)備性偏差，這給后續(xù)的分析和模型實踐帶來一定的誤差，從而一定程度上誤導(dǎo)決策者的決策支持作用。

發(fā)明內(nèi)容
本發(fā)明的第一目的在于提供一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，以解決現(xiàn)有技術(shù)中從數(shù)據(jù)源中得到的目標(biāo)數(shù)據(jù)質(zhì)量不好，從而給后續(xù)的分析和模型實踐帶來一定誤差的技術(shù)問題。
本發(fā)明的第二目的在于提供一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗系統(tǒng)。為了達(dá)到上述目的，本發(fā)明進(jìn)一步提供了提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，用以提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性，包括以下步驟
(1) 從數(shù)據(jù)源中找到與所述目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項Al,A2…An;
(2) 建立邏輯處理模型
(21) 根據(jù)每一原始字段項中影響目標(biāo)數(shù)據(jù)的因素大小確定每一原始字段項的權(quán)重值ql, q2…qn;
(22) 確定該目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql，Gl(Al))， M2(q2， G2(A2))，…Mn(qn，Gn(An))) 其中，Al，A2…An分別為原始字段項，G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中l(wèi)t據(jù)屬性的屬性函數(shù)，ql， q2…qn為每一原始字段項的權(quán)重值；Ml(ql,Gl(Al), M2(q2， G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；
(3)在每一次數(shù)據(jù)清洗時，找到所有的原始字段項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
較優(yōu)地，步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率，所述所有權(quán)重值為相同，所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值；步驟(3)進(jìn)一步包括，先找到所有的原始字段項，然后統(tǒng)計每一原始字段項中每一變量出現(xiàn)的概率，隨后將不同字段項中相同值的變量的概率值進(jìn)行相加，其概率值最大的變量為本次數(shù)據(jù)清洗的目標(biāo)數(shù)據(jù)值。
較優(yōu)地，步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率，所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值；步驟(3)進(jìn)一步包括，先找到所有的原始字段項，然后統(tǒng)計每一原始字段項中每一變量出現(xiàn)的概率，每一原始字段項的影響函數(shù)值為該原始字段中概率最高的變量值，隨后統(tǒng)計所有影響函數(shù)值，其相同值最多的影響函數(shù)值為本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
較優(yōu)地，步驟(2)中確定每一原始字段項的權(quán)重值中某一字段項的權(quán)重為最大比重值；步驟(3)進(jìn)一步包括找到該原始字段項，按照預(yù)先設(shè)定的該原始字段項的影響函數(shù)來確定本次lt據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
本發(fā)明還包括定期或事件觸發(fā)式地修改邏輯處理模型，至少刪除、增加或修改原始字段項、修改屬性函數(shù)、各權(quán)重值、影響函數(shù)、確定函數(shù)的其中之一操作；當(dāng)進(jìn)行數(shù)據(jù)清洗時，按照修改后的邏輯處理模型進(jìn)行該目標(biāo)數(shù) 據(jù)值的清洗。
本發(fā)明進(jìn)一步包括定期或事件觸發(fā)式地修改邏輯處理模型，在該邏輯處理模型中增加新目標(biāo)數(shù)據(jù)清洗的確定函數(shù)；當(dāng)進(jìn)行數(shù)據(jù)清洗時，清洗新增目標(biāo)數(shù)據(jù)的數(shù)據(jù)寸直。
一種數(shù)據(jù)清洗系統(tǒng)，包括數(shù)據(jù)庫和服務(wù)器，其中，數(shù)據(jù)庫包括數(shù)據(jù)源和數(shù)據(jù)倉庫，所述數(shù)據(jù)源用于實時存儲用戶進(jìn)行商務(wù)處理的數(shù)據(jù)，所述數(shù)據(jù)倉
庫還用于存儲每一目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql，Gl(Al))， M2(q2， G2(A2)),…Mn(qn,Gn(An)))
其中，Al,A2.,.An分別為原始字段項，G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，ql, q2…qn為每一原始字段項的權(quán)重值；Ml(ql，Gl(Al)， M2(q2, G2(A2)).. Mn(qn，Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；
服務(wù)器至少包括一智能清洗單元，用于在每一數(shù)據(jù)清洗過程中找到所有的原始字段項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
而本發(fā)現(xiàn)，可以在原有的數(shù)據(jù)基礎(chǔ)上，通過更成熟和智能化的算法實現(xiàn) 數(shù)據(jù)的加工處理，充分利用各個源數(shù)據(jù)共同服務(wù)于目標(biāo)數(shù)據(jù)，避免了以前的那種使用單一某項數(shù)據(jù)或數(shù)據(jù)缺失帶來的數(shù)據(jù)偏差，^使得數(shù)據(jù)清洗不再無序和單一，使得目標(biāo)數(shù)據(jù)表中的數(shù)據(jù)更加完整，提高了數(shù)據(jù)質(zhì)量。

圖1為數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)框圖2為本發(fā)明提供的一種數(shù)據(jù)清洗系統(tǒng)的結(jié)構(gòu)示意圖3為智能清洗單元的一處理邏輯示意圖4為本發(fā)明的一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法的流程圖。
具體實施例方式
以下結(jié)合附圖，具體說明本發(fā)明。
請參閱圖2，本發(fā)明提供了一種數(shù)據(jù)清洗系統(tǒng)的結(jié)構(gòu)示意圖。它包括數(shù)據(jù) 庫21和服務(wù)器22,其中，數(shù)據(jù)庫21包括數(shù)據(jù)源211和數(shù)據(jù)倉庫212，數(shù)據(jù) 源211用于實時存儲用戶進(jìn)行商務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫212還用于存儲每一目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql，Gl(Al)), M2(q2， G2(A2)),…Mn(qn，Gn(An)))
其中，Al，A2…An分別為原始字段項，G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，ql, q2…qn為每一原始字段項
8的權(quán)重值；Ml(ql,Gl(Al), M2(q2， G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；
服務(wù)器22至少包括一智能清洗單元221，用于在每一數(shù)據(jù)清洗過程中找到所有的原始字^R項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
事實上，在服務(wù)器22上通過軟件設(shè)置一智能清洗單元221即可完成本發(fā) 明的清洗功能。
請參閱圖3，其為智能清洗單元221的一處理邏輯示意圖。它包括原始數(shù) 據(jù)池223、邏輯處理模型224和目標(biāo)數(shù)據(jù)項單元225。
原始數(shù)據(jù)池223中存儲與該目標(biāo)數(shù)據(jù)相關(guān)的原始字段項。
邏輯處理模型224保存每一目標(biāo)數(shù)據(jù)值的所包含的原始字段項、每一原始字段項的屬性函數(shù)、影響函數(shù)及確定函數(shù)
目標(biāo)數(shù)據(jù)量=f(Ml(ql，Gl(Al))， M2(q2， G2(A2)),…Mn(qn，Gn(An))) 其中，Al,A2…An分別為原始字段項，G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，ql, q2…qn為每一原始字段項的權(quán)重值；Ml(ql,Gl(Al), M2(q2， G2(A2)).. Mn(qn，Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)。
目標(biāo)數(shù)據(jù)項單元225用于保存每一次清洗的目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。請參閱圖4，其為本發(fā)明的一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法的流程圖。它用以提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性，包括以下步驟
S110:從lt據(jù)源中找到與目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項Al,A2…An;
S120:建立邏輯處理模型
S121:根據(jù)每一原始字段項中影響目標(biāo)數(shù)據(jù)的因素大小確定每一原始字段項的權(quán)重值ql， q2…qn;
S122:確定該目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al))， M2(q2， G2(A2))，…Mn(qn，Gn(An)))其中，Al，A2…An分別為原始字段項，G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，ql， q2…qn為每一原始字段項的權(quán)重值；Ml(ql，Gl(Al), M2(q2， G2(A2)).. Mn(qn，Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；
S130:在每一次數(shù)據(jù)清洗時，找到所有的原始字段項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
以下就舉一應(yīng)用例來說明本發(fā)明。
考慮到很多用戶在填寫其所在地址時，存在"不填寫"或"填寫信息不準(zhǔn)確，，這些情況，為此可以以目標(biāo)數(shù)據(jù)"用戶地址，，來建成邏輯處理;溪型。
預(yù)先確定原始字段項，如包括用戶填寫的字段項"收貨地址"、"用戶所在的IP地址"、用戶用于支付銀行卡的"銀行卡開戶行所在地址"。
可以由很多方式確定"用戶地址，，的邏輯處理模型。
第一種方式為確定每一原始字段項的權(quán)重值都為1;
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2))，…Mn(qn，Gn(An)))
G1(A1)為"收貨地址"出現(xiàn)的字段變量，G2(A2)為"用戶所在的IP地址" 所在的地址的字段變量，Gn(An)為"銀行卡開戶行所在地址"的字段變量， Ml(ql，Gl(Al))為"收貨地址"出現(xiàn)的字段變量中每一變量的概率值；M2(q2， G2(A2))為"用戶所在的IP地址"所在的地址的字段變量中每一變量的概率值； Mn(qn,Gn(An))為"銀行卡開戶行所在地址"的字段變量中每一變量的概率值；所述f(Ml(ql，Gl(Al))， M2(q2， G2(A2))，…Mn(qn，Gn(An)))為概率最高的變量為目標(biāo)數(shù)據(jù)值，即影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率，所述所有權(quán)重值為相同，所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值。
在每一次數(shù)據(jù)清洗時，比如一個月后進(jìn)行數(shù)據(jù)清洗，統(tǒng)計每一原始字段項中每一變量出現(xiàn)的概率，隨后將不同字段項中相同值的變量的概率值進(jìn)行相加，其概率值最大的變量為本次數(shù)據(jù)清洗的目標(biāo)數(shù)據(jù)值。
第二種方式為影響函^:為每一原始字段中的變量出現(xiàn)的概率，確定函數(shù)是
10指概率最高的變量為目標(biāo)數(shù)據(jù)值。
在每一次數(shù)據(jù)清洗時，先找到所有的原始字段項，然后統(tǒng)計每一原始字段項中每一變量出現(xiàn)的概率，每一原始字段項的影響函數(shù)值為該原始字段中概率最高的變量值，隨后統(tǒng)計所有影響函數(shù)值，其相同值最多的影響函數(shù)值為本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
第三種方式為確定每一原始字段項的權(quán)重值中某一字段項的權(quán)重為最大
比重值。比如，確定"銀行卡開戶行所在地址，，的字段項的權(quán)重為80%。
在每一次數(shù)據(jù)清洗，找到該原始字段項，按照預(yù)先設(shè)定的該原始字段項的影響函數(shù)來確定本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。如果"銀行卡開戶行所在地址，，在哪，哪就是目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
上述所舉的僅是本發(fā)明的應(yīng)用例，本發(fā)明并非局限于此。
本發(fā)明通過目前系統(tǒng)中已有的數(shù)據(jù)信息進(jìn)行加工和處理，將原先用戶并未直接填寫或者未有任何直接數(shù)據(jù)的前提下(其它場景也類似)，通過若干個原始數(shù)據(jù)關(guān)系信息的運算和相關(guān)權(quán)重，得到"最匹配"的信息，從而將某些缺失數(shù)據(jù)或者低質(zhì)量數(shù)據(jù)得到質(zhì)量提升，以滿足應(yīng)用和數(shù)據(jù)分析的需要。請注意，這里是有若干個原始數(shù)據(jù)會被同時處理，該技術(shù)通過幾個都可以影響目標(biāo)變量的原始變量進(jìn)行邏輯運算，根據(jù)一系列條件和因素，得到最符合目標(biāo) 變量值的處理過程，然后再將該過程后的變量值填寫到目標(biāo)變量或數(shù)據(jù)中。
本發(fā)明還可以定期或事件觸發(fā)式地修改邏輯處理模型，至少刪除、增加或修改原始字)炎項、修改屬性函數(shù)、各權(quán)重值、影響函數(shù)、確定函數(shù)的其中之一操作；當(dāng)進(jìn)行數(shù)據(jù)清洗時，按照修改后的邏輯處理模型進(jìn)行該目標(biāo)數(shù)據(jù) 值的清洗。
本發(fā)明也可以定期或事件觸發(fā)式地修改邏輯處理;f莫型，在該邏輯處理模型中增加新目標(biāo)數(shù)據(jù)清洗的確定函數(shù)；當(dāng)進(jìn)行數(shù)據(jù)清洗時，清洗新增目標(biāo)數(shù) 據(jù)的數(shù)據(jù)值。
以上公開的僅為本發(fā)明的幾個具體實施例，但本發(fā)明并非局限于此，任何本領(lǐng)域的技術(shù)人員能思之的變化，都應(yīng)落在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1、一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，用以提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性，其特征在于，包括以下步驟(1)從數(shù)據(jù)源中找到與所述目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項A1，A2...An；(2)建立邏輯處理模型(21)根據(jù)每一原始字段項中影響目標(biāo)數(shù)據(jù)的因素大小確定每一原始字段項的權(quán)重值q1，q2...qn；(22)確定該目標(biāo)數(shù)據(jù)值的邏輯處理模型目標(biāo)數(shù)據(jù)量＝f(M1(q1，G1(A1))，M2(q2，G2(A2))，...Mn(qn，Gn(An)))其中，A1，A2...An分別為原始字段項，G1(A1)、G2(A2)...Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，q1，q2...qn為每一原始字段項的權(quán)重值；M1(q1，G1(A1)，M2(q2，G2(A2))..Mn(qn，Gn(An))為影響目標(biāo)數(shù)據(jù)值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；(3)在每一次數(shù)據(jù)清洗時，找到所有的原始字段項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
2、如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，其特征在于，步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率，所述所有權(quán)重值為相同，所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值；步驟(3)進(jìn)一步包括，先找到所有的原始字段項，然后統(tǒng)計每一原始字段項中每一變量出現(xiàn)的概率，隨后將不同字段項中相同值的變量的概率值進(jìn)行相加，其概率值最大的變量為本次數(shù)據(jù)清洗的目標(biāo)數(shù)據(jù)值。
3、如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，其特征在于，步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率，所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值；步驟(3)進(jìn)一步包括，先找到所有的原始字段項，然后統(tǒng)計每一原始字殺: 項中每一變量出現(xiàn)的概率，每一原始字段項的影響函數(shù)值為該原始字段中概率最高的變量值，隨后統(tǒng)計所有影響函數(shù)值，其相同值最多的影響函數(shù)值為本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
4、如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，其特征在于，步驟(2)中確定每一原始字段項的權(quán)重值中某一字段項的權(quán)重為最大比重值；步驟(3)進(jìn)一步包括找到該原始字段項，按照預(yù)先設(shè)定的該原始字段項的影響函數(shù)來確定本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
5、如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，其特征在于，還包括定期或事件觸發(fā)式地修改邏輯處理模型，至少刪除、增加或修改原始字段項、修改屬性函數(shù)、各權(quán)重值、影響函數(shù)、確定函數(shù)的其中之一操作；當(dāng)進(jìn)行數(shù)據(jù)清洗時，按照修改后的邏輯處理模型進(jìn)行該目標(biāo)數(shù)據(jù)值的清洗。
6、如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，其特征在于，還包括定期或事件觸發(fā)式地修改邏輯處理模型，在該邏輯處理模型中增加新目標(biāo)數(shù)據(jù)清洗的確定函數(shù)；當(dāng)進(jìn)行數(shù)梧清洗時,清洗新增目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
7、一種數(shù)據(jù)清洗系統(tǒng)，其特征在于，包括數(shù)據(jù)庫和服務(wù)器，其中，數(shù)據(jù) 庫包括數(shù)據(jù)源和數(shù)據(jù)倉庫，所述數(shù)據(jù)源用于實時存儲用戶進(jìn)行商務(wù)處理的數(shù) 據(jù)，所述數(shù)據(jù)倉庫還用于存儲每一目標(biāo)數(shù)據(jù)值的邏輯處理模型目標(biāo)數(shù)據(jù)量=f(Ml(ql，Gl(Al)), M2(q2, G2(A2))，…Mn(qn,Gn(An)))其中，Al,A2…An分別為原始字段項，G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，ql， q2…qn為每一原始字段項的權(quán)重值；Ml(ql，Gl(Al)， M2(q2， G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；所述服務(wù)器至少包括一智能清洗單元，用于在每一數(shù)據(jù)清洗過程中找到所有的原始字段項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
全文摘要
一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法，包括(1)從數(shù)據(jù)源中找到與所述目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項A1，A2...An；(2)建立邏輯處理模型目標(biāo)數(shù)據(jù)量＝f(M1(q1，G1(A1))，M2(q2，G2(A2))，...Mn(qn，Gn(An)))其中，A1，A2...An分別為原始字段項，G1(A1)、G2(A2)...Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù)，q1，q2...qn為每一原始字段項的權(quán)重值；M1(q1，G1(A1)，M2(q2，G2(A2))..Mn(qn，Gn(An))為影響目標(biāo)數(shù)據(jù)值的每一原始字段分值的影響函數(shù)，f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù)；(3)在每一次數(shù)據(jù)清洗時，找到所有的原始字段項，根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。本發(fā)明能夠提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性。
文檔編號G06F17/30GK101676900SQ20081014903
公開日2010年3月24日申請日期2008年9月18日優(yōu)先權(quán)日2008年9月18日
發(fā)明者向繼新, 徐建軍申請人:阿里巴巴集團(tuán)控股有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐建軍;向繼新
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

如何提高數(shù)據(jù)的準(zhǔn)確性相關(guān)技術(shù)

數(shù)據(jù)準(zhǔn)確性相關(guān)技術(shù)

如何保證數(shù)據(jù)的準(zhǔn)確性相關(guān)技術(shù)

數(shù)據(jù)的準(zhǔn)確性和及時性相關(guān)技術(shù)

數(shù)據(jù)準(zhǔn)確性測試相關(guān)技術(shù)

數(shù)據(jù)的準(zhǔn)確性相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法及清洗系統(tǒng)的制作方法