欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于知識的數(shù)據(jù)質(zhì)量解決方案體系結(jié)構(gòu)的制作方法

文檔序號:6380445閱讀:207來源:國知局
專利名稱:基于知識的數(shù)據(jù)質(zhì)量解決方案體系結(jié)構(gòu)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及數(shù)據(jù)質(zhì)量,尤其涉及基于知識的數(shù)據(jù)質(zhì)量方案。
背景技術(shù)
隨著計算技術(shù)的提高以及計算設(shè)備變得更普遍,出于個人和公務(wù)原因使用計算機對于日?;顒右呀?jīng)變得常見。為了跟上需求,數(shù)據(jù)集合呈指數(shù)級增長。數(shù)據(jù)集合以及數(shù)據(jù)的后續(xù)處理的目的在于理解所收集數(shù)據(jù)的意義,并出于有用的目的匯編所搜集的數(shù)據(jù)。與數(shù)據(jù)的累積以及數(shù)據(jù)的任何相應(yīng)使用相關(guān)聯(lián)的問題在于數(shù)據(jù)內(nèi)包含的錯誤(例如低質(zhì)量數(shù)據(jù))。錯誤的示例可包括不正確的數(shù)據(jù)、缺失的數(shù)據(jù)、拼寫錯誤、誤置數(shù)據(jù)、重復(fù)數(shù)據(jù)、以及其它問題。依賴含錯誤數(shù)據(jù)的人和公司可基于該數(shù)據(jù)作出決定、分析、和/或其它動作,并且如果該數(shù)據(jù)有缺陷,則所得到的決定、分析等等也會是有缺陷的。如果事后發(fā) 現(xiàn)錯誤,則會損壞數(shù)據(jù)的置信度和相關(guān)信任。在一些情形中,如果數(shù)據(jù)不滿足足夠的質(zhì)量水平,則該數(shù)據(jù)可能無法加以信賴。一些系統(tǒng)利用一般方法來改進數(shù)據(jù)質(zhì)量。該一般方法基于“一視同仁”(one-sizefits all)的思想。例如,該一般方法對數(shù)據(jù)應(yīng)用一般算法,以嘗試凈化或改進數(shù)據(jù)的質(zhì)量。由于一般算法是不管數(shù)據(jù)內(nèi)容為何就應(yīng)用的,因此一般方法僅能提供有限的解決方案。在一些情形中,一般方法可能無法解決與數(shù)據(jù)相關(guān)聯(lián)的問題。由此,已用一般算法凈化的數(shù)據(jù)的質(zhì)量仍然會較低,因為原來的問題并沒有得到解決。當(dāng)今計算系統(tǒng)和數(shù)據(jù)質(zhì)量方案的上述缺點僅旨在提供常規(guī)系統(tǒng)的一些問題的概覽,并且不旨在是窮盡性的。常規(guī)系統(tǒng)的其他問題以及此處所描述的各非限制性實施例的對應(yīng)益處可以在審閱以下描述后變得更顯而易見。

發(fā)明內(nèi)容
此處提供了簡化的發(fā)明內(nèi)容以幫助能夠?qū)σ韵赂敿毜拿枋龊透綀D中的示例性、非限制性實施例的各方面有基本或大體的理解。然而,本發(fā)明內(nèi)容并不旨在是詳盡的或窮盡的。相反,本發(fā)明內(nèi)容的唯一目的在于,以簡化的形式提出與一些示例性、非限制性實施例相關(guān)的一些概念,作為以下各實施例的更詳細的描述的序言。本文中所揭示的各個方面涉及提供基于知識的數(shù)據(jù)質(zhì)量解決方案。該數(shù)據(jù)質(zhì)量解決方案基于關(guān)于數(shù)據(jù)的知識的采集與數(shù)據(jù)處理的明確分離。還提供一種可傳遞、可移動、可插入的知識容器(例如,知識庫)。該數(shù)據(jù)質(zhì)量解決方案還提供受引導(dǎo)的知識采集和向基于云的知識的無縫可擴展性。另一方面涉及從內(nèi)部信息(例如,來自客戶機或來自數(shù)據(jù)本身)和外部信息(例如,來自包含數(shù)據(jù)質(zhì)量解決方案知識供下載的第三方網(wǎng)站)獲取有關(guān)數(shù)據(jù)的知識(例如,知識庫的創(chuàng)建)。進一步針對此方面地,應(yīng)用知識庫來凈化數(shù)據(jù)、剖析數(shù)據(jù)、或執(zhí)行語義去重復(fù)。又一方面涉及一種包括數(shù)據(jù)質(zhì)量服務(wù)器(及內(nèi)部組件)的體系結(jié)構(gòu),該數(shù)據(jù)質(zhì)量服務(wù)器鏈接客戶機和包含數(shù)據(jù)質(zhì)量解決方案知識以供下載的第三方網(wǎng)站。此外,一方面涉及計算機輔助的知識采集和交互式凈化。再一方面涉及創(chuàng)建域、合成域以及交叉域。這些域是可移動、可下載的,并且可被共享。這些和其他實施例在下文中更詳細地描述。


參考附圖進一步描述各非限制性實施例,在附圖中圖I示出根據(jù)一方面的示例性計算系統(tǒng)的框圖;圖2示出根據(jù)一方面的配置成提供知識驅(qū)動的數(shù)據(jù)質(zhì)量解決方案的系統(tǒng)的框圖;圖3示出根據(jù)一方面的用于數(shù)據(jù)質(zhì)量解決方案的另一系統(tǒng);
圖4示出根據(jù)一方面的配置成提供數(shù)據(jù)質(zhì)量解決方案的系統(tǒng);圖5示出根據(jù)一方面的配置成提供數(shù)據(jù)的去重復(fù)的系統(tǒng);圖6示出根據(jù)一方面的構(gòu)建為匹配項目的輸出的示例性匹配結(jié)果域;圖7示出根據(jù)一方面的用于基于知識的數(shù)據(jù)質(zhì)量解決方案的示例性系統(tǒng)體系結(jié)構(gòu);圖8示出根據(jù)一方面的數(shù)據(jù)質(zhì)量(DQ)服務(wù)器的組件;圖9示出根據(jù)一方面的使用數(shù)據(jù)集成的批量凈化;圖10示出根據(jù)一方面的用于創(chuàng)建知識庫并使用知識庫來改進數(shù)據(jù)質(zhì)量的方法的非限制性流程圖;圖11示出根據(jù)一方面的用于基于知識的數(shù)據(jù)質(zhì)量解決方案的方法的非限制性流程圖;圖12示出了根據(jù)一方面的另一方法的非限制性流程圖;圖13示出根據(jù)一方面的用于執(zhí)行去重復(fù)作為基于知識的解決方案的方法的非限制性流程圖;圖14示出根據(jù)一方面的用于交互式凈化數(shù)據(jù)的方法的非限制性流程圖;圖15示出根據(jù)一方面的用于創(chuàng)建知識庫的方法的非限制性流程圖;圖16是表示其中可實現(xiàn)在本文所述的各個實施例的示例性、非限制性聯(lián)網(wǎng)環(huán)境的框圖;以及圖17是表示其中可實現(xiàn)本文所述的各個實施例的一個或多個方面的示例性、非限制性計算系統(tǒng)或操作環(huán)境的框圖。
具體實施例方式概覽數(shù)據(jù)質(zhì)量缺陷對商業(yè)戰(zhàn)略措施會有負面影響(有時是顯著的負面影響)。數(shù)據(jù)質(zhì)量缺陷(例如,低質(zhì)量數(shù)據(jù))的影響包括糾正數(shù)據(jù)(如果發(fā)現(xiàn)了錯誤)所花費的額外時間、信用的損失、客戶不滿、遵從性問題和收入損失、以及其它影響。由此,各種各樣的機構(gòu)都尋求改進其商業(yè)數(shù)據(jù)的質(zhì)量。針對數(shù)據(jù)質(zhì)量的一般方法(例如,基于零知識)不足以產(chǎn)生用于當(dāng)今商務(wù)的高質(zhì)量數(shù)據(jù)。此外,針對數(shù)據(jù)質(zhì)量的基于知識的方法可呈現(xiàn)諸如知識采集、使用、移動性、可擴展性等等的多種挑戰(zhàn)。由此,通過采集知識和處理知識的分離以提高數(shù)據(jù)質(zhì)量來提供基于知識的數(shù)據(jù)質(zhì)量方法將是有益的。在一示例中,采集知識可包括計算機輔助的知識采集。所公開各個方面中的一個或多個提供基于豐富知識庫的知識驅(qū)動的數(shù)據(jù)質(zhì)量解決方案。例如,數(shù)據(jù)質(zhì)量知識庫被創(chuàng)建、維護和再使用以供執(zhí)行各種數(shù)據(jù)質(zhì)量操作,諸如數(shù)據(jù)凈化和匹配。本文中所公開的數(shù)據(jù)質(zhì)量解決方案是快速、容易部署的,并且能快速地建立。
本文中所呈現(xiàn)的各個方面涉及用于針對數(shù)據(jù)質(zhì)量過程采集和表示有效知識的數(shù)據(jù)域(例如,類型),包括簡單域和合成域。其它方面涉及語義去重復(fù)。另一些方面涉及可擴展性的樹形生成應(yīng)用法。還有一些方面涉及第三方集成的商業(yè)模型。
一個方面涉及一種包括知識管理器組件和數(shù)據(jù)增強組件的系統(tǒng)。知識管理器組件被配置成搜集與數(shù)據(jù)集相關(guān)的信息。該信息至少部分地從數(shù)據(jù)集的一樣本搜集,并且該信息被保留在知識庫中。數(shù)據(jù)增強組件被配置成對數(shù)據(jù)集執(zhí)行一個或多個操作以提高該數(shù)據(jù)集的質(zhì)量。該一個或多個操作基于所搜集的信息。
在一示例中,知識管理器組件基于數(shù)據(jù)集的描述、一個或多個規(guī)則、推斷、數(shù)據(jù)字段正確值的列表、以及與用戶的交互來搜集信息。
根據(jù)一示例,數(shù)據(jù)增強組件被配置成凈化作為所搜集信息的結(jié)果的數(shù)據(jù)集。在另一示例中,數(shù)據(jù)增強組件被配置成基于所搜集信息對數(shù)據(jù)集進行去重復(fù)。
在一實現(xiàn)中,系統(tǒng)進一步包括數(shù)據(jù)分析模塊,該數(shù)據(jù)分析模塊被配置成基于完整性、符合度、一致性、準(zhǔn)確 性、及時性和重復(fù)度的至少之一來定義數(shù)據(jù)集的質(zhì)量。
根據(jù)另一實現(xiàn),該系統(tǒng)進一步包括配置成獲取有關(guān)數(shù)據(jù)集的語義信息的采集模塊。進一步地,該系統(tǒng)包括發(fā)現(xiàn)模塊,該發(fā)現(xiàn)模塊被配置成輸出對有關(guān)語義信息的細節(jié)的一個或多個請求并接收作為回復(fù)的對該一個或多個請求的響應(yīng)。接收到的響應(yīng)被保留在知識庫中。
在又一示例中,該系統(tǒng)包括被配置成保留與用戶數(shù)據(jù)和第三方數(shù)據(jù)的屬性有關(guān)的歷史信息的歷史模塊。數(shù)據(jù)增強組件被配置成利用歷史信息來對數(shù)據(jù)集執(zhí)行一個或多個操作。
在再一示例中,該系統(tǒng)包括統(tǒng)計模塊,該統(tǒng)計模塊被配置成提供與數(shù)據(jù)質(zhì)量、與數(shù)據(jù)相關(guān)聯(lián)的問題、以及數(shù)據(jù)質(zhì)量問題源的至少之一相關(guān)的統(tǒng)計信息。數(shù)據(jù)增強組件被配置成利用統(tǒng)計信息來對數(shù)據(jù)集執(zhí)行一個或多個操作。
在另一示例中,該系統(tǒng)包括凈化模塊,該凈化模塊被配置成基于知識管理器組件所搜集的信息來修改、移除、或豐富不正確或不完整的數(shù)據(jù)。
數(shù)據(jù)集包括第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,根據(jù)又一示例該系統(tǒng)進一步包括配置成標(biāo)識第一數(shù)據(jù)子集和第二數(shù)據(jù)子集之間的重復(fù)數(shù)據(jù)的匹配模塊。該系統(tǒng)還包括配置成選擇性地去除標(biāo)識出的重復(fù)數(shù)據(jù)的合并模塊。
在另一實現(xiàn)中,知識管理器組件被進一步配置成創(chuàng)建知識庫并將該知識庫上傳至外部源。進一步針對此實現(xiàn)地,知識庫被在先創(chuàng)建并上傳至外部源。根據(jù)一示例,外部源是由第三方數(shù)據(jù)源所管理的知識庫存儲。
另一方面涉及用于數(shù)據(jù)質(zhì)量解決方案的方法。該方法包括從與數(shù)據(jù)集相關(guān)聯(lián)的信息建立匹配策略。該信息被包含在知識庫中。該方法包括基于匹配策略對數(shù)據(jù)集進行匹配訓(xùn)練。該方法還包括作為匹配訓(xùn)練的結(jié)果構(gòu)建匹配項目。匹配項目標(biāo)識數(shù)據(jù)集中所包括的重復(fù)數(shù)據(jù)并合并重復(fù)數(shù)據(jù)以創(chuàng)建單個條目。
在一示例中,建立匹配策略包括從第三方數(shù)據(jù)源下載知識庫并用與數(shù)據(jù)集相關(guān)的附加知識補充該知識庫。附加知識通過輔助知識采集來獲取。
在又一示例中,執(zhí)行匹配訓(xùn)練包括索要對重復(fù)數(shù)據(jù)的反饋信息并用該反饋信息補充知識庫。在再一示例中,構(gòu)建匹配項目包括構(gòu)建包括每個重復(fù)數(shù)據(jù)和每個重復(fù)數(shù)據(jù)中所包含信息的電子表格。
在一示例中,合并重復(fù)數(shù)據(jù)是基于用戶偏好和規(guī)則的至少之一的。在另一示例中, 執(zhí)行匹配訓(xùn)練包括獲取數(shù)據(jù)集中的至少一個子集的語義理解。
另一方面涉及計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)包括存儲在其中的計算機可執(zhí)行指令,這些指令響應(yīng)于執(zhí)行使計算系統(tǒng)執(zhí)行各操作。這些操作包括搜集與數(shù)據(jù)集相關(guān)的信息并將該信息供應(yīng)給知識庫。這些操作還包括基于知識庫中的信息對數(shù)據(jù)集執(zhí)行一個或多個操作,其中該一個或多個操作包括凈化數(shù)據(jù)集。
在一示例中,操作進一步包括基于對數(shù)據(jù)集的語義理解標(biāo)識數(shù)據(jù)集中所包含的重復(fù)數(shù)據(jù),其中語義理解被包括在知識庫中。操作還包括基于與用戶偏好或規(guī)則的一致性選擇重復(fù)數(shù)據(jù)的至少之一,并從數(shù)據(jù)集中移除未被選擇的重復(fù)數(shù)據(jù)。
另一方面涉及包括數(shù)據(jù)質(zhì)量引擎的裝置。數(shù)據(jù)質(zhì)量引擎包括配置成基于數(shù)據(jù)樣本獲取關(guān)于數(shù)據(jù)的信息、并將該信息保存在知識庫中的知識發(fā)現(xiàn)組件。數(shù)據(jù)質(zhì)量引擎還包括配置成基于知識庫中的信息凈化數(shù)據(jù)的凈化組件,以及配置成移除數(shù)據(jù)內(nèi)發(fā)現(xiàn)的重復(fù)數(shù)據(jù)的匹配組件。·
在一示例中,數(shù)據(jù)質(zhì)量引擎與數(shù)據(jù)質(zhì)量服務(wù)器通信,該數(shù)據(jù)質(zhì)量服務(wù)器配置成與一個或多個數(shù)據(jù)質(zhì)量客戶機和一個或多個第三方數(shù)據(jù)源通過接口連接。在另一示例中,數(shù)據(jù)質(zhì)量服務(wù)器包括配置成對知識庫中所包含的信息執(zhí)行參考數(shù)據(jù)服務(wù)的應(yīng)用程序接口。
根據(jù)另一示例,數(shù)據(jù)質(zhì)量服務(wù)器與配置成從知識庫獲取和更新參考數(shù)據(jù)的應(yīng)用程序接口通信。此外,應(yīng)用程序接口被配置成從第三方源獲取參考數(shù)據(jù)服務(wù)和參考數(shù)據(jù)集。
在一些示例中,知識發(fā)現(xiàn)組件被配置成提供輔助知識采集以采集與數(shù)據(jù)相關(guān)的信肩、O
在一示例中,裝置進一步包括數(shù)據(jù)剖析和探查組件。在另一示例中,裝置包括來自知識庫存儲的參考數(shù)據(jù),知識庫存儲包括已發(fā)布的知識庫。
在又一示例中,參考數(shù)據(jù)組件被進一步配置成將本地創(chuàng)建的知識庫發(fā)布到遠程存儲介質(zhì)。根據(jù)另一示例,參考數(shù)據(jù)組件被進一步配置成接收對本地創(chuàng)建的知識庫的選擇并從遠程位置下載該本地創(chuàng)建的知識庫。
又一方面涉及一種對數(shù)據(jù)進行交互式凈化的方法。該方法包括接收對改進數(shù)據(jù)源質(zhì)量的請求,并訪問包括與數(shù)據(jù)源中的數(shù)據(jù)元素相關(guān)的信息的知識庫。該方法還包括應(yīng)用來自外部源的參考數(shù)據(jù)服務(wù)。該參考數(shù)據(jù)服務(wù)包括有關(guān)數(shù)據(jù)元素的外部知識。該方法還包括因變于參考數(shù)據(jù)服務(wù)修正數(shù)據(jù)元素的子集。
在一示例中,訪問知識庫包括獲取針對數(shù)據(jù)元素的參考數(shù)據(jù)定義。根據(jù)另一示例, 訪問知識庫包括獲取值和規(guī)則以應(yīng)用于數(shù)據(jù)元素。在又一示例中,訪問知識庫包括獲取被配置成標(biāo)識和消除數(shù)據(jù)元素中的重復(fù)數(shù)據(jù)的匹配策略。
根據(jù)另一示例,修正數(shù)據(jù)元素的子集包括在數(shù)據(jù)元素中審閱不正確記錄,并輸出修正不正確記錄的至少之一的建議。進一步針對此示例地,該方法包括基于對該建議的肯定回復(fù)對不正確記錄的至少之一應(yīng)用修正。
在一示例中,應(yīng)用參考數(shù)據(jù)服務(wù)包括使用來自第三方數(shù)據(jù)服務(wù)的參考數(shù)據(jù)服務(wù)。 在另一示例中,應(yīng)用參考數(shù)據(jù)服務(wù)包括接收對參考數(shù)據(jù)服務(wù)的選擇并使用來自外部源的參考數(shù)據(jù)服務(wù)。
另一方面涉及一種包括用于索要有關(guān)數(shù)據(jù)集的信息的裝置的系統(tǒng)。該系統(tǒng)還包括用于將信息儲存在知識庫中的裝置。該系統(tǒng)中還包括用于基于知識庫評估信息的裝置。此外,該系統(tǒng)包括用于因變于評估來凈化數(shù)據(jù)的裝置和用于基于評估移除數(shù)據(jù)集內(nèi)的重復(fù)數(shù)據(jù)的裝置。
根據(jù)一示例,該系統(tǒng)還包括用于提供計算機輔助的知識采集以采集附加信息的裝置。
在一些示例中,用于去除重復(fù)數(shù)據(jù)的裝置進一步被配置成創(chuàng)建數(shù)據(jù)的合并視圖, 其中該合并視圖以視覺格式輸出。
又一方面涉及用于數(shù)據(jù)質(zhì)量解決方案的系統(tǒng)。該系統(tǒng)包括配置成采集關(guān)于第一數(shù)據(jù)集和第二數(shù)據(jù)集的數(shù)據(jù)信息的訪問模塊。系統(tǒng)還包括配置成針對第一數(shù)據(jù)集和第二數(shù)據(jù)集創(chuàng)建一個或多個域的域創(chuàng)建模塊。該系統(tǒng)還包括配置成集聚一個或多個域并用集聚后的域填充知識庫的編譯模塊。該知識庫用于處理一個或多個數(shù)據(jù)質(zhì)量集。
在一示例中,域創(chuàng)建模塊被配置成因變于數(shù)據(jù)或數(shù)據(jù)的屬性來創(chuàng)建域。在另一示例中,域創(chuàng)建模塊被進一步配置成創(chuàng)建基本域,該基本域包括與第一數(shù)據(jù)集或第二數(shù)據(jù)集的屬性相關(guān)聯(lián)的數(shù)據(jù)質(zhì)量問題。在又一示例中,域創(chuàng)建模塊被進一步配置成基于跨兩個或更多個域應(yīng)用的規(guī)則來創(chuàng)建合成域。
在另一示例中,訪問模塊被配置成通過輔助知識采集過程來采集數(shù)據(jù)信息。根據(jù)一些示例,知識庫包括封裝為單個可移動單元的多個域。在另一示例中,知識庫以可共享和可下載的格式儲存。
在一實現(xiàn)中,系統(tǒng)包括配置成獲取關(guān)于第一數(shù)據(jù)集和第二數(shù)據(jù)集的語義信息的采集模塊。該系統(tǒng)還包括配置成部分地基于語義信息標(biāo)識第一數(shù)據(jù)集和第二數(shù)據(jù)集之間的重復(fù)數(shù)據(jù)的匹配模塊。此外,系統(tǒng)包括配置成與第一數(shù)據(jù)集和第二數(shù)據(jù)集組合大致同時地合并標(biāo)識出的重復(fù)數(shù)據(jù)。
在一些實現(xiàn)中,系統(tǒng)進一步包括配置成捕捉與第一數(shù)據(jù)集和第二數(shù)據(jù)集的屬性相關(guān)的歷史信息的歷史模塊,其中歷史信息被包括在域中。在另一實現(xiàn)中,系統(tǒng)包括配置成捕捉與關(guān)聯(lián)于第一數(shù)據(jù)集和第二數(shù)據(jù)集的源的數(shù)據(jù)質(zhì)量度量相關(guān)的統(tǒng)計信息的統(tǒng)計模塊,其中統(tǒng)計信息被包括在域中。在另一示例中,系統(tǒng)包括配置成作出與第一數(shù)據(jù)集或第二數(shù)據(jù)集相關(guān)的一個或多個推斷的推斷模塊,其中一個或多個推斷被包括在域中。
根據(jù)另一方面,提供一種包括獲取與屬性和參考數(shù)據(jù)服務(wù)提供者相關(guān)聯(lián)的參考數(shù)據(jù)的方法。該方法還包括針對每個屬性創(chuàng)建多個域,其中多個域中的每一個包括屬性和與該屬性相關(guān)聯(lián)的參考數(shù)據(jù)。此外,該方法包括儲存多個域的編譯作為知識庫。
在一示例中,獲取參考數(shù)據(jù)包括獲取屬性的參考數(shù)據(jù)定義。在另一示例中,獲取參考數(shù)據(jù)包括將規(guī)則與一個或多個屬性相關(guān)聯(lián)。
在一些示例中,創(chuàng)建多個域包括創(chuàng)建包括與屬性相關(guān)聯(lián)的數(shù)據(jù)質(zhì)量問題的基本域。在另一示例中,創(chuàng)建多個域包括創(chuàng)建包括兩個或更多個基本域的合成域,其中規(guī)則跨兩個或更多個基本域應(yīng)用。在又一示例中,儲存編譯包括將知識庫上傳至外部源所維護的存儲。
根據(jù)一些實現(xiàn),方法包括檢索知識庫,以及因變于知識庫中包含的域?qū)?shù)據(jù)執(zhí)行一個或多個處理。
另一方面涉及計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)包括存儲在其中的計算機可執(zhí)行指令,這些指令響應(yīng)于執(zhí)行使計算系統(tǒng)執(zhí)行各操作。操作包括采集關(guān)于多個屬性的參考數(shù)據(jù),并創(chuàng)建包括參考數(shù)據(jù)和多個屬性的一個或多個域。操作還包括編譯一個或多個域作為可再使用的知識庫,其中該一個或多個域包括基本域和合成域。在一示例中,操作進一步包括實現(xiàn)計算機輔助的知識發(fā)現(xiàn)以采集參考數(shù)據(jù)。
此處,以上已經(jīng)呈現(xiàn)了用于實現(xiàn)基于知識的數(shù)據(jù)質(zhì)量解決方案的實施例中的某些的概覽。作為接下來的內(nèi)容的向?qū)?,更詳細地描述基于知識的數(shù)據(jù)質(zhì)量管理的各示例性、非限制性實施例和特征。隨后,為了附加說明,給出一些非限制性實現(xiàn)和示例,之后是其中可實現(xiàn)這些實施例和/或特征的代表性網(wǎng)絡(luò)和計算環(huán)境。
基于知識的數(shù)據(jù)質(zhì)量解決方案
本文中所公開的各個方面提供針對數(shù)據(jù)質(zhì)量解決方案的知識管理、知識應(yīng)用、以及管理服務(wù)。知識管理包括創(chuàng)建包含關(guān)于數(shù)據(jù)集的信息(例如,參考數(shù)據(jù))的知識庫。知識庫可包括諸如如何凈化數(shù)據(jù)、如何從數(shù)據(jù)學(xué)習(xí)、如何連接外部源(例如,提供知識管理的外部源)等等的信息。在一些方面中,知識管理和相關(guān)聯(lián)的參考數(shù)據(jù)管理可包括創(chuàng)建和管理數(shù)據(jù)質(zhì)量知識庫,從內(nèi)部(例如,機構(gòu)內(nèi)部)數(shù)據(jù)樣本發(fā)現(xiàn)知識,以及用第三方參考數(shù)據(jù)進行探查和集成。應(yīng)用知識包括凈化數(shù)據(jù)、修正數(shù)據(jù)、執(zhí)行匹配、執(zhí)行去重復(fù)、和數(shù)據(jù)的標(biāo)準(zhǔn)化、 以及其它應(yīng)用。管理服務(wù)可包括用于監(jiān)視和控制數(shù)據(jù)質(zhì)量過程的工具。
在一些方面中,提供了調(diào)整數(shù)據(jù)的用戶訪問權(quán)的安全模型。例如,每個用戶可具有不同的角色和與該角色相關(guān)聯(lián)的不同憑證。在三個用戶的示例中,第一用戶可以是管理者, 第二用戶可創(chuàng)建知識,而第三用戶可凈化數(shù)據(jù)并使用數(shù)據(jù)。根據(jù)一方面,安全模型可被配置成維護知識庫的完整性。
通過利用所公開的各個方面,數(shù)據(jù)可被凈化并且可通過應(yīng)用數(shù)據(jù)質(zhì)量解決方案的持續(xù)過程來保持純凈?;诖?,企業(yè)數(shù)據(jù)中的置信度可被構(gòu)建、恢復(fù)和/或擴展。此外,數(shù)據(jù)質(zhì)量結(jié)果可快速地獲得,而無需等待數(shù)周或數(shù)月以便完成手動數(shù)據(jù)質(zhì)量過程。
通過參考用于提供通過分離的知識采集和應(yīng)用實現(xiàn)的數(shù)據(jù)質(zhì)量解決方案的一個或多個非限制性方式進行的進一步描述,圖I大致地示出了示例性計算系統(tǒng)的框圖。該示例性計算系統(tǒng)被配置成搜集有關(guān)感興趣數(shù)據(jù)的知識(例如,來自內(nèi)部和/或外部源的一個或多個數(shù)據(jù)集)以創(chuàng)建知識庫并使用該知識庫來精煉數(shù)據(jù)。例如,原始數(shù)據(jù)集可被精煉以產(chǎn)生與原始數(shù)據(jù)集相比具有改進質(zhì)量的數(shù)據(jù)集。根據(jù)一些方面,該示例性計算系統(tǒng)實現(xiàn)采集與數(shù)據(jù)集相關(guān)的知識、以及因變于該知識可對數(shù)據(jù)執(zhí)行的處理的分離。
圖I所示的計算系統(tǒng)包括具有一個或多個結(jié)構(gòu)化數(shù)據(jù)集110的環(huán)境100。例如,結(jié)構(gòu)化數(shù)據(jù)可以包括但不限于數(shù)據(jù)庫、表格、電子表格等的多種格式保留。將來自各個源的數(shù)據(jù)收集成結(jié)構(gòu)化數(shù)據(jù)已呈指數(shù)級地增加。然而,數(shù)據(jù)在至少部分時間可具有低質(zhì)量。例如, 可能存在附隨至少一個數(shù)據(jù)子集的一個或多個問題(例如,不準(zhǔn)確的數(shù)據(jù)、拼寫錯誤的詞、 數(shù)據(jù)部分缺失、誤置數(shù)據(jù)、重復(fù)數(shù)據(jù)以及其它問題)。附隨數(shù)據(jù)的問題(例如,低質(zhì)量數(shù)據(jù))的影響可對數(shù)據(jù)的使用有直接影響。例如,如果決定或分析基于低質(zhì)量數(shù)據(jù),則該決定或分析可固有地具有缺陷,且數(shù)據(jù)可能不再能作為分析的依據(jù)。
在一示例中,如果數(shù)據(jù)是手動輸入(例如,通過操作人員)的,則出錯(包括簡單錯誤)的可能性在疲勞、生病、厭倦期間或其它原因會增大。在另一示例中,數(shù)據(jù)可源自帶噪聲源。例如,即使數(shù)據(jù)顯現(xiàn)為已自動生成,有時人還是會對一個或多個自動傳感器編程和/或手動輸入數(shù)據(jù),該程序可能會被粗心地編寫,和/或所生成的數(shù)據(jù)由于另一未知原因具有低質(zhì)量。
為了提供改進的質(zhì)量解決方案以修正或補償?shù)唾|(zhì)量數(shù)據(jù),知識管理器組件120被配置成搜集與環(huán)境100中所包含數(shù)據(jù)(例如,一個或多個結(jié)構(gòu)化數(shù)據(jù)集110)相關(guān)的信息。這種知識可基于一個或多個規(guī)則、推斷、數(shù)據(jù)字段正確值的列表、與用戶的交互以及其它源從數(shù)據(jù)(或數(shù)據(jù)子集)的描述搜集。
知識管理器組件120所搜集的信息或知識可涵蓋不同類型的信息。例如,信息可以是針對屬性(例如,電子表格中的列)可用的正確值列表。例如,如果列為“美國的州”,則可以有50個正確值(盡管如果結(jié)合完全拼寫出的州名使用縮寫,則可以有更多的正確值)。 值的緊湊列表(在一些情形中可以是數(shù)據(jù)的所有可能值的長列表)是有關(guān)可通過知識管理器組件120獲得的數(shù)據(jù)的信息或知識的一種形式。
在另一示例中,通過知識管理器組件120搜集的信息可與拼寫數(shù)據(jù)屬性的通常錯誤相關(guān)。有關(guān)數(shù)據(jù)的信息的另一 示例是同義字(例如,Jack (杰克^PJohn (約翰)、William (威廉)和Bill (比爾)、無和偽等等)。其它示例與規(guī)則相關(guān)。例如,規(guī)則可以是字段的長度不長于20個字符。規(guī)則的另一示例是字段以8個數(shù)位結(jié)束、或者字段以大寫字母開始。 其它示例包括眾多規(guī)則、描述、(一個或多個)數(shù)據(jù)的模型等等。
根據(jù)一些方面,知識管理器組件120獲取信息,并從所采集的信息創(chuàng)建知識庫 130。“知識庫”是保留各種類型數(shù)據(jù)的原子單元。數(shù)據(jù)的“類型”可以是例如具有多個屬性 (例如,10個屬性或列)的消費者數(shù)據(jù),針對該消費者數(shù)據(jù)創(chuàng)建知識庫。知識庫中所包括的是一個或多個域?!坝颉笔前嘘P(guān)特定數(shù)據(jù)的信息的原子單元。繼續(xù)以上示例,域的示例包括地址、姓名、城市、年齡等等。
兩種不同類型的域包括基本域和合成域?;居蚴菙?shù)據(jù)的屬性(例如,公司名稱) 且包含有關(guān)該數(shù)據(jù)的所有知識。例如,該域可包含核心值列表、錯誤列表、同義字列表、驗證規(guī)則等等。在一些方面中,該域可包含向數(shù)據(jù)質(zhì)量引擎指示該域內(nèi)所包含的數(shù)據(jù)要由例如第三方來凈化的陳述。
在一些情形中,利用一個以上的域。例如,對于地址,該地址可包含地址行、城市、 州和郵編。在該情形中,每個域可單獨地修正。然而,如果不同的域一起作為一個實體來修正,則可獲得改進的結(jié)果。例如,知曉郵編可有助于修正地址行或州。為了創(chuàng)建該有不同域的實體,創(chuàng)建合成域。該合成域包括若干域,并且這些域之間的關(guān)系在合成域內(nèi)定義。
知識庫130可由知識管理器組件120保留在本地。然而,根據(jù)各個方面,知識庫 130通過云計算從外部源檢索。云計算可提供各種計算能力(例如,軟件、數(shù)據(jù)訪問、存儲服務(wù)等),而無需用戶(例如,終端用戶)知曉遞送服務(wù)的系統(tǒng)的物理位置和/或配置。
在一些方面中,保留在知識庫130中的信息是第三方(例如,提供信息的商用數(shù)據(jù)庫)提供的信息,有時稱為外部參考數(shù)據(jù)或外部參考源。在其它方面中,保留在知識庫130中CN 102930024 A書明說8/25 頁的信息是數(shù)據(jù)的用戶(例如,與環(huán)境100相關(guān)聯(lián)的機構(gòu))所編譯的信息,稱為內(nèi)部參考數(shù)據(jù)。 例如,用戶能創(chuàng)建內(nèi)部參考數(shù)據(jù),且該數(shù)據(jù)可通過知識管理器組件120編譯到知識庫內(nèi)。此外,知識庫可被上傳至云用于儲存和檢索用途,以供后來使用和/或修改。
基于由知識管理器組件120搜集的參考數(shù)據(jù),數(shù)據(jù)增強組件140被配置成應(yīng)用知識來對數(shù)據(jù)執(zhí)行操作以提高數(shù)據(jù)的質(zhì)量。如在本文中使用的“數(shù)據(jù)質(zhì)量”表示數(shù)據(jù)適于在商業(yè)(以及非商業(yè))過程中使用的程度。數(shù)據(jù)的質(zhì)量可通過各種數(shù)據(jù)質(zhì)量度量來定義、測量和管理。質(zhì)量度量的示例包括完整性、符合度、一致性、精確性、重復(fù)度、及時性等等。在一些方面中,數(shù)據(jù)質(zhì)量可通過人、技術(shù)和過程來實現(xiàn)。
數(shù)據(jù)增強組件140可被配置成基于知識庫130中所包括的參考信息來凈化數(shù)據(jù)。 例如,可因變于參考信息來分析數(shù)據(jù)行,并且可修正該行內(nèi)的錯誤。在另一示例中,數(shù)據(jù)增強組件140可被配置成配齊數(shù)據(jù)的缺失部分。在又一示例中,數(shù)據(jù)增強組件140可被配置成修正常見錯誤拼寫、識別同義字、和/或執(zhí)行其它功能。
根據(jù)另一示例,數(shù)據(jù)增強組件140可被配置成執(zhí)行數(shù)據(jù)的匹配(有時稱為去重復(fù)或?qū)嶓w解析)。匹配或去重復(fù)是從實體列表開始、且解析該列表以使每個實體僅被包括一次的過程。例如,數(shù)據(jù)庫包括消費者列表,并且可以假設(shè)每個消費者僅列出一次。然而,情形是單個消 費者會因為錯誤拼寫或替代拼寫而重復(fù)出現(xiàn)(例如,該列表包括“Tom Mangas”, “Thomas Mangas”, “Tom B.Mangas”, “Mr. Mangas”等等,這些全部指同一人)。 在另一示例中,同一人可列有不同地址、不同電話號碼、不同電子郵件別名等等。如果替代名與不同地址、電話號碼等等組合,則數(shù)據(jù)重復(fù)問題會是復(fù)合式的。由此,機構(gòu)所具有的消費者的數(shù)量可能是過分膨脹的,這可導(dǎo)致其它問題(例如,不實際的企業(yè)成長)。數(shù)據(jù)增強組件140被配置成識別這些重復(fù)數(shù)據(jù),并且合并重復(fù)數(shù)據(jù)以產(chǎn)生單個實體,和/或選擇實體之一作為重復(fù)數(shù)據(jù)的代表且刪除其它(重復(fù))實體。
如由數(shù)據(jù)增強組件140執(zhí)行的對數(shù)據(jù)的改變或改進可被傳達至知識管理器組件 120,并保留為知識庫130的一部分。根據(jù)一些方面,在數(shù)據(jù)增強組件140對數(shù)據(jù)執(zhí)行各種操作之后(例如,由用戶)對數(shù)據(jù)的修改可由知識管理器組件120監(jiān)視,并應(yīng)用至知識庫130。 可以理解,知識管理器組件120可執(zhí)行進行中的信息發(fā)現(xiàn)以允許知識庫130以及時的方式更新。
在一實施例中,圖I所示的計算系統(tǒng)在操作上可不同于常規(guī)的計算系統(tǒng),以便提供勝于可由采用一般解決方案的計算系統(tǒng)獲得的益處的額外益處。這種一般解決方案由于數(shù)據(jù)的實際知識未知而會受到限制,因此對于可應(yīng)用于數(shù)據(jù)的修正的數(shù)量或修正的深度存在限制。例如,本文中所揭示的計算系統(tǒng)可基于具有數(shù)據(jù)的知識來提供數(shù)據(jù)質(zhì)量解決方案, 該數(shù)據(jù)的知識包括數(shù)據(jù)內(nèi)容的知識、數(shù)據(jù)的源、以及數(shù)據(jù)的期望用途。在一示例中,計算系統(tǒng)可創(chuàng)建關(guān)于數(shù)據(jù)的知識,并使用該知識來對數(shù)據(jù)進行凈化或去重復(fù)。此外,這種知識是可再使用的。例如,信息工作者和信息技術(shù)專業(yè)人員(例如,用戶)可合并和再使用各種數(shù)據(jù)質(zhì)量改進和企業(yè)數(shù)據(jù)管理過程(例如,凈化、匹配、標(biāo)準(zhǔn)化、豐富等等)的知識。
由此,所公開的各個方面可提供與以一致、受控、被管理、集成和快速的方式傳遞經(jīng)改進的數(shù)據(jù)質(zhì)量有關(guān)的益處,經(jīng)對改進的數(shù)據(jù)質(zhì)量進行的傳遞提供經(jīng)改進的商業(yè)結(jié)果。 本文中所揭示的數(shù)據(jù)質(zhì)量解決方案知識庫方法使機構(gòu)能通過其用戶有效地捕捉和精煉數(shù)據(jù)質(zhì)量知識庫中的數(shù)據(jù)質(zhì)量相關(guān)知識。11
圖2示出根據(jù)一方面的配置成提供知識驅(qū)動的數(shù)據(jù)質(zhì)量解決方案的系統(tǒng)200的框圖。系統(tǒng)200可被配置成獲取有關(guān)一個或多個數(shù)據(jù)集的知識,并基于所獲取的知識對數(shù)據(jù)集執(zhí)行處理。根據(jù)一方面,獲取知識和執(zhí)行處理是分離和不同的過程。根據(jù)不同方面,可獲得的關(guān)于數(shù)據(jù)的信息或知識的量和/或深度對知識應(yīng)用于可對數(shù)據(jù)執(zhí)行的處理(例如,凈化數(shù)據(jù)、數(shù)據(jù)的去重復(fù)、或其它功能)的效率有直接影響。
系統(tǒng)200中所包括的是可被配置成獲取關(guān)于數(shù)據(jù)集210 (例如,感興趣的數(shù)據(jù))的知識的知識管理器組件205。系統(tǒng)200中還包括的是可被配置成基于知識庫中所包含的信息改進數(shù)據(jù)質(zhì)量的數(shù)據(jù)增強組件215。知識庫可被保留在系統(tǒng)200或其信息正在被處理的機構(gòu)外部。例如,知識庫可被發(fā)布,并儲存在外部存儲位置中(例如,云中)。然而,在一些方面,知識庫被保留在本地(例如,系統(tǒng)200本地)。
根據(jù)一些方面,數(shù)據(jù)增強組件215被配置成對數(shù)據(jù)集210對于使用目的而言是足夠還是不足進行定義。例如,由數(shù)據(jù)增強組件215執(zhí)行的定義可基于將在以下進一步詳細討論的一個或多個質(zhì)量度量。如果數(shù)據(jù)集210對于使用目的而言不足,則數(shù)據(jù)增強組件215 被配置成部分地基于知識管理器組件205獲取的信息和/或基于質(zhì)量度量對數(shù)據(jù)執(zhí)行處理。
知識管理器組件205被配置成搜集與數(shù)據(jù)集210相關(guān)的信息。這種信息搜集可由知識管理器組件205基于顯式證據(jù)和/或隱式證據(jù)來執(zhí)行。該顯式證據(jù)可包括直接從源(例如,用戶、第三方等)接收的信息。隱式證據(jù)可包括基于數(shù)據(jù)本身獲得的信息(例如,確定電子表格中的列包含州名等)。
為了獲得顯式證據(jù)和/或隱式證據(jù),知識管理器組件205可包括被配置成獲取關(guān)于數(shù)據(jù)集210的信息或參考數(shù)據(jù)225的采集模塊220。
在一示例中,參考數(shù)據(jù)225可從用戶環(huán)境230和/或外部環(huán)境235 (例如,用戶外部)獲得。但是,在一些方面中,用戶環(huán)境230可包括用戶數(shù)據(jù)240,該用戶數(shù)據(jù)240被儲存在外部環(huán)境235中(例如,云計算)。用戶數(shù)據(jù)240可以是由用戶生成的數(shù)據(jù)(例如,由用戶直接輸入的數(shù)據(jù),先前通過外部源獲得且由用戶修改或與其它用戶數(shù)據(jù)組合的數(shù)據(jù),等等)。 外部環(huán)境235包括第三方數(shù)據(jù)245,其可包括來自一個或多個外部源的數(shù)據(jù),這些外部源諸如供應(yīng)信息的第三方數(shù)據(jù)服務(wù)、從其導(dǎo)入數(shù)據(jù)的數(shù)據(jù)庫等等。用戶數(shù)據(jù)240和/或第三方數(shù)據(jù)245可包括數(shù)據(jù)本身以及有關(guān)數(shù)據(jù)的信息(例如,知識庫)。
通過采集模塊220獲取的參考數(shù)據(jù)225可包括提供數(shù)據(jù)集210的語義理解的信息。例如,語義理解包括與數(shù)據(jù)集210的同義字或其它組分相關(guān)的知識。語義理解的示例是知曉“Corp. ”和“Corporation”(公司)旨在被解釋為同一詞。為便于采集模塊220獲取此知識,數(shù)據(jù)擁有人或所有者可與采集模塊220 (和知識管理器組件205和/或數(shù)據(jù)增強組件215的其它組件)交互,以提供至少一些語義理解。根據(jù)一些方面,采集模塊220可被配置成從外部環(huán)境235 (例如,外部源、第三方數(shù)據(jù)庫等)獲取對數(shù)據(jù)集210的語義理解。
例如,采集模塊220可被配置成發(fā)送對標(biāo)識各種屬性或電子表格內(nèi)列的內(nèi)容的請求。列標(biāo)識可以是該列包含適當(dāng)名稱、該列包含地址、該列包含銷售額等等。采集模塊220 所獲取的其它信息可包括各種屬性的內(nèi)容和該內(nèi)容的相關(guān)源的標(biāo)識(例如,對從哪里獲取數(shù)據(jù)、對用來獲取諸如自動生成數(shù)據(jù)或手動輸入數(shù)據(jù)的數(shù)據(jù)的方法等等的標(biāo)識)。
根據(jù)一方面,采集模塊220被配置成提供計算機輔助的知識采集。例如,采集模塊220可與發(fā)現(xiàn)模塊250交互,該發(fā)現(xiàn)模塊250被配置成審閱數(shù)據(jù)集210中的至少一個樣本, 并嘗試基于參考數(shù)據(jù)225中所包含的各種標(biāo)準(zhǔn)(例如,規(guī)則/策略、常見錯誤拼寫等等)來理解數(shù)據(jù)。發(fā)現(xiàn)模塊250 (或另一系統(tǒng)200的組件)可請用戶確認(例如,通過用用戶計算環(huán)境顯示的提示)通過發(fā)現(xiàn)模塊250的理解是否正確。根據(jù)一方面,發(fā)現(xiàn)模塊250可執(zhí)行與用戶的來回交互以便于獲取其它關(guān)于數(shù)據(jù)集210的信息。
根據(jù)一些方面,發(fā)現(xiàn)模塊250 (以及知識管理器組件205和/或數(shù)據(jù)增強組件215 的其它模塊)可通過接口組件255與用戶交互。接口組件255可以提供圖形用戶界面(⑶I )、 命令行界面、語音界面、自然語言文本界面等等。例如,可以呈現(xiàn)向用戶提供對各種請求進行加載、導(dǎo)入、選擇、讀取等的區(qū)域或手段的⑶I,并且該⑶I可包括呈現(xiàn)這些動作的結(jié)果的區(qū)域。這些區(qū)域可以包括已知的文本和/或圖形區(qū)域,包括對話框、靜態(tài)控件、下拉菜單、列表框、彈出式菜單、編輯控件、組合框、單選按扭、復(fù)選框、按鈕以及圖形框。另外,可使用便于信息傳達的實用工具,諸如用于導(dǎo)航的垂直和/或水平滾動條以及用于確定一區(qū)域是否可被查看的工具條按鈕。
用戶還可與這些區(qū)域交互,以便例如通過諸如鼠標(biāo)、滾球、鍵區(qū)、鍵盤、筆、用照相機捕捉的姿勢和/或語音激活等各種設(shè)備來選擇和提供信息。通常,諸如鍵盤上的按鈕或回車鍵等機構(gòu)可在輸入了信息之后采用以啟動信息傳達。然而,可以理解,所公開的各方面不限于此。例如,只突出顯示一復(fù)選框可以啟動信息傳達。在另一示例中,可以使用命令行界面。例如,命令行界面可通過提供文本消息、產(chǎn)生音調(diào)等來向用戶提示信息。用戶然后可提供適當(dāng)?shù)男畔?,諸如對應(yīng)于在該界面提示中提供的選項的字母數(shù)字輸入或?qū)μ崾局兴岢龅膯栴}的回答??梢岳斫猓钚薪缑婵梢耘c⑶I和/或API結(jié)合使用。另外,命令行界面還可以與硬件(例如,視頻卡)和/或具有有限的圖形支持的顯示器(例如,黑白、以及 EGA)、和/或低帶寬通信信道結(jié)合使用。
在一示例中,采集模塊220被配置成處理來自數(shù)據(jù)集210的一個樣本,并關(guān)于什么值是重要的作出判定?;谠撆卸?,發(fā)現(xiàn)模塊250可索要來自用戶的(例如,通過接口組件 255)關(guān)于判定是否正確的反饋?;趶挠脩籼幗邮盏降姆答?,關(guān)于哪些值重要的信息可被保留(例如,在知識庫中)。如果來自用戶的反饋指示由采集模塊220作出的判定不正確,則可索要來自用戶的進一步輸入以改進系統(tǒng)性能。
基于知識管理器組件205保留或形成的參考數(shù)據(jù)225,數(shù)據(jù)增強組件215被配置成對數(shù)據(jù)集210執(zhí)行處理。該處理可包括凈化數(shù)據(jù)、匹配數(shù)據(jù)元素(例如,去重復(fù))、以及用于改進數(shù)據(jù)的其它過程。如果數(shù)據(jù)具有足夠的質(zhì)量,則數(shù)據(jù)增強組件215可確定對數(shù)據(jù)的修改將不會是有益的。
在一方面,數(shù)據(jù)增強組件包括被配置成評估與數(shù)據(jù)集210相關(guān)聯(lián)的數(shù)據(jù)質(zhì)量的質(zhì)量分析模塊260。數(shù)據(jù)質(zhì)量表示數(shù)據(jù)適合商業(yè)用途(以及其它用途)的程度。因為數(shù)據(jù)可由跨機構(gòu)和地理邊界的多個系統(tǒng)和多方生成,所以數(shù)據(jù)常常包含不準(zhǔn)確、不完整、或陳舊的數(shù)據(jù)元素。質(zhì)量分析模塊260被配置成利用圍繞數(shù)據(jù)質(zhì)量的各種數(shù)據(jù)質(zhì)量問題來解決和修正這些問題。根據(jù)一些方面,質(zhì)量分析模塊260可確定質(zhì)量問題不存在或者數(shù)量不夠多,因此,將不執(zhí)行數(shù)據(jù)的凈化(或其它處理)。
在一示例中,質(zhì)量分析模塊260可將一致性用作數(shù)據(jù)度量。一致性涉及多個值是否表示相同的含義、和/或多個數(shù)據(jù)元素是否被一致性地定義和理解。在一示例中,質(zhì)量分析模塊260可確定收入是否總是用美元來表示,或者收入是否還可能用歐元來表示。
質(zhì)量分析模塊260還可執(zhí)行對數(shù)據(jù)是否完整和相關(guān)信息是否可用的分析。完整性查詢可詢問數(shù)據(jù)值是缺失還是處于不可使用狀態(tài)的問題。在一些情形中,缺失數(shù)據(jù)是不相關(guān)的,但當(dāng)缺失的信息對所定義的商業(yè)過程是關(guān)鍵的時候,完整性就變成問題了。完整性缺少的一個示例是可能具有消費者數(shù)據(jù)庫中20%的姓字段為空白的數(shù)據(jù)的系統(tǒng)。在另一示例中,系統(tǒng)可具有50%的郵編列為“99999”的數(shù)據(jù)。在又一示例中,如果存在其中總共75,000 個記錄中只呈現(xiàn)50,000個值的電子郵件字段,則電子郵件字段是66. 6%完整的。
可由質(zhì)量分析模塊260分析的另一質(zhì)量度量或問題涉及符合度。符合度涉及是否期望數(shù)據(jù)值符合所定義的格式,并且如果符合則所有(或基本上所有)的值是否符合那些格式。維持與所定義格式的符合度對數(shù)據(jù)表示、呈現(xiàn)、集聚報告、搜索和建立關(guān)鍵關(guān)系有用。 例如,兩個不同系統(tǒng)中的性別代碼(例如,男、女、未知)可不同地表示。在第一系統(tǒng)中,代碼被定義為“M”,“F”和“U”,而在第二系統(tǒng)中,代碼顯現(xiàn)為“0”,“I”和“2”。質(zhì)量分析模塊 260可被配置成因變于與數(shù)據(jù)相關(guān)的知識(例如,第一系統(tǒng)和第二系統(tǒng)中的列都與如知識管理器組件205所確定的性別代碼相關(guān))使這兩個系統(tǒng)相關(guān)。
質(zhì)量分析模塊260可分析的另一度量是數(shù)據(jù)的準(zhǔn)確性。例如,質(zhì)量分析模塊260 可確定數(shù)據(jù)對象是否準(zhǔn)確地表示了期望數(shù)據(jù)對象建模的“真實世界”值。例如,產(chǎn)品名稱或人名、地址的不準(zhǔn)確拼寫、以及甚至非當(dāng)前數(shù)據(jù)(例如,過時)的不及時會影響操作和分析應(yīng)用。例如,消費者的地址是有效的USPS地址,但是郵編不準(zhǔn)確并且消費者姓名包含拼寫錯誤。在另一示例中,數(shù)據(jù)的準(zhǔn)確性可與數(shù)據(jù)是否準(zhǔn)確地表示了實際或可確認源相關(guān)。例如, 供應(yīng)商可能被列為“活動”,但卻在六年前破產(chǎn)。
質(zhì)量分析模塊260還可被配置成評估數(shù)據(jù)的有效性、或數(shù)據(jù)值是否落在可接受范圍內(nèi)。例如,對于職位級別51和52,薪水值要在$60,000至$120,000之間。質(zhì)量分析模塊 260可審閱數(shù)據(jù),且確定該數(shù)據(jù)是否符合可接受范圍。
質(zhì)量分析模塊260可分析的另一度量是數(shù)據(jù)的排他性。當(dāng)數(shù)據(jù)出現(xiàn)數(shù)次時,這種排他性數(shù)據(jù)質(zhì)量問題會產(chǎn)生。例如,在系統(tǒng)中出現(xiàn)了 Jack Ryan和John Ryan兩者,但是他們卻是同一個人。由此,質(zhì)量分析模塊260可確定在數(shù)據(jù)集內(nèi)是否存在相同數(shù)據(jù)對象的多個非必要表示??缍鄠€系統(tǒng)無法對每個實體維護單個表示造成了多個弱點和風(fēng)險。測量重復(fù)數(shù)據(jù)在記錄總數(shù)中所占百分比??纱嬖谥貜?fù)的個人、公司、地址、生產(chǎn)線、帳單等等。以下示例表格示出數(shù)據(jù)集中存在的重復(fù)記錄。
權(quán)利要求
1.一種裝置,包括 數(shù)據(jù)質(zhì)量引擎(825),包括 知識發(fā)現(xiàn)組件(832),配置成基于數(shù)據(jù)的樣本獲取關(guān)于該數(shù)據(jù)的信息、并將所述信息保存在知識庫(820)中; 凈化組件(865),配置成基于所述知識庫(820)中的信息凈化所述數(shù)據(jù);以及 匹配組件(870 ),配置成移除在所述數(shù)據(jù)中發(fā)現(xiàn)的重復(fù)數(shù)據(jù)。
2.如權(quán)利要求I所述的裝置,其特征在于,所述數(shù)據(jù)質(zhì)量引擎(825)被包括在數(shù)據(jù)質(zhì)量服務(wù)器(810)中,所述數(shù)據(jù)質(zhì)量服務(wù)器(810)被配置成通過接口與一個或多個數(shù)據(jù)質(zhì)量客戶機(805)和一個或多個第三方數(shù)據(jù)源(810)連接。
3.如權(quán)利要求2所述的裝置,其特征在于,所述數(shù)據(jù)質(zhì)量服務(wù)器(800)與應(yīng)用程序接口(815)通信,所述應(yīng)用程序接口(815)被配置成對所述知識庫(820)中所包含的信息執(zhí)行參考數(shù)據(jù)服務(wù)。
4.如權(quán)利要求2所述的裝置,其特征在于,所述數(shù)據(jù)質(zhì)量服務(wù)器(800)與應(yīng)用程序接口(830)通信,所述應(yīng)用程序接口(830)被配置成從所述知識庫(820)獲取參考數(shù)據(jù)并更新所述參考數(shù)據(jù)。
5.如權(quán)利要求4所述的裝置,其特征在于,所述應(yīng)用程序接口(830)被配置成從第三方源(810)獲取參考數(shù)據(jù)服務(wù)和參考數(shù)據(jù)集。
6.如權(quán)利要求I所述的裝置,其特征在于,所述知識發(fā)現(xiàn)組件(832)被配置成提供輔助知識采集以采集與所述數(shù)據(jù)相關(guān)的信息。
7.如權(quán)利要求I所述的裝置,其特征在于,進一步包括數(shù)據(jù)剖析和探查組件(845)。
8.如權(quán)利要求I所述的裝置,其特征在于,進一步包括來自包括發(fā)布的知識庫(885)的知識庫存儲(880)的參考數(shù)據(jù)。
9.如權(quán)利要求I所述的裝置,其特征在于,所述參考數(shù)據(jù)組件(875)被進一步配置成將本地創(chuàng)建的知識庫發(fā)布到遠程存儲介質(zhì)。
10.如權(quán)利要求I所述的裝置,其特征在于,所述參考數(shù)據(jù)組件(875)被進一步配置成接收對本地創(chuàng)建知識庫的選擇并從遠程位置下載所述本地創(chuàng)建的知識庫。
11.一種用于交互式數(shù)據(jù)凈化的方法,包括 接收(1400)對提高數(shù)據(jù)源質(zhì)量的請求; 訪問(1410)包括與所述數(shù)據(jù)源中的數(shù)據(jù)元素相關(guān)的信息的知識庫; 應(yīng)用(1420)來自外部源的參考數(shù)據(jù)服務(wù),其中所述參考數(shù)據(jù)服務(wù)包括有關(guān)所述數(shù)據(jù)元素的外部知識;以及 因變于所述知識庫和所述參考數(shù)據(jù)服務(wù)修正(1430)所述數(shù)據(jù)元素的子集。
12.如權(quán)利要求11所述的方法,其特征在于,所述訪問包括獲取對所述數(shù)據(jù)元素的參考數(shù)據(jù)定義。
13.如權(quán)利要求11所述的方法,其特征在于,所述訪問包括獲取要應(yīng)用于所述數(shù)據(jù)元素的值和規(guī)則。
14.如權(quán)利要求11所述的方法,其特征在于,所述訪問包括獲取被配置成標(biāo)識和消除所述數(shù)據(jù)元素中的重復(fù)數(shù)據(jù)的匹配策略。
15.如權(quán)利要求11所述的方法,其特征在于,所述修正包括在所述數(shù)據(jù)元素中審閱不正確記錄; 輸出修正所述不正確記錄的至少之一的建議;以及基于對所述建議的肯定回復(fù)向所述不正確記錄的至少之一應(yīng)用修正。
全文摘要
本發(fā)明涉及基于豐富知識庫的知識驅(qū)動的數(shù)據(jù)質(zhì)量解決方案。該數(shù)據(jù)質(zhì)量解決方案可提供連續(xù)的改進,并且可基于連續(xù)(或持續(xù))的知識采集。該數(shù)據(jù)質(zhì)量解決方案可建立一次,且可重新用于多次數(shù)據(jù)質(zhì)量提高,其可針對相同數(shù)據(jù)或相似數(shù)據(jù)。所公開的各個方面容易使用且集中于生產(chǎn)力和用戶體驗。此外,所公開的各個方面是開放和可擴展的,且可應(yīng)用于基于云的參考數(shù)據(jù)(例如第三方數(shù)據(jù)源)和/或用戶生成的知識。根據(jù)一些發(fā)明,所公開的各個發(fā)明可與數(shù)據(jù)集成服務(wù)集成。
文檔編號G06F17/30GK102930024SQ20121043503
公開日2013年2月13日 申請日期2012年11月2日 優(yōu)先權(quán)日2011年11月3日
發(fā)明者J·瑪爾卡, E·齊克利克, E·胡迪斯, M·拉維夫, G·皮萊格, R·亞日 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
左贡县| 丰台区| 当雄县| 临颍县| 札达县| 肇东市| 遂平县| 杂多县| 长丰县| 土默特右旗| 黔西县| 华池县| 宕昌县| 黄石市| 新巴尔虎右旗| 杂多县| 辰溪县| 绩溪县| 顺义区| 从江县| 石城县| 红桥区| 丹阳市| 疏勒县| 新宾| 大庆市| 万安县| 黑山县| 永嘉县| 阿尔山市| 从化市| 浮梁县| 颍上县| 新昌县| 买车| 宝坻区| 青神县| 高邮市| 兴国县| 枣庄市| 龙井市|