欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理的方法及裝置與流程

文檔序號:12667742閱讀:230來源:國知局
數(shù)據(jù)處理的方法及裝置與流程

本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理的方法及裝置。



背景技術(shù):

近年來,隨著信息處理技術(shù)的發(fā)展,大數(shù)據(jù)被越來越多的應(yīng)用到了導(dǎo)航系統(tǒng)或城市規(guī)劃等各個領(lǐng)域。

目前的大數(shù)據(jù)架構(gòu)通常是以數(shù)據(jù)流為導(dǎo)向來進行數(shù)據(jù)處理的,即,首先從數(shù)據(jù)源獲取數(shù)據(jù)并將獲取到的數(shù)據(jù)進行存儲,然后對數(shù)據(jù)進行預(yù)處理,再根據(jù)預(yù)處理后的數(shù)據(jù)進行數(shù)據(jù)建模、數(shù)據(jù)分析與數(shù)據(jù)挖掘,最后實現(xiàn)數(shù)據(jù)變現(xiàn)。由此可見,數(shù)據(jù)預(yù)處理是大數(shù)據(jù)結(jié)構(gòu)中整個數(shù)據(jù)處理過程的基礎(chǔ),其質(zhì)量與精準度可能會直接影響到后續(xù)環(huán)節(jié)中數(shù)據(jù)維度建模的指標定義、數(shù)據(jù)挖掘算法的選擇或數(shù)據(jù)的準確性度量等,是數(shù)據(jù)處理過程的重要環(huán)節(jié)之一。

數(shù)據(jù)預(yù)處理的過程中通常會涉及到對數(shù)據(jù)中的缺失值進行處理,現(xiàn)有技術(shù)中,在對數(shù)據(jù)進行處理時一般會采用人工填寫、刪除含缺失值的記錄數(shù)據(jù)(即刪除法)、使用特殊字符(如NULL)填充、或者使用統(tǒng)計學(xué)上的均值或眾數(shù)進行缺失值的填補等方法對數(shù)據(jù)中的缺失值進行處理。但是,當數(shù)據(jù)量較多或達到一定級別時,人工填寫需耗費較多的時間與精力,無法滿足數(shù)據(jù)流實時快速傳輸與處理的需求;刪除含缺失值的記錄數(shù)據(jù)、使用統(tǒng)一的特殊字符或者使用統(tǒng)計學(xué)上的均值或眾數(shù)進行缺失值填充不具有針對性,會導(dǎo)致數(shù)據(jù)準精確性和有效性降低,由此可見,現(xiàn)有技術(shù)無法同時滿足缺失值處理的高效率和高精度的要求。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明實施例提供一種數(shù)據(jù)處理的方法及裝置,以解決現(xiàn)有技術(shù)中的數(shù)據(jù)處理方法無法同時滿足缺失值處理的高效率和高精度的要求的技術(shù)問題。

第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理的方法,包括:

獲取數(shù)據(jù)樣本;

計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度;

根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本;

根據(jù)所述缺失值在所述填充樣本中對應(yīng)的屬性值確定填充值,并根據(jù)所述填充值更新所述包括缺失值的數(shù)據(jù)樣本。

第二方面,本發(fā)明實施例還提供了一種數(shù)據(jù)處理的裝置,包括:

數(shù)據(jù)樣本獲取模塊,用于獲取數(shù)據(jù)樣本;

相似度計算模塊,用于計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度;

填充樣本確定模塊,用于根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本;

填充值確定模塊,用于根據(jù)所述缺失值在所述填充樣本中對應(yīng)的屬性值確定填充值,并根據(jù)所述填充值更新所述包括缺失值的數(shù)據(jù)樣本。

本發(fā)明實施例提供的數(shù)據(jù)處理的技術(shù)方案,獲取數(shù)據(jù)樣本,計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值相似度,根據(jù)所得到的相似度從未包含缺失值的數(shù)據(jù)樣本中確定填充樣本,根據(jù)填充樣本的屬性值確定填充值并將填充值填充到缺失值位置處。本發(fā)明實施例通過采用上述技術(shù)方案,根據(jù)與缺失值所對應(yīng)數(shù)據(jù)樣本相似度較大的未包含缺失值的數(shù)據(jù)樣本的屬性值對缺失值進行填充,綜合考慮缺失值的屬性特點和分布特征,無需刪除包含缺失值的數(shù)據(jù)樣本,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:

圖1為本發(fā)明實施例一提供的一種數(shù)據(jù)處理的方法的流程示意圖;

圖2為本發(fā)明實施例二提供的一種數(shù)據(jù)處理的方法的流程示意圖;

圖3為本發(fā)明實施例三提供的一種數(shù)據(jù)處理的方法的流程示意圖;

圖4為本發(fā)明實施例四提供的一種數(shù)據(jù)處理的裝置的結(jié)構(gòu)框圖。

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。

實施例一

本發(fā)明實施例一提供一種數(shù)據(jù)處理的方法。該方法可由數(shù)據(jù)處理的裝置執(zhí)行,其中該裝置可以由硬件和/或軟件實現(xiàn),一般可集成在數(shù)據(jù)處理平臺中。圖1是本發(fā)明實施例一提供的數(shù)據(jù)處理的方法的流程示意圖,如圖1所示,該方法包括:

S101、獲取數(shù)據(jù)樣本。

本實施例中,數(shù)據(jù)樣本可以是實體類數(shù)據(jù)樣本,數(shù)據(jù)樣本包括第一數(shù)據(jù)樣本和第二數(shù)據(jù)樣本,其中第一數(shù)據(jù)樣本是包括缺失值的數(shù)據(jù)樣本,第二數(shù)據(jù)樣本是不包括缺失值的數(shù)據(jù)樣本。

具體應(yīng)用中,數(shù)據(jù)樣本可以預(yù)先存儲在與數(shù)據(jù)處理平臺相對應(yīng)的數(shù)據(jù)庫中,在獲取數(shù)據(jù)樣本時,直接從數(shù)據(jù)樣本的存儲位置調(diào)用該數(shù)據(jù)樣本即可;也可以實時從數(shù)據(jù)傳輸接口獲取其他平臺或數(shù)據(jù)庫發(fā)送的數(shù)據(jù)樣本并對數(shù)據(jù)樣本中的缺失值進行處理,此處不作限制。

S102、計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度。

在對數(shù)據(jù)樣本中包含的缺失值進行處理時,可以以橫向或縱向的順序進行處理,即,可以以數(shù)據(jù)樣本為單位進行處理,也可以以屬性為單位進行處理。包含缺失值的數(shù)據(jù)樣本和不包含缺失值的數(shù)據(jù)樣本的具體定義可以根據(jù)處理方式的不同靈活設(shè)定,例如,可以將任意一個或多個屬性值缺失的數(shù)據(jù)樣本均定義為包含缺失值的數(shù)據(jù)樣本,相應(yīng)的,將不包含缺失值的數(shù)據(jù)樣本定義為所有屬性值均不缺失的數(shù)據(jù)樣本;也可以在對數(shù)據(jù)樣本某一個屬性中包含的缺失值進行處理時,只將該屬性的屬性值缺失的數(shù)據(jù)樣本定義為包含缺失值的數(shù)據(jù)樣本,相應(yīng)的,將不包含缺失值的數(shù)據(jù)樣本定義為該屬性的屬性值不缺失的數(shù)據(jù)樣本,或者將不包含缺失值的數(shù)據(jù)樣本定義為該屬性的屬性值不缺失且該屬性的相關(guān)屬性值也不缺失的數(shù)據(jù)樣本。

在此,需要指出的是,相關(guān)屬性優(yōu)選為與缺失值所對應(yīng)屬性的業(yè)務(wù)關(guān)聯(lián)度較大且缺失率較小的屬性。其中,某一屬性的缺失率可以通過統(tǒng)計多個樣本中該屬性值缺失的概率獲得;與某一屬性的關(guān)度聯(lián)較大的屬性可以在數(shù)據(jù)創(chuàng)建時由開發(fā)商和/或運營商進行定義,也可以通過相應(yīng)的計算規(guī)則進行計算獲得,如可以計算當某一屬性數(shù)值變化時其他各屬性的屬性值變化的概率從而得到與該屬性業(yè)務(wù)關(guān)聯(lián)度比較大的屬性。相關(guān)屬性的個數(shù)可以根據(jù)需要靈活設(shè)置,可選是,與缺失值對應(yīng)屬性的相關(guān)屬性的個數(shù)可以設(shè)置為3-5個,從而在保證填充值準確性的前提下減少確定填充值所需的計算量。

本實施例中,包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度可以是包括缺失值的數(shù)據(jù)樣本除缺失值所對應(yīng)屬性外所有屬性值與未包括缺失值的數(shù)據(jù)樣本的相應(yīng)屬性值之間的相似度;也可以是包括缺失值的數(shù)據(jù)樣本中與缺失值所對應(yīng)屬性的相關(guān)屬性與未包括缺失值的數(shù)據(jù)樣的相應(yīng)屬性值之間的相似度,此處不作限制。舉例而言,假設(shè)某包括缺失值的數(shù)據(jù)樣本x共有10個屬性,缺失值所對應(yīng)屬性為屬性A,屬性A有4個相關(guān)屬性:屬性B、屬性C、屬性D和屬性E,則,數(shù)據(jù)樣本x與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度可以是數(shù)據(jù)樣本x除屬性A之外的其他9個屬性值與未包括缺失值的數(shù)據(jù)樣本相應(yīng)的9個屬性值之間的相似度,也可以是數(shù)據(jù)樣本x的4個相關(guān)屬性(屬性B、屬性C、屬性D和屬性E)與未包括缺失值的數(shù)據(jù)樣本相應(yīng)的4個屬性(屬性B、屬性C、屬性D和屬性E)之間的相似度。

本實施例中,可選的,可以以屬性為單位對數(shù)據(jù)樣本中的缺失值進行處理。在對某屬性中的缺失值進行處理時,可以直接對該屬性中的每個缺失值同時或依次進行處理,也可以首先根據(jù)該屬性中各缺失值對應(yīng)的數(shù)據(jù)樣本的其他屬性值或相關(guān)屬性值對該屬性中的各缺失值進行分組,例如,可以將各缺失值對應(yīng)的數(shù)據(jù)樣本的其他屬性值或相關(guān)屬性值完全相同的缺失值分為同一組,然后分別計算各組缺失值對應(yīng)的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度。相應(yīng)的,在對某一屬性中的某一個或某一組缺失值進行處理時,可以將該缺失值或該組缺失值對應(yīng)的數(shù)據(jù)樣本定義為包括缺失值的數(shù)據(jù)樣本,將該屬性的屬性值不缺失且該屬性的相關(guān)屬性值也不缺失的數(shù)據(jù)樣本定義為未包括缺失值的數(shù)據(jù)樣本,從而減少在對缺失值進行處理的過程中所需的計算量。

S103、根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本。

本實施例中,可以預(yù)先設(shè)定確定填充樣本的相似度閾值,然后將大于或等于所設(shè)定的相似度閾值的未包含缺失值的數(shù)據(jù)樣本確定為填充樣本;也可以首先獲取預(yù)先設(shè)定填充樣本的個數(shù)(假設(shè)為N個),然后將未包括缺失值的數(shù)據(jù)本按照與包含缺失值的數(shù)據(jù)樣本的屬性值之間的相似度由高到低進行排序,并獲取與填充樣本的個數(shù)相符的相似度排序前N的未包括缺失值的數(shù)據(jù)樣本為填充樣本,此處不作限制。

S104、根據(jù)所述缺失值在所述填充樣本中對應(yīng)的屬性值確定填充值,并根據(jù)所述填充值更新所述包括缺失值的數(shù)據(jù)樣本。

示例性的,在確定填充樣本后,可以首先獲取填充樣本中與缺失值對應(yīng)屬性相同屬性的屬性值,然后計算各屬性值的平均值,將平均值處理為與該屬性相對應(yīng)的數(shù)據(jù)類型以確定填充值,并將填充值填充到與填充樣本對應(yīng)的缺失值位置處,從而實現(xiàn)對包括該缺失值的數(shù)據(jù)樣本的更新。例如,假設(shè)缺失值對應(yīng)的屬性為年齡屬性,填充樣本(假設(shè)為5個)中年齡屬性的屬性值分別為28歲、28歲、28歲、28歲、27歲,則首先可以計算出各屬性值的平均值為27.8歲,而年齡屬性的屬性值為整數(shù),據(jù)此,對所得到的平均值進行處理可以確定填充值為28歲,然后將填充值(28)填充到該缺失值位置處以實現(xiàn)對包含該缺失值的數(shù)據(jù)樣本的更新。

本發(fā)明實施例一提供的數(shù)據(jù)處理的方法,獲取數(shù)據(jù)樣本,計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值相似度,根據(jù)所到的相似度從未包含缺失值的數(shù)據(jù)樣本中確定填充樣本,根據(jù)填充樣本的屬性值確定填充值并將填充值填充到缺失值位置處。本發(fā)明實施例通過采用上述技術(shù)方案,根據(jù)與缺失值所對應(yīng)數(shù)據(jù)樣本相似度較大的未包含缺失值的數(shù)據(jù)樣本的屬性值對缺失值進行填充,綜合考慮缺失值的屬性特點和分布特征,無需刪除包含缺失值的數(shù)據(jù)樣本,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間,進而提高后續(xù)數(shù)據(jù)處理流程的準確性與整個數(shù)據(jù)處理過程的平均速度。

在上述實施例的基礎(chǔ)上,在所述根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本之前,還包括:根據(jù)樣本數(shù)確定規(guī)則確定填充所述缺失值所需的填充樣本數(shù)。本實施例中,由于不同缺失值通常具有不同的屬性和/或相關(guān)屬性值,而不同屬性的缺失值和/或與不同相關(guān)屬性值所對應(yīng)的缺失值所需的填充樣本的個數(shù)通常是不同的,因此,可以預(yù)先設(shè)定確定填充樣本個數(shù)的算法,在根據(jù)相似度確定填充樣本之前,首先通過所設(shè)定的算法確定該缺失值所需要的填充樣本的個數(shù)(假設(shè)為N個),然后從按照相似度排序的未包括缺失值的數(shù)據(jù)樣本中選擇相似度排序前N的數(shù)據(jù)樣本為填充樣本,從而提高根據(jù)填充樣本中對應(yīng)的屬性值所確定的用于填充缺失值的填充值的準確性。

實施例二

圖2為本發(fā)明實施例二提供的一種數(shù)據(jù)處理的方法的流程示意圖。本實施例在上述實施例的基礎(chǔ)上進行優(yōu)化,進一步地,在所述計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度之前,還包括:根據(jù)缺失值對應(yīng)屬性獲取所述數(shù)據(jù)樣本各屬性的初始化貢獻度,所述各屬性為所述缺失值對應(yīng)屬性的相關(guān)屬性。

進一步地,所述相關(guān)屬性以及所述缺失值對應(yīng)屬性的屬性值均為連續(xù)型數(shù)值;相應(yīng)的,所述計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度,具體為:根據(jù)所述相關(guān)屬性的初始化貢獻度與歐氏距離公式計算包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值與未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值之間的相似度。

進一步地,所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值為離散型數(shù)值;相應(yīng)的,所述計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度,包括:如果所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值包含連續(xù)型數(shù)值,則將所述連續(xù)型數(shù)值進行離散化處理;計算所述缺失值對應(yīng)屬性包含的各離散型數(shù)值在所述未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度;獲取相關(guān)屬性值與所述缺失值的相關(guān)屬性值相同的未包含缺失值的數(shù)據(jù)樣本為所述相關(guān)屬性的子樣本,并計算所述缺失值對應(yīng)屬性包含的各離散型數(shù)值在所述相關(guān)屬性的子樣本中的第二貢獻度;根據(jù)所述第一貢獻度和所述第二貢獻度生成所述缺失值的綜合貢獻度矩陣;根據(jù)所述綜合貢獻度矩陣與所述相關(guān)屬性的初始化貢獻度計算包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值與未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值之間的相似度。

相應(yīng)的,如圖2所示,本實施例提供的數(shù)據(jù)處理的方法包括:

S201、獲取數(shù)據(jù)樣本。

S202、根據(jù)缺失值對應(yīng)屬性獲取所述數(shù)據(jù)樣本各屬性的初始化貢獻度,所述各屬性為所述缺失值對應(yīng)屬性的相關(guān)屬性。

本實施例中,初始化貢獻度可用于描述各屬性與缺失值所對應(yīng)屬性業(yè)務(wù)關(guān)聯(lián)度的大小。對于某一屬性而言,其他各相關(guān)屬性的初始化貢獻度可以由開發(fā)商和/或運營商預(yù)先進行設(shè)定,也可以通過其他各相關(guān)屬性與該屬性的業(yè)務(wù)關(guān)聯(lián)度計算獲得,如可以將某一相關(guān)屬性的初始化貢獻度設(shè)置為其與缺失值對應(yīng)屬性的業(yè)務(wù)關(guān)聯(lián)度等。相應(yīng)的,在獲取數(shù)據(jù)樣本各屬性的初始化貢獻度時,可以直接從相應(yīng)的存儲位置獲取缺失值對應(yīng)屬性的各相關(guān)屬性的初始化貢獻度,也可以根據(jù)其他各相關(guān)屬性與缺失值對應(yīng)屬性的業(yè)務(wù)關(guān)聯(lián)度計算獲得缺失值對應(yīng)屬性的各相關(guān)屬性的初始化貢獻度。

S203、如果所述相關(guān)屬性以及所述缺失值對應(yīng)屬性的屬性值均為連續(xù)型數(shù)值,則根據(jù)所述相關(guān)屬性的初始化貢獻度與歐氏距離公式計算包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值與未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值之間的相似度,執(zhí)行步驟S209。

示例性的,假設(shè)缺失值所對應(yīng)屬性為屬性A,屬性A有4個相關(guān)屬性:屬性B、屬性C、屬性D和屬性E,各相關(guān)屬性對于屬性A的初始化貢獻度分別為a、b、c、d,則包括缺失值的數(shù)據(jù)樣本(假設(shè)其相關(guān)屬性值分別為:A1、B1、C1、D1)與某一未包括缺失值的數(shù)據(jù)樣本(假設(shè)其相關(guān)屬性值分別為:A2、B2、C2、D2)的與缺失值對應(yīng)屬性的相關(guān)屬性值之間的相似度為:其中,m為包括缺失值的數(shù)據(jù)樣本與該未包括缺失值的數(shù)據(jù)樣本之間的相似度。在此需要指出的是,如果缺失值對應(yīng)屬性的各相關(guān)屬性的取值范圍存在較明顯的區(qū)別,如相關(guān)屬性分別為年齡和工資時,其取值之差在數(shù)值上存在較大的差別,如工資的屬性值之差通常會遠遠大于年齡的屬性值之差,則可以通過如下公式計算未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度:

S204、如果所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值為離散型數(shù)值,則當所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值包含連續(xù)型數(shù)值,將所述連續(xù)型數(shù)值進行離散化處理。

相應(yīng)的,如果缺失值對應(yīng)屬性的相關(guān)屬性或缺失值對應(yīng)屬性的屬性值均為離散型數(shù)值,則可以直接進行后續(xù)計算第一貢獻度的操作。

示例性的,假設(shè)相關(guān)屬性包括年齡屬性,年齡屬性中的屬性值為連續(xù)型數(shù)值,則可以根據(jù)具體需求將其離散化為合適的年齡區(qū)間,如可以將其離散化為長度為2或長度為5的年齡區(qū)間等,此處不作限制。舉例而言,假設(shè)某一數(shù)據(jù)樣本的年齡值為28歲,則可以將其離散化為25-30歲。在此,需要指出的是,各屬性離散化時的區(qū)間長度可以由開發(fā)商或運營商預(yù)先進行設(shè)置,某一屬性可以具有一個或多個離散化時的區(qū)間長度,當對應(yīng)多個離散化時的區(qū)間長度時,可以由開發(fā)商或運營商在設(shè)置各區(qū)間長度的同時根據(jù)該屬性中各屬性值的分布情況和/或其相關(guān)屬性的分布情況設(shè)置各區(qū)間長度的調(diào)用條件,相應(yīng)的,在對某屬性中的連續(xù)型數(shù)值進行離散化處理時,可以首先確定該屬性中各屬性值的分布情況和/或其相關(guān)屬性值的分布情況,并根據(jù)其各屬性值的分布情況和/或其相關(guān)屬性值的分布情況進行區(qū)間長度的選取,然后按照所選取的區(qū)間長度對該屬性的屬性值進行離散化處理。

以年齡屬性為例,假設(shè)年齡屬性對應(yīng)1歲、2歲和5歲三個離散化區(qū)間長度,各離散化區(qū)間長度的調(diào)用條件為:如果各數(shù)據(jù)樣本年齡分布的總長度為0-9歲,則離散化區(qū)間長度為1歲;如果各數(shù)據(jù)樣本年齡分布的總長度為10-19歲,則離散化區(qū)間長度為2歲;如果各數(shù)據(jù)樣本年齡分布的總長度大于或等于20歲,則離散化區(qū)間長度為5歲,此時,在對年齡值進行離散化處理時,可以首先計算年齡屬性中年齡分布的總長度,然后判斷該年齡分布的總長度所屬的區(qū)間范圍以確定與其對應(yīng)的離散化區(qū)間長度,并按照該離散化區(qū)間長度對其進行離散化處理。

S205、計算所述缺失值對應(yīng)屬性包含的各離散型數(shù)值在所述未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度。

本實施例中,某一離散型數(shù)值在未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度可以是與缺失值對應(yīng)屬性的屬性值為該離散型數(shù)值的未包含缺失值的數(shù)據(jù)樣本在所有未包含缺失值的數(shù)據(jù)樣本中所占的比例。以缺失值所對應(yīng)屬性為婚姻狀況為例,婚姻狀況屬性所包含的離散型數(shù)值分別為未婚、已婚、離異和喪偶,在對某一數(shù)據(jù)樣本中缺失的婚姻狀態(tài)屬性值進行處理時,假設(shè)未包含缺失值的數(shù)據(jù)樣本共有10000個,其中,婚姻狀況信息為未婚、已婚、離異和喪偶的數(shù)據(jù)樣本個數(shù)分別為3000、5000、1500和500,則缺失值對應(yīng)屬性(婚姻狀況)包含的各離散型數(shù)值(未婚、已婚、離異和喪偶)在未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度(以S1表示)分別為:S1未婚=3000/10000=0.3,S1已婚=5000/10000=0.5,S1離異=1500/10000=0.15,S1喪偶=500/10000=0.05。

S206、獲取相關(guān)屬性值與所述缺失值的相關(guān)屬性值相同的未包含缺失值的數(shù)據(jù)樣本為所述相關(guān)屬性的子樣本,并計算所述缺失值對應(yīng)屬性包含的各離散型數(shù)值在所述相關(guān)屬性的子樣本中的第二貢獻度。

以缺失值所對應(yīng)屬性為婚姻狀況、相關(guān)屬性為年齡為例,婚姻狀況屬性所包含的離散型數(shù)值分別為未婚、已婚、離異和喪偶,年齡屬性所包含的離散型數(shù)值為區(qū)間長度為5的離散型數(shù)值,即,其各離散型屬性值分別為:[20,25),[25,30),[30,35),[35,40)等,假設(shè)缺失值所對應(yīng)數(shù)據(jù)樣本的相關(guān)屬性值為28歲,即與其對應(yīng)的離散型屬性值為[25,30),在10000個數(shù)據(jù)樣本中,相關(guān)屬性值與缺失值的相關(guān)屬性值相同(即,年齡屬性值為[25,30))的相關(guān)屬性的子樣本共有2000個,其中,婚姻狀況信息為未婚、已婚、離異和喪偶的數(shù)據(jù)樣本個數(shù)分別為1100、700、150和50,則缺失值對應(yīng)屬性(婚姻狀況)包含的各離散型數(shù)值(未婚、已婚、離異和喪偶)在相關(guān)屬性(年齡)的子樣本中的第二貢獻度(以S2表示)分別為:S2未婚=1100/2000=0.55,S2已婚=700/2000=0.35,S2離異=150/2000=0.075,S2喪偶=50/2000=0.025。

S207、根據(jù)所述第一貢獻度和所述第二貢獻度生成所述缺失值的綜合貢獻度矩陣。

本實施例中,綜合貢獻度矩陣可以綜合考慮缺失值對應(yīng)屬性的各屬性值在所有數(shù)據(jù)樣本中的分布情況以及缺失值對應(yīng)屬性的各屬性值在相關(guān)屬性子樣本中的分布情況。缺失值的綜合貢獻度矩陣可以通過第一貢獻度與第二貢獻度相乘獲得。以缺失值所對應(yīng)屬性為婚姻狀況、相關(guān)屬性為年齡為例,婚姻狀況屬性所包含的離散型數(shù)值分別為未婚、已婚、離異和喪偶,年齡屬性所包含的離散型數(shù)值為區(qū)間長度為5的離散型數(shù)值,即,其各離散型屬性值分別為:[20,25),[25,30),[30,35),[35,40)等,假設(shè)缺失值對應(yīng)屬性(婚姻狀況)包含的各離散型數(shù)值(未婚、已婚、離異和喪偶)在未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度分別為S1未婚=0.3、S1已婚=0.5、S1離異=0.15、S1喪偶=0.05,缺失值對應(yīng)屬性(婚姻狀況)包含的各離散型數(shù)值(未婚、已婚、離異和喪偶)在相關(guān)屬性(年齡)的子樣本中的第二貢獻度分別為:S2未婚=0.55,S2已婚=0.35,S2離異=0.075,S2喪偶=0.025,則缺失值對應(yīng)屬性(婚姻狀況)包含的各離散型數(shù)值(未婚、已婚、離異和喪偶)的綜合貢獻度分別為:

S未婚=S1未婚×S2未婚=0.3×0.55=0.165,

S已婚=S1已婚×S2已婚=0.5×0.35=0.175,

S離異=S1離異×S2離異=0.15×0.57=0.1125,

S喪偶=S1喪偶×S2喪偶=0.05×0.025=0.00125,

即,該缺失值的綜合貢獻度矩陣為[0.165,0.175,0.1125,0.00125]。

S208、根據(jù)所述綜合貢獻度矩陣與所述相關(guān)屬性的初始化貢獻度計算包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值與未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值之間的相似度。

本實施例中,如果缺失值對應(yīng)屬性只有一個相關(guān)屬性,則在計算各未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性與包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性之間的相似度時,可以考慮或不考慮該相關(guān)屬性的初始化貢獻度,即,可以直接通過該相關(guān)屬性的綜合貢獻度矩陣計算未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度,也可以通過該相關(guān)屬性的綜合貢獻度矩陣與該相關(guān)屬性的初始化貢獻度計算包括未缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度。考慮到計算方法的統(tǒng)一性,優(yōu)選的,可以通過該相關(guān)屬性的綜合貢獻度矩陣與該相關(guān)屬性的初始化貢獻度計算包括未缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度。例如,在計算某一未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度時,可以首先確定該未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性的屬性值,并通過與缺失值對應(yīng)的綜合貢獻度矩陣確定該屬性值的綜合貢獻度,然后將該相關(guān)屬性的初始化貢獻度與該綜合貢獻度相乘得到該未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度。以缺失值所對應(yīng)屬性為婚姻狀況、相關(guān)屬性為年齡為例,假設(shè)缺失值年齡屬性的綜合貢獻度矩陣為[0.165,0.175,0.1125,0.00125],年齡屬性的初始化貢獻度為0.3,未包括缺失值的數(shù)據(jù)樣本的婚姻狀況值為未婚,如果該未包括缺失值的數(shù)據(jù)樣本的年齡屬性值與缺失值對應(yīng)數(shù)據(jù)樣本的年齡屬性值相同,則其與缺失值對應(yīng)數(shù)據(jù)樣本的相似度為:m=S未婚×0.3=0.165×0.3=0.0495;如果該未包括缺失值的數(shù)據(jù)樣本的年齡屬性值與缺失值對應(yīng)數(shù)據(jù)樣本的年齡屬性值不相同,則其與缺失值對應(yīng)數(shù)據(jù)樣本的相似度為0。

如果缺失值對應(yīng)屬性具有多個相關(guān)屬性,則可以通過各相關(guān)屬性的綜合貢獻度矩陣與各相關(guān)屬性的初始化貢獻度計算未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度。例如,在計算某一未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度時,可以首先根據(jù)各相關(guān)屬性的綜合貢獻度矩陣與各相關(guān)屬性的初始化貢獻度計算與各相關(guān)屬性對應(yīng)的相似度因子,然后將各相似度因子相加得到該未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度。以缺失值所對應(yīng)屬性為婚姻狀況、相關(guān)屬性為年齡和學(xué)歷為例,假設(shè)缺失值年齡屬性的綜合貢獻度矩陣為[0.165,0.175,0.1125,0.00125],年齡屬性的初始化貢獻度為0.3,缺失值學(xué)歷屬性的綜合貢獻度矩陣為[0.215,0.165,0.0075,0.00025],學(xué)歷屬性的初始化貢獻度為0.2,未包括缺失值的數(shù)據(jù)樣本的婚姻狀況屬性值為未婚,如果該未包括缺失值的數(shù)據(jù)樣本的年齡屬性值與缺失值對應(yīng)數(shù)據(jù)樣本的年齡屬性值和學(xué)歷屬性值均相同,則其與缺失值對應(yīng)數(shù)據(jù)樣本的年齡相似度因子為m1=S年齡,未婚×0.3=0.165×0.3=0.0495,其與缺失值對應(yīng)數(shù)據(jù)樣本的學(xué)歷相似度因子為m2=S學(xué)歷,未婚×0.2=0.215×0.2=0.0430,從而可以得出,該未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度為m=m1+m2=0.0495+0.0430=0.0925。

S209、根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本。

S210、根據(jù)所述缺失值在所述填充樣本中對應(yīng)的屬性值確定填充值,并根據(jù)所述填充值更新所述包括缺失值的數(shù)據(jù)樣本。

本發(fā)明實施例二提供的數(shù)據(jù)處理的方法,當缺失值對應(yīng)屬性的屬性值與缺失值對應(yīng)屬性的相關(guān)屬性的屬性值均為連續(xù)型數(shù)值時,根據(jù)各相關(guān)屬性的初始化貢獻度和歐氏距離公式計算各未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度;當缺失值對應(yīng)屬性的屬性值或缺失值對應(yīng)屬性的相關(guān)屬性的屬性值包含離散型數(shù)值時,根據(jù)缺失值對應(yīng)屬性包含的各離散型數(shù)值在未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度、在各相關(guān)屬性子樣本中的第二貢獻度以及各相關(guān)屬性的初始化貢獻度計算各未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度。本實施例通過采用上述技術(shù)方案,對缺失值對應(yīng)屬性的屬性值以及缺失值對應(yīng)屬性的相關(guān)屬性值所屬數(shù)據(jù)類型不同的缺失值采取不同的方法計算各未包括缺失值的數(shù)據(jù)樣本與包括缺失值的數(shù)據(jù)樣本之間的相似度,可以提高計算得到的相似度的準確性,從而提高根據(jù)相似度確定的填充樣本,提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間,進而提高后續(xù)數(shù)據(jù)處理流程的準確性與數(shù)據(jù)處理過程的整體平均速度。

實施例三

圖3為本發(fā)明實施例三提供的一種數(shù)據(jù)處理的方法的流程示意圖。本實施例在上述實施例的基礎(chǔ)上進行優(yōu)化,進一步地,所述根據(jù)樣本數(shù)確定規(guī)則確定填充所述缺失值所需的填充樣本數(shù),包括:根據(jù)缺失值對應(yīng)屬性的非缺失率和未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充所述缺失值所需的第一樣本數(shù);根據(jù)缺失值對應(yīng)屬性的相關(guān)屬性的貢獻率和所述未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充所述缺失值所需的第二樣本數(shù);根據(jù)所述第一樣本數(shù)與所述第二樣本數(shù)確定填充所述缺失值所需的填充樣本數(shù)。

相應(yīng)的,如圖3所示,本實施例提供的數(shù)據(jù)處理的方法包括:

S301、獲取數(shù)據(jù)樣本。

S302、計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度。

S303、根據(jù)缺失值對應(yīng)屬性的非缺失率和未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充所述缺失值所需的第一樣本數(shù)。

示例性的,可以通過公式N1=(1-Rnm)×S計算填充某一缺失值所需的第一樣本數(shù),其中,N1位填充該缺失值所需的第一樣本數(shù),Rnm為該缺失值所對應(yīng)屬性的非缺失率,S為未包括缺失值的數(shù)據(jù)樣本的數(shù)量。例如,假設(shè)某一缺失值對應(yīng)屬性為婚姻狀況屬性,在10000個數(shù)據(jù)樣本中有2000個數(shù)據(jù)樣本的年齡屬性缺失,則該缺失值對應(yīng)屬性的非缺失率Rnm=(10000-2000)/10000=0.8,未包括缺失值的數(shù)據(jù)樣本的數(shù)量為S=10000-2000=8000,填充該缺失值所需的第一樣本數(shù)N1=(1-Rnm)×S=(1-0.8)×8000=1600。

S304、根據(jù)缺失值對應(yīng)屬性的相關(guān)屬性的貢獻率和所述未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充所述缺失值所需的第二樣本數(shù)。

本實施例中,在確定填充某一缺失值所需的第二樣本數(shù)時,可以首先根據(jù)缺失值對應(yīng)屬性的初始化貢獻度或綜合貢獻度矩陣確定該缺失值各相關(guān)屬性的子貢獻率,然后根據(jù)各相關(guān)屬性的子貢獻率計算得到該缺失值對應(yīng)屬性的相關(guān)屬性的貢獻率,并根據(jù)計算得到的相關(guān)屬性的貢獻率和未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充該缺失值所需的第二樣本數(shù)。其中,相關(guān)屬性的貢獻率可以為各相關(guān)屬性子貢獻率的平均值;第二樣本數(shù)可以為相關(guān)屬性的貢獻率與未包括缺失值的數(shù)據(jù)樣本的數(shù)量的乘積。

示例性的,如果所述相關(guān)屬性以及所述缺失值對應(yīng)屬性的屬性值均為連續(xù)型數(shù)值,則各相關(guān)屬性的子貢獻率可以為各相關(guān)屬性的初始化貢獻度。例如,如果工資屬性的初始化貢獻度為0.1,則工資屬性的子貢獻率即為0.1。

如果所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值為離散型數(shù)值,則其某一相關(guān)屬性的子貢獻率可以為缺失值所對應(yīng)屬性的各離散型數(shù)值在該相關(guān)屬性的子樣本中所占比例與相應(yīng)綜合貢獻度的乘積之和,其中,相關(guān)屬性的子樣本中的數(shù)據(jù)樣本為相關(guān)屬性值與缺失值的相關(guān)屬性值相同的未包含缺失值的數(shù)據(jù)樣本。以缺失值所對應(yīng)屬性為婚姻狀況、相關(guān)屬性為年齡為例,假設(shè)缺失值所對應(yīng)數(shù)據(jù)樣本的相關(guān)屬性值為28歲,即與其對應(yīng)的離散型屬性值為[25,30),該缺失值年齡屬性的綜合貢獻度矩陣為[0.165,0.175,0.1125,0.00125],在10000個數(shù)據(jù)樣本中,相關(guān)屬性值與缺失值的相關(guān)屬性值相同(即,年齡屬性值為[25,30))的相關(guān)屬性的子樣本共有2000個,其中,婚姻狀況信息為未婚、已婚、離異和喪偶的數(shù)據(jù)樣本個數(shù)分別為1100、700、150和50,則缺失值對應(yīng)屬性(婚姻狀況)包含的各離散型數(shù)值(未婚、已婚、離異和喪偶)在相關(guān)屬性(年齡)的子樣本中所占的比例(以Q表示)分別為:Q未婚=1100/2000=0.55,Q已婚=700/2000=0.35,Q離異=150/2000=0.075,Q喪偶=50/2000=0.025,由此可以得出,該缺失值年齡屬性的子貢獻率為:

Rr年齡=Q未婚×S未婚+Q已婚×S已婚+Q離異×S離異+Q喪偶×S喪偶

=0.55×0.165+0.35×0.175+0.075×0.1125+0.025×0.00125≈0.16

舉例而言,假設(shè)某一缺失值對應(yīng)屬性為婚姻狀況屬性,其相關(guān)屬性為年齡和學(xué)歷,年齡屬性的子貢獻率Rr年齡=0.16,學(xué)歷屬性的子貢獻率Rr學(xué)歷=0.14,未包含缺失值的數(shù)據(jù)樣本的個數(shù)為S=8000,則該缺失值相關(guān)屬性的貢獻率為:Rr=(Rr年齡+Rr學(xué)歷)/2=(0.16+0.14)/2=0.15,由此可以得出,填充該缺失值所需的第二樣本數(shù)N2=Rr×S=0.15×8000=1200。

S305、根據(jù)所述第一樣本數(shù)與所述第二樣本數(shù)確定填充所述缺失值所需的填充樣本數(shù)。

示例性的,在確定某一缺失值所需的填充樣本數(shù)時,可以首先比較第一樣本數(shù)和第二樣本數(shù)的大小,然后選取第一樣本數(shù)與第二樣本數(shù)中較大的數(shù)值作為填充該缺失值所需的填充樣本數(shù)。例如,假設(shè)第一樣本數(shù)N1=1600,第二樣本數(shù)N2=1200,則填充該缺失值所需的填充樣本數(shù)N=max(N1,N2)=N1=1600。

S306、根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本。

具體的,在確定填充樣本時,可以按照相似度由高到底選取與填充樣本數(shù)相等數(shù)量的數(shù)據(jù)樣本為填充樣本。

S307、根據(jù)所述缺失值在所述填充樣本中對應(yīng)的屬性值確定填充值,并根據(jù)所述填充值更新所述包括缺失值的數(shù)據(jù)樣本。

本發(fā)明實施例三提供的數(shù)據(jù)處理的方法,根據(jù)缺失值對應(yīng)屬性的缺失率、缺失值對應(yīng)屬性的相關(guān)屬性的貢獻率以及未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充該缺失值所需的填充樣本數(shù),可以為不同的屬性的缺失值或同一屬性的不同缺失值確定不同的填充樣本數(shù),提高根據(jù)填充樣本所確定的填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間,進而提高后續(xù)數(shù)據(jù)處理流程的準確性與數(shù)據(jù)處理過程的整體平均速度。

實施例四

本發(fā)明實施例四提供一種數(shù)據(jù)處理的裝置。該裝置可以由硬件和/或軟件實現(xiàn),一般可集成在數(shù)據(jù)處理平臺中,可通過執(zhí)行數(shù)據(jù)處理的方法對數(shù)據(jù)進行處理。圖4所示為本發(fā)明實施例四提供的數(shù)據(jù)處理的裝置的結(jié)構(gòu)框圖,如圖4所示,該裝置包括:

數(shù)據(jù)樣本獲取模塊401,用于獲取數(shù)據(jù)樣本;

相似度計算模塊402,用于計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度;

填充樣本確定模塊403,用于根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本;

填充值確定模塊404,用于根據(jù)所述缺失值在所述填充樣本中對應(yīng)的屬性值確定填充值,并根據(jù)所述填充值更新所述包括缺失值的數(shù)據(jù)樣本。

本發(fā)明實施例四提供的數(shù)據(jù)處理的裝置,通過數(shù)據(jù)樣本獲取模塊獲取數(shù)據(jù)樣本,通過相似度計算模塊計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值相似度,通過填充樣本確定模塊根據(jù)所得到的相似度從未包含缺失值的數(shù)據(jù)樣本中確定填充樣本,通過填充值確定模塊根據(jù)填充樣本的屬性值確定填充值并將填充值填充到缺失值位置處。本發(fā)明實施例通過采用上述技術(shù)方案,根據(jù)與缺失值所對應(yīng)數(shù)據(jù)樣本相似度較大的未包含缺失值的數(shù)據(jù)樣本的屬性值對缺失值進行填充,綜合考慮缺失值的屬性特點和分布特征,無需刪除包含缺失值的數(shù)據(jù)樣本,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間,進而提高后續(xù)數(shù)據(jù)處理流程的準確性與整個數(shù)據(jù)處理過程的平均速度。

進一步地,本實施例提供的數(shù)據(jù)處理的裝置還可以包括:初始化貢獻度獲取模塊,用于在所述計算包括缺失值的數(shù)據(jù)樣本的屬性值與未包括缺失值的數(shù)據(jù)樣本的屬性值之間的相似度之前,根據(jù)缺失值對應(yīng)屬性獲取所述數(shù)據(jù)樣本各屬性的初始化貢獻度,所述各屬性為所述缺失值對應(yīng)屬性的相關(guān)屬性。

進一步地,所述相關(guān)屬性以及所述缺失值對應(yīng)屬性的屬性值均為連續(xù)型數(shù)值;相應(yīng)的,所述相似度計算模塊402可具體用于:根據(jù)所述相關(guān)屬性的初始化貢獻度與歐氏距離公式計算包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值與未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值之間的相似度。

進一步地,所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值為離散型數(shù)值;相應(yīng)的,所述相似度計算模塊402可包括:離散化處理單元,用于如果所述相關(guān)屬性或所述缺失值對應(yīng)屬性的屬性值包含連續(xù)型數(shù)值,則將所述連續(xù)型數(shù)值進行離散化處理;第一貢獻度計算單元,用于計算所述缺失值對應(yīng)屬性包含的各離散型數(shù)值在所述未包含缺失值的數(shù)據(jù)樣本中的第一貢獻度;第二貢獻度計算單元,用于獲取相關(guān)屬性值與所述缺失值的相關(guān)屬性值相同的未包含缺失值的數(shù)據(jù)樣本為所述相關(guān)屬性的子樣本,并計算所述缺失值對應(yīng)屬性包含的各離散型數(shù)值在所述相關(guān)屬性的子樣本中的第二貢獻度;綜合貢獻度矩陣生成單元,用于根據(jù)所述第一貢獻度和所述第二貢獻度生成所述缺失值的綜合貢獻度矩陣;相似度計算單元,用于根據(jù)所述綜合貢獻度矩陣與所述相關(guān)屬性的初始化貢獻度計算包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值與未包括缺失值的數(shù)據(jù)樣本的相關(guān)屬性值之間的相似度。

進一步地,本實施例提供的數(shù)據(jù)處理的裝置還可以包括:填充樣本數(shù)確定模塊,用于在所述根據(jù)所述相似度從所述未包括缺失值的數(shù)據(jù)樣本中確定填充樣本之前,根據(jù)樣本數(shù)確定規(guī)則確定填充所述缺失值所需的填充樣本數(shù)。

進一步地,所述填充樣本數(shù)確定模塊包括:第一樣本數(shù)確定單元,用于根據(jù)缺失值對應(yīng)屬性的非缺失率和未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充所述缺失值所需的第一樣本數(shù);第二樣本數(shù)確定單元,用于根據(jù)缺失值對應(yīng)屬性的相關(guān)屬性的貢獻率和所述未包括缺失值的數(shù)據(jù)樣本的數(shù)量確定填充所述缺失值所需的第二樣本數(shù);填充樣本數(shù)確定單元,用于根據(jù)所述第一樣本數(shù)與所述第二樣本數(shù)確定填充所述缺失值所需的填充樣本數(shù)。

本實施例提供的數(shù)據(jù)處理的裝置可執(zhí)行本發(fā)明任意實施例所提供的數(shù)據(jù)處理的方法,具備執(zhí)行數(shù)據(jù)處理的方法相應(yīng)的功能模塊和有益效果。未在本實施例中詳盡描述的技術(shù)細節(jié),可參見本發(fā)明任意實施例所提供的數(shù)據(jù)處理的方法。

注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大同县| 阿拉尔市| 乐陵市| 郁南县| 芒康县| 页游| 香港| 上林县| 浮山县| 灌阳县| 永寿县| 政和县| 项城市| 册亨县| 修水县| 奉新县| 新河县| 伊春市| 定边县| 江油市| 建水县| 安庆市| 库尔勒市| 南宁市| 五台县| 六盘水市| 新乐市| 兴山县| 普格县| 四平市| 冷水江市| 甘泉县| 西畴县| 吉木萨尔县| 汝城县| 贡嘎县| 巴彦淖尔市| 南皮县| 安宁市| 石棉县| 洪洞县|