欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

處理數(shù)據(jù)的方法及裝置與流程

文檔序號(hào):12803781閱讀:178來源:國(guó)知局
處理數(shù)據(jù)的方法及裝置與流程

本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種處理數(shù)據(jù)的方法及裝置。



背景技術(shù):

近年來,隨著信息處理技術(shù)的發(fā)展,大數(shù)據(jù)被越來越多的應(yīng)用到了導(dǎo)航系統(tǒng)或城市規(guī)劃等各個(gè)領(lǐng)域。

目前的大數(shù)據(jù)架構(gòu)通常是以數(shù)據(jù)流為導(dǎo)向來進(jìn)行數(shù)據(jù)處理的,即,首先從數(shù)據(jù)源獲取數(shù)據(jù)并將獲取到的數(shù)據(jù)進(jìn)行存儲(chǔ),然后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再根據(jù)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)建模、數(shù)據(jù)分析與數(shù)據(jù)挖掘,最后實(shí)現(xiàn)數(shù)據(jù)變現(xiàn)。由此可見,數(shù)據(jù)預(yù)處理是大數(shù)據(jù)結(jié)構(gòu)中整個(gè)數(shù)據(jù)處理過程的基礎(chǔ),其質(zhì)量與精準(zhǔn)度可能會(huì)直接影響到后續(xù)環(huán)節(jié)中數(shù)據(jù)維度建模的指標(biāo)定義、數(shù)據(jù)挖掘算法的選擇或數(shù)據(jù)的準(zhǔn)確性度量等,是數(shù)據(jù)處理過程的重要環(huán)節(jié)之一。

數(shù)據(jù)預(yù)處理的過程中通常會(huì)涉及到對(duì)數(shù)據(jù)中的缺失值進(jìn)行處理,現(xiàn)有技術(shù)中,在對(duì)數(shù)據(jù)進(jìn)行處理時(shí)一般會(huì)采用人工填寫、刪除含缺失值的記錄數(shù)據(jù)(即刪除法)、使用特殊字符(如null)填充、或者使用統(tǒng)計(jì)學(xué)上的均值或眾數(shù)進(jìn)行缺失值的填補(bǔ)等方法對(duì)數(shù)據(jù)中的缺失值進(jìn)行處理。但是,當(dāng)數(shù)據(jù)量較多或達(dá)到一定級(jí)別時(shí),人工填寫需耗費(fèi)較多的時(shí)間與精力,無法滿足數(shù)據(jù)流實(shí)時(shí)快速傳輸與處理的需求;刪除含缺失值的記錄數(shù)據(jù)、使用統(tǒng)一的特殊字符或者使用統(tǒng)計(jì)學(xué)上的均值或眾數(shù)進(jìn)行缺失值填充不具有針對(duì)性,會(huì)導(dǎo)致數(shù)據(jù)準(zhǔn)精確性和有效性降低,由此可見,現(xiàn)有技術(shù)無法同時(shí)滿足缺失值處理的高效率和高精度的要求。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例提供一種處理數(shù)據(jù)的方法及裝置,以解決現(xiàn)有技術(shù)中的數(shù)據(jù)處理方法無法同時(shí)滿足缺失值處理的高效率和高精度的要求的技術(shù)問題。

第一方面,本發(fā)明實(shí)施例提供了一種處理數(shù)據(jù)的方法,包括:

獲取數(shù)據(jù)樣本以及數(shù)據(jù)樣本各屬性的屬性信息,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本;

根據(jù)所述屬性信息對(duì)所述數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各類數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所述填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本;

如果更新后的數(shù)據(jù)樣本的符合結(jié)束條件,則結(jié)束操作;否則,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止,其中,所述結(jié)束條件包括:更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同、聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)或者更新后的數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值。

第二方面,本發(fā)明實(shí)施例還提供了一種處理數(shù)據(jù)的裝置,包括:

樣本信息獲取模塊,用于獲取數(shù)據(jù)樣本以及數(shù)據(jù)樣本各屬性的屬性信息,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本;

填充值確定模塊,用于根據(jù)所述屬性信息對(duì)所述數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各類數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所述填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本;

循環(huán)調(diào)用模塊,用于如果更新后的數(shù)據(jù)樣本的符合結(jié)束條件,則結(jié)束操作;否則,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止,其中,所述結(jié)束條件包括:更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同、聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)或者更新后的數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值。

本發(fā)明實(shí)施例提供的處理數(shù)據(jù)的技術(shù)方案,獲取數(shù)據(jù)樣本以及各數(shù)據(jù)樣本的屬性信息,根據(jù)各數(shù)據(jù)樣本的屬性信息對(duì)數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所確定的填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本,判斷更新后的數(shù)據(jù)樣本是否符合結(jié)束條件,若是,則結(jié)束操作;若否,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止。本發(fā)明實(shí)施例通過采用上述技術(shù)方案,通過聚類計(jì)算確定填充值以及各填充值對(duì)應(yīng)的包含缺失值的數(shù)據(jù)樣本,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時(shí)間,進(jìn)而提高后續(xù)數(shù)據(jù)處理流程的準(zhǔn)確性與整個(gè)數(shù)據(jù)處理過程的平均速度。

附圖說明

通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

圖1為本發(fā)明實(shí)施例一提供的一種處理數(shù)據(jù)的方法的流程示意圖;

圖2為本發(fā)明實(shí)施例二提供的一種處理數(shù)據(jù)的方法的流程示意圖;

圖3為本發(fā)明實(shí)施例三提供的一種處理數(shù)據(jù)的方法的流程示意圖;

圖4為本發(fā)明實(shí)施例四提供的一種處理數(shù)據(jù)的裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。

實(shí)施例一

本發(fā)明實(shí)施例一提供一種處理數(shù)據(jù)的方法。該方法可由處理數(shù)據(jù)的裝置執(zhí)行,其中,該裝置可由硬件和/或軟件實(shí)現(xiàn),一般可集成在數(shù)據(jù)處理平臺(tái)中。圖1是本發(fā)明實(shí)施例一提供的處理數(shù)據(jù)的方法的流程示意圖,如圖1所示,該方法包括:

s101、獲取數(shù)據(jù)樣本以及數(shù)據(jù)樣本各屬性的屬性信息,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本。

本實(shí)施例中,數(shù)據(jù)樣本可以是實(shí)體類數(shù)據(jù)樣本,數(shù)據(jù)樣本包括第一數(shù)據(jù)樣本和第二數(shù)據(jù)樣本,其中第一數(shù)據(jù)樣本是包含缺失值的數(shù)據(jù)樣本,第二數(shù)據(jù)樣本是不包含缺失值的數(shù)據(jù)樣本。數(shù)據(jù)樣本各屬性的屬性信息可以是數(shù)據(jù)樣本各屬性的屬性值、各屬性的屬性值類型和/或各屬性的貢獻(xiàn)度等信息。包含缺失值的數(shù)據(jù)樣本和不包含缺失值的數(shù)據(jù)樣本的具體定義可以根據(jù)處理方式的不同靈活設(shè)定,例如,可以將任意一個(gè)或多個(gè)屬性值缺失的數(shù)據(jù)樣本均定義為包含缺失值的數(shù)據(jù)樣本,相應(yīng)的,將不包含缺失值的數(shù)據(jù)樣本定義為所有屬性值均不缺失的數(shù)據(jù)樣本;也可以在對(duì)數(shù)據(jù)樣本某一個(gè)屬性中包含的缺失值進(jìn)行處理時(shí),只將該屬性的屬性值缺失的數(shù)據(jù)樣本定義為包含缺失值的數(shù)據(jù)樣本,相應(yīng)的,將不包含缺失值的數(shù)據(jù)樣本定義為該屬性的屬性值不缺失的數(shù)據(jù)樣本或所有屬性值均不缺失的數(shù)據(jù)樣本??紤]到計(jì)算的簡(jiǎn)便性,優(yōu)選的,在對(duì)數(shù)據(jù)樣本某一個(gè)屬性中包含的缺失值進(jìn)行處理時(shí),可以將該屬性的屬性值缺失的數(shù)據(jù)樣本定義為包含缺失值的數(shù)據(jù)樣本,將所有屬性值均不缺失的數(shù)據(jù)樣本定義為不包含缺失值的數(shù)據(jù)樣本。

具體應(yīng)用中,數(shù)據(jù)樣本和數(shù)據(jù)樣本的屬性信息可以預(yù)先存儲(chǔ)在與數(shù)據(jù)處理平臺(tái)相對(duì)應(yīng)的數(shù)據(jù)庫(kù)中,在獲取數(shù)據(jù)樣本及其屬性信息時(shí),直接從數(shù)據(jù)樣本的存儲(chǔ)位置調(diào)用該數(shù)據(jù)樣本、從數(shù)據(jù)樣本屬性信息的存儲(chǔ)位置獲取該數(shù)據(jù)樣本的屬性信息即可;也可以實(shí)時(shí)從數(shù)據(jù)傳輸接口獲取其他平臺(tái)或數(shù)據(jù)庫(kù)發(fā)送的數(shù)據(jù)樣本及其屬性信息并對(duì)數(shù)據(jù)樣本中的缺失值進(jìn)行處理,此處不作限制。

s102、根據(jù)所述屬性信息對(duì)所述數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各類數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所述填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本。

本實(shí)施例中,在對(duì)數(shù)據(jù)樣本中包含的缺失值進(jìn)行處理時(shí),可以以橫向或縱向的順序進(jìn)行處理,即,可以以數(shù)據(jù)樣本為單位進(jìn)行處理,也可以以屬性為單位進(jìn)行處理??紤]到處理數(shù)據(jù)時(shí)的便利性,可選的,可以以屬性為單位對(duì)數(shù)據(jù)樣本中的缺失值進(jìn)行處理,不同屬性中的缺失值可同時(shí)或依次進(jìn)行處理,即,可以首先確定各屬性中缺失值的處理順序,然后按照該處理順序依次對(duì)每個(gè)屬性中的缺失值進(jìn)行處理;也可以按照同時(shí)或隨機(jī)等順序?qū)Ω鲗傩灾械娜笔е颠M(jìn)行處理。

示例性的,在對(duì)數(shù)據(jù)樣本某一屬性中的缺失值進(jìn)行處理時(shí),可以首先按照設(shè)定的聚類算法對(duì)數(shù)據(jù)樣本進(jìn)行聚類計(jì)算,然后確定聚類計(jì)算后各類數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并將所確定的填充值填充到其對(duì)應(yīng)類的待填充數(shù)據(jù)樣本中以實(shí)現(xiàn)對(duì)待填充數(shù)據(jù)樣本的更新。其中,某一類數(shù)據(jù)樣本對(duì)應(yīng)的填充值可以是該類聚類樣本的聚類中心對(duì)應(yīng)的缺失值對(duì)應(yīng)屬性的屬性值、該類數(shù)據(jù)樣本中缺失值對(duì)應(yīng)屬性出現(xiàn)次數(shù)最多的屬性值或者該類中與包含缺失值的數(shù)據(jù)樣本的非缺失值對(duì)應(yīng)屬性的屬性值相似度最高的未包含缺失值的數(shù)據(jù)樣本的缺失值對(duì)應(yīng)屬性的屬性值等。對(duì)數(shù)據(jù)樣本進(jìn)行聚類計(jì)算時(shí)所使用的聚類算法可以根據(jù)需要靈活設(shè)定,例如,可以采用k-means、k-medoids、clara或clarans等聚類算法對(duì)數(shù)據(jù)樣本進(jìn)行聚類計(jì)算。某一類中的待填充數(shù)據(jù)樣本為該類中包含缺失值的數(shù)據(jù)樣本,在具有應(yīng)用中,可以將某一類中所有包含缺失值的數(shù)據(jù)樣本均標(biāo)記為該類的待填充數(shù)據(jù)樣本;也可以只將該類中符合預(yù)設(shè)條件的部分包含缺失值的數(shù)據(jù)樣本標(biāo)記為待填充數(shù)據(jù)樣本,此處不作限制??紤]到對(duì)包含缺失值的數(shù)據(jù)樣本進(jìn)行填充后數(shù)據(jù)樣本的準(zhǔn)確性,優(yōu)選的,可以將符合預(yù)設(shè)條件的部分包含缺失值的數(shù)據(jù)樣本標(biāo)記為待填充數(shù)據(jù)樣本,每次聚類計(jì)算只對(duì)每類數(shù)據(jù)樣本中的待填充數(shù)據(jù)樣本進(jìn)行填充,例如,可以將與該類的聚類中心的距離小于設(shè)定距離閾值、與聚類中心的相似度大于設(shè)定相似度閾值、與聚類中心的距離排序在該類所有數(shù)據(jù)樣本距離排序的第一設(shè)定比例系數(shù)之內(nèi)和/或與聚類中心的相似度排序在該類所有數(shù)據(jù)樣本相似度排序的第二設(shè)定比例系數(shù)之內(nèi)的包含缺失值的數(shù)據(jù)樣本標(biāo)記為待填充數(shù)據(jù)樣本。

s103、如果更新后的數(shù)據(jù)樣本符合結(jié)束條件,則結(jié)束操作;否則,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止,其中,所述結(jié)束條件包括:更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同、聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)或者更新后的數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值。

示例性的,當(dāng)結(jié)束條件為更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算的聚類中心相同時(shí),可以在每次確定本次計(jì)算的聚類中心之后即對(duì)該聚類中心進(jìn)行記錄并獲取上次聚類計(jì)算的聚類中心,然后比較兩個(gè)聚類中心是否相同,若相同,則結(jié)束操作;若不相同,則采用本次計(jì)算的聚類中心繼續(xù)進(jìn)行聚類計(jì)算。在此,需要指出的是,可以只將聚類中心完全相同的情況判定為兩次聚類計(jì)算的聚類中心相同,也可以當(dāng)聚類中心的相似度高于預(yù)設(shè)的相似度閾值,如,當(dāng)兩次聚類計(jì)算的聚類中心的相似度達(dá)到或高于99%時(shí)即判定兩次聚類計(jì)算的聚類中心相同。

當(dāng)結(jié)束條件為聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)時(shí),可以通過計(jì)數(shù)器等具有計(jì)數(shù)功能的軟件或硬件統(tǒng)計(jì)聚類計(jì)算的次數(shù),每進(jìn)行一次聚類計(jì)算,則計(jì)數(shù)加1,當(dāng)計(jì)數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)時(shí)即結(jié)束操作。在此,聚類預(yù)設(shè)的計(jì)算次數(shù)可以根據(jù)需要靈活設(shè)置,如可以將預(yù)設(shè)計(jì)算次數(shù)設(shè)置為10000次或20000次等次數(shù)值。

當(dāng)結(jié)束條件為更新后的數(shù)據(jù)中未包含缺失值額數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值時(shí),可以在每次聚類計(jì)算結(jié)束后計(jì)算此次缺失值填充后的數(shù)據(jù)樣本中包含的缺失值信息,如果未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值,則結(jié)束操作。其中,設(shè)定閾值可以根據(jù)數(shù)據(jù)樣本的不同進(jìn)行靈活設(shè)定,例如,若具體應(yīng)用時(shí)對(duì)數(shù)據(jù)樣本或數(shù)據(jù)樣本某屬性的屬性值的完整性要求較高,則可以將設(shè)定閾值設(shè)置為100%;若具體應(yīng)用時(shí)對(duì)數(shù)據(jù)樣本的完整性要求不高,則可以將設(shè)定閾值設(shè)置為99%、95%或其他比例值。

可選是,可以將結(jié)束條件設(shè)置為更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同,從而提高更新后的數(shù)據(jù)樣本的實(shí)用性與完整性。

本發(fā)明實(shí)施例一提供的處理數(shù)據(jù)的方法,獲取數(shù)據(jù)樣本以及各數(shù)據(jù)樣本的屬性信息,根據(jù)各數(shù)據(jù)樣本的屬性信息對(duì)數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所確定的填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本,判斷更新后的數(shù)據(jù)樣本是否符合結(jié)束條件,若是,則結(jié)束操作;若否,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止。本發(fā)明實(shí)施例通過采用上述技術(shù)方案,通過聚類計(jì)算確定填充值以及各填充值對(duì)應(yīng)的包含缺失值的數(shù)據(jù)樣本,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時(shí)間,進(jìn)而提高后續(xù)數(shù)據(jù)處理流程的準(zhǔn)確性與整個(gè)數(shù)據(jù)處理過程的平均速度。

實(shí)施例二

圖2為本發(fā)明實(shí)施例二提供的一種處理數(shù)據(jù)的方法的流程示意圖。本實(shí)施例在上述實(shí)施例的基礎(chǔ)上進(jìn)行優(yōu)化,進(jìn)一步地,所述根據(jù)所述屬性信息對(duì)所述數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各類數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所述填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本,包括:按照設(shè)定規(guī)則確定當(dāng)前聚類中心;根據(jù)所述屬性信息確定所述各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息;根據(jù)所述距離信息對(duì)各數(shù)據(jù)樣本進(jìn)行分類;根據(jù)目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于所述填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本進(jìn)行更新,所述目標(biāo)類為非缺失率大于當(dāng)前非缺失率閾值的類,所述非缺失率為數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占的比例。

相應(yīng)的,如圖2所示,本實(shí)施例提供的處理數(shù)據(jù)的方法包括:

s201、獲取數(shù)據(jù)樣本以及數(shù)據(jù)樣本各屬性的屬性信息,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本。

s202、按照設(shè)定規(guī)則確定當(dāng)前聚類中心。

本實(shí)施例中,確定當(dāng)前聚類中心的設(shè)定規(guī)則可以根據(jù)需要靈活設(shè)置,例如,可以在數(shù)據(jù)樣本中隨機(jī)選取預(yù)設(shè)數(shù)量的未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心,也可以隨機(jī)將數(shù)據(jù)樣本或未包含缺失值的數(shù)據(jù)樣本分為預(yù)設(shè)數(shù)量的包含數(shù)據(jù)樣本數(shù)相同或不同的類,并取每一類的平均值作為當(dāng)前聚類中心,或者隨機(jī)生成幾個(gè)由相同數(shù)量的未包含缺失值的數(shù)據(jù)樣本組成的數(shù)據(jù)樣本集,并取每個(gè)數(shù)據(jù)樣本集的平均值作為當(dāng)前聚類中心,等等。

s203、根據(jù)所述屬性信息確定所述各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息。

本實(shí)施例中,可以根據(jù)歐氏距離公式和/或各數(shù)據(jù)樣本屬性信息與各當(dāng)前聚類中心之間的相似度確定各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,此處不作限制。在具體應(yīng)用時(shí),可以按照并行的順序同時(shí)計(jì)算各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離;也可以以數(shù)據(jù)樣本或聚類中心為單位計(jì)算各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離,如可以按照隨機(jī)或設(shè)定的順序首先計(jì)算一個(gè)數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,然后再計(jì)算另一數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,以此類推,直至各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息均計(jì)算完成,或者,按照隨機(jī)或設(shè)定的順序首先計(jì)算一個(gè)當(dāng)前聚類中心與各數(shù)據(jù)樣本之間的距離信息,然后在計(jì)算另一當(dāng)前聚類中心與各數(shù)據(jù)樣本支架的距離信息,以此類推,直至各當(dāng)前聚類中心與各數(shù)據(jù)樣本之間的距離信息均計(jì)算完成。

本實(shí)施例中,可以通過各數(shù)據(jù)樣本所有屬性的屬性信息確定各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,也可以通過各數(shù)據(jù)樣本相關(guān)屬性的屬性信息確定各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,此處不作限制??紤]到計(jì)算的簡(jiǎn)便性與實(shí)用性,可選是,可以根據(jù)各數(shù)據(jù)樣本的相關(guān)屬性信息確定各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息。此時(shí),優(yōu)選的,所述根據(jù)所述屬性信息確定所述各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,具體為:根據(jù)數(shù)據(jù)樣本各相關(guān)屬性的屬性值確定所述數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息;或者,根據(jù)數(shù)據(jù)樣本各相關(guān)屬性的屬性值以及各相關(guān)屬性的貢獻(xiàn)度確定所述數(shù)據(jù)樣本與各前聚類中心之間的距離信息;其中,所述相關(guān)屬性為缺失值對(duì)應(yīng)屬性的相關(guān)屬性。某一缺失值對(duì)應(yīng)屬性的相關(guān)屬性(某一相關(guān)屬性的貢獻(xiàn)度)可以由開發(fā)商或運(yùn)營(yíng)商根據(jù)需要靈活設(shè)定,也可以根據(jù)數(shù)據(jù)樣本各相關(guān)屬性與該缺失值對(duì)應(yīng)屬性的關(guān)聯(lián)度信息(該相關(guān)屬性與該缺失值對(duì)應(yīng)屬性的關(guān)聯(lián)度信息)確定,關(guān)聯(lián)度信息可以通過統(tǒng)計(jì)該缺失值對(duì)應(yīng)屬性的屬性值發(fā)生變化時(shí)其他各屬性(相關(guān)屬性)的屬性值發(fā)生變化的概率獲得。

示例性的,在根據(jù)數(shù)據(jù)樣本各相關(guān)屬性的屬性值確定某一數(shù)據(jù)樣本與某一當(dāng)前聚類中心之間的距離信息時(shí),如果該數(shù)據(jù)樣本各相關(guān)屬性的屬性值均為離散型數(shù)值,則可以將該數(shù)據(jù)樣本與該當(dāng)前聚類中心屬性值不相同的相關(guān)屬性的個(gè)數(shù)與相關(guān)屬性的總個(gè)數(shù)之比作為該數(shù)據(jù)樣本與該當(dāng)前聚類中心的距離信息,例如,若缺失值對(duì)應(yīng)屬性共有10個(gè)相關(guān)屬性,該數(shù)據(jù)樣本中有8個(gè)相關(guān)屬性的屬性值與該當(dāng)前聚類中心相同,則該數(shù)據(jù)樣本與該當(dāng)前聚類中心之間的距離m=(10-8)/10=0.2;如果該數(shù)據(jù)樣本各相關(guān)屬性的屬性值均為連續(xù)型數(shù)值,則可以通過歐氏距離公式計(jì)算給數(shù)據(jù)樣本與該當(dāng)前聚類中心之間的距離信息,其中,a1、b1、c1和d1為該數(shù)據(jù)樣本的屬性值,a2、b2、c2、d2為該當(dāng)前聚類中心的屬性值,例如,若缺失值對(duì)應(yīng)屬性有年齡屬性和工資屬性兩個(gè)相關(guān)屬性,該數(shù)據(jù)樣本的年齡值為28,工資值為4500,該當(dāng)前聚類中心的年齡值為29,工資值為4450,則該數(shù)據(jù)樣本與該當(dāng)前聚類中心的距離

在根據(jù)數(shù)據(jù)樣本各相關(guān)屬性的屬性值以及各相關(guān)屬性的貢獻(xiàn)度確定某一數(shù)據(jù)樣本與某一當(dāng)前聚類中心之間的距離信息時(shí),如果該數(shù)據(jù)樣本各相關(guān)屬性的屬性值均為離散型數(shù)值,則可以將該數(shù)據(jù)樣本與該當(dāng)前聚類中心屬性值不相同的相關(guān)屬性的貢獻(xiàn)度之和與所有相關(guān)屬性的貢獻(xiàn)度之和的比值作為該數(shù)據(jù)樣本與該當(dāng)前聚類中心的距離信息,例如,若缺失值對(duì)應(yīng)屬性共有4個(gè)相關(guān)屬性a、b、c和d(貢獻(xiàn)度分別為0.8、0.7、0.9和0.85),該數(shù)據(jù)樣本中相關(guān)屬性a和b的屬性值與該當(dāng)前聚類中心相同,則該數(shù)據(jù)樣本與該當(dāng)前聚類中心之間的距離m=(0.9+0.85)/(0.8+0.7+0.9+0.85)=0.54;如果該數(shù)據(jù)樣本各相關(guān)屬性的屬性值均為連續(xù)型數(shù)值,則可以通過歐氏距離公式計(jì)算給數(shù)據(jù)樣本與該當(dāng)前聚類中心之間的距離信息,其中,a1、b1、c1和d1為該數(shù)據(jù)樣本的屬性值,a2、b2、c2和d2為該當(dāng)前聚類中心的屬性值,a、b、c和d為相關(guān)屬性a1、b1、c1和d1的貢獻(xiàn)度,例如,若缺失值對(duì)應(yīng)屬性有年齡屬性和工資屬性兩個(gè)相關(guān)屬性,該數(shù)據(jù)樣本的年齡值為28,工資值為4500,該當(dāng)前聚類中心的年齡值為29,工資值為4450,年齡屬性和工資屬性的貢獻(xiàn)度分別為0.95和0.9,則該數(shù)據(jù)樣本與該當(dāng)前聚類中心的距離

在此,需要指出的是,如果缺失值對(duì)應(yīng)屬性的相關(guān)屬性中既包含離散型數(shù)值,也包含連續(xù)型數(shù)值,則可以首先將相關(guān)屬性中的連續(xù)型數(shù)值進(jìn)行離散化處理,然后再計(jì)算各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息。

s204、根據(jù)所述距離信息對(duì)各數(shù)據(jù)樣本進(jìn)行分類。

示例性的,在對(duì)某一數(shù)據(jù)樣本進(jìn)行分類時(shí),可以選擇與該數(shù)據(jù)樣本距離最近的聚類中心所屬的類作為該數(shù)據(jù)樣本的所述類。如果存在兩個(gè)或更多個(gè)與該數(shù)據(jù)樣本距離最近的聚類中心,則可以本次聚類計(jì)算不對(duì)該數(shù)據(jù)樣本進(jìn)行分類,也可以隨機(jī)選取一個(gè)距離最近的聚類中心所屬的類作為該數(shù)據(jù)樣本的所屬類,此處不作限制。

s205、根據(jù)目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于所述填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本進(jìn)行更新,所述目標(biāo)類為非缺失率大于當(dāng)前非缺失率閾值的類,所述非缺失率為數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占的比例。

本實(shí)施例中,非缺失率閾值與預(yù)設(shè)條件可以根據(jù)需要靈活設(shè)定,例如,可以將非缺失率閾值設(shè)置為0.5或0.6等比例值,可以將預(yù)設(shè)條件設(shè)置為與該類的聚類中心的距離小于設(shè)定距離閾值、與聚類中心的相似度大于設(shè)定相似度閾值、與聚類中心的距離排序在該類所有數(shù)據(jù)樣本距離排序的第一設(shè)定比例系數(shù)之內(nèi)和/或與聚類中心的相似度排序在該類所有數(shù)據(jù)樣本相似度排序的一定的比例系數(shù)之內(nèi)等。在此,需要指出的是,不同次聚類計(jì)算所對(duì)應(yīng)的非缺失率閾值可以為相同的數(shù)值,也可以為不同的數(shù)值,此處不作限制。示例性的,假設(shè)某一類中共有1000個(gè)數(shù)據(jù)樣本,其中缺失值對(duì)應(yīng)屬性的屬性值缺失的數(shù)據(jù)樣本的數(shù)量為200,則該類數(shù)據(jù)樣本的非缺失率為:(1000-200)/1000=0.8。

s206、如果更新后的數(shù)據(jù)樣本符合結(jié)束條件,則結(jié)束操作;否則,返回步驟s202,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止,其中,所述結(jié)束條件包括:更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同、聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)或者更新后的數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值。

本發(fā)明實(shí)施例二提供的處理數(shù)據(jù)的方法,按照設(shè)定規(guī)則確定當(dāng)前聚類中心,根據(jù)數(shù)據(jù)樣本的屬性信息確定數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息,根據(jù)所得到的距離信息對(duì)各數(shù)據(jù)樣本進(jìn)行分類,根據(jù)非缺失率大于當(dāng)前非缺失率閾值的目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本進(jìn)行更新。本實(shí)施例通過采用上述技術(shù)方案,每次聚類計(jì)算都只對(duì)非缺失率較高的類中的部分包含缺失值的數(shù)據(jù)樣本進(jìn)行更新,可以提高所填充的填充值的準(zhǔn)確性,進(jìn)而提高填充后數(shù)據(jù)樣本的準(zhǔn)確性與有效性,提高缺失值的處理速度,減少處理缺失值所需的時(shí)間,進(jìn)而提高后續(xù)數(shù)據(jù)處理流程的準(zhǔn)確性與整個(gè)數(shù)據(jù)處理過程的平均速度。

實(shí)施例三

圖3為本發(fā)明實(shí)施例三提供的一種處理數(shù)據(jù)的方法的流程示意圖。本實(shí)施例在上述實(shí)施例的基礎(chǔ)上進(jìn)行優(yōu)化,進(jìn)一步地,所述按照設(shè)定規(guī)則確定聚類計(jì)算的當(dāng)前聚類中心,包括:判斷數(shù)據(jù)樣本是否存在所屬類;如果不存在,則從所述未包含缺失值的數(shù)據(jù)樣本中獲取至少兩個(gè)未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心;如果存在,則根據(jù)各類中包含的數(shù)據(jù)樣本各屬性的屬性信息計(jì)算各類的質(zhì)心點(diǎn)作為當(dāng)前聚類中心。

進(jìn)一步地,所述根據(jù)目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于所述填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本中的缺失值進(jìn)行填充進(jìn)行更新,包括:根據(jù)各類中缺失值對(duì)應(yīng)屬性的非缺失率確定可進(jìn)行缺失值填充的目標(biāo)類;基于所述目標(biāo)類中各包含缺失值的數(shù)據(jù)樣本與所述目標(biāo)類的當(dāng)前聚類中心之間的距離信息確定待填充數(shù)據(jù)樣本;根據(jù)目標(biāo)類中未包含缺失值的數(shù)據(jù)樣本的缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并根據(jù)所述填充值更新所述待填充數(shù)據(jù)樣本。

進(jìn)一步地,在所述根據(jù)目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于所述填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本中的缺失值進(jìn)行填充進(jìn)行更新之后,還包括:基于設(shè)定更新規(guī)則更新所述當(dāng)前非缺失率閾值。

相應(yīng)的,如圖3所示,本實(shí)施例提供的處理數(shù)據(jù)的方法包括:

s301、獲取數(shù)據(jù)樣本以及數(shù)據(jù)樣本各屬性的屬性信息,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本。

s302、判斷數(shù)據(jù)樣本是否存在所屬類,若否,則執(zhí)行步驟s303;若是,則執(zhí)行步驟s304。

本實(shí)施例中,判定數(shù)據(jù)樣本是否存在所屬類的方法可以根據(jù)需要靈活選擇,例如,可以在每次進(jìn)行聚類計(jì)算時(shí)將某一數(shù)據(jù)樣本所屬類的信息標(biāo)記在數(shù)據(jù)樣本的樣本信息中,在判定數(shù)據(jù)樣本是否存在所屬類時(shí),可以任意獲取一個(gè)或幾個(gè)數(shù)據(jù)樣本的樣本信息,如果該一個(gè)或幾個(gè)數(shù)據(jù)樣本的樣本信息中存在其所屬類的信息標(biāo)記,則判定數(shù)據(jù)樣本存在所屬類,否則,則判定數(shù)據(jù)樣本不存在所屬類;也可以在每次進(jìn)行聚類計(jì)算時(shí)對(duì)數(shù)據(jù)樣本的聚類中心信息進(jìn)行存儲(chǔ),并通過判定數(shù)據(jù)處理平臺(tái)中是否存儲(chǔ)有與數(shù)據(jù)樣本相對(duì)應(yīng)的聚類中心信息來判定數(shù)據(jù)樣本是否存在所屬類,此時(shí),若數(shù)據(jù)處理平臺(tái)中存儲(chǔ)有與數(shù)據(jù)樣本相對(duì)應(yīng)的聚類中心信息,則判定數(shù)據(jù)樣本存在所屬類,否則,則判定數(shù)據(jù)樣本不存在所屬類。

s303、從所述未包含缺失值的數(shù)據(jù)樣本中獲取至少兩個(gè)未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心,執(zhí)行步驟s305。

本實(shí)施例中,所獲取的未包含缺失值的數(shù)據(jù)樣本的數(shù)量可以根據(jù)需要靈活設(shè)定,如可以獲取3個(gè)或5個(gè)未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心??紤]到聚類計(jì)算的簡(jiǎn)便性和有效性,可選是,可以將所獲取的未包含缺失值的數(shù)據(jù)樣本的數(shù)量設(shè)置為3-5個(gè)。在獲取數(shù)據(jù)樣本時(shí),可以隨機(jī)或按照預(yù)設(shè)規(guī)則獲取未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心,例如,如果缺失值對(duì)應(yīng)屬性的屬性值為離散型數(shù)值,則可以根據(jù)缺失值對(duì)應(yīng)屬性的屬性值的個(gè)數(shù)確定所獲取的未包含缺失值的數(shù)據(jù)樣本的個(gè)數(shù);如果缺失值對(duì)應(yīng)屬性的屬性值為連續(xù)性數(shù)值,則可以隨機(jī)獲取3-5個(gè)未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心。

s304、根據(jù)各類中包含的數(shù)據(jù)樣本各屬性的屬性信息計(jì)算各類的質(zhì)心點(diǎn)作為當(dāng)前聚類中心,執(zhí)行步驟s305。

示例性的,可以將各類中數(shù)據(jù)樣本各屬性的屬性值的均值作為數(shù)據(jù)樣本的當(dāng)前聚類中心。相應(yīng)的,在計(jì)算某一類中的數(shù)據(jù)樣本的某一屬性的均值時(shí),如果該屬性的屬性值為連續(xù)型數(shù)值,則可以直接計(jì)算給類中所有數(shù)據(jù)樣本該屬性的屬性值的平均值或者該類數(shù)據(jù)樣本中該屬性的屬性值不缺失的數(shù)據(jù)樣本的該屬性的屬性值的平均值作為該類數(shù)據(jù)樣本該屬性的均值;如果該屬性的屬性值為離散型數(shù)值,則可以取該類數(shù)據(jù)樣本中出現(xiàn)次數(shù)最多的該屬性的屬性值作為該類數(shù)據(jù)樣本該屬性的均值,如果出現(xiàn)次數(shù)最多的該屬性的屬性值為多個(gè),則可以隨機(jī)獲取該出現(xiàn)次數(shù)最多的多個(gè)屬性值中的一個(gè)作為該類數(shù)據(jù)樣本該屬性的均值。

s305、根據(jù)所述屬性信息確定所述各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息。

s306、根據(jù)所述距離信息對(duì)各數(shù)據(jù)樣本進(jìn)行分類。

s307、根據(jù)各類中缺失值對(duì)應(yīng)屬性的非缺失率確定可進(jìn)行缺失值填充的目標(biāo)類。

示例性的,可以首先獲取用于判定某一類是否為目標(biāo)類的非缺失率閾值,然后計(jì)算各類中缺失值對(duì)應(yīng)屬性的非缺失率并將大于或等于該非缺失率閾值的類確定為目標(biāo)類。其中,非缺失率閾值可以根據(jù)需要靈活設(shè)置,例如,假設(shè)非缺失率閾值為0.5,此時(shí),相應(yīng)的,可以將非缺失率大于或等于0.5的類確定為目標(biāo)類。

s308、基于所述目標(biāo)類中各包含缺失值的數(shù)據(jù)樣本與所述目標(biāo)類的當(dāng)前聚類中心之間的距離信息確定待填充數(shù)據(jù)樣本。

示例性的,可以預(yù)先設(shè)定確定待填充樣本的比例系數(shù),并與聚類中心的距離排序在該比例系數(shù)之內(nèi)的包含缺失值的數(shù)據(jù)樣本確定為待填充數(shù)據(jù)樣本。其中,該比例系數(shù)可以是只針對(duì)包含缺失值的數(shù)據(jù)樣本的比例系數(shù),也可以是針對(duì)該類中的所有數(shù)據(jù)樣本的比例系數(shù)。例如,假設(shè)比例系數(shù)為10%,則可以將距離排序在包含缺失值的數(shù)據(jù)樣本的距離排序的前10%的包含缺失值的數(shù)據(jù)樣本確定為待填充數(shù)據(jù)樣本;也可以將距離排序在該類所有數(shù)據(jù)樣本的距離排序的前10%的包含缺失值的數(shù)據(jù)樣本確定為待填充數(shù)據(jù)樣本。

s309、根據(jù)目標(biāo)類中未包含缺失值的數(shù)據(jù)樣本的缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并根據(jù)所述填充值更新所述待填充數(shù)據(jù)樣本。

示例性的,如果缺失值對(duì)應(yīng)屬性的屬性值為連續(xù)型數(shù)值,則可以取目標(biāo)類中未包含缺失值的數(shù)據(jù)樣本的缺失值對(duì)應(yīng)屬性的屬性值的平均值作為該目標(biāo)類的填充值;如果缺失值對(duì)應(yīng)屬性的屬性值為離散型數(shù)值,則可以確目標(biāo)類中未包含缺失值的數(shù)據(jù)樣本中出現(xiàn)次數(shù)最高的缺失值對(duì)應(yīng)屬性的屬性值作為填充值,如果某一目標(biāo)類中出現(xiàn)次數(shù)最高的缺失值對(duì)應(yīng)屬性的屬性值為多個(gè),則可以默認(rèn)此次聚類計(jì)算不對(duì)該目標(biāo)類中的缺失值進(jìn)行處理。

s310、基于設(shè)定更新規(guī)則更新當(dāng)前非缺失率閾值。

本實(shí)施例中,設(shè)定更新規(guī)則可以根據(jù)需要靈活設(shè)定,例如,可以預(yù)先為每次聚類計(jì)算均設(shè)置不同的非缺失率閾值,每次聚類計(jì)算時(shí)調(diào)用與該次聚類計(jì)算相符的非缺失率閾值作為當(dāng)前非缺失率閾值,此時(shí)各次聚類計(jì)算的非缺失率閾值之間是相互獨(dú)立的;也可以根據(jù)前一次計(jì)算的非缺失率閾值確定本次計(jì)算的當(dāng)前非缺失率閾值,如可以在前一次計(jì)算的非缺失率閾值的基礎(chǔ)上減少設(shè)定的值作為此次計(jì)算的當(dāng)前非缺失率閾值,例如,可以將本次計(jì)算的當(dāng)前非缺失率閾值設(shè)置為前一次計(jì)算的非缺失率閾值的90%,此時(shí),假設(shè)前一次聚類計(jì)算的非缺失率閾值為0.5,則本次聚類計(jì)算的當(dāng)前非缺失率閾值為:0.5×90%=0.45。

s311、如果更新后的數(shù)據(jù)樣本符合結(jié)束條件,則結(jié)束操作;否則,返回步驟s304,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止,其中,所述結(jié)束條件包括:更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同、聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)或者更新后的數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值。

本發(fā)明實(shí)施例三提供的處理數(shù)據(jù)的方法,根據(jù)各類中數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的非缺失率確定目標(biāo)類,根據(jù)包含缺失值的數(shù)據(jù)樣本與聚類中心之間的距離信息確定待填充數(shù)據(jù)樣本,并在每次聚類計(jì)算完成后對(duì)當(dāng)前非缺失率閾值進(jìn)行更新,可以保證數(shù)據(jù)樣本中的所有缺失值均能夠被填充,提高所填充的填充值的準(zhǔn)確性,進(jìn)而提高填充后數(shù)據(jù)樣本的準(zhǔn)確性與有效性,提高缺失值的處理速度,減少處理缺失值所需的時(shí)間,進(jìn)而提高后續(xù)數(shù)據(jù)處理流程的準(zhǔn)確性與整個(gè)數(shù)據(jù)處理過程的平均速度。

實(shí)施例四

本發(fā)明實(shí)施例四提供一種處理數(shù)據(jù)的裝置。該裝置可以由硬件和/或軟件實(shí)現(xiàn),一般可集成在數(shù)據(jù)處理平臺(tái)中,可通過執(zhí)行處理數(shù)據(jù)的方法對(duì)數(shù)據(jù)進(jìn)行處理。圖4所示為本發(fā)明實(shí)施例三提供的處理數(shù)據(jù)的裝置的結(jié)構(gòu)框圖,如圖4所示,該裝置包括:

樣本信息獲取模塊401,用于獲取數(shù)據(jù)樣本以及數(shù)據(jù)樣本各屬性的屬性信息,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本;

填充值確定模塊402,用于根據(jù)所述屬性信息對(duì)所述數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各類數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所述填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本;

循環(huán)調(diào)用模塊403,用于如果更新后的數(shù)據(jù)樣本符合結(jié)束條件,則結(jié)束操作;否則,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止,其中,所述結(jié)束條件包括:更新后的數(shù)據(jù)樣本的聚類中心與上次聚類計(jì)算時(shí)的聚類中心相同、聚類計(jì)算次數(shù)達(dá)到預(yù)設(shè)的計(jì)算次數(shù)或者更新后的數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占比例達(dá)到設(shè)定閾值。

本發(fā)明實(shí)施例四提供的處理數(shù)據(jù)的裝置,通過樣本信息獲取模塊獲取數(shù)據(jù)樣本以及各數(shù)據(jù)樣本的屬性信息,通過填充值確定模塊根據(jù)各數(shù)據(jù)樣本的屬性信息對(duì)數(shù)據(jù)樣本進(jìn)行聚類計(jì)算以確定各數(shù)據(jù)樣本對(duì)應(yīng)的填充值,并根據(jù)所確定的填充值更新對(duì)應(yīng)的數(shù)據(jù)樣本,通過循環(huán)調(diào)用模塊判斷更新后的數(shù)據(jù)樣本是否符合結(jié)束條件,若是,則結(jié)束操作;若否,則對(duì)更新后的數(shù)據(jù)樣本重新進(jìn)行聚類計(jì)算,直至更新后的數(shù)據(jù)樣本符合結(jié)束條件為止。本實(shí)施例通過采用上述技術(shù)方案,通過聚類計(jì)算確定填充值以及各填充值對(duì)應(yīng)的包含缺失值的數(shù)據(jù)樣本,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時(shí)間,進(jìn)而提高后續(xù)數(shù)據(jù)處理流程的準(zhǔn)確性與整個(gè)數(shù)據(jù)處理過程的平均速度。

進(jìn)一步地,所述填充值確定模塊402包括:聚類中心確定單元,用于按照設(shè)定規(guī)則確定當(dāng)前聚類中心;距離信息確定單元,用于根據(jù)所述屬性信息確定所述各數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息;數(shù)據(jù)樣本分類單元,用于根據(jù)所述距離信息對(duì)各數(shù)據(jù)樣本進(jìn)行分類;數(shù)據(jù)樣本更新單元,用于根據(jù)目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于所述填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本進(jìn)行更新,所述目標(biāo)類為非缺失率大于當(dāng)前非缺失率閾值的類,所述非缺失率為數(shù)據(jù)樣本中未包含缺失值的數(shù)據(jù)樣本所占的比例。

進(jìn)一步地,所述聚類中心確定單元具體用于:判斷數(shù)據(jù)樣本是否存在所屬類;如果不存在,則從所述未包含缺失值的數(shù)據(jù)樣本中獲取至少兩個(gè)未包含缺失值的數(shù)據(jù)樣本作為當(dāng)前聚類中心;如果存在,則根據(jù)各類中包含的數(shù)據(jù)樣本各屬性的屬性信息計(jì)算各類的質(zhì)心點(diǎn)作為當(dāng)前聚類中心。

進(jìn)一步地,所述距離信息確定單元具體用于:根據(jù)數(shù)據(jù)樣本各相關(guān)屬性的屬性值確定所述數(shù)據(jù)樣本與各當(dāng)前聚類中心之間的距離信息;或者,根據(jù)數(shù)據(jù)樣本各相關(guān)屬性的屬性值以及各相關(guān)屬性的貢獻(xiàn)度確定所述數(shù)據(jù)樣本與各前聚類中心之間的距離信息;其中,所述相關(guān)屬性為缺失值對(duì)應(yīng)屬性的相關(guān)屬性。

進(jìn)一步地,所述數(shù)據(jù)樣本更新單元包括:目標(biāo)類確定子單元,用于根據(jù)各類中缺失值對(duì)應(yīng)屬性的非缺失率確定可進(jìn)行缺失值填充的目標(biāo)類;待填充樣本確定子單元,用于基于所述目標(biāo)類中各包含缺失值的數(shù)據(jù)樣本與所述目標(biāo)類的當(dāng)前聚類中心之間的距離信息確定待填充數(shù)據(jù)樣本;待填充樣本更新子單元,用于根據(jù)目標(biāo)類中未包含缺失值的數(shù)據(jù)樣本的缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并根據(jù)所述填充值更新所述待填充數(shù)據(jù)樣本。

進(jìn)一步地,所述數(shù)據(jù)樣本更新單元還可以包括:閾值更新單元,用于在所述根據(jù)目標(biāo)類中各數(shù)據(jù)樣本缺失值對(duì)應(yīng)屬性的屬性值確定填充值,并基于所述填充值對(duì)目標(biāo)類中符合預(yù)設(shè)條件的包含缺失值的數(shù)據(jù)樣本中的缺失值進(jìn)行填充進(jìn)行更新之后,基于設(shè)定更新規(guī)則更新所述當(dāng)前非缺失率閾值。

本實(shí)施例提供的處理數(shù)據(jù)的裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的處理數(shù)據(jù)的方法,具備執(zhí)行處理數(shù)據(jù)的方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),可參見本發(fā)明任意實(shí)施例所提供的處理數(shù)據(jù)的方法。

注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
泾川县| 教育| 武威市| 会泽县| 淮阳县| 河间市| 阳江市| 夏津县| 禹州市| 浦北县| 高要市| 宁陵县| 杭州市| 石景山区| 门头沟区| 龙里县| 海林市| 蓝田县| 高邮市| 郴州市| 甘谷县| 织金县| 襄汾县| 荥阳市| 广汉市| 长宁县| 贵阳市| 宜宾县| 楚雄市| 龙海市| 荣成市| 睢宁县| 冀州市| 吉林市| 丰镇市| 怀宁县| 兴安盟| 吴江市| 新巴尔虎右旗| 佛学| 玛曲县|