專利名稱:一種基于分類模型的數(shù)據(jù)分類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種基于分類模型的數(shù)據(jù)分類方法及 系統(tǒng)。
背景技術(shù):
如今,數(shù)據(jù)挖掘在金融業(yè)、零售業(yè)、電信業(yè)等各領(lǐng)域都得到廣泛的應(yīng)用。分類模型 作為數(shù)據(jù)挖掘系統(tǒng)的主要模型之一。利用分類模型可將原始樣本集的樣本數(shù)據(jù)信息歸納為 某一分類函數(shù),該分類函數(shù)可用于對新的待分析的目標樣本數(shù)據(jù)進行分析處理,以此實現(xiàn) 對新的目標樣本數(shù)據(jù)的分類處理。簡單來說,通過將原始樣本集的樣本數(shù)據(jù)信息代入到分 類模型中,可確定分類函數(shù)。在分類函數(shù)確定后,將待分析的目標樣本數(shù)據(jù)的信息代入分類 函數(shù)中,可獲得目標樣本數(shù)據(jù)的所屬類別,進而對不同類別的樣本數(shù)據(jù)采取不同的對待方 式。
現(xiàn)有技術(shù)中,根據(jù)原始樣本集中樣本數(shù)據(jù)是否攜帶類別標記,決定采用有監(jiān)督分 類模型(例如決策樹、神經(jīng)網(wǎng)絡(luò)、logistic回歸等)還是采用無監(jiān)督分類模型(例如聚 類、主成分等)來獲得分類函數(shù)。其中,有監(jiān)督分類模型所需的原始樣本集的所有樣本數(shù)據(jù) 都是具有類別標記的,即所有樣本數(shù)據(jù)都是已經(jīng)確定好所屬數(shù)據(jù)類別的;而無監(jiān)督分類 模型所需的原始樣本集中的所有樣本數(shù)據(jù)是無類別標記的。但在實際應(yīng)用中,原始樣本集 中既存在有標記樣本數(shù)據(jù)又存在無標記樣本數(shù)據(jù)。如果只利用無標記樣本數(shù)據(jù),運用無監(jiān) 督分類模型,忽略有標記樣本數(shù)據(jù),所確定的分類函數(shù)是不準確的;而只利用有標記樣本數(shù) 據(jù),運用有監(jiān)督分類模型,所確定的分類函數(shù)同樣不夠準確。而現(xiàn)有技術(shù)中的適用于包含有 標記樣本數(shù)據(jù)和無標記樣本數(shù)據(jù)的分類模型,如半監(jiān)督K均值聚類模型,僅僅是在初始時 利用了有標記樣本數(shù)據(jù),后續(xù)便是一般的聚類流程,并沒有充分利用有標記樣本數(shù)據(jù)確定 分類函數(shù),因此對分類的準確性造成較大影響。發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明實施例提供了一種基于分類模型的數(shù)據(jù)分類方法及 系統(tǒng),以提高對待分析的目標樣本數(shù)據(jù)分類的準確性,技術(shù)方案如下
一種基于分類模型的數(shù)據(jù)分類方法,包括
接收待分析的目標樣本數(shù)據(jù),所述目標樣本數(shù)據(jù)攜帶標識其各屬性的值;
提取所述目標樣本數(shù)據(jù)的有效屬性的值,所述有效屬性是根據(jù)預(yù)設(shè)的分類函數(shù)所 確定的;
將所述有效屬性的值代入所述分類函數(shù),獲得所述目標樣本數(shù)據(jù)的分類值;
根據(jù)所述目標樣本數(shù)據(jù)的分類值,判定所述目標樣本數(shù)據(jù)所屬的數(shù)據(jù)類別;
其中,所述預(yù)設(shè)的分類函數(shù)的構(gòu)建方式為
根據(jù)第一原始樣本集中的有標記樣本數(shù)據(jù)的類別標識,為第一原始樣本集中的無 標記樣本數(shù)據(jù)設(shè)置類別標識;
將有標記樣本數(shù)據(jù)和設(shè)置有類別標識的無標記樣本數(shù)據(jù)作為第二原始樣本集;
根據(jù)所述第二原始樣本集,利用有監(jiān)督分類模型,確定所述分類函數(shù)。
一種基于分類模型的數(shù)據(jù)分類系統(tǒng),包括
接收模塊、提取模塊、計算模塊、類別判定模塊、分類函數(shù)構(gòu)建模塊;
所述接收模塊,用于接收待分析的目標樣本數(shù)據(jù),所述目標樣本數(shù)據(jù)攜帶標識其 各屬性的值;
所述提取模塊,用于提取所述接收模塊接收的目標樣本數(shù)據(jù)的有效屬性的值,所 述有效屬性是根據(jù)所述分類函數(shù)構(gòu)建模塊預(yù)先構(gòu)建的分類函數(shù)所確定的;
所述計算模塊,用于將所述提取模塊提取的有效屬性的值代入所述分類函數(shù),獲 得所述目標樣本數(shù)據(jù)的分類值;
所述類別判定模塊,用于根據(jù)所述計算模塊得到的目標樣本數(shù)據(jù)的分類值,判定 所述目標樣本數(shù)據(jù)所屬的數(shù)據(jù)類別;
所述分類函數(shù)構(gòu)建模塊,用于構(gòu)建分類函數(shù),具體包括
類別標識設(shè)置子模塊,用于根據(jù)第一原始樣本集中的有標記樣本數(shù)據(jù)的類別標 識,為第一原始樣本集中的無標記樣本數(shù)據(jù)設(shè)置類別標識;
樣本集確定子模塊,用于將有標記樣本數(shù)據(jù)和設(shè)置有類別標識的無標記樣本數(shù)據(jù) 作為第二原始樣本集;
分類函數(shù)確定子模塊,用于根據(jù)所述樣本集確定子模塊確定的第二原始樣本集, 利用有監(jiān)督分類模型,確定所述分類函數(shù)。
本發(fā)明實施例所提供的技術(shù)方案,利用有標記樣本數(shù)據(jù),將無標記樣本數(shù)據(jù)轉(zhuǎn)化 為有標記樣本數(shù)據(jù),使得原始樣本集中所有的樣本數(shù)據(jù)成為有標記樣本數(shù)據(jù)集,然后將這 些有標記樣本數(shù)據(jù)作為有監(jiān)督分類模型的輸入值,確定分類函數(shù)。可見本方案中,根據(jù)有標 記樣本數(shù)據(jù)的類別標識為無標記樣本數(shù)據(jù)設(shè)置類別,進而通過有監(jiān)督分類模型所構(gòu)建的分 類函數(shù)充分利用了有標記樣本數(shù)據(jù),并且有效結(jié)合無標記樣本數(shù)據(jù),其準確性提升。當對待 分析的目標樣本數(shù)據(jù)進行分類時,利用該分類函數(shù),可有效提高分類的準確性。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例構(gòu)建分類函數(shù)的流程圖2為本發(fā)明實施例所提供的一種基于分類模型的數(shù)據(jù)分類方法的流程圖3為本發(fā)明實施例所提供的一種基于分類模型的數(shù)據(jù)分類方法的另一流程圖4為本發(fā)明實施例所提供的一種基于分類模型的數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖5為本發(fā)明實施例所提供的分類函數(shù)構(gòu)建模塊的結(jié)構(gòu)示意圖。
具體實施方式
為引用和理解方便,現(xiàn)將半監(jiān)督K均值聚類模型、logistic模型介紹如下
在介紹這兩種模型之前,首先明確(1)樣本數(shù)據(jù)的屬性即為能夠標識該樣本數(shù) 據(jù)的一些信息。屬性的值為根據(jù)信息內(nèi)容為該屬性設(shè)置的數(shù)值,方便用于計算。當某些屬 性對該樣本數(shù)據(jù)的所屬數(shù)據(jù)類別起到?jīng)Q定性作用時,這些屬性即為該樣本數(shù)據(jù)的有效屬 性。例如當將一個企業(yè)作為一個樣本數(shù)據(jù)時,該樣本數(shù)據(jù)的屬性可以包括該企業(yè)的財務(wù) 信息、管理者信息、企業(yè)基本信息等。而判別企業(yè)可信度類別時,如果財務(wù)信息、管理者信息 起到了決定性作用,那么該企業(yè)的財務(wù)信息和管理者信息為該樣本數(shù)據(jù)的有效屬性。
1、半監(jiān)督K均值聚類模型
該模型所利用的原始樣本集包含有標記樣本數(shù)據(jù)和無標記樣本數(shù)據(jù),利用該模型 對原始樣本集進行處理的基本思想是基于有標記樣本數(shù)據(jù)產(chǎn)生初始的聚類種子,并利用 有標記樣本數(shù)據(jù)來約束聚類的過程?;静襟E如下
1)中心初始化
利用原始樣本集中的有標記樣本數(shù)據(jù)確定聚類的中心假設(shè)原始樣本集中包含N 個有標記樣本數(shù)據(jù),這N個樣本數(shù)據(jù)屬于K個數(shù)據(jù)類別(即類別標識為K個,分別代表不 同的數(shù)據(jù)類別),且假設(shè)每一類都包含至少一個有標記樣本數(shù)據(jù),也就是說,最終會生成K 個簇(即集合)。利用每個簇中的有標記樣本數(shù)據(jù)所有屬性值的均值得到每個簇的中心 點的初始化均值,可利用以下公式獲得每個簇中的有標記樣本數(shù)據(jù)的某一屬性的均值
權(quán)利要求
1.一種基于分類模型的數(shù)據(jù)分類方法,其特征在于,包括接收待分析的目標樣本數(shù)據(jù),所述目標樣本數(shù)據(jù)攜帶標識其各屬性的值; 提取所述目標樣本數(shù)據(jù)的有效屬性的值,所述有效屬性是根據(jù)預(yù)設(shè)的分類函數(shù)所確定的;將所述有效屬性的值代入所述分類函數(shù),獲得所述目標樣本數(shù)據(jù)的分類值; 根據(jù)所述目標樣本數(shù)據(jù)的分類值,判定所述目標樣本數(shù)據(jù)所屬的數(shù)據(jù)類別; 其中,所述預(yù)設(shè)的分類函數(shù)的構(gòu)建方式為根據(jù)第一原始樣本集中的有標記樣本數(shù)據(jù)的類別標識,為第一原始樣本集中的無標記 樣本數(shù)據(jù)設(shè)置類別標識;將有標記樣本數(shù)據(jù)和設(shè)置有類別標識的無標記樣本數(shù)據(jù)作為第二原始樣本集; 根據(jù)所述第二原始樣本集,利用有監(jiān)督分類模型,確定所述分類函數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)第一原始樣本集中的有標記樣 本數(shù)據(jù)的類別標識,為第一原始樣本集中的無標記樣本數(shù)據(jù)設(shè)置類別標識,具體為將第一原始樣本集中的有標記樣本數(shù)據(jù)和無標記樣本數(shù)據(jù)分別分配到預(yù)設(shè)的不同的 集合中,所述不同的集合對應(yīng)不同的數(shù)據(jù)類別;根據(jù)集合中的有標記樣本數(shù)據(jù)的類別標識,為該集合中的無標記樣本數(shù)據(jù)設(shè)置類別標識。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)集合中的有標記樣本數(shù)據(jù)的類 別標識,為該集合中的無標記樣本數(shù)據(jù)設(shè)置類別標識,具體為獲得所述集合的不同數(shù)據(jù)類別的有標記樣本數(shù)據(jù)的比例分布; 獲得所述集合中比例最大的有標記樣本數(shù)據(jù)的類別標識;根據(jù)所述比例最大的有標記樣本數(shù)據(jù)的類別標識設(shè)置該集合中無標記樣本數(shù)據(jù)的類 別標識。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第二原始樣本集,利用有監(jiān) 督分類模型,確定分類函數(shù),具體為提取所述第二原始樣本集的有標記樣本數(shù)據(jù)和預(yù)設(shè)比例的設(shè)置有類別標識的無標記 樣本數(shù)據(jù)作為訓(xùn)練集;根據(jù)所述訓(xùn)練集,利用有監(jiān)督分類模型,確定所述分類函數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述訓(xùn)練集,利用有監(jiān)督分類模 型,確定所述分類函數(shù),具體為將所述訓(xùn)練集對應(yīng)的樣本數(shù)據(jù)集代入所述有監(jiān)督分類模型,獲得所述有監(jiān)督分類模型 對應(yīng)的分類函數(shù)的系數(shù)和樣本數(shù)據(jù)的有效屬性;根據(jù)所述系數(shù)和樣本數(shù)據(jù)的有效屬性確定所述分類函數(shù)。
6.一種基于分類模型的數(shù)據(jù)分類系統(tǒng),其特征在于,包括接收模塊、提取模塊、計算 模塊、類別判定模塊、分類函數(shù)構(gòu)建模塊;所述接收模塊,用于接收待分析的目標樣本數(shù)據(jù),所述目標樣本數(shù)據(jù)攜帶標識其各屬 性的值;所述提取模塊,用于提取所述接收模塊接收的目標樣本數(shù)據(jù)的有效屬性的值,所述有 效屬性是根據(jù)所述分類函數(shù)構(gòu)建模塊預(yù)先構(gòu)建的分類函數(shù)所確定的;所述計算模塊,用于將所述提取模塊提取的有效屬性的值代入所述分類函數(shù),獲得所 述目標樣本數(shù)據(jù)的分類值;所述類別判定模塊,用于根據(jù)所述計算模塊得到的目標樣本數(shù)據(jù)的分類值,判定所述 目標樣本數(shù)據(jù)所屬的數(shù)據(jù)類別;所述分類函數(shù)構(gòu)建模塊,用于構(gòu)建分類函數(shù),具體包括類別標識設(shè)置子模塊,用于根據(jù)第一原始樣本集中的有標記樣本數(shù)據(jù)的類別標識,為 第一原始樣本集中的無標記樣本數(shù)據(jù)設(shè)置類別標識;樣本集確定子模塊,用于將有標記樣本數(shù)據(jù)和設(shè)置有類別標識的無標記樣本數(shù)據(jù)作為 第二原始樣本集;分類函數(shù)確定子模塊,用于根據(jù)所述樣本集確定子模塊確定的第二原始樣本集,利用 有監(jiān)督分類模型,確定所述分類函數(shù)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述類別標識設(shè)置子模塊包括分配單元,用于將第一原始樣本集中的有標記樣本數(shù)據(jù)和無標記樣本數(shù)據(jù)分別分配到 預(yù)設(shè)的不同的集合中,所述不同的集合對應(yīng)不同的數(shù)據(jù)類別;標識設(shè)置單元,用于根據(jù)集合中的有標記樣本數(shù)據(jù)的類別標識,為該集合中的無標記 樣本數(shù)據(jù)設(shè)置類別標識。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述標識設(shè)置單元,具體包括比例分布獲得子單元,用于獲得所述集合的不同數(shù)據(jù)類別的有標記樣本數(shù)據(jù)的比例分布;類別標識獲得子單元,用于根據(jù)所述比例分布獲得子單元獲得的比例分布得到比例分 布最大的有標記樣本數(shù)據(jù)的類別標識;類別標識設(shè)置子單元,用于根據(jù)所述類別標識獲得子單元獲得的比例最大的有標記樣 本數(shù)據(jù)的類別標識設(shè)置該集合中無標記樣本數(shù)據(jù)的類別標識。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述分類函數(shù)確定子模塊,包括樣本提取單元,用于提取所述第二原始樣本集的有標記樣本數(shù)據(jù)和預(yù)設(shè)比例的設(shè)置有 類別標識的無標記樣本數(shù)據(jù)作為訓(xùn)練集;分類函數(shù)確定單元,用于根據(jù)所述樣本提取單元所提取的訓(xùn)練集,利用有監(jiān)督分類模 型,確定所述分類函數(shù)。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述分類函數(shù)確定單元,具體包括第一分類函數(shù)確定子單元,用于將所述樣本提取單元提取的訓(xùn)練集對應(yīng)的樣本數(shù)據(jù)集 代入所述有監(jiān)督分類模型,獲得所述有監(jiān)督分類模型對應(yīng)的分類函數(shù)的系數(shù)和樣本數(shù)據(jù)的 有效屬性;第二分類函數(shù)確定子單元,用于根據(jù)第一分類函數(shù)確定子單元獲得的系數(shù)和樣本數(shù)據(jù) 的有效屬性確定所述分類函數(shù)。
全文摘要
本發(fā)明公開了一種基于分類模型的數(shù)據(jù)分類方法及系統(tǒng)。該方法包括接收待分析的目標樣本數(shù)據(jù),其攜帶標識各屬性的值;提取目標樣本數(shù)據(jù)有效屬性的值,有效屬性是根據(jù)預(yù)設(shè)的分類函數(shù)所確定的;將有效屬性的值代入分類函數(shù),獲得目標樣本數(shù)據(jù)分類值;根據(jù)分類值,判定目標樣本數(shù)據(jù)所屬的數(shù)據(jù)類別;其中,分類函數(shù)的構(gòu)建方式為根據(jù)第一原始樣本集中的有標記樣本數(shù)據(jù)的類別標識,為第一原始樣本集中的無標記樣本數(shù)據(jù)設(shè)置類別標識;將有標記樣本數(shù)據(jù)和設(shè)置有類別標識的無標記樣本數(shù)據(jù)作為第二原始樣本集;根據(jù)第二原始樣本集,利用有監(jiān)督分類模型,確定分類函數(shù)。通過本發(fā)明提供的方案,可有效提高對待分析的目標樣本數(shù)據(jù)分類的準確性。
文檔編號G06F17/30GK102033965SQ20111000928
公開日2011年4月27日 申請日期2011年1月17日 優(yōu)先權(quán)日2011年1月17日
發(fā)明者劉安舒, 夏洪濤, 孫曙, 張俊, 張華 , 朱香友, 楊宏彬, 黃學(xué)柱, 黃林 申請人:安徽海匯金融投資集團有限公司