技術總結
不平衡數(shù)據(jù)集的分類已經(jīng)成為數(shù)據(jù)挖掘中最具挑戰(zhàn)性的問題之一。因為少數(shù)類樣本數(shù)量遠遠少于多數(shù)類,導致少數(shù)類在傳統(tǒng)算法的分類學習過程中存在正確率低、泛化性能不好等缺陷。算法集成已經(jīng)成處理該問題的一個重要方法,其中基于隨機欠抽樣和基于聚類的兩種集成算法能有效提高分類的性能。但是,前者容易造成信息丟失,后者計算復雜不易推廣。本文提出一種基于權重聚類,融合欠抽樣的改進的集成分類算法,具體為基于權重聚類和欠抽樣的不平衡數(shù)據(jù)分類方法。算法根據(jù)樣本權重劃分簇,依據(jù)樣本權值從每個簇中抽取一定比例的多數(shù)類和全部的少數(shù)類組成平衡數(shù)據(jù)集,并利用Adaboost算法框架對分類器進行集成,提高了分類效果。實驗結果表明,該算法具有準確,簡單,穩(wěn)定性高的特點。
技術研發(fā)人員:鄧曉衡;鐘維堅;任炬
受保護的技術使用者:中南大學
文檔號碼:201611116829
技術研發(fā)日:2016.12.07
技術公布日:2017.05.31