本發(fā)明屬于分類結(jié)果置信度度量技術(shù)領(lǐng)域,特別涉及一種基于Bagging和離群點(diǎn)的分類結(jié)果置信度的度量方法。
背景技術(shù):
通過(guò)待度量數(shù)據(jù)來(lái)提高模型的準(zhǔn)確性是在線學(xué)習(xí)中重要的部分,而如何保持學(xué)習(xí)數(shù)據(jù)的準(zhǔn)確性變得尤為重要。分類結(jié)果置信度度量的方法是對(duì)每次分類后用于衡量分類的結(jié)果可信或不可信的方法,這對(duì)保持訓(xùn)練集和模型再訓(xùn)練有很重要的意義。傳統(tǒng)的對(duì)Logistic回歸、SVM和樸素貝葉斯等模型分類結(jié)果不進(jìn)行置信度度量,模型再學(xué)習(xí)時(shí)無(wú)法避免學(xué)習(xí)不可信的分類結(jié)果對(duì)模型的影響。
嚴(yán)云洋和朱全銀等人已有的研究基礎(chǔ)包括:嚴(yán)云洋,吳茜茵,杜靜,周靜波,劉以安.基于色彩和閃頻特征的視頻火焰檢測(cè).計(jì)算機(jī)科學(xué)與探索,2014,08(10):1271-1279;S Gao,J Yang,Y Yan.A novel multiphase active contour model for inhomogeneous image segmentation.Multimedia Tools and Applications,2014,72(3):2321-2337;S Gao,J Yang,Y Yan.A local modified chan–vese model for segmenting inhomogeneous multiphase images.International Journal of Imaging Systems and Technology,2012,22(2):103-113;劉金嶺,嚴(yán)云洋.基于上下文的短信文本分類方法.計(jì)算機(jī)工程,2011,37(10):41-43;嚴(yán)云洋,高尚兵,郭志波,盛明超.基于視頻圖像的火災(zāi)自動(dòng)檢測(cè).計(jì)算機(jī)應(yīng)用研究,2008,25(4):1075-1078Y Yan,Z Guo,JYang.Fast Feature Value Searching for Face Detection.Computer and Information Science,2008,1(2):120-128;朱全銀,潘祿,劉文儒,等.Web科技新聞分類抽取算法[J].淮陰工學(xué)院學(xué)報(bào),2015,24(5):18-24;李翔,朱全銀.聯(lián)合聚類和評(píng)分矩陣共享的協(xié)同過(guò)濾推薦[J].計(jì)算機(jī)科學(xué)與探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent Feature Selection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling and Disturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全銀等人申請(qǐng)、公開(kāi)與授權(quán)的相關(guān)專利:朱全銀,胡蓉靜,何蘇群,周培等.一種基于線性插補(bǔ)與自適應(yīng)滑動(dòng)窗口的商品價(jià)格分類方法.中國(guó)專利:ZL 201110423015.5,2015.07.01;朱全銀,曹蘇群,嚴(yán)云洋,胡蓉靜等,一種基于二分?jǐn)?shù)據(jù)修補(bǔ)與擾亂因子的商品價(jià)格分類方法.中國(guó)專利:ZL 2011 1 0422274.6,2013.01.02;朱全銀,尹永華,嚴(yán)云洋,曹蘇群等,一種基于神經(jīng)網(wǎng)絡(luò)的多品種商品價(jià)格分類的數(shù)據(jù)預(yù)處理方法.中國(guó)專利:ZL 2012 1 0325368.6;李翔,朱全銀,胡榮林,周泓.一種基于譜聚類的冷鏈物流配載智能推薦方法.中國(guó)專利公開(kāi)號(hào):CN105654267A,2016.06.08;曹蘇群,朱全銀,左曉明,高尚兵等人,一種用于模式分類的特征選擇方法.中國(guó)專利公開(kāi)號(hào):CN 103425994 A,2013.12.04;朱全銀,嚴(yán)云洋,李翔,張永軍等人,一種用于文本分類和圖像深度挖掘的科技情報(bào)獲取與推送方法.中國(guó)專利公開(kāi)號(hào):CN 104035997 A,2014.09.10;朱全銀,辛誠(chéng),李翔,許康等人,一種基于K means和LDA雙向驗(yàn)證的網(wǎng)絡(luò)行為習(xí)慣聚類方法.中國(guó)專利公開(kāi)號(hào):CN 106202480 A,2016.12.07。
Bagging(裝袋法):
Bagging是一種用來(lái)提高學(xué)習(xí)算法準(zhǔn)確度的方法,這種方法通過(guò)構(gòu)造一個(gè)分類函數(shù)系列,然后以一定的方式將它們組合成一個(gè)分類函數(shù)。Bagging技術(shù)的主要思想是采用重采樣技術(shù),從原始數(shù)據(jù)集中分別獨(dú)立隨機(jī)地選取數(shù)據(jù),并且將此過(guò)程獨(dú)立進(jìn)行多次,直到產(chǎn)生很多個(gè)獨(dú)立的數(shù)據(jù)集。給定一個(gè)弱學(xué)習(xí)算法,可以通過(guò)該弱學(xué)習(xí)算法對(duì)產(chǎn)生的多個(gè)訓(xùn)練樣本集進(jìn)行學(xué)習(xí),得出分類函數(shù)序列,將結(jié)果進(jìn)行投票,得票最多的作為最后的結(jié)果。
離群點(diǎn):
離群點(diǎn)檢測(cè)是數(shù)據(jù)挖掘中的一個(gè)分支,它的任務(wù)是識(shí)別其數(shù)據(jù)特征顯著不同于其他數(shù)據(jù)對(duì)象的觀測(cè)值。離群點(diǎn)檢測(cè)在數(shù)據(jù)挖掘中非常重要,因?yàn)槿绻惓J怯晒逃袛?shù)據(jù)的變異造成的,那么對(duì)它們進(jìn)行分析可以發(fā)現(xiàn)蘊(yùn)藏在其中更深層次的、潛在的、有價(jià)值的信息。因此,離群點(diǎn)檢測(cè)是一個(gè)非常有意義的研究方向。
Logistic回歸:
Logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,與線性回歸不同,Logistic回歸是一種非線性模型,普遍采用的參數(shù)估計(jì)方法是最大似然估計(jì)法。常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷,經(jīng)濟(jì)分類等領(lǐng)域。Logistic回歸方法能對(duì)分類因變量和分類自變量或連續(xù)自變量,或混合變量進(jìn)行回歸建模,有一整套成熟的對(duì)回歸模型和回歸參數(shù)進(jìn)行檢驗(yàn)的標(biāo)準(zhǔn),以事件發(fā)生概率的形式提供結(jié)果。
支持向量機(jī):
支持向量機(jī)是Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對(duì)線性分類器提出了另一種設(shè)計(jì)最佳準(zhǔn)則。其原理也從線性可分說(shuō)起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)。
樸素貝葉斯分類器:
樸素貝葉斯分類器是一種應(yīng)用基于獨(dú)立假設(shè)的貝葉斯定理的簡(jiǎn)單概率分類器,更精確的描述這種潛在的概率模型為獨(dú)立特征模型,貝葉斯分類的基礎(chǔ)是概率推理,就是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,如何完成推理和決策任務(wù),概率推理是與確定性推理相對(duì)應(yīng)的,而樸素貝葉斯分類器是基于獨(dú)立假設(shè)的,即假設(shè)樣本每個(gè)特征與其他特征都不相關(guān)。
歐式距離:
歐幾里得度量也稱歐氏距離,是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。
Logistic回歸、支持向量機(jī)和樸素貝葉斯在分類時(shí)對(duì)待置信度度量的數(shù)據(jù)和分類結(jié)果直接加入訓(xùn)練集中,該方法無(wú)法避免將不可信的度量數(shù)據(jù)和分類結(jié)果加入到可信數(shù)據(jù)集中,這使得模型的準(zhǔn)確度和穩(wěn)定性降低。為了能更好的利用以上算法,避免分類數(shù)據(jù)加入可信數(shù)據(jù)集時(shí)對(duì)模型的影響,因此需要找到一種能夠?qū)Ψ诸惤Y(jié)果進(jìn)行置信度度量的方法,使Logistic回歸、支持向量機(jī)和樸素貝葉斯等模型避免學(xué)習(xí)不可信的分類結(jié)果對(duì)分類模型的影響。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供一種將Bagging和離群點(diǎn)分析結(jié)合,對(duì)Logistic回歸、支持向量機(jī)和樸素貝葉斯等模型的分類結(jié)果進(jìn)行置信度度量,進(jìn)而避免Logistic回歸、SVM和樸素貝葉斯等模型在擴(kuò)充訓(xùn)練數(shù)據(jù)時(shí)因采用了不可信的分類數(shù)據(jù)對(duì)訓(xùn)練模型影響,本發(fā)明提出了一種基于Bagging和離群點(diǎn)的分類結(jié)果置信度的度量方法。
技術(shù)方案:為解決上述技術(shù)問(wèn)題,本發(fā)明提供的一種基于Bagging和離群點(diǎn)的分類結(jié)果置信度的度量方法,包括如下步驟:
步驟一:對(duì)已有可信數(shù)據(jù)集采用Bagging集成學(xué)習(xí)方法,即采用Logistic回歸、支持向量機(jī)和樸素貝葉斯中一個(gè)作為基分類器,得到基分類器的分類模型集;
步驟二:通過(guò)步驟一得出的基分類器的分類模型集,對(duì)待度量置信度數(shù)據(jù)進(jìn)行分類,并計(jì)算在不同分類中的分類概率,得到待度量置信度數(shù)據(jù)的分類結(jié)果集和待度量置信度數(shù)據(jù)的分類概率集,再對(duì)分類結(jié)果集進(jìn)行統(tǒng)計(jì),得到待度量置信度數(shù)據(jù)的分類結(jié)果;
步驟三:采用離群點(diǎn)分析方法,對(duì)待度量置信度數(shù)據(jù)的分類結(jié)果進(jìn)行置信度度量,得到待度量置信度數(shù)據(jù)中的可信數(shù)據(jù)和不可信數(shù)據(jù),并將待度量置信度數(shù)據(jù)中滿足置信條件的數(shù)據(jù)加入已有可信數(shù)據(jù)集。
進(jìn)一步的,所述步驟一中得到基分類器的分類模型集的具體方法為:
步驟1.1:定義已有可信數(shù)據(jù)集的特征和分類屬性;
步驟1.2:選擇Logistic回歸、支持向量機(jī)和樸素貝葉斯中一個(gè)作為基分類器Function;
步驟1.3:對(duì)步驟1.1中定義過(guò)的已有可信數(shù)據(jù)集采用Bagging集成學(xué)習(xí)方法,以步驟1.2中選擇的Function為基分類器,得到Function的分類模型集;
進(jìn)一步的,所述步驟二中得到待度量置信度數(shù)據(jù)的分類結(jié)果的具體方法為:
步驟2.1:對(duì)待度量置信度數(shù)據(jù)進(jìn)行分類,并計(jì)算不同分類中的分類概率,得到待度量置信度數(shù)據(jù)的分類結(jié)果集Y和待度量置信度數(shù)據(jù)的分類概率集Cf;
步驟2.2:統(tǒng)計(jì)步驟2.1中分類結(jié)果集Y中每個(gè)類別的個(gè)數(shù),得到待度量置信度數(shù)據(jù)的分類結(jié)果py:
進(jìn)一步的,所述步驟三中采用離群點(diǎn)分析方法對(duì)待度量置信度數(shù)據(jù)的分類結(jié)果進(jìn)行置信度度量的具體方法為:
步驟3.1:設(shè)滿足Point=Cfpy的點(diǎn)為離群點(diǎn),將待度量置信度數(shù)據(jù)的分類概率集Cf中的Cfpy取出,并從概率集Cf中刪除Cfpy,得到矩陣P;
步驟3.2:遍歷矩陣P中每個(gè)分類,計(jì)算矩陣P的質(zhì)心,其公式為:
式中,PLoop為分類概率集中第Loop個(gè)分類,Num為當(dāng)前計(jì)算的分類,X為分類個(gè)數(shù);
步驟3.3:遍歷矩陣P中每個(gè)類別與質(zhì)心的距離和離群點(diǎn)的距離,計(jì)算質(zhì)心的公式為:
計(jì)算離群點(diǎn)的公式為:
式中,PNum為分類概率集中第Num個(gè)分類,MNum為Num分類對(duì)應(yīng)的質(zhì)心,α為自定義值;
步驟3.4:執(zhí)行步驟3.3后,若滿足dNum,2>dNum,1,則待度量置信度數(shù)據(jù)為可信數(shù)據(jù),并將其加入到已有可信數(shù)據(jù)集Train中;否則,待度量置信度數(shù)據(jù)為不可信數(shù)據(jù),不加入已有可信數(shù)據(jù)集Train中。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
本發(fā)明方法通過(guò)Bagging和離群點(diǎn)分析,能有效的對(duì)Logistic回歸、支持向量機(jī)和樸素貝葉斯等模型的分類結(jié)果進(jìn)行置信度度量,從而避免了模型再學(xué)習(xí)時(shí)因采用了不可信的分類結(jié)果對(duì)訓(xùn)練模型的影響。此外,本發(fā)明創(chuàng)造性地提出了一種分類結(jié)果置信度的度量方法,用于對(duì)已有可信數(shù)據(jù)集可信數(shù)據(jù)的擴(kuò)充,進(jìn)而提高學(xué)習(xí)模型的有效性。
附圖說(shuō)明
圖1為本發(fā)明的總體流程圖;
圖2為圖1中裝袋法模型訓(xùn)練的流程圖;
圖3為圖1中待度量置信度數(shù)據(jù)分類的流程圖;
圖4為圖1中分類結(jié)果置信度度量的流程圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式,進(jìn)一步闡明本發(fā)明。
本發(fā)明技術(shù)方案是對(duì)Logistic回歸、支持向量機(jī)和樸素貝葉斯等模型的分類結(jié)果進(jìn)行置信度度量,首先采用Bagging集成學(xué)習(xí)方法,即,采用Logistic回歸、支持向量機(jī)和樸素貝葉斯中的一個(gè)作為基分類器,對(duì)待度量置信度數(shù)據(jù)進(jìn)行分類,并計(jì)算在不同分類中的分類概率,得到待度量置信度數(shù)據(jù)的分類結(jié)果集和待度量置信度數(shù)據(jù)的分類概率集,通過(guò)分類結(jié)果集得到待度量置信度數(shù)據(jù)的分類結(jié)果,其次,在分類概率集中,將每個(gè)分類作為空間中一個(gè)點(diǎn),以分類結(jié)果對(duì)應(yīng)分類概率集中的點(diǎn)作為離群點(diǎn),余下分類對(duì)應(yīng)分類概率集中的點(diǎn)為一個(gè)簇,最后,使用歐式距離,比較簇內(nèi)每個(gè)點(diǎn)到簇質(zhì)心的距離和到離群點(diǎn)的距離,若滿足簇內(nèi)所有點(diǎn)到簇質(zhì)心的距離小于到離群點(diǎn)的距離,則該分類結(jié)果為可信,反之則為不可信,進(jìn)而實(shí)現(xiàn)對(duì)分類結(jié)果置信度的度量。
具體的,本發(fā)明包括如下步驟:
步驟一:對(duì)已有可信數(shù)據(jù)集采用Bagging集成學(xué)習(xí)方法,即,采用Logistic回歸、支持向量機(jī)和樸素貝葉斯中一個(gè)作為基分類器,得到基分類器的分類模型集,具體的如圖2所示;
步驟1.1:設(shè)已有分類個(gè)數(shù)為X的可信數(shù)據(jù)集Train={T1,T2,T3,……,Tn},n為Train中集合個(gè)數(shù),特征集Ti={a1,a2,a3,……,afd},aj為Ti第j個(gè)特征,fd為特征個(gè)數(shù),其中,i∈[1,n],j∈[1,fd];
步驟1.2:選擇Logistic回歸、支持向量機(jī)和樸素貝葉斯中一個(gè)作為基分類器Function,設(shè)Function模型數(shù)量為N;
步驟1.3:設(shè)Models為Function分類模型集,賦初值為空集;
步驟1.4:定義循環(huán)變量q賦初值為1;
步驟1.5:當(dāng)循環(huán)變量q<=N時(shí),則執(zhí)行步驟1.6;否則執(zhí)行步驟1.10;
步驟1.6:對(duì)步驟1.1中的可信數(shù)據(jù)集Train中隨機(jī)抽樣E個(gè)作為樣本,即,Sub={T1,T2,T3,……,TE},
步驟1.7:使用Sub對(duì)Function進(jìn)行訓(xùn)練,得訓(xùn)練后的分類模型Lq;
步驟1.8:Models=Models∪Lq;
步驟1.9:循環(huán)變量q=q+1;
步驟1.10:得到Function分類模型集Models={L1,L2,L3,……,LN};
步驟二:通過(guò)基分類器的分類模型集,對(duì)待度量置信度數(shù)據(jù)進(jìn)行分類,并計(jì)算在不同分類中的分類概率,得到待度量置信度數(shù)據(jù)的分類結(jié)果集和待度量置信度數(shù)據(jù)的分類概率集,再對(duì)分類結(jié)果集進(jìn)行統(tǒng)計(jì),得到待度量置信度數(shù)據(jù)的分類結(jié)果,具體的如圖3所示;
步驟2.1:設(shè)待度量置信度數(shù)據(jù)的特征集為Test={b1,b2,b3,……,bgd},其中,bk為Test中第k個(gè)數(shù)據(jù)特征,gd為Test的特征個(gè)數(shù);
步驟2.2:采用Models對(duì)Test進(jìn)行分類,得到待度量置信度數(shù)據(jù)的分類結(jié)果集Y={y1,y2,y3,……,yN}和待度量置信度數(shù)據(jù)的分類概率集Cf={C1,C2,C3,……,CX},其中,ys為第s個(gè)基分類器Function模型中待度量數(shù)據(jù)Test的分類結(jié)果;Cr為每個(gè)基分類器Function模型對(duì)第r個(gè)分類的分類概率,Cu={pr1,pr2,pr3,……,prN},prh為第h個(gè)基分類器Funtion模型的分類概率值,其中,s,h∈[1,N],u∈[1,X];
步驟2.3:統(tǒng)計(jì)步驟2.2中模型的分類結(jié)果集Y,設(shè)M為統(tǒng)計(jì)分類結(jié)果集Y中每個(gè)分類的個(gè)數(shù),在M中選擇統(tǒng)計(jì)值最大的分類作為待度量置信度數(shù)據(jù)的分類結(jié)果py;
步驟三:采用離群點(diǎn)分析方法,對(duì)待度量置信度數(shù)據(jù)的分類結(jié)果進(jìn)行置信度度量,得到待度量置信度數(shù)據(jù)中的可信數(shù)據(jù)和不可信數(shù)據(jù),并將待度量置信度數(shù)據(jù)中滿足置信條件的數(shù)據(jù)加入已有可信數(shù)據(jù)集,具體的如圖4所示;
步驟3.1:設(shè)滿足Point=Cfpy的點(diǎn)為離群點(diǎn),將待度量置信度數(shù)據(jù)的分類概率集Cf中的Cfpy取出,并去除分類概率集Cf中的Cfpy,得到P={C1,C2,C3,……,CX-1},其中,
步驟3.2:設(shè)循環(huán)變量Num賦初值為1,用于遍歷矩陣P的行;
步驟3.3:當(dāng)循環(huán)變量Num<=X-1時(shí),則執(zhí)行步驟3.4;否則執(zhí)行步驟3.8;
步驟3.4:計(jì)算待度量置信度數(shù)據(jù)的分類概率集P的質(zhì)心,其中不包含PNum,得;
步驟3.5:計(jì)算PNum與M的歐式距離為:PNum與Point的歐式距離為,其中,α賦值為0.5
步驟3.6:當(dāng)d1<d2時(shí),則執(zhí)行步驟3.4;否則執(zhí)行步驟3.7;
步驟3.7:循環(huán)變量Num=Num+1;
步驟3.8:得到待度量置信度數(shù)據(jù)為不可信數(shù)據(jù),Train=Train;
步驟3.10:得到待度量置信度數(shù)據(jù)為可信數(shù)據(jù),并將其加入到已有可信數(shù)據(jù)集Train中,即,Train=Train∪{Test,py}。
其中,以Bagging集成學(xué)習(xí)方法,采用基分類器為L(zhǎng)ogistic回歸、支持向量機(jī)和樸素貝葉斯中的一個(gè)作為基分類器對(duì)可信數(shù)據(jù)訓(xùn)練,通過(guò)待度量置信度數(shù)據(jù)得到的分類概率集,在分類概率集中,將每個(gè)分類作為空間中一個(gè)點(diǎn),以分類結(jié)果對(duì)應(yīng)分類概率集中的點(diǎn)作為離群點(diǎn),余下分類對(duì)應(yīng)分類概率集中的點(diǎn)為一個(gè)簇,通過(guò)歐式距離來(lái)判定分類結(jié)果的置信度。
其中,步驟1.1是提供模型訓(xùn)練所需初始數(shù)據(jù);步驟1.2到步驟1.10是,以Bagging集成學(xué)習(xí)方法對(duì)數(shù)據(jù)訓(xùn)練,其中以Logistic回歸、支持向量機(jī)和樸素貝葉斯中的一個(gè)為基分類器;步驟2.1到步驟2.3是對(duì)待度量置信度的數(shù)據(jù)進(jìn)行分類,并計(jì)算在不同分類中的概率,得到待度量置信度數(shù)據(jù)的分類結(jié)果集和待度量置信度的數(shù)據(jù)的分類概率集;步驟3.1到步驟3.10是一種計(jì)算對(duì)待度量置信度數(shù)據(jù)的分類結(jié)果的置信度度量的方法。
為了更好地說(shuō)明本方法的有效性,通過(guò)已有的Web頁(yè)面分類數(shù)據(jù)和UCI官網(wǎng)上公開(kāi)的Car Evaluation數(shù)據(jù)集和Letter Recognition數(shù)據(jù)集作為原始數(shù)據(jù)集,分別通過(guò)Logistic回歸模型、SVM模型和樸素貝葉斯模型進(jìn)行分類,并對(duì)分類的結(jié)果進(jìn)行置信度度量。
通過(guò)Web頁(yè)面分類數(shù)據(jù)4553條數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),特征為Web頁(yè)面中的title字段describe中的keywords,以樣本70%作為訓(xùn)練集,30%的作為測(cè)試集,通過(guò)Logistic回歸模型分類,取得90.64%的準(zhǔn)確率,其中包含128條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出1092條(占原測(cè)試集的80%),該篩選出的子集準(zhǔn)確率為98.07%。通過(guò)樸素貝葉斯模型分類,取得88.1%的準(zhǔn)確率,其中包含162條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出1012條(占原測(cè)試集的74.1%),該篩選出的子集準(zhǔn)確率為96.93%。通過(guò)SVM模型分類,取得88.64%的準(zhǔn)確率,其中包含155條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出1004條(占原測(cè)試集的73.5%),該篩選出的子集準(zhǔn)確率為94.5%。
通過(guò)UCI中公開(kāi)的數(shù)據(jù),選用手寫字識(shí)別的數(shù)據(jù)Car Evaluation,該數(shù)據(jù)量為1728條,特征為6個(gè)。以樣本70%作為訓(xùn)練集,30%的作為測(cè)試集,通過(guò)Logistic回歸模型分類,取得81.3%的準(zhǔn)確率,其中包含96條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出407條(占原測(cè)試集的78.6%),該篩選出的子集準(zhǔn)確率為98.07%。通過(guò)樸素貝葉斯模型分類,取得70%的準(zhǔn)確率,其中包含155條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出429條(占原測(cè)試集的82.8%),該篩選出的子集準(zhǔn)確率為78.3%。通過(guò)SVM模型分類,取得94.8%的準(zhǔn)確率,其中包含27條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出496條(占原測(cè)試集的95.8%),該篩選出的子集準(zhǔn)確率為97.8%。
選用UCI中公開(kāi)的Letter Recognition數(shù)據(jù)集,該數(shù)據(jù)量為20000條,特征為16個(gè)。以樣本70%作為訓(xùn)練集,30%的作為測(cè)試集,通過(guò)Logistic回歸模型分類,取得71.3%的準(zhǔn)確率,其中包含1722條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出2902條(占原測(cè)試集的48.37%),該篩選出的子集準(zhǔn)確率為91.42%。通過(guò)樸素貝葉斯模型分類,取得54.78%的準(zhǔn)確率,其中包含2713條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出2362條(占原測(cè)試集的39.37%),該篩選出的子集準(zhǔn)確率為79.17%。通過(guò)SVM模型分類,取得96.87%的準(zhǔn)確率,其中包含187條錯(cuò)分?jǐn)?shù)據(jù),若通過(guò)對(duì)分類結(jié)果的置信度度量,可從分類結(jié)果中選出5821條(占原測(cè)試集的97%),該篩選出的子集準(zhǔn)確率為98.2%。
除了通過(guò)Logistic回歸、支持向量機(jī)和樸素貝葉斯外,還可以對(duì)迭代決策樹(shù)和KNN等支持分類概率輸出模型的分類結(jié)果進(jìn)行置信度度量。通過(guò)CarEvaluation數(shù)據(jù)集,對(duì)迭代決策樹(shù)和KNN模型分類結(jié)果進(jìn)行置信度度量,模型準(zhǔn)確率分別為98.5%和91.71%,若通過(guò)對(duì)分類結(jié)果的度量,可從分類結(jié)果中選出499條(占原測(cè)試集的96.3%)和415條(占原測(cè)試集的80%),子集準(zhǔn)確率為99.8%%和99%。
本發(fā)明可與計(jì)算機(jī)系統(tǒng)結(jié)合,從而自動(dòng)完成對(duì)分類結(jié)果置信度的度量。
本發(fā)明提出的一種基于Bagging和離群點(diǎn)的分類結(jié)果置信度的度量方法,以上所述僅為本發(fā)明的實(shí)施例子而已,并不用于限制本發(fā)明。除了對(duì)Logistic回歸、SVM和樸素貝葉斯等模型的分類結(jié)果進(jìn)行置信度度量外,也可用于對(duì)迭代決策樹(shù)(GBDT)、KNN和BP神經(jīng)網(wǎng)絡(luò)等支持分類概率輸出的模型。凡在本發(fā)明的原則之內(nèi),所作的等同替換,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明未作詳細(xì)闡述的內(nèi)容屬于本專業(yè)領(lǐng)域技術(shù)人員公知的已有技術(shù)。