本發(fā)明涉及數(shù)據(jù)分類方法技術(shù)領(lǐng)域,適用于互聯(lián)網(wǎng)數(shù)據(jù)分類的應(yīng)用,可提高信息檢索的準(zhǔn)確率。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,人們能夠獲取的信息呈現(xiàn)爆炸式的增長。面對日益增多的海量信息,僅僅依靠人工的方式來處理這些信息變得越來越困難。需要一些自動化的輔助工具來幫助人們更好的管理和過濾這些信息,K最近鄰(KNN,K-Nearest-Neighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最常用的方法之一。
所謂K最近鄰即K個最近的鄰居,KNN方法的思路是:屬于同一類別的樣本具有相似的特征,在特征空間中的分布具有統(tǒng)一性,因此對于一個未知類別的樣本,可以依據(jù)與其最相鄰的K個樣本的類別進(jìn)行分類。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類別區(qū)域的方法來確定所屬類別的,因此對于類別區(qū)域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。但傳統(tǒng)的KNN分類方法在樣本不平衡時(shí),如一個類的樣本容量很大,而其他類樣本容量很小時(shí),可能導(dǎo)致當(dāng)輸入一個新樣本時(shí),該樣本的K個鄰居中大容量類的樣本占多數(shù),從而影響分類結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在針對上述現(xiàn)有技術(shù)所存在的缺陷和不足,提供一種基于KNN分類的優(yōu)化方法,本方法對每個類別增加一個額外的偏置參數(shù),從而能達(dá)到提高分類準(zhǔn)確率的目的。
本發(fā)明是通過采用下述技術(shù)方案實(shí)現(xiàn)的:
一種基于KNN的分類優(yōu)化方法,其特征在于:在傳統(tǒng)KNN分類方法基礎(chǔ)上,對每個類別引入一個偏置參數(shù) 對最大相似度進(jìn)行調(diào)整,并通過學(xué)習(xí)算法從訓(xùn)練樣本對偏置參數(shù)進(jìn)行修正。
包括訓(xùn)練過程和分類過程,具體如下:
已知有訓(xùn)練集,待分類數(shù)據(jù)集;
A、訓(xùn)練過程,即學(xué)習(xí)偏置參數(shù);
1)初始化所有偏置參數(shù);
2)對訓(xùn)練集中的每一個樣本利用公式(1)和(2)對其進(jìn)行分類;
(1)
(2)
其中,表示與未知樣本最鄰近的個樣本;表示第類;表示第類對應(yīng)的偏置參數(shù),為類別總數(shù);
2.1)若分類正確,參數(shù)不作修改;
2.2)若分類錯誤,例如,類中的數(shù)據(jù)誤分到了類中,則減小,增大,如公式(3)和(4)所示:
(3)
(4)
其中,參數(shù)增大或減小的步長可根據(jù)實(shí)際情況自行設(shè)置;
3)重復(fù)步驟2),直到循環(huán)次數(shù)大于閾值或分類正確率的提升小于給定的閾值;
B. 分類過程
把學(xué)習(xí)得到的偏置參數(shù)帶入公式(1),并應(yīng)用于未知樣本的分類中。
與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果如下:
1、保留了KNN分類方法的線性特點(diǎn),易于理解和實(shí)現(xiàn);
2、提高了KNN分類方法的正確率;
3、本發(fā)明適用范圍廣,尤其適用于樣本容量不均勻的數(shù)據(jù)集。
附圖說明
下面將結(jié)合說明書附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步的詳細(xì)說明,其中:
圖1為KNN改進(jìn)方法流程圖。
具體實(shí)施方式
本發(fā)明的主要目的在于對KNN分類方法的改進(jìn),彌補(bǔ)原始KNN分類方法的不足,提高分類準(zhǔn)確率。原始KNN分類方法主要采用相似度度量,分類依據(jù)為前K個樣本中各類別的最大相似度,即
(5)
(6)
其中,表示與未知樣本最鄰近的個樣本;表示第類; 為類別總數(shù);
KNN原始分類過程具體如下:
計(jì)算待分類數(shù)據(jù)與每個類的相似度,選用合適的參數(shù),利用公式(5)和(6)對未知樣本進(jìn)行分類。
KNN原始分類方法在樣本不平衡時(shí),如一個類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個新樣本時(shí),該樣本的個鄰居中大容量類的樣本占多數(shù),從而影響分類結(jié)果。本發(fā)明在KNN原始分類方法的基礎(chǔ)上進(jìn)行改進(jìn),對每個類增加一個偏置參數(shù)對相似性計(jì)算進(jìn)行調(diào)整,若在訓(xùn)練過程中分類錯誤則調(diào)整相應(yīng)類別偏置參數(shù),影響最終分類結(jié)果,從而達(dá)到優(yōu)化KNN分類方法的效果。
本方法工作過程主要包括訓(xùn)練過程和分類過程,具體如下:
已知有訓(xùn)練集,待分類數(shù)據(jù)集;
A、訓(xùn)練過程,即學(xué)習(xí)偏置參數(shù);
1)初始化所有偏置參數(shù);
2)對訓(xùn)練集中的每一個樣本利用公式(1)和(2)對其進(jìn)行分類;
(1)
(2)
其中,表示與未知樣本最鄰近的個樣本;表示第類;表示第類對應(yīng)的偏置參數(shù),為類別總數(shù);
2.1)若分類正確,參數(shù)不作修改;
2.2)若分類錯誤,例如,類中的數(shù)據(jù)誤分到了類中,則減小,增大,如公式(3)和(4)所示:
(3)
(4)
其中,參數(shù)增大或減小的步長可根據(jù)實(shí)際情況自行設(shè)置;
3)重復(fù)步驟2),直到循環(huán)次數(shù)大于閾值或分類正確率的提升小于給定的閾值;
B. 分類過程
把學(xué)習(xí)得到的偏置參數(shù)帶入公式(1),并應(yīng)用于未知樣本的分類中。