欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于KNN分類的優(yōu)化方法與流程

文檔序號:12468780閱讀:373來源:國知局

本發(fā)明涉及數(shù)據(jù)分類方法技術(shù)領(lǐng)域,適用于互聯(lián)網(wǎng)數(shù)據(jù)分類的應(yīng)用,可提高信息檢索的準(zhǔn)確率。



背景技術(shù):

隨著信息技術(shù)的發(fā)展,人們能夠獲取的信息呈現(xiàn)爆炸式的增長。面對日益增多的海量信息,僅僅依靠人工的方式來處理這些信息變得越來越困難。需要一些自動化的輔助工具來幫助人們更好的管理和過濾這些信息,K最近鄰(KNN,K-Nearest-Neighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最常用的方法之一。

所謂K最近鄰即K個最近的鄰居,KNN方法的思路是:屬于同一類別的樣本具有相似的特征,在特征空間中的分布具有統(tǒng)一性,因此對于一個未知類別的樣本,可以依據(jù)與其最相鄰的K個樣本的類別進(jìn)行分類。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類別區(qū)域的方法來確定所屬類別的,因此對于類別區(qū)域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。但傳統(tǒng)的KNN分類方法在樣本不平衡時(shí),如一個類的樣本容量很大,而其他類樣本容量很小時(shí),可能導(dǎo)致當(dāng)輸入一個新樣本時(shí),該樣本的K個鄰居中大容量類的樣本占多數(shù),從而影響分類結(jié)果。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明旨在針對上述現(xiàn)有技術(shù)所存在的缺陷和不足,提供一種基于KNN分類的優(yōu)化方法,本方法對每個類別增加一個額外的偏置參數(shù),從而能達(dá)到提高分類準(zhǔn)確率的目的。

本發(fā)明是通過采用下述技術(shù)方案實(shí)現(xiàn)的:

一種基于KNN的分類優(yōu)化方法,其特征在于:在傳統(tǒng)KNN分類方法基礎(chǔ)上,對每個類別引入一個偏置參數(shù) 對最大相似度進(jìn)行調(diào)整,并通過學(xué)習(xí)算法從訓(xùn)練樣本對偏置參數(shù)進(jìn)行修正。

包括訓(xùn)練過程和分類過程,具體如下:

已知有訓(xùn)練集,待分類數(shù)據(jù)集;

A、訓(xùn)練過程,即學(xué)習(xí)偏置參數(shù);

1)初始化所有偏置參數(shù);

2)對訓(xùn)練集中的每一個樣本利用公式(1)和(2)對其進(jìn)行分類;

(1)

(2)

其中,表示與未知樣本最鄰近的個樣本;表示第類;表示第類對應(yīng)的偏置參數(shù),為類別總數(shù);

2.1)若分類正確,參數(shù)不作修改;

2.2)若分類錯誤,例如,類中的數(shù)據(jù)誤分到了類中,則減小,增大,如公式(3)和(4)所示:

(3)

(4)

其中,參數(shù)增大或減小的步長可根據(jù)實(shí)際情況自行設(shè)置;

3)重復(fù)步驟2),直到循環(huán)次數(shù)大于閾值或分類正確率的提升小于給定的閾值;

B. 分類過程

把學(xué)習(xí)得到的偏置參數(shù)帶入公式(1),并應(yīng)用于未知樣本的分類中。

與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果如下:

1、保留了KNN分類方法的線性特點(diǎn),易于理解和實(shí)現(xiàn);

2、提高了KNN分類方法的正確率;

3、本發(fā)明適用范圍廣,尤其適用于樣本容量不均勻的數(shù)據(jù)集。

附圖說明

下面將結(jié)合說明書附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步的詳細(xì)說明,其中:

圖1為KNN改進(jìn)方法流程圖。

具體實(shí)施方式

本發(fā)明的主要目的在于對KNN分類方法的改進(jìn),彌補(bǔ)原始KNN分類方法的不足,提高分類準(zhǔn)確率。原始KNN分類方法主要采用相似度度量,分類依據(jù)為前K個樣本中各類別的最大相似度,即

(5)

(6)

其中,表示與未知樣本最鄰近的個樣本;表示第類; 為類別總數(shù);

KNN原始分類過程具體如下:

計(jì)算待分類數(shù)據(jù)與每個類的相似度,選用合適的參數(shù),利用公式(5)和(6)對未知樣本進(jìn)行分類。

KNN原始分類方法在樣本不平衡時(shí),如一個類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個新樣本時(shí),該樣本的個鄰居中大容量類的樣本占多數(shù),從而影響分類結(jié)果。本發(fā)明在KNN原始分類方法的基礎(chǔ)上進(jìn)行改進(jìn),對每個類增加一個偏置參數(shù)對相似性計(jì)算進(jìn)行調(diào)整,若在訓(xùn)練過程中分類錯誤則調(diào)整相應(yīng)類別偏置參數(shù),影響最終分類結(jié)果,從而達(dá)到優(yōu)化KNN分類方法的效果。

本方法工作過程主要包括訓(xùn)練過程和分類過程,具體如下:

已知有訓(xùn)練集,待分類數(shù)據(jù)集;

A、訓(xùn)練過程,即學(xué)習(xí)偏置參數(shù);

1)初始化所有偏置參數(shù);

2)對訓(xùn)練集中的每一個樣本利用公式(1)和(2)對其進(jìn)行分類;

(1)

(2)

其中,表示與未知樣本最鄰近的個樣本;表示第類;表示第類對應(yīng)的偏置參數(shù),為類別總數(shù);

2.1)若分類正確,參數(shù)不作修改;

2.2)若分類錯誤,例如,類中的數(shù)據(jù)誤分到了類中,則減小,增大,如公式(3)和(4)所示:

(3)

(4)

其中,參數(shù)增大或減小的步長可根據(jù)實(shí)際情況自行設(shè)置;

3)重復(fù)步驟2),直到循環(huán)次數(shù)大于閾值或分類正確率的提升小于給定的閾值;

B. 分類過程

把學(xué)習(xí)得到的偏置參數(shù)帶入公式(1),并應(yīng)用于未知樣本的分類中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
民乐县| 太仆寺旗| 宁安市| 前郭尔| 清远市| 安福县| 都江堰市| 青海省| 云南省| 天全县| 阿鲁科尔沁旗| 吴桥县| 井冈山市| 沁水县| 大丰市| 东兰县| 乐至县| 绵竹市| 理塘县| 石城县| 鲁山县| 汾西县| 陆良县| 察隅县| 阳城县| 海盐县| 上犹县| 台安县| 宁化县| 湖南省| 福泉市| 乌兰县| 城步| 施甸县| 织金县| 辽宁省| 临西县| 朔州市| 沙雅县| 乡城县| 成武县|