一種基于KNN分類的優(yōu)化方法與流程

文檔序號：12468780閱讀：373來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)分類方法技術(shù)領(lǐng)域，適用于互聯(lián)網(wǎng)數(shù)據(jù)分類的應(yīng)用，可提高信息檢索的準(zhǔn)確率。

背景技術(shù)：

隨著信息技術(shù)的發(fā)展，人們能夠獲取的信息呈現(xiàn)爆炸式的增長。面對日益增多的海量信息，僅僅依靠人工的方式來處理這些信息變得越來越困難。需要一些自動化的輔助工具來幫助人們更好的管理和過濾這些信息，K最近鄰(KNN，K-Nearest-Neighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最常用的方法之一。

所謂K最近鄰即K個最近的鄰居，KNN方法的思路是：屬于同一類別的樣本具有相似的特征，在特征空間中的分布具有統(tǒng)一性，因此對于一個未知類別的樣本，可以依據(jù)與其最相鄰的K個樣本的類別進(jìn)行分類。由于KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類別區(qū)域的方法來確定所屬類別的，因此對于類別區(qū)域的交叉或重疊較多的待分樣本集來說，KNN方法較其他方法更為適合。但傳統(tǒng)的KNN分類方法在樣本不平衡時(shí)，如一個類的樣本容量很大，而其他類樣本容量很小時(shí)，可能導(dǎo)致當(dāng)輸入一個新樣本時(shí)，該樣本的K個鄰居中大容量類的樣本占多數(shù)，從而影響分類結(jié)果。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明旨在針對上述現(xiàn)有技術(shù)所存在的缺陷和不足，提供一種基于KNN分類的優(yōu)化方法，本方法對每個類別增加一個額外的偏置參數(shù)，從而能達(dá)到提高分類準(zhǔn)確率的目的。

本發(fā)明是通過采用下述技術(shù)方案實(shí)現(xiàn)的：

一種基于KNN的分類優(yōu)化方法，其特征在于：在傳統(tǒng)KNN分類方法基礎(chǔ)上，對每個類別引入一個偏置參數(shù) 對最大相似度進(jìn)行調(diào)整，并通過學(xué)習(xí)算法從訓(xùn)練樣本對偏置參數(shù)進(jìn)行修正。

包括訓(xùn)練過程和分類過程，具體如下：

已知有訓(xùn)練集，待分類數(shù)據(jù)集；

A、訓(xùn)練過程，即學(xué)習(xí)偏置參數(shù);

1)初始化所有偏置參數(shù)；

2)對訓(xùn)練集中的每一個樣本利用公式（1）和（2）對其進(jìn)行分類；

（1）

（2）

其中，表示與未知樣本最鄰近的個樣本；表示第類；表示第類對應(yīng)的偏置參數(shù)，為類別總數(shù)；

2.1)若分類正確，參數(shù)不作修改；

2.2)若分類錯誤，例如，類中的數(shù)據(jù)誤分到了類中，則減小，增大，如公式（3）和（4）所示：

（3）

（4）

其中，參數(shù)增大或減小的步長可根據(jù)實(shí)際情況自行設(shè)置；

3)重復(fù)步驟2)，直到循環(huán)次數(shù)大于閾值或分類正確率的提升小于給定的閾值；

B. 分類過程

把學(xué)習(xí)得到的偏置參數(shù)帶入公式（1），并應(yīng)用于未知樣本的分類中。

與現(xiàn)有技術(shù)相比，本發(fā)明所達(dá)到的有益效果如下：

1、保留了KNN分類方法的線性特點(diǎn)，易于理解和實(shí)現(xiàn)；

2、提高了KNN分類方法的正確率；

3、本發(fā)明適用范圍廣，尤其適用于樣本容量不均勻的數(shù)據(jù)集。

附圖說明

下面將結(jié)合說明書附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步的詳細(xì)說明，其中：

圖1為KNN改進(jìn)方法流程圖。

具體實(shí)施方式

本發(fā)明的主要目的在于對KNN分類方法的改進(jìn)，彌補(bǔ)原始KNN分類方法的不足，提高分類準(zhǔn)確率。原始KNN分類方法主要采用相似度度量，分類依據(jù)為前K個樣本中各類別的最大相似度，即

（5）

（6）

其中，表示與未知樣本最鄰近的個樣本；表示第類；為類別總數(shù)；

KNN原始分類過程具體如下：

計(jì)算待分類數(shù)據(jù)與每個類的相似度，選用合適的參數(shù)，利用公式（5）和（6）對未知樣本進(jìn)行分類。

KNN原始分類方法在樣本不平衡時(shí)，如一個類的樣本容量很大，而其他類樣本容量很小時(shí)，有可能導(dǎo)致當(dāng)輸入一個新樣本時(shí)，該樣本的個鄰居中大容量類的樣本占多數(shù)，從而影響分類結(jié)果。本發(fā)明在KNN原始分類方法的基礎(chǔ)上進(jìn)行改進(jìn)，對每個類增加一個偏置參數(shù)對相似性計(jì)算進(jìn)行調(diào)整，若在訓(xùn)練過程中分類錯誤則調(diào)整相應(yīng)類別偏置參數(shù)，影響最終分類結(jié)果，從而達(dá)到優(yōu)化KNN分類方法的效果。

本方法工作過程主要包括訓(xùn)練過程和分類過程，具體如下：

已知有訓(xùn)練集，待分類數(shù)據(jù)集；

A、訓(xùn)練過程，即學(xué)習(xí)偏置參數(shù);

1)初始化所有偏置參數(shù)；

2)對訓(xùn)練集中的每一個樣本利用公式（1）和（2）對其進(jìn)行分類；

（1）

（2）

其中，表示與未知樣本最鄰近的個樣本；表示第類；表示第類對應(yīng)的偏置參數(shù)，為類別總數(shù)；

2.1)若分類正確，參數(shù)不作修改；

2.2)若分類錯誤，例如，類中的數(shù)據(jù)誤分到了類中，則減小，增大，如公式（3）和（4）所示：

（3）

（4）

其中，參數(shù)增大或減小的步長可根據(jù)實(shí)際情況自行設(shè)置；

3)重復(fù)步驟2)，直到循環(huán)次數(shù)大于閾值或分類正確率的提升小于給定的閾值；

B. 分類過程

把學(xué)習(xí)得到的偏置參數(shù)帶入公式（1），并應(yīng)用于未知樣本的分類中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉川;汪文勇;茍玲
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：辦公設(shè)備及電腦的制作方法與工藝
上一篇：一體式鍵盤電腦的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于KNN分類的優(yōu)化方法與流程