欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于svm主動學習的多標簽分類控制方法

文檔序號:6429517閱讀:382來源:國知局
專利名稱:一種基于svm主動學習的多標簽分類控制方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種多標簽分類方法。
背景技術(shù)
信息時代的到來,使得大量信息開始以計算機可讀的形式存在,并且數(shù)量急劇增加。但是這些信息魚龍混雜,很多有意義的數(shù)據(jù)都被大量的垃圾信息所淹沒,如何從這些信息中自動分類出有用的信息將是一個重要的課題。在傳統(tǒng)的分類問題中,都是假定一個樣本只屬于一個類標簽。但是由于客觀事物本身的復雜性,一個樣本可以同時擁有多個標簽。在所有的多標簽學習框架中,每個樣本與一個標簽集合相關(guān)聯(lián),多標簽學習的任務(wù)就是要為未知樣本預(yù)測其標簽集,且標簽集的大小是未知的。監(jiān)督的學習方法在分類領(lǐng)域得到了廣泛的應(yīng)用,但要想在這種方法下得到一個比較滿意的分類模型則需要大量的訓練數(shù)據(jù)。而構(gòu)造多標簽訓練樣本集則需要耗費領(lǐng)域?qū)<揖薮蟮墓ぷ髁俊M瑫r,訓練樣本過多將使得學習過程變慢,甚至變得難以接受,而主動學習能有效的克服這兩個瓶頸。它根據(jù)現(xiàn)有的分類模型,采用某種樣本選擇策略,迭代的選擇一些最有價值的樣本進行標記,能最快的改進現(xiàn)有模型的分類性能。支持向量機(SVM Support Vector Machine)是在上世紀90年代以來逐漸被人們廣泛應(yīng)用的一種統(tǒng)計學習方法,是一種基于統(tǒng)計學習理論的新型的分類技術(shù)。支持向量機最突出的優(yōu)點在于它強大的推廣能力,在解決小樣本、非線性和高維等模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,是一種可以進行累積學習的學習模型。目前,關(guān)于SVM主動學習的多標簽分類技術(shù)還比較少,主要關(guān)注點還停留在單標簽的主動學習上。據(jù)了解,國內(nèi)最新且最有價值的關(guān)于多標簽的研究就是楊碧姍的文章,先估計樣本在每個標簽上的后驗概率并排序,接著利用邏輯回歸預(yù)測標簽的數(shù)目,然后近似的確定樣本標簽,據(jù)此來構(gòu)造損失函數(shù)并作為樣本的選擇策略。而國內(nèi)其他文章幾乎都是針對多類的研究。比如袁勛等利用每個類別的后驗概率構(gòu)造樣本置信度,以此作為樣本選擇依據(jù),宋鑫穎等通過減少非支持向量來保證訓練速度。國外最早使用SVM方法來解決多標簽主動學習的是Xuchim Li,他利用在相鄰兩個循環(huán)中期望損失下降的程度作為分類器改進的標志。使用了最大平均損失值和最大損失值兩種計算方法。Brinker利用的選擇策略是依據(jù)所有二分類支持向量機的輸出絕對值的最小值,以期能夠最大限度的約簡版本空間。由于不同的分類器間輸出的值不具有直接可比性,所以Mohan Singh等提出了一種利用后驗概率來選擇樣本的方法。

發(fā)明內(nèi)容
為了克服已有的多標簽分類方法的計算速度較慢、主動學習效果較差的不足,本發(fā)明提供一種計算速度快、模型合理、主動學習效果較好的基于SVM主動學習的多標簽分類控制方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種基于SVM主動學習的多標簽分類控制方法,所述多標簽分類控制方法包括以下步驟1)選擇樣本,過程如下1. 1)首先確定兩條邊界線之間的距離在高維空間中的分類間隔;1. 2)對每個未知樣本計算其決策值將未知樣本代入分類器,計算在高維空間中離分隔線間的距離;1. 3)計算每個樣本所對應(yīng)的后驗概率值,包括正類的概率和負類的概率,分別表示為 P(y = Ι|χ)和 P(y = -Ι|χ);1.4)根據(jù)期望間隔公式計算期望間隔的大小,若樣本估計為正類時,則對應(yīng)的間隔為Margin+ + /(χ),若樣本估計為負類的時候,則對應(yīng)的間隔為
,. .-Margin Margin ^---f(x).1.5)對某個特定的未知樣本,其對應(yīng)的期望間隔由下述公式計算得到& = Margin+*P (y = 11 χ) +Margin>P (y = -11 χ);1. 6)確定好樣本選擇標準后,使用如下公式來選擇最有價值的樣本晉瓜/風.1^.^)(1);2)確定樣本后,設(shè)定未帶類別標注的候選樣本集U、帶類別標注的測試集L、每次從U中選取固定的樣本數(shù)和主動學習循環(huán)的次數(shù),分類過程如下2. 1)從候選樣本集U中選擇η個樣本并正確標注其類標號,構(gòu)造初始訓練樣本集 Τ,保證T中每個類別各有一個樣本;2. 2)根據(jù)訓練集Τ,構(gòu)造SVM分類器f ;2. 3)對U中所有樣本使用當前分類器f進行計算,求得其決策值;2. 4)依據(jù)f值和sigmoid函數(shù)求得樣本屬于正類和負類的后驗概率值;2. 5)根據(jù)后驗概率和決策值,利用期望間隔公式求得期望間隔的大小;2. 6)依據(jù)公式(1)的標準從樣本集U中選擇額定數(shù)目的樣本;2. 7)將步驟2. 6)所選擇的樣本集正確標注后加入到訓練集T中,同時從U中舍去此樣本集;2. 8)若檢測循環(huán)達到預(yù)定次數(shù)時,分類終止,并返回分類器f,否則重復步驟 2. 2)。本發(fā)明的技術(shù)構(gòu)思為基于SVM分類器的構(gòu)建就是尋求最大化分類間隔,因此在樣本較少的情況下自然會使得樣本間的間隔擴大化了,而且會遠遠大于實際間隔,從而導致了分類器在預(yù)測過程中會做出錯誤的判斷。我們需要找到某種方法來盡快的縮減樣本間的間隔大小。為此本發(fā)明提出了一種基于期望間隔大小選擇策略的主動學習方法,依據(jù)當前樣本集,能夠迅速的縮小分類間隔,以求盡快的提高分類性能。根據(jù)

圖1,我們對本發(fā)明的原理進行闡述當所選擇的未知樣本為正類的時候(圖中空心圓),超平面將會向負類方向移動,由原支持向量所確定的分類間隔的正邊界線可以由圖1中的f(X) = 1近似為到 f' (x) = 1,超平面也由Sl近似成S2,而負邊線的位置卻不會有太大的改變,由此分類間隔可近似為
權(quán)利要求
1. 一種基于SVM主動學習的多標簽分類控制方法,其特征在于所述多標簽分類控制方法包括以下步驟(1)選擇樣本,過程如下(1.1)首先確定兩條邊界線之間的距離在高維空間中的分類間隔; 1. 2)對每個未知樣本計算其決策值將未知樣本代入分類器,計算在高維空間中離分隔線間的距離;(1.3)計算每個樣本所對應(yīng)的后驗概率值,包括正類的概率和負類的概率,分別表示為 P(y = Ι|χ)和 P(y = -l|x);(1.4)根據(jù)期望間隔公式計算期望間隔的大小,若樣本估計為正類時,則對應(yīng)的間隔為Margin+ + /(χ),若樣本估計為負類的時候,則對應(yīng)的間隔為
全文摘要
一種基于SVM主動學習的多標簽分類控制方法,包括以下步驟1)選擇樣本,過程如下首先確定兩條邊界線之間的距離,對每個未知樣本計算其決策值,計算每個樣本所對應(yīng)的后驗概率值,包括正類的概率和負類的概率;根據(jù)期望間隔公式計算期望間隔的大??;對某個特定的未知樣本,計算其期望間隔;確定好樣本選擇標準后,使用如下公式來選擇最有價值的樣本2)確定樣本后進行分類,未帶類別標注的候選樣本集U;帶類別標注的測試集L;每次從U中選取固定的樣本數(shù);主動學習循環(huán)的次數(shù)。本發(fā)明計算速度快、模型合理、主動學習效果較好。
文檔編號G06K9/62GK102270192SQ20111021178
公開日2011年12月7日 申請日期2011年7月27日 優(yōu)先權(quán)日2011年7月27日
發(fā)明者何熊熊, 劉端陽, 邱衛(wèi)杰 申請人:浙江工業(yè)大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
长治市| 无为县| 即墨市| 金门县| 利川市| 菏泽市| 扶沟县| 苗栗县| 陆良县| 友谊县| 惠安县| 鹤山市| 隆化县| 平乐县| 兰西县| 开远市| 鸡东县| 澄迈县| 澜沧| 扶沟县| 会理县| 太仓市| 确山县| 铜鼓县| 石林| 乐亭县| 佛冈县| 富民县| 临泉县| 宁城县| 阿图什市| 巴林右旗| 阿合奇县| 孟津县| 汉寿县| 荔波县| 昭通市| 晴隆县| 丰原市| 黄陵县| 嘉荫县|