一種半監(jiān)督的最小最大模塊化模式分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種半監(jiān)督的最小最大模塊化模式分類方法,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002] 在現(xiàn)實(shí)生活中,各行各業(yè)的數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心 (Internet Data Center,簡稱IDC)的統(tǒng)計(jì),全球的數(shù)據(jù)總量每年以40%~60%的速度增 長,預(yù)計(jì)到2020年,全球的數(shù)據(jù)總量將達(dá)到35ZB (1021字節(jié))。數(shù)據(jù)的價(jià)值不言而喻,如何 有效地利用這些數(shù)據(jù)引起了眾多研宄者們的關(guān)注。
[0003] 1999年呂寶糧教授在《基于類別關(guān)系的任務(wù)分解和模塊結(jié)合:一種用于模式分類 的模塊化網(wǎng)絡(luò)》一文中提出了最小最大模塊化網(wǎng)絡(luò)(Min-Max Modular Neural Network,簡 稱M3網(wǎng)絡(luò)),其出發(fā)點(diǎn)是為了解決大規(guī)模復(fù)雜數(shù)據(jù)分類難的問題,核心是采用分治法的思 想將大規(guī)模數(shù)據(jù)分解成若干個(gè)小而簡單的模塊來處理以便降低原始問題的復(fù)雜度,并且各 個(gè)子模塊之間是相互獨(dú)立的,在運(yùn)行過程中模塊之間不需要建立任何通信,便于實(shí)際任務(wù) 的并行化操作。最后通過Min-Max規(guī)則組合每個(gè)模塊的預(yù)測結(jié)果得到原始問題的解。
[0004] 目前M3網(wǎng)絡(luò)只是一種監(jiān)督式的學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)(Supervised Learning) 是指樣本所屬的類別是已知的,目標(biāo)是根據(jù)給定的一個(gè)訓(xùn)練樣本集S = , 尤=,e 尋找樣本Χι與標(biāo)記γ之間的映射關(guān)系,并通過新的測試樣本測 試該映射關(guān)系的優(yōu)劣。監(jiān)督學(xué)習(xí)要求所有訓(xùn)練樣本的類別必須是已知的,而且它需要大量 有標(biāo)記的樣本才能獲得高效的泛化性能。而現(xiàn)實(shí)問題中有標(biāo)記樣本和未標(biāo)記樣本通常是并 存的,獲得有標(biāo)記樣本需要花費(fèi)大量的勞力,甚至需要某領(lǐng)域的專業(yè)知識(shí)作為支撐,而未標(biāo) 記樣本唾手可得。非監(jiān)督學(xué)習(xí)(Unsupervised Learning)通常是利用這些未標(biāo)記樣本之間 的內(nèi)在聯(lián)系構(gòu)建不同的學(xué)習(xí)模型,其與監(jiān)督學(xué)習(xí)的一個(gè)本質(zhì)的不同點(diǎn)是樣本所屬的類別是 未知的,它無法直接獲得樣本X 1與標(biāo)記Y 間的映射關(guān)系。鑒于二者的不足,一些研宄者 們提出了半監(jiān)督學(xué)習(xí)方法。
[0005] 生成式半監(jiān)督學(xué)習(xí)(formative Semi-Supervised Learning,簡稱 fSSL)是半監(jiān) 督學(xué)習(xí)的一種。生成式半監(jiān)督學(xué)習(xí)表示為:訓(xùn)練樣本集合S' ={X/,x2',...,&' }, 4 = e M 、其中D表不原始有標(biāo)記樣本的特征個(gè) 數(shù),K"表示隱藏變量的個(gè)數(shù)。很明顯,用于描述樣本的特征數(shù)量逐漸增多,但訓(xùn)練樣本的數(shù) 量保持不變。而本發(fā)明能夠很好地解決上面的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明目的在于解決了大規(guī)模樣本標(biāo)記需要花費(fèi)大量人力和物力的問題和解決 了非監(jiān)督學(xué)習(xí)中存在的學(xué)習(xí)不穩(wěn)定的問題和現(xiàn)有M3網(wǎng)絡(luò)只能用于有監(jiān)督學(xué)習(xí)的問題,提 出了一種半監(jiān)督的最小最大模塊化模式分類方法,該方法包括:(1)根據(jù)M3網(wǎng)絡(luò)的任務(wù)劃 分原則劃分有標(biāo)記樣本集,同時(shí)將未標(biāo)記樣本集劃分相同的塊數(shù),并將未標(biāo)記樣本子集加 入到有標(biāo)記樣本子集中;(2)利用相似性矩陣作為數(shù)據(jù)模型將有標(biāo)記樣本與未標(biāo)記樣本緊 密相連;(3)在相似性矩陣中應(yīng)用概率潛在語義分析(簡稱:PLSA)模型獲得有標(biāo)記樣本與 未標(biāo)記樣本之間的隱藏變量;(4)利用標(biāo)記樣本與隱藏變量的后驗(yàn)概率作為有標(biāo)記樣本的 新的特征,測試樣本與隱藏變量的后驗(yàn)概率作為有標(biāo)記樣本的新的特征;(5)利用Min-Max 規(guī)則對(duì)基分類器的結(jié)果進(jìn)行整合得到原始二類問題的解。
[0007] 本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:一種半監(jiān)督的最小最大模塊化模式 分類方法,該方法結(jié)合半監(jiān)督學(xué)習(xí)思想的M3網(wǎng)絡(luò),將半監(jiān)督學(xué)習(xí)與M3網(wǎng)絡(luò)相結(jié)合,既增強(qiáng) 了原始M3網(wǎng)絡(luò)的學(xué)習(xí)性能,又有效利用了大量存在的未標(biāo)記樣本。
[0008] 方法流程:
[0009] 本發(fā)明按選定的劃分方法將有標(biāo)記樣本集和未標(biāo)記樣本集劃分成樣本子集,并按 子集中心點(diǎn)距離最遠(yuǎn)策略將未標(biāo)記樣本子集無重復(fù)的添加到有標(biāo)記樣本子集中,從而組成 訓(xùn)練子集。針對(duì)每個(gè)訓(xùn)練子集,利用概率潛在語義分析PLSA方法求取決定生成有標(biāo)記樣本 和未標(biāo)記樣本的數(shù)據(jù)模型生成過程的隱藏變量,并將隱藏變量與有標(biāo)記樣本的后驗(yàn)概率作 為有標(biāo)記樣本的新特征。該方法主要利用添加特征后的有標(biāo)記樣本訓(xùn)練分類器。針對(duì)測試 樣本,同樣以隱藏變量與測試樣本的后驗(yàn)概率作為新特征,并用訓(xùn)練階段得到的分類器為 其預(yù)測標(biāo)簽。最后運(yùn)用Min-Max規(guī)則對(duì)基分類器的結(jié)果進(jìn)行整合得到原始二類問題的解, 具體步驟包括如下:
[0010] 步驟1 :數(shù)據(jù)劃分。
[0011] 將原始的有標(biāo)記樣本集&依據(jù)M3網(wǎng)絡(luò)的任務(wù)劃分原則按超平面劃分方法劃分成
【主權(quán)項(xiàng)】
1. 一種半監(jiān)督的最小最大模塊化模式分類方法,其特征在于,所述方法向M3網(wǎng)絡(luò)任務(wù) 分解階段得到的有標(biāo)記樣本子集中加入未標(biāo)記樣本,利用數(shù)據(jù)生成模型的隱藏變量來銜接 有標(biāo)記樣本與未標(biāo)記樣本,并將隱藏變量與有標(biāo)記樣本的后驗(yàn)概率作為有標(biāo)記樣本的新特 征,然后利用Min-Max集成規(guī)則得到原始問題的解,包括如下步驟: 步驟1 :數(shù)據(jù)劃分; 根據(jù)M3網(wǎng)絡(luò)的任務(wù)分解原則將原始的有標(biāo)記樣本集劃分;同時(shí)也將未標(biāo)記樣本集進(jìn) 行等分,其樣本子集的個(gè)數(shù)與有標(biāo)記樣本子集的個(gè)數(shù)相同; 步驟2 :未標(biāo)記樣本子集的分配; 將未標(biāo)記樣本子集依據(jù)子集中心點(diǎn)距離最遠(yuǎn)的原則無重復(fù)地添加到二類有標(biāo)記樣本 子集中;此時(shí),每個(gè)獨(dú)立的訓(xùn)練樣本子集中包含兩部分,一部分是有標(biāo)記二類樣本子集,另 一部分是未標(biāo)記樣本子集; 步驟3 :隱藏特征生成; 對(duì)于每個(gè)訓(xùn)練子集,假定其中的有標(biāo)記樣本與未標(biāo)記樣本都由同一生成式模型產(chǎn)生, 且有標(biāo)記樣本和未標(biāo)記樣本的產(chǎn)生過程由隱藏變量zk決定;利用概率潛在語義分析PLSA 方法求解隱藏變量,將求解得的隱藏變量和有標(biāo)記樣本的后驗(yàn)概率作為該有標(biāo)記樣本的新 特征;在添加新特征后的有標(biāo)記樣本子集上訓(xùn)練分類器; 步驟4 :測試樣本的特征空間轉(zhuǎn)換; 訓(xùn)練樣本的特征空間若已改變,測試樣本特征空間也應(yīng)映射到與訓(xùn)練樣本相同的特征 空間中,通過提取每個(gè)測試樣本在訓(xùn)練子集中的最近鄰的η個(gè)有標(biāo)記樣本,估計(jì)出隱藏變 量與測試樣本的后驗(yàn)概率值作為測試樣本的新特征; 步驟5 :模塊化集成; 用訓(xùn)練階段得到的分類器為測試樣本預(yù)測標(biāo)簽,使用Min-Max規(guī)則將所有基分類器的 預(yù)測結(jié)果進(jìn)行集成以得到原始問題的解。
2. 根據(jù)權(quán)利要求1所述的一種半監(jiān)督的最小最大模塊化模式分類方法,其特征在于: 所述方法將M3網(wǎng)絡(luò)和半監(jiān)督學(xué)習(xí)結(jié)合,包括如下步驟: 步驟1 :數(shù)據(jù)劃分; 將原始的有標(biāo)記樣本集&依據(jù)M3網(wǎng)絡(luò)的樣本劃