基于互信息的用于文檔分類(lèi)的并行特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種文檔分類(lèi)特征的選擇方法,更具體的說(shuō),尤其設(shè)及一種基于互信 息的用于文檔分類(lèi)的并行特征選擇方法。
【背景技術(shù)】
[0002] 自動(dòng)文本分類(lèi)是數(shù)據(jù)分析中特別具有挑戰(zhàn)性的任務(wù),不論是在理論還是實(shí)踐方 面,已成功應(yīng)用于很多領(lǐng)域,如圖書(shū)館文獻(xiàn)、新聞報(bào)紙分類(lèi)、主題檢測(cè)、垃圾郵件過(guò)濾、作者 識(shí)別、網(wǎng)頁(yè)分類(lèi)等。隨著信息技術(shù)的發(fā)展,在很多領(lǐng)域中,數(shù)據(jù)不論是在規(guī)模還是維度上都 變得越來(lái)越大,運(yùn)需要花費(fèi)更多的時(shí)間和空間。對(duì)于文本分類(lèi),特征選擇是實(shí)現(xiàn)高效文本分 類(lèi)而又不影響準(zhǔn)確率的一項(xiàng)重要手段。特征選擇是降維、去除不相關(guān)數(shù)據(jù)、提高學(xué)習(xí)精度、 提高結(jié)果可理解性的關(guān)鍵技術(shù),是直接影響文檔分類(lèi)的準(zhǔn)確率的重要工作,特征選擇主要 有兩個(gè)主要目的,首先,特征選擇使分類(lèi)更有效通過(guò)降低有效詞組的大小,其次,分類(lèi)準(zhǔn)確 率通常通過(guò)噪音特征去除而提高。有很多特征選擇方法,如基于統(tǒng)計(jì)的詞頻法燈巧、詞頻逆 文檔頻率燈F-ID巧法、卡方、信息增益(IG)、文檔頻次值巧和互信息法(MI)等,DF和TF 主要注重文檔和詞頻,運(yùn)兩種方法是無(wú)監(jiān)督方法,在不考慮類(lèi)分布的情況下刪除低頻詞,互 信息、卡方、信息增益?zhèn)戎赜诜治鎏卣髋c類(lèi)之間的關(guān)系,有些時(shí)候運(yùn)些方法會(huì)對(duì)低頻詞產(chǎn)生 偏差,而實(shí)際上很多低頻詞是噪音,只有一些對(duì)于分類(lèi)提供有價(jià)值信息。
[0003] 現(xiàn)有的用于分類(lèi)的特征選擇的方法有基于群體優(yōu)化與信息增益混合的方法,W及 基于概率的特征選擇方法,所有特征選擇方法最終目的都是為了提高分類(lèi)效率和準(zhǔn)確率, 但如何設(shè)計(jì)一個(gè)合適的特征選擇方法仍然是個(gè)具有挑戰(zhàn)性的問(wèn)題。為解決運(yùn)個(gè)問(wèn)題,本文 提出了一種TF-IDF與互信息相結(jié)合的特征選擇方法,首先,計(jì)算文檔的TF-IDF值,生成文 檔的詞向量,每個(gè)詞的TF-IDF概率分布通過(guò)極大似然法進(jìn)行估計(jì)。然后,聯(lián)合互信息被用 來(lái)度量特征和類(lèi)之間的關(guān)系。
[0004] 隨著電子計(jì)算機(jī)技術(shù)的發(fā)展,電子數(shù)據(jù)量呈指數(shù)發(fā)展,特征選擇的計(jì)算量也隨之 顯著增加,當(dāng)數(shù)據(jù)量很大時(shí),傳統(tǒng)的基于串行編程的特征選擇方法已不適用,因此,基于并 行算法的特征選擇方法將是處理大規(guī)模數(shù)據(jù)的合理選擇。并行算法通過(guò)不同的并行化技術(shù) 來(lái)實(shí)現(xiàn),如多線(xiàn)程、MPI、MapRe化ce、工作流技術(shù)等,不同的并行化技術(shù)會(huì)有不同的性能和使 用特征,據(jù)了解,化doop是最流行的開(kāi)源MapRe化ce平臺(tái),但化doop運(yùn)種MapRe化ce架構(gòu) 不支持迭代的Map和Re化ce任務(wù),而很多機(jī)器學(xué)習(xí)算法需要運(yùn)種迭代。為解決運(yùn)個(gè)問(wèn)題, 一些迭代MapReduce架構(gòu)被提出來(lái),如Twister,Spark等。 陽(yáng)〇化]已有一些基于并行化技術(shù)的研究工作來(lái)提高處理速度,一種并行協(xié)同進(jìn)化遺傳算 法被提出來(lái)解決大規(guī)模特征選擇問(wèn)題,提出了一種基于MapRe化ce的并行粗糖集算法,基 于互信息的并行特征選擇方法被提出,運(yùn)種方法只能處理離散變量的問(wèn)題,而在文本分類(lèi) 中,詞的TF-IDF值通常被認(rèn)為是連續(xù)變量,如何處理大規(guī)模連續(xù)變量的特征選擇是具有挑 戰(zhàn)性的問(wèn)題。本文提出了一種處理大規(guī)模連續(xù)變量特征選擇的并行方法,在該方法中,基于 瑞利賭的互信息被用來(lái)度量特征與類(lèi)之間的相關(guān)性。詞變量的分布被認(rèn)為服從正態(tài)分布, 多個(gè)詞變量的聯(lián)合分布被認(rèn)為服從多變量正態(tài)分布,該特征選擇方法基于貪婪法。
[0006] 經(jīng)過(guò)特征選擇,選擇的特征被用來(lái)構(gòu)建一個(gè)文檔分類(lèi)器。很多分類(lèi)器用于文檔分 類(lèi),如KNN,樸素貝葉斯、Ad油oost、支持向量機(jī)等。支持向量機(jī)被認(rèn)為是最有效的文本分 類(lèi)器之一,但支持向量機(jī)所需計(jì)算和存儲(chǔ)資源會(huì)隨著訓(xùn)練樣本量的增多而快速增加,因此, 很多實(shí)際問(wèn)題不能夠用支持向量機(jī)進(jìn)行處理。為提高支持向量機(jī)的訓(xùn)練速度,一種基于 MapRe化ce的并行支持向量機(jī)模型,本文將用該模型進(jìn)行文本分類(lèi)。該方法的有效性將通過(guò) 案例分析予W驗(yàn)證。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明為了克服上述技術(shù)問(wèn)題的缺點(diǎn),提供了一種基于互信息的用于文檔分類(lèi)的 并行特征選擇方法。
[0008] 本發(fā)明的基于互信息的用于文檔分類(lèi)的并行特征選擇方法,其特別之處在 于,通過(guò)W下步驟來(lái)實(shí)現(xiàn):a).選取樣本并分類(lèi),選取N篇文檔,形成訓(xùn)練樣本集合D= (山d2, . . .,cU,di為選取的單篇文檔;采用人工劃分的方式每個(gè)文檔進(jìn)行分類(lèi),形成類(lèi)變 量集合0 = ¥={〇1,〇2,...,〇。},文檔(11的種類(lèi)必屬于類(lèi)變量集合0;6).求解詞的1尸-10尸 值,TF-IDF是詞頻tf(t,d)和逆文檔頻率idf(t,D)的乘積,對(duì)于每個(gè)文檔中的每個(gè)詞計(jì)算 求解其TF-IDF值;在所有文檔中如果某個(gè)詞的TF-IDF值都小于臨界值m,則該詞屬于低頻 詞,將其忽落掉;C).生成初始化數(shù)據(jù)集合,W每個(gè)文檔中詞的TF-IDF值為向量,組成初始 化數(shù)據(jù)集合D= 1x1,而,...,%},為文檔i中所有被選中詞的TF-IDF值所組成的向量; d).分布式計(jì)算,將數(shù)據(jù)集合D= 1x1,X2,. . .,xj平均分成n個(gè)子數(shù)據(jù)集化,〇2,…,D。,然后 將所有子數(shù)據(jù)集平均分布到m個(gè)計(jì)算節(jié)點(diǎn)上,W確保較高的計(jì)算速度;設(shè)要選擇出數(shù)目為 k的詞變量集合;e).建立集合,假設(shè)S和V為兩個(gè)集合,設(shè)S=巫,V=找1,X2,. . .,Xm}, S表示已被選擇的特征,V表示沒(méi)被選擇的特征;f).計(jì)算聯(lián)合、條件概率分布,對(duì)于每個(gè) 沒(méi)有被選中的詞變量Xi,計(jì)算聯(lián)合概率分布P(怯,Xi})和條件概率分布函數(shù)P(怯,Xi}ICj), iG(l,2,...,M},jG{l,2,...,p} ;paS,Xi})表示某一文檔中待判斷的特征變量Xi與已 選中的特征詞集合S之間的聯(lián)合概率分布;g).計(jì)算互信息,通過(guò)公式(1)計(jì)算怯,XJ與類(lèi) 變量Y之間的互信息I(怯,Xil;Y),
[0009] I({S,XJ;Y) =H({S,XJ)+H(Y)-H({S,XJ,Y) (1)
[0010] 其中,iG{1,2,...,M};每個(gè)計(jì)算節(jié)點(diǎn)計(jì)算完畢后,本次計(jì)算中使互信息 iaS,Xi} ;Y)具有最大值的特征變量Xi作為選中詞;h).選取特征變量,統(tǒng)計(jì)每個(gè)計(jì)算節(jié)點(diǎn) 所返回的特征變量Xi和相應(yīng)的互信息,被選中次數(shù)最多的詞Xi作為本次計(jì)算所要選擇的特 征變量;如果兩個(gè)變量被選中的次數(shù)一樣多,則選擇互信息值的和最大的特征變量作為計(jì) 算所要選擇的特征變量;把本次計(jì)算中選取的詞變量Xi從集合V中去除,將其增添至集合 S中,執(zhí)行步驟i) ;i).判斷數(shù)量是否已夠,判斷集合S中所選取的特征變量的數(shù)目是否達(dá) 到了設(shè)定的k個(gè),如果達(dá)到,則停止運(yùn)算;如果沒(méi)有達(dá)到,則跳轉(zhuǎn)至步驟f),繼續(xù)進(jìn)行特征變 量的選?。籮).文本分類(lèi),利用所選取的k個(gè)特征變量作為支持向量機(jī)的輸入對(duì)文本進(jìn)行分 類(lèi),具有很高的準(zhǔn)確率。
[0011] 本發(fā)明的基于互信息的用于文檔分類(lèi)的并行特征選擇方法,步驟b)中TF-IDF值 的求取通過(guò)W下步驟來(lái)實(shí)現(xiàn):
[0012] TF-IDF是詞頻tf(t,d)和逆文檔頻率i壯(t,D)的乘積,詞頻利用詞t在文檔d中 出現(xiàn)的頻率進(jìn)行計(jì)算,其通過(guò)公式(2)進(jìn)行求?。?br>[0013]
C 2)
[0014] 逆文檔頻率是該詞提供信息的測(cè)度,某一特定詞的i壯(t,D)由總文檔數(shù)目除W 包含該詞語(yǔ)之文檔的數(shù)目,再將得到的商取對(duì)數(shù)得到,其通過(guò)公式(3)進(jìn)行求?。?br>[0015]
結(jié))
[0016] 其中,N是文檔總數(shù),IdGD:tGd|是出現(xiàn)詞t的文檔數(shù):
[0017]TF-IDF的值tfi壯(t,d,D)通過(guò)公式(4)進(jìn)行求?。?br>[0018] tfidf(t,d,D) =tf(t,d)Xidf(t,D) (4)。
[0019] 本發(fā)明的基于互信息的用于文檔分類(lèi)的并行特征選擇方法,步驟f)中所述的聯(lián) 合概率分布和條件概率分布通過(guò)W下步驟來(lái)實(shí)現(xiàn):
[0020]f-1).假設(shè)一組訓(xùn)練文檔樣本用(Xi,Ci)表示,i=1,2,…,N,Xi是文檔中所有 TF-IDF值組成的向量,其中每個(gè)文檔的向量值和對(duì)應(yīng)的類(lèi)變量值都已知,通過(guò)公式(5)計(jì) 算概率分布函數(shù):
[0021]
(5)
[0022] 其中,參數(shù)y和X的極大似然估計(jì)分別通過(guò)公式(6)和公式(7)進(jìn)行求?。?br>[00對(duì)f-2).最初的數(shù)據(jù)集合被分成q部分,每部分的大小為N,,它滿(mǎn)巧
類(lèi)C= C,的概率分布函數(shù)為:
[0026]
[0027]f-3).離散類(lèi)變量的概率分布函數(shù)通過(guò)統(tǒng)計(jì)方法計(jì)算,即:
[0028]
[0029] f-4).X和C=C,的聯(lián)合概率分布函數(shù)為:
[0030]
[0031] 將變量怯,XJ代入公式(10)和(8)即可求取聯(lián)合概率分布函數(shù)和條件概率分布 函數(shù)。
[0032] 本發(fā)明的基于互信息的用于文檔分類(lèi)的并行特征選擇方法,步驟g)中所述的互 信息ias,Xi} ;Y)通過(guò)W下方法來(lái)求取: 陽(yáng)03引特征變量X和類(lèi)變量C之間的互信息可根據(jù)公式I狂;C)=H佩+H似-H化C)中, 特征變量X的二次賭H狂)、類(lèi)變量C的二次賭H(C)、特征變量X與類(lèi)變量C的聯(lián)合賭分別 通過(guò)公式(11)、(12)和(13)進(jìn)行求?。?br>[0037] 將特征變量怯,XJ和類(lèi)變量Y代入公式(11)、(12)和(13)中,即可求出公式(1) 中的H(怯,Xi})、H燈)