專利名稱:文本分類方法和裝置及文本分類的特征處理方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種文本分類方法和裝置及文本分類的特征處理方法和裝置。
背景技術(shù):
機器學(xué)習(xí)算法依靠提取有效的特征數(shù)據(jù)才能得到的一個好的學(xué)習(xí)效果,如何提取有效特征及避免噪音特征的干擾是提高機器學(xué)習(xí)效果的重要途徑。目前,在獲取機器學(xué)習(xí)的學(xué)習(xí)特征時,常常將所有詞作為特征,使得特征庫龐大,從而在機器學(xué)習(xí)時占用內(nèi)存巨大,而且夾雜很多噪音特征,文本分類效果差。為了去除噪音特征,將停用詞刪除后的詞作為特征,但是只能夠在一定程度消除噪音特征,并且特征庫仍然較大,從而在機器學(xué)習(xí)時占用內(nèi)存仍然較大,由于噪音特征流入,文本分類效果沒有得到較大的改善。針對相關(guān)技術(shù)中文本分類的特征庫大,導(dǎo)致機器學(xué)習(xí)時占用內(nèi)存大的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請的主要目的在于提供一種文本分類方法和裝置及文本分類的特征處理方法和裝置,以解決文本分類的特征庫大,導(dǎo)致機器學(xué)習(xí)時占用內(nèi)存大的問題。為了實現(xiàn)上述目的,根據(jù)本申請的一個方面,提供了一種文本分類的特征處理方法。根據(jù)本申請的文本分類的特征處理方法包括:獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,特征集合包括多 個特征詞;計算每個特征詞在所有分類類別中的信息增益值之和;以及提取特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使用于文本分類的學(xué)習(xí)特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應(yīng)的信息增益值之和大于未提取的特征詞對應(yīng)的信息增益值之和。為了實現(xiàn)上述目的,根據(jù)本申請的另一方面,提供了一種文本分類方法。根據(jù)本申請的文本分類方法包括:采用本申請?zhí)峁┑娜我庖环N文本分類的特征處理方法進行特征提取,得到用于文本分類的學(xué)習(xí)特征;對學(xué)習(xí)特征進行訓(xùn)練,得到分類模型;以及采用分類模型對待分類文本進行文本分類。為了實現(xiàn)上述目的,根據(jù)本申請的又一方面,提供了一種文本分類的特征處理裝置。根據(jù)本申請的文本分類的特征處理裝置用于執(zhí)行本申請?zhí)岢龅娜我庖环N文本分類的特征處理方法。為了實現(xiàn)上述目的,根據(jù)本申請的又一方面,提供了一種文本分類的特征處理裝置。根據(jù)本申請的文本分類的特征處理裝置包括:獲取模塊,用于獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,特征集合包括多個特征詞;計算模塊,用于計算每個特征詞在所有分類類別中的信息增益值之和;以及提取模塊,用于提取特征集合中預(yù)訂數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使用于文本分類的學(xué)習(xí)特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應(yīng)的信息增益值之和大于未提取的特征詞對應(yīng)的信息增益值之和。為了實現(xiàn)上述目的,根據(jù)本申請的又一方面,提供了一種文本分類裝置。根據(jù)本申請的文本分類裝置用于執(zhí)行本申請?zhí)岢龅娜我庖环N文本分類方法。為了實現(xiàn)上述目的,根據(jù)本申請的又一方面,提供了一種文本分類裝置。根據(jù)本申請的文本分類裝置包括:本申請?zhí)峁┑娜我庖环N文本分類的特征處理裝置,用于特征提取,得到用于文本分類的學(xué)習(xí)特征;訓(xùn)練模塊,用于對學(xué)習(xí)特征進行訓(xùn)練,得到分類模型;以及分類模塊,用于采用分類模型對待分類文本進行文本分類。通過本申請,采用本申請?zhí)峁┑奈谋痉诸惖奶卣魈幚矸椒?,按照信息增益值之和大小,提取預(yù)定數(shù)量的部分特征詞作為文本分類的學(xué)習(xí)特征,將整個特征集合中去除停用詞后的剩余特征詞中的部分特征詞組成特征庫,縮小了特征庫,減小了占用內(nèi)存。進一步地,由于特征集合中的噪聲詞對應(yīng)的信息增益值之和小于非噪聲詞對應(yīng)的信息增益值之和,因此,只要采用特征集合中信息增益值之和較大的部分特征詞作為特征庫,便能夠去除非停用詞中的部分或全部噪聲詞,從而使得文本分類的學(xué)習(xí)特征中不包含或包含較少噪聲詞,提高了文本訓(xùn)練的效果,使得采用該特征處理方法進行特征提取的文本分類方法的分類精度更高,解決了現(xiàn)有技術(shù)中文本分類的特征庫大,導(dǎo)致機器學(xué)習(xí)時占用內(nèi)存大的問題,進而達到減小文本分類的特征庫,減小機器學(xué)習(xí)時占用內(nèi)存的效果。
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:圖1是根據(jù)本申請實施例的文本分類裝置的框
圖2是根據(jù)本申請第一實施例的文本分類的特征處理裝置的框圖;圖3是根據(jù)本申請第二實施例的文本分類的特征處理裝置的框圖;圖4是根據(jù)本申請實施例的文本分類方法的流程圖;圖5是根據(jù)本申請第一實施例的文本分類的特征處理方法的流程圖;以及圖6是根據(jù)本申請第二實施例的文本分類的特征處理方法的流程圖。
具體實施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本申請保護的范圍。首先,對本申請實施例的一種文本分類裝置進行說明,如圖1所示,該文本分類裝置包括:特征處理裝置20,訓(xùn)練模塊40和分類模塊60。在文本分類的機器學(xué)習(xí)任務(wù)之前,必須要有一定量的學(xué)習(xí)資料提供給機器,這里的機器指一種能夠按照程序運行,自動、高速處理海量數(shù)據(jù)的現(xiàn)代化智能電子設(shè)備。比如說我們常見的PC,服務(wù)器等。所謂學(xué)習(xí)資料,可以是指經(jīng)過人工標(biāo)注類別的文本資料。這些文本一般來自我們實際使用的環(huán)境。以對圖書館的圖書進行分門別類為例,需要隨機抽取涵蓋所有類別圖書,通過人工先標(biāo)注這些圖書的類別,這部分標(biāo)注好的書籍就可以作為機器學(xué)習(xí)的資料了。獲取到學(xué)習(xí)資料后,特征處理裝置20用于對這些學(xué)習(xí)資料進行特征提取,得到用于文本分類的學(xué)習(xí)特征。本實施例的特征處理裝置20與現(xiàn)有技術(shù)不同,不是直接將對學(xué)習(xí)資料進行分詞得到特征詞去掉停用詞后作為文本分類的學(xué)習(xí)特征,而是將由學(xué)習(xí)資料分詞得到的特征詞進行選取,選取部分特征詞作為文本分類的學(xué)習(xí)特征。其中,選取的判斷條件為特征詞在所有分類類別中的信息增益值之和的大小,將較大的信息增益值之和對應(yīng)的特征詞作為用于文本分類的學(xué)習(xí)特征,其中,用于文本分類的學(xué)習(xí)特征為去掉停用詞后的剩余特征詞中的部分特征詞,提取到的特征詞對應(yīng)的信息增益值之和均大于未提取的特征詞對應(yīng)的信息增益值之和。其中,停用詞可以是電腦檢索用的虛字,即非檢索用詞,例如,中文中的“的”、“了”等詞,英文中的“a”、“of”等詞。停用詞對文本分類沒有特別貢獻,因為幾乎所有的文本中都會出現(xiàn)該類詞,不具有顯著的區(qū)分性。訓(xùn)練模塊40用于對特征處理裝置20提取到的學(xué)習(xí)特征進行訓(xùn)練,得到分類模型,該處的訓(xùn)練模塊40用于完成機器學(xué)習(xí)過程,訓(xùn)練時可以采用任意的模式識別方法,例如支持向量機,神經(jīng)網(wǎng)絡(luò)等。在通過訓(xùn)練模塊40得到文本分類的分類模型后,分類模塊60用于采用分類模型對待分類文本進行文本分類。機器可以通過對部分作為學(xué)習(xí)資料的圖書進行學(xué)習(xí),得到圖書分類的分類模型后,便可實現(xiàn)其他的圖書的分類。在本申請技術(shù)方案中,特征處理裝置20提取預(yù)定數(shù)量的、較大的信息增益值之和對應(yīng)的特征詞作為文本分類的學(xué)習(xí)特征,訓(xùn)練模塊40對該學(xué)習(xí)特征進行訓(xùn)練,得到分類模型,分類模塊60采用該分類模型對待分類文本進行文本分類。應(yīng)用本申請技·術(shù)方案,在文本分類時,特征處理裝置20提取預(yù)定數(shù)量的特征詞組成特征庫,采用合適大小的預(yù)訂數(shù)量,使特征庫在去除停用詞的基礎(chǔ)上進一步縮小,從而減小了訓(xùn)練模塊40學(xué)習(xí)時的占用內(nèi)存。進一步地,特征處理裝置20能夠?qū)崿F(xiàn)提取包含較少或不包含噪聲詞的學(xué)習(xí)特征,從而能夠提高訓(xùn)練模塊40的訓(xùn)練精度,進而使得分類模塊60的分類精度提聞。其次,對本申請實施例的一種文本分類的特征處理裝置進行說明,如圖2所示,該文本分類的特征處理裝置包括:獲取模塊22,計算模塊24和提取模塊26。獲取模塊22用于獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,特征集合包括多個特征詞,獲取模塊22可直接接收用戶輸入的特征集合,也可接收用戶輸入的學(xué)習(xí)資料,對學(xué)習(xí)資料進行分詞得到特征詞。計算模塊24用于計算每個特征詞在所有文本類別中的信息增益值之和。其中,信息增益值是指期望信息或者信息熵的有效減少量(通常用“字節(jié)”衡量),根據(jù)它能夠確定在什么樣的層次上選擇什么樣的變量來分類。信息增益值用來表示一個特征詞對該類別帶來的信息量,信息增益值越大越表示該特征詞對于該類別越好,也即該特征詞越歸屬于該類別,從而采用該特征詞進行分類時,分類的準(zhǔn)確性越高,具體地,可采用如下的方法計算一個特征詞在所有分類類別中的信息增益值之和:假設(shè)特征為t,類別為Cl Cn,則特征t的信息增益之和為:
權(quán)利要求
1.一種文本分類的特征處理方法,其特征在于,包括: 獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,所述特征集合包括多個特征詞; 計算每個特征詞在所有分類類別中的信息增益值之和;以及 提取所述特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使所述用于文本分類的學(xué)習(xí)特征為所述特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應(yīng)的信息增益值之和大于未提取的特征詞對應(yīng)的信息增益值之和。
2.根據(jù)權(quán)利要求1所述的文本分類的特征處理方法,其特征在于, 在獲取所述多個特征詞之后,所述方法還包括:去除所述多個特征詞中的停用詞, 其中,計算每個特征詞在所有分類類別中的信息增益值之和的步驟包括:計算去除停用詞后的每個特征詞在所有分類類別中的信息增益值之和。
3.根據(jù)權(quán)利要求1所述的文本分類的特征處理方法,其特征在于,獲取文本分類的學(xué)習(xí)資料的特征集合的步驟包括: 獲取用于文本分類的學(xué)習(xí)資料; 對所述用于文本分類的學(xué)習(xí)資料進行分詞處理,得到多個特征詞;以及 統(tǒng)計所述多個特征詞,得到用于文本分類的學(xué)習(xí)資料的特征集合。
4.根據(jù)權(quán)利要求1至3中任一項所述的文本分類的特征處理方法,其特征在于,提取所述特征集合中 預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征的步驟包括: 按照信息增益值之和的大小對所述特征集合中的特征詞進行排序;以及按照信息增益值之和的大小順序,提取所述特征集合中預(yù)設(shè)百分比數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征。
5.根據(jù)權(quán)利要求1至3中任一項所述的文本分類的特征處理方法,其特征在于,提取所述特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征的步驟包括: 判斷所述每個特征詞對應(yīng)的信息增益值之和是否大于預(yù)設(shè)值;以及提取所述特征集合中信息增益值之和大于所述預(yù)設(shè)值的特征詞作為用于文本分類的學(xué)習(xí)特征。
6.一種文本分類方法,其特征在于,包括: 采用權(quán)利要求1至5中任一項所述的文本分類的特征處理方法進行特征提取,得到用于文本分類的學(xué)習(xí)特征; 對所述學(xué)習(xí)特征進行訓(xùn)練,得到分類模型;以及 采用所述分類模型對待分類文本進行文本分類。
7.一種文本分類的特征處理裝置,其特征在于,包括: 獲取模塊,用于獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,所述特征集合包括多個特征詞; 計算模塊,用于計算每個特征詞在所有分類類別中的信息增益值之和;以及提取模塊,用于提取所述特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使所述用于文本分類的學(xué)習(xí)特征為所述特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應(yīng)的信息增益值之和大于未提取的特征詞對應(yīng)的信息增益值之和。
8.根據(jù)權(quán)利要求7所述的文本分類的特征處理裝置,其特征在于,所述獲取模塊還包括:篩選子模塊,用于在獲取所述多個特征詞后,去除所述多個特征詞中的停用詞, 其中,所述計算模塊用于計算去除停用詞后的每個特征詞在所有分類類別中的信息增益值之和。
9.根據(jù)權(quán)利要求7所述的文本分類的特征處理裝置,其特征在于,所述獲取模塊包括: 獲取子模塊,用于獲取用于文本分類的學(xué)習(xí)資料; 分詞子模塊,用于對所述用于文本分類的學(xué)習(xí)資料進行分詞處理,得到多個特征詞;以及 統(tǒng)計子模塊,用于統(tǒng)計所述多個特征詞,得到用于文本分類的學(xué)習(xí)資料的特征集合。
10.一種文本分類裝置,其特征在于,包括: 權(quán)利要求7至9中任一項所述的文本分類的特征處理裝置,用于特征提取,得到用于文本分類的學(xué)習(xí)特征 ; 訓(xùn)練模塊,用于對所述學(xué)習(xí)特征進行訓(xùn)練,得到分類模型;以及 分類模塊,用于采用所述分類模型對待分類文本進行文本分類。
全文摘要
本申請公開了一種文本分類方法和裝置及文本分類的特征處理方法和裝置。該文本分類的特征處理方法包括獲取用于文本分類的學(xué)習(xí)資料的特征集合;計算每個特征詞在所有分類類別中的信息增益值之和;以及提取特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使用于文本分類的學(xué)習(xí)特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應(yīng)的信息增益值之和大于未提取的特征詞對應(yīng)的信息增益值之和。應(yīng)用本申請方案,在文本分類的特征提取時,能夠有效地避免將噪聲特征納入機器學(xué)習(xí)流程,提高了文本分類的精度,同時極大地縮減了特征庫規(guī)模,降低了內(nèi)存占用。
文檔編號G06F17/30GK103246686SQ201210033208
公開日2013年8月14日 申請日期2012年2月14日 優(yōu)先權(quán)日2012年2月14日
發(fā)明者許文奇 申請人:阿里巴巴集團控股有限公司