一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別涉及一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類(lèi) 方法。
【背景技術(shù)】
[0002] 文本分類(lèi)技術(shù)是自然語(yǔ)言處理中的一個(gè)重要技術(shù),它是網(wǎng)頁(yè)檢索、情感分析、垃圾 郵件識(shí)別等任務(wù)中的關(guān)鍵步驟。文本分類(lèi)的目標(biāo)是給定若干已經(jīng)分類(lèi)的文本集合,利用這 些文本,學(xué)習(xí)一種分類(lèi)方法,對(duì)于其它文本也歸納到已知的類(lèi)別中。
[0003] 文本分類(lèi)中的關(guān)鍵問(wèn)題在于特征表示,其中最常用的特征表示方法是詞袋子模 型。詞袋子模型中,最常用的特征是詞、二元詞組、多元詞組(n-gram)以及一些人工抽取的 模版特征。在特征表示之后,傳統(tǒng)模型往往使用詞頻、互信息、LDA等方法篩選出最有效的 特征。然而,傳統(tǒng)方法在表示文本時(shí),會(huì)忽略上下文信息,或者說(shuō),會(huì)丟失詞序信息。盡管傳 統(tǒng)特征中諸如多元詞組以及更復(fù)雜的特征(如樹(shù)核)也能捕獲詞序信息,但是這些特征往 往會(huì)遇到數(shù)據(jù)稀疏問(wèn)題,影響到文本分類(lèi)的精度。而且人工設(shè)計(jì)特征也總是一項(xiàng)非常耗費(fèi) 時(shí)間的工作。
[0004] 現(xiàn)已有若干基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的文本分類(lèi)算法,如遞歸神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng) 網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)。這些方法雖然可以較好地解決數(shù)據(jù)稀疏問(wèn)題,但也有各自的缺陷。如 遞歸神經(jīng)網(wǎng)絡(luò)在構(gòu)建文本語(yǔ)義時(shí),需要先構(gòu)建一個(gè)樹(shù)形結(jié)構(gòu),這個(gè)步驟可能會(huì)依賴于句法 樹(shù)的精度;循環(huán)神經(jīng)網(wǎng)絡(luò)在構(gòu)建文本語(yǔ)義時(shí),語(yǔ)義會(huì)偏向文本中靠后的的內(nèi)容,但是實(shí)際上 并非所有文本的重點(diǎn)信息均在最后部分;卷積神經(jīng)網(wǎng)絡(luò)在構(gòu)建文本語(yǔ)義時(shí)需要人工設(shè)定一 個(gè)窗口來(lái)捕獲上下文信息,然而分類(lèi)結(jié)果對(duì)窗口的大小比較敏感,如果窗口太小,保留的詞 序信息以及上下文依賴關(guān)系就會(huì)不足,如果窗口太大,則會(huì)引入大量噪聲,對(duì)結(jié)果造成不利 影響。
【發(fā)明內(nèi)容】
[0005] 為了克服現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提出了一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類(lèi) 方法,實(shí)現(xiàn)了對(duì)文本更加有效地分類(lèi)。
[0006] 本發(fā)明提出的一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類(lèi)方法,包括以下步驟:
[0007] 步驟1,利用雙向循環(huán)網(wǎng)絡(luò)對(duì)所有詞進(jìn)行上下文向量的表示;
[0008] 步驟2,將上下文向量及當(dāng)前詞的詞向量組合成當(dāng)前詞的表示;
[0009] 步驟3,利用最大池化技術(shù)提取最重要的上下文信息得到文本表示;
[0010] 步驟4,利用文本表示進(jìn)行文本分類(lèi)。
[0011] 優(yōu)選的,步驟1所述的上下文向量的表示通過(guò)如下計(jì)算得到:
[0012] 上文向量的表示的計(jì)算公式為
[0013] cjwi) = f(W ⑴
[0014] 下文向量的表示的計(jì)算公式為
[0015] cr(Wi) = f (ff(r)cr(wi+1)+ff(sr)e(w i+1))
[0016] 其中cjwi)表示詞r的上文向量的表示,c ?表示詞r的下文向量的表示, e (wj表示詞Wi的詞向量,W (1)、W(rt、W(sl)、W(srt均為轉(zhuǎn)移矩陣,f為非線性激活函數(shù)。
[0017] 優(yōu)選的,步驟2所述上的當(dāng)前詞的表示為上文向量的表示、下文向量的表示和當(dāng) 前詞的詞向量的串接,具體表示為
[0018] Xi= [c ^Wi);e(Wi);cr(Wi)]
[0019] 其中Xi為當(dāng)前詞的表示。
[0020] 優(yōu)選的,步驟3中利用最大池化技術(shù)提取最重要的上下文信息得到文本表示的方 法為:將步驟2得到的當(dāng)前詞的表示映射到一個(gè)新的語(yǔ)義空間,對(duì)新語(yǔ)義空間中的每個(gè)向 量,逐個(gè)元素求最大值,具體公式為
【主權(quán)項(xiàng)】
1. 一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類(lèi)方法,其特征在于,包括以下步驟: 步驟1,利用雙向循環(huán)網(wǎng)絡(luò)對(duì)所有詞進(jìn)行上下文向量的表示; 步驟2,將上下文向量及當(dāng)前詞的詞向量組合成當(dāng)前詞的表示; 步驟3,利用最大池化技術(shù)提取最重要的上下文信息得到文本表示; 步驟4,利用文本表示進(jìn)行文本分類(lèi)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1所述的上下文向量的表示通過(guò)如下 計(jì)算得到: 上文向量的表示的計(jì)算公式為 Cx (Wi) = f (ff(1) cx (w^j) +ff(sl) e (w^j)) 下文向量的表示的計(jì)算公式為 Cr (Wi) f (ff(r)cr (wi+1) +ff(sr)e (wi+1)) 其中cjwi)表示詞r的上文向量的表示,(^(wD表示詞r的下文向量的表示,e(Wi)表 示詞&的詞向量,W(1)、Ww、W(sl)、W(srt均為轉(zhuǎn)移矩陣,f為非線性激活函數(shù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟2所述上的當(dāng)前詞的表示為上文向量 的表示、下文向量的表示和當(dāng)前詞的詞向量的串接,具體表示為 Xi= [c ;e(Wi);cr(Wi)] 其中Xi為當(dāng)前詞的表示。
4. 根據(jù)權(quán)利要求3所述方法,其特征在于,步驟3中利用最大池化技術(shù)提取最重要的 上下文信息得到文本表示的方法為:將步驟2得到的當(dāng)前詞的表示映射到一個(gè)新的語(yǔ)義空 間,對(duì)新語(yǔ)義空間中的每個(gè)向量,逐個(gè)元素求最大值,具體公式為
其中)f為第i個(gè)詞的隱含語(yǔ)義表示,為整個(gè)文檔的語(yǔ)義表示,W(2)為語(yǔ)義轉(zhuǎn)移矩 陣,b(2)為偏移項(xiàng),n表示文檔的長(zhǎng)度。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,在步驟4利用logistic回歸對(duì)文本表示 進(jìn)行文本分類(lèi)。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,非線性激活函數(shù)f為tanh函數(shù)。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類(lèi)方法,包括以下步驟:步驟1,利用雙向循環(huán)網(wǎng)絡(luò)對(duì)所有詞進(jìn)行上下文向量的表示;步驟2,將上下文向量及當(dāng)前詞的詞向量組合成當(dāng)前詞的表示;步驟3,利用最大池化技術(shù)提取最重要的上下文信息得到文本表示;步驟4,利用文本表示進(jìn)行文本分類(lèi)。該方法能夠較多地保留文本中的詞序信息,捕捉長(zhǎng)距離的文本依賴關(guān)系,精確刻畫(huà)詞的語(yǔ)義,并通過(guò)最大池化技術(shù)找到對(duì)文本分類(lèi)影響最大的詞和短語(yǔ)。有效地提高了文本分類(lèi)的準(zhǔn)確率。經(jīng)過(guò)試驗(yàn)證明,本方法在多個(gè)文本分類(lèi)數(shù)據(jù)集上平均提升1%。
【IPC分類(lèi)】G06F17-27, G06F17-30
【公開(kāi)號(hào)】CN104572892
【申請(qǐng)?zhí)枴緾N201410817856
【發(fā)明人】徐立恒, 劉康, 趙軍, 來(lái)斯惟
【申請(qǐng)人】中國(guó)科學(xué)院自動(dòng)化研究所
【公開(kāi)日】2015年4月29日
【申請(qǐng)日】2014年12月24日