欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本分類方法和裝置的制作方法

文檔序號:6465654閱讀:160來源:國知局
專利名稱:一種文本分類方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種文本分類方法和裝置。

背景技術(shù)
隨著通信技術(shù)的飛速發(fā)展以及互聯(lián)網(wǎng)的普及,對互聯(lián)網(wǎng)信息的有效處理和過濾成為一個重要的研究課題。
語義傾向性研究在這一背景下應(yīng)運(yùn)而生。所謂詞匯的語義傾向,即對于詞匯的褒貶程度計算出一個度量值。為了便于統(tǒng)計和比較,目前比較常用的做法是將度量值規(guī)定為位于[-1,1]之間的實(shí)數(shù)。若度量值高于某閾值時,判別為褒義傾向;反之,則判為貶義傾向。此外,可以通過對篇章中詞匯的語義傾向值求平均值而獲得篇章的語義傾向。因此,對詞匯的語義傾向計算是此類研究中的關(guān)鍵工作。
此外,語義傾向判別也為文本過濾、自動文摘的研究工作提供了新的思路和新的手段。例如可以對語義傾向度量值設(shè)定一個合適的閾值,對于傾向值低于或高于閾值,也就是態(tài)度傾向過于偏激的文章進(jìn)行過濾操作,或者可將傾向值賦予一定的權(quán)值,作為文本過濾中需要考慮的一個因素。該方法如果應(yīng)用在網(wǎng)絡(luò)新聞組的自動過濾中,有利于維護(hù)討論秩序,緩和討論氣氛。而自動文摘的生成,可將具有強(qiáng)烈褒貶傾向的語句作為關(guān)鍵句摘出,從而更好地保留原作者的觀點(diǎn)和意見。
單詞的語義傾向判別是篇章語義傾向研究的基礎(chǔ)。目前,在中文詞匯傾向性計算方面,主要的方法是選擇基準(zhǔn)詞對,利用知網(wǎng)(Hownet)計算傾向性待定的詞匯與基準(zhǔn)詞匯的相似度,從而判定詞匯的傾向性。Hownet是一個以詞語所代表的概念為描述對象,以揭示概念和概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。
該方法的基本思想是設(shè)想所有的概念都可以分解成各種各樣的義原,同時應(yīng)該有一個有限的義原集合,其中的義原組合成一個無限的概念集合。如果能夠把握這一有限的義原集合,并利用它來描述概念間的關(guān)系以及屬性之間的關(guān)系,就可能建立所設(shè)想的知識系統(tǒng)。詞匯相似度是一個數(shù)值,一般取值范圍在
之間,一個詞語與其自身的語義相似度為1。如果兩個詞語在任何上下文中都不可替換,那么其相似度為0。
使用該方法獲取詞匯的傾向度的一例如下首先選擇一個基準(zhǔn)詞,比如選擇“好”和“壞”分別代表褒義和貶義的基準(zhǔn)詞。然后判別待定詞t與基準(zhǔn)詞在Hownet中是否是同義詞,計算詞匯的傾向度,計算公式如下
函數(shù)d表示兩個詞匯t1,t2在由Hownet生成的相似圖中的最短路徑,記作d(t,好)。d(好,壞)是兩個基準(zhǔn)詞好和壞在Hownet中的最短路徑;d(t,壞)是詞匯t到基準(zhǔn)詞壞在Hownet中的最短路徑;d(t,好)是詞匯t到基準(zhǔn)詞好在Hownet中的最短路徑;公式(1)對詞匯t到兩個基準(zhǔn)詞的最短路徑進(jìn)行歸一化處理,得到詞匯的傾向度是介于[-1,1]的浮點(diǎn)數(shù)。正數(shù)表示傾向于好,負(fù)數(shù)表示傾向于壞。
根據(jù)詞匯的傾向度,使用文本分類算法對待判定文檔進(jìn)行分類。該方法是利用詞匯相似度來間接計算篇章的語義傾向,因此,詞匯相似度算法是該方案的核心。方案使用的Hownet是Hownet的源文件由詞典學(xué)家編寫。這些文件是詞匯語義學(xué)分析的產(chǎn)物多種詞匯關(guān)系和語義關(guān)系被用來表示詞匯知識的組織方式。詞形式(word form)和詞義(word meaning)是這些文件中可見的兩個基本構(gòu)件。詞形式以規(guī)范的詞形表示;詞義以同義詞集合(synset)表示。詞匯關(guān)系是兩個詞形式之間的關(guān)系;語義關(guān)系是兩個詞義之間的關(guān)系。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題 沒有包含指示詞語在特定的篇章話題領(lǐng)域的相關(guān)概念關(guān)系,也缺少關(guān)于詞語的句法信息和不同詞類詞語間的關(guān)系,這樣會對在不同語境中表達(dá)不同情感傾向度的判定有一定誤差。


發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種文本分類方法和裝置,用于提高基于情感傾向?qū)ξ谋具M(jìn)行分類的準(zhǔn)確程度。
本發(fā)明實(shí)施例提供一種文本分類方法,包括 從輸入的文本中獲取情感特征詞; 根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取所述情感特征詞的情感傾向度; 根據(jù)所述情感特征詞的情感傾向度,對所述文本進(jìn)行分類。
本發(fā)明實(shí)施例還提供一種文本分類裝置,包括 情感特征詞獲取單元,用于從輸入的文本中獲取情感特征詞; 情感傾向度獲取單元,用于根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取所述情感特征詞獲取單元獲取的情感特征詞的情感傾向度; 分類單元,用于根據(jù)所述情感傾向度獲取單元獲取的情感特征詞的情感傾向度,對所述文本進(jìn)行分類。
本發(fā)明的實(shí)施例還提供一種計算機(jī)可存儲介質(zhì),存儲有可讀寫程序,使得處理器執(zhí)行上述的方法。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn) 根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取文本中情感特征詞的情感傾向度以用于文本的分類,提高了對詞匯的情感傾向度的判斷準(zhǔn)確程度。



圖1是本發(fā)明實(shí)施例中文本分類方法的流程圖; 圖2是本發(fā)明實(shí)施例中從輸入的文本中獲取情感特征詞并獲取情感特征詞的情感傾向度的流程圖; 圖3是本發(fā)明實(shí)施例中利用LSA和關(guān)聯(lián)規(guī)則構(gòu)造同義詞庫的流程圖; 圖4是本發(fā)明實(shí)施例中根據(jù)情感傾向度對文檔進(jìn)行分類的流程圖; 圖5是本發(fā)明實(shí)施例中文本分類裝置的結(jié)構(gòu)示意圖; 圖6是本發(fā)明實(shí)施例中文本分類裝置的另一結(jié)構(gòu)示意圖。

具體實(shí)施例方式 本發(fā)明實(shí)施例提供了一種文本分類方法,如圖1所示,包括以下步驟 步驟s101、從輸入的文本中獲取情感特征詞。
步驟s102、根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取情感特征詞的情感傾向度。
步驟s103、根據(jù)情感特征詞的情感傾向度,對文本進(jìn)行分類。
以下結(jié)合具體的實(shí)施例,對上述圖1中所描述的文本分類方法中的各步驟進(jìn)行進(jìn)一步的詳細(xì)描述。
如圖2所示,為本發(fā)明實(shí)施例中從輸入的文本中獲取情感特征詞并獲取情感特征詞的情感傾向度的流程圖,包括 步驟s201,給定一任意文本d,首先使用一個中文分詞器對文檔d進(jìn)行分析處理,該中文分詞器的輸入為構(gòu)成文本d的一串文本,輸出為一個帶有詞性標(biāo)注的詞列表。
具體的,該分析處理過程包括分詞預(yù)處理,分詞(帶分詞詞庫),歧義詞重切分(如果存在歧義切分,則按照規(guī)則重切分)。詞性包括名詞、動詞、形容詞、斷句符號等語言學(xué)常用詞語屬性類型。
步驟s202,使用語法分析器對分詞處理后的詞列表進(jìn)行語法分析。該語法分析器的輸入為帶有詞性標(biāo)注的詞列表,輸出為一個經(jīng)約簡和轉(zhuǎn)化的帶有詞性標(biāo)注的詞列表。
步驟s203,將輸出后的帶有詞性標(biāo)注列表對詞語進(jìn)行統(tǒng)計,根據(jù)統(tǒng)計信息獲取情感特征詞。
具體的,統(tǒng)計信息可以包括詞頻、句子的長度、平均詞長、功能詞(functionword,具體指前置詞,連詞等)等。以該統(tǒng)計信息為權(quán)重,詞性為類別,對每類詞取權(quán)重大于閾值的作為情感特征詞,輸出的詞語的屬性包括詞、詞性、統(tǒng)計數(shù)據(jù)。
步驟s204,進(jìn)行情感特征詞的情感傾向度計算。
具體的,應(yīng)用LSA(Latent Semantic Analysis,潛在語義分析)和關(guān)聯(lián)規(guī)則構(gòu)造的同義詞庫來獲取情感特征詞之間的語義關(guān)聯(lián)強(qiáng)度,在計算情感特征詞的情感傾向度時,采用根據(jù)情感特征詞與預(yù)先設(shè)定的特征詞之間的關(guān)聯(lián)度計算情感傾向度的方法。因此,在進(jìn)行情感傾向度計算的時候,預(yù)先設(shè)定一些情感傾向度反差明顯的詞語對,如“支持”、“反對”,對于其他某一情感特征詞,分別計算計算該情感特征詞與兩者的關(guān)聯(lián)強(qiáng)弱程度,作為該情感特征詞的情感傾向度。
以下介紹利用LSA和關(guān)聯(lián)規(guī)則構(gòu)造同義詞庫的方法。在LSA中,通過引用概念空間來減少同義噪音,其基本原理為利用詞的上下文相關(guān)性判斷不同詞的相似程度。根據(jù)LSA方法,出現(xiàn)在相似上下文中的詞,被認(rèn)為在用法和含義上相近。
以下具體描述利用LSA和關(guān)聯(lián)規(guī)則構(gòu)造同義詞庫的流程,如圖3所示,包括 步驟s301,構(gòu)造詞語-文檔矩陣。
具體的,構(gòu)造詞語-文檔矩陣,矩陣的行向量代表情感詞詞匯量,列向量代表文檔個數(shù),矩陣的每一個元素aij代表第i個詞在第j個文檔中出現(xiàn)的權(quán)重。以詞語-文檔矩陣為X=|aij|m×n為例,m代表詞匯總量,n代表文檔個數(shù),aij為非負(fù)值,表示第i個詞在第j個文檔中出現(xiàn)的權(quán)重。不同的詞對應(yīng)矩陣X不同的行,每一個文檔則對應(yīng)矩陣X不同的列,這里aij用tf/idf作為權(quán)重。
當(dāng)用戶搜索一個詞的時候,經(jīng)常會搜索到多篇文檔。在對最相關(guān)的文檔的排列上,使用最多的公式是經(jīng)典的tf/itf公式,權(quán)重可以使用tf/idf來加權(quán)。其中tf(Term Frequency,關(guān)鍵詞匯頻率)指搜索詞在某文檔里出現(xiàn)的次數(shù)。顯然,這個次數(shù)越多文檔就越相關(guān)。當(dāng)用戶搜索一個短語時,短語會被分解為幾個詞。例如搜索“算法的優(yōu)缺點(diǎn)”,將會被分解為“算法”、“的”、“優(yōu)缺點(diǎn)”,任何一篇文檔中“的”字都會出現(xiàn)很多,而整個短語中重要的部分應(yīng)該是“算法”和“優(yōu)缺點(diǎn)”,而idf(Inverse Document Frequency,反文檔頻率)的定義為其中N為文檔總數(shù),docNum(C)為包含C的文檔數(shù),idf定義了詞的重要性。易知,包含詞C的文檔越多,idf的值越小,C這個詞越不重要。
本發(fā)明的實(shí)施例中,對于搜索出來的每一篇文檔,將短語切詞后的每一個詞的在某個文檔里出現(xiàn)在次數(shù)(tf)乘上一個權(quán)重(idf)再相加,就得到了短語與該文檔的相似度。
步驟s302,對詞語-文檔矩陣進(jìn)行信息熵變換。
具體的,對于詞語-文檔矩陣X=|aij|m>n中的每一個元素aij,信息熵變換的方法為 即在信息熵變換中,將aij轉(zhuǎn)化為log(aij+1),再除以它的熵。這樣預(yù)處理能將詞的上下文考慮進(jìn)來,突出了詞在文章中的用文環(huán)境。如果詞分布極度均勻,其熵等于-1;如果詞只在一個文檔中出現(xiàn),熵等于0。這樣的處理能將詞的上下文考慮進(jìn)來,突出了詞在文檔中的上下文環(huán)境。經(jīng)過信息熵變換后得到次序化的詞語-文檔矩陣X′=|a′ij|m×n。
步驟s303,對信息熵變換后的詞-文檔矩陣的奇異值分解,得到轉(zhuǎn)換后的矩陣。
具體的,對信息熵變換后的詞語-文檔矩陣X進(jìn)行SVD(Singular ValueDecomposition,奇異值分解),將信息熵變換后的詞-文檔矩陣分解為三個矩陣的乘積。
奇異值分解是數(shù)理統(tǒng)計中常用的方法,詞語-文檔矩陣X′建立后,利用奇異值分解計算X′的k-秩近似矩陣X′k(k<<min(m,n))。經(jīng)奇異值分解,矩陣X′可表示為三個矩陣的乘積 X′=U∑VT(3) 式中,U和V分別是X′的奇異值對應(yīng)的左、右奇異向量矩陣,且U和V為正交矩陣;∑是標(biāo)準(zhǔn)型,VT是V的轉(zhuǎn)秩,X′的奇異值按遞減排列構(gòu)成對角矩陣∑k,取U和V最前而的k個列,構(gòu)建X′的k-秩近似矩陣 式中,Uk和Vk的列向量均為正交向。假定X′的秩為r,則有 UkU=VTV=Ir (5) 其中,Ir是r*r階單位陣。用X′k近似表征原詞語-文檔矩陣X′,在此基礎(chǔ)上進(jìn)行其他各種文檔處理,這就是潛在語義分析技術(shù)。LSA通過奇異值分解和取k秩近似矩陣,一方面消減了原詞語-文檔矩陣中包含的噪聲因索,從而更凸現(xiàn)出詞和文檔之間的語義關(guān)系,另一方面使得詞、文檔向量空間大大縮減,可以提高文本挖掘的效率。
通過上述步驟s301~s303,實(shí)現(xiàn)了對詞語的潛在語義分析。
以下結(jié)合一個具體的實(shí)例描述上述步驟s301~s303所述的詞語-文檔矩陣的相關(guān)處理方法。
原始文檔的內(nèi)容參見表1所示,其中列舉了不同的編號所對應(yīng)的文檔內(nèi)容 表1原始文檔(Table Original documents)
提取如表1所示中9個文檔中的21個關(guān)鍵詞,建立詞語-文檔矩陣X,如表2所示 表2“詞語-文檔”原始矩陣 (Table2 Original term-doc matrix) 原始矩陣中,“特征”和“概念”兩個詞語的相關(guān)系數(shù),經(jīng)過計算為0.438。計算奇異值分解,選取兩個最大奇異值,得到X的近似矩陣X2,如表3所示。
表3原始矩陣在二維空間中的重構(gòu)矩陣 (Table reconstructed matrix of original matrix under subspace with rank=2) 本實(shí)施例中使用余弦距離計算兩個向量之間的相關(guān)系數(shù)。在初始矩陣X中,向量“主題”和“關(guān)鍵詞”的相關(guān)系數(shù)只有0.1250,兩者的相似性較小。在矩陣X中,向量“主題”和“關(guān)鍵詞”的相關(guān)系數(shù)為0.5813,可見含義相近的詞匯的相關(guān)度得到加強(qiáng)。
步驟s304,根據(jù)轉(zhuǎn)換后的矩陣,生成關(guān)聯(lián)詞集合。
具體的,上述步驟s301~步驟s304描述的潛在語義分析過程中,使用統(tǒng)計方法取得詞在文本中的上下文關(guān)系(或稱為位置相似關(guān)系),從而近似的將這種位置相似關(guān)系作為語義相似的一種度量方法。這種方法在一定程度上存在缺失,因此,本步驟中采用關(guān)聯(lián)規(guī)則來挖掘前期分析的數(shù)據(jù),發(fā)現(xiàn)潛在有用的關(guān)聯(lián)或相關(guān)關(guān)系,把相關(guān)性也作為語義相似的一種度量方法。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中的一種主要挖掘技術(shù),設(shè)I={i1,i2,...,im}是項(xiàng)的集合(i是item的簡寫,也就是潛在語義分析中的詞),記D為事務(wù)T的集合,這里事務(wù)T是項(xiàng)的集合(事務(wù)可以看作為多個詞的集合,如“計算機(jī)+CPU”,“牛奶+面包+黃油”等),并且T∈I(事務(wù)中出現(xiàn)的詞應(yīng)該且必須被包含在前面分析處理出來的詞集合中)。對應(yīng)每一個事務(wù)有唯一的標(biāo)識,如事務(wù)號,記作TID。設(shè)Z是一個I里項(xiàng)的集合,如果Z∈T,那么稱事務(wù)T包含Z。一個關(guān)聯(lián)規(guī)則是形如的蘊(yùn)涵式,這里并且X∩Y=Ф。(例如X表示“牛奶+面包+黃油”,Y表示“西餐”,

滿足上述條件,這個式子就是一條關(guān)聯(lián)規(guī)則。) 給定一個事務(wù)集D,關(guān)聯(lián)規(guī)則挖掘問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。對于關(guān)聯(lián)詞挖掘,設(shè)挖掘出的關(guān)聯(lián)規(guī)則形如表示了詞ti出現(xiàn)在文檔中,則詞tj出現(xiàn)在同一文檔的支持度為s(0≤s≤1),置信度為c(0≤c≤1)。如果支持度和置信度大于指定的閾值,則可以認(rèn)為它們的關(guān)聯(lián)性很大。這里的支持度和置信度是過濾關(guān)聯(lián)規(guī)則的閾值,對于上面的例子,如果“牛奶+面包+黃油”和“西餐”在一起出現(xiàn)的次數(shù)超過一定的值,那么就可以認(rèn)為“牛奶+面包+黃油”和“西餐”是關(guān)聯(lián)詞,這樣提供了一種詞與詞之間的相關(guān)性比較方法,關(guān)聯(lián)規(guī)則滿足的支持度和置信度的大小就是詞與詞之間相關(guān)性大小的具體度量。
常用關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法有Apriori算法。Aproir關(guān)聯(lián)規(guī)則算法核心思想為 Ck大小為k的候選項(xiàng)集;候選是指在算法過程中出現(xiàn)的中間結(jié)果,這些中間結(jié)果經(jīng)過逐步篩選和計算,要么出現(xiàn)在最終的結(jié)果中,要么刪除掉。
Lk大小為k的頻繁項(xiàng)集;頻繁項(xiàng)集是指支持度大于等于給定最小支持度的項(xiàng)集;也就是指在同一文檔中出現(xiàn)的次數(shù)超過給定閾值的詞的集合。
Aproir關(guān)聯(lián)規(guī)則算法中,首先找出所有頻繁項(xiàng)集;然后利用頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。
其特點(diǎn)是 (1)使用逐層搜索的迭代方法,在后面的描述中,可以看到L1,L2,......,Lk和C1,C2,......,Ck);(2)用k項(xiàng)集探求k+1項(xiàng)集;(3)主要采用連接和剪枝。其中,連接是指Ck中的每一個項(xiàng)集是由Lk-1中的兩個項(xiàng)集連接產(chǎn)生的,這兩個項(xiàng)集滿足這樣的要求項(xiàng)集中前k-21項(xiàng)都相同,只有最后一項(xiàng)不同;剪枝是指刪除那些具有非頻繁子集的項(xiàng)集。
本發(fā)明實(shí)施例在基于Aprior算法上作了一些相應(yīng)的改進(jìn),主要體現(xiàn)在(1)先刪除規(guī)模小于1的事務(wù);(2)在生成k+1頻繁項(xiàng)集之前先刪除不包含長度為k的頻繁項(xiàng)集,減少迭代次數(shù)。
其中,生成頻繁項(xiàng)集合的方法具體包括 步驟(1)設(shè)置支持度閾值和置信度閾值,對矩陣

,找出所有C1的支持同時標(biāo)記其中所有長度小于等于1的事務(wù),根據(jù)最小支持度確定L1。
步驟(2)對L1進(jìn)行連接操作,生成Ck+1。
步驟(3)找出Ck+1的支持度,標(biāo)記其中所有長度小于等于k+1的事務(wù),標(biāo)記所有不包含Ck+1的事務(wù),根據(jù)最小支持度生成Lk+1。
步驟(4)k增加1,轉(zhuǎn)到步驟(2),直到Lk為空集終結(jié)。
其中,生成關(guān)聯(lián)規(guī)則的方法具體包括 步驟(1)定義Lmax為最高頻繁項(xiàng)集的集合。
步驟(2)從Lmax開始依次遞減直到L2為止,執(zhí)行循環(huán)操作。第k次循環(huán)(2≤k≤max)中,系統(tǒng)對Lk的每個元素lk到Lk-1中找子集lk-1,如果找到子集,且
則輸出該規(guī)則。
步驟(3)根據(jù)以上的關(guān)聯(lián)規(guī)則,得到情感詞匯的關(guān)聯(lián)表,關(guān)聯(lián)規(guī)則左邊的特征詞對應(yīng)1個或者多個關(guān)聯(lián)詞,如“咖啡”與“休息”、“舒緩”等相關(guān)聯(lián)。
以下結(jié)合一個具體的實(shí)例,描述上述步驟s304中生成關(guān)聯(lián)詞集合的具體實(shí)施方式
。
原始數(shù)據(jù)如表4所示,其中TID表示事務(wù)號,Ti是某具體的事務(wù),Ii是項(xiàng)即詞,中間的值代表是否出現(xiàn),出現(xiàn)標(biāo)注為1,否則為0。這里是簡化的例子,對于之前潛在語義分析處理后的結(jié)果是表征語義相似程度的數(shù)字,可以轉(zhuǎn)化得到該表4。
表4用于生成關(guān)聯(lián)詞集合的原始數(shù)據(jù) 掃描原始數(shù)據(jù),得到C1及其支持度,篩選出支持度≥2的項(xiàng)集,得到L1,刪除其中不大于1的TID。C1表示大小為1的候選集,于是,獲取各個項(xiàng)出現(xiàn)的次數(shù)的和,I1出現(xiàn)6次,I2出現(xiàn)8次,......,在L1中,刪除掉支持度小于2的,于是刪掉了I4所在的事務(wù)T4。,如下表5所示 表5 C1和L1
利用L1的連接,產(chǎn)生C2,掃描數(shù)據(jù)得到其各元素的支持度,同時刪除不大于2的TID以及不包含任何C2元素的TID,篩選出支持度≥2的項(xiàng)集,得到L2。C2表示大小為2的候選集,于是,就L1中項(xiàng)進(jìn)行兩兩組合,于是有“I1、I2”,“I5、I6”等,這些組合構(gòu)成這個步驟的中間結(jié)果,視為候選集。統(tǒng)計得到“I1、I2”出現(xiàn)4次,“I5、I6”出現(xiàn)1次,......,在L2中,刪除掉支持度小于2的,于是刪掉了“I1,I6”,“I3,I6”,“I5,I6”。如下表6所示 表6 C2和L2
利用L2的連接,產(chǎn)生C3,掃描數(shù)據(jù)得到其各元素的支持度,同時刪除不大于2的TID以及不包含任何C3元素的TID,篩選出支持度≥2的項(xiàng)集,得到L3,如下表7所示 表7 C3和L3
C3表示大小為2的候選集。就L2中項(xiàng)進(jìn)行組合,于是有“I1、I2、I3”,“I2、I5、I6”等,這些組合構(gòu)成這個步驟的中間結(jié)果,視為候選集。統(tǒng)計得到“I1、I2、I3”出現(xiàn)2次,“I2、I5、I6”出現(xiàn)1次,......,在L3中,刪除支持度小于2的項(xiàng)集。
利用L3的連接,產(chǎn)生C4,掃描數(shù)據(jù)得到其各元素的支持度,同時刪除不大于2的TID以及不包含任何C4元素的TID,篩選出支持度≥2的項(xiàng)集,得到L4,如下表8所示 表8 C4和L4
L4為空; 以L2和L3計算如下 如果置信度為20%,則得到關(guān)聯(lián)規(guī)則如下 步驟s305、矩陣

與關(guān)聯(lián)詞集合一同構(gòu)成詞庫,該詞庫是計算情感傾向的依據(jù)。
以下對上述實(shí)施例中,步驟s204所描述的情感特征詞的情感傾向度計算方法進(jìn)行描述。
本發(fā)明的實(shí)施例中,對于一情感特征詞word,其情感傾向度計算公式為 其中假設(shè)word為情感特征詞;pword={好,支持,優(yōu)美,美麗,......};nword={壞,反對,丑陋,厭惡,......}。
當(dāng)SO(word)的值是正的時候,則情感詞具有更靠近pword中定義的正面情感的傾向,反之,具有反面的情感傾向度。SO(word)的絕對值大小反映情感詞word情感傾向度的程度,正的越大,則情感詞的正面的情感傾向度越大;負(fù)的越大,則反面的情感傾向度越大。
在獲得情感特征詞的情感傾向度后,還需要對情感傾向度進(jìn)行歸一化處理。
上述歸一化后獲得的情感特征詞的情感傾向度的數(shù)值都是介于[-1,1]區(qū)間的浮點(diǎn)數(shù)。此外,還需要考慮文本中否定詞對特征權(quán)重的影響。因?yàn)樽匀徽Z言中表達(dá)同一種傾向的情感時,既可能使用正面也可能使用反面的詞匯。例如,在表達(dá)對某首歌曲的評論時,“這首歌曲很好聽”和“這首歌曲不難聽”,都表示一種對歌曲的贊賞的正面傾向。而且這種現(xiàn)象在實(shí)際文本中經(jīng)常出現(xiàn)。因此,利用否定詞詞表,尋找在文檔d中出現(xiàn)的否定詞,如“不”、“沒有”、“非”等。然后對這些否定詞后面的情景特征詞的情感傾向度進(jìn)行反向修正,反向修正的計算方法為 SO(word)=1-SO(word) (10) 本發(fā)明的實(shí)施例中,根據(jù)情感傾向度對文檔進(jìn)行分類的流程如圖4所示,包括以下步驟 步驟s401、設(shè)置情感特征詞的權(quán)重,權(quán)重包括情感特征的情感傾向度和出現(xiàn)頻率。權(quán)重的具體計算方法如下 步驟s402、使用迭代優(yōu)化的聚類算法將文檔的情感特征詞到劃分為不同傾向的子類,子類中的大多數(shù)情感詞的情感傾向度相同,而不同子類的情感傾向度不同。
步驟s403、比較子類的密度(平均頻率),其中具有最高密度(頻率)的子類標(biāo)記為主情感傾向度,次高密度(頻率)的幾個子類標(biāo)記為次情感傾向度。子類的密度的計算方法可以為

表示主情感傾向度。
步驟s404、以多個情感傾向度值的向量值為文檔傾向向量,為文檔建立索引,便于之后對文檔的檢索。

以下結(jié)合一個具體的應(yīng)用場景,描述本發(fā)明實(shí)施例中文本分類方法的具體實(shí)施方式

如表9所示,有一個包含4個文件的文本集和包含“聚類”標(biāo)注詞的查詢,用向量空間模型進(jìn)行查找的結(jié)果。雖然文本3是一個與查詢相關(guān)的文件,但分在不同子類中,因此未被檢索到。其原因在于文本3中雖然大量出現(xiàn)標(biāo)注詞“分類”,但是沒有使用標(biāo)注詞“聚類”,因而被認(rèn)為是不相關(guān)的。
表9一般查詢實(shí)施例

原始詞-文本矩陣的秩等于4,LSA使用k=2,求出的奇異值按照從大到小的排列為11.718,5,2.9462,0.0869;則使用LSA的分類查詢結(jié)果如下 表10 LSA分類查詢實(shí)施例
文件3被識別為與查詢相關(guān)的文件。說明,采用LSA和關(guān)聯(lián)詞表,即使查詢與文本在沒有共同詞語的情況下,只要語義相關(guān),查詢也會被分類分到相關(guān)的文本集中。這個是傳統(tǒng)的分類算法所不具有的特點(diǎn)。
以下給出一具體的實(shí)施例,說明本發(fā)明實(shí)施例中文本分類方法的具體實(shí)施方式

使用了兩個語料集D1和D2進(jìn)行實(shí)驗(yàn),語料集D1來自于復(fù)旦日月光華BBS的新聞板塊,包含了多個熱門話題,共12000多條貼子,每個貼子都由人工標(biāo)注了它的傾向性(正面的和反面的)語料集D2包含100多篇宣揚(yáng)法輪功反動信息的文章、100多篇批判法輪功的文章和100多篇與法輪功無關(guān)的文章。
首先,使用“基于傳統(tǒng)文本分類技術(shù)的方法”和“情感特征詞的方法”對語料集D1的50個主題進(jìn)行分類(正面的和反面的)。接著,分別使用三種方法對語料集D2進(jìn)行分類(健康的和不良的)。實(shí)驗(yàn)結(jié)果如下表11所示。方法1、方法2、方法3分別代表“基于傳統(tǒng)文本分類技術(shù)的方法”、“基于情感特征詞的方法”和“基于語義模式的方法”。
表11 分類方法性能比較
從表11中可以看到,“基于情感特征詞的方法”的分類性能較其它兩種分類方法要差一些。但是“基于情感特征詞的方法”不需要人工標(biāo)注訓(xùn)練樣本,不需要針對每個主題構(gòu)建一個獨(dú)立的分類器,所以這種方法有較強(qiáng)的通用性,而且分類速度也要快很多。
通過使用本發(fā)明實(shí)施例提供的方法,根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取文本中情感特征詞的情感傾向度以用于文本的分類,提高了對詞匯的情感傾向度的判斷準(zhǔn)確程度。
本發(fā)明的實(shí)施例還提供一種文本分類裝置,如圖5所示,包括 情感特征詞獲取單元11,用于從輸入的文本中獲取情感特征詞; 情感傾向度獲取單元12,用于根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取情感特征詞獲取單元11獲取的情感特征詞的情感傾向度; 分類單元13,用于根據(jù)情感傾向度獲取單元12獲取的情感特征詞的情感傾向度,對文本進(jìn)行分類。
其中,如圖6所示,情感特征詞獲取單元11包括 中文分詞子單元111,用于述輸入的文本進(jìn)行分析,獲取帶有詞性標(biāo)注的詞列表。
語法分析子單元112,用于對中文分詞子單元111獲取的帶有詞性標(biāo)注的詞列表進(jìn)行分析,獲取約簡和轉(zhuǎn)化后的帶有詞性標(biāo)注的詞列表。
統(tǒng)計子單元113,用于對語法分析子單元112獲取的約簡和轉(zhuǎn)化后的帶有詞性標(biāo)注的詞列表進(jìn)行統(tǒng)計,獲取詞語的統(tǒng)計信息。
獲取子單元114,用于根據(jù)統(tǒng)計子單元113獲取的詞語的統(tǒng)計信息,獲取特定的詞語作為情感特征詞。
分類單元13還包括 權(quán)重獲取子單元131,用于根據(jù)情感特征詞的情感傾向度以及出現(xiàn)頻率,獲取情感特征詞的權(quán)重。
子類劃分子單元132,用于將情感特征詞劃分到具有不同傾向的子類。
情感傾向度獲取子單元133,用于根據(jù)劃分到不同子類的情感特征詞的權(quán)重,獲取作為各個子類的情感傾向度。
分類子單元134,用于根據(jù)各個子類的情感傾向度作為所述文本的傾向并建立索引,作為對所述文本的分類。
另外,該文本分類裝置還包括同義詞庫構(gòu)造單元14,用于根據(jù)潛在語義分析LSA以及關(guān)聯(lián)規(guī)則,構(gòu)造同義詞庫。該同義詞庫構(gòu)造單元14包括 矩陣構(gòu)造子單元141,用于構(gòu)造詞匯-文檔矩陣; 信息熵變換子單元142,用于對矩陣構(gòu)造子單元141構(gòu)造的詞匯-文檔矩陣中的元素進(jìn)行信息熵變換,得到信息熵變換后的詞匯-文檔矩陣; 奇異值分解子單元143,用于對信息熵變換子單元142信息熵變換后的詞匯-文檔矩陣進(jìn)行奇異值分解,得到變換后的詞匯-文檔矩陣; 關(guān)聯(lián)詞集合生成子單元144,用于根據(jù)奇異值分解子單元143變換后的詞匯-文檔矩陣,生成關(guān)聯(lián)詞集合; 詞庫構(gòu)造子單元,用于根據(jù)所述關(guān)聯(lián)詞集合以及預(yù)設(shè)的分類對應(yīng)的基本詞集合,構(gòu)成類對應(yīng)的同義詞庫。
該文本分類裝置還包括 歸一化單元15,用于對情感傾向度獲取單元12獲取的情感特征詞的情感傾向度進(jìn)行歸一化; 反向修正單元16,用于根據(jù)否定詞詞表,對歸一化單元15歸一化后的情感傾向度進(jìn)行反向修正。
通過使用本發(fā)明提供實(shí)施例提供的設(shè)備,根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取文本中情感特征詞的情感傾向度以用于文本的分類,提高了對詞匯的情感傾向度的判斷準(zhǔn)確程度。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可以通過硬件實(shí)現(xiàn),也可以借助軟件以及必要的通用硬件平臺的方式實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是CD-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述的方法。
以上公開的僅為本發(fā)明的幾個具體實(shí)施例,但是,本發(fā)明并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種文本分類方法,其特征在于,包括
從輸入的文本中獲取情感特征詞;
根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取所述情感特征詞的情感傾向度;
根據(jù)所述情感特征詞的情感傾向度,對所述文本進(jìn)行分類。
2、如權(quán)利要求1所述的方法,其特征在于,所述從輸入的文本中獲取情感特征詞包括
對所述輸入的文本進(jìn)行分析,獲取帶有詞性標(biāo)注的詞列表;
對所述帶有詞性標(biāo)注的詞列表進(jìn)行分析,獲取約簡和轉(zhuǎn)化后的帶有詞性標(biāo)注的詞列表;
對所述約簡和轉(zhuǎn)化后的帶有詞性標(biāo)注的詞列表進(jìn)行統(tǒng)計,獲取詞語的統(tǒng)計信息;
根據(jù)詞語的統(tǒng)計信息,獲取特定的詞語作為情感特征詞。
3、如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)詞語的統(tǒng)計信息,獲取特定的詞語作為情感特征詞包括
對于不同的詞語,以統(tǒng)計信息為權(quán)重,詞性為類別,對每類詞獲取權(quán)重大于閾值的詞語作為情感特征詞。
4、如權(quán)利要求1所述的方法,其特征在于,所述預(yù)先構(gòu)造同義詞庫包括根據(jù)潛在語義分析LSA以及關(guān)聯(lián)規(guī)則,構(gòu)造同義詞庫。
5、如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)潛在語義分析LSA以及關(guān)聯(lián)規(guī)則,構(gòu)造同義詞庫包括
構(gòu)造詞匯-文檔矩陣;
對所述詞匯-文檔矩陣中的元素進(jìn)行信息熵變換,得到信息熵變換后的詞匯-文檔矩陣;
對所述信息熵變換后的詞匯-文檔矩陣進(jìn)行奇異值分解,得到變換后的詞匯-文檔矩陣;
根據(jù)所述變換后的詞匯-文檔矩陣,生成關(guān)聯(lián)詞集合;
根據(jù)所述關(guān)聯(lián)詞集合以及預(yù)設(shè)的分類對應(yīng)的基本詞集合,構(gòu)成類對應(yīng)的同義詞庫。
6、如權(quán)利要求5所述的方法,其特征在于,所述構(gòu)造詞匯-文檔矩陣包括
構(gòu)造詞語-文檔矩陣為X=|aij|m×n,m代表詞匯總量,n代表文檔個數(shù),所述詞語-文檔矩陣的行向量代表情感詞詞匯量,列向量代表文檔個數(shù),所述造詞語-文檔矩陣的每一個元素aij代表第i個詞對第j個文檔而言的權(quán)重值。
7、如權(quán)利要求6所述的方法,其特征在于,所述aij的值為第i個詞在第j個文檔中出現(xiàn)的次數(shù)tf、乘以所述第i個詞的反文檔頻率idf;
詞C的反文檔頻率idf為其中N為文檔總數(shù),docNum(C)為包含詞C的文檔數(shù)。
8、如權(quán)利要求5或6所述的方法,其特征在于,所述對所述詞匯-文檔矩陣中的元素進(jìn)行信息熵變換包括
所述aij為信息熵變換前詞語-文檔矩陣中的元素,所述aij′為信息熵變換后的詞語-文檔矩陣X′=|aij′|m×n中的元素,。
9、如權(quán)利要求8所述的方法,其特征在于,所述對所述信息熵變換后的詞匯-文檔矩陣進(jìn)行奇異值分解,得到變換后的詞匯-文檔矩陣包括
將所述X′=|aij′|m×n分解為X′=U∑VT;其中U和V分別是X′的奇異值對應(yīng)的左、右奇異向量矩陣,且U和V為正交矩陣;∑是標(biāo)準(zhǔn)型,VT是V的轉(zhuǎn)秩,X′的奇異值按遞減排列構(gòu)成對角矩陣∑k,取U和V最前而的k個列,構(gòu)建X′的k-秩近似矩陣
10、如權(quán)利要求5所述的方法,其特征在于,所屬根據(jù)所述變換后的詞匯-文檔矩陣,生成關(guān)聯(lián)詞集合包括
生成頻繁項(xiàng)集合;
根據(jù)所屬頻繁項(xiàng)集合生成關(guān)聯(lián)規(guī)則;
根據(jù)所述關(guān)聯(lián)規(guī)則獲取情感詞匯的關(guān)聯(lián)詞集合。
11、如權(quán)利要求1所述的方法,其特征在于,所述獲取所述情感特征詞的情感傾向度后,還包括
對所述情感特征詞的情感傾向度進(jìn)行歸一化;
根據(jù)否定詞詞表尋找在文檔中出現(xiàn)的否定詞,對所述否定詞修飾范圍內(nèi)的情感特征詞歸一化后的情感傾向度進(jìn)行反向修正;
所述反向修正包括若情感特征詞C的歸一化后情感傾向度SO(C)=d,d∈
,某否定詞修飾情感特征詞C,則反向修正SO(C)為SO(C)=1-d。
12、如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述情感特征詞的情感傾向度,對所述文本進(jìn)行分類包括
根據(jù)所述情感特征詞的情感傾向度以及出現(xiàn)頻率,獲取所述情感特征詞的權(quán)重;
將所述情感特征詞劃分到具有不同傾向的子類;
根據(jù)劃分到不同子類的情感特征詞的權(quán)重,獲取作為各個子類的情感傾向度;
根據(jù)各個子類的情感傾向度作為所述文本的傾向并建立索引,作為對所述文本的分類。
13、一種文本分類裝置,其特征在于,包括
情感特征詞獲取單元,用于從輸入的文本中獲取情感特征詞;
情感傾向度獲取單元,用于根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取所述情感特征詞獲取單元獲取的情感特征詞的情感傾向度;
分類單元,用于根據(jù)所述情感傾向度獲取單元獲取的情感特征詞的情感傾向度,對所述文本進(jìn)行分類。
14、如權(quán)利要求13所述文本分類裝置,其特征在于,所述情感特征詞獲取單元包括
中文分詞子單元,用于對所述輸入的文本進(jìn)行分析,獲取帶有詞性標(biāo)注的詞列表;
語法分析子單元,用于對所述中文分詞子單元獲取的帶有詞性標(biāo)注的詞列表進(jìn)行分析,獲取約簡和轉(zhuǎn)化后的帶有詞性標(biāo)注的詞列表;
統(tǒng)計子單元,用于對所述語法分析子單元獲取的約簡和轉(zhuǎn)化后的帶有詞性標(biāo)注的詞列表進(jìn)行統(tǒng)計,獲取詞語的統(tǒng)計信息;
獲取子單元,用于根據(jù)所述統(tǒng)計子單元獲取的詞語的統(tǒng)計信息,獲取特定的詞語作為情感特征詞。
15、如權(quán)利要求13所述文本分類裝置,其特征在于,還包括同義詞庫構(gòu)造單元,用于根據(jù)潛在語義分析LSA以及關(guān)聯(lián)規(guī)則,構(gòu)造同義詞庫,并提供給所述情感傾向度獲取單元。
16、如權(quán)利要求15所述文本分類裝置,其特征在于,所述同義詞庫構(gòu)造單元包括
矩陣構(gòu)造子單元,用于構(gòu)造詞匯-文檔矩陣;
信息熵變換子單元,用于對所述矩陣構(gòu)造子單元構(gòu)造的詞匯-文檔矩陣中的元素進(jìn)行信息熵變換,得到信息熵變換后的詞匯-文檔矩陣;
奇異值分解子單元,用于對所述信息熵變換后的詞匯-文檔矩陣進(jìn)行奇異值分解,得到變換后的詞匯-文檔矩陣;
關(guān)聯(lián)詞集合生成子單元,用于根據(jù)所述奇異值分解子單元變換后的詞匯-文檔矩陣,生成關(guān)聯(lián)詞集合;
詞庫構(gòu)造子單元,用于根據(jù)所述關(guān)聯(lián)詞集合以及預(yù)設(shè)的分類對應(yīng)的基本詞集合,構(gòu)成類對應(yīng)的同義詞庫。
17、如權(quán)利要求13所述文本分類裝置,其特征在于,還包括
歸一化單元,用于對所述情感傾向度獲取單元獲取的情感特征詞的情感傾向度進(jìn)行歸一化;
反向修正單元,用于根據(jù)否定詞詞表尋找在文檔中出現(xiàn)的否定詞,對所述否定詞后面的情感特征詞的歸一化后的情感傾向度進(jìn)行反向修正。
18、如權(quán)利要求13所述文本分類裝置,其特征在于,所述分類單元
權(quán)重獲取子單元,用于根據(jù)所述情感特征詞的情感傾向度以及出現(xiàn)頻率,獲取所述情感特征詞的權(quán)重;
子類劃分子單元,用于將所述情感特征詞劃分到具有不同傾向的子類;
情感傾向度獲取子單元,用于根據(jù)劃分到不同子類的情感特征詞的權(quán)重,獲取作為各個子類的情感傾向度;
分類子單元,用于根據(jù)各個子類的情感傾向度作為所述文本的傾向并建立索引,作為對所述文本的分類。
19、一種計算機(jī)可存儲介質(zhì),其特征在于,存儲有可讀寫程序,使得處理器執(zhí)行所述權(quán)利要求1至權(quán)利要求13中任一項(xiàng)所述的方法。
全文摘要
本發(fā)明的實(shí)施例公開了一種文本分類方法和裝置。該方法包括從輸入的文本中獲取情感特征詞;根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取所述情感特征詞的情感傾向度;根據(jù)所述情感特征詞的情感傾向度,對所述文本進(jìn)行分類。通過使用本發(fā)明的實(shí)施例,根據(jù)預(yù)先構(gòu)造的同義詞庫,獲取文本中情感特征詞的情感傾向度以用于文本的分類,提高了對詞匯的情感傾向度的判斷準(zhǔn)確程度。
文檔編號G06F17/27GK101634983SQ20081013217
公開日2010年1月27日 申請日期2008年7月21日 優(yōu)先權(quán)日2008年7月21日
發(fā)明者莉 佘, 翼 張 申請人:華為技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
崇明县| 抚松县| 罗平县| 黔南| 苏尼特右旗| 靖边县| 阳原县| 兴安盟| 土默特左旗| 唐海县| 青神县| 永泰县| 溧阳市| 甘洛县| 毕节市| 高密市| 靖远县| 安陆市| 枣庄市| 长白| 友谊县| 黎川县| 桐城市| 海丰县| 建始县| 湖州市| 宁蒗| 新和县| 嵊泗县| 乡城县| 海安县| 弥勒县| 中卫市| 九江市| 通江县| 汉川市| 桃园县| 井陉县| 寿宁县| 库伦旗| 资中县|