欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于lzw壓縮算法的中文文本分類特征詞典生成方法

文檔序號:6597085閱讀:262來源:國知局

專利名稱::一種基于lzw壓縮算法的中文文本分類特征詞典生成方法
技術(shù)領(lǐng)域
:本發(fā)明涉及計算機應(yīng)用中的文本挖掘和知識獲取領(lǐng)域,特別涉及一種基于LZW壓縮算法的中文文本分類特征詞典生成方法。
背景技術(shù)
:特征詞典是文本分類中用來表示文本的所有特征詞的集合。目前,中文文本分類特征詞典生成方法主要是基于中文分詞處理之后進(jìn)行特征詞選擇,中文分詞工具往往是不可缺少的,且分詞工具性能的優(yōu)劣對最終的文本分類效果影響不可忽略。特征選擇通常采用特征過濾法、特征重構(gòu)法、或潛在語義索引法。特征過濾法主要包括基于文檔頻率(DF)、互信息(MI)、信息增益(IG)、/量等過濾方法,即對分詞后所得的所有詞語計算其在整個文檔集中的以上某種值,設(shè)定閾值進(jìn)行過濾;特征重構(gòu)法主要包括聚類法和潛在語義索引法,聚類法將對某一類別貢獻(xiàn)相同或者相近的詞語聚為一類,用該類的中心來替代該類所有詞語作為特征空間中的一項;潛在語義索引法利用矩陣的奇異值分解技術(shù)來實現(xiàn)特征空間的降維。當(dāng)前主要的中文分詞工具有中科院計算機技術(shù)研究所的ICTCLAS、海量科技公司的海量智能分詞系統(tǒng)、哈工大統(tǒng)計分詞系統(tǒng)、清華大學(xué)SEGTAG系統(tǒng)、北大計算機語言所的分詞系統(tǒng)等。優(yōu)秀的分詞工具不僅要有很高的詞語切分和詞性標(biāo)注準(zhǔn)確度,還要確保較好的歧義處理和未登錄詞識別功能。然而,對于文本分類問題,只需要用到其詞語切分功能,將文本切分成一個個獨立的詞語項。因此采用分詞工具進(jìn)行詞語切分,就限定了文本分類的特征項是最小的語義單元——詞,而且候選特征集是文檔集被分詞后出現(xiàn)的所有詞匯,候選詞匯量非常大,影響特征抽取的效率。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,它無需第三方中文分詞工具就能夠構(gòu)建文本分類特征詞典,提高了特征抽取的效率。為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案予以實現(xiàn)一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,包括以下步驟步驟l:假設(shè)待分類的文本共有r個類別,每個類別對應(yīng)一個樣本集,對于第i類樣本集初始化一個字符串表str—其中i二l,…,:r,該字符串表s^—t3力7ft中每項為(str,TF),分別記錄字符串str及其在第i類樣本集中出現(xiàn)的頻率TF;步驟2:將第i類樣本集中的文檔輸入LZW壓縮算法LZWencode(infile,strj:able),并產(chǎn)生相應(yīng)的壓縮編碼串,作為候選特征詞用來更新字符串表Wr—taWei,B卩若字符串str已存在于字符串表s^r—z^Wei中,則將字符串st.r的頻率TF值加1,否則增加一項新的字符串str并將其頻率TF值設(shè)置為1;步驟3:對字符串表str—z^Wft中的項按頻率TF值排序,設(shè)定頻率閾值肌'"^,刪除頻率TF值小于頻率閾值啦'/77Fi的項;步驟4:統(tǒng)計字符串表Wr—te^ft中各項字符串str在第i類樣本集中出現(xiàn)的文檔頻率DF,即第i類樣本集中出現(xiàn)字符串str的文檔數(shù),設(shè)定第i類詞典Wci以及其最小文檔頻率閾值肌'/ZFi、最大文檔頻率閾值歷s^^,將肌V7/^《DF《/^WW的字符串str和其文檔頻率DF加入到第i類詞典&、中;步驟5:將各類詞典A'Ci綜合成總詞典D,其中每個字符串str在整個樣本集中出現(xiàn)的文檔頻率DF等于其在各個類別中的文檔頻率DF值之和,按照總詞典D中的文檔頻率DF對各項進(jìn)行排序,并設(shè)定總詞典D中的最小文檔頻率閾值肌V",和最大文檔頻率閾值/zazZ,,刪除總詞典D中的文檔頻率DF值小于最小文檔頻率閾值肌'/7",和大于最大文檔頻率閾值MS^F的項;步驟6:計算總詞典D中各項字符串str在整個樣本集的信息增益值IG,'尸(C'■伊)log-尸(o其中i^)表示單詞W出現(xiàn)的概率,單詞W即為字符串str;P(O為第i類值的出現(xiàn)概率;P(G,,)為單詞W出現(xiàn)時屬于第i類的條件概率;然后,對總詞典D中字符串str按照其信息增益IG值從大到小進(jìn)行排序,設(shè)定總詞典D容量M,截取前M項,此時形成的總詞典D便作為該r類文本分類的特征詞典。本發(fā)明的進(jìn)一步特點在于所述頻率閾值肌'/7Fi為字符串表str—taWft中第510小的頻率TF值;所述第i類詞典中的最小文檔頻率閾值為字符串表W2lZ^Wei中str第510小的文檔頻率DF值;所述第i類詞典Ad中的最大文檔頻率閾值/z^^,i為字符串表Wr—&力仏中第510大的文檔頻率DF值;所述總詞典D中的最小文檔頻率閾值/w'/ZF為總詞典D中第510小的文檔頻率DF值;所述總詞典D中的最大文檔頻率閾值/ffl9xZ尸為總詞典D中第510大的DF值本發(fā)明所提出的基于LZW壓縮算法的中文文本分類特征詞典生成方法,能有效地適用于中文文本分類問題的特征詞典構(gòu)建。與采用分詞工具的特征詞典生成方法不同的是,該方法不是在獲得了全部的獨立詞匯之后再進(jìn)行詞頻統(tǒng)計,而是直接在文本中提取特征串并統(tǒng)計其詞頻。特征過濾在已進(jìn)行初步篩選的字符串表上進(jìn)行,相比于一般方法在樣本集的全體詞匯上進(jìn)行特征過濾,減少了計算量,提高了特征抽取的效率。具體實施例方式下面對本發(fā)明的內(nèi)容作進(jìn)一步詳細(xì)說明?;贚ZW壓縮算法的中文文本分類特征詞典生成方法,包括以下步驟步驟l:假設(shè)需要將文本分為r個類別,每個類別對應(yīng)一個樣本集,對于第i類樣本集初始化一個字符串表Wr一&Wft,其中i=1,…,r,該字符串表s^—z^Wa中每項為(str,TF),分別記錄字符串str及其在第i類樣本集中出現(xiàn)的頻率TF。步驟2:將第i類樣本集中的文檔輸入LZW壓縮算法LZWencode(infile,str—table),并產(chǎn)生相應(yīng)的壓縮編碼串,作為候選特征詞用來更新字符串表sz^r—te力7&,即若字符串str已存在于字符串表Wr—&力7&中,則將字符串str的頻率TF值加1,否則增加一項新的字符串str并將其頻率TF值設(shè)置為1。LZW壓縮算法LZWencode描述如下LZWencode(infile,str_table)Stepl:wbuf=convert_to—widestring(infile);Step2:it=wbuf的首承#index-=0,old_index=0;Step3:while(it不是—wbuf的尾字符)wstrl=wstr;wstrl=wstrl+it;old—index=index;if(wstrl已存在于str_table中)wstr=wstrl;index=wstrl在str—table中的位置;elseif(str」able為空)將(wstrl,l)添加到strjable;elsestr—table第oldjndex項的TF值加1;if(wstrl小于strjable第index項的str)將(wstrl,l)插"Xstr—table第index項之前;elseif(index未指向strjable尾部)將(wstrl,l)插入str—table第index+1項之前;else將(wstrl,l)插入str—table尾部;置wstr為空;wstrl=wstrl+it;it=wbuf下一個字符;步驟3:對字符串表W2i2^Wft中的項按頻率TF值排序,設(shè)定頻率閾值肌'"7Fi,刪除頻率TF值小于頻率閾值肌'/777^的項;所述頻率閾值啦'/7Fi為字符串表&力仏中第510小的頻率TF值。步驟4:統(tǒng)計字符串表Wii中各項字符串str在第i類樣本集中出現(xiàn)的文檔頻率DF,即第i類樣本集中出現(xiàn)字符串str的文檔數(shù),設(shè)定第i類詞典以及其最小文檔頻率閾值肌V7/Fi、最大文檔頻率閾值yz;a;^,i,將孤V7"A《DF《歷a^,i的字符串str和其文檔頻率DF加入到第i類詞典力>中。步驟5:將各類詞典^Ci綜合成總詞典D,其中每個字符串str在整個樣本集中出現(xiàn)的文檔頻率DF等于其在各個類別中的文檔頻率DF值之和,按照總詞典D中的文檔頻率DF對各項進(jìn)行排序,并設(shè)定總詞典D中的最小文檔頻率閾值肌'"ZF和最大文檔頻率閾值y^WF,刪除總詞典D中的文檔頻率DF值小于最小文檔頻率閾值啦'/7",和大于最大文檔頻率閾值鵬;^,的項;所述第i類詞典中的最小文檔頻率閾值/77y/7/Fi為字符串表z^Wei中str第5<formula>formulaseeoriginaldocumentpage9</formula>10小的文檔頻率DF值;所述第i類詞典^'Ci中的最大文檔頻率閾值為字符串表^7it3力7ft中第510大的文檔頻率DF值;所述總詞典D中的最小文檔頻率閾值肌V7"尸為總詞典D中第510小的文檔頻率DF值;所述總詞典D中的最大文檔頻率閾值/zaxa^為總詞典D中第510大的DF值。步驟6:計算總詞典D中各項字符串str在整個樣本集的信息增益值IG,其中P(『)表示單詞W出現(xiàn)的概率,單詞W即為字符串str;P(G,)為第i類值的出現(xiàn)概率;戶(C)為單詞W出現(xiàn)時屬于第i類的條件概率;然后,對總詞典D中字符串str按照其信息增益IG值從大到小進(jìn)行排序,設(shè)定總詞典D容量M,截取前M項,此時形成的總詞典D便作為該r類文本分類的特征詞典。下面以具體實驗例對本發(fā)明做進(jìn)一步詳細(xì)說明。選擇6門計算機課程系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)庫、分布式操作系統(tǒng)、信息安全、計算機網(wǎng)絡(luò)和操作系統(tǒng)來進(jìn)行分類試驗。各科相應(yīng)的訓(xùn)練文檔數(shù)為系統(tǒng)結(jié)構(gòu)275篇、數(shù)據(jù)庫247篇、分布式操作系統(tǒng)281篇、信息安全270篇、計算機網(wǎng)絡(luò)237篇和操作系統(tǒng)278篇,共計1588篇。隨機選擇其中的300篇作為測試集,其他的1288篇作為訓(xùn)練集,針對本方法和基于分詞工具的方法,使用相同的特征表示方法和分類算法進(jìn)行分類實驗。最終特征詞典大小為1038,特征表示方法采用LTC權(quán)值表示法,分類算法選用支持向量機(SVM)算法,使用中科院分詞工具ICTCLAS的實驗結(jié)果如下<image>imageseeoriginaldocumentpage10</image><table>tableseeoriginaldocumentpage10</column></row><table>由此計算可得分類正確率(accuracy)=(50+47+52+47+39+49)/300=94.7%??梢园l(fā)現(xiàn),本方法獲得了非常高的分類正確率,最終的分類正確率與采用中科院分詞方法相當(dāng)。因此,在缺少可用的中文分詞工具的情況下,該方法能很好地適用于文本分類的特征詞典構(gòu)建。權(quán)利要求1、一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,包括以下步驟步驟1假設(shè)待分類的文本共有r個類別,每個類別對應(yīng)一個樣本集,對于第i類樣本集初始化一個字符串表str_tablei,其中i=1,…,r,該字符串表str_tablei中每項為(str,TF),分別記錄字符串str及其在第i類樣本集中出現(xiàn)的頻率TF;步驟2將第i類樣本集中的文檔輸入LZW壓縮算法LZWencode(infile,str_table),并產(chǎn)生相應(yīng)的壓縮編碼串,作為候選特征詞用來更新字符串表str_tablei,即若字符串str已存在于字符串表str_tablei中,則將字符串str的頻率TF值加1,否則增加一項新的字符串str并將其頻率TF值設(shè)置為1;步驟3對字符串表str_tablei中的項按頻率TF值排序,設(shè)定頻率閾值minTFi,刪除頻率TF值小于頻率閾值minTFi的項;步驟4統(tǒng)計字符串表str_tablei中各項字符串str在第i類樣本集中出現(xiàn)的文檔頻率DF,即第i類樣本集中出現(xiàn)字符串str的文檔數(shù),設(shè)定第i類詞典dici以及其最小文檔頻率閾值minDFi、最大文檔頻率閾值maxDFi,將minDFi≤DF≤maxDFi的字符串str和其文檔頻率DF加入到第i類詞典dici中;步驟5將各類詞典dici綜合成總詞典D,其中每個字符串str在整個樣本集中出現(xiàn)的文檔頻率DF等于其在各個類別中的文檔頻率DF值之和,按照總詞典D中的文檔頻率DF對各項進(jìn)行排序,并設(shè)定總詞典D中的最小文檔頻率閾值minDF和最大文檔頻率閾值maxDF,刪除總詞典D中的文檔頻率DF值小于最小文檔頻率閾值minDF和大于最大文檔頻率閾值maxDF的項;步驟6計算總詞典D中各項字符串str在整個樣本集的信息增益值IG,其中P(W)表示單詞W出現(xiàn)的概率,單詞W即為字符串str;P(Ci)為第i類值的出現(xiàn)概率;P(Ci|W)為單詞W出現(xiàn)時屬于第i類的條件概率;然后,對總詞典D中字符串str按照其信息增益IG值從大到小進(jìn)行排序,設(shè)定總詞典D容量M,截取前M項,此時形成的總詞典D便作為該r類文本分類的特征詞典。2、一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,所述頻率閾值777/7777^為字符串表Wr—te力7ft中第510小的頻率TF值。3、一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,所述第i類詞典AG中的最小文檔頻率閾值孤VZFi為字符串表s^—ts力7ei中str第510小的文檔頻率DF值。4、一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,所述第i類詞典中的最大文檔頻率閾值yaa;^Fi為字符串表te/Wei中第510大的文檔頻率DF值。5、一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,所述總詞典D中的最小文檔頻率閾值孤'/7/F為總詞典D中第510小的文檔頻率DF值。6、一種基于LZW壓縮算法的中文文本分類特征詞典生成方法,其特征在于,所述總詞典D中的最大文檔頻率閾值/^zZF為總詞典D中第510大的DF值。全文摘要本發(fā)明涉及計算機應(yīng)用中的文本挖掘和知識獲取領(lǐng)域,特別涉及一種基于LZW壓縮算法的中文文本分類特征詞典生成方法。它包括以下步驟首先假設(shè)待分類的文本的r個類別,每個類別對應(yīng)一個樣本集,對于第i類樣本集初始化一個字符串表str_table<sub>i</sub>,其中i=1,…,r;然后,將第i類樣本集中的文檔輸入LZW壓縮算法LZWencode(infile,str_table),并產(chǎn)生相應(yīng)的壓縮編碼串,作為候選特征詞用來更新字符串表str_table<sub>i</sub>;最后,多重過濾字符串后形成r類文本分類的特征詞典。文檔編號G06F17/30GK101441663SQ20081023255公開日2009年5月27日申請日期2008年12月2日優(yōu)先權(quán)日2008年12月2日發(fā)明者均劉,吳朝暉,曉常,鵬林,路蔣,鄭慶華申請人:西安交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
黔江区| 肃宁县| 夏津县| 内江市| 贵南县| 麦盖提县| 武胜县| 抚顺市| 昭苏县| 台中县| 天全县| 达尔| 遂平县| 大城县| 英山县| 平潭县| 新宁县| 南乐县| 吉木萨尔县| 登封市| 红安县| 博客| 修水县| 张北县| 福海县| 绥化市| 姜堰市| 庆元县| 兴仁县| 泽普县| 西峡县| 阿拉善盟| 灵寿县| 汨罗市| 江津市| 南宁市| 广州市| 资阳市| 黎平县| 恩施市| 子洲县|