欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于向量組映射的兩類文本的分類方法

文檔序號:6400306閱讀:328來源:國知局
專利名稱:基于向量組映射的兩類文本的分類方法
技術(shù)領(lǐng)域
本發(fā)明屬于電子信息技術(shù)領(lǐng)域,具體涉及一種基于向量組映射的兩類文本的分類方法。
背景技術(shù)
文本分類是指用計算機按照一定的標(biāo)準(zhǔn)對文本集自動賦予類別標(biāo)記,它在信息檢索、文本挖掘和情報分析等領(lǐng)域中具有重要應(yīng)用,其中涉及文本表示、特征選擇、分類模型和評價方法等關(guān)鍵技術(shù)。文本分類的過程如附

圖1所示。首先需要對文本進行預(yù)處理,并對文本進行特征向量表示;然后訓(xùn)練學(xué)習(xí)構(gòu)造分類器;最后使用分類器對新文本進行分類。目前,比較常用的文本分類器有樸素貝葉斯(DVeBayes)、支持向量機(SVM)、K最近鄰(KNN)等。其中KNN方法簡單易行,而且分類效果良好,對不同數(shù)據(jù)集有良好的可操作性。最近鄰方法是KNN方法的一個特例,它的基本思想是在訓(xùn)練樣本中找到測試樣本的最近鄰樣本,然后根據(jù)這個最近鄰樣本的類別決定測試樣本的類別。首先,由于最近鄰方法只根據(jù)距離測試樣本最近鄰的樣本判斷測試樣本的類別,放大了噪聲數(shù)據(jù)的干擾,會降低分類精度。其次,由于傳統(tǒng)的最近鄰方法并沒有訓(xùn)練階段,所有的計算都是在分類時完成的,所以這種方法的實時性不好。當(dāng)訓(xùn)練集文檔數(shù)量很大的時候,其計算開銷巨大,以至于隨著訓(xùn)練集的增長,分類過程將非常緩慢甚至無法進行。這是最近鄰方法的一個主要缺點。目前主要從兩個方面來減少最近鄰方法的計算開銷:一是減少訓(xùn)練集的規(guī)模,清除噪聲數(shù)據(jù);二是改進最近鄰的相似度計算和搜索算法,減少相似度計算的復(fù)雜度,由全局搜索改為局部搜索。現(xiàn)有的算法雖然能夠有效降低最近鄰搜索的計算開銷,但是它們大部分無法保證進行全局的最優(yōu)搜索,不能適用于海量數(shù)據(jù)和高維空間。

發(fā)明內(nèi)容
針對上述基于最近鄰文本分類過程中存在的抗噪聲數(shù)據(jù)干擾能力弱、分類時計算開銷大的缺陷,本發(fā)明提出了一種根據(jù)全局正、負(fù)類樣本的特征信息判斷測試樣本的類別,從而降低分類時對個別樣本的依賴度以及分類時間的兩類文本分類方法。本發(fā)明的基本原理:對每一個文本提取特征,將一個文本表示為一個特征向量的形式,進而將一類文本表示成向量組的形式。然后,由映射變換將每個類別的向量組映射為相應(yīng)的類別向量,通過計算兩個向量間的歐式距離判斷距離測試樣本最近的是正類列向量還是負(fù)類列向量,并根據(jù)距離測試樣本最近的列向量類別判斷這個測試樣本的類別。一種基于向量組映射的兩類文本的分類方法,其特征在于包括以下步驟:步驟一,收集數(shù)據(jù)集,將收集的數(shù)據(jù)集分為訓(xùn)練樣本集和測試樣本集。步驟二,預(yù)處理數(shù)據(jù)集,方法如下:將無結(jié)構(gòu)化的數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù),得到建立模型或應(yīng)用模型進行分類的、包含各個文本屬性等字段信息的原始數(shù)據(jù)樣本;對已結(jié)構(gòu)化的數(shù)據(jù)樣本進行分詞,完成單詞字符小寫化、去停用詞、刪除標(biāo)點符號以及詞根還原的初步處理,統(tǒng)計每個測試樣本以及訓(xùn)練樣本的詞頻。步驟三,對訓(xùn)練樣本集,提取出總詞表,方法如下:對于總詞表中的每一個詞項,統(tǒng)計包含該詞項的正類樣本個數(shù)以及負(fù)類樣本個數(shù),過濾掉訓(xùn)練樣本集中所有正、負(fù)類文檔頻率小于3的詞項,得到文檔頻率表。步驟四,對訓(xùn)練樣本集進行特征選取,得到特征向量表。具體方法如下:對于步驟三得到的總詞表中的每一個詞項,計算詞項t對于文本類別Ci的X2統(tǒng)計值x2(t,Ci)。X2統(tǒng)計值越高,它與該類之間的相關(guān)性越大,攜帶的類別信息也較多,計算公式如下:
權(quán)利要求
1.一種基于向量組映射的兩類文本的分類方法,其特征在于包括以下步驟: 步驟一,收集數(shù)據(jù)集,將收集的數(shù)據(jù)集分為訓(xùn)練樣本集和測試樣本集; 步驟二,預(yù)處理數(shù)據(jù)集,方法如下: 將無結(jié)構(gòu)化的數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù),得到建立模型或應(yīng)用模型進行分類的、包含各個文本屬性等字段信息的原始數(shù)據(jù)樣本;對已結(jié)構(gòu)化的數(shù)據(jù)樣本進行分詞,完成單詞字符小寫化、去停用詞、刪除標(biāo)點符號以及詞根還原的初步處理,統(tǒng)計每個測試樣本以及訓(xùn)練樣本的詞頻; 步驟三,對訓(xùn)練樣本集,提取出總詞表,方法如下: 對于總詞表中的每一個詞項,統(tǒng)計包含該詞項的正類樣本個數(shù)以及負(fù)類樣本個數(shù),過濾掉訓(xùn)練樣本集中所有正、負(fù)類文檔頻率小于3的詞項,得到文檔頻率表; 步驟四,對訓(xùn)練樣本集進行特征選取,得到特征向量表;方法如下: 對于步驟三得到的總詞表中的每一個詞項,計算詞項t對于文本類別Ci的X2統(tǒng)計值x2(t, Ci) ; X2統(tǒng)計值越高,它與該類之間的相關(guān)性越大,攜帶的類別信息也較多,計算公式如下:
全文摘要
本發(fā)明公開了一種基于向量組映射的兩類文本的分類方法,包括收集文本數(shù)據(jù)集,將其劃分為訓(xùn)練集和測試集;預(yù)處理數(shù)據(jù)集;提取總詞表并統(tǒng)計詞頻;對訓(xùn)練樣本集進行特征選取,得到特征向量表;將數(shù)據(jù)集中的所有樣本特征項賦權(quán)值表示成向量;將訓(xùn)練樣本集和測試樣本集分別表示成一個向量組;將訓(xùn)練樣本集中正、負(fù)類樣本分別表示為全矩陣形式;將訓(xùn)練樣本中的正類文本矩陣和負(fù)類文本矩陣分別映射為一個向量;利用最近鄰算法判斷測試樣本的類別。本發(fā)明使用tf*rf特征提取法,用向量組表示正、負(fù)類文本,不僅能夠提取自適應(yīng)能力強、分類性能好的文本特征,還能全面地表示文本信息,通過向量組的映射變換,簡化了分類過程,提高了分類速度。
文檔編號G06F17/30GK103207893SQ20131008045
公開日2013年7月17日 申請日期2013年3月13日 優(yōu)先權(quán)日2013年3月13日
發(fā)明者李玉鑑, 王影 申請人:北京工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
名山县| 广州市| 廉江市| 富阳市| 渑池县| 白水县| 锦州市| 云梦县| 吉安市| 曲沃县| 临颍县| 乐清市| 互助| 邵东县| 阳江市| 巴塘县| 贺州市| 盐城市| 西城区| 巴东县| 临潭县| 进贤县| 花莲市| 富顺县| 香港 | 攀枝花市| 洪雅县| 昌吉市| 交口县| 民和| 综艺| 江口县| 铜梁县| 湘潭县| 景谷| 莒南县| 淳化县| 云阳县| 金华市| 汝南县| 崇义县|