欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于特征選擇的網(wǎng)頁(yè)文本分類方法

文檔序號(hào):6536991閱讀:229來(lái)源:國(guó)知局
基于特征選擇的網(wǎng)頁(yè)文本分類方法
【專利摘要】基于特征選擇的網(wǎng)頁(yè)文本分類方法,首先,把由大量的網(wǎng)頁(yè)構(gòu)成的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分;然后,根據(jù)網(wǎng)頁(yè)標(biāo)簽域中的信息表達(dá)網(wǎng)頁(yè)內(nèi)容的能力賦予標(biāo)簽不同的權(quán)重,并計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的權(quán)重(歸一化后的詞頻與反文檔頻率之積);在所得權(quán)重的基礎(chǔ)上結(jié)合類內(nèi)分布率和類間偏差,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)的特征向量,繼而計(jì)算訓(xùn)練集中每個(gè)類的特征向量;最后,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻,以及待分類網(wǎng)頁(yè)與訓(xùn)練集中每一個(gè)類之間的相似度,采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類,得到分類結(jié)果。
【專利說(shuō)明】基于特征選擇的網(wǎng)頁(yè)文本分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘方法【技術(shù)領(lǐng)域】,涉及一種基于特征選擇的網(wǎng)頁(yè)文本分類方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)與通訊技術(shù)的快速發(fā)展、互聯(lián)網(wǎng)迅速普及應(yīng)用,網(wǎng)絡(luò)上的網(wǎng)頁(yè)正以幾何級(jí)數(shù)的速度增長(zhǎng)。面對(duì)這些爆炸式增長(zhǎng)的海量網(wǎng)絡(luò)信息,如何從中快速、有效地獲得有用的、感興趣的信息變得越來(lái)越重要。因此,有效地組織和管理網(wǎng)頁(yè)資源,縮短用戶獲取所需信息的時(shí)間,成為了目前急需解決的問(wèn)題。網(wǎng)頁(yè)分類技術(shù)應(yīng)運(yùn)而生,并逐漸成為繼文本分類之后機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。
[0003]傳統(tǒng)上的網(wǎng)頁(yè)分類是先由人工判斷類別,即在分析網(wǎng)頁(yè)的內(nèi)容之后,人工手動(dòng)選擇一個(gè)合適的類別。但是,這種人工分類的做法存在著許多缺點(diǎn):一是在網(wǎng)頁(yè)文本數(shù)量急劇增長(zhǎng)的情況下,用人工分類方法來(lái)進(jìn)行分類變得不切實(shí)際,需要耗費(fèi)大量的人力資源;二是人工對(duì)網(wǎng)頁(yè)文本進(jìn)行分類無(wú)法保證較高的分類準(zhǔn)確率,主要是由于每個(gè)人的經(jīng)驗(yàn)知識(shí)等主觀因素不同,分類結(jié)果可能會(huì)出現(xiàn)不一致的情況。因此,急需一種有效的方法對(duì)網(wǎng)頁(yè)文本進(jìn)行管理,由此網(wǎng)頁(yè)文本自動(dòng)分類技術(shù)開始顯示出其優(yōu)越性。
[0004]網(wǎng)頁(yè)文本自動(dòng)分類技術(shù)來(lái)源于文本自動(dòng)分類技術(shù),其目標(biāo)和文本分類技術(shù)一致,即在預(yù)先定義的網(wǎng)頁(yè)分類體系下,把待分類的網(wǎng)頁(yè)準(zhǔn)確歸屬到一個(gè)或多個(gè)相應(yīng)的類別。常用的網(wǎng)頁(yè)文本分類算法有以下幾種:KNN算法、NB (Naive Bayes)算法、支持向量機(jī)(SVM)、遺傳算法(GA)、RoCChio算法等。這些網(wǎng)頁(yè)文本自動(dòng)分類技術(shù)仍然存在著許多問(wèn)題,如網(wǎng)頁(yè)文本特征空間的維數(shù)過(guò)高,導(dǎo)致存儲(chǔ)空間大,分類速度慢;網(wǎng)頁(yè)中包含有大量網(wǎng)站標(biāo)記、廣告等噪聲信息,嚴(yán)重干擾了對(duì)網(wǎng)頁(yè)類別的確定,從而降低了分類的準(zhǔn)確率;同時(shí)網(wǎng)頁(yè)中不同位置的信息表達(dá)網(wǎng)頁(yè)的能力不同,對(duì)分類的準(zhǔn)確性有一定的影響。因此,迫切需要找到一種有效的網(wǎng)頁(yè)文本分類技術(shù),來(lái)減少分類的時(shí)間,并提高分類的準(zhǔn)確率。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是提供一種基于特征選擇的網(wǎng)頁(yè)文本分類方法,解決現(xiàn)有技術(shù)存在的分類速度慢、準(zhǔn)確率不高的問(wèn)題。
[0006]本發(fā)明的技術(shù)方案是,基于特征選擇的網(wǎng)頁(yè)文本分類方法,首先,把由大量的網(wǎng)頁(yè)構(gòu)成的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分;然后,根據(jù)網(wǎng)頁(yè)標(biāo)簽域中的信息表達(dá)網(wǎng)頁(yè)內(nèi)容的能力賦予標(biāo)簽不同的權(quán)重,并計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的權(quán)重(歸一化后的詞頻與反文檔頻率之積);在所得權(quán)重的基礎(chǔ)上結(jié)合類內(nèi)分布率和類間偏差,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)的特征向量,繼而計(jì)算訓(xùn)練集中每個(gè)類的特征向量;最后,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻,以及待分類網(wǎng)頁(yè)與訓(xùn)練集中每一個(gè)類之間的相似度,采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類,得到分類結(jié)果。
[0007]本發(fā)明的特點(diǎn)還在于:[0008]特征詞為對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理后得到的能表示網(wǎng)頁(yè)內(nèi)容的詞。
[0009]訓(xùn)練集中的網(wǎng)頁(yè)包含若干個(gè)不同的類,對(duì)每個(gè)類中的網(wǎng)頁(yè)進(jìn)行計(jì)算得到每個(gè)類的特征向量,然后,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻,以及待分類網(wǎng)頁(yè)與訓(xùn)練集中每個(gè)類的特征向量的相似度,采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類,得到對(duì)網(wǎng)頁(yè)進(jìn)行分類的結(jié)果。數(shù)據(jù)集中的訓(xùn)練集進(jìn)行一系列的計(jì)算構(gòu)造網(wǎng)頁(yè)分類器,測(cè)試集用于測(cè)試該網(wǎng)頁(yè)分類器對(duì)網(wǎng)頁(yè)進(jìn)行分類的性能優(yōu)劣。
[0010]具體步驟如下:
[0011]1.把由大量的網(wǎng)頁(yè)構(gòu)成的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,一般要求訓(xùn)練集取數(shù)據(jù)集的80%左右,測(cè)試集取剩余部分;
[0012]2.對(duì)數(shù)據(jù)集(包括訓(xùn)練集和測(cè)試集)進(jìn)行預(yù)處理,主要是對(duì)網(wǎng)頁(yè)進(jìn)行分詞,即將網(wǎng)頁(yè)內(nèi)的文本切分成單個(gè)的詞語(yǔ),去除網(wǎng)頁(yè)中對(duì)分類無(wú)關(guān)的噪音信息,去除停用詞即無(wú)實(shí)際含義或應(yīng)用很廣泛的詞;
[0013]3.結(jié)合特征詞的位置特征,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻;
[0014]4.結(jié)合特征詞的類內(nèi)分布率和類間偏差,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特證詞的權(quán)重(TFIDF);
[0015]5.根據(jù)每個(gè)網(wǎng)頁(yè)內(nèi)特證詞的權(quán)重,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)的文本特征向量;
[0016]6.根據(jù)每個(gè)類中各網(wǎng)頁(yè)的文本特征向量,計(jì)算訓(xùn)練集中每個(gè)類的特征向量;
[0017]7.結(jié)合特征詞的位置特征,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻;
[0018]8.利用向量空間模型進(jìn)行網(wǎng)頁(yè)分類,采用兩個(gè)特征向量間的余弦夾角公式計(jì)算待分類網(wǎng)頁(yè)與訓(xùn)練集中每一個(gè)類之間的相似度,并采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類。
[0019]計(jì)算特征詞的詞頻時(shí),考慮其位置的影響,本發(fā)明根據(jù)實(shí)際經(jīng)驗(yàn)并參考前人的研究成果,認(rèn)為表示網(wǎng)頁(yè)中心內(nèi)容的標(biāo)題,其權(quán)重最高;對(duì)概括和強(qiáng)調(diào)網(wǎng)頁(yè)起關(guān)鍵作用的簡(jiǎn)介和關(guān)鍵字,其權(quán)重次之;網(wǎng)頁(yè)正文,其權(quán)重最低。
[0020]計(jì)算特征詞tk的權(quán)重時(shí)結(jié)合特征詞tk的類間偏差EDw和類內(nèi)分布率IDw,其中,類間偏差EDkj的計(jì)算公式如下:
[0021]
【權(quán)利要求】
1.基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,首先,把由大量的網(wǎng)頁(yè)構(gòu)成的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分;然后,根據(jù)網(wǎng)頁(yè)標(biāo)簽域中的信息表達(dá)網(wǎng)頁(yè)內(nèi)容的能力賦予標(biāo)簽不同的權(quán)重,并計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的權(quán)重(歸一化后的詞頻與反文檔頻率之積);在所得權(quán)重的基礎(chǔ)上結(jié)合類內(nèi)分布率和類間偏差,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)的特征向量,繼而計(jì)算訓(xùn)練集中每個(gè)類的特征向量;最后,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻,以及待分類網(wǎng)頁(yè)與訓(xùn)練集中每一個(gè)類之間的相似度,采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類,得到分類結(jié)果。
2.如權(quán)利要求1所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,特征詞為對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理后得到的能表示網(wǎng)頁(yè)內(nèi)容的詞。
3.如權(quán)利要求1所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,所述訓(xùn)練集中的網(wǎng)頁(yè)包含若干個(gè)不同的類,對(duì)每個(gè)類中的網(wǎng)頁(yè)進(jìn)行計(jì)算得到每個(gè)類的特征向量,然后,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻,以及待分類網(wǎng)頁(yè)與訓(xùn)練集中每個(gè)類的特征向量的相似度,采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類,得到對(duì)網(wǎng)頁(yè)進(jìn)行分類的結(jié)果。數(shù)據(jù)集中的訓(xùn)練集進(jìn)行一系列的計(jì)算構(gòu)造網(wǎng)頁(yè)分類器,測(cè)試集用于測(cè)試該網(wǎng)頁(yè)分類器對(duì)網(wǎng)頁(yè)進(jìn)行分類的性能優(yōu)劣。
4.如權(quán)利要求1-3任一項(xiàng)所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,具體步驟如下: 1)把由大量的網(wǎng)頁(yè)構(gòu)成的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,一般要求訓(xùn)練集取數(shù)據(jù)集的80%左右,測(cè)試集取剩余部分; 2)對(duì)數(shù)據(jù)集(包括訓(xùn)練 集和測(cè)試集)進(jìn)行預(yù)處理,主要是對(duì)網(wǎng)頁(yè)進(jìn)行分詞,即將網(wǎng)頁(yè)內(nèi)的文本切分成單個(gè)的詞語(yǔ),去除網(wǎng)頁(yè)中對(duì)分類無(wú)關(guān)的噪音信息,去除停用詞即無(wú)實(shí)際含義或應(yīng)用很廣泛的詞; 3)結(jié)合特征詞的位置特征,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻; 4)結(jié)合特征詞的類內(nèi)分布率和類間偏差,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)內(nèi)特證詞的權(quán)重(TFIDF); 5)根據(jù)每個(gè)網(wǎng)頁(yè)內(nèi)特證詞的權(quán)重,計(jì)算訓(xùn)練集中每個(gè)網(wǎng)頁(yè)的文本特征向量; 6)根據(jù)每個(gè)類中各網(wǎng)頁(yè)的文本特征向量,計(jì)算訓(xùn)練集中每個(gè)類的特征向量; 7)結(jié)合特征詞的位置特征,計(jì)算測(cè)試集中每個(gè)網(wǎng)頁(yè)內(nèi)特征詞的詞頻; 8)利用向量空間模型進(jìn)行網(wǎng)頁(yè)分類,采用兩個(gè)特征向量間的余弦夾角公式計(jì)算待分類網(wǎng)頁(yè)與訓(xùn)練集中每一個(gè)類之間的相似度,并采用相似度最大的類作為待分類網(wǎng)頁(yè)的所屬類。
5.如權(quán)利要求3所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,計(jì)算特征詞的詞頻時(shí),考慮其位置的影響,本發(fā)明根據(jù)實(shí)際經(jīng)驗(yàn)并參考前人的研究成果,認(rèn)為表示網(wǎng)頁(yè)中心內(nèi)容的標(biāo)題,其權(quán)重最高;對(duì)概括和強(qiáng)調(diào)網(wǎng)頁(yè)起關(guān)鍵作用的簡(jiǎn)介和關(guān)鍵字,其權(quán)重次之;網(wǎng)頁(yè)正文,其權(quán)重最低。
6.如權(quán)利要求3所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,計(jì)算特征詞tk的權(quán)重時(shí)結(jié)合特征詞tk的類間偏差EDkj和類內(nèi)分布率IDkj,其中,類間偏差EDkj的計(jì)算公式如下:
7.如權(quán)利要求3所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,類內(nèi)分布率IDkj的計(jì)算公式如下:
8.如權(quán)利要求3所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于,權(quán)重的計(jì)算公式如下:
9.如權(quán)利要求3所述的基于特征選擇的網(wǎng)頁(yè)文本分類方法,其特征在于:大量的網(wǎng)頁(yè)為最少6000個(gè)。
【文檔編號(hào)】G06F17/30GK103810264SQ201410038614
【公開日】2014年5月21日 申請(qǐng)日期:2014年1月27日 優(yōu)先權(quán)日:2014年1月27日
【發(fā)明者】周紅芳, 郭杰, 王鵬, 張國(guó)榮, 段文聰, 王心怡, 何馨依 申請(qǐng)人:西安理工大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
河东区| 镇安县| 蒙阴县| 寿宁县| 牙克石市| 新民市| 新龙县| 新干县| 韩城市| 永春县| 昌江| 宣威市| 江西省| 金平| 大渡口区| 汾阳市| 鸡西市| 大丰市| 彭阳县| 乌鲁木齐县| 小金县| 宁南县| 华池县| 民乐县| 屏山县| 东阳市| 忻州市| 汕尾市| 迁西县| 绍兴市| 隆安县| 尼玛县| 赤峰市| 丹阳市| 阜南县| 嘉善县| 梧州市| 顺平县| 札达县| 固阳县| 星子县|