欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于流聚類(lèi)的中文網(wǎng)頁(yè)文本分類(lèi)方法

文檔序號(hào):6419357閱讀:324來(lái)源:國(guó)知局
專利名稱:一種基于流聚類(lèi)的中文網(wǎng)頁(yè)文本分類(lèi)方法
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種對(duì)于海量網(wǎng)頁(yè)文本的聚類(lèi)
方法。
背景技術(shù)
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展和推廣,網(wǎng)絡(luò)數(shù)據(jù)急劇膨脹,這些數(shù)據(jù)具有更新 速度快、數(shù)據(jù)量龐大、數(shù)據(jù)組織形式不規(guī)范等特點(diǎn),但也蘊(yùn)藏著極多的有價(jià)值信息。如何從 這些海量數(shù)據(jù)中提取出有效信息成為人們關(guān)注的熱點(diǎn)。 為了能對(duì)海量數(shù)據(jù)進(jìn)行有效分類(lèi),目前人們主要基于流聚類(lèi)方法對(duì)海量數(shù)據(jù)進(jìn)行 分類(lèi),這種方法的基本思路是只對(duì)數(shù)據(jù)進(jìn)行一次掃描,掃描一條處理一條,按照數(shù)據(jù)的特 征信息將該數(shù)據(jù)歸入類(lèi)中,類(lèi)的表示方法為類(lèi)中數(shù)據(jù)的特征信息的加權(quán),這樣便于進(jìn)行類(lèi) 的更新操作。 將這種通用的流聚類(lèi)方法應(yīng)用到網(wǎng)頁(yè)文本上存在的主要問(wèn)題是網(wǎng)頁(yè)文本的特征 信息除了正文之外還包含標(biāo)題、作者、發(fā)表時(shí)間等,而且網(wǎng)頁(yè)文本經(jīng)過(guò)預(yù)處理之后的數(shù)據(jù)單 元往往是高維的而且維度不定,分析起來(lái)難度更大。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服已有技術(shù)的不足之處,提出一種中文網(wǎng)頁(yè)文本的聚類(lèi)方 法,將流聚類(lèi)方法應(yīng)用到網(wǎng)頁(yè)文本聚類(lèi)上,本方法針對(duì)網(wǎng)頁(yè)文本的特點(diǎn)充分挖掘了它的有 效信息,使該方法具有增量式、快速、有效及更實(shí)用的特點(diǎn)。 本方法首先定義單個(gè)文本結(jié)構(gòu)由文本的標(biāo)題向量、標(biāo)簽向量、正文向量、作者向 量、相關(guān)鏈接向量以及發(fā)表時(shí)間組成; 文本類(lèi)結(jié)構(gòu)由文本的標(biāo)題向量、標(biāo)簽向量、正文向量、作者向量、相關(guān)鏈接向量的 加權(quán)線性和以及類(lèi)的權(quán)值構(gòu)成;初始化時(shí)文本類(lèi)數(shù)量為0 ;
該方法包括以下步驟 1)通過(guò)網(wǎng)頁(yè)爬蟲(chóng)從Internet的新聞?wù)军c(diǎn)上實(shí)時(shí)采集網(wǎng)頁(yè); 2)對(duì)采集到的網(wǎng)頁(yè)做預(yù)處理,首先判斷該網(wǎng)頁(yè)是否已經(jīng)處理過(guò),如果是,則丟棄,
如果未處理過(guò),則去除該網(wǎng)頁(yè)格式(html)中的標(biāo)簽,解析出網(wǎng)頁(yè)中各文本的作者、標(biāo)題、標(biāo)
簽、正文、發(fā)表時(shí)間、相關(guān)鏈接(個(gè)別文本中可能會(huì)缺少某些信息)作為特征信息; 3)根據(jù)文本的中文編碼標(biāo)準(zhǔn)對(duì)該文本進(jìn)行解碼,將文本內(nèi)容分割成一個(gè)個(gè)單獨(dú)的
字,然后對(duì)標(biāo)題、標(biāo)簽和正文做ngram分詞,形成多個(gè)詞串; 4)根據(jù)TF*IDF公式計(jì)算該文本標(biāo)題、標(biāo)簽和正文中每個(gè)詞串的權(quán)值; 5)根據(jù)步驟4)中計(jì)算得到的權(quán)值提取該文本標(biāo)題、標(biāo)簽和正文中的高權(quán)值詞串,
并對(duì)所述高權(quán)值詞串進(jìn)行歸一化處理,使該詞串的權(quán)值和為l,將該高權(quán)值詞串及其相應(yīng)權(quán)
值作為該文本的標(biāo)題、標(biāo)簽和正文特征向量; 6)將該文本的標(biāo)題、標(biāo)簽和正文特征向量以及作者和相關(guān)鏈接的特征信息與已有
3類(lèi)進(jìn)行相似度的計(jì)算; 7)根據(jù)步驟6)中計(jì)算得到的總的相似度,將文本歸入已有的一類(lèi)中或以該文本的特征信息為基礎(chǔ)建立一個(gè)新類(lèi); 8)判斷已存在的類(lèi)中的正文特征向量的特征項(xiàng)數(shù)量,若該數(shù)量大于設(shè)定值,則將該類(lèi)分裂成兩個(gè)子類(lèi),以防止類(lèi)的無(wú)限膨脹; 9)對(duì)已處理的文本記錄和已有的類(lèi)的信息進(jìn)行儲(chǔ)存,以在下次啟動(dòng)聚類(lèi)過(guò)程時(shí)利用這些信息。 本發(fā)明的中文網(wǎng)頁(yè)新詞自動(dòng)獲取方法與現(xiàn)有的技術(shù)相比,具有以下優(yōu)點(diǎn) 1、采用網(wǎng)頁(yè)爬蟲(chóng)從大型門(mén)戶網(wǎng)站上獲取WEB數(shù)據(jù)來(lái)進(jìn)行分析; 互聯(lián)網(wǎng)是當(dāng)前發(fā)布和傳播信息的主要途徑,而大型門(mén)戶網(wǎng)站的數(shù)據(jù)具有較強(qiáng)的實(shí)
時(shí)性、可靠性和較高的覆蓋程度,能夠較好的反應(yīng)當(dāng)前輿論動(dòng)向,數(shù)據(jù)的分析結(jié)果也就具有
更高的實(shí)用價(jià)值。 2、采用ngram方法進(jìn)行中文分詞; 相比基于詞典查找的中文分詞方法,ngram分詞方法簡(jiǎn)便易行,處理效率高,詞的
覆蓋率寬,不會(huì)遺漏最新出現(xiàn)的網(wǎng)絡(luò)詞匯。 3、充分利用網(wǎng)頁(yè)中的有效信息; 網(wǎng)頁(yè)文本中除了正文部分以外,往往還含有其他的有用信息,這些信息對(duì)于進(jìn)行文本分析都是有用的,本方法中充分考慮了這一點(diǎn),針對(duì)不同的信息引入不同的衡量公式,以達(dá)到更好的分析結(jié)果。 4、引入了類(lèi)的合并與分裂,防止類(lèi)的畸形發(fā)展; 隨著文本的不斷輸入,傳統(tǒng)的聚類(lèi)方法往往會(huì)出現(xiàn)類(lèi)的數(shù)量急劇增多、文本的集
中化分布、類(lèi)的容量過(guò)大等情況,本方法對(duì)類(lèi)的生成、分裂和合并等過(guò)程進(jìn)行了程式化描
述,以防止類(lèi)的畸形發(fā)展。 5、本方法具有較高的運(yùn)行速度; 對(duì)于海量數(shù)據(jù)的處理往往會(huì)遇到算法復(fù)雜度過(guò)高,運(yùn)行速度較慢的情況,本方法還可采用多線程并行處理和分片處理等機(jī)制來(lái)改進(jìn)運(yùn)行速度,獲得了理想的效果。
具體實(shí)施例方式
本發(fā)明提出的一種基于流聚類(lèi)的中文網(wǎng)頁(yè)文本分類(lèi)方法及實(shí)施例詳細(xì)描述如下 首先定義單個(gè)文本結(jié)構(gòu)由文本的標(biāo)題向量、標(biāo)簽向量、正文向量、作者向量、相關(guān)鏈接向量以及發(fā)表時(shí)間組成; 文本類(lèi)為在某一時(shí)刻t到來(lái)的一組發(fā)表時(shí)間為1\, T2, . . . Tn(以天為單位)的相應(yīng)文本Pi, P2, . . . P3的集合,該類(lèi)結(jié)構(gòu)由多個(gè)特征向量及類(lèi)的權(quán)值和更新時(shí)間組成,表示為(FCtttk, FC^, FC^, FCj^, FC^, " , t),其中FC^, FC^, FC^, FC^^, FClink分別為該類(lèi)中的所有文本的標(biāo)題向量、標(biāo)簽向量、正文向量、作者向量、相關(guān)博文鏈接向量的加權(quán)
線性和;《 =力/(卜^:)表示該類(lèi)的權(quán)值,f(t) =2—"為衰變函數(shù)(A推薦取0.1,即以10
天為半衰期),t為該類(lèi)中距離當(dāng)前時(shí)間最近的文本的發(fā)表日期,
本方法具體包括以下步驟 1)通過(guò)網(wǎng)頁(yè)爬蟲(chóng)從Internet的新聞?wù)军c(diǎn)上實(shí)時(shí)采集網(wǎng)頁(yè); 本實(shí)施例的網(wǎng)頁(yè)爬蟲(chóng)可以使用開(kāi)源的爬蟲(chóng),或者自己開(kāi)發(fā)的爬蟲(chóng),例如通過(guò)借助RSS從新浪或搜狐博客站點(diǎn)持續(xù)更新博文網(wǎng)頁(yè); 2)對(duì)采集到的網(wǎng)頁(yè)做預(yù)處理,首先判斷該網(wǎng)頁(yè)是否已經(jīng)處理過(guò),如果是,則丟棄,
如果未處理過(guò),則去除網(wǎng)頁(yè)格式(html)中的標(biāo)簽,解析出網(wǎng)頁(yè)中各文本的作者、標(biāo)題、標(biāo)
簽、正文、發(fā)表時(shí)間、相關(guān)鏈接(個(gè)別文本中可能會(huì)缺少某些項(xiàng))作為特征信息; 本實(shí)施例可利用開(kāi)源的網(wǎng)頁(yè)解析軟件、開(kāi)發(fā)包,或者通過(guò)簡(jiǎn)單的正則匹配的方式
對(duì)采集到的網(wǎng)頁(yè)進(jìn)行解析,提取文章的作者、標(biāo)題、標(biāo)簽、正文、發(fā)表時(shí)間、相關(guān)鏈接作為特
征信息; 3)根據(jù)文本的中文編碼標(biāo)準(zhǔn)對(duì)該文本進(jìn)行解碼,將文本內(nèi)容分割成一個(gè)個(gè)單獨(dú)的
字,然后然后對(duì)標(biāo)題、標(biāo)簽和正文做ngram分詞,形成多個(gè)詞串;本實(shí)施例的具體步驟如下 31)中文網(wǎng)頁(yè)通常采用定長(zhǎng)形式的GBK編碼或者不定長(zhǎng)形式的UTF8編碼,首先判
斷其編碼方案,然后根據(jù)解碼規(guī)范對(duì)其進(jìn)行解碼,將文本內(nèi)容分割成一個(gè)個(gè)單獨(dú)的字; 32)利用ngram分詞方法對(duì)分割后的文本進(jìn)行分詞,順序?qū)⑴R近的n個(gè)漢字聚聚
集在一起形成一個(gè)詞串(比如一句話"我愛(ài)中國(guó)",n取為2時(shí),可以得到如下三個(gè)詞串"我愛(ài)"、"愛(ài)中"、"中國(guó)",n可以取u和3,或根據(jù)需要取值); 4)根據(jù)TF*IDF公式計(jì)算該文本標(biāo)題、標(biāo)簽和正文中每個(gè)詞串的權(quán)值; 41)TFWDF是文本處理中計(jì)算詞串權(quán)值的經(jīng)典公式,詞串i的權(quán)值wti計(jì)算公式為
M ^乂xlog(—+ () () 1),其中tf是該詞串在該文本中出現(xiàn)的頻率,N為處理過(guò)的文本總數(shù),
由統(tǒng)計(jì)可以得到,&為處理過(guò)的文本中包含該詞串的文本數(shù);N、rii、 i均為正整數(shù); 42)維護(hù)一份詞串索引表,通過(guò)多線程和哈希的方式將詞串索引表分成256個(gè)子
表,該詞串索引子表以詞串為索引,記錄處理過(guò)的文本中包含該詞串的文本數(shù)以及這些文
本的鏈接地址; 由于ngram分詞后的詞串量往往在千萬(wàn)數(shù)量級(jí),數(shù)據(jù)庫(kù)在維護(hù)這個(gè)量級(jí)的索引表時(shí)操作速度很慢,為了解決這個(gè)問(wèn)題,本實(shí)施例通過(guò)多線程和哈希的方式將詞串索引表分成256個(gè)子表,每個(gè)子表對(duì)應(yīng)一個(gè)線程,對(duì)于一個(gè)新的詞串,根據(jù)詞串的哈希值將其分給某一個(gè)線程,由該線程將詞串插入或更新到子索引表中; —方面分表方式可以大大減小每個(gè)表中詞串的數(shù)量,另一方面,綁定線程的方式
可以實(shí)現(xiàn)并行操作,當(dāng)數(shù)據(jù)表鎖定時(shí)(修改或查找數(shù)據(jù)時(shí))可以進(jìn)行其他操作而不是等待
直到解鎖。這種方式可以大大提高詞串索引表的讀取、插入和更新速度; 43)對(duì)于該文本中的每一個(gè)詞串,從詞串索引子表中讀取ni,即處理過(guò)的文本中包
含該詞串的文本數(shù),根據(jù)步驟41)的公式對(duì)該詞串權(quán)值進(jìn)行計(jì)算,最后對(duì)詞串索引子表中
該詞串項(xiàng)進(jìn)行更新; 5)根據(jù)步驟4)中計(jì)算得到的權(quán)值提取該文本標(biāo)題、標(biāo)簽和正文中的高權(quán)值詞串,并對(duì)這些高權(quán)值詞串進(jìn)行歸一化處理,使詞串的權(quán)值和為l,將這些高權(quán)值詞串及其相應(yīng)權(quán)值作為該文本的標(biāo)題、標(biāo)簽和正文特征向量;
本實(shí)施例的具體步驟如下
5
51)將該文本中的詞串按照權(quán)重進(jìn)行排序,取前1/12的詞串為高權(quán)值詞串,若該文本中有200字,則由于ngram通常用到一元、二元和三元,則會(huì)得到600個(gè)詞串,取前1/12高權(quán)值詞串即取前50高權(quán)值詞串,也可根據(jù)需要調(diào)整高權(quán)值詞串?dāng)?shù)。 52)對(duì)提取后的高權(quán)值詞串做歸一化處理,使該高權(quán)值詞串的權(quán)值和為1。將這些高權(quán)值詞串及其相應(yīng)權(quán)值作為該文本的標(biāo)題、標(biāo)簽和正文特征向量; 6)將該文本的標(biāo)題、標(biāo)簽和正文特征向量以及作者和相關(guān)鏈接的特征信息與已有類(lèi)進(jìn)行相似度的計(jì)算;本實(shí)施例相似度計(jì)算方法如下 將該文本的各個(gè)特征向量與已有類(lèi)進(jìn)行特征相似度的計(jì)算,其中標(biāo)題、標(biāo)簽和正文向量用TFWDF模型對(duì)其建模,然后用余弦相似度計(jì)算公式來(lái)計(jì)算與類(lèi)的相應(yīng)特征向量之間的相似度,對(duì)于作者和相關(guān)鏈接特征信息,用如下公式計(jì)算與類(lèi)相應(yīng)特征向量的相似度S(a,t) =E ei *Wi,ei G L(a) n L(t),其中ei表示同時(shí)屬于該文本與該類(lèi)的作者或相關(guān)鏈接,Wi表示ei在該類(lèi)中所占的比重,最后該文本與類(lèi)之間的總的相似度為各特征相似
度加權(quán),該文本的發(fā)表日期只用于歸類(lèi)時(shí)根據(jù)類(lèi)權(quán)值計(jì)算公式"=1;/(,-D對(duì)類(lèi)的權(quán)值進(jìn)
行更新; 7)根據(jù)步驟6)中計(jì)算得到的總的相似度,將文本歸入已有的一類(lèi)中或以該文本的特征信息為基礎(chǔ)建立一個(gè)新類(lèi);本實(shí)施例具體包括 71)如果該文本與類(lèi)之間的最高相似度高于預(yù)先設(shè)定的閾值(經(jīng)驗(yàn)值,通常取O. 1到0. 3),則將當(dāng)前文本歸于相應(yīng)的最高相似度類(lèi)中,如果該類(lèi)新加入的該文本的發(fā)表時(shí)間T > t,則該類(lèi)結(jié)構(gòu)更竺為(^nrn^^i,^T^, F^r, F^is, f (T-t) "+l, T),如果T < t,則該類(lèi)結(jié)構(gòu)更新為阮nrn,阮isi,阮t^t, ^nn^r,阮ns, "+f(t-T),t);
72)如果該文本與類(lèi)之間的最高相似度低于該閾值,但是類(lèi)的數(shù)量已經(jīng)達(dá)到上限(該實(shí)施方案中限定類(lèi)的數(shù)量上限為30個(gè),根據(jù)存儲(chǔ)容量設(shè)定,一般為20到50),則需要對(duì)已存在的類(lèi)進(jìn)行合并,計(jì)算類(lèi)與類(lèi)之間的相似度,并對(duì)相似度最高的兩個(gè)類(lèi)進(jìn)行合并,合并時(shí)取原來(lái)兩個(gè)類(lèi)中各特征量的高權(quán)值部分(前1/3)組成新類(lèi)的相應(yīng)特征量;合并次數(shù)可以根據(jù)需要設(shè)定;若待合并的類(lèi)從創(chuàng)建時(shí)間到當(dāng)前時(shí)刻系統(tǒng)處理過(guò)的文本總數(shù)未達(dá)到下限(例如1000篇,根據(jù)類(lèi)的儲(chǔ)存容量設(shè)定,一般為1000到3000)則不允許對(duì)該類(lèi)進(jìn)行合并;
73)如果該文本與類(lèi)之間的相似度低于該閾值,而且類(lèi)的數(shù)量未達(dá)到上限,則以該文本的特征信息為基礎(chǔ)建立一個(gè)新類(lèi); 8)判斷已存在的類(lèi)中的正文特征向量的特征項(xiàng)數(shù)量,若該數(shù)量大于設(shè)定值(例如
20000個(gè),根據(jù)存儲(chǔ)空間設(shè)定),則將該類(lèi)分裂成兩個(gè)子類(lèi),以防止類(lèi)的無(wú)限膨脹; 當(dāng)類(lèi)的正文特征向量的特征項(xiàng)數(shù)量高于一定數(shù)量時(shí),對(duì)該類(lèi)進(jìn)行分裂,分裂時(shí)先
去掉類(lèi)中各特征向量中的一半低權(quán)值數(shù)據(jù)項(xiàng),然后根據(jù)類(lèi)中各特征向量中剩余數(shù)據(jù)項(xiàng)的權(quán)
值分布,用信息熵或者方差來(lái)衡量,計(jì)算數(shù)據(jù)項(xiàng)的權(quán)值分布的信息熵值S ,設(shè)數(shù)據(jù)項(xiàng)總數(shù)為
n,當(dāng)7^"〈"(a取0.7到0.9)時(shí),將該類(lèi)拆分為兩類(lèi),分類(lèi)時(shí)將各特征向量的剩余特征log2 n
項(xiàng)的高權(quán)值項(xiàng)歸入一類(lèi),低權(quán)值項(xiàng)歸入另一類(lèi); 9)對(duì)已處理的文本記錄和已有的類(lèi)的信息進(jìn)行儲(chǔ)存,以在下次啟動(dòng)聚類(lèi)過(guò)程時(shí)利用這些信息。
6
每當(dāng)該方法處理完一定數(shù)量的文本(例如1000篇)或者發(fā)生異常中斷時(shí)都會(huì)對(duì)已處理的文本記錄和已有的類(lèi)的信息做一次儲(chǔ)存,主要包括
91)當(dāng)前時(shí)刻每個(gè)類(lèi)的特征向量(已有的類(lèi)的信息); 92)已經(jīng)處理過(guò)的網(wǎng)頁(yè)的哈希表(已處理的文本記錄),用于防止同一篇網(wǎng)頁(yè)的重復(fù)處理;該實(shí)施例維護(hù)一個(gè)64M長(zhǎng)度的哈希表,每個(gè)哈希項(xiàng)占位lbit,共8M byte,對(duì)于每一個(gè)處理過(guò)的網(wǎng)頁(yè)將其鏈接地址(URL)映射到該哈希表中。
權(quán)利要求
一種基于流聚類(lèi)的中文網(wǎng)頁(yè)文本分類(lèi)方法,其特征在于,該方法首先定義單個(gè)文本結(jié)構(gòu)由文本的標(biāo)題向量、標(biāo)簽向量、正文向量、作者向量、相關(guān)鏈接向量以及發(fā)表時(shí)間組成;文本類(lèi)結(jié)構(gòu)由文本的標(biāo)題向量、標(biāo)簽向量、正文向量、作者向量、相關(guān)鏈接向量的加權(quán)線性和以及類(lèi)的權(quán)值構(gòu)成;初始化時(shí)文本類(lèi)數(shù)量為0;該方法包括以下步驟1)通過(guò)網(wǎng)頁(yè)爬蟲(chóng)從Internet的新聞?wù)军c(diǎn)上實(shí)時(shí)采集網(wǎng)頁(yè);2)對(duì)采集到的網(wǎng)頁(yè)做預(yù)處理,首先判斷該網(wǎng)頁(yè)是否已經(jīng)處理過(guò),如果是,則丟棄,如果未處理過(guò),則去除該網(wǎng)頁(yè)格式(html)中的標(biāo)簽,解析出網(wǎng)頁(yè)中各文本的作者、標(biāo)題、標(biāo)簽、正文、發(fā)表時(shí)間、相關(guān)鏈接作為特征信息;3)根據(jù)文本的中文編碼標(biāo)準(zhǔn)對(duì)該文本進(jìn)行解碼,將文本內(nèi)容分割成一個(gè)個(gè)單獨(dú)的字,然后對(duì)標(biāo)題、標(biāo)簽和正文做ngram分詞,形成多個(gè)詞串;4)根據(jù)TF*IDF公式計(jì)算該文本標(biāo)題、標(biāo)簽和正文中每個(gè)詞串的權(quán)值;5)根據(jù)步驟4)中計(jì)算得到的權(quán)值提取該文本標(biāo)題、標(biāo)簽和正文中的高權(quán)值詞串,并對(duì)所述高權(quán)值詞串進(jìn)行歸一化處理,使該詞串的權(quán)值和為1,將該高權(quán)值詞串及其相應(yīng)權(quán)值作為該文本的標(biāo)題、標(biāo)簽和正文特征向量;6)將該文本的標(biāo)題、標(biāo)簽和正文特征向量以及作者和相關(guān)鏈接的特征信息與已有類(lèi)進(jìn)行相似度的計(jì)算;7)根據(jù)步驟6)中計(jì)算得到的總的相似度,將文本歸入已有的一類(lèi)中或以該文本的特征信息為基礎(chǔ)建立一個(gè)新類(lèi);8)判斷已存在的類(lèi)中的正文特征向量的特征項(xiàng)數(shù)量,若該數(shù)量大于設(shè)定值,則將該類(lèi)分裂成兩個(gè)子類(lèi),以防止類(lèi)的無(wú)限膨脹;9)對(duì)已處理的文本記錄和已有的類(lèi)的信息進(jìn)行儲(chǔ)存,以在下次啟動(dòng)聚類(lèi)過(guò)程時(shí)利用這些信息。
全文摘要
本發(fā)明涉及一種基于流聚類(lèi)的中文網(wǎng)頁(yè)文本分類(lèi)方法,屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,該方法包括實(shí)時(shí)采集網(wǎng)頁(yè);去除未處理過(guò)的該網(wǎng)頁(yè)的格式中的標(biāo)簽,解析出網(wǎng)頁(yè)中各文本的特征信息;將文本內(nèi)容分割、做ngram分詞,形成多個(gè)詞串;計(jì)算每個(gè)詞串的權(quán)值;提取高權(quán)值詞串,將該高權(quán)值詞串及其相應(yīng)權(quán)值作為特征向量;將特征向量以及特征信息與已有類(lèi)進(jìn)行相似度的計(jì)算;并計(jì)算得到的總的相似度,將文本歸入已有的一類(lèi)中或建立一個(gè)新類(lèi);根據(jù)已存在的類(lèi)中的特征項(xiàng)數(shù)量,判斷是否將該類(lèi)分裂成兩個(gè)子類(lèi);對(duì)已處理的文本記錄和已有的類(lèi)的信息進(jìn)行儲(chǔ)存。本方法針對(duì)網(wǎng)頁(yè)文本的特點(diǎn)充分挖掘了它的有效信息,使該方法具有增量式、快速、有效及更實(shí)用的特點(diǎn)。
文檔編號(hào)G06F17/30GK101727500SQ20101003410
公開(kāi)日2010年6月9日 申請(qǐng)日期2010年1月15日 優(yōu)先權(quán)日2010年1月15日
發(fā)明者卞小丁, 孫立遠(yuǎn), 袁睿翕 申請(qǐng)人:清華大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
义乌市| 郎溪县| 襄垣县| 常宁市| 新津县| 瑞金市| 三江| 青铜峡市| 东乌| 安吉县| 丽江市| 紫云| 白城市| 德清县| 祁门县| 绥滨县| 克东县| 杂多县| 忻城县| 行唐县| 陆丰市| 鄂伦春自治旗| 正安县| 沈丘县| 龙里县| 房山区| 夏邑县| 普定县| 罗山县| 西城区| 响水县| 岚皋县| 武汉市| 林口县| 夹江县| 镇沅| 边坝县| 错那县| 内丘县| 湄潭县| 叶城县|