欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于分布式計算的網(wǎng)頁分類算法

文檔序號:6534922閱讀:310來源:國知局
一種基于分布式計算的網(wǎng)頁分類算法
【專利摘要】本發(fā)明涉及一種基于分布式計算的網(wǎng)頁分類算法,包括步驟如下:步驟一,分類模型的建立;(1)網(wǎng)頁預(yù)處理;(2)特征詞關(guān)聯(lián)信息;(3)特征詞位置信息;步驟二,網(wǎng)頁分類過程;1)網(wǎng)頁預(yù)處理;(2)計算網(wǎng)頁歸屬類別;(3)動態(tài)詞庫;本發(fā)明基于分布式計算的分類算法可以應(yīng)對現(xiàn)實網(wǎng)絡(luò)中呈指數(shù)級增長的網(wǎng)絡(luò)信息,而同時也保證了隨著分布式系統(tǒng)中的集群的數(shù)量的增加,信息處理的速度也會有顯著地提高,因此基于分布式的網(wǎng)頁分類算法具有很大的應(yīng)用前景。
【專利說明】一種基于分布式計算的網(wǎng)頁分類算法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及信息服務(wù)網(wǎng)絡(luò)領(lǐng)域內(nèi)的網(wǎng)頁分類。
【背景技術(shù)】
[0002]近年來隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)信息呈指數(shù)級增長,因特網(wǎng)已發(fā)展成全球性的巨大的信息服務(wù)網(wǎng)絡(luò)而其站點遍布全球。它已成為人們搜索和獲取信息的重要手段。而面對如此海量而又內(nèi)容復(fù)雜的網(wǎng)絡(luò)信息,很多時候無法準(zhǔn)確定位自己想要的信息,人們正面臨著“信息爆炸“而”知識貧乏”的矛盾,因此迫切的需要能從大規(guī)模信息資源中提取符合要求的精煉的知識的方法和手段。通過網(wǎng)頁的分類,可以從海量的網(wǎng)絡(luò)信息中迅速、準(zhǔn)確的獲取用戶感興趣的信息,因此可以應(yīng)對網(wǎng)絡(luò)信息復(fù)雜導(dǎo)致的“知識貧乏”的問題。
[0003]然而隨著網(wǎng)絡(luò)信息的指數(shù)級增長,大多數(shù)傳統(tǒng)的網(wǎng)頁分類算法的處理速度無法應(yīng)對網(wǎng)絡(luò)中信息的增長速度,因此很多分類算法在實際應(yīng)用的效率并不高。

【發(fā)明內(nèi)容】

[0004]本發(fā)明基于分布式計算的網(wǎng)頁分類算法主要是對樸素貝葉斯分類算法進(jìn)行改進(jìn),增加類中特征詞的關(guān)聯(lián)關(guān)系、特征詞在文檔中的位置信息以及動態(tài)詞庫,最后在分布式的環(huán)境下對網(wǎng)頁分類算法進(jìn)行實現(xiàn)。
[0005]基于分布式計算的分類算法可以應(yīng)對現(xiàn)實網(wǎng)絡(luò)中呈指數(shù)級增長的網(wǎng)絡(luò)信息,而同時也保證了隨著分布式系統(tǒng)中的集群的數(shù)量的增加,信息處理的速度也會有顯著地提高,因此基于分布式的網(wǎng)頁分類算法具有很大的應(yīng)用前景。
[0006]本發(fā)明給出的技術(shù)方案為:
一種基于分布式計算的網(wǎng)頁分類算法,其特征在于,包括步驟如下:
步驟一,分類模型的建立 (I)網(wǎng)頁預(yù)處理。
[0007]網(wǎng)頁的預(yù)處理是對網(wǎng)頁正文部分進(jìn)行切詞處理。
[0008](2)特征詞關(guān)聯(lián)信息。
[0009]通過在屬于同一類別的特征詞中增加與不同文檔之間的特征詞的關(guān)聯(lián)信息,步驟為:首先根據(jù)訓(xùn)練集中的文檔信息求得類別集合中的特征詞之間的關(guān)聯(lián)關(guān)系,其關(guān)聯(lián)關(guān)系為是否出現(xiàn)在相同文檔中,然后在最初的分類器中匹配相應(yīng)的特征詞,取得相應(yīng)特征詞的權(quán)值后根據(jù)類別集合中的特征詞之間的關(guān)聯(lián)信息對特征詞進(jìn)行劃分,求得集合中關(guān)于文檔信息的特征詞的子集,最后將數(shù)據(jù)存入最終的分類器。
[0010](3)特征詞位置信息。
[0011]首先根據(jù)計算特征詞權(quán)值得到網(wǎng)頁中的高頻詞,再統(tǒng)計高頻詞在網(wǎng)頁中的位置信息得到不同類別下所處網(wǎng)頁中不同位置的特征詞對該類別的作用程度,最后根據(jù)該值對特征詞的權(quán)值進(jìn)行修改,得到更精確的特征詞對類別的重要程度。
[0012]步驟二,網(wǎng)頁分類過程(I)網(wǎng)頁預(yù)處理。
[0013]網(wǎng)頁的預(yù)處理是對網(wǎng)頁正文部分進(jìn)行切詞處理。
[0014](2)計算網(wǎng)頁歸屬類別。
[0015]以樸素貝葉斯分類為基礎(chǔ),計算所有類的條件概率進(jìn)而求得不同類對待分類網(wǎng)頁的后驗概率,最后取可以得到最大后驗概率的類作為該網(wǎng)頁的歸屬類別。類別的條件概率計算公式如下:
【權(quán)利要求】
1.一種基于分布式計算的網(wǎng)頁分類算法,其特征在于,包括步驟如下: 步驟一,分類模型的建立; (1)網(wǎng)頁預(yù)處理; 網(wǎng)頁的預(yù)處理是對網(wǎng)頁正文部分進(jìn)行切詞處理; (2)特征詞關(guān)聯(lián)信息; 通過在屬于同一類別的特征詞中增加與不同文檔之間的特征詞的關(guān)聯(lián)信息,步驟為:首先根據(jù)訓(xùn)練集中的文檔信息求得類別集合中的特征詞之間的關(guān)聯(lián)關(guān)系,其關(guān)聯(lián)關(guān)系為是否出現(xiàn)在相同文檔中,然后在最初的分類器中匹配相應(yīng)的特征詞,取得相應(yīng)特征詞的權(quán)值后根據(jù)類別集合中的特征詞之間的關(guān)聯(lián)信息對特征詞進(jìn)行劃分,求得集合中關(guān)于文檔信息的特征詞的子集,最后將數(shù)據(jù)存入最終的分類器; (3)特征詞位置信息; 首先根據(jù)計算特征詞權(quán)值得到網(wǎng)頁中的高頻詞,再統(tǒng)計高頻詞在網(wǎng)頁中的位置信息得到不同類別下所處網(wǎng)頁中不同位置的特征詞對該類別的作用程度,最后根據(jù)該值對特征詞的權(quán)值進(jìn)行修改,得到更精確的特征詞對類別的重要程度; 步驟二,網(wǎng)頁分類過程; (1)網(wǎng)頁預(yù)處理; 網(wǎng)頁的預(yù)處理是對網(wǎng)頁正文部分進(jìn)行切詞處理; (2)計算網(wǎng)頁歸屬類別; 以樸素貝葉斯分類為基礎(chǔ),計算所有類的條件概率進(jìn)而求得不同類對待分類網(wǎng)頁的后驗概率,最后取可以得到最大后驗概率的類作為該網(wǎng)頁的歸屬類別;類別的條件概率計算公式如下:
I^l, ~m
一^ W-一'_L 十 _L 著一 Pid.CjI = 2Jg—y Jtl (O
εκ.i=i k.τ 其中Cj表示類;d表示待分類的網(wǎng)頁;d’表示特征詞子集;K’表示和網(wǎng)頁數(shù)據(jù)進(jìn)行計算后的前k個的集合;T表示d’中的特征詞在分類模型中的權(quán)值;S表示所有權(quán)值和;V表示所有特征詞數(shù)量和;Fi表示d中的詞頻;D的數(shù)據(jù)是在預(yù)處理結(jié)束后得到的網(wǎng)頁中所有特征詞以及相應(yīng)的詞頻;根據(jù)d中的特征詞對分類模型中類別&下所有特征詞子集進(jìn)行計算,從分類模型中可以得到T、S和V,再根據(jù)特征詞詞頻Fi計算出網(wǎng)頁對Cj中所有子集的匹配結(jié)果,這里如公式(I)所示,對網(wǎng)頁中i個特征詞進(jìn)行計算后累加得到;再取結(jié)果中前k個進(jìn)行累加作為該類別的條件概率,從而得到類別的后驗概率;類別的后驗概率越大說明網(wǎng)頁對該類別所屬程度越大,進(jìn)而得到類別的歸屬類別; (3)動態(tài)詞庫; 在上述分類完成后,根據(jù)特征詞在文檔中出現(xiàn)的頻率記錄高頻詞,在這些高頻詞中判斷是否有未識別的特征詞,若有未識別的特征詞,則將信息記錄在動態(tài)詞庫中,信息包括文檔的類別、未識別的特征詞以及頻率高的已識別的特征詞;在以后的分類過程中將動態(tài)詞庫與分類模型結(jié)合使用,首先在分類模型中對特征詞進(jìn)行匹配,若匹配不到則在動態(tài)詞庫中進(jìn)行尋找,若在動態(tài)詞庫中匹配得到,則根據(jù)其頻率以及已識別的特征詞的權(quán)值以及頻率求該特征詞的權(quán)值,為分類過程服務(wù),若在動態(tài)詞庫中沒有相應(yīng)匹配則記錄相應(yīng)信息。
【文檔編號】G06F17/27GK103744958SQ201410004646
【公開日】2014年4月23日 申請日期:2014年1月6日 優(yōu)先權(quán)日:2014年1月6日
【發(fā)明者】蔣昌俊, 陳閎中, 閆春鋼, 丁志軍, 王鵬偉, 孫海春, 鄧曉棟, 王昕
申請人:同濟(jì)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
雅江县| 宝丰县| 海南省| 高清| 裕民县| 南充市| 龙岩市| 金平| 濉溪县| 东丽区| 岚皋县| 广宗县| 卓尼县| 阿勒泰市| 格尔木市| 德安县| 本溪| 建宁县| 尚义县| 桐城市| 孙吴县| 湘阴县| 梁平县| 鲜城| 互助| 宜宾县| 光泽县| 富宁县| 高州市| 洮南市| 湘西| 鹤岗市| 聂拉木县| 连平县| 包头市| 衡水市| 大邑县| 浦县| 云浮市| 长治市| 石家庄市|