欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于模糊遺傳算法的中文web信息過濾方法

文檔序號:6419380閱讀:188來源:國知局
專利名稱:一種基于模糊遺傳算法的中文web信息過濾方法
技術(shù)領(lǐng)域
本發(fā)明涉及的方法和系統(tǒng),能夠有效改進傳統(tǒng)文本信息過濾效果,提高過濾的準確率,是一種有效地方法,系統(tǒng)設(shè)計已經(jīng)加以應(yīng)用,具有良好的應(yīng)用價值。
權(quán)利要求
1.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于所述過濾方法包括如下步驟
Step1利用文本訓(xùn)練集,采用模糊遺傳算法簡歷過濾模版;
Step2截獲WEB數(shù)據(jù)包并解析,從中提取有效的文本信息;
Step3在獲取的有效信息中提取網(wǎng)址信息、關(guān)鍵詞信息以及中文域名信息,應(yīng)用URL過濾、關(guān)鍵詞過濾以及內(nèi)容過濾的三層過濾機制進行初步過濾,返回過濾結(jié)果;
Step4將Step3中沒有過濾掉的文本信息進行切詞、去除停用詞處理,并進行層次聚類,形成基于概念的邏輯段落,并計算特征項權(quán)重;
Step5將Step4中的處理結(jié)果同過濾模版進行相似度匹配,返回匹配結(jié)果;
Step6綜合Step3的過濾結(jié)果以及Step5中的匹配結(jié)果,確定所獲取的文本信息是否被過濾,并將為被過濾的信息重組為網(wǎng)頁提交給用戶,將被過濾的網(wǎng)頁信息直接屏蔽;
Step7利用反饋方法、結(jié)合用戶反饋信息對過濾結(jié)果進行反饋,更新Step5中的過濾模板。
2.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于所述Step1中的模糊遺傳算法主要分為種群、交叉率和變異率的模糊調(diào)整三部分
(1)使用下面的公式計算個體壽命
其中
lifetime[i]為第i個個體的壽命,fitness[i],avg_fitness,best_fitness和wrost_fitness分別為第t代中第i個個體的適應(yīng)度值、種群的平均適應(yīng)度值、種群中最好適應(yīng)度值和種群中最差適應(yīng)度值,max_lifetime,min_lifetime分別為在允許空間內(nèi)預(yù)先設(shè)置的最大壽命、最小壽命;
(2)使用下面的公式動態(tài)計算交叉率
temp=max_pc×2(-t/max gen)
其中temp是中間計算變量,max_gen是預(yù)設(shè)的最大進化代數(shù),max_pc,min_pc分別是預(yù)設(shè)的最大交叉率、最小交叉率,t是當(dāng)前進化代數(shù);
(3)使用下面的公式計算變異率
、
其中X,temp是中間計算變量,max_fitness,fitness[i]及max_gen分別是當(dāng)前代中最大適應(yīng)度值、待變異個體的適應(yīng)度值及預(yù)設(shè)的最大代數(shù),max_pm、min_pm分別是預(yù)設(shè)的最大變異率和最小變異率,t為當(dāng)前進化代數(shù),pm為當(dāng)前代中個體的變異率。
3.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于所述Step4中的層次聚類,應(yīng)用如下方法計算
設(shè)文本T具有n個自然段,K個層次,用H表示文本層次,P表示自然段,則有如下組成關(guān)系
其中i1=1<=i2<=...ik<=ik+1-1=n;
設(shè)文本T的特征向量為(c1,c2,...,cm)則設(shè)P1=(ωi1,ωi2…ωim)為第i段的特征向量,其中ωij是概念c在第i段中概念密度;
將n個段落劃分為K個層次,則所有可能的分法共有Cn-1K-1種,設(shè)S(n,K)是任一種分法,其中S(n,K)={i1=1,i1+1,...,i2-1},...,{ij,ij+1,...ij+1-1},...,{iK,iK+1,...,n};
有序聚類就是尋找一種分法使K個層次內(nèi)差異盡可能小,而層次間的差異盡可能大;設(shè)D(ij,ij+1-1)表示第j層內(nèi)的差異量,則誤差函數(shù)為
為了使上述總體誤差函數(shù)達到最小,尋求最優(yōu)的K分法,相當(dāng)于把n個段落分成兩個部分,將前一部分進行最優(yōu)K-1分法,然后再考慮后一部分的誤差,由此尋找到最優(yōu)K分法;
設(shè)S(n,K,cK)是使總體誤差函數(shù)達到最小的分法,其中cK是上述最佳分法的分割點ik,則有如下遞推公式
E(S0(n,K,cK))=min{E(S0(iK-1,K-1,cK-1)+D(iK,n))};
文本層數(shù)的確定關(guān)系到文本邏輯結(jié)構(gòu)的建立,它可以通過給定閾值l,當(dāng)|E(S(n,K+1)-E(S(n,K))|<=l時,則最優(yōu)層數(shù)為K。
4.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于所述Step4中計算特征項權(quán)重,采用了綜合文檔權(quán)重、段落權(quán)重以及特征項自身權(quán)重的綜合計算方法,該權(quán)重計算方法由如下公式計算
在上述計算公式中WT表示段落權(quán)重,且
WTi是該文檔包含的第i個特征項的權(quán)重,N是指特征項在文檔中的分布密度,即密集程度;WS表示句子權(quán)重,且
KWi是該句子或段落中包含的第i個特征項的權(quán)重,TFi是該特征項在這篇文檔中出現(xiàn)的頻率,IDFi是該特征項在文檔中出現(xiàn)的逆頻率,D是指特征項在句子或段落中的分布密度;其中在
中,設(shè)特征項i的位置權(quán)重為δi,由于該權(quán)重計算基礎(chǔ)為經(jīng)過聚類的邏輯段落,因此去掉相關(guān)網(wǎng)頁附加信息,設(shè)文檔D所有段落權(quán)重和
其中0表示標題文本,wi表示單個權(quán)重,
表示所有段落權(quán)重之和。
5.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于所述Step5中相似度匹配過程采用余弦方法
設(shè)定過濾閥值l當(dāng)sim(C,D)≥l其D所對應(yīng)的內(nèi)容符合用戶興趣,應(yīng)該提交到結(jié)果文檔數(shù)據(jù)庫,否則,不予提交;在上述計算公式中,C和D表示兩個向量,sim(C,D)表示兩個向量C和向量D之間的相似度,Ui和Wi分別表示向量C和向量D的一個分量。
6.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于所述Step7中的反饋方法,應(yīng)用一種利用反饋文檔動態(tài)修改類別模板方法,實現(xiàn)過濾模板的動態(tài)調(diào)整,該方法主要過程如下
設(shè)某一個初始類別模板為P(p1,p2,p3,...,pn),反饋集為Fi,文檔相似度的前m篇文檔集觀察窗口w,每次學(xué)習(xí)都從觀察窗w中正例文檔中發(fā)現(xiàn)新特征詞;
A.先設(shè)置一個初始反饋過濾閾值
,在系統(tǒng)使用過程中,將所有大于該閾值的文檔和相應(yīng)的相似度值保存到相應(yīng)的反饋類別文件夾下;
B.當(dāng)使用一段時間后,就進行反饋,把反饋類別文件夾下的所有的文檔,按照相似度大小排序,取前m篇文檔作為我們反饋的文檔,計算這m篇文檔的中心向量D(d1,d2,d3,...,dn),再求出此中心向量和類別向量的差S(s1,s2,s3,...,sn),其中,si=di-pi,根據(jù)下面公式修改模板相應(yīng)特征項的權(quán)重
式中,pinew是修改后的第i特征項的權(quán)重,piold為類別模板中修改前的第i特征項的權(quán)重,α為修改因子,I是一個線性臨界值函數(shù),定義如下
式中,φ是定義特征項在原類別特征權(quán)重上上下波動的閾值;
C.從觀察窗口中統(tǒng)計新出現(xiàn)的特征詞,作為候選特征詞,并計算其權(quán)重,按從大到小的順序排序,抽取適量的特征詞來擴展模板,新特征詞數(shù)量用下面公式來計算,然后將觀察窗口中所有的非偽正例文檔標記為偽正例文檔
式中,N是我們增加特征詞的數(shù)量,n是特征窗口中,正例文檔的數(shù)量,m為觀察窗口中文檔的數(shù)量;
D.將觀察窗口之外所有的文檔都刪除掉,然后將反饋過濾閾值
提高為第m篇文檔的相似度值,然后將這些文檔重新再與模板比較一下,修改相似度值,本次反饋結(jié)束。
全文摘要
本發(fā)明公開了一種基于模糊遺傳算法的中文WEB信息過濾方法,其步驟如下利用文本訓(xùn)練集,采用模糊遺傳算法簡歷過濾模版;截獲WEB數(shù)據(jù)包并解析,從中提取有效的文本信息;在獲取的有效信息中提取網(wǎng)址信息、關(guān)鍵詞信息以及中文域名信息,應(yīng)用三層過濾機制進行初步過濾,返回過濾結(jié)果;將沒有過濾掉的文本信息進行切詞、去除停用詞處理,并進行層次聚類,形成基于概念的邏輯段落,并計算特征項權(quán)重;將處理結(jié)果同過濾模版進行相似度匹配,返回匹配結(jié)果;綜合過濾結(jié)果以及匹配結(jié)果,確定所獲取的文本信息是否被過濾,將被過濾的網(wǎng)頁信息直接屏蔽;利用反饋方法、結(jié)合用戶反饋信息對過濾結(jié)果進行反饋,更新過濾模板。
文檔編號G06F17/30GK101814086SQ20101010620
公開日2010年8月25日 申請日期2010年2月5日 優(yōu)先權(quán)日2010年2月5日
發(fā)明者劉培玉, 朱振方 申請人:山東師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宝丰县| 舟山市| 磐石市| 沂南县| 永州市| 垣曲县| 涟源市| 石城县| 云南省| 张家口市| 镇安县| 时尚| 宣威市| 南平市| 木里| 隆昌县| 德庆县| 翁源县| 明光市| 崇信县| 白城市| 科尔| 安陆市| 津南区| 潼关县| 台南县| 香河县| 衡水市| 澄江县| 永仁县| 湄潭县| 团风县| 峨边| 襄樊市| 鄂伦春自治旗| 隆昌县| 新蔡县| 万荣县| 木兰县| 闵行区| 北京市|