專利名稱:一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)頁自動分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,涉及一種網(wǎng)頁自動分類的方法。
背景技術(shù):
網(wǎng)頁自動分類過程中的不確定性表現(xiàn)在很多方面訓(xùn)練樣本的不確定性、網(wǎng)頁信息的不確定性、類邊界的模糊性等。傳統(tǒng)的網(wǎng)頁自動分類方法如KNN、SVM等只是針對網(wǎng)頁上的文本信息進(jìn)行確定性的分類,沒有考慮到網(wǎng)頁自動分類過程中存在的諸多不確定性因素。同時,網(wǎng)頁上具有可能分類信息的多種信息包括多種媒體信息越來越多[見 Elisabetta Fersini, Enza Messina and Francesco Archetti, Web Page Classification :A Probabilistic Model with Relational Uncertainty。Computer Science, 2010, Volume 6178/2010,109-118,DOI :10. 1007/978-3-642-14049_5_12],如何充分利用網(wǎng)頁上有價值的多種信息(包括網(wǎng)頁標(biāo)簽、媒體關(guān)鍵字、多媒體信息等),以解決網(wǎng)頁分類過程中的不確定性問題,是本發(fā)明要解決的問題。
發(fā)明內(nèi)容
本發(fā)明是為了克服已有技術(shù)的缺陷,解決網(wǎng)頁自動分類中的不確定性問題,提出一種網(wǎng)頁自動分類融合的方法。本發(fā)明方法是通過下述技術(shù)方案實(shí)現(xiàn)的一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)頁自動分類的方法,其基本實(shí)施過程如下網(wǎng)頁信息抽取,抽取網(wǎng)頁上的有價值的信息;信息預(yù)處理,根據(jù)不同的信息采取不同的信息預(yù)處理方式,獲得融合模型可以處理的信息格式;信息的初分類,將預(yù)處理后的信息采用不同的分類算法進(jìn)行初分類;最終的分類初分類結(jié)果輸入到融合模型的融合中心,進(jìn)行最終的融合分類。對比已有技術(shù),本發(fā)明方法的有益效果在于,能夠解決網(wǎng)頁自動分類過程中的不確定性問題,提高網(wǎng)頁自動分類準(zhǔn)確率,具有較好的分類效果。
圖1為本發(fā)明實(shí)施方式的解決不確定性問題的網(wǎng)頁自動分類模型圖;圖2為本發(fā)明所述基于貝葉斯網(wǎng)絡(luò)的網(wǎng)頁自動分類方法示意圖;圖3為初始化隸屬度函數(shù)示意圖。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)的描述。一種基于貝葉斯網(wǎng)絡(luò)的不確定性問題的網(wǎng)頁自動分類方法,見附圖1,其具體步驟包括步驟一、信息抽取。
將網(wǎng)頁中的廣告等無用信息過濾,并抽取出網(wǎng)頁上可能攜帶分類特征的信息,包括標(biāo)簽信息、多媒體信息、關(guān)鍵字信息。步驟二、數(shù)據(jù)預(yù)處理。對經(jīng)步驟一抽取到的不同信息以相應(yīng)的預(yù)處理方式進(jìn)行預(yù)處理,對多媒體信息進(jìn)行的預(yù)處理包括除噪、降維、特征提?。粚?biāo)簽信息進(jìn)行的預(yù)處理包括除噪、特征提??;對關(guān)鍵字信息的預(yù)處理包括除噪、特征提??;得到預(yù)處理后的數(shù)據(jù),即最終通過特征提取獲得特征向量,特征向量的元素包括邏輯變量、多分類變量和實(shí)數(shù)量;具體來說,對標(biāo)簽信息的預(yù)處理見文獻(xiàn)[范春曉,基于標(biāo)簽的信息抽取預(yù)處理算法[J],數(shù)字技術(shù)與應(yīng)用,2009],對多媒體信息的預(yù)處理包括特征提取、權(quán)重向量等見文獻(xiàn) [鹿文鵬,面向WEB的多媒體語義信息提取方法研究與實(shí)現(xiàn)[J],山東師范大學(xué),2005],對關(guān)鍵字信息的預(yù)處理見文獻(xiàn)[吐爾地·托合提,基于Web的民文信息檢索中維、哈、柯文關(guān)鍵詞的預(yù)處理[C],中國計(jì)算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集, 2007 年]。步驟三、參數(shù)的離散化。由于不同種類的信息經(jīng)過步驟二處理后獲得的數(shù)據(jù)形式不同,而貝葉斯網(wǎng)絡(luò)方法的表示要求是離散化后的數(shù)據(jù)。所以要對步驟二所獲得的數(shù)據(jù)進(jìn)行離散化處理。并且要對步驟二獲得的不同類型的數(shù)據(jù)采用不同的離散化取值方式,通常分為如下三種情況來確定對邏輯變量“是”取1,“否”取0 ;對多分類變量取值為0和1組合,只用在參數(shù)取值多于兩個的情況;(比如四類用00,01,10,11來表示)對實(shí)數(shù)量當(dāng)預(yù)處理后的特征元素為實(shí)數(shù)時,且當(dāng)實(shí)數(shù)量為連續(xù)的情況下,要對其進(jìn)行離散化處理。本發(fā)明采用的方法為對連續(xù)函數(shù)進(jìn)行模糊化,把連續(xù)的實(shí)數(shù)值信息轉(zhuǎn)化為分區(qū)間的區(qū)域信息很低、低、中、高、很高。采用的隸屬函數(shù)為可能性估計(jì)(見文獻(xiàn)邢清華,直覺模糊集隸屬度與非隸屬度函數(shù)的確定方法,《控制與決策》,2009年OM卷003期, 393-397)。這樣就可以按照多分類變量的取值方式直接映射即可。這種方式的優(yōu)勢在于量綱的統(tǒng)一,信息可以直觀有序,便于識別,并減少了貝葉斯網(wǎng)絡(luò)處理的信息量。模糊化之后,進(jìn)行如下步驟完成離散化a.歸一化處理,相應(yīng)的公式如下所示χ,= (x-a) / σ其中a為所有實(shí)數(shù)量的均值,σ為所有實(shí)數(shù)量的標(biāo)準(zhǔn)差(現(xiàn)有公式);歸一化處理后的數(shù)據(jù),均值為0,標(biāo)準(zhǔn)差為1,可以避免度量單位等的影響;b.參照圖3,查出連續(xù)變量離散化對應(yīng)的值。(如果有重復(fù)的以大的值為準(zhǔn))圖3中,U(X)代表離散化后的數(shù)值,χ代表被離散化的數(shù)據(jù)。當(dāng)實(shí)數(shù)量為非連續(xù)的情況下,采用分段表示,具體方法如下在每個區(qū)間段采用上述a,b所屬步驟進(jìn)行離散化,再通過映射得到離散化的值;步驟四、用于解決網(wǎng)頁自動分類中的不確定性問題的貝葉斯網(wǎng)絡(luò)的表示。在網(wǎng)頁自動分類的貝葉斯網(wǎng)絡(luò)表示中,網(wǎng)絡(luò)的節(jié)點(diǎn)代表網(wǎng)頁上的多種信息及分類過程的狀態(tài),邊表示了各個節(jié)點(diǎn)之間的因果關(guān)系。在網(wǎng)頁自動分類的貝葉斯網(wǎng)絡(luò)設(shè)計(jì)實(shí)現(xiàn)中,主要是確定網(wǎng)絡(luò)節(jié)點(diǎn)和有向邊的含義。對于網(wǎng)絡(luò)節(jié)點(diǎn),可以代表兩種情況所述狀態(tài)包括系統(tǒng)輸入狀態(tài)、中間狀態(tài)及輸出狀態(tài)。如附圖2中,S11、S12、S13分別代表標(biāo)簽參數(shù)、多媒體參數(shù)和關(guān)鍵字參數(shù),S2、S3,Si表示中間狀態(tài)其余表示輸出狀態(tài),也就是類別;對于網(wǎng)絡(luò)中的有向邊,則根據(jù)所連接節(jié)點(diǎn)的不同分為以下四種關(guān)系參數(shù)-參數(shù),表示了前后兩個參數(shù)值之間的影響,如圖2中的Sn、S12、S13之間的關(guān)系;參數(shù)-狀態(tài),表示參數(shù)值對系統(tǒng)狀態(tài)的影響。如圖2中Sn、S12, S13與S2、S3、S4的關(guān)系;狀態(tài)-參數(shù),表示當(dāng)前狀態(tài)決定了參數(shù)取值,如圖2中S2、S3、S4000和Sn、S12, S13的關(guān)系;狀態(tài)-狀態(tài),表示了狀態(tài)之間的轉(zhuǎn)換關(guān)系,如圖2中S2、S3、S4、Si的關(guān)系。如圖2所示,該圖是用于解決網(wǎng)頁自動分類中不確定性問題的貝葉斯網(wǎng)絡(luò),可以將網(wǎng)頁分類過程看作是一個貝葉斯網(wǎng)絡(luò)的概率推理過程,因而可以用貝葉斯網(wǎng)絡(luò)作為網(wǎng)頁分類中不確定問題的表示和求解方法。在網(wǎng)頁分類的貝葉斯網(wǎng)絡(luò)表示方法中,網(wǎng)絡(luò)的節(jié)點(diǎn)變量可以分為輸入節(jié)點(diǎn)、中間狀態(tài)節(jié)點(diǎn)及類別節(jié)點(diǎn)。其中輸入節(jié)點(diǎn)表示貝葉斯網(wǎng)絡(luò)的輸入,代表標(biāo)簽信息、多媒體信息及關(guān)鍵字信息等,是獲得貝葉斯網(wǎng)絡(luò)信息的主要渠道。邊表示節(jié)點(diǎn)之間的相互關(guān)聯(lián),如參數(shù)引起狀態(tài)的改變,狀態(tài)對參數(shù)的影響等。條件概率(CPT)則是表示相連節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度。當(dāng)網(wǎng)頁分類的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)及各節(jié)點(diǎn)的條件概率確定了以后,就可以根據(jù)貝葉斯網(wǎng)絡(luò)進(jìn)行相應(yīng)的分類推理,得出網(wǎng)頁的類別節(jié)點(diǎn)。其中,S11,是貝葉斯網(wǎng)絡(luò)的輸入節(jié)點(diǎn),是由步驟2種獲得的數(shù)據(jù)。S2,…,Si是中間狀態(tài)節(jié)點(diǎn),是由Si推理得出的貝葉斯網(wǎng)絡(luò)的中間狀態(tài)值步驟五、在步驟四的基礎(chǔ)上,采用模擬退火算法進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu);步驟六、在步驟五的基礎(chǔ)上,采用最大似然估計(jì)算法進(jìn)行貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí), 獲得貝葉斯網(wǎng)絡(luò)各個節(jié)點(diǎn)的參數(shù)信息,從而得到用于分類的貝葉斯網(wǎng)絡(luò);步驟七、在步驟五和步驟六的基礎(chǔ)上,將步驟三獲得的離散化數(shù)據(jù)輸入步驟六所獲得的貝葉斯網(wǎng)絡(luò),采用如下貝葉斯網(wǎng)絡(luò)推理算法進(jìn)行貝葉斯網(wǎng)絡(luò)推理,從而獲得分類結(jié)果。具體方法如下本發(fā)明所述的基于網(wǎng)頁自動分類的貝葉斯網(wǎng)絡(luò)推理算法是在利用網(wǎng)頁上的多種信息數(shù)據(jù)的基礎(chǔ)上,首先估計(jì)步驟二抽取到的當(dāng)前多個信息的每個特征向量的條件概率密度p(Xl,&,…,&|Wi),根據(jù)步驟一抽取到的當(dāng)前多信息的特征矢量值向量(X1, &,…, Xk),以公式(1)所示的貝葉斯網(wǎng)絡(luò)路徑分類方法逐步地對當(dāng)前態(tài)勢路徑進(jìn)行分類判斷??紤]當(dāng)目標(biāo)判定節(jié)點(diǎn)&由η個可能的判定目標(biāo)組成時,即目標(biāo)判定節(jié)點(diǎn)集表示為& = {ST1, S12,…,StJ的情況,在各特征屬性即分類的原則相互獨(dú)立的情況下,構(gòu)造路徑分類的節(jié)點(diǎn)深度值Lu⑴如1式所示。,、一 ........... Up^K) LiJV^)-
··,xk^Ti)Py^x 5 “··,xksTj )
_ J^l_
tlp{xi
(1)設(shè)網(wǎng)絡(luò)分類的初始節(jié)點(diǎn)為Stl,預(yù)先設(shè)定的搜索閾值為N,系統(tǒng)的類別狀態(tài)節(jié)點(diǎn)集也就是目標(biāo)判定節(jié)點(diǎn)集記為&,預(yù)先設(shè)定的貝葉斯網(wǎng)絡(luò)分類器的取樣容量數(shù)k,1為特征向量的元素個數(shù)。算法中設(shè)定已判定節(jié)點(diǎn)集為D1,待判定節(jié)點(diǎn)集為D2。具體的網(wǎng)頁自動分類推理算法的步驟如下步驟1將初始節(jié)點(diǎn)&放入已判定節(jié)點(diǎn)表D1(算法實(shí)現(xiàn)時,D1以堆棧來實(shí)現(xiàn))中,若 &屬于目標(biāo)類別狀態(tài)節(jié)點(diǎn)集&,則分類結(jié)果為&狀態(tài),完成分類,結(jié)束所有操作;步驟2如果已判定節(jié)點(diǎn)表D1為空,分類完成,結(jié)束所有操作。否則繼續(xù)進(jìn)行步驟 3 ;步驟3在D1表中選中堆棧中最靠外的一節(jié)點(diǎn)Si并彈出,作為當(dāng)前分類節(jié)點(diǎn),將其移至待判定節(jié)點(diǎn)表D2中;步驟4在步驟3的基礎(chǔ)上,如果Si屬于目標(biāo)類別狀態(tài)節(jié)點(diǎn)集ST,則認(rèn)為推理成功, 其分類結(jié)果為Si,轉(zhuǎn)至步驟6,否則進(jìn)行步驟5 ;步驟5如果Si不屬于目標(biāo)類別節(jié)點(diǎn)集ST,且Si的當(dāng)前節(jié)點(diǎn)深度大于預(yù)先設(shè)定的搜索閾值N,則轉(zhuǎn)步驟2;步驟6在步驟4的基礎(chǔ)上,根據(jù)所述貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)得到的下一個節(jié)點(diǎn)I,生成Si 的所有子節(jié)點(diǎn);若Si無子節(jié)點(diǎn),則置Si于D2中,轉(zhuǎn)步驟2 ;刪去與D1表中已完成判定的節(jié)點(diǎn)相同的節(jié)點(diǎn),并將其依次放入込中;步驟7在步驟6的基礎(chǔ)上,對當(dāng)前路徑進(jìn)行特征抽取和分類判斷。若當(dāng)前特征向量元素的數(shù)目1小于貝葉斯網(wǎng)絡(luò)分類器的取樣容量數(shù)k,則轉(zhuǎn)步驟2 ;否則,調(diào)用貝葉斯判決公式⑴來判定特征向量(Xl,x2,…,xk)是否屬于類別目標(biāo)節(jié)點(diǎn)集&,若判決結(jié)果表明該特征向量屬于目標(biāo)類別狀態(tài)節(jié)點(diǎn)集S”則完成分類,結(jié)束所有操作,否則再次執(zhí)行步驟1至步驟7。若再次執(zhí)行后得到分類結(jié)果則輸出分類結(jié)果成功返回,則轉(zhuǎn)步驟4 ;否則將當(dāng)前節(jié)點(diǎn)Si置于待判定表D2中,轉(zhuǎn)步驟2。步驟七得到了網(wǎng)頁自動分類的分類結(jié)果,也就是通過貝葉斯網(wǎng)絡(luò)推理得到了類別的概率數(shù)。自此,就通過貝葉斯網(wǎng)絡(luò)解決了網(wǎng)頁自動分類中的不確定性問題,完成了分類。下面結(jié)合實(shí)施例說明本技術(shù)方案,本實(shí)例采用了 JAVA語言、MYSQL數(shù)據(jù)庫對中信所網(wǎng)上科技資源進(jìn)行了實(shí)現(xiàn),以下為網(wǎng)頁自動分類貝葉斯網(wǎng)絡(luò)融合模型及算法實(shí)現(xiàn)的具體步驟。執(zhí)行的是對NSTL網(wǎng)上資源的進(jìn)行分類。其功能主要包括熱點(diǎn)科技信息發(fā)現(xiàn)、科技發(fā)展趨勢分析及展示等。主要實(shí)現(xiàn)氣候變換和能源方向的分類。分類體系包括政策、工業(yè)、新能源、低碳經(jīng)濟(jì)、氣候變換及污染。數(shù)據(jù)集共17910個文件平均每個文件占1 10KB,共約2500萬字□,可以說是十分翔實(shí)豐富的,基本代表了一個完整覆蓋面廣的語料環(huán)境。為了實(shí)驗(yàn)方便,選擇政策、工業(yè)、新能源、低碳經(jīng)濟(jì)、氣候變換及污染五大類為預(yù)定義類別,共8900個文件作為語料,其中,訓(xùn)練和測試語料的比例為2 1。在選擇的這些類別中,政策、工業(yè)、新能源等具有類邊界模糊的現(xiàn)象,因此適合于對本融合模型的驗(yàn)證。在設(shè)計(jì)中首先構(gòu)建信息提取、預(yù)處理等融合模型的基本要素,然后是構(gòu)建貝葉斯網(wǎng)絡(luò),以貝葉斯網(wǎng)絡(luò)推理算法實(shí)現(xiàn)對待分網(wǎng)頁類別的評估。步驟一信息抽取將網(wǎng)頁中的廣告等無用信息過濾,并抽取出有價值的多種信息(包括標(biāo)簽信息、 多媒體信息、關(guān)鍵字等),該部分以軟件形式實(shí)現(xiàn)。步驟二數(shù)據(jù)的預(yù)處理對抽取到的多種信息以不同的處理和預(yù)處理方式進(jìn)行處理,便于輸入到貝葉斯網(wǎng)絡(luò)中。以軟件的形式完成此功能。步驟三參數(shù)的離散化由于不同種類的信息的數(shù)據(jù)不同,而貝葉斯網(wǎng)絡(luò)方法的表示要求是離散化后的數(shù)據(jù)。所以在數(shù)據(jù)輸入系統(tǒng)之前要對其進(jìn)行離散化處理。要對不同類型的參數(shù)采用不同的取值方式。多分類變量同邏輯變量類似,只是在參數(shù)取值多于兩個的情況。實(shí)數(shù)量當(dāng)實(shí)數(shù)量為連續(xù)的情況下,要對其進(jìn)行離散化處理。本文采用的方法為對連續(xù)函數(shù)進(jìn)行模糊化,把連續(xù)的實(shí)數(shù)值信息轉(zhuǎn)化為分區(qū)間的區(qū)域信息。采用的隸屬函數(shù)為可能性估計(jì)。這樣就可以按照多分類變量的取值方式直接映射即可。這種方式的優(yōu)勢在于量綱的統(tǒng)一,信息可以直觀有序,便于識別,并減少了系統(tǒng)處理的信息量。實(shí)數(shù)的離散化步驟為a.歸一化處理。相應(yīng)的公式如下所示b.參照圖3,查出連續(xù)變量離散化對應(yīng)的值。步驟四-步驟七貝葉斯網(wǎng)絡(luò)的實(shí)現(xiàn)在網(wǎng)頁自動分類的貝葉斯網(wǎng)絡(luò)表示中,網(wǎng)絡(luò)的節(jié)點(diǎn)代表網(wǎng)頁上的多種信息及分類過程的狀態(tài),邊表示了各個節(jié)點(diǎn)之間的因果關(guān)系。在網(wǎng)頁自動分類的貝葉斯網(wǎng)絡(luò)設(shè)計(jì)實(shí)現(xiàn)中,主要是確定網(wǎng)絡(luò)節(jié)點(diǎn)和有向邊的含義。對于網(wǎng)絡(luò)節(jié)點(diǎn),可以分為兩種情況系統(tǒng)中的各種媒體信息參數(shù)和系統(tǒng)所處的狀態(tài)。對于網(wǎng)絡(luò)中的有向邊,則根據(jù)所連接節(jié)點(diǎn)的不同分為以下四種關(guān)系參數(shù)-參數(shù),表示了前后兩個參數(shù)值之間的影響;參數(shù)-狀態(tài),表示參數(shù)值對系統(tǒng)狀態(tài)的影響;狀態(tài)-參數(shù),表示當(dāng)前狀態(tài)決定了參數(shù)取值;狀態(tài)-狀態(tài),表示了狀態(tài)之間的轉(zhuǎn)換關(guān)系。網(wǎng)頁自動分類的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)分別采用模擬退火算法和最大似然估計(jì)算法來實(shí)現(xiàn),推理算法采用上文提到的改進(jìn)的貝葉斯網(wǎng)絡(luò)推理算法來實(shí)現(xiàn)。最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
8
權(quán)利要求
1. 一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)頁自動分類方法,其特征在于,包括下列步驟 步驟一、信息抽取將網(wǎng)頁中的廣告等無用信息過濾,并抽取出網(wǎng)頁上可能攜帶分類特征的信息,包括標(biāo)簽信息、多媒體信息、關(guān)鍵字信息; 步驟二、數(shù)據(jù)預(yù)處理對經(jīng)步驟一抽取到的不同信息以相應(yīng)的預(yù)處理方式進(jìn)行預(yù)處理,對多媒體信息進(jìn)行的預(yù)處理包括除噪、降維、特征提?。粚?biāo)簽信息進(jìn)行的預(yù)處理包括除噪、特征提取;對關(guān)鍵字信息的預(yù)處理包括除噪、特征提??;得到預(yù)處理后的數(shù)據(jù),即最終通過特征提取獲得特征向量,特征向量的元素包括邏輯變量、多分類變量和實(shí)數(shù)量; 步驟三、參數(shù)的離散化由于不同種類的信息經(jīng)過步驟二處理后獲得的數(shù)據(jù)形式不同,而貝葉斯網(wǎng)絡(luò)方法的表示要求是離散化后的數(shù)據(jù)。所以要對步驟二所獲得的數(shù)據(jù)進(jìn)行離散化處理; 模糊化之后,進(jìn)行如下步驟完成離散化a.歸一化處理,相應(yīng)的公式如下所示 χ, = (χ-a)/σ其中a為所有實(shí)數(shù)量的均值,σ為所有實(shí)數(shù)量的標(biāo)準(zhǔn)差;b.查出連續(xù)變量離散化對應(yīng)的值,如果有重復(fù)的以大的值為準(zhǔn);當(dāng)實(shí)數(shù)量為非連續(xù)的情況下,采用分段表示,具體方法如下在每個區(qū)間段采用上述 a, b所屬步驟進(jìn)行離散化,再通過映射得到離散化的值; 步驟四、貝葉斯網(wǎng)絡(luò)表示對于網(wǎng)絡(luò)節(jié)點(diǎn),可以代表兩種情況所述狀態(tài)包括系統(tǒng)輸入狀態(tài)、中間狀態(tài)及輸出狀態(tài);對于網(wǎng)絡(luò)中的有向邊,則根據(jù)所連接節(jié)點(diǎn)的不同分為以下四種關(guān)系 參數(shù)-參數(shù),表示了前后兩個參數(shù)值之間的影響; 參數(shù)-狀態(tài),表示參數(shù)值對系統(tǒng)狀態(tài)的影響; 狀態(tài)-參數(shù),表示當(dāng)前狀態(tài)決定了參數(shù)取值; 狀態(tài)-狀態(tài),表示了狀態(tài)之間的轉(zhuǎn)換關(guān)系;步驟五、在步驟四的基礎(chǔ)上,采用模擬退火算法進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu);步驟六、在步驟五的基礎(chǔ)上,采用最大似然估計(jì)算法進(jìn)行貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),獲得貝葉斯網(wǎng)絡(luò)各個節(jié)點(diǎn)的參數(shù)信息,從而得到用于分類的貝葉斯網(wǎng)絡(luò);步驟七、在步驟五和步驟六的基礎(chǔ)上,將步驟三獲得的離散化數(shù)據(jù)輸入步驟六所獲得的貝葉斯網(wǎng)絡(luò),采用如下貝葉斯網(wǎng)絡(luò)推理算法進(jìn)行貝葉斯網(wǎng)絡(luò)推理,從而獲得分類結(jié)果;具體方法如下首先估計(jì)步驟二抽取到的當(dāng)前多個信息的每個特征向量的條件概率密度Ρ(Χι,Χ2,…, ^ki),根據(jù)步驟一抽取到的當(dāng)前多信息的特征矢量值向量(X1, X2,…,&),以公式⑴所示的貝葉斯網(wǎng)絡(luò)路徑分類方法逐步地對當(dāng)前態(tài)勢路徑進(jìn)行分類判斷;考慮當(dāng)目標(biāo)判定節(jié)點(diǎn) St由η個可能的判定目標(biāo)組成時,即目標(biāo)判定節(jié)點(diǎn)集表示為St = {ST1,ST2, -,StJ的情況, 在各特征屬性即分類的原則相互獨(dú)立的情況下,構(gòu)造路徑分類的節(jié)點(diǎn)深度值Lu (X)如1式所示。
2.根據(jù)權(quán)利要求1所述的基于貝葉斯網(wǎng)絡(luò)的網(wǎng)頁自動分類方法,其特征在于,步驟三中,對步驟二獲得的不同類型的數(shù)據(jù)采用不同的離散化取值方式,通常分為如下三種情況來確定對邏輯變量“是”取1,“否”取0 ;對多分類變量取值為0和1組合,只用在參數(shù)取值多于兩個的情況; 對實(shí)數(shù)量當(dāng)預(yù)處理后的特征元素為實(shí)數(shù)時,且當(dāng)實(shí)數(shù)量為連續(xù)的情況下,采用的方法為對連續(xù)函數(shù)進(jìn)行模糊化,把連續(xù)的實(shí)數(shù)值信息轉(zhuǎn)化為分區(qū)間的區(qū)域信息很低、低、中、 高、很高;采用的隸屬函數(shù)為可能性估計(jì)。
全文摘要
本發(fā)明公開了一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)頁自動分類方法,屬于數(shù)據(jù)挖掘領(lǐng)域,包括下列步驟網(wǎng)頁信息抽取,抽取網(wǎng)頁上的有價值的信息;信息預(yù)處理,根據(jù)不同的信息采取不同的信息預(yù)處理方式,獲得融合模型可以處理的信息格式;信息的初分類,將預(yù)處理后的信息采用不同的分類算法進(jìn)行初分類;最終的分類初分類結(jié)果輸入到融合模型的融合中心,進(jìn)行最終的融合分類。對比已有技術(shù),本發(fā)明方法的有益效果在于,能夠解決網(wǎng)頁自動分類過程中的不確定性問題,提高網(wǎng)頁自動分類準(zhǔn)確率,具有較好的分類效果。
文檔編號G06F17/30GK102426585SQ20111032527
公開日2012年4月25日 申請日期2011年10月24日 優(yōu)先權(quán)日2011年8月9日
發(fā)明者喬曉東, 張曉丹, 朱禮軍 申請人:中國科學(xué)技術(shù)信息研究所