一種文檔分類方法和系統(tǒng)的制作方法【專利摘要】本發(fā)明公開了一種文檔分類方法和系統(tǒng),應(yīng)用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步驟:所述Map程序?qū)τ?xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分;所述Map程序根據(jù)所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;所述Reduce程序使用所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。本發(fā)明充分利用了Hadoop集群的分布式特點(diǎn),避免了傳統(tǒng)系統(tǒng)框架的局限性,具有并行快速的特點(diǎn),能夠快速實(shí)現(xiàn)對(duì)海量文檔的分類,節(jié)省了分類時(shí)間,提高了文檔分類的效率,提高了系統(tǒng)性能?!緦@f(shuō)明】一種文檔分類方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及計(jì)算機(jī)【
技術(shù)領(lǐng)域:
】,具體涉及一種文檔分類方法和系統(tǒng)。【
背景技術(shù):
】[0002]隨著網(wǎng)絡(luò)技術(shù)的日益普及,網(wǎng)絡(luò)中的數(shù)據(jù)量急劇增加,應(yīng)用類型也非常豐富。數(shù)據(jù)挖掘技術(shù)充分利用現(xiàn)有信息資源,從大量數(shù)據(jù)中找出隱藏的知識(shí),是一個(gè)強(qiáng)有力的發(fā)展方向。數(shù)據(jù)挖掘涉及到機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化和高性能計(jì)算等領(lǐng)域,其目的在于從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的、新穎的、令人感興趣的關(guān)系和規(guī)律。其中,文檔分類是數(shù)據(jù)挖掘的一個(gè)重要方向。[0003]現(xiàn)有技術(shù)中,通常使用傳統(tǒng)的系統(tǒng)框架進(jìn)行文檔分類,在處理海量數(shù)據(jù)時(shí),會(huì)導(dǎo)致分類時(shí)間長(zhǎng),系統(tǒng)性能低下?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明提供了一種文檔分類方法和系統(tǒng),以解決現(xiàn)有技術(shù)中系統(tǒng)性能低下的缺陷。[0005]本發(fā)明提供了一種文檔分類方法,應(yīng)用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步驟:[0006]所述Map程序?qū)τ?xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分;[0007]所述Map程序根據(jù)所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;[0008]所述Reduce程序使用所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0009]可選地,所述Map程序根據(jù)解析結(jié)果確定特征屬性之后,還包括:[0010]所述Map程序根據(jù)所述特征屬性,分別對(duì)所述訓(xùn)練文檔和所述待分類文檔進(jìn)行格式轉(zhuǎn)換,得到符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔;[0011]所述Map程序根據(jù)所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器,具體為:[0012]所述Map程序根據(jù)格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;[0013]所述Reduce程序使用所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果,具體為:[0014]所述Reduce程序使用所述分類器對(duì)格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0015]可選地,所述Map程序根據(jù)格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器,具體為:[0016]所述Map程序根據(jù)所述格式轉(zhuǎn)換后的訓(xùn)練文檔對(duì)應(yīng)的各個(gè)特征屬性的取值范圍以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,計(jì)算每個(gè)類別在所述訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),將所述出現(xiàn)頻率和所述條件概率估計(jì)記錄為分類器。[0017]可選地,所述Reduce程序使用所述分類器對(duì)格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果,具體為:[0018]所述Reduce程序獲取所述格式轉(zhuǎn)換后的待分類文檔的所有特征屬性的取值范圍,根據(jù)獲取到的取值范圍、每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),計(jì)算所述待分類文檔歸屬于各個(gè)類別的條件概率,并將數(shù)值最大的條件概率對(duì)應(yīng)的類別作為所述待分類文檔的分類結(jié)果。[0019]可選地,所述Map程序所述對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分,具體為:[0020]所述Map程序通過(guò)對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,得到訓(xùn)練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對(duì)每個(gè)特征屬性劃分多個(gè)取值范圍。[0021]本發(fā)明還提供了一種文檔分類系統(tǒng),應(yīng)用于Hadoop集群中,所述系統(tǒng)包括:[0022]解析模塊,用于對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分;[0023]生成模塊,用于根據(jù)所述解析模塊確定的所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;[0024]分類模塊,用于使用所述生成模塊生成的所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0025]可選地,所述的系統(tǒng),還包括:[0026]轉(zhuǎn)換模塊,用于根據(jù)所述解析模塊確定的所述特征屬性,分別對(duì)所述訓(xùn)練文檔和所述待分類文檔進(jìn)行格式轉(zhuǎn)換,得到符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔;[0027]所述生成模塊,具體用于根據(jù)所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;[0028]所述分類模塊,具體用于使用所述生成模塊生成的所述分類器對(duì)所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0029]可選地,所述生成模塊,具體用于根據(jù)所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的訓(xùn)練文檔對(duì)應(yīng)的各個(gè)特征屬性的取值范圍以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,計(jì)算每個(gè)類別在所述訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),將所述出現(xiàn)頻率和所述條件概率估計(jì)記錄為分類器。[0030]可選地,所述分類模塊,具體用于獲取所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的待分類文檔的所有特征屬性的取值范圍,根據(jù)獲取到的取值范圍、每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),計(jì)算所述待分類文檔歸屬于各個(gè)類別的條件概率,并將數(shù)值最大的條件概率對(duì)應(yīng)的類別作為所述待分類文檔的分類結(jié)果。[0031]可選地,所述解析模塊,具體用于通過(guò)對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,得到訓(xùn)練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對(duì)每個(gè)特征屬性劃分多個(gè)取值范圍。[0032]本發(fā)明充分利用了Hadoop集群的分布式特點(diǎn),避免了傳統(tǒng)系統(tǒng)框架的局限性,具有并行快速的特點(diǎn),能夠快速實(shí)現(xiàn)對(duì)海量文檔的分類,節(jié)省了分類時(shí)間,提高了文檔分類的效率,提聞了系統(tǒng)性能?!緦@綀D】【附圖說(shuō)明】[0033]圖1為本發(fā)明實(shí)施例中一種文檔分類方法的流程圖;[0034]圖2為本發(fā)明實(shí)施例中一種文檔分類系統(tǒng)的結(jié)構(gòu)示意圖。【具體實(shí)施方式】[0035]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0036]需要說(shuō)明的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征可以相互結(jié)合,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。[0037]本發(fā)明實(shí)施例中提出了一種文檔分類方法,應(yīng)用于包括Map程序和Reduce程序的Hadoop集群中,在使用Hadoop命令將訓(xùn)練文檔和待分類文檔放置到HDFS(HadoopDistributedFileSystem,分布式文件系統(tǒng))上之后,執(zhí)行如圖1所示的操作:[0038]步驟101,Map程序?qū)τ?xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)特征屬性進(jìn)行劃分。[0039]具體地,Map程序可以通過(guò)對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,得到訓(xùn)練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對(duì)每個(gè)特征屬性劃分多個(gè)取值范圍。[0040]其中,訓(xùn)練文檔和待分類文檔可以位于HDFS中的不同目錄下,并由分類目錄進(jìn)行管理,每個(gè)文件夾的名字即為類標(biāo)簽,文件夾下的內(nèi)容即為與歸屬于該類標(biāo)簽對(duì)應(yīng)的類的文檔。[0041]例如,訓(xùn)練文檔位于HDFS中的/train目錄下,待分類文檔位于HDFS中的/test目錄下。Map程序根據(jù)對(duì)訓(xùn)練文檔和待分類文檔的分析結(jié)果,選擇3個(gè)特征屬性:a、日志數(shù)量/注冊(cè)天數(shù)山、好友數(shù)量/注冊(cè)天數(shù);c、是否使用真實(shí)頭像,并將每個(gè)特征屬性劃分為:{a〈=0.05,0.05〈a〈0.2,a>=0.2};{b〈=0.1,0.l〈b〈0.8,b>=0.8};{c=0(不是),c=I(是)}。[0042]步驟102,Map程序根據(jù)確定的特征屬性,分別對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行格式轉(zhuǎn)換,得到符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔。[0043]具體地,Map程序可以使用命令行Mahout中的PrepareTwentyNewsgroups類,將訓(xùn)練文檔和待分類文檔轉(zhuǎn)換為符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔。其中,預(yù)設(shè)格式可以是VectorWritable格式,在符合VectorWritable格式的文檔中,第一個(gè)字符是類標(biāo)簽,其余的字符是特征屬性。[0044]步驟103,Map程序根據(jù)格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)訓(xùn)練文檔的分類結(jié)果,生成分類器。[0045]具體地,Map程序可以根據(jù)格式轉(zhuǎn)換后的訓(xùn)練文檔對(duì)應(yīng)的各個(gè)特征屬性的取值范圍以及對(duì)訓(xùn)練文檔的分類結(jié)果,計(jì)算每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),將上述出現(xiàn)頻率和條件概率估計(jì)記錄為分類器。[0046]例如,訓(xùn)練文檔的個(gè)數(shù)為I萬(wàn)個(gè),其分類結(jié)果為:8900個(gè)訓(xùn)練文檔屬于真實(shí)賬號(hào)(即,C=O),1100個(gè)訓(xùn)練文檔屬于非真實(shí)賬號(hào)(即,C=I)。[0047]每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率為:[0048]P(C=O)=8900/10000=0.89;[0049]P(C=I)=1100/10000=0.11;[0050]在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì)為:[0051]P(a<=0.05IC=O)=0.3[0052]P(0.05<a<0.2IC=O)=0.5[0053]P(a>=0.2IC=O)=0.2[0054]P(a〈=0.05IC=I)=0.8[0055]P(0.05<a<0.2IC=I)=0.1[0056]P(a>=0.2IC=I)=0.1[0057]P(b<=0.1IC=O)=0.1[0058]P(0.l<b<0.8IC=0)=0.7[0059]P(b>=0.8IC=O)=0.2[0060]P(b<=0.1IC=I)=0.7[0061]P(0.l<b<0.8IC=1)=0.2[0062]P(b>=0.8IC=l)=0.1[0063]P(c=0IC=O)=0.2[0064]P(c=IIC=O)=0.8[0065]P(c=0IC=I)=0.9[0066]P(c=IIC=I)=0.1[0067]步驟104,Reduce程序使用分類器對(duì)格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0068]具體地,Reduce程序可以獲取格式轉(zhuǎn)換后的待分類文檔的所有特征屬性的取值范圍,根據(jù)獲取到的取值范圍、每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),計(jì)算待分類文檔歸屬于各個(gè)類別的條件概率,并將數(shù)值最大的條件概率對(duì)應(yīng)的類別作為待分類文檔的分類結(jié)果記錄到HDFS上。[0069]例如,待分類文檔的3個(gè)特征屬性的取值范圍為:0.05〈a〈0.2,0.l〈b〈0.8,b>=0.8,c=0,則待分類文檔屬于真實(shí)賬號(hào)(即,C=O)的條件概率為:[0070]P(C=O)P(XIC=O)[0071]=P(C=O)P(0.05<a<0.2IC=O)P(0.l<b<0.8IC=O)P(c=OIC=O)[0072]=0.89*0.5*0.7*0.2[0073]=0.0623;[0074]待分類文檔屬于非真實(shí)賬號(hào)(g卩,C=I)的條件概率為:[0075]P(C=l)P(xIC=I)[0076]=P(C=I)P(0.05<a<0.2IC=I)P(0.l〈b〈0.8IC=l)P(c=0IC=I)[0077]=0.11*0.1*0.2*0.9[0078]=0.00198[0079]由于待分類文檔屬于真實(shí)賬號(hào)的條件概率最大,則Reduce程序確定該待分類文檔屬于真實(shí)賬號(hào)。[0080]本發(fā)明實(shí)施例充分利用了Hadoop集群的分布式特點(diǎn),避免了傳統(tǒng)系統(tǒng)框架的局限性,具有并行快速的特點(diǎn),能夠快速實(shí)現(xiàn)對(duì)海量文檔的分類,節(jié)省了分類時(shí)間,提高了文檔分類的效率,提高了系統(tǒng)性能。[0081]基于上述網(wǎng)頁(yè)聚類方法,本發(fā)明實(shí)施例提出了一種文檔分類系統(tǒng),應(yīng)用于Hadoop集群中,如圖2所不,該系統(tǒng)包括:[0082]解析模塊210,用于對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)該特征屬性進(jìn)行劃分;[0083]具體地,上述解析模塊210,具體用于通過(guò)對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,得到訓(xùn)練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對(duì)每個(gè)特征屬性劃分多個(gè)取值范圍。[0084]生成模塊220,用于根據(jù)解析模塊210確定的訓(xùn)練文檔的特征屬性以及對(duì)訓(xùn)練文檔的分類結(jié)果,生成分類器;[0085]分類模塊230,用于使用生成模塊220生成的分類器對(duì)待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0086]進(jìn)一步地,上述系統(tǒng),還包括:[0087]轉(zhuǎn)換模塊240,用于根據(jù)解析模塊210確定的所述特征屬性,分別對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行格式轉(zhuǎn)換,得到符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔;[0088]相應(yīng)地,上述生成模塊220,具體用于根據(jù)轉(zhuǎn)換模塊240格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)訓(xùn)練文檔的分類結(jié)果,生成分類器;[0089]上述分類模塊230,具體用于使用生成模塊220生成的分類器對(duì)轉(zhuǎn)換模塊240格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。[0090]進(jìn)一步地,上述生成模塊220,具體用于根據(jù)轉(zhuǎn)換模塊240格式轉(zhuǎn)換后的訓(xùn)練文檔對(duì)應(yīng)的各個(gè)特征屬性的取值范圍以及對(duì)訓(xùn)練文檔的分類結(jié)果,計(jì)算每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),將上述出現(xiàn)頻率和上述條件概率估計(jì)記錄為分類器。[0091]相應(yīng)地,上述分類模塊230,具體用于獲取轉(zhuǎn)換模塊240格式轉(zhuǎn)換后的待分類文檔的所有特征屬性的取值范圍,根據(jù)獲取到的取值范圍、每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),計(jì)算所述待分類文檔歸屬于各個(gè)類別的條件概率,并將數(shù)值最大的條件概率對(duì)應(yīng)的類別作為所述待分類文檔的分類結(jié)果。[0092]本發(fā)明實(shí)施例充分利用了Hadoop集群的分布式特點(diǎn),避免了傳統(tǒng)系統(tǒng)框架的局限性,具有并行快速的特點(diǎn),能夠快速實(shí)現(xiàn)對(duì)海量文檔的分類,節(jié)省了分類時(shí)間,提高了文檔分類的效率,提高了系統(tǒng)性能。[0093]結(jié)合本文中所公開的實(shí)施例描述的方法中的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來(lái)實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(RAM)、內(nèi)存、只讀存儲(chǔ)器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動(dòng)磁盤、CD-ROM、或【
技術(shù)領(lǐng)域:
】?jī)?nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。[0094]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【
技術(shù)領(lǐng)域:
】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)?!緳?quán)利要求】1.一種文檔分類方法,其特征在于,應(yīng)用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步驟:所述Map程序?qū)τ?xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分;所述Map程序根據(jù)所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;所述Reduce程序使用所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。2.如權(quán)利要求1所述的方法,其特征在于,所述Map程序根據(jù)解析結(jié)果確定特征屬性之后,還包括:所述Map程序根據(jù)所述特征屬性,分別對(duì)所述訓(xùn)練文檔和所述待分類文檔進(jìn)行格式轉(zhuǎn)換,得到符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔;所述Map程序根據(jù)所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器,具體為:所述Map程序根據(jù)格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;所述Reduce程序使用所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果,具體為:所述Reduce程序使用所述分類器對(duì)格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。3.如權(quán)利要求2所述的方法,其特征在于,所述Map程序根據(jù)格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器,具體為:所述Map程序根據(jù)所述格式轉(zhuǎn)換后的訓(xùn)練文檔對(duì)應(yīng)的各個(gè)特征屬性的取值范圍以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,計(jì)算每個(gè)類別在所述訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),將所述出現(xiàn)頻率和所述條件概率估計(jì)記錄為分類器。4.如權(quán)利要求3所述的方法,其特征在于,所述Reduce程序使用所述分類器對(duì)格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果,具體為:所述Reduce程序獲取所述格式轉(zhuǎn)換后的待分類文檔的所有特征屬性的取值范圍,根據(jù)獲取到的取值范圍、每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),計(jì)算所述待分類文檔歸屬于各個(gè)類別的條件概率,并將數(shù)值最大的條件概率對(duì)應(yīng)的類別作為所述待分類文檔的分類結(jié)果。5.如權(quán)利要求1所述的方法,其特征在于,所述Map程序?qū)τ?xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分,具體為:所述Map程序通過(guò)對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,得到訓(xùn)練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對(duì)每個(gè)特征屬性劃分多個(gè)取值范圍。6.一種文檔分類系統(tǒng),其特征在于,應(yīng)用于Hadoop集群中,所述系統(tǒng)包括:解析模塊,用于對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,根據(jù)解析結(jié)果確定特征屬性,并對(duì)所述特征屬性進(jìn)行劃分;生成模塊,用于根據(jù)所述解析模塊確定的所述訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;分類模塊,用于使用所述生成模塊生成的所述分類器對(duì)所述待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。7.如權(quán)利要求6所述的系統(tǒng),其特征在于,還包括:轉(zhuǎn)換模塊,用于根據(jù)所述解析模塊確定的所述特征屬性,分別對(duì)所述訓(xùn)練文檔和所述待分類文檔進(jìn)行格式轉(zhuǎn)換,得到符合預(yù)設(shè)格式的訓(xùn)練文檔和待分類文檔;所述生成模塊,具體用于根據(jù)所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的訓(xùn)練文檔的特征屬性以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,生成分類器;所述分類模塊,具體用于使用所述生成模塊生成的所述分類器對(duì)所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的待分類文檔進(jìn)行分類,得到待分類文檔的分類結(jié)果。8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述生成模塊,具體用于根據(jù)所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的訓(xùn)練文檔對(duì)應(yīng)的各個(gè)特征屬性的取值范圍以及對(duì)所述訓(xùn)練文檔的分類結(jié)果,計(jì)算每個(gè)類別在所述訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),將所述出現(xiàn)頻率和所述條件概率估計(jì)記錄為分類器。9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述分類模塊,具體用于獲取所述轉(zhuǎn)換模塊格式轉(zhuǎn)換后的待分類文檔的所有特征屬性的取值范圍,根據(jù)獲取到的取值范圍、每個(gè)類別在訓(xùn)練文檔中的出現(xiàn)頻率以及在每個(gè)類別下所有特征屬性的各個(gè)取值范圍的條件概率估計(jì),計(jì)算所述待分類文檔歸屬于各個(gè)類別的條件概率,并將數(shù)值最大的條件概率對(duì)應(yīng)的類別作為所述待分類文檔的分類結(jié)果。10.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述解析模塊,具體用于通過(guò)對(duì)訓(xùn)練文檔和待分類文檔進(jìn)行解析,得到訓(xùn)練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對(duì)每個(gè)特征屬性劃分多個(gè)取值范圍。【文檔編號(hào)】G06F17/30GK104239479SQ201410449140【公開日】2014年12月24日申請(qǐng)日期:2014年9月4日優(yōu)先權(quán)日:2014年9月4日【發(fā)明者】宗棟瑞,郭美思,吳楠申請(qǐng)人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司