一種文本分類方法和系統(tǒng)的制作方法
【專利摘要】本申請(qǐng)?zhí)峁┮环N文本分類系統(tǒng)和方法。該方法包括從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,生成類目關(guān)聯(lián)規(guī)則庫(kù);基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫(kù);預(yù)處理測(cè)試文本,提取測(cè)試文本的特征詞條;比對(duì)基礎(chǔ)類目詞庫(kù)中的詞條和類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,利用詞條的關(guān)聯(lián)規(guī)則對(duì)基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算,并計(jì)算關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重;用分類器依提取的特征詞條以及計(jì)算的詞條的權(quán)重,對(duì)測(cè)試文本進(jìn)行分類。本申請(qǐng)的技術(shù)方案避免了不同語言環(huán)境下傳統(tǒng)文本分類中的跨語言平臺(tái)技術(shù)障礙問題,進(jìn)而對(duì)一些新詞以及舊詞新概念僅對(duì)樹形關(guān)聯(lián)規(guī)則稍作修改,就實(shí)現(xiàn)新的文本分類器,無需顧慮傳統(tǒng)文本分類器中文本分部均勻問題。
【專利說明】一種文本分類方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)專利申請(qǐng)涉及文本處理領(lǐng)域,尤其涉及一種文本分類的方法和系統(tǒng)。
【背景技術(shù)】
[0002]文本處理中最常見的是進(jìn)行文本分類處理。文本分類一般包括文本的表達(dá)、分類器的選擇與訓(xùn)練、結(jié)果分類的評(píng)價(jià)與反饋等過程,其中文本的表達(dá)又可以細(xì)分為文本預(yù)處理、索引和統(tǒng)計(jì)、特征抽取等步驟。如圖1所示的文本分類流程圖。預(yù)處理是將原始語料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;索引主要將文檔分解為基本處理單元,同時(shí)降低后續(xù)處理的開銷;統(tǒng)計(jì)的主要工作是總結(jié)出詞頻、項(xiàng)與分類的相關(guān)概率,生成關(guān)聯(lián)規(guī)則庫(kù);特征抽取是從文檔中抽取出反應(yīng)特征文檔主題的特征;而分類器的主要工作是把測(cè)試文本的特征向量基于生成的關(guān)聯(lián)規(guī)則庫(kù),進(jìn)行文本的分類。在完成文本的分類后,要對(duì)分類器分類結(jié)果進(jìn)行分析,進(jìn)一步優(yōu)化分類規(guī)則,充實(shí)訓(xùn)練庫(kù)等。
[0003]目前文本分類技術(shù)的研究主要放在特征值抽取和分類器建模方面,以下是國(guó)內(nèi)現(xiàn)有的集中關(guān)于文本分類方面的專利技術(shù):
[0004]一種基于領(lǐng)域知識(shí)的短文本分類方法及文本分類系統(tǒng),用于解決信息【技術(shù)領(lǐng)域】中傳統(tǒng)文本分類方法不能較好的對(duì)對(duì)短文本進(jìn)行分類的缺點(diǎn)。訓(xùn)練數(shù)據(jù)獲取模塊用來獲取進(jìn)行訓(xùn)練的數(shù)據(jù)得到學(xué)習(xí)庫(kù);數(shù)據(jù)與處理模塊,對(duì)所述學(xué)習(xí)庫(kù)進(jìn)行信息抽取將無結(jié)構(gòu)化的數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù);文本表示模塊采用向量空間模型對(duì)數(shù)據(jù)進(jìn)行數(shù)學(xué)化表示;特征抽取模塊依據(jù)TFIDF算法對(duì)詞項(xiàng)集的重要性進(jìn)行排序;模型建立模塊對(duì)每個(gè)詞項(xiàng)權(quán)值賦予不同的權(quán)重,并根據(jù)預(yù)先設(shè)定的分類規(guī)則分類。該方法和系統(tǒng),對(duì)傳統(tǒng)的分類器進(jìn)行了一定的創(chuàng)新,在分類器中引入了領(lǐng)域詞語的概念,有效地增加了短文本的信息量,對(duì)短文本數(shù)據(jù)特別是網(wǎng)頁商品數(shù)據(jù)做基于不同詞項(xiàng)集的語義分析,并將語義分析的結(jié)果注入到分類器中,為商品數(shù)據(jù)信息注入了新的信息,從而提高文本分類的準(zhǔn)確率。
[0005]一種基于塊劃分及位置權(quán)重的文本分類方法包括:對(duì)輸入的訓(xùn)練或測(cè)試文本經(jīng)過基本的預(yù)處理后,提取文本中的段信息;將每一段視為一個(gè)基本的文本塊,對(duì)塊信息做統(tǒng)計(jì)分析,根據(jù)塊大小分布或預(yù)定義的塊比率,對(duì)文本內(nèi)容重新進(jìn)行塊劃分,包括文本塊的合并等操作。提取特征詞、量化權(quán)重,并獲取特征詞對(duì)類別的后驗(yàn)概率,然后分析具有最大后驗(yàn)概率類別與文本類別標(biāo)簽相符的特征詞的分布,最后生成文本向量;利用分類器完成分類模型訓(xùn)練或文本分類。該方法可用于文本分類系統(tǒng)的文本表示階段,通過豐富傳統(tǒng)的利用特征詞構(gòu)建文本向量時(shí)對(duì)文本內(nèi)容信息的表達(dá),提升文本分類效果。
[0006]一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法,該方法結(jié)合樣本統(tǒng)計(jì)與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間,利用領(lǐng)域內(nèi)部知識(shí)關(guān)系,計(jì)算術(shù)語間的相似度,依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重。并采用支持向量機(jī)學(xué)習(xí)算法,建立領(lǐng)域文本分類模型,實(shí)現(xiàn)領(lǐng)域文本分類。對(duì)云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明,該方法分類準(zhǔn)確率比改進(jìn)TFIDF特征權(quán)重方法的文本分類效果提高了 4個(gè)百分點(diǎn)。
[0007]—種基于概率主題詞的兩級(jí)組合文本分類方法采用的:一級(jí)分類:基于樸素貝葉斯分類方法,利用概率主題詞特征和拒絕條件判斷對(duì)測(cè)試文本分類;二級(jí)分類:再基于傳統(tǒng)特征提取方法提取出特征詞對(duì)被第一級(jí)拒絕分類的測(cè)試文本進(jìn)行分類。此分級(jí)組合方法對(duì)文本進(jìn)行分類,融和不同分類器的特點(diǎn)能夠非常快的在一級(jí)分類中對(duì)很多文本進(jìn)行正確分類,大大提高文本分類系統(tǒng)效率,為文本分類系統(tǒng)實(shí)用化提供很好的處理方式;考慮文本特點(diǎn)提出概率主題詞,在適當(dāng)?shù)木芙^條件下,概率主題詞以很高的正確率完成大量文本分類任務(wù)。實(shí)驗(yàn)證明本申請(qǐng)兩級(jí)組合與傳統(tǒng)單一分類相比,能夠大大減少時(shí)間消耗并能提高系統(tǒng)分類正確率。
[0008]傳統(tǒng)的文本分類技術(shù)如圖1所示首先需要制定一個(gè)邊界效應(yīng)較好的類目體系,并按照該類目體系搜集足夠的具有類目代表性的文本集合作為訓(xùn)練樣本,這一步工作往往是傳統(tǒng)的文本分類工作中時(shí)間開銷最大的工作。在搜集了足夠多,足夠好的訓(xùn)練文本101集合后,要對(duì)單個(gè)文本分類的預(yù)處理得到處理后的訓(xùn)練文本102,預(yù)處理,例如:包括中文分詞、生成停用詞表、中文特征選擇、文本向量表示等工作。成熟的中文分詞方法已經(jīng)有很多,如CDWS、n-gram、隱馬爾科夫模型等。文本語法組成部分的虛詞不僅在文章中出現(xiàn)頻率高,并對(duì)分詞幾乎沒有意義,即干擾分類,有是的文本維度過高,影響分類效率。如果原始數(shù)據(jù)是一些網(wǎng)頁數(shù)據(jù),還需要剔除掉網(wǎng)頁的插件、頁眉、頁腳等結(jié)構(gòu)噪聲。停用詞的自動(dòng)生成技術(shù)還不成熟,目前主要通過導(dǎo)入已有的通用停用詞和人工標(biāo)注項(xiàng)目特需停用的方式來實(shí)現(xiàn),需要一定的時(shí)間開銷并給系統(tǒng)帶來一定的人為不穩(wěn)定性。大量的文本特征一方面會(huì)增加分類算法的空間復(fù)雜度和時(shí)間復(fù)雜度,另一方面可能包含了大量的噪音數(shù)據(jù),最終影響分類精度。目前主流的文本特征值選取方式有TFIDF、信息增益、互信息、X統(tǒng)計(jì)交叉熵等。對(duì)處理后的訓(xùn)練文本102進(jìn)行特征選擇得到特征詞庫(kù)103。隨著文本長(zhǎng)度以及文本數(shù)量的增加,文本特征值選取的計(jì)算開銷也呈線性增長(zhǎng)趨勢(shì)。基于特征等選定訓(xùn)練文本向量104后,傳統(tǒng)文本分類方法通過挖掘頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則庫(kù)105,再規(guī)則剪枝等方式生成分類器106。測(cè)試文本107經(jīng)過類似的預(yù)處理,得到處理后的測(cè)試文本108,基于特征等選定測(cè)試文本向量109后,利用分類器106分類得到類目200。
[0009]而且,現(xiàn)有的分類技術(shù)中,其關(guān)鍵規(guī)則庫(kù)對(duì)于新詞和停用詞的動(dòng)態(tài)調(diào)節(jié)能力有限,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)的迅速普及,越來越多的人們開始使用互聯(lián)網(wǎng)進(jìn)行信息獲取。其網(wǎng)絡(luò)的海量的資源和不斷涌現(xiàn)出的文本資源不斷地挑戰(zhàn)著現(xiàn)有的關(guān)聯(lián)規(guī)則庫(kù)的擴(kuò)展性和適應(yīng)性。華中師范大學(xué)蘇小康的碩士論文《基于維基百科構(gòu)建語義知識(shí)庫(kù)及其在文本分類領(lǐng)域的應(yīng)用研究》基于互聯(lián)網(wǎng)上存在的海量真實(shí)文本(比如維基百科),提出了一種分類數(shù)據(jù)庫(kù)的構(gòu)建方法。此方法采用語義標(biāo)簽為指代,語義指紋刻畫語義的形式化知識(shí)表示方法,從中提出一定規(guī)模的語料庫(kù),對(duì)維基百科網(wǎng)頁之間的連接關(guān)系進(jìn)行挖掘,自動(dòng)構(gòu)建語義知識(shí)庫(kù)。但是此現(xiàn)有技術(shù)的重點(diǎn)是提供一種語義知識(shí)庫(kù),并沒有給出基于此類知識(shí)庫(kù)的關(guān)聯(lián)規(guī)則相對(duì)應(yīng)的文本分類技術(shù)。
【發(fā)明內(nèi)容】
[0010]針對(duì)現(xiàn)有文本分類技術(shù)的缺陷,本申請(qǐng)的技術(shù)方案要解決的技術(shù)問題是提供了基于資源自動(dòng)生成關(guān)聯(lián)規(guī)則庫(kù)并與基礎(chǔ)類目詞庫(kù)結(jié)合實(shí)現(xiàn)文本分類的方法和系統(tǒng),如,基于詞條關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù),通過分析資源的組織關(guān)聯(lián)結(jié)果,生成文本關(guān)鍵字關(guān)聯(lián)規(guī)則分類體系,構(gòu)造樸素貝葉斯分類器,對(duì)測(cè)試文本進(jìn)行文本分類。[0011]本申請(qǐng)一種文本分類系統(tǒng),包括:關(guān)聯(lián)規(guī)則庫(kù)生成模塊,通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫(kù);基礎(chǔ)類目詞庫(kù)生成模塊,基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫(kù);文本預(yù)處理模塊,用于對(duì)測(cè)試文本進(jìn)行預(yù)處理,以提取文本特征詞條;規(guī)則剪枝模塊,比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)則,對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算,并計(jì)算所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重;分類器模塊,基于所述詞條的權(quán)重和提取的所述文本特征詞條,對(duì)所述測(cè)試文本進(jìn)行分類。
[0012]對(duì)應(yīng)本申請(qǐng)的系統(tǒng)的一種文本分類方法,包括:從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫(kù);基于已有各領(lǐng)域的基礎(chǔ)類目,生成基礎(chǔ)類目詞庫(kù);預(yù)處理測(cè)試文本,提取測(cè)試文本的特征詞條;比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)貝U,對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算,并計(jì)算所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重;使用分類器,依據(jù)提取的所述特征詞條以及計(jì)算的詞條的權(quán)重,對(duì)所述測(cè)試文本進(jìn)行分類。
[0013]本申請(qǐng)的技術(shù)方案,基于類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)的進(jìn)行文本分類,避免了不同語言環(huán)境下傳統(tǒng)文本分類中的跨語言平臺(tái)技術(shù)障礙問題。與此同時(shí),對(duì)一些新詞以及舊詞新概念,只要對(duì)各種類型(樹型、網(wǎng)狀、鏈型等)的關(guān)聯(lián)規(guī)則稍作修改,就可以實(shí)現(xiàn)新的文本分類器,無需顧慮傳統(tǒng)文本分類器中文本分部均勻問題。
【專利附圖】
【附圖說明】
[0014]為了更清楚地說明本申請(qǐng)實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1為傳統(tǒng)的文本分類示意圖。
[0016]圖2為本申請(qǐng)【具體實(shí)施方式】的文本分類系統(tǒng)圖。
[0017]圖3為本申請(qǐng)【具體實(shí)施方式】的樹形關(guān)聯(lián)規(guī)則示例。
[0018]圖4為本申請(qǐng)【具體實(shí)施方式】的復(fù)雜關(guān)聯(lián)規(guī)則示例。
[0019]圖5為本申請(qǐng)【具體實(shí)施方式】的根節(jié)點(diǎn)無標(biāo)注的單鏈路。
[0020]圖6為本申請(qǐng)【具體實(shí)施方式】的某些根節(jié)點(diǎn)無標(biāo)注的多鏈路。
[0021]圖7為本申請(qǐng)【具體實(shí)施方式】的環(huán)鏈剪枝策略。
【具體實(shí)施方式】
[0022]下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0023]本申請(qǐng)基于類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)進(jìn)行文本分類的技術(shù),在下面的【具體實(shí)施方式】中,將以維基百科作為類目關(guān)聯(lián)規(guī)則庫(kù)的構(gòu)建基礎(chǔ)作為例子,但并不限于此。維基百科是一個(gè)基于Wiki技術(shù)的多語言百科全書協(xié)作計(jì)劃,也是一部用不同語言寫成的網(wǎng)路百科全書,其目標(biāo)及宗旨是為全人類提供自由的百科全書——用他們所選擇的語言來書寫而成的。截至2011年11月,已經(jīng)有超過3172萬的注冊(cè)用戶以及為數(shù)眾多的未注冊(cè)用戶貢獻(xiàn)了 282種語言超過2024萬篇的條目,其編輯次數(shù)已經(jīng)超過12億3192萬次。由于維基百科具有多語言參照類目體系,采用該樹形結(jié)構(gòu)關(guān)聯(lián)規(guī)則所建立的文本關(guān)聯(lián)規(guī)則分類體系,完全可以應(yīng)用到不同的語言系統(tǒng)中。其他的類似的各種百科數(shù)據(jù)庫(kù),比如,百度數(shù)據(jù)庫(kù),中國(guó)百科網(wǎng)等,和數(shù)字圖書館的分類索引詞條,都可以作為關(guān)聯(lián)規(guī)則庫(kù)的構(gòu)建基礎(chǔ)。對(duì)于其他拓?fù)浣Y(jié)構(gòu)的關(guān)聯(lián)規(guī)則,比如,網(wǎng)狀結(jié)構(gòu),鏈狀結(jié)構(gòu)等(任意或至少一種)關(guān)聯(lián)規(guī)則或其組合,本申請(qǐng)的方法和系統(tǒng)同樣適用。下文將結(jié)合附圖對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行介紹。
[0024]圖2是本申請(qǐng)的文本分類系統(tǒng)圖。該系統(tǒng)包含關(guān)聯(lián)規(guī)則庫(kù)生成模塊201,基礎(chǔ)類目詞庫(kù)生成模塊202,文本預(yù)處理模塊203,規(guī)則剪枝模塊204,分類器205幾部分組成。本實(shí)施例是基于維基百科的樹狀文本類目關(guān)聯(lián)規(guī)則,但并不限于此。
[0025]關(guān)聯(lián)規(guī)則庫(kù)生成模塊201,通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條和這些詞條之間的規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫(kù),在類目關(guān)聯(lián)規(guī)則庫(kù)中存儲(chǔ)這些詞條以及這些詞條之間的關(guān)聯(lián)規(guī)則。
[0026]比如,從維基百科(Wikipedia)等具有一定類目關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)資源中利用數(shù)據(jù)挖掘技術(shù)或者爬蟲技術(shù)提取詞條和詞條之間的規(guī)則,生成類目關(guān)聯(lián)規(guī)則庫(kù),如利用爬蟲工具爬去維基百科的分類索引詞條,保存到一數(shù)據(jù)庫(kù)中。其需要根據(jù)一定的網(wǎng)頁分析算法以過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列,進(jìn)而根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)抓取、選擇的動(dòng)作,直到達(dá)到停止條件。以爬蟲程序進(jìn)行網(wǎng)頁抓取為例,爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)而進(jìn)行分析、過濾,并建立索引,以便之后的查詢和檢索。其常用的搜索策略為深度優(yōu)先和廣度優(yōu)先。爬蟲程序獲得維基百科的分類索引詞條,比如:通信_(tái)>手機(jī)_〉頻率,中的三個(gè)詞條以及三個(gè)詞條之間的關(guān)聯(lián)關(guān)系,如此例子中即為一對(duì)一的父子關(guān)聯(lián)規(guī)則,通信(父)、手機(jī)(子),手機(jī)(父)、頻率(子),也可能一對(duì)多的關(guān)聯(lián)規(guī)則,即一個(gè)父,多個(gè)子。并將這些詞條以及詞條之間的關(guān)聯(lián)規(guī)則(類目關(guān)聯(lián)規(guī)則)保存到一個(gè)數(shù)據(jù)庫(kù)中,形成例如:頁面分類_>社會(huì)_>軍事_>軍事學(xué)_>線式作戰(zhàn),這樣的形式,生成類目關(guān)聯(lián)規(guī)則庫(kù)即關(guān)聯(lián)規(guī)則庫(kù)。參考鏈接如:
[0027]http://zh.wikipedia.0rg/wiki/ffikipedia:%E5%88%86%E9%A1%9E%E7%B4%A2%E5%BC%95。
[0028]基礎(chǔ)類目詞庫(kù)生成模塊202,生成基礎(chǔ)類目詞庫(kù),其生成各領(lǐng)域的基礎(chǔ)類目,用于類目查詢,以確定文本分類領(lǐng)域。此模塊202基于現(xiàn)有/已有的各領(lǐng)域的基礎(chǔ)類目來生成基礎(chǔ)類目詞庫(kù),可以通過下載現(xiàn)有/已有的基礎(chǔ)類目詞庫(kù),比如QQ輸入法分類詞庫(kù),保存到本地文件,以備使用。參考鏈接如:http://dict.py.qq.com/
[0029]基于上述類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù),能利用諸如樹形結(jié)構(gòu)的關(guān)聯(lián)規(guī)則建立文本關(guān)聯(lián)規(guī)則,有助于應(yīng)用于不同的語言系統(tǒng),即能跨語言平臺(tái)。類目關(guān)聯(lián)規(guī)則庫(kù)和基礎(chǔ)類目詞庫(kù)做好了后續(xù)剪枝處理和文本分類的數(shù)據(jù)準(zhǔn)備。
[0030]文本預(yù)處理模塊203用于對(duì)測(cè)試文本進(jìn)行處理,提取文本特征詞條。其具有文本特征向量提取功能,對(duì)測(cè)試文本進(jìn)行預(yù)處理,一個(gè)待測(cè)文本通過簡(jiǎn)單的中文分詞處理,剔除一些助詞、副詞等虛詞,得到該文本的關(guān)鍵詞列表,并通過例如TFIDF以及關(guān)鍵詞長(zhǎng)度計(jì)算出關(guān)鍵詞的分?jǐn)?shù)作為類目分類器205的輸入。[0031 ] 規(guī)則剪枝模塊204,用于比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫(kù)內(nèi)的詞條關(guān)聯(lián)規(guī)則,對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算,并計(jì)算所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條的權(quán)重。規(guī)則剪枝模塊204在分類前,對(duì)上述類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)進(jìn)行處理,利用諸如樹形結(jié)構(gòu)關(guān)聯(lián)規(guī)則建立詞條關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)的比對(duì)、分析、計(jì)算、修改,簡(jiǎn)易地變更分類方式,保證跨語言平臺(tái)的文本分類,而無需顧慮傳統(tǒng)文本分類器的文本分布均勻。
[0032]根據(jù)規(guī)則剪枝算法,基于關(guān)聯(lián)規(guī)則庫(kù)生成模塊201和基礎(chǔ)類目詞庫(kù)生成模塊202(二者準(zhǔn)備的數(shù)據(jù)),分析詞條在關(guān)聯(lián)規(guī)則庫(kù)的關(guān)聯(lián)規(guī)則,對(duì)基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重分析計(jì)算,并把權(quán)重信息送給分類器205,以備分類使用。規(guī)則剪枝模塊204的工作原理將在下文中介紹。
[0033]分類器模塊205,利用計(jì)算出來的詞條的權(quán)重,作為樸素貝葉斯分類器的先驗(yàn)條件概率,即此詞條屬于某一類目的條件概率,對(duì)測(cè)試文本進(jìn)行分類。最后完成文本分類獲得需要的類目。本實(shí)施方案采用樸素貝葉斯文本分類器對(duì)文本分類,其他類型的文本分類器,經(jīng)過適當(dāng)修改,也可以應(yīng)用到本申請(qǐng)中。
[0034]下面對(duì)規(guī)則剪枝模塊204的工作原理進(jìn)行描述。規(guī)則剪枝模塊204接受來自對(duì)關(guān)聯(lián)規(guī)則庫(kù)模塊201的詞條關(guān)聯(lián)規(guī)則和來自于基礎(chǔ)類目詞庫(kù)生成模塊中生成的基礎(chǔ)類目詞庫(kù)的詞條,對(duì)詞庫(kù)中的詞條的權(quán)重進(jìn)行計(jì)算。其剪枝處理包括了:1)進(jìn)行基礎(chǔ)類目詞庫(kù)權(quán)重估計(jì)、2)初始化維基樹型結(jié)構(gòu)的類目關(guān)聯(lián)規(guī)則庫(kù)(關(guān)聯(lián)關(guān)系初始化)、3)采用迭代算法對(duì)關(guān)聯(lián)規(guī)則庫(kù)中所有節(jié)點(diǎn)權(quán)重進(jìn)行計(jì)算、4)對(duì)特殊節(jié)點(diǎn)進(jìn)行處理、5)對(duì)關(guān)聯(lián)規(guī)則中環(huán)狀關(guān)系進(jìn)行剪切處理。
[0035]I)基礎(chǔ) 類目詞庫(kù)權(quán)重估計(jì)
[0036]假設(shè)存在N個(gè)不同類目的詞典⑶={Dict_l, Dict_2,…Dict_N},每個(gè)Diet文件中,含有M個(gè)單詞/詞組,Dict_i={fford_il, Word_i2,...., Word_iM},計(jì)算每個(gè)詞典內(nèi)單詞/詞組的權(quán)重w_weight: w_weight=l/DF, DF 即 Dictionary Frequency,當(dāng)前 word在不同詞典內(nèi)出現(xiàn)的頻度(次數(shù))。生成基礎(chǔ)類目詞庫(kù)權(quán)重表。比如,詞組“芯片頻率”出現(xiàn)在出_計(jì)算機(jī)}類和{D_手機(jī)}類中出現(xiàn),因此,此詞組的DF值為2,其屬于{D_計(jì)算機(jī)}類的條件概率P ({D_計(jì)算機(jī)} /”芯片頻率” )=1/2。并將詞條及其對(duì)應(yīng)的權(quán)重生成權(quán)重表。
[0037]2)初始化維基樹形結(jié)構(gòu)的關(guān)聯(lián)規(guī)則庫(kù)
[0038]查詢類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,例如,查詢維基百科的樹形文本類目詞庫(kù)中的詞條,如果在基礎(chǔ)類目詞庫(kù)的權(quán)重表中存在當(dāng)前詞條,則將權(quán)重表中的權(quán)重賦給當(dāng)前詞條,否則該詞條的類目信息為零(為未標(biāo)注節(jié)點(diǎn)),并把當(dāng)前節(jié)點(diǎn)記做“標(biāo)注節(jié)點(diǎn)”,并存儲(chǔ)各節(jié)點(diǎn)的信息于類目關(guān)聯(lián)規(guī)則庫(kù)中,該節(jié)點(diǎn)信息包括與其有關(guān)系的所有類目以及其相應(yīng)的權(quán)重,其格式比如:{類目1:權(quán)重1,類目2:權(quán)重2......}。例如:
[0039]維基百科中的詞條“紡織城街道”未在此詞典中出現(xiàn),則“紡織城街道”節(jié)點(diǎn)不做任何處理;
[0040]當(dāng)維基百科中的節(jié)點(diǎn)的詞條“渦輪增壓”只出現(xiàn)在詞典{D_機(jī)械}類中時(shí),對(duì)“渦輪增壓”節(jié)點(diǎn)賦予W_ {渦輪增壓} = {D_機(jī)械:1};
[0041]當(dāng)維基百科節(jié)點(diǎn)中的詞條“芯片頻率”出現(xiàn)在{D_計(jì)算機(jī)}類和{D_手機(jī)}類中時(shí),對(duì)“芯片頻率”節(jié)點(diǎn)賦予W_{芯片頻率}=出_計(jì)算機(jī):0.5,手機(jī):0.5}。[0042]3)采用迭代算法對(duì)類目關(guān)聯(lián)規(guī)則庫(kù)中所有節(jié)點(diǎn)進(jìn)行權(quán)重計(jì)算
[0043]在初始化標(biāo)注節(jié)點(diǎn)后,對(duì)于沒有標(biāo)注的節(jié)點(diǎn),需要考慮以下幾種關(guān)聯(lián)規(guī)則:如一對(duì)一、一對(duì)多的詞條之間的關(guān)聯(lián)規(guī)則。
[0044]查詢類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,如果在基礎(chǔ)類目詞庫(kù)的權(quán)重表中并不存在當(dāng)前詞條,在設(shè)置其類目信息為O后,存儲(chǔ)當(dāng)前詞條為未標(biāo)注節(jié)點(diǎn)在該類目關(guān)聯(lián)規(guī)則庫(kù)中。并依據(jù)當(dāng)前詞條與那些存在于基礎(chǔ)類目詞庫(kù)中的詞條之間的詞條規(guī)則關(guān)系,如一對(duì)一、一對(duì)多(參見a)、b)、C))來處理,以計(jì)算當(dāng)前詞條的權(quán)重。
[0045]a)當(dāng)未標(biāo)注的節(jié)點(diǎn)X自下而上檢索到某個(gè)標(biāo)注節(jié)點(diǎn)A,并且與節(jié)點(diǎn)A存在“1-1”的單鏈關(guān)系時(shí)(如圖3 (a)),節(jié)點(diǎn)X與節(jié)點(diǎn)A的深度比重為1,則節(jié)點(diǎn)X的與A的關(guān)聯(lián)規(guī)則為:X=A0 節(jié)點(diǎn) w_we i ght_X=w_we i ght_A
[0046]b)當(dāng)節(jié)點(diǎn)X和上一層節(jié)點(diǎn){A,B,...}存在“1-η”的多鏈關(guān)系時(shí)(如圖3 (b)),這η個(gè)父節(jié)點(diǎn)深度相同且均為標(biāo)注節(jié)點(diǎn),則該節(jié)點(diǎn)到所有父節(jié)點(diǎn)的深度權(quán)值為1/η,則節(jié)點(diǎn)X與節(jié)點(diǎn)A之間的關(guān)聯(lián)規(guī)則為:
[0047]
【權(quán)利要求】
1.一種文本分類系統(tǒng),其特征在于,包括: 關(guān)聯(lián)規(guī)則庫(kù)生成模塊(201),通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫(kù); 基礎(chǔ)類目詞庫(kù)生成模塊(202),基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫(kù); 文本預(yù)處理模塊(203),用于對(duì)測(cè)試文本進(jìn)行預(yù)處理,以提取文本特征詞條; 規(guī)則剪枝模塊(204),比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)則,對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算,并計(jì)算所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重; 分類器模塊(205),基于所述詞條的權(quán)重和提取的所述文本特征詞條,對(duì)所述測(cè)試文本進(jìn)行分類。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于, 所述資源包括:百科知識(shí)庫(kù)和數(shù)字圖書館系統(tǒng)中的至少一個(gè); 所述基礎(chǔ)類目詞庫(kù)中的 詞條的權(quán)重計(jì)算是基于該詞條在所述基礎(chǔ)類目詞庫(kù)中的各類目中出現(xiàn)的頻度; 所述詞條之間的關(guān)聯(lián)規(guī)則結(jié)構(gòu)包括:樹型結(jié)構(gòu)、鏈型結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)中至少一種。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述關(guān)聯(lián)規(guī)則庫(kù)生成模塊(201)進(jìn)一步被配置成:使用爬蟲程序生成所述類目關(guān)聯(lián)規(guī)則庫(kù)。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述規(guī)則剪枝模塊(204)進(jìn)一步被配置成:將所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條與所述基礎(chǔ)類目詞庫(kù)中的詞條比對(duì),如果所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條存在于所述基礎(chǔ)類目詞庫(kù)中,則根據(jù)所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重對(duì)所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條進(jìn)行權(quán)重賦值。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述規(guī)則剪枝模塊(204)進(jìn)一步被配置成:如果所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條不存在于所述基礎(chǔ)類目詞庫(kù)中,則根據(jù)在所述類目關(guān)聯(lián)規(guī)則庫(kù)中的該詞條、與存在于所述基礎(chǔ)類目詞庫(kù)中的所述類目關(guān)聯(lián)規(guī)則庫(kù)中的其他詞條的詞條關(guān)聯(lián)規(guī)則進(jìn)行權(quán)重計(jì)算。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于, 所述詞條關(guān)聯(lián)規(guī)則包括詞條之間:一對(duì)一關(guān)系或一對(duì)多關(guān)系; 所述關(guān)聯(lián)規(guī)則庫(kù)中的權(quán)重計(jì)算考慮所述類目關(guān)聯(lián)規(guī)則庫(kù)中各節(jié)點(diǎn)間的相對(duì)深度; 所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的權(quán)重計(jì)算通過迭代算法進(jìn)行。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類器模塊(205)為樸素貝葉斯分類器,所述詞條的權(quán)重作為所述分類器的先驗(yàn)條件概率,對(duì)所述測(cè)試文本進(jìn)行分類。
8.一種文本分類方法,其特征在于,包括: 從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫(kù); 基于已有各領(lǐng)域的基礎(chǔ)類目,生成基礎(chǔ)類目詞庫(kù); 預(yù)處理測(cè)試文本,提取測(cè)試文本的特征詞條; 比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)則,對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算,并計(jì)算所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重;使用分類器,依據(jù)提取的所述特征詞條以及計(jì)算的詞條的權(quán)重,對(duì)所述測(cè)試文本進(jìn)行分類。
9.如權(quán)利要求8所述的方法,其特征在于, 所述資源包括百科知識(shí)庫(kù)和數(shù)字圖書館系統(tǒng)中的至少一個(gè); 所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重計(jì)算是基于該詞條在所述基礎(chǔ)類目詞庫(kù)中的各類目中出現(xiàn)的頻度; 所述詞條之間的關(guān)聯(lián)規(guī)則結(jié)構(gòu)包括:樹型結(jié)構(gòu)、鏈型結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)中至少一種。
10.如權(quán)利要求8所述的方法,其特征在于,所述類目關(guān)聯(lián)規(guī)則庫(kù)是由爬蟲程序提取生成。
11.如權(quán)利要求8所述的方法,其特征在于,將所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條與所述基礎(chǔ)類目詞庫(kù)中的詞條比對(duì),如所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條存在于所述基礎(chǔ)類目詞庫(kù)中,則根據(jù)所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重對(duì)所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條進(jìn)行權(quán)重賦值。
12.如權(quán)利要求11所述的方法,其特征在于,如果所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條不存在于所述基礎(chǔ)類目詞庫(kù)中,則根據(jù)在所述類目關(guān)聯(lián)規(guī)則庫(kù)中的該詞條、與存在于所述基礎(chǔ)類目詞庫(kù)中的所述類目關(guān)聯(lián)規(guī)則庫(kù)中的其他詞條的詞條關(guān)聯(lián)規(guī)則進(jìn)行權(quán)重計(jì)算。
13.如權(quán)利要求12所述的方法,其特征在于, 所述詞條關(guān)聯(lián)規(guī)則包括詞條之間一對(duì)一關(guān)系或一對(duì)多關(guān)系; 所述關(guān)聯(lián)規(guī)則庫(kù)中的權(quán)重計(jì)算考慮所述類目關(guān)聯(lián)規(guī)則庫(kù)中各節(jié)點(diǎn)間的相對(duì)深度; 所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的權(quán)重計(jì)算通過迭代算法進(jìn)行。
14.如權(quán)利要求8所述的方法,其特征在于,所述分類器為樸素貝葉斯分類器,將所述詞條權(quán)重作為所述分類器的先驗(yàn)條件概率,對(duì)所述測(cè)試文本進(jìn)行分類。
【文檔編號(hào)】G06F17/30GK103927302SQ201310009087
【公開日】2014年7月16日 申請(qǐng)日期:2013年1月10日 優(yōu)先權(quán)日:2013年1月10日
【發(fā)明者】陳俊波, 李華康, 曾鵬程, 薛貴榮 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司