一種文本分類方法和系統(tǒng)的制作方法

文檔序號(hào)：6498940閱讀：350來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本分類方法和系統(tǒng)的制作方法
【專利摘要】本申請(qǐng)?zhí)峁┮环N文本分類系統(tǒng)和方法。該方法包括從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則，生成類目關(guān)聯(lián)規(guī)則庫(kù)；基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫(kù)；預(yù)處理測(cè)試文本，提取測(cè)試文本的特征詞條；比對(duì)基礎(chǔ)類目詞庫(kù)中的詞條和類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，利用詞條的關(guān)聯(lián)規(guī)則對(duì)基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算，并計(jì)算關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重；用分類器依提取的特征詞條以及計(jì)算的詞條的權(quán)重，對(duì)測(cè)試文本進(jìn)行分類。本申請(qǐng)的技術(shù)方案避免了不同語言環(huán)境下傳統(tǒng)文本分類中的跨語言平臺(tái)技術(shù)障礙問題，進(jìn)而對(duì)一些新詞以及舊詞新概念僅對(duì)樹形關(guān)聯(lián)規(guī)則稍作修改，就實(shí)現(xiàn)新的文本分類器，無需顧慮傳統(tǒng)文本分類器中文本分部均勻問題。
【專利說明】一種文本分類方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)專利申請(qǐng)涉及文本處理領(lǐng)域，尤其涉及一種文本分類的方法和系統(tǒng)。
【背景技術(shù)】
[0002]文本處理中最常見的是進(jìn)行文本分類處理。文本分類一般包括文本的表達(dá)、分類器的選擇與訓(xùn)練、結(jié)果分類的評(píng)價(jià)與反饋等過程，其中文本的表達(dá)又可以細(xì)分為文本預(yù)處理、索引和統(tǒng)計(jì)、特征抽取等步驟。如圖1所示的文本分類流程圖。預(yù)處理是將原始語料格式化為同一格式，便于后續(xù)的統(tǒng)一處理；索引主要將文檔分解為基本處理單元，同時(shí)降低后續(xù)處理的開銷；統(tǒng)計(jì)的主要工作是總結(jié)出詞頻、項(xiàng)與分類的相關(guān)概率，生成關(guān)聯(lián)規(guī)則庫(kù)；特征抽取是從文檔中抽取出反應(yīng)特征文檔主題的特征；而分類器的主要工作是把測(cè)試文本的特征向量基于生成的關(guān)聯(lián)規(guī)則庫(kù)，進(jìn)行文本的分類。在完成文本的分類后，要對(duì)分類器分類結(jié)果進(jìn)行分析，進(jìn)一步優(yōu)化分類規(guī)則，充實(shí)訓(xùn)練庫(kù)等。
[0003]目前文本分類技術(shù)的研究主要放在特征值抽取和分類器建模方面，以下是國(guó)內(nèi)現(xiàn)有的集中關(guān)于文本分類方面的專利技術(shù):
[0004]一種基于領(lǐng)域知識(shí)的短文本分類方法及文本分類系統(tǒng)，用于解決信息【技術(shù)領(lǐng)域】中傳統(tǒng)文本分類方法不能較好的對(duì)對(duì)短文本進(jìn)行分類的缺點(diǎn)。訓(xùn)練數(shù)據(jù)獲取模塊用來獲取進(jìn)行訓(xùn)練的數(shù)據(jù)得到學(xué)習(xí)庫(kù)；數(shù)據(jù)與處理模塊，對(duì)所述學(xué)習(xí)庫(kù)進(jìn)行信息抽取將無結(jié)構(gòu)化的數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù)；文本表示模塊采用向量空間模型對(duì)數(shù)據(jù)進(jìn)行數(shù)學(xué)化表示；特征抽取模塊依據(jù)TFIDF算法對(duì)詞項(xiàng)集的重要性進(jìn)行排序；模型建立模塊對(duì)每個(gè)詞項(xiàng)權(quán)值賦予不同的權(quán)重，并根據(jù)預(yù)先設(shè)定的分類規(guī)則分類。該方法和系統(tǒng)，對(duì)傳統(tǒng)的分類器進(jìn)行了一定的創(chuàng)新，在分類器中引入了領(lǐng)域詞語的概念，有效地增加了短文本的信息量，對(duì)短文本數(shù)據(jù)特別是網(wǎng)頁商品數(shù)據(jù)做基于不同詞項(xiàng)集的語義分析，并將語義分析的結(jié)果注入到分類器中，為商品數(shù)據(jù)信息注入了新的信息，從而提高文本分類的準(zhǔn)確率。
[0005]一種基于塊劃分及位置權(quán)重的文本分類方法包括:對(duì)輸入的訓(xùn)練或測(cè)試文本經(jīng)過基本的預(yù)處理后，提取文本中的段信息；將每一段視為一個(gè)基本的文本塊，對(duì)塊信息做統(tǒng)計(jì)分析，根據(jù)塊大小分布或預(yù)定義的塊比率，對(duì)文本內(nèi)容重新進(jìn)行塊劃分，包括文本塊的合并等操作。提取特征詞、量化權(quán)重，并獲取特征詞對(duì)類別的后驗(yàn)概率，然后分析具有最大后驗(yàn)概率類別與文本類別標(biāo)簽相符的特征詞的分布，最后生成文本向量；利用分類器完成分類模型訓(xùn)練或文本分類。該方法可用于文本分類系統(tǒng)的文本表示階段，通過豐富傳統(tǒng)的利用特征詞構(gòu)建文本向量時(shí)對(duì)文本內(nèi)容信息的表達(dá)，提升文本分類效果。
[0006]一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法，該方法結(jié)合樣本統(tǒng)計(jì)與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間，利用領(lǐng)域內(nèi)部知識(shí)關(guān)系，計(jì)算術(shù)語間的相似度，依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重。并采用支持向量機(jī)學(xué)習(xí)算法，建立領(lǐng)域文本分類模型，實(shí)現(xiàn)領(lǐng)域文本分類。對(duì)云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明，該方法分類準(zhǔn)確率比改進(jìn)TFIDF特征權(quán)重方法的文本分類效果提高了 4個(gè)百分點(diǎn)。
[0007]—種基于概率主題詞的兩級(jí)組合文本分類方法采用的:一級(jí)分類:基于樸素貝葉斯分類方法，利用概率主題詞特征和拒絕條件判斷對(duì)測(cè)試文本分類；二級(jí)分類:再基于傳統(tǒng)特征提取方法提取出特征詞對(duì)被第一級(jí)拒絕分類的測(cè)試文本進(jìn)行分類。此分級(jí)組合方法對(duì)文本進(jìn)行分類，融和不同分類器的特點(diǎn)能夠非常快的在一級(jí)分類中對(duì)很多文本進(jìn)行正確分類，大大提高文本分類系統(tǒng)效率，為文本分類系統(tǒng)實(shí)用化提供很好的處理方式；考慮文本特點(diǎn)提出概率主題詞，在適當(dāng)?shù)木芙^條件下，概率主題詞以很高的正確率完成大量文本分類任務(wù)。實(shí)驗(yàn)證明本申請(qǐng)兩級(jí)組合與傳統(tǒng)單一分類相比，能夠大大減少時(shí)間消耗并能提高系統(tǒng)分類正確率。
[0008]傳統(tǒng)的文本分類技術(shù)如圖1所示首先需要制定一個(gè)邊界效應(yīng)較好的類目體系，并按照該類目體系搜集足夠的具有類目代表性的文本集合作為訓(xùn)練樣本，這一步工作往往是傳統(tǒng)的文本分類工作中時(shí)間開銷最大的工作。在搜集了足夠多，足夠好的訓(xùn)練文本101集合后，要對(duì)單個(gè)文本分類的預(yù)處理得到處理后的訓(xùn)練文本102，預(yù)處理，例如:包括中文分詞、生成停用詞表、中文特征選擇、文本向量表示等工作。成熟的中文分詞方法已經(jīng)有很多，如CDWS、n-gram、隱馬爾科夫模型等。文本語法組成部分的虛詞不僅在文章中出現(xiàn)頻率高，并對(duì)分詞幾乎沒有意義，即干擾分類，有是的文本維度過高，影響分類效率。如果原始數(shù)據(jù)是一些網(wǎng)頁數(shù)據(jù)，還需要剔除掉網(wǎng)頁的插件、頁眉、頁腳等結(jié)構(gòu)噪聲。停用詞的自動(dòng)生成技術(shù)還不成熟，目前主要通過導(dǎo)入已有的通用停用詞和人工標(biāo)注項(xiàng)目特需停用的方式來實(shí)現(xiàn)，需要一定的時(shí)間開銷并給系統(tǒng)帶來一定的人為不穩(wěn)定性。大量的文本特征一方面會(huì)增加分類算法的空間復(fù)雜度和時(shí)間復(fù)雜度，另一方面可能包含了大量的噪音數(shù)據(jù)，最終影響分類精度。目前主流的文本特征值選取方式有TFIDF、信息增益、互信息、X統(tǒng)計(jì)交叉熵等。對(duì)處理后的訓(xùn)練文本102進(jìn)行特征選擇得到特征詞庫(kù)103。隨著文本長(zhǎng)度以及文本數(shù)量的增加，文本特征值選取的計(jì)算開銷也呈線性增長(zhǎng)趨勢(shì)。基于特征等選定訓(xùn)練文本向量104后，傳統(tǒng)文本分類方法通過挖掘頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則庫(kù)105，再規(guī)則剪枝等方式生成分類器106。測(cè)試文本107經(jīng)過類似的預(yù)處理，得到處理后的測(cè)試文本108，基于特征等選定測(cè)試文本向量109后，利用分類器106分類得到類目200。
[0009]而且，現(xiàn)有的分類技術(shù)中，其關(guān)鍵規(guī)則庫(kù)對(duì)于新詞和停用詞的動(dòng)態(tài)調(diào)節(jié)能力有限，隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)的迅速普及，越來越多的人們開始使用互聯(lián)網(wǎng)進(jìn)行信息獲取。其網(wǎng)絡(luò)的海量的資源和不斷涌現(xiàn)出的文本資源不斷地挑戰(zhàn)著現(xiàn)有的關(guān)聯(lián)規(guī)則庫(kù)的擴(kuò)展性和適應(yīng)性。華中師范大學(xué)蘇小康的碩士論文《基于維基百科構(gòu)建語義知識(shí)庫(kù)及其在文本分類領(lǐng)域的應(yīng)用研究》基于互聯(lián)網(wǎng)上存在的海量真實(shí)文本(比如維基百科)，提出了一種分類數(shù)據(jù)庫(kù)的構(gòu)建方法。此方法采用語義標(biāo)簽為指代，語義指紋刻畫語義的形式化知識(shí)表示方法，從中提出一定規(guī)模的語料庫(kù)，對(duì)維基百科網(wǎng)頁之間的連接關(guān)系進(jìn)行挖掘，自動(dòng)構(gòu)建語義知識(shí)庫(kù)。但是此現(xiàn)有技術(shù)的重點(diǎn)是提供一種語義知識(shí)庫(kù)，并沒有給出基于此類知識(shí)庫(kù)的關(guān)聯(lián)規(guī)則相對(duì)應(yīng)的文本分類技術(shù)。

【發(fā)明內(nèi)容】

[0010]針對(duì)現(xiàn)有文本分類技術(shù)的缺陷，本申請(qǐng)的技術(shù)方案要解決的技術(shù)問題是提供了基于資源自動(dòng)生成關(guān)聯(lián)規(guī)則庫(kù)并與基礎(chǔ)類目詞庫(kù)結(jié)合實(shí)現(xiàn)文本分類的方法和系統(tǒng)，如，基于詞條關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)，通過分析資源的組織關(guān)聯(lián)結(jié)果，生成文本關(guān)鍵字關(guān)聯(lián)規(guī)則分類體系，構(gòu)造樸素貝葉斯分類器，對(duì)測(cè)試文本進(jìn)行文本分類。[0011]本申請(qǐng)一種文本分類系統(tǒng)，包括:關(guān)聯(lián)規(guī)則庫(kù)生成模塊，通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則，以生成類目關(guān)聯(lián)規(guī)則庫(kù)；基礎(chǔ)類目詞庫(kù)生成模塊，基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫(kù)；文本預(yù)處理模塊，用于對(duì)測(cè)試文本進(jìn)行預(yù)處理，以提取文本特征詞條；規(guī)則剪枝模塊，比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)則，對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算，并計(jì)算所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重；分類器模塊，基于所述詞條的權(quán)重和提取的所述文本特征詞條，對(duì)所述測(cè)試文本進(jìn)行分類。
[0012]對(duì)應(yīng)本申請(qǐng)的系統(tǒng)的一種文本分類方法，包括:從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則，以生成類目關(guān)聯(lián)規(guī)則庫(kù)；基于已有各領(lǐng)域的基礎(chǔ)類目，生成基礎(chǔ)類目詞庫(kù)；預(yù)處理測(cè)試文本，提取測(cè)試文本的特征詞條；比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)貝U，對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算，并計(jì)算所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重；使用分類器，依據(jù)提取的所述特征詞條以及計(jì)算的詞條的權(quán)重，對(duì)所述測(cè)試文本進(jìn)行分類。
[0013]本申請(qǐng)的技術(shù)方案，基于類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)的進(jìn)行文本分類，避免了不同語言環(huán)境下傳統(tǒng)文本分類中的跨語言平臺(tái)技術(shù)障礙問題。與此同時(shí)，對(duì)一些新詞以及舊詞新概念，只要對(duì)各種類型(樹型、網(wǎng)狀、鏈型等)的關(guān)聯(lián)規(guī)則稍作修改，就可以實(shí)現(xiàn)新的文本分類器，無需顧慮傳統(tǒng)文本分類器中文本分部均勻問題。
【專利附圖】

【附圖說明】
[0014]為了更清楚地說明本申請(qǐng)實(shí)施例的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1為傳統(tǒng)的文本分類示意圖。
[0016]圖2為本申請(qǐng)【具體實(shí)施方式】的文本分類系統(tǒng)圖。
[0017]圖3為本申請(qǐng)【具體實(shí)施方式】的樹形關(guān)聯(lián)規(guī)則示例。
[0018]圖4為本申請(qǐng)【具體實(shí)施方式】的復(fù)雜關(guān)聯(lián)規(guī)則示例。
[0019]圖5為本申請(qǐng)【具體實(shí)施方式】的根節(jié)點(diǎn)無標(biāo)注的單鏈路。
[0020]圖6為本申請(qǐng)【具體實(shí)施方式】的某些根節(jié)點(diǎn)無標(biāo)注的多鏈路。
[0021]圖7為本申請(qǐng)【具體實(shí)施方式】的環(huán)鏈剪枝策略。
【具體實(shí)施方式】
[0022]下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例，而不是全部的實(shí)施例?；诒旧暾?qǐng)中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本申請(qǐng)保護(hù)的范圍。
[0023]本申請(qǐng)基于類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)進(jìn)行文本分類的技術(shù)，在下面的【具體實(shí)施方式】中，將以維基百科作為類目關(guān)聯(lián)規(guī)則庫(kù)的構(gòu)建基礎(chǔ)作為例子，但并不限于此。維基百科是一個(gè)基于Wiki技術(shù)的多語言百科全書協(xié)作計(jì)劃，也是一部用不同語言寫成的網(wǎng)路百科全書，其目標(biāo)及宗旨是為全人類提供自由的百科全書——用他們所選擇的語言來書寫而成的。截至2011年11月，已經(jīng)有超過3172萬的注冊(cè)用戶以及為數(shù)眾多的未注冊(cè)用戶貢獻(xiàn)了 282種語言超過2024萬篇的條目，其編輯次數(shù)已經(jīng)超過12億3192萬次。由于維基百科具有多語言參照類目體系，采用該樹形結(jié)構(gòu)關(guān)聯(lián)規(guī)則所建立的文本關(guān)聯(lián)規(guī)則分類體系，完全可以應(yīng)用到不同的語言系統(tǒng)中。其他的類似的各種百科數(shù)據(jù)庫(kù)，比如，百度數(shù)據(jù)庫(kù)，中國(guó)百科網(wǎng)等，和數(shù)字圖書館的分類索引詞條，都可以作為關(guān)聯(lián)規(guī)則庫(kù)的構(gòu)建基礎(chǔ)。對(duì)于其他拓?fù)浣Y(jié)構(gòu)的關(guān)聯(lián)規(guī)則，比如，網(wǎng)狀結(jié)構(gòu)，鏈狀結(jié)構(gòu)等(任意或至少一種)關(guān)聯(lián)規(guī)則或其組合，本申請(qǐng)的方法和系統(tǒng)同樣適用。下文將結(jié)合附圖對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行介紹。
[0024]圖2是本申請(qǐng)的文本分類系統(tǒng)圖。該系統(tǒng)包含關(guān)聯(lián)規(guī)則庫(kù)生成模塊201，基礎(chǔ)類目詞庫(kù)生成模塊202，文本預(yù)處理模塊203，規(guī)則剪枝模塊204，分類器205幾部分組成。本實(shí)施例是基于維基百科的樹狀文本類目關(guān)聯(lián)規(guī)則，但并不限于此。
[0025]關(guān)聯(lián)規(guī)則庫(kù)生成模塊201，通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條和這些詞條之間的規(guī)則，以生成類目關(guān)聯(lián)規(guī)則庫(kù)，在類目關(guān)聯(lián)規(guī)則庫(kù)中存儲(chǔ)這些詞條以及這些詞條之間的關(guān)聯(lián)規(guī)則。
[0026]比如，從維基百科(Wikipedia)等具有一定類目關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)資源中利用數(shù)據(jù)挖掘技術(shù)或者爬蟲技術(shù)提取詞條和詞條之間的規(guī)則，生成類目關(guān)聯(lián)規(guī)則庫(kù)，如利用爬蟲工具爬去維基百科的分類索引詞條，保存到一數(shù)據(jù)庫(kù)中。其需要根據(jù)一定的網(wǎng)頁分析算法以過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列，進(jìn)而根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)抓取、選擇的動(dòng)作，直到達(dá)到停止條件。以爬蟲程序進(jìn)行網(wǎng)頁抓取為例，爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯，進(jìn)而進(jìn)行分析、過濾，并建立索引，以便之后的查詢和檢索。其常用的搜索策略為深度優(yōu)先和廣度優(yōu)先。爬蟲程序獲得維基百科的分類索引詞條，比如:通信_(tái)>手機(jī)_〉頻率，中的三個(gè)詞條以及三個(gè)詞條之間的關(guān)聯(lián)關(guān)系，如此例子中即為一對(duì)一的父子關(guān)聯(lián)規(guī)則，通信(父)、手機(jī)(子)，手機(jī)(父)、頻率(子)，也可能一對(duì)多的關(guān)聯(lián)規(guī)則，即一個(gè)父，多個(gè)子。并將這些詞條以及詞條之間的關(guān)聯(lián)規(guī)則(類目關(guān)聯(lián)規(guī)則)保存到一個(gè)數(shù)據(jù)庫(kù)中，形成例如:頁面分類_>社會(huì)_>軍事_>軍事學(xué)_>線式作戰(zhàn)，這樣的形式，生成類目關(guān)聯(lián)規(guī)則庫(kù)即關(guān)聯(lián)規(guī)則庫(kù)。參考鏈接如:
[0027]http://zh.wikipedia.0rg/wiki/ffikipedia:%E5%88%86%E9%A1%9E%E7%B4%A2%E5%BC%95。
[0028]基礎(chǔ)類目詞庫(kù)生成模塊202，生成基礎(chǔ)類目詞庫(kù)，其生成各領(lǐng)域的基礎(chǔ)類目，用于類目查詢，以確定文本分類領(lǐng)域。此模塊202基于現(xiàn)有/已有的各領(lǐng)域的基礎(chǔ)類目來生成基礎(chǔ)類目詞庫(kù)，可以通過下載現(xiàn)有/已有的基礎(chǔ)類目詞庫(kù)，比如QQ輸入法分類詞庫(kù)，保存到本地文件，以備使用。參考鏈接如:http://dict.py.qq.com/
[0029]基于上述類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)，能利用諸如樹形結(jié)構(gòu)的關(guān)聯(lián)規(guī)則建立文本關(guān)聯(lián)規(guī)則，有助于應(yīng)用于不同的語言系統(tǒng)，即能跨語言平臺(tái)。類目關(guān)聯(lián)規(guī)則庫(kù)和基礎(chǔ)類目詞庫(kù)做好了后續(xù)剪枝處理和文本分類的數(shù)據(jù)準(zhǔn)備。
[0030]文本預(yù)處理模塊203用于對(duì)測(cè)試文本進(jìn)行處理，提取文本特征詞條。其具有文本特征向量提取功能，對(duì)測(cè)試文本進(jìn)行預(yù)處理，一個(gè)待測(cè)文本通過簡(jiǎn)單的中文分詞處理，剔除一些助詞、副詞等虛詞，得到該文本的關(guān)鍵詞列表，并通過例如TFIDF以及關(guān)鍵詞長(zhǎng)度計(jì)算出關(guān)鍵詞的分?jǐn)?shù)作為類目分類器205的輸入。[0031 ] 規(guī)則剪枝模塊204，用于比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，利用所述類目關(guān)聯(lián)規(guī)則庫(kù)內(nèi)的詞條關(guān)聯(lián)規(guī)則，對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算，并計(jì)算所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條的權(quán)重。規(guī)則剪枝模塊204在分類前，對(duì)上述類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)進(jìn)行處理，利用諸如樹形結(jié)構(gòu)關(guān)聯(lián)規(guī)則建立詞條關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫(kù)的比對(duì)、分析、計(jì)算、修改，簡(jiǎn)易地變更分類方式，保證跨語言平臺(tái)的文本分類，而無需顧慮傳統(tǒng)文本分類器的文本分布均勻。
[0032]根據(jù)規(guī)則剪枝算法，基于關(guān)聯(lián)規(guī)則庫(kù)生成模塊201和基礎(chǔ)類目詞庫(kù)生成模塊202(二者準(zhǔn)備的數(shù)據(jù))，分析詞條在關(guān)聯(lián)規(guī)則庫(kù)的關(guān)聯(lián)規(guī)則，對(duì)基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重分析計(jì)算，并把權(quán)重信息送給分類器205，以備分類使用。規(guī)則剪枝模塊204的工作原理將在下文中介紹。
[0033]分類器模塊205，利用計(jì)算出來的詞條的權(quán)重，作為樸素貝葉斯分類器的先驗(yàn)條件概率，即此詞條屬于某一類目的條件概率，對(duì)測(cè)試文本進(jìn)行分類。最后完成文本分類獲得需要的類目。本實(shí)施方案采用樸素貝葉斯文本分類器對(duì)文本分類，其他類型的文本分類器，經(jīng)過適當(dāng)修改，也可以應(yīng)用到本申請(qǐng)中。
[0034]下面對(duì)規(guī)則剪枝模塊204的工作原理進(jìn)行描述。規(guī)則剪枝模塊204接受來自對(duì)關(guān)聯(lián)規(guī)則庫(kù)模塊201的詞條關(guān)聯(lián)規(guī)則和來自于基礎(chǔ)類目詞庫(kù)生成模塊中生成的基礎(chǔ)類目詞庫(kù)的詞條，對(duì)詞庫(kù)中的詞條的權(quán)重進(jìn)行計(jì)算。其剪枝處理包括了:1)進(jìn)行基礎(chǔ)類目詞庫(kù)權(quán)重估計(jì)、2)初始化維基樹型結(jié)構(gòu)的類目關(guān)聯(lián)規(guī)則庫(kù)(關(guān)聯(lián)關(guān)系初始化)、3)采用迭代算法對(duì)關(guān)聯(lián)規(guī)則庫(kù)中所有節(jié)點(diǎn)權(quán)重進(jìn)行計(jì)算、4)對(duì)特殊節(jié)點(diǎn)進(jìn)行處理、5)對(duì)關(guān)聯(lián)規(guī)則中環(huán)狀關(guān)系進(jìn)行剪切處理。
[0035]I)基礎(chǔ) 類目詞庫(kù)權(quán)重估計(jì)
[0036]假設(shè)存在N個(gè)不同類目的詞典⑶={Dict_l, Dict_2,…Dict_N},每個(gè)Diet文件中，含有M個(gè)單詞/詞組,Dict_i={fford_il, Word_i2,...., Word_iM}，計(jì)算每個(gè)詞典內(nèi)單詞/詞組的權(quán)重w_weight: w_weight=l/DF, DF 即 Dictionary Frequency,當(dāng)前 word在不同詞典內(nèi)出現(xiàn)的頻度(次數(shù))。生成基礎(chǔ)類目詞庫(kù)權(quán)重表。比如，詞組“芯片頻率”出現(xiàn)在出_計(jì)算機(jī)}類和{D_手機(jī)}類中出現(xiàn)，因此，此詞組的DF值為2，其屬于{D_計(jì)算機(jī)}類的條件概率P ({D_計(jì)算機(jī)} /”芯片頻率” )=1/2。并將詞條及其對(duì)應(yīng)的權(quán)重生成權(quán)重表。
[0037]2)初始化維基樹形結(jié)構(gòu)的關(guān)聯(lián)規(guī)則庫(kù)
[0038]查詢類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，例如，查詢維基百科的樹形文本類目詞庫(kù)中的詞條，如果在基礎(chǔ)類目詞庫(kù)的權(quán)重表中存在當(dāng)前詞條，則將權(quán)重表中的權(quán)重賦給當(dāng)前詞條，否則該詞條的類目信息為零(為未標(biāo)注節(jié)點(diǎn))，并把當(dāng)前節(jié)點(diǎn)記做“標(biāo)注節(jié)點(diǎn)”，并存儲(chǔ)各節(jié)點(diǎn)的信息于類目關(guān)聯(lián)規(guī)則庫(kù)中，該節(jié)點(diǎn)信息包括與其有關(guān)系的所有類目以及其相應(yīng)的權(quán)重，其格式比如:{類目1:權(quán)重1，類目2:權(quán)重2......}。例如:
[0039]維基百科中的詞條“紡織城街道”未在此詞典中出現(xiàn)，則“紡織城街道”節(jié)點(diǎn)不做任何處理；
[0040]當(dāng)維基百科中的節(jié)點(diǎn)的詞條“渦輪增壓”只出現(xiàn)在詞典{D_機(jī)械}類中時(shí)，對(duì)“渦輪增壓”節(jié)點(diǎn)賦予W_ {渦輪增壓} = {D_機(jī)械:1};
[0041]當(dāng)維基百科節(jié)點(diǎn)中的詞條“芯片頻率”出現(xiàn)在{D_計(jì)算機(jī)}類和{D_手機(jī)}類中時(shí)，對(duì)“芯片頻率”節(jié)點(diǎn)賦予W_{芯片頻率}=出_計(jì)算機(jī):0.5，手機(jī):0.5}。[0042]3)采用迭代算法對(duì)類目關(guān)聯(lián)規(guī)則庫(kù)中所有節(jié)點(diǎn)進(jìn)行權(quán)重計(jì)算
[0043]在初始化標(biāo)注節(jié)點(diǎn)后，對(duì)于沒有標(biāo)注的節(jié)點(diǎn)，需要考慮以下幾種關(guān)聯(lián)規(guī)則:如一對(duì)一、一對(duì)多的詞條之間的關(guān)聯(lián)規(guī)則。
[0044]查詢類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，如果在基礎(chǔ)類目詞庫(kù)的權(quán)重表中并不存在當(dāng)前詞條，在設(shè)置其類目信息為O后，存儲(chǔ)當(dāng)前詞條為未標(biāo)注節(jié)點(diǎn)在該類目關(guān)聯(lián)規(guī)則庫(kù)中。并依據(jù)當(dāng)前詞條與那些存在于基礎(chǔ)類目詞庫(kù)中的詞條之間的詞條規(guī)則關(guān)系，如一對(duì)一、一對(duì)多(參見a)、b)、C))來處理，以計(jì)算當(dāng)前詞條的權(quán)重。
[0045]a)當(dāng)未標(biāo)注的節(jié)點(diǎn)X自下而上檢索到某個(gè)標(biāo)注節(jié)點(diǎn)A，并且與節(jié)點(diǎn)A存在“1-1”的單鏈關(guān)系時(shí)(如圖3 (a))，節(jié)點(diǎn)X與節(jié)點(diǎn)A的深度比重為1，則節(jié)點(diǎn)X的與A的關(guān)聯(lián)規(guī)則為:X=A0 節(jié)點(diǎn) w_we i ght_X=w_we i ght_A
[0046]b)當(dāng)節(jié)點(diǎn)X和上一層節(jié)點(diǎn){A，B，...}存在“1-η”的多鏈關(guān)系時(shí)(如圖3 (b))，這η個(gè)父節(jié)點(diǎn)深度相同且均為標(biāo)注節(jié)點(diǎn)，則該節(jié)點(diǎn)到所有父節(jié)點(diǎn)的深度權(quán)值為1/η，則節(jié)點(diǎn)X與節(jié)點(diǎn)A之間的關(guān)聯(lián)規(guī)則為:
[0047]
【權(quán)利要求】
1.一種文本分類系統(tǒng)，其特征在于，包括: 關(guān)聯(lián)規(guī)則庫(kù)生成模塊(201)，通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則，以生成類目關(guān)聯(lián)規(guī)則庫(kù)；基礎(chǔ)類目詞庫(kù)生成模塊(202)，基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫(kù)；文本預(yù)處理模塊(203)，用于對(duì)測(cè)試文本進(jìn)行預(yù)處理，以提取文本特征詞條；規(guī)則剪枝模塊(204)，比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)則，對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算，并計(jì)算所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重；分類器模塊(205)，基于所述詞條的權(quán)重和提取的所述文本特征詞條，對(duì)所述測(cè)試文本進(jìn)行分類。
2.如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述資源包括:百科知識(shí)庫(kù)和數(shù)字圖書館系統(tǒng)中的至少一個(gè)；所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重計(jì)算是基于該詞條在所述基礎(chǔ)類目詞庫(kù)中的各類目中出現(xiàn)的頻度；所述詞條之間的關(guān)聯(lián)規(guī)則結(jié)構(gòu)包括:樹型結(jié)構(gòu)、鏈型結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)中至少一種。
3.如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述關(guān)聯(lián)規(guī)則庫(kù)生成模塊(201)進(jìn)一步被配置成:使用爬蟲程序生成所述類目關(guān)聯(lián)規(guī)則庫(kù)。
4.如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述規(guī)則剪枝模塊(204)進(jìn)一步被配置成:將所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條與所述基礎(chǔ)類目詞庫(kù)中的詞條比對(duì)，如果所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條存在于所述基礎(chǔ)類目詞庫(kù)中，則根據(jù)所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重對(duì)所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條進(jìn)行權(quán)重賦值。
5.如權(quán)利要求4所述的系統(tǒng)，其特征在于，所述規(guī)則剪枝模塊(204)進(jìn)一步被配置成:如果所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條不存在于所述基礎(chǔ)類目詞庫(kù)中，則根據(jù)在所述類目關(guān)聯(lián)規(guī)則庫(kù)中的該詞條、與存在于所述基礎(chǔ)類目詞庫(kù)中的所述類目關(guān)聯(lián)規(guī)則庫(kù)中的其他詞條的詞條關(guān)聯(lián)規(guī)則進(jìn)行權(quán)重計(jì)算。
6.如權(quán)利要求5所述的系統(tǒng)，其特征在于，所述詞條關(guān)聯(lián)規(guī)則包括詞條之間:一對(duì)一關(guān)系或一對(duì)多關(guān)系；所述關(guān)聯(lián)規(guī)則庫(kù)中的權(quán)重計(jì)算考慮所述類目關(guān)聯(lián)規(guī)則庫(kù)中各節(jié)點(diǎn)間的相對(duì)深度；所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的權(quán)重計(jì)算通過迭代算法進(jìn)行。
7.如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述分類器模塊(205)為樸素貝葉斯分類器，所述詞條的權(quán)重作為所述分類器的先驗(yàn)條件概率，對(duì)所述測(cè)試文本進(jìn)行分類。
8.一種文本分類方法，其特征在于，包括: 從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則，以生成類目關(guān)聯(lián)規(guī)則庫(kù)；基于已有各領(lǐng)域的基礎(chǔ)類目，生成基礎(chǔ)類目詞庫(kù)；預(yù)處理測(cè)試文本，提取測(cè)試文本的特征詞條；比對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條和所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條，利用所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的關(guān)聯(lián)規(guī)則，對(duì)所述基礎(chǔ)類目詞庫(kù)中的詞條進(jìn)行權(quán)重計(jì)算，并計(jì)算所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條權(quán)重；使用分類器，依據(jù)提取的所述特征詞條以及計(jì)算的詞條的權(quán)重，對(duì)所述測(cè)試文本進(jìn)行分類。
9.如權(quán)利要求8所述的方法，其特征在于，所述資源包括百科知識(shí)庫(kù)和數(shù)字圖書館系統(tǒng)中的至少一個(gè)；所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重計(jì)算是基于該詞條在所述基礎(chǔ)類目詞庫(kù)中的各類目中出現(xiàn)的頻度；所述詞條之間的關(guān)聯(lián)規(guī)則結(jié)構(gòu)包括:樹型結(jié)構(gòu)、鏈型結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)中至少一種。
10.如權(quán)利要求8所述的方法，其特征在于，所述類目關(guān)聯(lián)規(guī)則庫(kù)是由爬蟲程序提取生成。
11.如權(quán)利要求8所述的方法，其特征在于，將所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條與所述基礎(chǔ)類目詞庫(kù)中的詞條比對(duì)，如所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條存在于所述基礎(chǔ)類目詞庫(kù)中，則根據(jù)所述基礎(chǔ)類目詞庫(kù)中的詞條的權(quán)重對(duì)所述關(guān)聯(lián)規(guī)則庫(kù)中的詞條進(jìn)行權(quán)重賦值。
12.如權(quán)利要求11所述的方法，其特征在于，如果所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條不存在于所述基礎(chǔ)類目詞庫(kù)中，則根據(jù)在所述類目關(guān)聯(lián)規(guī)則庫(kù)中的該詞條、與存在于所述基礎(chǔ)類目詞庫(kù)中的所述類目關(guān)聯(lián)規(guī)則庫(kù)中的其他詞條的詞條關(guān)聯(lián)規(guī)則進(jìn)行權(quán)重計(jì)算。
13.如權(quán)利要求12所述的方法，其特征在于，所述詞條關(guān)聯(lián)規(guī)則包括詞條之間一對(duì)一關(guān)系或一對(duì)多關(guān)系；所述關(guān)聯(lián)規(guī)則庫(kù)中的權(quán)重計(jì)算考慮所述類目關(guān)聯(lián)規(guī)則庫(kù)中各節(jié)點(diǎn)間的相對(duì)深度；所述類目關(guān)聯(lián)規(guī)則庫(kù)中的詞條的權(quán)重計(jì)算通過迭代算法進(jìn)行。
14.如權(quán)利要求8所述的方法，其特征在于，所述分類器為樸素貝葉斯分類器，將所述詞條權(quán)重作為所述分類器的先驗(yàn)條件概率，對(duì)所述測(cè)試文本進(jìn)行分類。
【文檔編號(hào)】G06F17/30GK103927302SQ201310009087
【公開日】2014年7月16日申請(qǐng)日期:2013年1月10日優(yōu)先權(quán)日:2013年1月10日
【發(fā)明者】陳俊波, 李華康, 曾鵬程, 薛貴榮申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳俊波;李華康;曾鵬程;薛貴榮
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專利的發(fā)明人

上一篇：一種查找賬戶的方法和裝置制造方法
上一篇：電子發(fā)票生成、驗(yàn)證、報(bào)銷方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本分類系統(tǒng)相關(guān)技術(shù)

文本自動(dòng)分類系統(tǒng)相關(guān)技術(shù)

文本分類方法相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

文本情感分類方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本分類方法和系統(tǒng)的制作方法