欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于BP網(wǎng)絡(luò)的中文文本分類規(guī)則生成方法及系統(tǒng)與流程

文檔序號(hào):12364095閱讀:362來(lái)源:國(guó)知局

本發(fā)明涉及文本處理技術(shù)領(lǐng)域,具體涉及一種基于BP網(wǎng)絡(luò)的中文文本分類規(guī)則生成方法及系統(tǒng)。



背景技術(shù):

文檔分類,也稱作文本分類或文本識(shí)別,是依據(jù)預(yù)先給定的類別標(biāo)記集合,給待分類文檔自動(dòng)或手動(dòng)分配一個(gè)或多個(gè)類別標(biāo)記。文檔分類是對(duì)非結(jié)構(gòu)化文本信息的內(nèi)容進(jìn)行組織和管理的基礎(chǔ)技術(shù),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各類電子文本數(shù)據(jù)的數(shù)量出現(xiàn)了爆炸式的增長(zhǎng),采用手工進(jìn)行文檔分類已經(jīng)無(wú)法適應(yīng)文檔管理的要求,采用統(tǒng)計(jì)學(xué)習(xí)方法的人工智能文檔分類方法成為了自動(dòng)文檔分類的主要方式。文檔分類能夠幫助企業(yè)進(jìn)行文檔整理和分級(jí)管理,也可以幫助人們對(duì)文檔進(jìn)行信息檢索、定位和分流。

實(shí)現(xiàn)文檔分類需要設(shè)計(jì)一個(gè)能夠自動(dòng)進(jìn)行信息處理的分類器。分類器的設(shè)計(jì)首先是信息處理流程的設(shè)計(jì),即對(duì)待分類文檔進(jìn)行格式轉(zhuǎn)化、從字符串中提取待分類文檔的特征、能夠依照分類規(guī)則對(duì)待分類文檔進(jìn)行類別標(biāo)記;其次是分類規(guī)則的設(shè)計(jì),依靠統(tǒng)計(jì)學(xué)習(xí)的方法獲取輸入的已分類的訓(xùn)練文檔集的分類規(guī)律,并將其作為通用的分類規(guī)則,是目前分類器設(shè)計(jì)普遍采用的方法。信息處理流程設(shè)計(jì)主要影響分類器的運(yùn)行速度,而分類規(guī)則的設(shè)計(jì)則決定了分類器對(duì)文檔標(biāo)記的正確性。

分類規(guī)則是分類器設(shè)計(jì)的核心問(wèn)題,可是目前的文檔分類器設(shè)計(jì)過(guò)程中采用的預(yù)先分類好的訓(xùn)練文檔往往無(wú)法覆蓋用戶所需的全部文檔類別,也難以適應(yīng)社會(huì)環(huán)境、語(yǔ)言習(xí)慣變化而引起的用戶文檔中關(guān)鍵字和文檔書(shū)寫(xiě)風(fēng)格的變化。因此在自動(dòng)文檔分類中亟需一種自動(dòng)生成文本分類規(guī)則的方法。

本發(fā)明提出并實(shí)現(xiàn)的一種基于BP網(wǎng)絡(luò)的中文文檔分類規(guī)則生成方法,該方法通過(guò)對(duì)用戶輸入文檔集的預(yù)處理、聚類、手動(dòng)類別調(diào)整和標(biāo)簽標(biāo)記、關(guān)鍵詞提取、訓(xùn)練樣本選擇、BP網(wǎng)絡(luò)訓(xùn)練這一系列信息處理過(guò)程,可以自動(dòng)輸出文檔分類規(guī)則文件。實(shí)現(xiàn)了訓(xùn)練文檔集的交互式類別調(diào)整和篩選、基于關(guān)鍵詞的文檔特征提取、分類規(guī)則的自動(dòng)生成。

現(xiàn)有技術(shù)中存在一種專利技術(shù),用輸入部、抽取部、存儲(chǔ)部、對(duì)照部、學(xué)習(xí)部的組合實(shí)現(xiàn)了對(duì)訓(xùn)練文檔集的抽出部分中的分類規(guī)則的生成。其具備:輸入部,輸入文檔而作為樣本對(duì)象文檔;儲(chǔ)存部,存儲(chǔ)從所述樣本對(duì)象文檔針對(duì)每個(gè)分類類型抽出形成所述樣本對(duì)象文檔的部分、并且用于將分類對(duì)象的分類對(duì)象文檔分類為多個(gè)所述分類類型中的某一個(gè)的分類規(guī)則的制作中使用的部分文本的抽出條件,其中,針對(duì)所述多個(gè)分類類型的每一個(gè)設(shè)定了所述抽出條件;對(duì)照部,對(duì)照所述儲(chǔ)存部中儲(chǔ)存的所述抽出條件、和輸入到所述輸入部的所述樣本對(duì)象文檔;抽出部,根據(jù)由所述對(duì)照部得到的對(duì)照結(jié)果,嘗試從所述樣本對(duì)象文檔針對(duì)每個(gè)所述分類類型抽出所述部分文本的部分文本抽出;以及學(xué)習(xí)部,在通過(guò)所述抽出部的所述部分文本抽出了與所述分類類型對(duì)應(yīng)的所述部分文本的情況下,進(jìn)行使用了所抽出的所述部分文本的規(guī)定的機(jī)械學(xué)習(xí),從而生成所述分類規(guī)則。

上述專利存在以下缺點(diǎn):

(1)上述專利所用方法并不完全適用于中文文檔的分類規(guī)則生成。中文文檔的分類和英文和其他拼音文字分類存在的一個(gè)顯著差異就是需要對(duì)文檔進(jìn)行中文分詞。由于中文不是拼音文字,詞匯之間不存在空格,所以需要將每一個(gè)單獨(dú)的詞從漢字序列中分離出來(lái)。而上述專利中并未對(duì)輸入文檔進(jìn)行格式轉(zhuǎn)換、分詞等文檔預(yù)處理操作。

(2)上述專利中的分類方法對(duì)每一個(gè)分類類型設(shè)置抽出條件,并嘗試從樣本對(duì)象文檔中對(duì)每一個(gè)分類類型進(jìn)行文本抽出。在分類類型較多時(shí),需要設(shè)置多個(gè)抽出條件,并進(jìn)行多次抽出。這樣不僅多個(gè)抽出條件之間會(huì)產(chǎn)生邏輯交疊和沖突,而且抽取運(yùn)算量很大。

(3)上述專利中并未明確“機(jī)器學(xué)習(xí)”采用了何種方法,目前文檔分類的機(jī)器學(xué)習(xí)方法在進(jìn)行多類別分類時(shí)普遍存在的需要預(yù)先指定類別數(shù)量、分類質(zhì)量受訓(xùn)練樣本分布影響嚴(yán)重、無(wú)法同時(shí)提取多類文檔分類特征的缺陷。(應(yīng)用最廣泛的SVM分類器只能實(shí)現(xiàn)二分類,其實(shí)現(xiàn)多分類是通過(guò)多次進(jìn)行二分類完成的。而KNN分類器必須首先指定類別數(shù)量,即K的值,且分類質(zhì)量受訓(xùn)練樣本分布影響嚴(yán)重。)

(4)現(xiàn)有中文文檔分類方法不同時(shí)支持訓(xùn)練樣本和關(guān)鍵詞交互式選擇,難以通過(guò)用戶的干預(yù)提高分類規(guī)則的質(zhì)量。



技術(shù)實(shí)現(xiàn)要素:

為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于BP網(wǎng)絡(luò)的中文文本分類規(guī)則生成方法,該方法包括以下步驟:

(1)對(duì)用戶輸入的中文文檔進(jìn)行處理,得到第一字符串;

(2)從所述第一字符串選取關(guān)鍵詞;

(3)將每一個(gè)關(guān)鍵詞的加權(quán)詞頻作為一個(gè)維度,構(gòu)成對(duì)所述中文文檔進(jìn)行描述的向量空間,從而每篇中文文檔都轉(zhuǎn)換為所述向量空間中的一個(gè)向量,用這個(gè)向量來(lái)描述所述中文文檔;

(4)利用SVD方法對(duì)所述向量構(gòu)成的矩陣進(jìn)行分解,實(shí)現(xiàn)對(duì)所述中文文檔的聚類;

(5)在所述向量空間中,對(duì)用戶輸入的所有中文文檔進(jìn)行篩選,形成所述BP網(wǎng)絡(luò)的訓(xùn)練文檔集;

(6)利用所述訓(xùn)練文檔集對(duì)所述BP網(wǎng)絡(luò)的連接權(quán)重進(jìn)行訓(xùn)練,將訓(xùn)練好的BP網(wǎng)絡(luò)連接權(quán)重矩陣作為分類規(guī)則輸出,用于分類器對(duì)新輸入的未知中文文檔進(jìn)行分類。

進(jìn)一步,根據(jù)權(quán)利要求1所述的方法,所述步驟(1)對(duì)用戶輸入的中文文檔進(jìn)行處理具體包括:將用戶輸入的中文文檔統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的中文文檔,將所述標(biāo)準(zhǔn)的中文文檔進(jìn)行分詞形成第二字符串,刪除所述第二字符串中的停止詞,形成所述第一字符串。

進(jìn)一步,所述步驟(2)從所述第一字符串選取關(guān)鍵詞具體包括:選取具有實(shí)際語(yǔ)義詞性的詞匯作為備選關(guān)鍵詞,然后采用改進(jìn)的TF-IDF算法計(jì)算用戶輸入的中文文檔集中的備選關(guān)鍵詞的權(quán)重,對(duì)所述關(guān)鍵詞的權(quán)重進(jìn)行降序排序,將排序靠前的若干個(gè)備選關(guān)鍵詞自動(dòng)選擇為關(guān)鍵詞,或利用交互界面提供用戶手動(dòng)選擇來(lái)選定關(guān)鍵詞。

進(jìn)一步,所述步驟(4)具體包括:利用SVD方法對(duì)所述向量構(gòu)成的矩陣進(jìn)行分解,實(shí)現(xiàn)對(duì)輸入中文文檔的聚類,依據(jù)奇異值的個(gè)數(shù)形成分解后的對(duì)角矩陣,所述奇異值個(gè)數(shù)即為聚類得到的類別數(shù)目,所述類別數(shù)目可以由用戶通過(guò)交互式界面進(jìn)行手動(dòng)調(diào)節(jié),通過(guò)文檔聚類,為用戶輸入的所有中文文檔提供了類別標(biāo)記。

進(jìn)一步,所述步驟(5)具體包括:在所述向量空間中,對(duì)用戶輸入的所有中文文檔進(jìn)行距離計(jì)算,根據(jù)設(shè)定的閾值判斷屬于同一類別的中文文檔是否具有鄰近關(guān)系,對(duì)于多篇存在鄰近關(guān)系的同類別的中文文檔,僅保留所述中文文檔中最鄰近所述向量空間中心位置的一篇中文文檔作為訓(xùn)練文檔,所述訓(xùn)練文檔對(duì)應(yīng)的文檔向量及對(duì)應(yīng)的類別標(biāo)記形成了BP網(wǎng)絡(luò)的訓(xùn)練文檔集。

進(jìn)一步,所述步驟(6)具體包括:選取多層網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建BP網(wǎng)絡(luò),利用所述訓(xùn)練文檔集對(duì)所述BP網(wǎng)絡(luò)的連接權(quán)重矩陣進(jìn)行訓(xùn)練,在此訓(xùn)練過(guò)程中,設(shè)定BP網(wǎng)絡(luò)中偏置量權(quán)重為常數(shù),經(jīng)過(guò)迭代學(xué)習(xí)的連接權(quán)重矩陣訓(xùn)練后,若所述BP網(wǎng)絡(luò)輸出的分類結(jié)果與實(shí)際類別標(biāo)記的誤差小于預(yù)先設(shè)定的閾值,則將訓(xùn)練好的所述BP網(wǎng)絡(luò)的連接權(quán)重矩陣作為分類規(guī)則輸出,用于分類器對(duì)新輸入的未知中文文檔進(jìn)行分類。

為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于BP網(wǎng)絡(luò)的中文文本分類規(guī)則生成系統(tǒng),該系統(tǒng)包括:

文檔處理模塊:對(duì)用戶輸入的中文文檔進(jìn)行處理,得到第一字符串;

關(guān)鍵詞提取模塊:從所述第一字符串選取關(guān)鍵詞;

向量空間轉(zhuǎn)換模塊:將每一個(gè)關(guān)鍵詞的加權(quán)詞頻作為一個(gè)維度,構(gòu)成對(duì)所述中文文檔進(jìn)行描述的向量空間,從而每篇中文文檔都轉(zhuǎn)換為所述向量空間中的一個(gè)向量,用這個(gè)向量來(lái)描述所述中文文檔;

文檔聚類模塊:利用SVD方法對(duì)所述向量構(gòu)成的矩陣進(jìn)行分解,實(shí)現(xiàn)對(duì)所述中文文檔的聚類;

鄰近文檔篩選模塊:在所述向量空間中,對(duì)用戶輸入的所有中文文檔進(jìn)行篩選,形成所述BP網(wǎng)絡(luò)的訓(xùn)練文檔集;

BP網(wǎng)絡(luò)訓(xùn)練模塊:利用所述訓(xùn)練文檔集對(duì)所述BP網(wǎng)絡(luò)的連接權(quán)重進(jìn)行訓(xùn)練,將訓(xùn)練好的BP網(wǎng)絡(luò)連接權(quán)重矩陣作為分類規(guī)則輸出,用于分類器對(duì)新輸入的未知中文文檔進(jìn)行分類。

進(jìn)一步,根據(jù)權(quán)利要求7所述的系統(tǒng),所述文檔處理模塊包括:文檔轉(zhuǎn)換模塊,將用戶輸入的中文文檔統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的中文文檔;停止詞刪除模塊,將所述標(biāo)準(zhǔn)的中文文檔進(jìn)行分詞形成第二字符串,刪除所述第二字符串中的停止詞,形成所述第一字符串。

進(jìn)一步,所述關(guān)鍵詞提取模塊還包括:選取具有實(shí)際語(yǔ)義詞性的詞匯作為備選關(guān)鍵詞,然后采用改進(jìn)的TF-IDF算法計(jì)算用戶輸入的中文文檔集中的備選關(guān)鍵詞的權(quán)重,對(duì)所述關(guān)鍵詞的權(quán)重進(jìn)行降序排序,將排序靠前的若干個(gè)備選關(guān)鍵詞自動(dòng)選擇為關(guān)鍵詞,或利用交互界面提供用戶手動(dòng)選擇來(lái)選定關(guān)鍵詞。

進(jìn)一步,所述文檔聚類模塊還包括:利用SVD方法對(duì)所述向量構(gòu)成的矩陣進(jìn)行分解,實(shí)現(xiàn)對(duì)輸入中文文檔的聚類,依據(jù)奇異值的個(gè)數(shù)形成分解后的對(duì)角矩陣,所述奇異值個(gè)數(shù)即為聚類得到的類別數(shù)目,所述類別數(shù)目可以由用戶通過(guò)交互式界面進(jìn)行手動(dòng)調(diào)節(jié),通過(guò)文檔聚類,為用戶輸入的所有中文文檔提供了類別標(biāo)記。

進(jìn)一步,所述鄰近文檔篩選模塊還包括:在所述向量空間中,對(duì)用戶輸入的所有中文文檔進(jìn)行距離計(jì)算,根據(jù)設(shè)定的閾值判斷屬于同一類別的中文文檔是否具有鄰近關(guān)系,對(duì)于多篇存在鄰近關(guān)系的同類別的中文文檔,僅保留所述中文文檔中最鄰近所述向量空間中心位置的一篇中文文檔作為訓(xùn)練文檔,所述訓(xùn)練文檔對(duì)應(yīng)的文檔向量及對(duì)應(yīng)的類別標(biāo)記形成了BP網(wǎng)絡(luò)的訓(xùn)練文檔集。

進(jìn)一步,所述BP網(wǎng)絡(luò)訓(xùn)練模塊還包括:選取多層網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建BP網(wǎng)絡(luò),利用所述訓(xùn)練文檔集對(duì)所述BP網(wǎng)絡(luò)的連接權(quán)重矩陣進(jìn)行訓(xùn)練,在此訓(xùn)練過(guò)程中,設(shè)定BP網(wǎng)絡(luò)中偏置量權(quán)重為常數(shù),經(jīng)過(guò)迭代學(xué)習(xí)的連接權(quán)重矩陣訓(xùn)練后,若所述BP網(wǎng)絡(luò)輸出的分類結(jié)果與實(shí)際類別標(biāo)記的誤差小于預(yù)先設(shè)定的閾值,則將訓(xùn)練好的所述BP網(wǎng)絡(luò)的連接權(quán)重矩陣作為分類規(guī)則輸出,用于分類器對(duì)新輸入的未知中文文檔進(jìn)行分類。

本發(fā)明的技術(shù)方案取得了以下技術(shù)效果:

1.通過(guò)多種信息處理模塊的特定組合,實(shí)現(xiàn)了從用戶輸入的文檔集合中提取文檔分類規(guī)則的功能,提高了用戶進(jìn)行文檔分類器設(shè)計(jì)和調(diào)整的效率,增強(qiáng)了基于BP網(wǎng)絡(luò)的分類器在不同場(chǎng)合應(yīng)用的適應(yīng)性。

2.通過(guò)本方法提出的完整技術(shù)解決方案,可以提高基于BP網(wǎng)絡(luò)的中文文檔分類器的分類計(jì)算精度和運(yùn)行穩(wěn)定性,并降低了進(jìn)行分類規(guī)則設(shè)計(jì)的難度和成本。

附圖說(shuō)明

圖1是中文文檔分類規(guī)則生成信息處理流程圖

具體實(shí)施方式

名詞解釋:

神經(jīng)網(wǎng)絡(luò):在計(jì)算機(jī)人工智能領(lǐng)域中特指人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的行為和結(jié)構(gòu)特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。

BP網(wǎng)絡(luò):Back Propagation神經(jīng)網(wǎng)絡(luò),亦稱作反向傳播神經(jīng)網(wǎng)絡(luò)。是1986年由David Rumelhart和James McCelland提出的一種按照誤差反向傳播算法進(jìn)行參數(shù)調(diào)整訓(xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型,可以用于進(jìn)行預(yù)測(cè)和分類。

SVM:Support Vector Machine,支持向量機(jī),亦寫(xiě)作支撐向量機(jī)。是俄羅斯數(shù)學(xué)家Vladimir Vapnik在20世紀(jì)90年代提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類算法。該算法在解決小樣本非線性二分類問(wèn)題時(shí)具有結(jié)構(gòu)風(fēng)險(xiǎn)最小化的特性,可以在很大程度上避免維數(shù)增高帶來(lái)的分類困難。

KNN:K-Nearest Neighbor,鄰近算法,亦稱作K最鄰近算法。是依據(jù)距離最鄰近的K個(gè)樣本點(diǎn)的類別來(lái)決定一個(gè)未知樣本點(diǎn)類別的分類算法。具有理論簡(jiǎn)單、計(jì)算易于實(shí)現(xiàn)的特點(diǎn),但不適于解決多類樣本交疊、各類樣本規(guī)模不均衡的分類問(wèn)題。

中文分詞:是指將中文文檔里的漢字序列切分為一個(gè)個(gè)單獨(dú)的詞。

停止詞:stopword,是指在自然語(yǔ)言環(huán)境中出現(xiàn)頻率很高,但對(duì)于與文檔的語(yǔ)義和分類沒(méi)有實(shí)際影響的詞匯。例如英文中的“the”、“and”、“of”等,中文中的“這”、“的”、“了”、“至于”等。

詞頻:(Term Frequency,TF)在文檔分類中指某一詞語(yǔ)在給定的文件中出現(xiàn)的次數(shù)。

IDF:Inverse Document Frequency,逆文檔頻率。是衡量一個(gè)詞語(yǔ)在指定文檔集中的普遍重要性的統(tǒng)計(jì)指標(biāo),定義為一個(gè)文檔集中所有文檔數(shù)目除以包含指定關(guān)鍵詞的文檔數(shù)目的商再取以10為底的對(duì)數(shù)。

TF-IDF:Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率。是一種用于評(píng)價(jià)一個(gè)關(guān)鍵詞在進(jìn)行文檔分類時(shí)重要程度的統(tǒng)計(jì)方法。其基本思想是一個(gè)關(guān)鍵詞如果在一篇文檔中的詞頻很高,而在其他文檔中很少出現(xiàn),則該關(guān)鍵詞對(duì)于文檔分類更重要。因此TF-IDF的值定義為詞頻(TF)與逆文檔頻率(IDF)兩者的乘積。

詞頻向量:用多個(gè)關(guān)鍵詞的詞頻來(lái)描述一篇文檔,將其中每個(gè)關(guān)鍵詞的詞頻視為該文檔的一維屬性,則可以用該文檔在所有關(guān)鍵詞的詞頻構(gòu)成的高維空間中的詞頻向量作為該文檔的描述。

SVD:Singular Value Decomposition,奇異值分解。是線性代數(shù)中的一種基本的矩陣分解,即將一個(gè)m×n階矩陣轉(zhuǎn)換成三個(gè)矩陣的乘積,其中包括一個(gè)m×m階的酉矩陣(Unitary Matrix)、一個(gè)m×n階的半正定對(duì)角矩陣、一個(gè)n×n階的酉矩陣,其中半正定對(duì)角矩陣中的對(duì)角元素是原矩陣的奇異值。

為了解決上述技術(shù)問(wèn)題,本發(fā)明中提出了基于BP網(wǎng)絡(luò)的中文文檔分類規(guī)則生成方法,針對(duì)用戶存在大量、多類中文電子文檔進(jìn)行分類的需求,解決了文檔分類器設(shè)計(jì)過(guò)程中分類規(guī)則生成的問(wèn)題。本方法從分類規(guī)則生成的訓(xùn)練集來(lái)源、表現(xiàn)形式和提取方法三個(gè)方面的技術(shù)問(wèn)題著手,采用多種信息處理步驟的組合形成了全新的中文文檔分類規(guī)則生成解決方案。

首先,通過(guò)多來(lái)源文檔的轉(zhuǎn)換、分詞、聚類和交互調(diào)節(jié)四個(gè)步驟的信息處理,將用戶輸入的多路徑、多格式的無(wú)類別標(biāo)記文檔轉(zhuǎn)換為統(tǒng)一格式,并進(jìn)行篩選后存入與類別標(biāo)記對(duì)應(yīng)的多個(gè)子文件夾,這些子文件夾中的文檔集合共同構(gòu)成了分類訓(xùn)練集。

其次,以多個(gè)關(guān)鍵詞詞頻構(gòu)成的向量空間中的詞頻向量作為一篇文檔的特征描述,以BP網(wǎng)絡(luò)對(duì)加權(quán)詞頻向量進(jìn)行運(yùn)算的矩陣作為分類規(guī)則的表現(xiàn)形式。這樣不僅節(jié)省了分類規(guī)則的存儲(chǔ)空間,而且提高了分類器的運(yùn)行效率,此外還可以通過(guò)對(duì)于關(guān)鍵詞的權(quán)重調(diào)節(jié)和BP網(wǎng)絡(luò)運(yùn)算矩陣的參數(shù)調(diào)整可以方便地分類器的正確率。

再次,基于加權(quán)詞頻向量空間中的距離對(duì)相鄰的訓(xùn)練文檔進(jìn)行歸并,然后利用BP網(wǎng)絡(luò)的訓(xùn)練算法進(jìn)行統(tǒng)計(jì)學(xué)習(xí),從訓(xùn)練文檔中自動(dòng)提取分類規(guī)則,作為可以泛化應(yīng)用的BP網(wǎng)絡(luò)分類器的分類規(guī)則。

本發(fā)明提出的中文文檔分類規(guī)則生成方法的信息處理過(guò)程如圖1所示,其中包括了文檔格式轉(zhuǎn)換、中文分詞、去除停止詞、關(guān)鍵詞提取、向量空間轉(zhuǎn)換、文檔聚類、鄰近文檔篩選、BP網(wǎng)絡(luò)訓(xùn)練共8個(gè)順次進(jìn)行的處理模塊,通過(guò)這一系列的信息處理,生成了文檔分類器所需的分類規(guī)則。下面對(duì)這8個(gè)信息處理模塊逐一進(jìn)行介紹:

(1)文檔格式轉(zhuǎn)換

將用戶輸入的不同類型的中文文檔(如doc、docx、pdf、rtf等格式)統(tǒng)一轉(zhuǎn)換為txt文本文檔格式,便于后續(xù)模塊進(jìn)行統(tǒng)一處理。

(2)中文分詞

對(duì)txt文本文檔進(jìn)行分詞,將每一個(gè)單獨(dú)的漢語(yǔ)詞匯從連續(xù)的漢字序列中分離出來(lái),并用空格或換行符作為詞匯之間的間隔,然后將分詞后的文檔以字符串的形式傳遞給后續(xù)模塊(3)。

(3)去除停止詞

將分詞后的字符串中的停止詞刪除。判斷字符串中的一個(gè)詞匯是否是停止詞是基于該詞匯與停止詞列表中詞匯的匹配結(jié)果。而停止詞列表本身也是以txt文檔的形式存儲(chǔ),便于進(jìn)行手工調(diào)整。

(4)關(guān)鍵詞提取

首先進(jìn)行詞性篩選,選取具有實(shí)際語(yǔ)義詞性(即實(shí)詞,如名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞)的詞匯作為備選關(guān)鍵詞,而將無(wú)實(shí)際語(yǔ)義詞性(即虛詞如副詞、介詞、連詞、助詞、擬聲詞等)的詞匯不作為備選關(guān)鍵詞。然后采用了改進(jìn)的TF-IDF算法計(jì)算用戶輸入文檔集中的備選關(guān)鍵詞的權(quán)重,依照降序?qū)﹃P(guān)鍵詞進(jìn)行排序,將排序靠前的若干個(gè)備選關(guān)鍵詞自動(dòng)選擇為關(guān)鍵詞,或利用交互界面提供給用戶進(jìn)行手動(dòng)選擇。

(5)向量空間轉(zhuǎn)換

將每一個(gè)選定關(guān)鍵詞的加權(quán)詞頻作為一個(gè)維度,可以構(gòu)成對(duì)文檔進(jìn)行描述的向量空間。這樣每一篇文檔的特征都可以轉(zhuǎn)換為向量空間中的一個(gè)向量,可以用這個(gè)向量來(lái)描述文檔,從而便于進(jìn)行數(shù)值計(jì)算和節(jié)省存儲(chǔ)空間。

(6)文檔聚類

利用SVD方法對(duì)用戶輸入的所有文檔向量構(gòu)成的矩陣進(jìn)行分解,實(shí)現(xiàn)對(duì)輸入文檔的聚類。由于SVD是依據(jù)奇異值的個(gè)數(shù)形成分解后的對(duì)角矩陣,奇異值個(gè)數(shù)即為聚類得到的類別數(shù)目。因此這種聚類無(wú)需事先指定類別數(shù)目,克服了應(yīng)用KNN和SVD需要事先確定類別數(shù)目的缺陷。此外還可以根據(jù)用戶的經(jīng)驗(yàn)和需求,通過(guò)交互式界面對(duì)聚類結(jié)果進(jìn)行手動(dòng)調(diào)節(jié)。通過(guò)文檔聚類,為用戶輸入的所有文檔提供了類別標(biāo)記。

(7)鄰近文檔篩選

在關(guān)鍵詞的詞頻向量空間中,對(duì)用戶輸入的所有文檔進(jìn)行距離計(jì)算,根據(jù)設(shè)定的閾值判斷屬于同一類別的文檔是否具有鄰近關(guān)系。對(duì)于多篇存在鄰近關(guān)系的同類別的文檔,僅保留位于所述向量空間中心位置的一篇文檔作為訓(xùn)練文檔。用戶輸入的所有文檔通過(guò)這樣的篩選后,剩余的文檔向量及對(duì)應(yīng)的類別標(biāo)記就形成了BP網(wǎng)絡(luò)的訓(xùn)練文檔集。

(8)BP網(wǎng)絡(luò)訓(xùn)練

選取多層網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建BP網(wǎng)絡(luò),利用訓(xùn)練文檔集對(duì)網(wǎng)絡(luò)的連接權(quán)重進(jìn)行訓(xùn)練。在此訓(xùn)練過(guò)程中,設(shè)定BP網(wǎng)絡(luò)中偏置量權(quán)重為常數(shù),經(jīng)過(guò)迭代學(xué)習(xí)的連接權(quán)重訓(xùn)練后,若網(wǎng)絡(luò)輸出的分類結(jié)果與實(shí)際類別標(biāo)記的誤差小于預(yù)先設(shè)定的閾值,則可以認(rèn)為BP網(wǎng)絡(luò)通過(guò)訓(xùn)練已經(jīng)學(xué)習(xí)到了訓(xùn)練文檔集中的分類規(guī)則。最后將訓(xùn)練好BP網(wǎng)絡(luò)的連接權(quán)重矩陣作為分類規(guī)則輸出,可供分類器在對(duì)新輸入的未知文檔進(jìn)行分類時(shí)使用。

用戶計(jì)算機(jī)或數(shù)據(jù)庫(kù)中存在大量中文文檔,其中包含多個(gè)業(yè)務(wù)門(mén)類的文檔,但并未進(jìn)行有效的分類,現(xiàn)用戶需要對(duì)這些文檔進(jìn)行分類整理。應(yīng)用本發(fā)明提出的方法可以提取出文檔分類的規(guī)則,其具體實(shí)施過(guò)程描述如下:

首先,用戶選取若干篇(例如100篇)包含各業(yè)務(wù)門(mén)類的文檔作為輸入,經(jīng)過(guò)文檔格式轉(zhuǎn)換、中文分詞、去除停止詞之后,用戶輸入文檔已經(jīng)轉(zhuǎn)換為統(tǒng)一格式的分詞后文檔。

其次,在關(guān)鍵詞提取模塊計(jì)算出各備選關(guān)鍵詞的權(quán)重之后,通過(guò)交互式環(huán)境,用戶可以結(jié)合自身業(yè)務(wù)知識(shí)和備選關(guān)鍵詞的權(quán)重值進(jìn)行選擇,從而生成備選關(guān)鍵詞的集合。

然后,通過(guò)向量空間轉(zhuǎn)換和文檔聚類模塊的處理之后,用戶輸入的文檔被劃分到不同的類別之中(即被賦予了不同的類別標(biāo)記),用戶此時(shí)可以通過(guò)手動(dòng)調(diào)節(jié)更改文檔的類別標(biāo)記(例如把一篇文檔由“類別1”更改為“類別2”),也可以將一篇文檔選擇為訓(xùn)練文檔或?qū)⑵鋸挠?xùn)練文檔集中剔除。

最后,經(jīng)過(guò)鄰近文檔篩選和BP網(wǎng)絡(luò)訓(xùn)練,獲得的分類規(guī)則以指定的文件格式輸出。用戶即可以將此分類規(guī)則應(yīng)用于由BP網(wǎng)絡(luò)構(gòu)成的分類器,從而完成對(duì)所有待分類文檔的分類工作。進(jìn)而還可以依據(jù)分類結(jié)果對(duì)文檔進(jìn)行權(quán)限管理、加密、銷毀、轉(zhuǎn)存等操作。

目前實(shí)現(xiàn)中文文本分類有多種技術(shù)方案,但是發(fā)明的解決方案的核心在于中文文本分類規(guī)則的提取方法,而不是分類器的設(shè)計(jì)方法。利用其他機(jī)器學(xué)習(xí)方法的分類器進(jìn)行中文文本分類時(shí),會(huì)有其相應(yīng)的方式進(jìn)行規(guī)則提取,但其信息處理的過(guò)程和步驟會(huì)與本發(fā)明不同。

本方法提取的分類規(guī)則以BP網(wǎng)絡(luò)的連接權(quán)重矩陣的形式來(lái)表示,而對(duì)于基于其他機(jī)器學(xué)習(xí)方法的分類器,分類規(guī)則的表現(xiàn)形式和提取過(guò)程會(huì)與本發(fā)明有所差異。

通過(guò)本發(fā)明提供的實(shí)施方式,通過(guò)多種信息處理模塊的特定組合,實(shí)現(xiàn)了從用戶輸入的文檔集合中提取文檔分類規(guī)則的功能,提高了用戶進(jìn)行文檔分類器設(shè)計(jì)和調(diào)整的效率,增強(qiáng)了基于BP網(wǎng)絡(luò)的分類器在不同場(chǎng)合應(yīng)用的適應(yīng)性,可以提高基于BP網(wǎng)絡(luò)的中文文檔分類器的分類計(jì)算精度和運(yùn)行穩(wěn)定性,并降低了進(jìn)行分類規(guī)則設(shè)計(jì)的難度和成本。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換以及改進(jìn)等,均應(yīng)保護(hù)在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
贵阳市| 元朗区| 勃利县| 田林县| 息烽县| 左权县| 乌什县| 昌乐县| 焉耆| 闵行区| 华宁县| 鄯善县| 富裕县| 汤原县| 韩城市| 汝城县| 互助| 肃北| 怀柔区| 彰武县| 昌邑市| 沈阳市| 柘荣县| 乃东县| 玉林市| 山阳县| 稻城县| 丹江口市| 大化| 成都市| 贵州省| 三门县| 论坛| 南华县| 樟树市| 纳雍县| 奉节县| 贵阳市| 连江县| 泗洪县| 广南县|