專(zhuān)利名稱(chēng)::四層結(jié)構(gòu)的中文文本正則化體系及實(shí)現(xiàn)的制作方法四層結(jié)構(gòu)的中文文本正則化體系及實(shí)現(xiàn)本發(fā)明屬于計(jì)算機(jī)人機(jī)交流領(lǐng)域,涉及多層次結(jié)構(gòu)的中文文本正則化體系,同時(shí)支持c/s(Client/Server)方式的Web訪問(wèn)。本發(fā)明引入了中文文本中的非標(biāo)準(zhǔn)詞的概念,并在系統(tǒng)分析和歸納的前提下,對(duì)其進(jìn)行有效分類(lèi),采用條件隨機(jī)場(chǎng)等機(jī)器學(xué)習(xí)的方法,提出了一種包括非標(biāo)準(zhǔn)詞的識(shí)別,消岐以及標(biāo)準(zhǔn)讀音生成的四層中文文本正則化模型,適用于語(yǔ)音合成,機(jī)器翻譯等實(shí)際應(yīng)用。
背景技術(shù):
:隨著信息技術(shù)、語(yǔ)言技術(shù)以及計(jì)算機(jī)技術(shù)的發(fā)展,人們對(duì)文本處理的要求也越來(lái)越高,尤其是中文語(yǔ)言,正擁有越來(lái)越廣泛的市場(chǎng)和應(yīng)用前景。為了保證中文文本在各個(gè)領(lǐng)域的方便應(yīng)用,就應(yīng)該首先在對(duì)文本進(jìn)行正則化處理,以便為后續(xù)比如語(yǔ)音合成,人工智能等方面的應(yīng)用打下基礎(chǔ)。在真實(shí)的中文文本中,含有大量的非標(biāo)準(zhǔn)詞(None-StandardWords),比如阿拉伯?dāng)?shù)字,英文字符,各種符號(hào)等等,這些非標(biāo)準(zhǔn)詞的讀音不能通過(guò)正常的拼音規(guī)則得到,需要通過(guò)特定的方法把這些特殊字符轉(zhuǎn)換成對(duì)應(yīng)的漢字,進(jìn)而得到其正確的讀音。并且這些非標(biāo)準(zhǔn)詞往往是用戶(hù)關(guān)注的焦點(diǎn),比如日期、電話(huà)號(hào)碼、機(jī)構(gòu)名稱(chēng)等等。因此文本正則化的好壞將直接影響文本乃至語(yǔ)音的處理質(zhì)量。文本正則化的困難在于計(jì)算機(jī)不能理解輸入文本的準(zhǔn)確語(yǔ)義,無(wú)法通過(guò)句子或詞語(yǔ)的意思來(lái)指導(dǎo)計(jì)算機(jī)識(shí)別特殊符號(hào)并給出拼音信息,所以必須從特殊符號(hào)出發(fā),提取有用的上下文信息,歸納出在特定環(huán)境下的不同處理策略。一個(gè)非標(biāo)準(zhǔn)詞在不同的上下文中可能對(duì)應(yīng)不同的標(biāo)準(zhǔn)發(fā)音。比如"12"作為數(shù)字讀作"十二",在電話(huà)號(hào)碼中讀作"幺二",而在"2米12"中則讀作"兩米一二"。因此,在正則化的各個(gè)步驟中,消岐可以算得上是文本正則化的重點(diǎn)也是難點(diǎn)。根據(jù)上下文的不同含義,非標(biāo)準(zhǔn)詞有著不用程度的歧義,再加上非標(biāo)準(zhǔn)詞的類(lèi)型多種多樣,無(wú)法也不可能完全覆蓋全部,因此文本正則化也是中文文本處理的難點(diǎn)。文本正則化的典型處理方式是基于規(guī)則的方法,比如LDC(LinguisticDataConsortium)的TextConditioningTools?;谝?guī)則的方法比較直觀,但也有明顯的缺點(diǎn)規(guī)則難于書(shū)寫(xiě)、維護(hù),推廣性也很一般。后來(lái)機(jī)器學(xué)習(xí)的方法也被廣泛應(yīng)用到文本正則化的處理中,對(duì)于一個(gè)歧義消除的問(wèn)題,機(jī)器學(xué)習(xí)的方法體現(xiàn)了巨大的優(yōu)勢(shì)。比如,決策樹(shù)應(yīng)用于英語(yǔ)的文本正則化,支持向量機(jī)用于波斯語(yǔ)的非標(biāo)準(zhǔn)詞分類(lèi),Whmow用于泰國(guó)語(yǔ)的文本分析。特殊符號(hào)和傳統(tǒng)的統(tǒng)計(jì)語(yǔ)言學(xué)不同的規(guī)律,所以不適合采用統(tǒng)計(jì)的方法。另外關(guān)于特殊符號(hào),國(guó)內(nèi)外都很少有大規(guī)模的標(biāo)注語(yǔ)料供計(jì)算機(jī)訓(xùn)練,所以中文文本中的特殊符號(hào)的處理原則上都是采用基于規(guī)則的方法,把對(duì)非標(biāo)準(zhǔn)詞的處理與后續(xù)的分詞,詞性標(biāo)注以及命名實(shí)體識(shí)別等相結(jié)合,以一種統(tǒng)一的文本傳輸結(jié)構(gòu)進(jìn)行處理。本發(fā)明通過(guò)分析大規(guī)模語(yǔ)料庫(kù)中非漢字串的分布情況,制定了一個(gè)全面的非標(biāo)準(zhǔn)詞分類(lèi)標(biāo)準(zhǔn)。提出了基于機(jī)器學(xué)習(xí)方法的中文文本正則化四層體系,主要包括非標(biāo)準(zhǔn)詞識(shí)別,歧義消除和標(biāo)準(zhǔn)語(yǔ)音生成三個(gè)方面。并在非標(biāo)準(zhǔn)詞的歧義消除部分的兩個(gè)步驟中分別引入了條件隨機(jī)場(chǎng)模型和基于錯(cuò)誤驅(qū)動(dòng)的機(jī)器學(xué)習(xí)的方法。另外,本發(fā)明還支持C/S方式訪問(wèn),直接處理真實(shí)文本,無(wú)需其他標(biāo)注等工作。為了提高中文文本正則化的準(zhǔn)確率和召回率,本發(fā)明提出了一種四層結(jié)構(gòu)的中文文本正則化系統(tǒng)。該系統(tǒng)首先采用有限自動(dòng)機(jī)(FSA,FiniteStateAutomata)的原理,從真實(shí)文本中識(shí)別非標(biāo)準(zhǔn)詞,并給非標(biāo)準(zhǔn)詞做標(biāo)記,表明其具體類(lèi)別。同時(shí)把做完標(biāo)記的非標(biāo)準(zhǔn)詞分為兩大類(lèi),分別是基本非標(biāo)準(zhǔn)詞和歧義非標(biāo)準(zhǔn)詞?;痉菢?biāo)準(zhǔn)詞經(jīng)過(guò)第一階段后直接進(jìn)入第四階段——標(biāo)注拼音生成階段。至于歧義非標(biāo)準(zhǔn)詞,對(duì)其中出現(xiàn)頻率最高的,占數(shù)量最多的5個(gè)類(lèi)別采用條件隨機(jī)場(chǎng)模型的方法建模,得到歧義非標(biāo)準(zhǔn)詞的具體子分類(lèi);對(duì)于剩下的不同類(lèi)型的歧義非標(biāo)準(zhǔn)詞,根據(jù)其上下文具體情況,利用不同的規(guī)則進(jìn)行處理。同時(shí),對(duì)這一階段的結(jié)果進(jìn)行分析,提取其中部分錯(cuò)誤結(jié)果用于下一階段。在第三階段中利用基于錯(cuò)誤的規(guī)則學(xué)習(xí)的方法,對(duì)錯(cuò)誤進(jìn)行歸類(lèi),從而制定最恰當(dāng)?shù)囊?guī)則,進(jìn)一步提高其子分類(lèi)的正確性,最后還是通過(guò)第四階段生成正確的拼音。前三個(gè)階段是分析階段,分析結(jié)果作為標(biāo)準(zhǔn)發(fā)音生成階段的輸入,輸出則為正則化的文本,標(biāo)準(zhǔn)讀音階段是用一一映射的規(guī)則方法予以實(shí)現(xiàn)的。基于上面提到的四層結(jié)構(gòu),第一個(gè)階段需要用有限自動(dòng)機(jī)構(gòu)造詞典,本發(fā)明對(duì)非標(biāo)準(zhǔn)詞進(jìn)行系統(tǒng)分類(lèi),考察了2001年人民日?qǐng)?bào)語(yǔ)料中非漢字串的出現(xiàn)情況,制定了非標(biāo)準(zhǔn)詞的分類(lèi)標(biāo)準(zhǔn),并統(tǒng)計(jì)了非標(biāo)準(zhǔn)詞的分布情況,一共定義了非標(biāo)準(zhǔn)詞60個(gè)類(lèi)別,針對(duì)不同非標(biāo)準(zhǔn)詞的不同組合情況,利用有限自動(dòng)機(jī)構(gòu)建詞典。第二根第三階段都涉及機(jī)器學(xué)習(xí)的內(nèi)容,在第二階段中,對(duì)歧義非標(biāo)準(zhǔn)詞進(jìn)行分析,歸納出其中占數(shù)量最多的5大類(lèi),對(duì)這5個(gè)類(lèi)型,選取適當(dāng)?shù)奶卣?,然后分別用條件隨機(jī)場(chǎng)算法進(jìn)行建模,剩下類(lèi)別采用規(guī)則的方法進(jìn)行處理。第三階段則在第二階段的測(cè)試結(jié)果的基礎(chǔ)上,對(duì)錯(cuò)誤情況進(jìn)行分析,通過(guò)規(guī)則學(xué)習(xí)的方法,制定最優(yōu)規(guī)則,進(jìn)一步提高非標(biāo)準(zhǔn)詞類(lèi)型判別的準(zhǔn)確率。同時(shí),本系統(tǒng)最終支持C/S方式的訪問(wèn),用戶(hù)可以通過(guò)web訪問(wèn),通過(guò)ApacheServer連接Linux環(huán)境下的該體系,系統(tǒng)可以支持同時(shí)IOO用戶(hù)的訪問(wèn)。圖1為四層結(jié)構(gòu)的中文文本正則化體系流程概要圖圖2為有限自動(dòng)機(jī)的詞典拓?fù)浣Y(jié)構(gòu)圖圖3為歧義非標(biāo)準(zhǔn)詞的條件隨機(jī)場(chǎng)模型訓(xùn)練流程圖圖4為基于條件隨機(jī)場(chǎng)模型的非標(biāo)準(zhǔn)詞消岐框架圖圖5為錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)算法流程圖和算法實(shí)例圖圖6為錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)模塊的訓(xùn)練和測(cè)試結(jié)構(gòu)圖圖7為非標(biāo)準(zhǔn)詞的標(biāo)準(zhǔn)拼音生成流程圖圖8為四層結(jié)構(gòu)的中文文本正則化系統(tǒng)總體框架圖具體實(shí)施例方式本發(fā)明提出的中文文本正則化的系統(tǒng)包括非標(biāo)準(zhǔn)詞識(shí)別,非標(biāo)準(zhǔn)詞歧義消除和標(biāo)準(zhǔn)拼音生成三大部分,構(gòu)建了一個(gè)四層結(jié)構(gòu)的中文文本正則化系統(tǒng)。有限自動(dòng)機(jī)從真實(shí)文本中識(shí)別非標(biāo)準(zhǔn)詞,并給出非標(biāo)準(zhǔn)詞的具體類(lèi)別標(biāo)記,歧義非標(biāo)準(zhǔn)詞用條件隨機(jī)場(chǎng)模型,配合相應(yīng)的規(guī)則給出其子分類(lèi),并利用第三階段基于錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)方法構(gòu)造最優(yōu)規(guī)則對(duì)上一階段的結(jié)果作進(jìn)一步的優(yōu)化。最后把基本非標(biāo)準(zhǔn)詞和歧義非標(biāo)準(zhǔn)詞都輸入到最后一部分,生成標(biāo)準(zhǔn)讀音。同時(shí),這整套中文文本正則化系統(tǒng)提供基于C/S方式的web服務(wù),并且最多可以支持100個(gè)用戶(hù)同時(shí)訪問(wèn)。下面詳細(xì)介紹本發(fā)明的具體實(shí)施方法。一、真實(shí)文本中非標(biāo)準(zhǔn)詞的識(shí)別(一)非標(biāo)準(zhǔn)詞的分類(lèi)體系非漢字串的形式多種多樣,為了更好地進(jìn)行處理,引入非標(biāo)準(zhǔn)詞的概念。非標(biāo)準(zhǔn)詞是符合一定構(gòu)成模式的非漢字串或非漢字字符和漢字字符的混合串。非標(biāo)準(zhǔn)詞的分類(lèi)體系是中文文本正則化的基礎(chǔ)。通過(guò)對(duì)2001年人民日?qǐng)?bào)語(yǔ)料中非漢字串出現(xiàn)情況的分析,可以得到其中95%的非標(biāo)準(zhǔn)詞都是與數(shù)字表達(dá)式相關(guān)的,包括純數(shù)字串,數(shù)字串與各種符號(hào)的組合等,所以本發(fā)明提出的非標(biāo)準(zhǔn)詞的分類(lèi)體系也以數(shù)字表達(dá)式為依據(jù)。如表1所示,根據(jù)數(shù)字串與不同符號(hào)的不同組合方式,本發(fā)明歸納了5個(gè)基本非標(biāo)準(zhǔn)詞類(lèi)別第一類(lèi)包括數(shù)字串與中文前綴或中文后綴的組合,比如數(shù)字串連接各種單位詞、量詞等,這種類(lèi)別僅包含一個(gè)數(shù)字串;第二類(lèi)是2個(gè)數(shù)字串組合,中間用"-"、"."等符號(hào)連接,比如"1995-2000";第三種類(lèi)別包含3個(gè)以及3個(gè)以上的數(shù)字串的組合,比如網(wǎng)站IP地址等;第四種非標(biāo)準(zhǔn)詞是以數(shù)字串與英文字母的組合形式出現(xiàn)的,通常這種情況下,數(shù)字串都會(huì)有特殊的讀音方式;最后一種類(lèi)別是由各種特殊符號(hào)組成的,比如"@"、"#"等。5在這5個(gè)類(lèi)別的基礎(chǔ)上,本發(fā)明一共定義了60種非標(biāo)準(zhǔn)詞類(lèi)型。<table>tableseeoriginaldocumentpage6</column></row><table>表l非標(biāo)準(zhǔn)詞的分類(lèi)同時(shí),按照非標(biāo)準(zhǔn)詞是否有歧義可以將其劃分為基本標(biāo)準(zhǔn)詞和歧義標(biāo)準(zhǔn)詞?;痉菢?biāo)準(zhǔn)詞經(jīng)過(guò)第一階段就不再含有歧義,可以直接進(jìn)入第四階段生成標(biāo)準(zhǔn)讀音。歧義非標(biāo)準(zhǔn)詞中有些類(lèi)別使用簡(jiǎn)單的啟發(fā)性規(guī)則就可以消歧,有些則需要長(zhǎng)距離上下文信息甚至全局信息,根據(jù)不同情況可以分別采用基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法處理。該四層結(jié)構(gòu)的中文文本正則化系統(tǒng)的總體框架概圖如附圖1所示。(二)非標(biāo)準(zhǔn)詞的識(shí)別方法根據(jù)以上分類(lèi),利用有限自動(dòng)機(jī)生成詞典。有限自動(dòng)機(jī)是一種抽象出來(lái)的機(jī)器,其描述能力和資源(存儲(chǔ))都比較有限。其用途十分廣泛,特別在機(jī)電一體化中有很多地方用到,而有窮自動(dòng)機(jī)和馬爾可夫鏈的結(jié)合是當(dāng)今模式識(shí)別的基礎(chǔ)(語(yǔ)音識(shí)別,光學(xué)字符識(shí)別等)。有限自動(dòng)機(jī)的形式化定義很簡(jiǎn)單,是一個(gè)5元組(Q,2,S,q0,F),其中Q是一個(gè)有窮集合,稱(chēng)為狀態(tài)集,定義了自動(dòng)機(jī)所有的狀態(tài)2是一個(gè)有窮集合,稱(chēng)為字母表S是一個(gè)轉(zhuǎn)移函數(shù),QXS->QqOEQ是其實(shí)狀態(tài)FGQ是接受狀態(tài)集(可以有多個(gè)接受狀態(tài)s)也就是說(shuō),以上幾點(diǎn)唯一的確定一個(gè)有限自動(dòng)機(jī),自動(dòng)機(jī)會(huì)有兩個(gè)最終狀態(tài),接受或拒絕。該詞典包括上面提到的所有60種情況。并且,如果以后發(fā)現(xiàn)新的類(lèi)別,可以利用同樣的方法生成一個(gè)更大更新的詞典。該詞典的具體拓?fù)錁?gòu)造方式如附圖2所示。在利用詞典從真實(shí)文本中識(shí)別非標(biāo)準(zhǔn)詞的時(shí)候,本發(fā)明采用最長(zhǎng)匹配策略,即最長(zhǎng)串為判定的非標(biāo)準(zhǔn)詞,而不是它的任何子串。一般情況下,串越長(zhǎng)所含的信息量越大,歧義也越小,所需要處理的串的數(shù)量也比較少。例如"2000年的時(shí)候......"識(shí)別的結(jié)果就是"2000年"而不是數(shù)字串"2000"。這一階段會(huì)給每一個(gè)識(shí)別出來(lái)的非標(biāo)注詞加上一個(gè)類(lèi)別標(biāo)簽,也就是上面60個(gè)類(lèi)別的其中一個(gè)。二、真實(shí)文本中非標(biāo)準(zhǔn)詞的消岐(一)基本非標(biāo)準(zhǔn)詞的消岐.基本非標(biāo)準(zhǔn)詞在經(jīng)過(guò)第一階段的識(shí)別后,其類(lèi)別已經(jīng)確定,不再含有歧義,其標(biāo)準(zhǔn)發(fā)音非標(biāo)準(zhǔn)詞的消岐歧義非標(biāo)準(zhǔn)詞的歧義性比較大,單從第一階段得到分類(lèi)標(biāo)簽還無(wú)法確定其標(biāo)準(zhǔn)讀音,如表2所示。這里本發(fā)明采用基于條件隨機(jī)場(chǎng)算法的機(jī)器學(xué)習(xí)方法。通過(guò)分析選取了5類(lèi)歧義非標(biāo)準(zhǔn)詞進(jìn)行條件隨機(jī)場(chǎng)模型的訓(xùn)練。并在后端輔以一定的規(guī)則與門(mén)限條件,使結(jié)果的準(zhǔn)確率更高。歧義非標(biāo)準(zhǔn)詞的條件隨機(jī)場(chǎng)模型訓(xùn)練流程圖如附圖3所示。<table>tableseeoriginaldocumentpage7</column></row><table>表2歧義非標(biāo)準(zhǔn)詞(1)條件隨機(jī)場(chǎng)算法描述條件隨機(jī)場(chǎng)是在最大熵模型和隱馬爾可夫模型的基礎(chǔ)上提出來(lái)的一種判別式概率無(wú)向圖學(xué)習(xí)模型,由于使用全局優(yōu)化技術(shù),它克服了最大熵馬爾可夫模型的標(biāo)注偏置問(wèn)題,是目前處理序列數(shù)據(jù)分割與標(biāo)注問(wèn)題的最好的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型.條件隨機(jī)場(chǎng)的一般定義如下假設(shè)G^V,E)是一個(gè)無(wú)向圖,Y—凡lveW是以圖G中結(jié)點(diǎn)v為索引的隨機(jī)變量x構(gòu)成的集合.如果每個(gè)隨機(jī)變量K相對(duì)于圖P(凡MxJ^,Xhp(Ki凡,X,(u,v)EE)服從馬爾可夫?qū)傩?則稱(chēng)(X,Y)是一個(gè)條件隨機(jī)場(chǎng)。設(shè)C義M是圖G中所有的團(tuán)構(gòu)成的集合,根據(jù)隨機(jī)場(chǎng)的基礎(chǔ)理論(由Hamersley和Clifford于1971年提出),在給定觀測(cè)序列jc的條件下標(biāo)記序列7的概率分布p(少lx)為-P乂v^-^^f[explZ44(、)I其中,_/;(K,&)是特征函數(shù),,模型參數(shù)是一個(gè)由實(shí)數(shù)構(gòu)成的特征函數(shù)的權(quán)值集合A=Ut},其歸一化因子z(a')=znexp(4/"w))》OSC當(dāng)用該模型來(lái)建模序列數(shù)據(jù)時(shí),圖^(K^)中狀態(tài)變量7的形狀最簡(jiǎn)單且最常用的是一條一階鏈.這條鏈中的團(tuán)是其中的結(jié)點(diǎn)和邊.因此,我們?cè)谡麄€(gè)觀測(cè)序列上可以定義兩類(lèi)特征函數(shù):狀態(tài)特征函數(shù)《(力y,,x)和轉(zhuǎn)移特征函數(shù)/Ux,義).給定訓(xùn)練樣本集KV",乂"M和預(yù)定義的特征函數(shù),可以從樣本集中學(xué)習(xí)一個(gè)CRF模型.模型參數(shù)A可以使用極大似然、極大后驗(yàn)或Quasi-Newton等方法估計(jì)。對(duì)于一個(gè)輸入測(cè)試序列義,則可以使用訓(xùn)練得到的CRF模型來(lái)推斷它對(duì)應(yīng)的標(biāo)注序列,義最可能的標(biāo)記序列j)表示為》=argmax_j(:.v;-t)=argmaxSZ々/》(》v.-ye),■,■Jrj)可以用動(dòng)態(tài)編程的Viterbi算法來(lái)査找(2)特征選取與描述本發(fā)明通過(guò)分析歧義非標(biāo)準(zhǔn)詞,從中選取了5個(gè)類(lèi)別進(jìn)行條件隨機(jī)場(chǎng)算法建模(剩下的歧義非標(biāo)準(zhǔn)詞采用規(guī)則方法進(jìn)行處理),這5種類(lèi)別包括了95%以上的歧義非標(biāo)準(zhǔn)詞。這五種類(lèi)型分別是"digits"(數(shù)字串)、"year"(年份)、"year-range"(年代范圍)、"hyphen"(橫杠)、"slash"(斜杠)。通過(guò)對(duì)這5種類(lèi)型的文字特點(diǎn)的分析,本發(fā)明采用了一種半自動(dòng)的特征選擇方法。首先,手動(dòng)設(shè)計(jì)一個(gè)特征模板,在上面定義所有有效的候選模板。然后每次選擇其中的一個(gè)或者幾個(gè)特征進(jìn)行實(shí)驗(yàn),并進(jìn)行測(cè)試,選取出效果最明顯的,即包含非標(biāo)準(zhǔn)詞信息量最大的特征。模板的設(shè)計(jì)是為了獲取盡可能多的非標(biāo)準(zhǔn)詞信息,針對(duì)具體的應(yīng)用,同時(shí)也通過(guò)上面的實(shí)驗(yàn),我們選取出了以下幾種最重要也是最常用的特征非標(biāo)準(zhǔn)詞(Word)、非標(biāo)準(zhǔn)詞長(zhǎng)度(WordLength)、上一個(gè)非標(biāo)準(zhǔn)詞的類(lèi)型(LastType)、距離前一個(gè)標(biāo)點(diǎn)符號(hào)的距離(LastDist)和距離后一個(gè)標(biāo)點(diǎn)符號(hào)的距離(NextDist)。這5個(gè)特征中,非標(biāo)準(zhǔn)詞和非標(biāo)準(zhǔn)詞的長(zhǎng)度這兩個(gè)特征是最重要的,非標(biāo)準(zhǔn)詞與其周邊的文本信息對(duì)非標(biāo)準(zhǔn)詞的裁定起著決定性的作用,非標(biāo)準(zhǔn)詞的長(zhǎng)度一般不超過(guò)4。前三種特征被稱(chēng)為靜態(tài)特征,最后兩種特征屬于動(dòng)態(tài)特征,它們很大程度上依賴(lài)先前的預(yù)測(cè)結(jié)果。如果前面的非標(biāo)準(zhǔn)詞信息沒(méi)有給出,那么也無(wú)法判斷當(dāng)前位置的非標(biāo)準(zhǔn)詞。相比之下,靜態(tài)特征則不同,通常情況下一旦給出輸入,那么其非標(biāo)準(zhǔn)8詞信息就是固定已知的了。(3)特征的格式在這5大類(lèi)特征的基礎(chǔ)上,考慮對(duì)某些類(lèi)別的特征進(jìn)行前后的拓展。很多時(shí)候,上下文的相關(guān)信息都會(huì)對(duì)非標(biāo)準(zhǔn)詞歧義的消除提供很大的幫助。在本文中,我們主要對(duì)Word和WordLength這兩個(gè)類(lèi)型進(jìn)行上下文的展開(kāi),并得到一些新的特征類(lèi)型。這里,我們對(duì)這兩個(gè)特征類(lèi)型設(shè)計(jì)的拓展窗口長(zhǎng)度都為2,如表3所示。<table>tableseeoriginaldocumentpage9</column></row><table>表3特征類(lèi)型的拓展除此之外,如表4所示,本發(fā)明還考慮組合2種不同類(lèi)別的特征已得到新的特征類(lèi)型。綜上所述,本發(fā)明一共設(shè)計(jì)了30種模板特征。<table>tableseeoriginaldocumentpage9</column></row><table>表4特征的組合利用以上設(shè)計(jì)的30種特征模板,分別對(duì)5種歧義非標(biāo)準(zhǔn)詞建立條件隨機(jī)場(chǎng)模型。并利用這個(gè)5個(gè)模型對(duì)歧義非標(biāo)準(zhǔn)詞進(jìn)行起義消除,給出其子類(lèi)別標(biāo)簽。在整個(gè)階段中,還利用適當(dāng)規(guī)則和語(yǔ)言模型完成預(yù)處理和文本規(guī)范化等使結(jié)果更加準(zhǔn)確。基于條件隨機(jī)場(chǎng)模型的非標(biāo)準(zhǔn)詞消岐框架圖如附圖4所示。另外,對(duì)于這5個(gè)類(lèi)別以外的歧義非標(biāo)準(zhǔn)詞,本發(fā)明還是利用規(guī)則的方法,聯(lián)系上下文,通過(guò)分析其文本組成形式,構(gòu)建相應(yīng)的規(guī)則,給出其最適當(dāng)?shù)淖訕?biāo)簽。具體方法由下面這個(gè)例子說(shuō)明例如,"12:12"經(jīng)過(guò)第一階段就能得到類(lèi)別標(biāo)簽"colon",但是僅僅通過(guò)這個(gè)標(biāo)簽還是不無(wú)判斷其讀音應(yīng)該是"十二點(diǎn)十二分"還是"十二比十二"。所以,在這種情況下,9就要根據(jù)上下文的內(nèi)容去進(jìn)一步制定復(fù)雜的規(guī)則進(jìn)行區(qū)分。本發(fā)明中"colon"涉及兩種子分類(lèi),分別是"colon/tm"以及"colon/rt",分別表示時(shí)間的讀法和比率的讀法。這種規(guī)則的方法主要適用于處理那些容易消岐,或者語(yǔ)料稀少,語(yǔ)料存在嚴(yán)重不均衡的非標(biāo)準(zhǔn)詞。三、真實(shí)文本中非標(biāo)準(zhǔn)詞的消岐優(yōu)化由于中文文本的某些固定模式,對(duì)于有些非標(biāo)準(zhǔn)詞的錯(cuò)誤判斷是條件隨機(jī)場(chǎng)模型和規(guī)則方法不能避免的,所以在本發(fā)明的第三個(gè)階段,加入錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)模塊對(duì)第二階段的判斷結(jié)果進(jìn)行修正和優(yōu)化,以得到更高的非標(biāo)準(zhǔn)詞識(shí)別準(zhǔn)確率。(一)錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)模塊的設(shè)計(jì)錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)的方法是一種自動(dòng)機(jī)器學(xué)習(xí)方法,通過(guò)適當(dāng)?shù)囊?guī)則學(xué)習(xí),可以產(chǎn)生一系列最優(yōu)的規(guī)則,以應(yīng)用于對(duì)各種明顯的、固定模式的錯(cuò)誤判斷。該方法從某一初始狀態(tài)開(kāi)始,通過(guò)一系列設(shè)計(jì)好的規(guī)則,一步一步的轉(zhuǎn)變狀態(tài)。每應(yīng)用一條規(guī)則就轉(zhuǎn)變后的狀態(tài)進(jìn)行一次判斷,與應(yīng)用這條規(guī)則前的結(jié)果相比較,如果結(jié)果更好,則說(shuō)明該條規(guī)則是合適的;如果結(jié)果比原來(lái)差,就舍棄該條規(guī)則。把所有的合適的規(guī)則都列出來(lái),并測(cè)試每條規(guī)則對(duì)真實(shí)文本的非標(biāo)準(zhǔn)詞識(shí)別的正確率提高的多少,最后根據(jù)實(shí)際需求和運(yùn)行效率,選取其中部分最優(yōu)規(guī)則,應(yīng)用于本發(fā)明的第三階段。錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)算法流程圖和算法實(shí)例圖分別如附圖5(a)和附圖5(b)所示。這一階段的主要處理對(duì)象是第二階段條件隨機(jī)場(chǎng)模型處理的五個(gè)類(lèi)別,以及規(guī)則處理中最常見(jiàn)的六個(gè)類(lèi)別(這些都是以2001年人民日?qǐng)?bào)語(yǔ)料為依據(jù)),一共11個(gè)類(lèi)型的特征。對(duì)這是個(gè)類(lèi)別分別作訓(xùn)練與測(cè)試。在訓(xùn)練部分,首先對(duì)相關(guān)語(yǔ)料做預(yù)處理,提取出帶有非標(biāo)準(zhǔn)詞信息的特征,然后對(duì)這些特征的分析,設(shè)計(jì)一系列相應(yīng)的規(guī)則模板。對(duì)不同的特征,用相應(yīng)的模板進(jìn)行規(guī)則學(xué)習(xí)以得出一系列規(guī)則。然后在第二部分取適當(dāng)?shù)臏y(cè)試集,對(duì)訓(xùn)練得到的這些規(guī)則進(jìn)行測(cè)試,己提取出符合要求數(shù)量的最優(yōu)規(guī)則。錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)模塊的訓(xùn)練和測(cè)試結(jié)構(gòu)圖如附圖6所示。(二)特征選取與規(guī)則設(shè)計(jì)在特征的選取上,本發(fā)明在這一階段依然采用與上邊條件隨機(jī)場(chǎng)模型訓(xùn)練相同的特征??紤]到這些特征在實(shí)際應(yīng)用中對(duì)非標(biāo)準(zhǔn)詞識(shí)別的重要性的不同,同時(shí)也為了提高規(guī)則對(duì)非標(biāo)準(zhǔn)詞實(shí)際識(shí)別與消岐能力,在這11種基本特征的基本上,本發(fā)明進(jìn)行適當(dāng)拓展,如下表所示,共設(shè)計(jì)了35種含信息量較大的的特征模板。<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>表5特征的選取為了提高規(guī)則的高效性和可拓展性,每一個(gè)規(guī)則都是由2-3個(gè)特征組合而成,并且都具有相同的格式。例如"Y"表示特征值"0"和表示拓展特征的相關(guān)位置(這里設(shè)計(jì)每一個(gè)特征的拓展范圍是{-3,3})"A"和"B"分別表示原先的判斷結(jié)果與經(jīng)過(guò)規(guī)則以后的判斷結(jié)果"&"用于連接兩種或兩種以上不同的特征條件":"用于區(qū)分特征條件與轉(zhuǎn)換結(jié)果通過(guò)錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí),針對(duì)實(shí)際預(yù)料,分析其中的文本特征和語(yǔ)言模式,歸納上一階段未能處理的一些錯(cuò)誤情況,構(gòu)造非標(biāo)準(zhǔn)詞識(shí)別與消岐的最優(yōu)規(guī)則。四、真實(shí)文本中非標(biāo)準(zhǔn)詞的標(biāo)準(zhǔn)拼音生成非標(biāo)準(zhǔn)詞的標(biāo)準(zhǔn)拼音生成是該系統(tǒng)的最后一個(gè)部分,一個(gè)非標(biāo)準(zhǔn)詞在經(jīng)過(guò)識(shí)別、消岐階段后確定下來(lái)具體類(lèi)別,標(biāo)準(zhǔn)詞生成模塊根據(jù)其具體類(lèi)別把非標(biāo)準(zhǔn)詞中的非漢字符號(hào)轉(zhuǎn)化為漢字,這是一個(gè)一一對(duì)應(yīng)的轉(zhuǎn)化過(guò)程,由轉(zhuǎn)換規(guī)則加映射表實(shí)現(xiàn)。在這一階段中本發(fā)明采取分層處理的方法,按順序?qū)Φ诙A段和第三階段得到的非標(biāo)準(zhǔn)詞標(biāo)簽和子標(biāo)簽進(jìn)行處理。由于非標(biāo)準(zhǔn)詞中大多包含數(shù)字串,所以把所以非標(biāo)準(zhǔn)詞分為數(shù)字串相關(guān)的與非相關(guān)的兩部分進(jìn)行處理。與數(shù)字串非相關(guān)的部分,就是簡(jiǎn)單的規(guī)則實(shí)現(xiàn),遇到新的非標(biāo)準(zhǔn)詞,隨時(shí)更新規(guī)則以適應(yīng)新的需求。對(duì)于數(shù)字串相關(guān)的部分,本發(fā)明以"digits"與"decimal"這兩個(gè)為基本類(lèi)型。其他類(lèi)型非標(biāo)準(zhǔn)詞多為這兩種類(lèi)型的排列與組合。一般數(shù)字串都分為整數(shù)與小數(shù)兩個(gè)部分,整數(shù)部分就按照常規(guī)數(shù)字念法,小數(shù)部分只要挨個(gè)發(fā)音就可以。非標(biāo)準(zhǔn)詞的標(biāo)準(zhǔn)拼音生成流程圖如附圖7所示。本發(fā)明提出的四層結(jié)構(gòu)中文文本正則化體系,可以以C/S方式支持100用戶(hù)同時(shí)Web訪問(wèn),在中文文本處理領(lǐng)域有著重要的應(yīng)用,可以用于中文語(yǔ)音合成,中文機(jī)器翻譯等各個(gè)方面。另外,該方法不僅僅局限于軟件系統(tǒng),也可以集成到嵌入式或者其他移動(dòng)設(shè)備中,為各種終端提供實(shí)時(shí)服務(wù)。本發(fā)明的總體系統(tǒng)框架圖如附圖8所示。對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),很明顯,本發(fā)明可以做出各種改進(jìn)和擴(kuò)展,因此,只要他們落入所附權(quán)力要求書(shū)及其等同范圍內(nèi),本發(fā)明就涵蓋這些改進(jìn)及擴(kuò)展。權(quán)利要求1.一種用于處理中文文本正則化的方法,對(duì)真實(shí)文本中的非標(biāo)準(zhǔn)詞進(jìn)行識(shí)別和消岐,并給出其正確讀音,該方法包括由指定語(yǔ)料庫(kù)中選取非標(biāo)準(zhǔn)詞進(jìn)行分類(lèi),利用有限自動(dòng)機(jī)的方法生成詞典,利用該詞典對(duì)真實(shí)文本中的非標(biāo)準(zhǔn)詞進(jìn)行識(shí)別,并給出其類(lèi)別標(biāo)簽的方法;和由語(yǔ)料庫(kù)中最常見(jiàn)的5種非標(biāo)準(zhǔn)詞,選取適當(dāng)?shù)奶卣髂0?,利用條件隨機(jī)場(chǎng)算法進(jìn)行建模,并利用該模型進(jìn)一步消除非標(biāo)準(zhǔn)詞的歧義,給出其子類(lèi)別標(biāo)簽的方法;和由對(duì)以上識(shí)別中的錯(cuò)誤進(jìn)行分析,利用規(guī)則學(xué)習(xí)的方法提煉出最優(yōu)規(guī)則,進(jìn)一步消去非標(biāo)準(zhǔn)詞的歧義,并提高識(shí)別的準(zhǔn)確率的方法;和由以上生成的標(biāo)簽信息,生成非標(biāo)準(zhǔn)詞相應(yīng)標(biāo)準(zhǔn)讀音的方法。2.按照權(quán)利要求1的方法,其中所述對(duì)非標(biāo)準(zhǔn)詞進(jìn)行分類(lèi)并利用有限自動(dòng)機(jī)的方法生成詞典用于非便準(zhǔn)詞識(shí)別包括下述步驟非標(biāo)準(zhǔn)詞分類(lèi)根據(jù)數(shù)字串與不同符號(hào)的不同組合,對(duì)其進(jìn)行分析和歸納,得到非標(biāo)準(zhǔn)詞的基本分類(lèi);非標(biāo)準(zhǔn)詞詞典通過(guò)非標(biāo)準(zhǔn)詞的基本類(lèi)型進(jìn)行拓展,得到覆蓋面廣的非標(biāo)準(zhǔn)詞類(lèi)型特征模板,并利用有限自動(dòng)機(jī)的方法構(gòu)建詞典;非標(biāo)準(zhǔn)詞識(shí)別;根據(jù)不同長(zhǎng)度非標(biāo)準(zhǔn)詞所含信息量的不同,結(jié)合有限自動(dòng)機(jī)生成的詞典,在真實(shí)文本的正則化過(guò)程中采用最長(zhǎng)匹配策略來(lái)識(shí)別非標(biāo)準(zhǔn)詞。3.按照權(quán)利要求1的方法,其中所述利用條件隨機(jī)場(chǎng)算法建模,并對(duì)非標(biāo)準(zhǔn)詞進(jìn)行消岐包括下述步驟條件隨機(jī)場(chǎng)模型類(lèi)別選取通過(guò)分析語(yǔ)料庫(kù)中各類(lèi)非標(biāo)準(zhǔn)詞的出現(xiàn)頻率,同時(shí)結(jié)合條件隨機(jī)場(chǎng)算法的特點(diǎn),選出最適合的模型類(lèi)別;條件隨機(jī)場(chǎng)模型特征設(shè)計(jì)結(jié)合上下文,通過(guò)分析不同特征對(duì)于不同類(lèi)別非標(biāo)準(zhǔn)詞所含信息量的不同,決定其權(quán)重大小,并對(duì)各種特征進(jìn)行拓展與組合,設(shè)計(jì)對(duì)非標(biāo)準(zhǔn)詞類(lèi)別最具決定性的、最合適的特征模板。4.按照權(quán)利要求1的方法,還包括利用基于錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)方法進(jìn)行非標(biāo)準(zhǔn)詞的進(jìn)一步消岐,并提高準(zhǔn)確率的方法。5.按照權(quán)利要求1的方法,還包括利用一一映射的轉(zhuǎn)換規(guī)則,由非標(biāo)準(zhǔn)詞的分類(lèi)信息產(chǎn)生標(biāo)準(zhǔn)讀音的方法。6.按照權(quán)利要求1的方法,還包括在標(biāo)準(zhǔn)讀音生成過(guò)程中,根據(jù)整數(shù)與小數(shù)的不同特征,采取兩級(jí)結(jié)構(gòu)生成標(biāo)準(zhǔn)讀音的方法。全文摘要本發(fā)明提出了一種全新的適用于中文文本的正則化方法。該方法采用機(jī)器學(xué)習(xí)與規(guī)則相結(jié)合的方法,大大提高了中文文本正則化的準(zhǔn)確率。首先對(duì)指定語(yǔ)料庫(kù)中非標(biāo)準(zhǔn)詞進(jìn)行分析。歸納非標(biāo)準(zhǔn)詞的種類(lèi),并利用有限自動(dòng)機(jī)的方法構(gòu)建詞典,以用來(lái)識(shí)別真實(shí)文本中的非標(biāo)準(zhǔn)詞。然后選取其中占絕大多數(shù)的幾個(gè)類(lèi)別,選取特征,建立模板,利用條件隨機(jī)場(chǎng)算法建模,其余部分利用適當(dāng)規(guī)則進(jìn)行處理,并且給予其子分類(lèi),進(jìn)一步提高非標(biāo)準(zhǔn)詞識(shí)別的準(zhǔn)確率,消去其歧義。同時(shí)針對(duì)上面識(shí)別時(shí)遇到的錯(cuò)誤,利用錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)方法,選取最優(yōu)規(guī)則,進(jìn)一步提高其準(zhǔn)確率。最后通過(guò)標(biāo)準(zhǔn)讀音生成模塊產(chǎn)生非標(biāo)準(zhǔn)詞的正確讀音?;谏鲜龅姆椒ǎ景l(fā)明構(gòu)思了一種四層結(jié)構(gòu)的中文文本正則化體系。這種四層體系可以大大提高中文文本正則化的準(zhǔn)確性和高效性。文檔編號(hào)G06F17/27GK101661462SQ200910089359公開(kāi)日2010年3月3日申請(qǐng)日期2009年7月17日優(yōu)先權(quán)日2009年7月17日發(fā)明者濤周,遠(yuǎn)董申請(qǐng)人:北京郵電大學(xué)