專利名稱::文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及對自然語言文本中復(fù)雜形式的數(shù)字和特殊符號進(jìn)行文字符號化的處理技術(shù),具體的講是一種文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)。
背景技術(shù):
:在自然語言文本中,數(shù)字和特殊符號(包括外來語符號,例如漢語中的英文字母)作為自然語言系統(tǒng)中的基本符號廣泛且大量地存在著。以漢語為例,在人民日報(bào)1998年的語料中,大約25%的句子中存在著數(shù)字或特殊符號。在信息處理領(lǐng)域中,許多與自然語言處理技術(shù)相關(guān)的應(yīng)用如自然語言理解、機(jī)器翻譯、語音合成等,都需要能夠?qū)ψ匀徽Z言文本中可能存在的數(shù)字、特殊符號串進(jìn)行準(zhǔn)確的理解,在理解的基礎(chǔ)上對其中的數(shù)字或特殊符號進(jìn)行文字符號化處理,即將數(shù)字或特殊符號轉(zhuǎn)換為與其等價(jià)的文字。在語音合成系統(tǒng)中,在對數(shù)字或特殊符號進(jìn)行文字符號化處理的基礎(chǔ)上,還要進(jìn)行字轉(zhuǎn)音的處理,并根據(jù)數(shù)字、特殊符號串的結(jié)構(gòu)加上適當(dāng)?shù)脑~邊界或者更高一級的韻律詞邊界,從而使得語音合成的聲音更自然。因此,對于許多與自然語言處理技術(shù)相關(guān)的應(yīng)用中,一個(gè)有效的數(shù)字、特殊符號文字符號化處理系統(tǒng)是必需的。數(shù)字和特殊符號由于廣泛地存在于自然語言文本中,因此也形成了許多常用的固定格式。就數(shù)字而言,在不同的上下文語境中,或是在不同的習(xí)慣用法結(jié)構(gòu)中,有兩種可能的讀法,一種是數(shù)值讀法,另外一種是電報(bào)讀法。以漢語為例,"130"用于描述數(shù)量例如"這臺(tái)高速打印機(jī)一分鐘可以打印130頁紙"時(shí),讀作"一百三十",而在"130醫(yī)院"或"130鉆井隊(duì)"這樣的語境中讀作"幺三零"。又如"70年",作為獨(dú)立的語法單元,其本身就有歧義性,可以是"七零年"(表示1970年),也可以是"七十年"(表示時(shí)間段)。此時(shí),往往需要在更廣、更深的層次例如段落、篇章上下文分析或者語義理解的基礎(chǔ)上來對其進(jìn)行準(zhǔn)確的文字符號化處理。特殊符號的語用形式更是多種多樣,對于特殊符號的文字符號化,存在兩方面的問題。一方面是其用法的多樣性,另外一方面是由此帶來的可能的歧義性。以漢語為例,"-"、"/"和""是三個(gè)常用的符號。由于它們可以作為不同的語用手段出現(xiàn)在很多固定格式中,因此它們也是很難被計(jì)算機(jī)正確理解的。這些特殊符號經(jīng)常是伴隨數(shù)字-一起出現(xiàn)的,更進(jìn)一步,有的時(shí)候這些特殊符號、數(shù)字中間會(huì)夾雜著漢字一起出現(xiàn),它們組合在一起構(gòu)成一個(gè)大的語法單元。例如"2000元/月","16日一19日","3個(gè)月-6個(gè)月","波音-747","電話:6599223865993388—1826、1828"等。特殊符號的歧義性也是必須要解決的問題之一,例如""在下面三句話中起著不同的語用作用,在例句1和例句3中""應(yīng)該文字符號化為"比",在例句2中應(yīng)該文字符號化為"點(diǎn)"。例句l:實(shí)行6:2:2的結(jié)構(gòu)工資制例句2:7月21日晚上19:30分例句3:她擊敗對手的比分為6:2、5:7和7:5關(guān)于自然語言文本中復(fù)雜形式的數(shù)字和特殊符號進(jìn)行文字符號化的處理存在多篇現(xiàn)有文獻(xiàn),特將美國專利6,721,697(Duan;Lei;Franz;Alexander;Horiguchi;Keiko;April13,2004,Methodandsystemforreducinglexicalambiguity);美國專利6,266,642(Franz;AlexanderM.;Horiguchi;Keiko;July24,2001,Methodandportableapparatusforperformingspokenlanguagetranslation);美國專利6,826,568(Bernstein;PhilipA.;Madhavan;Jayant;November30,2004,Methodsandsystemformodelmatching);美國專禾lj5,930,756(Mackie;AndrewWilliam;Miller;CoreyAndrew;Karaali;Orhan;June23,1997,Method,deviceandsystemforamemory-efficientrandom-accesspronunciationlexiconfortext-to-speechsynthesis);美國專利6,182,028(Karaali;Orhan;Mackie;AndrewWilliam;November7,1997,Method,deviceandsystemforpart-of-speechdisambiguation);所公開的內(nèi)容合并于此作為本發(fā)明申請的現(xiàn)有技術(shù)文獻(xiàn)。一般來說,數(shù)字和特殊符號文字符號化系統(tǒng)是利用上下文知識(shí),對于不同格式的數(shù)字、特殊符號串編寫具有針對性的規(guī)則來實(shí)現(xiàn)的。如"這臺(tái)高速打印機(jī)一分鐘可以打印130頁紙",通過對"130"數(shù)字串和下文量詞"頁"的考察,可以獲得"130頁"為"數(shù)詞+量詞"的理解,應(yīng)用相應(yīng)的文字符號化規(guī)則(數(shù)值讀法),從而獲得文字符號化結(jié)果為"這臺(tái)高速打印機(jī)一分鐘可以打印一百三十頁紙"?,F(xiàn)有技術(shù)中,數(shù)字和特殊符號文字符號化系統(tǒng)是通過順序掃描輸入文本,逐段抽取其中的數(shù)字和特殊符號串,然后對其進(jìn)行模板匹配來實(shí)現(xiàn)的。這樣的系統(tǒng)主要有下面兩個(gè)缺點(diǎn)一是考察的范圍往往小于語義單元的實(shí)際區(qū)間。這樣,在有些情況下就不能做到完全的語義理解,甚至有的時(shí)候是錯(cuò)誤的語義理解,因此獲得錯(cuò)誤的文字符號化結(jié)果。先前的系統(tǒng)往往順序掃描輸入文本,發(fā)現(xiàn)數(shù)字或特殊符號,隨時(shí)判斷其可否符號化,遇到特殊符號,則調(diào)用該特殊符號的處理規(guī)則。這種掃描機(jī)制的弱點(diǎn)就在于其考察范圍的局部性。對于前面簡單的"數(shù)值+量詞"情況,一般沒有問題。但是,對于稍微復(fù)雜的一些情況,有的時(shí)候考察的范圍就顯得比較孤立。譬如"1970年1月1日9:30分",可能就被劃分成了四個(gè)區(qū)域"1970年"、"1月"、"1曰,,和"9:30分"分別進(jìn)行處理。實(shí)際上,這四個(gè)區(qū)域組成了一個(gè)完整的語義單元,在自然語言理解后處理中應(yīng)該被處理為一個(gè)語塊,在語音合成應(yīng)用相關(guān)的后處理中,還應(yīng)該被看作是一個(gè)韻律短語。更甚之,在一些復(fù)雜的情況下,由于無法從全局考察整個(gè)語義單元,有的時(shí)候就不能解決一些歧義,尤其是特殊符號的歧義。下面是三個(gè)例句,只有在全局理解的基礎(chǔ)上,才能實(shí)現(xiàn)對其正確的文字符號化處理。例句1:大多數(shù)新被艾滋病病毒感染的人是年齡在"歲的年輕人。例句2:電話659""S659^3^—7(^6、7&S。例句3:綏中i^L油田位于渤海遼東灣北部。另外,還有一類情況,也只有在全局理解的基礎(chǔ)上,才能實(shí)現(xiàn)對其正確的文字符號化處理。下面是兩個(gè)例句。例句4中的"1996"部分只有在考察完"1996、1997兩年"后才能確定其語義(年),因此應(yīng)該按照電報(bào)讀法去文字符號化數(shù)字串"1996"。換句話說,"1996"的文字符號化規(guī)則繼承了"1997"的文字符號化規(guī)則。因此,這里把這類問題歸類為反向繼承問題。當(dāng)然,這種反向繼承的使用需要很嚴(yán)格的限制。譬如,在下面這兩個(gè)漢語例句中,標(biāo)點(diǎn)符號頓號是反向繼承的前提條件之一。例句4:僅1996、1997兩年就繁殖成活10只。例句5:據(jù)排堿指揮部提供的資料1985、1986、1987年糧棉產(chǎn)量連年遞增??梢姡F(xiàn)有技術(shù)的通過順序掃描輸入文本,逐段抽取其中的數(shù)字和特殊符號串,然后對其進(jìn)行模板匹配來實(shí)現(xiàn)的數(shù)字和特殊符號串處理,無法從全局考察整個(gè)語義單元,也沒有以反向繼承的方式去處理數(shù)字和特殊符號串,因此不能解決文本中的一些歧義,尤其是特殊符號的歧義。
發(fā)明內(nèi)容本發(fā)明的目的在于,提供一種文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng),基于文本中數(shù)字和特殊符號的構(gòu)成規(guī)律,對文本中數(shù)字、特殊符號串進(jìn)行逐段模板識(shí)別的同時(shí),考察當(dāng)前數(shù)字、特殊符號串的上下文語境,即同時(shí)考察可能的前后相鄰數(shù)字、特殊符號串的模板類型,對于復(fù)雜形式的數(shù)字、特殊符號串,能夠發(fā)現(xiàn)其對應(yīng)的完整語義單元,然后確定該語義單元所對應(yīng)的精準(zhǔn)模板,從而能夠?qū)?fù)雜形式的數(shù)字、特殊符號串進(jìn)行精準(zhǔn)的文字符號化處理。本發(fā)明提供了一種自然語言文本中數(shù)字和符號串的文字符號化處理方法,所述的方法包括以下步驟輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境,則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元,并生成該語義單元所對應(yīng)的模板,記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。所述的上下文語境包括模板類型、區(qū)間范圍、文字符號化規(guī)則等。遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息,如果找到未被文字符號化處理的數(shù)字和符號串,則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則,如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。對在文字符號化處理中添加的新文字進(jìn)行后處理。所述的符號是指非自然語言符號。本發(fā)明還提供了一種自然語言文本中數(shù)字和符號串的文字符號化處理系統(tǒng),所述的系統(tǒng)包括輸入部,用于輸入自然語言文本;數(shù)字和符號串抽取部,用于逐段抽取所述自然語言文本中的數(shù)字和符號串;模板匹配部,用于將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;歷史信息記錄部,用于記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;文字符號化規(guī)則生成部,用于根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理,生成當(dāng)前數(shù)字和符號串的文字符號化規(guī)則。所述的系統(tǒng)還包括上下文語境考察部,用于對當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息進(jìn)行考察;語義單元確定部,如果在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境,則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元,并生成該語義單元所對應(yīng)的模板;所述的歷史信息記錄部記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。所述的系統(tǒng)還包括語義單元標(biāo)記部,用于對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。所述的系統(tǒng)還包括反向繼承部,用于遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息,如果找到未被文字符號化處理的數(shù)字和符號串,則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則,如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。所述的系統(tǒng)還包括后處理部,用于對文字符號化處理中添加的新文字進(jìn)行后處理。本發(fā)明還提供了一種自然語言文本中數(shù)字和符號串的文字符號化處理程序,所述的程序包括輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。本發(fā)明還提供了一種存儲(chǔ)自然語言文本中數(shù)字和符號串的文字符號化處理程序的可讀存儲(chǔ)介質(zhì),所述的可讀存儲(chǔ)介質(zhì)存儲(chǔ)有以下程序輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。本發(fā)明的有益效果在于,本發(fā)明基于文本中數(shù)字和特殊符號的構(gòu)成規(guī)律,對文本中數(shù)字、特殊符號串進(jìn)行逐段模板識(shí)別的同時(shí),將考察當(dāng)前數(shù)字、特殊符號串的上下文語境,即同時(shí)考察可能的前后相鄰數(shù)字、特殊符號串的模板類型,對于復(fù)雜形式的數(shù)字、特殊符號串,能夠發(fā)現(xiàn)其對應(yīng)的完整語義單元,然后確定該語義單元所對應(yīng)的精準(zhǔn)模板,從而能夠?qū)?fù)雜形式的數(shù)字、特殊符號串進(jìn)行精準(zhǔn)的文字符號化處理。與此同時(shí),可以對大的語義單元進(jìn)行應(yīng)用所需的其他標(biāo)記。譬如,在自然語言理解后處理中當(dāng)前大的語義單元被標(biāo)記為一個(gè)語塊,或者在語音合成應(yīng)用相關(guān)的后處理中,還應(yīng)該被標(biāo)記為一個(gè)韻律短語,其中又可能涉及到韻律詞的劃分等等。最后,該方法提供了一種反向繼承的機(jī)制。提高了對文本中數(shù)字和特殊符號的識(shí)別精度和效率。圖1、為本發(fā)明系統(tǒng)的結(jié)構(gòu)框圖2、為本發(fā)明系統(tǒng)實(shí)施例的流程框圖3、為本發(fā)明的關(guān)聯(lián)處理流程框圖4、為本發(fā)明的反向繼承流程框圖5、為本發(fā)明具體實(shí)施方式的文字符號化處理流程框圖6、為本發(fā)明具體實(shí)施方式的文字符號化處理反向繼承的流程框圖7、為本發(fā)明具體實(shí)施方式的模板語境考察知識(shí)庫的示意圖8、為本發(fā)明具體實(shí)施方式的數(shù)字/特殊符號串歷史數(shù)據(jù)庫示意圖9、為本發(fā)明具體實(shí)施方式的其他標(biāo)記知識(shí)庫的示意圖10、為本發(fā)明具體實(shí)施方式的模板文字符號化規(guī)則知識(shí)庫示意圖11、為本發(fā)明具體實(shí)施方式的模板反向繼承知識(shí)庫的示意圖。具體實(shí)施例方式下面結(jié)合本發(fā)明的具體實(shí)施方式。如圖1所示,本發(fā)明為一種自然語言文本中數(shù)字和符號串的文字符號化處理系統(tǒng),所述的系統(tǒng)包括輸入部,用于輸入自然語言文本;數(shù)字和符號串抽取部,用于逐段抽取所述自然語言文本中的數(shù)字和符號串;模板匹配部,用于將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;歷史信息記錄部,用于記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;文字符號化規(guī)則生成部,用于根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理,生成當(dāng)前數(shù)字和符號串的文字符號化規(guī)則。本發(fā)明系統(tǒng)可以基于計(jì)算機(jī)、服務(wù)器或服務(wù)器與終端構(gòu)成的網(wǎng)絡(luò)中實(shí)現(xiàn),其中的輸入部可以是鍵盤、鼠標(biāo)、語音或通信接口等方式或其結(jié)合;輸出可以是屏幕、打印機(jī)、通信接口或語音等方式或其結(jié)合。在自然文本中數(shù)字和特殊符號的文字符號化處理系統(tǒng)實(shí)施例的基本原則如圖2所示。該系統(tǒng)中,模塊IOI為輸入的任意文本。文本預(yù)處理部(模塊102)對輸入文本進(jìn)行歸一化處理,其中包含標(biāo)點(diǎn)符號的處理、語用符號的處理、其它語言文字的處理、編碼格式的歸一(在漢語的應(yīng)用中,把全角字符轉(zhuǎn)換為半角字符或者反之)等。數(shù)字/特殊符號串模板匹配部(模塊103)逐段匹配輸入文本中可能存在的數(shù)字/特殊符號串。在其中,該模塊將順序掃描輸入文本,逐段抽取其中的數(shù)字/特殊符號串,然后將當(dāng)前數(shù)字/特殊符號串與模板庫中己定義的模板進(jìn)行匹配,獲得其所屬模板類型。上下文語境處理部(模塊104)即為本發(fā)明的主體部分。該模塊將對當(dāng)前數(shù)字/特殊符號串的上下文語境進(jìn)行分析,從而能夠在全局理解的基礎(chǔ)上,實(shí)現(xiàn)對當(dāng)前數(shù)字/特殊符號串的正確文字符號化處理。具體來說,上下文語境處理部(模塊104)由兩個(gè)子模塊組成。一是關(guān)聯(lián)處理部(模塊1041),二是反向繼承部(模塊1042)。前者首先負(fù)責(zé)記錄歷史數(shù)字/特殊符號串相關(guān)信息如區(qū)間范圍、匹配模板類型、文字符號化規(guī)則等,然后根據(jù)當(dāng)前數(shù)字/特殊符號串的模板類型進(jìn)行相應(yīng)的語境考察,最終從全局的角度對當(dāng)前數(shù)字/特殊符號串進(jìn)行更精準(zhǔn)的文字符號化處理。后者解決反向繼承方面的問題。數(shù)字/特殊符號串文字符號化部(模塊105)對數(shù)字/特殊符號串進(jìn)行文字符號化處理。該模塊根據(jù)當(dāng)前數(shù)字/特殊符號串所屬的模板類型,結(jié)合可能的上下文語境,對當(dāng)前數(shù)字/特殊符號串進(jìn)行文字符號化處理。模塊106是后處理部,對在文字符號化過程中添加的新文字進(jìn)行后處理。在自然語言處理中,可能是詞邊界、語塊邊界的引入等。在語音合成中,還包括對新文字進(jìn)行注音以及添加邊界韻律等級等。模塊107為最終的分析結(jié)果。圖3給出了關(guān)聯(lián)處理部(模塊1041)的詳細(xì)描述。模塊202是上下文語境考察部,它根據(jù)當(dāng)前模板類型(由模塊103數(shù)字/特殊符號串模板匹配部獲得),調(diào)用模塊201中模板語境考察知識(shí)庫儲(chǔ)存的相關(guān)語境考察知識(shí),對當(dāng)前數(shù)字/特殊符號串的上下文語境進(jìn)行考察。當(dāng)前數(shù)字/特殊符號串的上下文語境由模塊203中儲(chǔ)存的數(shù)字/特殊符號串歷史數(shù)據(jù)庫得到。模塊204是精準(zhǔn)模板生成部,即上述的語義單元確定部。它根據(jù)上下文語境考察部的考察結(jié)果,如發(fā)現(xiàn)有相關(guān)的上下文語境,也就是說發(fā)現(xiàn)了大的語義單元,即進(jìn)行該大的語義單元所對應(yīng)的精準(zhǔn)模板的生成。新得到的精準(zhǔn)模板類型存儲(chǔ)在模塊205中。模塊206是數(shù)字/特殊符號串歷史記錄部,它負(fù)責(zé)記錄數(shù)字/特殊符號串歷史信息。如果在前述精準(zhǔn)模板生成部中發(fā)現(xiàn)了大的語義單元,模塊206還將更新之前的數(shù)字/特殊符號串歷史信息,即以大的數(shù)字/特殊符號串語義單元覆蓋之前的局部數(shù)字/特殊符號串信息。換句話說,記錄對應(yīng)于完整語義單元的數(shù)字/特殊符號串歷史信息。模塊208是其他標(biāo)記部,它根據(jù)模塊207中的其他標(biāo)記知識(shí)庫,負(fù)責(zé)對當(dāng)前大的語義單元進(jìn)行可能的其他標(biāo)記。譬如,在自然語言理解后處理中當(dāng)前大的語義單元被標(biāo)記為一個(gè)語塊,或者在語音合成應(yīng)用相關(guān)的后處理中,還應(yīng)該被標(biāo)記為一個(gè)韻律短語,其中又可能涉及到韻律詞的劃分等等。模塊210是文字符號化規(guī)則生成部,它負(fù)責(zé)調(diào)用模塊209模板文字符號化規(guī)則知識(shí)庫中儲(chǔ)存的相關(guān)精準(zhǔn)模板的文字符號化規(guī)則,生成當(dāng)前數(shù)字/特殊符號串的文字符號化規(guī)則。分析結(jié)果儲(chǔ)存在模塊211文字符號化規(guī)則分析結(jié)果中。圖4詳細(xì)描述了反向繼承部(模塊1042)的處理流程。模塊301負(fù)責(zé)遍歷數(shù)字/特殊符號串歷史記錄。模塊302負(fù)責(zé)檢査數(shù)字/特殊符號串歷史記錄中有無尚未被文字符號化的數(shù)字/特殊字符符號串。如果發(fā)現(xiàn)所有數(shù)字/特殊字符符號串均已經(jīng)被文字符號化,結(jié)束。如果發(fā)現(xiàn)有尚未被文字符號化的數(shù)字/特殊字符符號串,則轉(zhuǎn)模塊304反向繼承檢查部進(jìn)行后續(xù)處理。模塊304是反向繼承檢査部,它根據(jù)當(dāng)前模板類型調(diào)用模塊303中模板反向繼承知識(shí)庫儲(chǔ)存的相關(guān)反向繼承限制條件,對當(dāng)前數(shù)字/特殊符號串可否反向繼承文字符號化規(guī)則進(jìn)行檢查。如果不可繼承,轉(zhuǎn)模塊301。如果可以繼承,則填寫當(dāng)前數(shù)字/特殊符號串的文字符號化繼承結(jié)果(模塊305),然后轉(zhuǎn)模塊301。本發(fā)明對于復(fù)雜形式的數(shù)字、符號(特殊符號)串,能夠發(fā)現(xiàn)其對應(yīng)的完整語義單元,然后確定該語義單元所對應(yīng)的精準(zhǔn)模板,從而能夠?qū)?fù)雜形式的數(shù)字、特殊符號串進(jìn)行精準(zhǔn)的文字符號化處理。在此基礎(chǔ)上,可以對大的語義單元進(jìn)行應(yīng)用所需的其他標(biāo)記。譬如,在自然語言理解后處理中當(dāng)前大的語義單元被標(biāo)記為一個(gè)語塊,或者在語音合成應(yīng)用相關(guān)的后處理中,還應(yīng)該被標(biāo)記為一個(gè)韻律短語,其中又可能涉及到韻律詞的劃分等等。并且提供了一種反向繼承的機(jī)制。自然語言包括漢語、日語、英語等多種語言,現(xiàn)以漢語為實(shí)例,在語音合成系統(tǒng)中實(shí)現(xiàn)的一個(gè)對漢語文本中數(shù)字和特殊符號進(jìn)行文字符號化的處理方法和裝置,能夠?qū)ξ谋局锌赡艽嬖诘臄?shù)字、特殊符號串進(jìn)行正確的文字符號化處理,尤其適合處理一些復(fù)雜的數(shù)字、特殊符號串例如電話號碼、有特殊符號的數(shù)量區(qū)間等。圖5給出了一個(gè)漢語文本中數(shù)字和特殊符號的文字符號化處理的具體例子。數(shù)字/特殊符號串模板匹配部(模塊103)逐段匹配輸入文本中可能存在的數(shù)字/特殊符號串。在其中,該模塊將順序掃描輸入文本,逐段抽取其中的數(shù)字/特殊符號串,然后將當(dāng)前數(shù)字/特殊符號串與模板庫中己定義的模板進(jìn)行匹配,獲得其所屬模板類型。這樣,在這個(gè)例句文本中,有兩個(gè)數(shù)字/特殊字符串,即"15"和"-44"。而實(shí)際上,"15歲-44歲"是一個(gè)完整的語義單元。在單純的順序掃描、逐段匹配的機(jī)制下,對數(shù)字/特殊符號串考察的范圍往往小于語義單元的實(shí)際區(qū)間。這樣,在類似本例句的情況下就不能做到完全的語義理解,甚至有的時(shí)候是錯(cuò)誤的語義理解,并因此獲得錯(cuò)誤的文字符號化結(jié)果。在圖5中,邊框加黑的框內(nèi)為模塊103數(shù)字/特殊符號串模板匹配部順序掃描、逐段匹配所獲得的數(shù)字/特殊符號串。第一個(gè)數(shù)字/特殊符號串"15"的匹配模板為"一般正整數(shù)",結(jié)合后續(xù)的量詞"歲",確定其文字符號化方法為數(shù)值讀法。第二個(gè)數(shù)字/特殊符號串"-44"的匹配模板為"單減號領(lǐng)頭的數(shù)",這個(gè)匹配模板交給模塊1041關(guān)聯(lián)處理部進(jìn)行上下文語境的考察,結(jié)合后續(xù)的量詞"歲"、前一數(shù)字/特殊符號串的模板類型,確定當(dāng)前數(shù)字/特殊符號串應(yīng)該和前一數(shù)字/特殊符號串組合為一個(gè)大的語義單元即"15歲一歲",其精準(zhǔn)模板為數(shù)量區(qū)間,并因此確定其文字符號化方法為數(shù)量區(qū)間、數(shù)值讀法。最終,輸入文本"艾滋病己成為15歲一44歲青壯年人群死亡的首位原因。"被文字符號化為"艾滋病已成為十五歲至四十四歲青壯年人群死亡的首位原因。"。另外,在自然語言理解應(yīng)用中,其他標(biāo)記部可以將"十五歲至四十四歲"標(biāo)記為一個(gè)完整的語塊。在語音合成應(yīng)用中,其他標(biāo)記部可以將"十五歲"和"至四十四歲"標(biāo)記為兩個(gè)韻律詞,并且可以考慮把"十五歲至四十四歲"標(biāo)記為一個(gè)韻律短語。圖6給出了一個(gè)文本中數(shù)字和特殊符號的文字符號化處理反向繼承的具體例子。一般來說,數(shù)字/特殊符號串模板匹配部(模塊103)逐段匹配輸入文本中可能存在的數(shù)字/特殊符號串。在其中,該模塊將順序掃描輸入文本,逐段抽取其中的數(shù)字/特殊符號串,然后將當(dāng)前數(shù)字/特殊符號串與模板庫中已定義的模板進(jìn)行匹配,獲得其所屬模板類型。這樣,在這個(gè)例句文本中,有三個(gè)數(shù)字/特殊字符串,即"1985"、"1986"和"1987"。在對"1985"或"1986"進(jìn)行處理的時(shí)候,由于從左向右順序分析,此時(shí)僅僅是局部的理解,因此,無法做出正確的文字符號化處理。只有在全局理解的基礎(chǔ)上,即考察到"1987(年)"部分,經(jīng)過本發(fā)明中的反向繼承部處理后才能實(shí)現(xiàn)對全部三個(gè)數(shù)字/特殊符號串的正確文字符號化處理。在圖6中,邊框加黑的框內(nèi)為模塊103數(shù)字/特殊符號串模板匹配部順序掃描、逐段匹配所獲得的數(shù)字/特殊符號串。第一個(gè)數(shù)字/特殊符號串"1985"的匹配模板為"一般正整數(shù)(四位數(shù))",由于未考察到任何的上下文關(guān)鍵詞,無法確定其文字符號化方法,因此暫定為缺省。第二個(gè)數(shù)字/特殊符號串"1986"同前。第三個(gè)數(shù)字/特殊符號串"1987"的匹配模板為"一般正整數(shù)(四位數(shù))",結(jié)合后續(xù)的特殊詞"年",確定當(dāng)前數(shù)字/特殊符號串的模板為"年日期",且"1987"的文字符號化方法為電報(bào)讀法。然后,模塊1042反向繼承部檢査有無反向繼承的可能性。這樣,數(shù)字/特殊符號串"1986"后的"、"和之前的"、"決定了"1986"反向繼承其后數(shù)字/特殊符號串的文字符號化方法,即"年日期"模板的文字符號化方法。同理,數(shù)字/特殊符號串"1985"也反向繼承。最終,輸入文本"據(jù)排堿指揮部提供的資料1985、1986、1987年糧棉產(chǎn)量連年遞增。"被文字符號化為"據(jù)排堿指揮部提供的資料一九八五、一九八六、一九八七年糧棉產(chǎn)量連年遞增。"。圖7是模板語境考察知識(shí)庫(模塊201)的具體實(shí)現(xiàn)示例。在圖7中,給出了模板語境考察知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和一個(gè)例子。在模板語境考察知識(shí)庫中至少存儲(chǔ)當(dāng)前數(shù)字/特殊符號串所屬模板類型、前一個(gè)數(shù)字/特殊符號串模板類型、前一個(gè)數(shù)字/特殊符號串結(jié)束位置、前一個(gè)數(shù)字/特殊符號串?dāng)U展結(jié)束位置、前一個(gè)數(shù)字/特殊符號串關(guān)鍵詞類型、當(dāng)前數(shù)字/特殊符號串關(guān)鍵詞類型和精準(zhǔn)模板類型。圖8是數(shù)字/特殊符號串歷史數(shù)據(jù)庫(模塊203)的具體實(shí)現(xiàn)示例。在圖8中,給出了數(shù)字/特殊符號串歷史數(shù)據(jù)庫的基本數(shù)據(jù)結(jié)構(gòu)和一個(gè)例子(圖5例句中的"15(歲)")。在數(shù)字/特殊符號串歷史數(shù)據(jù)庫中至少存儲(chǔ)數(shù)字/特殊符號串所屬模板類型、數(shù)字/特殊符號串開始位置、數(shù)字/特殊符號串結(jié)束位置、數(shù)字/特殊符號串?dāng)U展開始位置、數(shù)字/特殊符號串?dāng)U展結(jié)束位置、數(shù)字/特殊符號串關(guān)鍵詞類型和數(shù)字/特殊符號串關(guān)鍵詞內(nèi)容。圖9是其他標(biāo)記知識(shí)庫(模塊207)的具體實(shí)現(xiàn)示例。在圖9中,給出了其他標(biāo)記知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和兩個(gè)例子。在其他標(biāo)記知識(shí)庫中至少存儲(chǔ)當(dāng)前數(shù)字/特殊符號串所屬模板類型、韻律詞標(biāo)記規(guī)則和韻律短語標(biāo)記規(guī)則。圖10是模板文字符號化規(guī)則知識(shí)庫(模塊209)的具體實(shí)現(xiàn)示例。在圖10中,給出了模板文字符號化規(guī)則知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和兩個(gè)例子。在模板文字符號化規(guī)則知識(shí)庫中至少存儲(chǔ)模板類型、上下文規(guī)則、關(guān)鍵詞規(guī)則和符號化規(guī)則。圖ll是模板反向繼承知識(shí)庫(模塊303)的具體實(shí)現(xiàn)示例。在圖11中,給出了模板反向繼承知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和一個(gè)例子。在模板反向繼承知識(shí)庫中至少存儲(chǔ)當(dāng)前數(shù)字/特殊符號串所屬模板類型、下一個(gè)數(shù)字/特殊符號串模板類型、下一個(gè)數(shù)字/特殊符號串幵始位置、當(dāng)前數(shù)字/特殊符號串和下一個(gè)數(shù)字/特殊符號串之間的分隔符號、當(dāng)前數(shù)字/特殊符號串關(guān)鍵詞類型、當(dāng)前數(shù)字/特殊符號串和下一個(gè)數(shù)字/特殊符號串之間的分隔漢字和反向繼承規(guī)則。以上具體實(shí)施方式僅用于說明本發(fā)明,而非用于限定本發(fā)明。權(quán)利要求1.一種自然語言文本中數(shù)字和符號串的文字符號化處理方法,其特征是,所述的方法包括以下步驟輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。2.根據(jù)權(quán)利要求1所述的方法,其特征是,在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境,則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元,并生成該語義單元所對應(yīng)的模板,記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。3.根據(jù)權(quán)利要求2所述的方法,其特征是,對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。4.根據(jù)權(quán)利要求2所述的方法,其特征是,所述的上下文語境包括模板類型、區(qū)間范圍、文字符號化規(guī)則等。5.根據(jù)權(quán)利要求1所述的方法,其特征是,遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息,如果找到未被文字符號化處理的數(shù)字和符號串,則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則,如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。6.根據(jù)權(quán)利要求1所述的方法,其特征是,對在文字符號化處理中添加的新文字進(jìn)行后處理。7.根據(jù)權(quán)利要求1所述的方法,其特征是,所述的符號是指非自然語言符號。8.—種自然語言文本中數(shù)字和符號串的文字符號化處理系統(tǒng),其特征是,所述的系統(tǒng)包括輸入部,用于輸入自然語言文本;數(shù)字和符號串抽取部,用于逐段抽取所述自然語言文本中的數(shù)字和符號串;模板匹配部,用于將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;歷史信息記錄部,用于記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;文字符號化規(guī)則生成部,用于根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理,生成當(dāng)前數(shù)字和符號串的文字符號化規(guī)9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征是,所述的系統(tǒng)還包括上下文語境考察部,用于對當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息進(jìn)行考察;語義單元確定部,如果在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境,則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元,并生成該語義單元所對應(yīng)的模板;所述的歷史信息記錄部記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征是,所述的系統(tǒng)還包括語義單元標(biāo)記部,用于對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。11.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征是,所述的上下文語境包括-模板類型、區(qū)間范圍、文字符號化規(guī)則等。12.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征是,所述的系統(tǒng)還包括反向繼承部,用于遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息,如果找到未被文字符號化處理的數(shù)字和符號串,則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則,如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。13.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征是,所述的系統(tǒng)還包括后處理部,用于對文字符號化處理中添加的新文字進(jìn)行后處理。14.一種自然語言文本中數(shù)字和符號串的文字符號化處理程序,其特征是,所述的程序包括輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。15.—種存儲(chǔ)自然語言文本中數(shù)字和符號串的文字符號化處理程序的可讀存儲(chǔ)介質(zhì),其特征是,所述的可讀存儲(chǔ)介質(zhì)存儲(chǔ)有以下程序輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。全文摘要本發(fā)明為一種自然語言文本中數(shù)字和符號串的文字符號化處理方法及系統(tǒng),所述的方法包括以下步驟輸入自然語言文本;逐段抽取所述自然語言文本中的數(shù)字和符號串;將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配,獲得當(dāng)前數(shù)字和符號串所屬的模板類型;記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息;根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。提高了對文本中數(shù)字和特殊符號的識(shí)別精度和效率。文檔編號G06F17/28GK101196881SQ20061016563公開日2008年6月11日申請日期2006年12月8日優(yōu)先權(quán)日2006年12月8日發(fā)明者片江伸之,慶郭申請人:富士通株式會(huì)社