文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)的制作方法

文檔序號：6564240閱讀：465來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及對自然語言文本中復(fù)雜形式的數(shù)字和特殊符號進(jìn)行文字符號化的處理技術(shù)，具體的講是一種文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)。
背景技術(shù)：
：在自然語言文本中，數(shù)字和特殊符號(包括外來語符號，例如漢語中的英文字母)作為自然語言系統(tǒng)中的基本符號廣泛且大量地存在著。以漢語為例，在人民日報(bào)1998年的語料中，大約25%的句子中存在著數(shù)字或特殊符號。在信息處理領(lǐng)域中，許多與自然語言處理技術(shù)相關(guān)的應(yīng)用如自然語言理解、機(jī)器翻譯、語音合成等，都需要能夠?qū)ψ匀徽Z言文本中可能存在的數(shù)字、特殊符號串進(jìn)行準(zhǔn)確的理解，在理解的基礎(chǔ)上對其中的數(shù)字或特殊符號進(jìn)行文字符號化處理，即將數(shù)字或特殊符號轉(zhuǎn)換為與其等價(jià)的文字。在語音合成系統(tǒng)中，在對數(shù)字或特殊符號進(jìn)行文字符號化處理的基礎(chǔ)上，還要進(jìn)行字轉(zhuǎn)音的處理，并根據(jù)數(shù)字、特殊符號串的結(jié)構(gòu)加上適當(dāng)?shù)脑~邊界或者更高一級的韻律詞邊界，從而使得語音合成的聲音更自然。因此，對于許多與自然語言處理技術(shù)相關(guān)的應(yīng)用中，一個(gè)有效的數(shù)字、特殊符號文字符號化處理系統(tǒng)是必需的。數(shù)字和特殊符號由于廣泛地存在于自然語言文本中，因此也形成了許多常用的固定格式。就數(shù)字而言，在不同的上下文語境中，或是在不同的習(xí)慣用法結(jié)構(gòu)中，有兩種可能的讀法，一種是數(shù)值讀法，另外一種是電報(bào)讀法。以漢語為例，"130"用于描述數(shù)量例如"這臺(tái)高速打印機(jī)一分鐘可以打印130頁紙"時(shí)，讀作"一百三十"，而在"130醫(yī)院"或"130鉆井隊(duì)"這樣的語境中讀作"幺三零"。又如"70年"，作為獨(dú)立的語法單元，其本身就有歧義性，可以是"七零年"(表示1970年)，也可以是"七十年"(表示時(shí)間段)。此時(shí)，往往需要在更廣、更深的層次例如段落、篇章上下文分析或者語義理解的基礎(chǔ)上來對其進(jìn)行準(zhǔn)確的文字符號化處理。特殊符號的語用形式更是多種多樣，對于特殊符號的文字符號化，存在兩方面的問題。一方面是其用法的多樣性，另外一方面是由此帶來的可能的歧義性。以漢語為例，"-"、"/"和""是三個(gè)常用的符號。由于它們可以作為不同的語用手段出現(xiàn)在很多固定格式中，因此它們也是很難被計(jì)算機(jī)正確理解的。這些特殊符號經(jīng)常是伴隨數(shù)字-一起出現(xiàn)的，更進(jìn)一步，有的時(shí)候這些特殊符號、數(shù)字中間會(huì)夾雜著漢字一起出現(xiàn)，它們組合在一起構(gòu)成一個(gè)大的語法單元。例如"2000元/月"，"16日一19日"，"3個(gè)月-6個(gè)月"，"波音-747"，"電話:6599223865993388—1826、1828"等。特殊符號的歧義性也是必須要解決的問題之一，例如""在下面三句話中起著不同的語用作用，在例句1和例句3中""應(yīng)該文字符號化為"比"，在例句2中應(yīng)該文字符號化為"點(diǎn)"。例句l:實(shí)行6:2:2的結(jié)構(gòu)工資制例句2:7月21日晚上19:30分例句3:她擊敗對手的比分為6:2、5:7和7:5關(guān)于自然語言文本中復(fù)雜形式的數(shù)字和特殊符號進(jìn)行文字符號化的處理存在多篇現(xiàn)有文獻(xiàn)，特將美國專利6,721,697(Duan;Lei;Franz;Alexander;Horiguchi;Keiko;April13，2004，Methodandsystemforreducinglexicalambiguity);美國專利6,266,642(Franz;AlexanderM.;Horiguchi;Keiko;July24,2001,Methodandportableapparatusforperformingspokenlanguagetranslation);美國專利6,826,568(Bernstein;PhilipA.;Madhavan;Jayant;November30，2004，Methodsandsystemformodelmatching);美國專禾lj5,930,756(Mackie;AndrewWilliam;Miller;CoreyAndrew;Karaali;Orhan;June23,1997,Method,deviceandsystemforamemory-efficientrandom-accesspronunciationlexiconfortext-to-speechsynthesis);美國專利6,182,028(Karaali;Orhan;Mackie;AndrewWilliam;November7，1997,Method,deviceandsystemforpart-of-speechdisambiguation);所公開的內(nèi)容合并于此作為本發(fā)明申請的現(xiàn)有技術(shù)文獻(xiàn)。一般來說，數(shù)字和特殊符號文字符號化系統(tǒng)是利用上下文知識(shí)，對于不同格式的數(shù)字、特殊符號串編寫具有針對性的規(guī)則來實(shí)現(xiàn)的。如"這臺(tái)高速打印機(jī)一分鐘可以打印130頁紙"，通過對"130"數(shù)字串和下文量詞"頁"的考察，可以獲得"130頁"為"數(shù)詞+量詞"的理解，應(yīng)用相應(yīng)的文字符號化規(guī)則(數(shù)值讀法)，從而獲得文字符號化結(jié)果為"這臺(tái)高速打印機(jī)一分鐘可以打印一百三十頁紙"?，F(xiàn)有技術(shù)中，數(shù)字和特殊符號文字符號化系統(tǒng)是通過順序掃描輸入文本，逐段抽取其中的數(shù)字和特殊符號串，然后對其進(jìn)行模板匹配來實(shí)現(xiàn)的。這樣的系統(tǒng)主要有下面兩個(gè)缺點(diǎn)一是考察的范圍往往小于語義單元的實(shí)際區(qū)間。這樣，在有些情況下就不能做到完全的語義理解，甚至有的時(shí)候是錯(cuò)誤的語義理解，因此獲得錯(cuò)誤的文字符號化結(jié)果。先前的系統(tǒng)往往順序掃描輸入文本，發(fā)現(xiàn)數(shù)字或特殊符號，隨時(shí)判斷其可否符號化，遇到特殊符號，則調(diào)用該特殊符號的處理規(guī)則。這種掃描機(jī)制的弱點(diǎn)就在于其考察范圍的局部性。對于前面簡單的"數(shù)值+量詞"情況，一般沒有問題。但是，對于稍微復(fù)雜的一些情況，有的時(shí)候考察的范圍就顯得比較孤立。譬如"1970年1月1日9:30分"，可能就被劃分成了四個(gè)區(qū)域"1970年"、"1月"、"1曰，,和"9:30分"分別進(jìn)行處理。實(shí)際上，這四個(gè)區(qū)域組成了一個(gè)完整的語義單元，在自然語言理解后處理中應(yīng)該被處理為一個(gè)語塊，在語音合成應(yīng)用相關(guān)的后處理中，還應(yīng)該被看作是一個(gè)韻律短語。更甚之，在一些復(fù)雜的情況下，由于無法從全局考察整個(gè)語義單元，有的時(shí)候就不能解決一些歧義，尤其是特殊符號的歧義。下面是三個(gè)例句，只有在全局理解的基礎(chǔ)上，才能實(shí)現(xiàn)對其正確的文字符號化處理。例句1:大多數(shù)新被艾滋病病毒感染的人是年齡在"歲的年輕人。例句2:電話659""S659^3^—7(^6、7&S。例句3:綏中i^L油田位于渤海遼東灣北部。另外，還有一類情況，也只有在全局理解的基礎(chǔ)上，才能實(shí)現(xiàn)對其正確的文字符號化處理。下面是兩個(gè)例句。例句4中的"1996"部分只有在考察完"1996、1997兩年"后才能確定其語義(年)，因此應(yīng)該按照電報(bào)讀法去文字符號化數(shù)字串"1996"。換句話說，"1996"的文字符號化規(guī)則繼承了"1997"的文字符號化規(guī)則。因此，這里把這類問題歸類為反向繼承問題。當(dāng)然，這種反向繼承的使用需要很嚴(yán)格的限制。譬如，在下面這兩個(gè)漢語例句中，標(biāo)點(diǎn)符號頓號是反向繼承的前提條件之一。例句4:僅1996、1997兩年就繁殖成活10只。例句5:據(jù)排堿指揮部提供的資料1985、1986、1987年糧棉產(chǎn)量連年遞增?？梢姡F(xiàn)有技術(shù)的通過順序掃描輸入文本，逐段抽取其中的數(shù)字和特殊符號串，然后對其進(jìn)行模板匹配來實(shí)現(xiàn)的數(shù)字和特殊符號串處理，無法從全局考察整個(gè)語義單元，也沒有以反向繼承的方式去處理數(shù)字和特殊符號串，因此不能解決文本中的一些歧義，尤其是特殊符號的歧義。
發(fā)明內(nèi)容本發(fā)明的目的在于，提供一種文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)，基于文本中數(shù)字和特殊符號的構(gòu)成規(guī)律，對文本中數(shù)字、特殊符號串進(jìn)行逐段模板識(shí)別的同時(shí)，考察當(dāng)前數(shù)字、特殊符號串的上下文語境，即同時(shí)考察可能的前后相鄰數(shù)字、特殊符號串的模板類型，對于復(fù)雜形式的數(shù)字、特殊符號串，能夠發(fā)現(xiàn)其對應(yīng)的完整語義單元，然后確定該語義單元所對應(yīng)的精準(zhǔn)模板，從而能夠?qū)?fù)雜形式的數(shù)字、特殊符號串進(jìn)行精準(zhǔn)的文字符號化處理。本發(fā)明提供了一種自然語言文本中數(shù)字和符號串的文字符號化處理方法，所述的方法包括以下步驟輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境，則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元，并生成該語義單元所對應(yīng)的模板，記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。所述的上下文語境包括模板類型、區(qū)間范圍、文字符號化規(guī)則等。遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息，如果找到未被文字符號化處理的數(shù)字和符號串，則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則，如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。對在文字符號化處理中添加的新文字進(jìn)行后處理。所述的符號是指非自然語言符號。本發(fā)明還提供了一種自然語言文本中數(shù)字和符號串的文字符號化處理系統(tǒng)，所述的系統(tǒng)包括輸入部，用于輸入自然語言文本；數(shù)字和符號串抽取部，用于逐段抽取所述自然語言文本中的數(shù)字和符號串；模板匹配部，用于將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；歷史信息記錄部，用于記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；文字符號化規(guī)則生成部，用于根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理，生成當(dāng)前數(shù)字和符號串的文字符號化規(guī)則。所述的系統(tǒng)還包括上下文語境考察部，用于對當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息進(jìn)行考察；語義單元確定部，如果在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境，則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元，并生成該語義單元所對應(yīng)的模板；所述的歷史信息記錄部記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。所述的系統(tǒng)還包括語義單元標(biāo)記部，用于對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。所述的系統(tǒng)還包括反向繼承部，用于遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息，如果找到未被文字符號化處理的數(shù)字和符號串，則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則，如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。所述的系統(tǒng)還包括后處理部，用于對文字符號化處理中添加的新文字進(jìn)行后處理。本發(fā)明還提供了一種自然語言文本中數(shù)字和符號串的文字符號化處理程序，所述的程序包括輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。本發(fā)明還提供了一種存儲(chǔ)自然語言文本中數(shù)字和符號串的文字符號化處理程序的可讀存儲(chǔ)介質(zhì)，所述的可讀存儲(chǔ)介質(zhì)存儲(chǔ)有以下程序輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。本發(fā)明的有益效果在于，本發(fā)明基于文本中數(shù)字和特殊符號的構(gòu)成規(guī)律，對文本中數(shù)字、特殊符號串進(jìn)行逐段模板識(shí)別的同時(shí)，將考察當(dāng)前數(shù)字、特殊符號串的上下文語境，即同時(shí)考察可能的前后相鄰數(shù)字、特殊符號串的模板類型，對于復(fù)雜形式的數(shù)字、特殊符號串，能夠發(fā)現(xiàn)其對應(yīng)的完整語義單元，然后確定該語義單元所對應(yīng)的精準(zhǔn)模板，從而能夠?qū)?fù)雜形式的數(shù)字、特殊符號串進(jìn)行精準(zhǔn)的文字符號化處理。與此同時(shí)，可以對大的語義單元進(jìn)行應(yīng)用所需的其他標(biāo)記。譬如，在自然語言理解后處理中當(dāng)前大的語義單元被標(biāo)記為一個(gè)語塊，或者在語音合成應(yīng)用相關(guān)的后處理中，還應(yīng)該被標(biāo)記為一個(gè)韻律短語，其中又可能涉及到韻律詞的劃分等等。最后，該方法提供了一種反向繼承的機(jī)制。提高了對文本中數(shù)字和特殊符號的識(shí)別精度和效率。圖1、為本發(fā)明系統(tǒng)的結(jié)構(gòu)框圖2、為本發(fā)明系統(tǒng)實(shí)施例的流程框圖3、為本發(fā)明的關(guān)聯(lián)處理流程框圖4、為本發(fā)明的反向繼承流程框圖5、為本發(fā)明具體實(shí)施方式的文字符號化處理流程框圖6、為本發(fā)明具體實(shí)施方式的文字符號化處理反向繼承的流程框圖7、為本發(fā)明具體實(shí)施方式的模板語境考察知識(shí)庫的示意圖8、為本發(fā)明具體實(shí)施方式的數(shù)字/特殊符號串歷史數(shù)據(jù)庫示意圖9、為本發(fā)明具體實(shí)施方式的其他標(biāo)記知識(shí)庫的示意圖10、為本發(fā)明具體實(shí)施方式的模板文字符號化規(guī)則知識(shí)庫示意圖11、為本發(fā)明具體實(shí)施方式的模板反向繼承知識(shí)庫的示意圖。具體實(shí)施例方式下面結(jié)合本發(fā)明的具體實(shí)施方式。如圖1所示，本發(fā)明為一種自然語言文本中數(shù)字和符號串的文字符號化處理系統(tǒng)，所述的系統(tǒng)包括輸入部，用于輸入自然語言文本；數(shù)字和符號串抽取部，用于逐段抽取所述自然語言文本中的數(shù)字和符號串；模板匹配部，用于將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；歷史信息記錄部，用于記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；文字符號化規(guī)則生成部，用于根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理，生成當(dāng)前數(shù)字和符號串的文字符號化規(guī)則。本發(fā)明系統(tǒng)可以基于計(jì)算機(jī)、服務(wù)器或服務(wù)器與終端構(gòu)成的網(wǎng)絡(luò)中實(shí)現(xiàn)，其中的輸入部可以是鍵盤、鼠標(biāo)、語音或通信接口等方式或其結(jié)合；輸出可以是屏幕、打印機(jī)、通信接口或語音等方式或其結(jié)合。在自然文本中數(shù)字和特殊符號的文字符號化處理系統(tǒng)實(shí)施例的基本原則如圖2所示。該系統(tǒng)中，模塊IOI為輸入的任意文本。文本預(yù)處理部(模塊102)對輸入文本進(jìn)行歸一化處理，其中包含標(biāo)點(diǎn)符號的處理、語用符號的處理、其它語言文字的處理、編碼格式的歸一(在漢語的應(yīng)用中，把全角字符轉(zhuǎn)換為半角字符或者反之)等。數(shù)字/特殊符號串模板匹配部(模塊103)逐段匹配輸入文本中可能存在的數(shù)字/特殊符號串。在其中，該模塊將順序掃描輸入文本，逐段抽取其中的數(shù)字/特殊符號串，然后將當(dāng)前數(shù)字/特殊符號串與模板庫中己定義的模板進(jìn)行匹配，獲得其所屬模板類型。上下文語境處理部(模塊104)即為本發(fā)明的主體部分。該模塊將對當(dāng)前數(shù)字/特殊符號串的上下文語境進(jìn)行分析，從而能夠在全局理解的基礎(chǔ)上，實(shí)現(xiàn)對當(dāng)前數(shù)字/特殊符號串的正確文字符號化處理。具體來說，上下文語境處理部(模塊104)由兩個(gè)子模塊組成。一是關(guān)聯(lián)處理部(模塊1041)，二是反向繼承部(模塊1042)。前者首先負(fù)責(zé)記錄歷史數(shù)字/特殊符號串相關(guān)信息如區(qū)間范圍、匹配模板類型、文字符號化規(guī)則等，然后根據(jù)當(dāng)前數(shù)字/特殊符號串的模板類型進(jìn)行相應(yīng)的語境考察，最終從全局的角度對當(dāng)前數(shù)字/特殊符號串進(jìn)行更精準(zhǔn)的文字符號化處理。后者解決反向繼承方面的問題。數(shù)字/特殊符號串文字符號化部(模塊105)對數(shù)字/特殊符號串進(jìn)行文字符號化處理。該模塊根據(jù)當(dāng)前數(shù)字/特殊符號串所屬的模板類型，結(jié)合可能的上下文語境，對當(dāng)前數(shù)字/特殊符號串進(jìn)行文字符號化處理。模塊106是后處理部，對在文字符號化過程中添加的新文字進(jìn)行后處理。在自然語言處理中，可能是詞邊界、語塊邊界的引入等。在語音合成中，還包括對新文字進(jìn)行注音以及添加邊界韻律等級等。模塊107為最終的分析結(jié)果。圖3給出了關(guān)聯(lián)處理部(模塊1041)的詳細(xì)描述。模塊202是上下文語境考察部，它根據(jù)當(dāng)前模板類型(由模塊103數(shù)字/特殊符號串模板匹配部獲得)，調(diào)用模塊201中模板語境考察知識(shí)庫儲(chǔ)存的相關(guān)語境考察知識(shí)，對當(dāng)前數(shù)字/特殊符號串的上下文語境進(jìn)行考察。當(dāng)前數(shù)字/特殊符號串的上下文語境由模塊203中儲(chǔ)存的數(shù)字/特殊符號串歷史數(shù)據(jù)庫得到。模塊204是精準(zhǔn)模板生成部，即上述的語義單元確定部。它根據(jù)上下文語境考察部的考察結(jié)果，如發(fā)現(xiàn)有相關(guān)的上下文語境，也就是說發(fā)現(xiàn)了大的語義單元，即進(jìn)行該大的語義單元所對應(yīng)的精準(zhǔn)模板的生成。新得到的精準(zhǔn)模板類型存儲(chǔ)在模塊205中。模塊206是數(shù)字/特殊符號串歷史記錄部，它負(fù)責(zé)記錄數(shù)字/特殊符號串歷史信息。如果在前述精準(zhǔn)模板生成部中發(fā)現(xiàn)了大的語義單元，模塊206還將更新之前的數(shù)字/特殊符號串歷史信息，即以大的數(shù)字/特殊符號串語義單元覆蓋之前的局部數(shù)字/特殊符號串信息。換句話說，記錄對應(yīng)于完整語義單元的數(shù)字/特殊符號串歷史信息。模塊208是其他標(biāo)記部，它根據(jù)模塊207中的其他標(biāo)記知識(shí)庫，負(fù)責(zé)對當(dāng)前大的語義單元進(jìn)行可能的其他標(biāo)記。譬如，在自然語言理解后處理中當(dāng)前大的語義單元被標(biāo)記為一個(gè)語塊，或者在語音合成應(yīng)用相關(guān)的后處理中，還應(yīng)該被標(biāo)記為一個(gè)韻律短語，其中又可能涉及到韻律詞的劃分等等。模塊210是文字符號化規(guī)則生成部，它負(fù)責(zé)調(diào)用模塊209模板文字符號化規(guī)則知識(shí)庫中儲(chǔ)存的相關(guān)精準(zhǔn)模板的文字符號化規(guī)則，生成當(dāng)前數(shù)字/特殊符號串的文字符號化規(guī)則。分析結(jié)果儲(chǔ)存在模塊211文字符號化規(guī)則分析結(jié)果中。圖4詳細(xì)描述了反向繼承部(模塊1042)的處理流程。模塊301負(fù)責(zé)遍歷數(shù)字/特殊符號串歷史記錄。模塊302負(fù)責(zé)檢査數(shù)字/特殊符號串歷史記錄中有無尚未被文字符號化的數(shù)字/特殊字符符號串。如果發(fā)現(xiàn)所有數(shù)字/特殊字符符號串均已經(jīng)被文字符號化，結(jié)束。如果發(fā)現(xiàn)有尚未被文字符號化的數(shù)字/特殊字符符號串，則轉(zhuǎn)模塊304反向繼承檢查部進(jìn)行后續(xù)處理。模塊304是反向繼承檢査部，它根據(jù)當(dāng)前模板類型調(diào)用模塊303中模板反向繼承知識(shí)庫儲(chǔ)存的相關(guān)反向繼承限制條件，對當(dāng)前數(shù)字/特殊符號串可否反向繼承文字符號化規(guī)則進(jìn)行檢查。如果不可繼承，轉(zhuǎn)模塊301。如果可以繼承，則填寫當(dāng)前數(shù)字/特殊符號串的文字符號化繼承結(jié)果(模塊305)，然后轉(zhuǎn)模塊301。本發(fā)明對于復(fù)雜形式的數(shù)字、符號(特殊符號)串，能夠發(fā)現(xiàn)其對應(yīng)的完整語義單元，然后確定該語義單元所對應(yīng)的精準(zhǔn)模板，從而能夠?qū)?fù)雜形式的數(shù)字、特殊符號串進(jìn)行精準(zhǔn)的文字符號化處理。在此基礎(chǔ)上，可以對大的語義單元進(jìn)行應(yīng)用所需的其他標(biāo)記。譬如，在自然語言理解后處理中當(dāng)前大的語義單元被標(biāo)記為一個(gè)語塊，或者在語音合成應(yīng)用相關(guān)的后處理中，還應(yīng)該被標(biāo)記為一個(gè)韻律短語，其中又可能涉及到韻律詞的劃分等等。并且提供了一種反向繼承的機(jī)制。自然語言包括漢語、日語、英語等多種語言，現(xiàn)以漢語為實(shí)例，在語音合成系統(tǒng)中實(shí)現(xiàn)的一個(gè)對漢語文本中數(shù)字和特殊符號進(jìn)行文字符號化的處理方法和裝置，能夠?qū)ξ谋局锌赡艽嬖诘臄?shù)字、特殊符號串進(jìn)行正確的文字符號化處理，尤其適合處理一些復(fù)雜的數(shù)字、特殊符號串例如電話號碼、有特殊符號的數(shù)量區(qū)間等。圖5給出了一個(gè)漢語文本中數(shù)字和特殊符號的文字符號化處理的具體例子。數(shù)字/特殊符號串模板匹配部(模塊103)逐段匹配輸入文本中可能存在的數(shù)字/特殊符號串。在其中，該模塊將順序掃描輸入文本，逐段抽取其中的數(shù)字/特殊符號串，然后將當(dāng)前數(shù)字/特殊符號串與模板庫中己定義的模板進(jìn)行匹配，獲得其所屬模板類型。這樣，在這個(gè)例句文本中，有兩個(gè)數(shù)字/特殊字符串，即"15"和"-44"。而實(shí)際上，"15歲-44歲"是一個(gè)完整的語義單元。在單純的順序掃描、逐段匹配的機(jī)制下，對數(shù)字/特殊符號串考察的范圍往往小于語義單元的實(shí)際區(qū)間。這樣，在類似本例句的情況下就不能做到完全的語義理解，甚至有的時(shí)候是錯(cuò)誤的語義理解，并因此獲得錯(cuò)誤的文字符號化結(jié)果。在圖5中，邊框加黑的框內(nèi)為模塊103數(shù)字/特殊符號串模板匹配部順序掃描、逐段匹配所獲得的數(shù)字/特殊符號串。第一個(gè)數(shù)字/特殊符號串"15"的匹配模板為"一般正整數(shù)"，結(jié)合后續(xù)的量詞"歲"，確定其文字符號化方法為數(shù)值讀法。第二個(gè)數(shù)字/特殊符號串"-44"的匹配模板為"單減號領(lǐng)頭的數(shù)"，這個(gè)匹配模板交給模塊1041關(guān)聯(lián)處理部進(jìn)行上下文語境的考察，結(jié)合后續(xù)的量詞"歲"、前一數(shù)字/特殊符號串的模板類型，確定當(dāng)前數(shù)字/特殊符號串應(yīng)該和前一數(shù)字/特殊符號串組合為一個(gè)大的語義單元即"15歲一歲"，其精準(zhǔn)模板為數(shù)量區(qū)間，并因此確定其文字符號化方法為數(shù)量區(qū)間、數(shù)值讀法。最終，輸入文本"艾滋病己成為15歲一44歲青壯年人群死亡的首位原因。"被文字符號化為"艾滋病已成為十五歲至四十四歲青壯年人群死亡的首位原因。"。另外，在自然語言理解應(yīng)用中，其他標(biāo)記部可以將"十五歲至四十四歲"標(biāo)記為一個(gè)完整的語塊。在語音合成應(yīng)用中，其他標(biāo)記部可以將"十五歲"和"至四十四歲"標(biāo)記為兩個(gè)韻律詞，并且可以考慮把"十五歲至四十四歲"標(biāo)記為一個(gè)韻律短語。圖6給出了一個(gè)文本中數(shù)字和特殊符號的文字符號化處理反向繼承的具體例子。一般來說，數(shù)字/特殊符號串模板匹配部(模塊103)逐段匹配輸入文本中可能存在的數(shù)字/特殊符號串。在其中，該模塊將順序掃描輸入文本，逐段抽取其中的數(shù)字/特殊符號串，然后將當(dāng)前數(shù)字/特殊符號串與模板庫中已定義的模板進(jìn)行匹配，獲得其所屬模板類型。這樣，在這個(gè)例句文本中，有三個(gè)數(shù)字/特殊字符串，即"1985"、"1986"和"1987"。在對"1985"或"1986"進(jìn)行處理的時(shí)候，由于從左向右順序分析，此時(shí)僅僅是局部的理解，因此，無法做出正確的文字符號化處理。只有在全局理解的基礎(chǔ)上，即考察到"1987(年)"部分，經(jīng)過本發(fā)明中的反向繼承部處理后才能實(shí)現(xiàn)對全部三個(gè)數(shù)字/特殊符號串的正確文字符號化處理。在圖6中，邊框加黑的框內(nèi)為模塊103數(shù)字/特殊符號串模板匹配部順序掃描、逐段匹配所獲得的數(shù)字/特殊符號串。第一個(gè)數(shù)字/特殊符號串"1985"的匹配模板為"一般正整數(shù)(四位數(shù))"，由于未考察到任何的上下文關(guān)鍵詞，無法確定其文字符號化方法，因此暫定為缺省。第二個(gè)數(shù)字/特殊符號串"1986"同前。第三個(gè)數(shù)字/特殊符號串"1987"的匹配模板為"一般正整數(shù)(四位數(shù))"，結(jié)合后續(xù)的特殊詞"年"，確定當(dāng)前數(shù)字/特殊符號串的模板為"年日期"，且"1987"的文字符號化方法為電報(bào)讀法。然后，模塊1042反向繼承部檢査有無反向繼承的可能性。這樣，數(shù)字/特殊符號串"1986"后的"、"和之前的"、"決定了"1986"反向繼承其后數(shù)字/特殊符號串的文字符號化方法，即"年日期"模板的文字符號化方法。同理，數(shù)字/特殊符號串"1985"也反向繼承。最終，輸入文本"據(jù)排堿指揮部提供的資料1985、1986、1987年糧棉產(chǎn)量連年遞增。"被文字符號化為"據(jù)排堿指揮部提供的資料一九八五、一九八六、一九八七年糧棉產(chǎn)量連年遞增。"。圖7是模板語境考察知識(shí)庫(模塊201)的具體實(shí)現(xiàn)示例。在圖7中，給出了模板語境考察知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和一個(gè)例子。在模板語境考察知識(shí)庫中至少存儲(chǔ)當(dāng)前數(shù)字/特殊符號串所屬模板類型、前一個(gè)數(shù)字/特殊符號串模板類型、前一個(gè)數(shù)字/特殊符號串結(jié)束位置、前一個(gè)數(shù)字/特殊符號串?dāng)U展結(jié)束位置、前一個(gè)數(shù)字/特殊符號串關(guān)鍵詞類型、當(dāng)前數(shù)字/特殊符號串關(guān)鍵詞類型和精準(zhǔn)模板類型。圖8是數(shù)字/特殊符號串歷史數(shù)據(jù)庫(模塊203)的具體實(shí)現(xiàn)示例。在圖8中，給出了數(shù)字/特殊符號串歷史數(shù)據(jù)庫的基本數(shù)據(jù)結(jié)構(gòu)和一個(gè)例子(圖5例句中的"15(歲)")。在數(shù)字/特殊符號串歷史數(shù)據(jù)庫中至少存儲(chǔ)數(shù)字/特殊符號串所屬模板類型、數(shù)字/特殊符號串開始位置、數(shù)字/特殊符號串結(jié)束位置、數(shù)字/特殊符號串?dāng)U展開始位置、數(shù)字/特殊符號串?dāng)U展結(jié)束位置、數(shù)字/特殊符號串關(guān)鍵詞類型和數(shù)字/特殊符號串關(guān)鍵詞內(nèi)容。圖9是其他標(biāo)記知識(shí)庫(模塊207)的具體實(shí)現(xiàn)示例。在圖9中，給出了其他標(biāo)記知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和兩個(gè)例子。在其他標(biāo)記知識(shí)庫中至少存儲(chǔ)當(dāng)前數(shù)字/特殊符號串所屬模板類型、韻律詞標(biāo)記規(guī)則和韻律短語標(biāo)記規(guī)則。圖10是模板文字符號化規(guī)則知識(shí)庫(模塊209)的具體實(shí)現(xiàn)示例。在圖10中，給出了模板文字符號化規(guī)則知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和兩個(gè)例子。在模板文字符號化規(guī)則知識(shí)庫中至少存儲(chǔ)模板類型、上下文規(guī)則、關(guān)鍵詞規(guī)則和符號化規(guī)則。圖ll是模板反向繼承知識(shí)庫(模塊303)的具體實(shí)現(xiàn)示例。在圖11中，給出了模板反向繼承知識(shí)庫的基本數(shù)據(jù)結(jié)構(gòu)和一個(gè)例子。在模板反向繼承知識(shí)庫中至少存儲(chǔ)當(dāng)前數(shù)字/特殊符號串所屬模板類型、下一個(gè)數(shù)字/特殊符號串模板類型、下一個(gè)數(shù)字/特殊符號串幵始位置、當(dāng)前數(shù)字/特殊符號串和下一個(gè)數(shù)字/特殊符號串之間的分隔符號、當(dāng)前數(shù)字/特殊符號串關(guān)鍵詞類型、當(dāng)前數(shù)字/特殊符號串和下一個(gè)數(shù)字/特殊符號串之間的分隔漢字和反向繼承規(guī)則。以上具體實(shí)施方式僅用于說明本發(fā)明，而非用于限定本發(fā)明。權(quán)利要求1.一種自然語言文本中數(shù)字和符號串的文字符號化處理方法，其特征是，所述的方法包括以下步驟輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。2.根據(jù)權(quán)利要求1所述的方法，其特征是，在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境，則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元，并生成該語義單元所對應(yīng)的模板，記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。3.根據(jù)權(quán)利要求2所述的方法，其特征是，對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。4.根據(jù)權(quán)利要求2所述的方法，其特征是，所述的上下文語境包括模板類型、區(qū)間范圍、文字符號化規(guī)則等。5.根據(jù)權(quán)利要求1所述的方法，其特征是，遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息，如果找到未被文字符號化處理的數(shù)字和符號串，則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則，如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。6.根據(jù)權(quán)利要求1所述的方法，其特征是，對在文字符號化處理中添加的新文字進(jìn)行后處理。7.根據(jù)權(quán)利要求1所述的方法，其特征是，所述的符號是指非自然語言符號。8.—種自然語言文本中數(shù)字和符號串的文字符號化處理系統(tǒng)，其特征是，所述的系統(tǒng)包括輸入部，用于輸入自然語言文本；數(shù)字和符號串抽取部，用于逐段抽取所述自然語言文本中的數(shù)字和符號串；模板匹配部，用于將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；歷史信息記錄部，用于記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；文字符號化規(guī)則生成部，用于根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理，生成當(dāng)前數(shù)字和符號串的文字符號化規(guī)9.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征是，所述的系統(tǒng)還包括上下文語境考察部，用于對當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息進(jìn)行考察；語義單元確定部，如果在當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息中找到相關(guān)的上下文語境，則使當(dāng)前數(shù)字和符號串與相鄰的歷史數(shù)字和符號串組合為一個(gè)語義單元，并生成該語義單元所對應(yīng)的模板；所述的歷史信息記錄部記錄該語義單元所對應(yīng)的數(shù)字和符號串信息。10.根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征是，所述的系統(tǒng)還包括語義單元標(biāo)記部，用于對所述的語義單元進(jìn)行應(yīng)用所需的標(biāo)記。11.根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征是，所述的上下文語境包括-模板類型、區(qū)間范圍、文字符號化規(guī)則等。12.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征是，所述的系統(tǒng)還包括反向繼承部，用于遍歷歷史數(shù)字和符號串的模板類型及相關(guān)信息，如果找到未被文字符號化處理的數(shù)字和符號串，則判斷是否對該數(shù)字和符號串進(jìn)行反向繼承文字符號化規(guī)則，如果是則根據(jù)反向繼承文字符號化規(guī)則對該數(shù)字和符號串進(jìn)行處理。13.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征是，所述的系統(tǒng)還包括后處理部，用于對文字符號化處理中添加的新文字進(jìn)行后處理。14.一種自然語言文本中數(shù)字和符號串的文字符號化處理程序，其特征是，所述的程序包括輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。15.—種存儲(chǔ)自然語言文本中數(shù)字和符號串的文字符號化處理程序的可讀存儲(chǔ)介質(zhì)，其特征是，所述的可讀存儲(chǔ)介質(zhì)存儲(chǔ)有以下程序輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。全文摘要本發(fā)明為一種自然語言文本中數(shù)字和符號串的文字符號化處理方法及系統(tǒng)，所述的方法包括以下步驟輸入自然語言文本；逐段抽取所述自然語言文本中的數(shù)字和符號串；將當(dāng)前數(shù)字和符號串與預(yù)存儲(chǔ)的模板進(jìn)行匹配，獲得當(dāng)前數(shù)字和符號串所屬的模板類型；記錄歷史數(shù)字和符號串的模板類型及相關(guān)信息；根據(jù)當(dāng)前數(shù)字和符號串所屬的模板類型以及當(dāng)前數(shù)字和符號串相鄰的歷史數(shù)字和符號串的模板類型及相關(guān)信息對當(dāng)前數(shù)字和符號串進(jìn)行文字符號化處理。提高了對文本中數(shù)字和特殊符號的識(shí)別精度和效率。文檔編號G06F17/28GK101196881SQ20061016563公開日2008年6月11日申請日期2006年12月8日優(yōu)先權(quán)日2006年12月8日發(fā)明者片江伸之,慶郭申請人:富士通株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭慶;片江伸之
技術(shù)所有人：富士通株式會(huì)社
我是此專利的發(fā)明人

上一篇：界面卡的固定機(jī)構(gòu)的制作方法
上一篇：控制裝置以及有效使用存儲(chǔ)裝置的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本中數(shù)字和特殊符號串的文字符號化處理方法及系統(tǒng)的制作方法