字符識別翻譯系統(tǒng)和語音識別系統(tǒng)的制作方法

文檔序號：2819965閱讀：353來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

專利名稱：字符識別翻譯系統(tǒng)和語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及適用于便攜式翻譯機等的字符識別翻譯系統(tǒng)，更具體地說，涉及一種用來將寫在導(dǎo)游牌，樓名牌，布告牌，導(dǎo)游冊，飯館菜單等上的字符取作為攝像數(shù)據(jù)的字符識譯系統(tǒng)。例如一個在海外的旅游者常常需要有這樣一種工具用來識別那些字符。字符識譯系統(tǒng)并不限于任何具體的字符形狀和規(guī)格，也不限于任何具體的語言，并適合于用來識譯各種語言寫成的字符，這些字符被攝取或作為數(shù)字圖象數(shù)據(jù)。此外，本發(fā)明涉及一種語音識譯系統(tǒng)，該系統(tǒng)適合于便攜式翻譯機器，而更具體地說，該系統(tǒng)適用于用來獲取或記錄在機場大廳，火車站，飛機上，車輛上，觀光處，等等，以及周圍的談話和講演聲音和通告等等的各種類型的語音或其他口頭信息，以便識別和翻譯如此獲取或記錄的語音。
近來，便攜式液晶數(shù)字攝像機已經(jīng)研制出用來讓使用者觀測在攝取處的剛攝的靜止信息，在記錄介質(zhì)上記錄靜止圖象信息，在大屏幕監(jiān)視器上顯示圖象信息，和用打印機打印圖象等等。
日本公開專利公報No Hei-3-87976公開一種用于電子靜止攝像機的字符識別和翻譯機，該機器與諸如上所述的液晶數(shù)字攝像機等的電子靜止攝像機相連，以識別記錄的圖象的字符信息并進而將識別的結(jié)果予以翻譯。該機器設(shè)計得可接收包含在來自電子靜止攝像機的目標圖象中的字符信息，并將包含在字符信息中的字符予以翻譯。更具體地說，根據(jù)字符識譯機器，來自電子靜止攝像機的視頻信號被轉(zhuǎn)換成適合于字符識譯處理的信號，并進行一系列的一般的信息處理步驟，諸如根據(jù)邊緣提取法的字符區(qū)域提取處理，背景刪除處理，字符排列傾斜校正處理，基于模式匹配法的字符識別處理，和機器翻譯處理等。
然而，根據(jù)上述的傳統(tǒng)的字符識譯裝置，要識別并翻譯那些寫在導(dǎo)游牌上，樓名牌上，飯館菜單上，觀光告示等上的海外旅游者常遇到的字符是殊為困難的事。這是因為，常常會發(fā)生這樣的情形向一個在海外以各種書法寫成的書寫字符施以僅僅靠只采用一個字符基準模式的模式匹配法并不能精確地識別該字符。
另一方面，隨著海外旅客的近來的迅速增加，已經(jīng)推出具有語音識別的固定形式的轉(zhuǎn)換模式的便攜式翻譯機來克服在不同民族之間的交流的困難(所謂語言壁壘)問題。這些便攜式翻譯機利用一個可將用于各種類型談話中的語句預(yù)先記錄為語音數(shù)據(jù)并根據(jù)固定的情景來選擇所需的語句的復(fù)現(xiàn)系統(tǒng)。根據(jù)該復(fù)現(xiàn)系統(tǒng)，一個使用者所與之交談的客人(以下稱之為談客)可用其母語單方面地聽使用者所想作的提問或請求。然而，這種機器不能翻譯談客的談話。因此，如在日本公開專利申請No.Hei-5-35776中所公開的的裝置，可以識別通過一個麥克風輸入的話語，并將此話語翻譯成為一種預(yù)定的語言，然后再將其輸出。
根據(jù)該裝置，通過麥克風輸入的語音數(shù)據(jù)被轉(zhuǎn)換成為一種數(shù)字信號，并加以分析，然后將分析結(jié)果與存儲在一個語音識別字典中的標準語音模式相比較以進行語音識別。此外，根據(jù)該裝置，被翻譯的相應(yīng)于所識別的語音的字語由存儲器卡寫入作為所翻譯的字的數(shù)據(jù)，并轉(zhuǎn)換成為一個信號，然后輸出到揚聲器中。用作字數(shù)據(jù)的的存儲器卡包括一個ROM卡或類似的東西，在其中存儲有語音數(shù)據(jù)。通過與另一種語言存儲器卡可以達到多語言的語音翻譯。語音識別字典包括一個RAM或類似的東西，并有相應(yīng)于用戶特定發(fā)音預(yù)錄音的標準語音模式。
在上述公開的便攜式語音發(fā)音機器中，可以識別使用者的語音。然而，其功能限于使用具有如上描述的固定談話模式功能。也就是說，它讓談客單方面地以其母語聽取使用者的提問或請求。然而，它不能識別和翻譯一個非確定者的自然的談話。當該使用者是與一個使用者不會說的言語的人談話時，翻譯談客的說話比自己說話更為重要。
此外，在海外旅游期間，旅游者的問題在于，他既不能理解在機場大廳，火車站，機場，車輛，觀光處的語音公告，也不能理解正常環(huán)境的談話，語音和公告等。特別是在候機室，火車站，機場，車輛，觀光點等處，其背景噪聲比較突出的地方，語音識別的效率大大降低。
因此，本發(fā)明的目的是為了提供一種字符識譯系統(tǒng)，它不受字符的形狀和規(guī)格的限制，也不受不同語言的限制，和能識別和翻譯以各種語言書寫的并作為攝像數(shù)據(jù)檢測的字符。此外，本發(fā)明的另一目的是為了提供一種用來當在機場大廳，火車站，機場，車輛，觀光處等背景噪聲大的場合時能可靠地識譯各種類型的連續(xù)語音或通知的語音識譯系統(tǒng)。
為了達到上述目的，根據(jù)本發(fā)明的第一方面，一種用來用攝像機來檢測寫在導(dǎo)游牌，樓名牌，飯館菜單，導(dǎo)游布告等上的字符，和識別這些字符并翻譯詞或包括被識別的字符的語句的字符識譯系統(tǒng)，包括一個用來積累代表包含在一個被檢測的圖象中的字符數(shù)據(jù)的字符數(shù)據(jù)庫；一個用來根據(jù)在字符數(shù)據(jù)庫中的字符數(shù)據(jù)分析一個字符的形狀以提取構(gòu)成該字符的字符構(gòu)元的特征的字符形狀分析單元；一個用來根據(jù)字符分析單元的分析結(jié)果產(chǎn)生字符構(gòu)元的樣本掩碼數(shù)據(jù)的掩碼學習單元；一個用來將要被識別的包含在新攝圖象中的字符的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)進行對照以便識別該字符的字符對照單元；和一個用來翻譯一個詞或包括由字符對照單元識別的字符的語句的翻譯單元。
在如上所述的字符識譯系統(tǒng)中，字符形狀分析單元最好設(shè)計得由在字符數(shù)據(jù)庫中的字符數(shù)據(jù)劃分m×n點(象素)的二進制數(shù)據(jù)，給每個象素檢測“1”或“0”；以增量n劃分象素區(qū)域m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)，這些區(qū)域包含該字符的特征；和分析代表字符標識的加權(quán)系數(shù)和或/分析一個代表每個象素區(qū)域的字符的起始，連接和結(jié)束的屬性。
在如上所述的字符識別翻譯機中，掩碼學習單元最好在每個包含字符特征的m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)象素區(qū)域中加以一個代表字符標識的加權(quán)系數(shù)和或分析一個代表每個象素區(qū)域的字符的起始，連接和結(jié)束的屬性，以便產(chǎn)生樣本掩碼數(shù)據(jù)。
在如上所述的字符識譯機中，最好字符對照單元從字符數(shù)據(jù)中劃分出m×n點的二進制數(shù)據(jù)；當增量n時給每個象素刪去“1”或“2”；將該數(shù)據(jù)分成為m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)的象素區(qū)域，該區(qū)域包含字符的特征；以及將該象素區(qū)域與樣本掩碼數(shù)據(jù)相對照。
在如上所述的字符識譯機中，最好包括一個用來存儲由掩碼學習單元獲得的樣本掩碼數(shù)據(jù)的樣本掩碼存儲器，該樣本掩碼存儲器存儲具有對每個不同的字符是不同的n1，n2，...，nj元的樣本掩碼數(shù)據(jù)。
在如上所述的字符識譯機中，最好還包括一個圖象檢測單元，該檢測單元用來檢測一個包含字符的圖象，和包括一個陣列指定單元，用來根據(jù)由被檢測的圖象獲得的圖象數(shù)據(jù)來指定待識別的詞或語句的字符陣列。
在如上所述的字符識譯機中，最好字符陣列指定單元指定至少一個在任何位置上的m×n點區(qū)域。
此外，最好當獲得的字符陣列包含橫寫字符的字符陣列時，在增量n時字符對照單元在字符的寬度方向獲得一個象素區(qū)域，此n與在字符的寬度方向上的n點相關(guān)，以便將象素區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)相比較。此外，如果或當所獲得的字符陣列包含縱向?qū)懙淖址麜r，當增量n時字符對照單元獲得一個在字符的高度方向上的象素區(qū)域，此n與在字符的高度方向上的n點相關(guān)，以便將象素區(qū)域與樣本掩碼數(shù)據(jù)相比較。
此外，根據(jù)本發(fā)明，字符識譯系統(tǒng)最好包括一個具有內(nèi)部存儲裝置的靜止安裝式信息設(shè)備，和一個與靜止安裝式信息設(shè)備可拆連接的便攜式信息設(shè)備，在靜止安裝式信息設(shè)備的外部存儲裝置中至少配置有字符數(shù)據(jù)庫而同時在便攜式信息設(shè)備中配置有其他構(gòu)件。具體地說，在便攜式信息設(shè)備中配置了其他構(gòu)件的同時，在靜止式信息設(shè)備中配置有字符數(shù)據(jù)庫，字符形狀分析單元和掩碼學習單元。
根據(jù)如此構(gòu)成的字符識譯系統(tǒng)，那些寫在導(dǎo)游牌上，樓名牌上，飯館菜單上，觀光告示等上面的海外旅游者常遇字符能夠作為圖象數(shù)據(jù)予以檢測以便識譯其中所包含的字符，而作為圖象數(shù)據(jù)被檢測的各種語言的字符可不受字符的形狀或大小和不同語言的限制被適當?shù)刈R別和翻譯。
根據(jù)本發(fā)明的第二方面的用來識別語音并將該語音翻譯成詞或語句的語音翻譯識別系統(tǒng)包括一個語音存儲器，用來存儲代表所檢測的語音的語音數(shù)據(jù)；一個噪聲檢測單元，用來移去或刪除相應(yīng)于噪聲的的數(shù)據(jù)；一個聲音數(shù)據(jù)庫，用來存儲已經(jīng)由噪聲檢測單元除去了噪聲的數(shù)據(jù)；一個第一語音分析單元，用來提取相應(yīng)于在聲音數(shù)據(jù)庫中積累的聲音數(shù)據(jù)的聲音特征；一個模式學習單元，用來根據(jù)第一語音分析單元的分析結(jié)果產(chǎn)生一個聲響模式；一個聲學存儲單元，用來存儲聲學模式；一個第二語音分析單元，用來根據(jù)已通過從相應(yīng)于最近檢測到的語音的語音數(shù)據(jù)中除去了表示噪聲的數(shù)據(jù)來提取最新檢測到的語音的聲音特征；一個語音對照單元，用來將由第二語音分析單元獲得的語音數(shù)據(jù)與存儲在聲學模式存儲單元中的聲學模式的數(shù)據(jù)相比較，以便識別該語音；以及一翻譯單元，用來翻譯構(gòu)成由語音對照單元識別的語音的詞或語句。
在如上所述的語音識別和翻譯系統(tǒng)中，最好設(shè)計得使存儲器存儲相應(yīng)于第一語音的第一語音數(shù)據(jù)和相應(yīng)于包含環(huán)境噪聲的第二語音的第二語音數(shù)據(jù)，在第一語音中，環(huán)境噪聲疊加在要被識別和翻譯的語音上。
此外，在如上所述的語音識別和翻譯系統(tǒng)中，最好噪聲檢測第一對第一語音數(shù)據(jù)的第一語音頻譜數(shù)據(jù)與第二語音數(shù)據(jù)的第二語音頻譜數(shù)據(jù)作一比較以獲得相應(yīng)于噪聲被除去的數(shù)據(jù)的頻譜數(shù)據(jù)。
在如上所述的語音識別和翻譯系統(tǒng)中，最好將聲音數(shù)據(jù)庫設(shè)計得存儲第一頻譜數(shù)據(jù)和第二頻譜數(shù)據(jù)并將這些數(shù)據(jù)互相相聯(lián)系。
在如上所述的語音識別和翻譯系統(tǒng)中，最好在待識譯的語音輸入前，聲學對照單元將在語音處獲得的環(huán)境噪聲的噪聲頻譜數(shù)據(jù)與根據(jù)第二頻譜數(shù)據(jù)獲得噪聲聲學模式的數(shù)據(jù)進行對照以便識別噪聲的類型，并再將要識譯的語音的語音數(shù)據(jù)與根據(jù)噪聲的類型確定的第一語音數(shù)據(jù)的聲學模式進行對照以識別該語音。
在如上所述的語音識別和翻譯系統(tǒng)中，最好將翻譯單元獲得的翻譯結(jié)果由一個顯示單元至少作為字符輸出，并且最好在顯示單元的顯示屏上顯示包含翻譯前的詞或語句的原來語言文本和包括翻譯后的詞或語句的譯文文本。具體地說，翻譯結(jié)果最好包含相應(yīng)于代表翻譯準確度的翻譯率的信息或至少包含相應(yīng)于該語言類型的信息。
在在如上所述的語音識別和翻譯系統(tǒng)中，最好語音識別和翻譯系統(tǒng)包括一個具有一個外部存儲裝置的靜止安裝式信息設(shè)備，和一個可拆式連接到該靜止安裝式信息設(shè)備的便攜式信息設(shè)備，并且給便攜式信息設(shè)備配置其他部件的同時，至少給靜止安裝式信息設(shè)備配置聲音數(shù)據(jù)庫。更具體地說，更好的是在給便攜式信息設(shè)備配置其他部件的同時給靜止安裝式信息設(shè)備配置聲音數(shù)據(jù)庫，第一分析單元和模式學習單元。
根據(jù)在如上所述的語音識別和翻譯系統(tǒng)，游客在海外的候機室，火車站，機場，車輛，觀光處等地聽到的各種類型的聲音的通告，以及周圍的談話，語音或通告，即使在嘈雜的環(huán)境下，仍可被適當?shù)刈R別。此外，構(gòu)成被識別的語音的詞或語句由字典或語法字典識別。其次，用作為鍵詞詞句根據(jù)所識別的詞句予以識別和翻譯。
這樣，即使在諸如候機室火車站，機場，車輛，觀光處等的嘈雜的環(huán)境中，任何為指定的語音仍可以被清楚地識別。

圖1是一個顯示本發(fā)明的第一實施例的字符識別和翻譯系統(tǒng)的構(gòu)成的方框圖2是本發(fā)明的第一實施例的產(chǎn)生樣本掩碼數(shù)據(jù)的示意圖；圖3是一個在第一實施例中樣本掩碼數(shù)據(jù)產(chǎn)生法的流程圖；圖4是一個本發(fā)明的第一實施例的樣本掩碼數(shù)據(jù)對照法的示意圖；圖5是本發(fā)明的第一實施例的樣本掩碼數(shù)據(jù)對照法的流程圖；圖6A和6B示出了應(yīng)用了本發(fā)明的第一實施例的字符識別和翻譯系統(tǒng)的便攜式翻譯機；圖7A和7B示出了本發(fā)明的第一實施例的字符指定區(qū)域的一個例子；圖8是一個本發(fā)明的第二實施例的語音識別和翻譯系的方框圖；圖9是一個在本發(fā)明的第二實施例中的產(chǎn)生聲學模式的流程圖；圖10是一個本發(fā)明的第二實施例中的通告語音的流程圖；圖11是一個顯示根據(jù)在第二實施例中的噪聲環(huán)境的通告語音識別的示意圖；圖12A和12B是應(yīng)用了本發(fā)明的第二實施例的語音識別和翻譯系的示意圖；以及圖13是一個顯示在圖12B的便攜式翻譯機中的顯示器的屏幕上的顯示情形。
下面參閱附圖來描述本發(fā)明的最佳實施例。
在圖1中，參考數(shù)字101表示用來執(zhí)行字符識別的識別系統(tǒng)，參考數(shù)字102代表用來產(chǎn)生字符識別所需的樣本掩碼數(shù)據(jù)的一個學習系統(tǒng)，和參考數(shù)字103代表一個翻譯系統(tǒng)，該系統(tǒng)用來從識別系統(tǒng)接收識別結(jié)果以根據(jù)鍵詞分析語句并加以翻譯。參考數(shù)字104代表一個具有CCD的攝像機或類似的器件，用來將寫在導(dǎo)游牌上，樓名牌上，飯館菜單上，觀光告示等上面的海外旅游者常遇字符作為圖象數(shù)字符予以攝入。這里，為了保證字符識別所需的每個字符的可允許的最小分辨率，采用一個高分辨率的攝像機或多個攝像機來執(zhí)行圖象分析。于是，顯示在液晶顯示裝置之類上如后面要描述的在一個字符指定區(qū)域中的字符的分辨率顯然不同于為進行識別處理而攝入的字符圖象數(shù)據(jù)的分辨率，后者的分辨率高于前者。參考數(shù)字129代表一個包括一個發(fā)光二極管(LED)的顯示器，而參考數(shù)字130則表示一個揚聲器。翻譯系統(tǒng)103的處理結(jié)果作為包含語句的圖象和語音分別輸出到顯示器129和揚聲器130。
在識別系統(tǒng)101中，參考數(shù)字105代表一個A\D轉(zhuǎn)換器，參考數(shù)字106代表一個字符數(shù)字化(二進制)處理單元，參考數(shù)字107代表一個噪聲去除單元，參考數(shù)字108代表一個字符劃分單元，參考數(shù)字109代表一個對照單元，參考數(shù)字110代表一個判斷單元，參考數(shù)字111代表一個樣本掩碼存儲單元，參考數(shù)字112代表一字典，參考數(shù)字113代表一個語法字典，以及參考數(shù)字114代表一個連接單元。
此外，在學習系統(tǒng)中，參考數(shù)字115代表一個大規(guī)模字符數(shù)據(jù)庫，參考數(shù)字116代表一個字符形狀分析單元，和參考數(shù)字117代表一個掩碼學習單元。
在翻譯學習103中，參考數(shù)字119代表一個鍵詞分析單元，參考數(shù)字120代表一個字義字典(詞典)，參考數(shù)字122代表一個中級語言處理器，參考數(shù)字123代表一個句子形成單元，參考數(shù)字124代表一個字典，參考數(shù)字125代表一個例句結(jié)構(gòu)字典(句法字典)，參考數(shù)字127代表一個發(fā)聲字典，和參考數(shù)字128代表一個D/A轉(zhuǎn)換器。
在上述結(jié)構(gòu)的學習系統(tǒng)中，由攝像機(CCD攝像機)104攝取并然后被從模擬信號轉(zhuǎn)換為數(shù)字信號的包含字符陣列的靜止圖象數(shù)據(jù)被積累和存儲在大規(guī)模字符數(shù)據(jù)庫115中。在存儲在大規(guī)模字符數(shù)據(jù)庫115中存儲的靜止圖象數(shù)據(jù)的基礎(chǔ)上，字符形狀分析單元116執(zhí)行數(shù)字化包含字符的圖象數(shù)據(jù)的二進制數(shù)字處理，執(zhí)行從背景中提取字符區(qū)域的提取處理，包括去噪聲處理，和執(zhí)行分析字符形狀的提取處理，以便提取構(gòu)成該字符的字符構(gòu)元的特征。
接下來，掩碼學習單元117從字符形狀分析單元116中接收字符的特征提取結(jié)果，并在特征提取結(jié)果的基礎(chǔ)上產(chǎn)生樣本掩碼數(shù)據(jù)。由掩碼學習單元117產(chǎn)生的樣本掩碼數(shù)據(jù)被存儲在識別系統(tǒng)101中的樣本掩碼存儲單元11中。
圖象字符數(shù)據(jù)的寫入到大規(guī)模字符數(shù)據(jù)庫中的操作可隨時進行。雖然如此，如果有額外的或足夠的時間的話，最好在寫入操作前學習系統(tǒng)102的處理已經(jīng)結(jié)束為佳。此外，需要預(yù)先獲得相應(yīng)于用于每個告知字符組(每個字符碼)的多個不同書寫風格的字符的圖象字符數(shù)據(jù)。
如樣本掩碼存儲單元111一樣，識別系統(tǒng)101配置有用來識別詞或語句的字典112和語法字典113。例如，在由攝像機攝入的字符以法語和書寫和這些字符要被翻譯成日語的情形時，樣本掩碼存儲單元111，字典112和語法字典113被設(shè)計得對應(yīng)于法語。此外，最好大規(guī)模存儲介質(zhì)，諸如一個可互換的集成電路板，CD-ROM等用作為樣本掩碼存儲單元111和語法字典113，這樣本發(fā)明的系統(tǒng)系統(tǒng)可用于多語言方式。
在字符(文件)識別翻譯系統(tǒng)應(yīng)用于諸如便攜式翻譯機那樣對硬件尺寸有限制的設(shè)備的情形時，學習系統(tǒng)102可被安裝在個人計算機中，同時如下所述將其他部件裝入便攜式翻譯機中。學習系統(tǒng)102的處理以后要描述。
在識別系統(tǒng)101中，由CCD攝像機104攝取的并由A/D轉(zhuǎn)換器105轉(zhuǎn)換成數(shù)字信號的圖象數(shù)據(jù)由字符二進制處理器106進行處理。此時，二進制數(shù)據(jù)用分辨率變換法予以標稱化，并被轉(zhuǎn)換成包含字符陣列的m×n象素的圖象數(shù)據(jù)。隨之，對圖象數(shù)據(jù)進行去噪聲處理，以便消除背景噪聲和其他噪聲，僅僅留下字符數(shù)據(jù)。因此，字符劃分單元108從m×n象素(點)的字符陣列中劃分出一個字符區(qū)域，同時n分(即每個象素(點)n分)。由對照單元109將這些劃分出的字符區(qū)域作為構(gòu)成一個字符的字符構(gòu)元與在樣本掩碼存儲單元中存儲的樣本掩碼數(shù)據(jù)相比較。
接著，用各自對照過的字符構(gòu)成元來構(gòu)成一個字符，隨后將所構(gòu)成的字符予以識別。進而，通通過參閱字典112和語法字典113將如此構(gòu)成的字符在關(guān)聯(lián)單元114中一一相關(guān)聯(lián)。然后，用判斷單元110將被關(guān)聯(lián)單元114關(guān)聯(lián)過的排序字符作一對照以識別出一個詞或語句。在圖1中，參考數(shù)字118代表從識別系統(tǒng)101輸出的被編碼的數(shù)據(jù)，該數(shù)據(jù)代表了一個詞或一個語句。下面會描述對照單元109的詳細的處理。
在翻譯系統(tǒng)103中，從識別系統(tǒng)101輸出的代表一個詞或語句的編碼數(shù)據(jù)118由鍵詞分析單元119進行分析以判斷該詞或句是否為一個用來翻譯的有效鍵詞，并在該鍵詞的基礎(chǔ)上識別該詞或句的意思。然后，在中間語言處理器122中產(chǎn)生只代表該語句的意思并與任何國家的特定口語無關(guān)的中間語言。
鍵詞分析單元119與一個詞義字典(詞典)120和語句結(jié)構(gòu)意義字典(句義詞典)121相連。例如，當由CCD攝像機104攝入的字符是法文書寫的并要求翻譯成日本語，則詞典120和句義詞典121被設(shè)計得相應(yīng)于法文。為了以多語方式使用本系統(tǒng)，最好將一個諸如可互換的IC卡或CD-ROM這樣的大規(guī)模存儲介質(zhì)用作為詞典120和語法詞典121。
在中間語言處理器122中生成的中間語言被翻譯成以要求的語言寫成的語句。語句構(gòu)成單元123被連接到相應(yīng)于例如日語的詞典124和句法詞典125。將所翻譯的語句顯示在顯示器129的屏幕上。在聲合成處理器126中將被譯語句再轉(zhuǎn)換成數(shù)字語音，被譯語句通過D/A轉(zhuǎn)換器將數(shù)字信號轉(zhuǎn)換成模擬信號，然后，從揚聲器中輸出聲音。
聲合成處理器126被連接到相應(yīng)于例如日語的詞典125和發(fā)音字典127。為了以多語使用本系統(tǒng)，最好將諸如可互換IC卡，CD-ROM等類似的大容量存儲介質(zhì)用作為詞典124句法詞典125和發(fā)音字典127。
在圖1中的用方框圖顯示的每個處理步驟，可用一個在一個半導(dǎo)體器件102上形成的包括多個LSI(大規(guī)模集成)電路和一個存儲器，或一個或多個單片系統(tǒng)的系統(tǒng)組成。
下面將描述學習系統(tǒng)102的詳細的處理。
圖2示出了在學習系統(tǒng)102中的產(chǎn)生樣本掩碼數(shù)據(jù)的方法，和圖3是顯示樣本掩碼數(shù)據(jù)產(chǎn)生處理的流程圖。
字符形狀分析單元116執(zhí)行包含字符的圖象數(shù)據(jù)的二進制處理，所述字符是以包含已經(jīng)轉(zhuǎn)換為數(shù)字信號的字符陣列的靜止圖象數(shù)據(jù)的大規(guī)模字符數(shù)據(jù)庫中送來的。該二進制圖象數(shù)據(jù)被分辨率轉(zhuǎn)換方法標稱化，并轉(zhuǎn)換成m×n個象素(若干點)的字符陣列(橫寫)的圖象數(shù)據(jù)201(圖2)(ST301)。另外，執(zhí)行一個從背景中提取字符區(qū)域的包括去噪聲處理的提取處理來分析每個字符的形狀，例如，為了提取構(gòu)成示于圖2中的m×n象素的字符“M”的字符構(gòu)元的特征。為了執(zhí)行此處理，給m×n個象素檢測“1”(黑)或“0”(白)，而在橫向上n(n＝1，2，3)等分象素，將m×n個象素被分成為字符構(gòu)元m×n1(n1≤n)，m×n2(n2≤n)，m×n3(n3≤n)，m×n4(n4≤n)的圖象區(qū)域，每個字符構(gòu)元包含如字符的輪廓之類的特征。同時，對一個代表字符識別的加權(quán)系數(shù)(即所關(guān)心的字符是什么)和代表字符起始，連接和結(jié)束的屬性加以分析(ST302步)。接著，掩碼學習117加權(quán)被劃分的字符的那些部分的特征。如果字符的類型只根據(jù)一部分字符來估測的話，則該部分的加權(quán)系數(shù)設(shè)定為大值(ST303步)。
下面將描述在識別系統(tǒng)101中的對照單元109中的詳細的處理。
圖4示出了一個將在海外旅游處作為一個圖象攝入的字符數(shù)據(jù)與在便攜式翻譯機中的樣本掩碼數(shù)據(jù)進行對照以識別一個字符“M”的實際情形。圖5是一個顯示一個圖4所示的字符對照過程的流程圖。
首先，一個字符指定區(qū)域的m×n個象素被指定給一個要被識譯的字符，這些象素是作為攝像機的圖象數(shù)據(jù)攝入的。圖4的參考數(shù)字401代表了一個相應(yīng)于被作為攝像機攝取的圖象數(shù)據(jù)的m×n個象素。此時，在字符二進制處理器106中，如果攝取的字符數(shù)據(jù)的分辨率不同于樣本掩碼數(shù)據(jù)的分辨率，則在所攝取的字符數(shù)據(jù)上執(zhí)行分辨率變換以標稱化字符數(shù)據(jù)，使得在字符是橫向書寫格式時在字符高度方向上的m點的分辨率在攝入的字符數(shù)據(jù)與樣本掩碼數(shù)據(jù)之間作得相等(ST502步)。相對于在寬度方向上的n個點的分辨率，最好準備多個具有不同的n值的樣本掩碼。
接著，通過橫向增量n(n＝1，2，3，…)劃分的每個象素由字符數(shù)據(jù)401依次產(chǎn)生字符區(qū)域，并將由此產(chǎn)生的這些區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)進行對照從而產(chǎn)生得到一個相關(guān)，包括在字符數(shù)據(jù)和樣本掩碼數(shù)據(jù)之間的加樣本掩碼數(shù)據(jù)的加權(quán)系數(shù)。
如果相關(guān)最大，則產(chǎn)生下一個象素區(qū)域以用如上所述的(ST503步)的方式進行相關(guān)。例如，在m×n1(n1≤n)，m×n2(n2≤n)，m×n3(n3≤n)，m×n4(n4≤n)的象素區(qū)域(圖4中的402至405)與樣本掩碼數(shù)據(jù)(圖4中407至410)的相關(guān)假定為最佳。這里，圖4中參考數(shù)字411代表了構(gòu)成另外字符的元素的字符的樣本掩碼數(shù)據(jù)。參考數(shù)字412，413，414，和415分別代表了包含加權(quán)系數(shù)0.7，0.3，0.8和0.4的圖象數(shù)據(jù)。
如上所述，樣本掩碼數(shù)據(jù)與字符的起始，關(guān)聯(lián)和結(jié)束的屬性相加，因此可以縮短從存儲器搜索樣本掩碼數(shù)據(jù)的時間。最后，根據(jù)提供最大相關(guān)值樣本掩碼數(shù)據(jù)從多個字符碼420中選擇字符碼“M”421(ST504步)。在圖4中，參考數(shù)字418和419代表表示其他每個提供最大相關(guān)值之和的樣本掩碼數(shù)據(jù)的信號。
圖6A示出了采用本發(fā)明的圖象字符翻譯系統(tǒng)的便攜式翻譯機，而圖6B示出了該機器的外觀。
在圖6A中，該翻譯系統(tǒng)識譯了一個在銅像下面的一個外語的銘文。一個使用者在其通過便攜式翻譯機的取景窗觀測時指定在一個矩形框內(nèi)的他想要知道的詞句。該知道字符陣列立即被進行字符識別。例如，當用戶說日語的，將該字符陣列翻譯成日語。
在圖6B中，參考數(shù)字601表示便攜式翻譯機的主體，參考數(shù)字602代表用來攝取字符圖象的CCD攝像機。參考數(shù)字603和604代表集成電路卡。在集成電路卡603中存儲了用來構(gòu)成樣本掩碼存儲單元111的數(shù)據(jù)，字典112，語法字典113，詞典120，和句法字典121執(zhí)行字符識別和翻譯。此外，在集成電路卡中，存儲了用來構(gòu)建字典124的數(shù)據(jù)，而句法字典125和發(fā)音字典127執(zhí)行字符識別和翻譯。
參考數(shù)字605代表一個用來顯示指定一個要求識譯的詞或句的字符指定區(qū)域和顯示字符識譯結(jié)果的液晶顯示器。參考數(shù)字606代表一個用來輸出字符識譯結(jié)果的揚聲器。
圖7A和7B是顯示表示用來說明需要進行字符識別和翻譯的詞或句的字符陣列的區(qū)域的字符的示意圖。
圖7A示出了一個當字符陣列橫向書寫時的字符指定方法。在圖7A中，參考數(shù)字703代表一個用來顯示觀測區(qū)的觀測區(qū)域或顯示區(qū)域。參考數(shù)字701和702代表一個用來指示要予以識譯的詞或句的字符陣列的字符指示區(qū)。字符指定區(qū)701和702有m×n個象素(點)的尺寸；也就是說，在字符的高度方向有m個象素(點)，在字符的橫向有n個象素(點)。每個字符指示區(qū)的尺寸可獨立可變。此外，字符指示區(qū)701，702可獨立地位于任何任意的位置上。于是，該字符指示區(qū)可位于任何所需的位置上，以便可覆蓋在導(dǎo)游牌，樓名牌，飯館菜單和觀光告示等上的任何位置處書寫的各種字符。參考數(shù)字704代表一個用來顯示要求識譯的詞或句的翻譯顯示區(qū)域。
同樣，圖7B示出了一個當以橫向書寫的字符陣列時的字符指示方法。在圖7B中，參考數(shù)字707代表用來顯示觀測區(qū)的一個觀測區(qū)或顯示器。參考數(shù)字705和706代表了一個用來指示要識譯的詞或句的字符陣列的字符指示區(qū)。與圖7A的字符指示區(qū)一樣，字符指示區(qū)705和706有一個m×n象素的尺寸，在字符的橫向m個象素，在垂直方向有n個象素。每個字符指示區(qū)可獨立地改變。此外，字符指示區(qū)705和706可位于任何任意的位置上。于是，字符指示區(qū)可位于任何需要的位置，從而可覆蓋在導(dǎo)游牌，樓名牌，飯館菜單和觀光告示等上的任何位置處書寫的各種字符。在圖7B中，參考數(shù)字708代表了用來顯示要識譯的詞或句的字符陣列的翻譯結(jié)果的翻譯顯示區(qū)。
根據(jù)本發(fā)明的的實施例，提供了用來精確地識別和翻譯作為攝像機的圖象數(shù)據(jù)攝入的各類語言的字符的字符識別和翻譯系統(tǒng)，而對字符的形狀和尺寸或?qū)畏N語言均無限制。于是，書寫在導(dǎo)游牌，樓名牌，飯館菜單和觀光告示等上可以作為攝像機的圖象數(shù)據(jù)攝取并被可靠地識譯。因此，用戶可方便地理解字符(語句)的含義。
下面將描述本發(fā)明的第二實施例。
圖8是一個顯示本發(fā)明的第二實施例的語音識別和翻譯系統(tǒng)的方框圖。
在圖8中，參考數(shù)字801代表一個用來執(zhí)行語音識別的識別系統(tǒng)，參考數(shù)字823代表了一個用來生成語音識別所需的聲學模式的學習系統(tǒng)，而參考數(shù)字828代表了一個用來從識別系統(tǒng)接收識別結(jié)果和用來根據(jù)鍵詞來分析語音以便翻譯該語音的翻譯系統(tǒng)。
參考數(shù)字802代表一個方向性麥克風和參考數(shù)字803代表一個多方向性麥克風。這些麥克風被用來檢測在機場，在火車站，飛機上，在諸如公共汽車，出租車等車輛通告的語音，以及周圍的談話，講演等等。
在第二實施例中，配置了方向性麥克風和多方向麥克風803，方向性麥克風802用于可靠地收集一個特定需要的語音(目標語音)，而多方向麥克風803用于收集全部環(huán)境聲音(各種包含環(huán)境聲音和噪聲的聲音)。這樣，每個麥克風的特性可各自發(fā)揮其效用。然而，也可只用一個或用多個麥克風，也就是說，麥克風的數(shù)目并無限制。此外，麥克風的類型既可方向性也可是多方向性的。
參考數(shù)字839代表了包含一個LCD(發(fā)光二極管)之類的顯示器，而參考數(shù)字840代表一個諸如揚聲器，耳機之類的聲輸出裝置。顯示器839和輸出裝置840分別用于輸出作為包含語句的圖象和包含語句的語音的翻譯系統(tǒng)828的處理結(jié)果。
在識別系統(tǒng)801中，參考數(shù)字804代表一個用來將來自方向性麥克風802的模擬信號轉(zhuǎn)換成數(shù)字信號，而參考數(shù)字806代表作為一個目標語音的通告語音和由A/D轉(zhuǎn)換器804轉(zhuǎn)換的數(shù)字數(shù)據(jù)。
根據(jù)該實施例，通告語音的數(shù)字數(shù)據(jù)806由16比特組成，并包含各所在處的噪聲數(shù)據(jù)。參考數(shù)字805代表一個用來將從多方向性麥克風803來的模擬信號轉(zhuǎn)換成數(shù)字信號。參考數(shù)字807代表由A/D轉(zhuǎn)換器805轉(zhuǎn)換的和包含在無通告語音時的噪聲的全部聲音的數(shù)字數(shù)據(jù)。在本實施例中，在各處的全部環(huán)境聲音的數(shù)字數(shù)據(jù)807由16比特組成。
參考數(shù)字808代表用于數(shù)字地記錄由A/D轉(zhuǎn)換器804轉(zhuǎn)換的通告語音的數(shù)字數(shù)據(jù)806和數(shù)字地記錄由A/D轉(zhuǎn)換器805轉(zhuǎn)換的無通告語音時的所在地的全部聲音的數(shù)字數(shù)據(jù)807并將它們存儲在存儲器809中的記錄器。通告語音的數(shù)字數(shù)據(jù)806與無通告語音時的所在地全部環(huán)境的聲音被存儲到存儲器809中，從而可并行從存儲器讀出和寫入存儲器。參考數(shù)字810代表由語音記錄器從存儲器809中讀出的通告聲音的數(shù)字數(shù)據(jù)，和參考數(shù)字811代表當無通告語音時由語音記錄器808從存儲器809中讀出的在所在地全部聲音。
參考數(shù)字812代表一個用來接收通告語音的數(shù)字數(shù)據(jù)810和無通告語音時所在地的全部聲音0的數(shù)字數(shù)據(jù)811的去噪聲單元。參考數(shù)字813代表通過從包含在去噪聲單元812中的噪聲的通告語音的數(shù)字數(shù)據(jù)810中去除噪聲獲得的通告語音的數(shù)字數(shù)據(jù)。在本處理過程中，噪聲不能被很好地去除但被減少了，因為通告語音相對比較強。
根據(jù)本實施例，將系統(tǒng)設(shè)計得可對噪聲的類型進行識別并其以此作為識別在各種場合的嘈雜環(huán)境下的通告語音或周圍語音的關(guān)鍵，對此，下面要予以介紹。本發(fā)明的系統(tǒng)的這種設(shè)計有利于方便進行聲學對照的用的聲學模式的搜索操作和語音識別。
參考數(shù)字814代表既包含通過從包含在去噪聲單元812的噪聲中的通告語音的數(shù)字數(shù)據(jù)810中去除噪聲所獲得的通告語音的數(shù)字數(shù)據(jù)813又包含在無通告語音時的在各種場合的全部聲音的數(shù)字數(shù)據(jù)的數(shù)據(jù)，這些數(shù)據(jù)是直接從去噪聲單元812中輸出的。
參考數(shù)字815代表一個聲音分析單元，該分析單元采用短時頻率分析，對已經(jīng)去除了噪聲的通告語音的數(shù)字數(shù)據(jù)813進行聲音特征提取處理。參考數(shù)字816代表一個區(qū)段檢測器，用來根據(jù)語音的輸入波形檢測語音存在區(qū)段。參考數(shù)字817代表一效用對照單元，用來通過一個關(guān)聯(lián)單元將輸入語音與在聲學模式存儲單元819中用于目標識別的聲學模式，字典820以及語法字典821相比較。聲學對照單元817的對照結(jié)果作為連續(xù)語音中的詞或句的識別結(jié)果輸出到判斷單元818。參考數(shù)字827代表編碼數(shù)據(jù)，該編碼數(shù)據(jù)代表作為在判斷單元818中輸出的對連續(xù)語音中的詞或句的識別結(jié)果。
在學習系統(tǒng)823中，通過從包含噪聲的通高語音的數(shù)字數(shù)據(jù)810中去除噪聲獲得的通告語音的數(shù)字數(shù)據(jù)，和當無通告語音時的各處的全部聲音的數(shù)字數(shù)據(jù)，都被存儲在一個大規(guī)模通告聲音數(shù)據(jù)庫824中。聲音分析單元825讀出存儲在大規(guī)模通告聲音數(shù)據(jù)庫824中數(shù)據(jù)，并根據(jù)短時頻率分析對讀出的數(shù)據(jù)進行聲音特征提取處理。模式學習單元826接收來自聲音分析單元825中的聲音特征提取結(jié)果以生成一個聲學模式。這里，聲學模式是一個對聲音識別為關(guān)鍵的基準模式，而且該聲學模式包含諸如輔音，元音等音素的每個音素的模式。例如，采用Hidden Markov模式(HMM)。
如上生成的聲學模式借助于一個熟悉所收集的或檢測的語言的操作者與代表一個詞或句的碼相關(guān)聯(lián)，而將一個必要的要素存儲在聲學模式存儲單元。此時，生成的聲學模式也與在數(shù)據(jù)收集處的當無通告語音時的噪聲環(huán)境碼相關(guān)聯(lián)。并存儲在聲學模式存儲單元819在聲音分析單元825中，根據(jù)在無通告語音時的各處的全體聲音的數(shù)字數(shù)據(jù)生成噪聲環(huán)境碼。
在本實施例中，給一個代表詞或句的碼生成在不同噪聲環(huán)境下的多聲學模式。最好，根據(jù)要翻譯的語言的方言之類來生成多聲學模式。
在翻譯系統(tǒng)828中，代表從識別系統(tǒng)801輸出的詞或句的編碼數(shù)據(jù)827用一個鍵詞分析單元829就是否該數(shù)據(jù)提供了一個對翻譯有效的鍵詞進行分析，并根據(jù)該鍵詞識別一個語句的含義。此外，中間語言處理器832產(chǎn)生一個僅代表與任何特定語言無關(guān)的語句的含義的中間語言。
鍵詞分析單元829與一個詞義字典(詞典)和一個語句結(jié)構(gòu)含義字典(句法字典)831相連。例如，當輸入的通告語音為德語并要求翻譯成日語時，則在識別系統(tǒng)801中的聲學模式存儲單元819，字典820，和語法字典821和在翻譯系統(tǒng)828中的詞典830和句法字典831被設(shè)計得與德語相對應(yīng)。此外，為以多語模式使用該系統(tǒng)，一個諸如集成電路卡，CD-ROM之類的可互換大容量存儲介質(zhì)最好用作為聲學模式存儲單元，字典820，語法字典821，詞典830和語法字典831。
在中間語音處理器832中產(chǎn)生的中間語言的語句在語句形成單元833中被翻譯成為所需語言的語句。語句形成單元833被連接到相應(yīng)于例如日語的字典834和語句結(jié)構(gòu)范例字典(語法字典)835。被翻譯的語句顯示在顯示器839上。在聲音合成處理器837中被翻譯的語句再被轉(zhuǎn)換成數(shù)字語音，通過D/A轉(zhuǎn)換器838將數(shù)字信號轉(zhuǎn)換為模擬信號，并從聲輸出裝置840中輸出語音。
聲合成處理器837與相應(yīng)于例如日語的句法字典835和發(fā)音字典836相連。此外，為了以多語模式使用該系統(tǒng)，一個諸如集成電路卡，一個CD-ROM之類的可互換大容量存儲介質(zhì)最好被用作為字典834，句法字典835和發(fā)聲字典836。
圖8的每個處理器方框可由一個包括多個LSIs和存儲器的系統(tǒng)或一個或多個在半導(dǎo)體器件上形成的晶片系統(tǒng)組成。
下面將描述當本實施例的語音識別和翻譯系統(tǒng)應(yīng)用于便攜式翻譯機時的語音識別的操作和實際情形。
圖9是在海外旅游期間使用便攜式翻譯機預(yù)先檢測在海外機場，火車站等地，在諸如飛機，公共汽車，地鐵，出租車，等處，或在觀光樓周圍語音和通告的流程，并預(yù)先生成執(zhí)行通告語音所需的翻譯的聲學模式。
首先，在ST901步，利用安裝在便攜式翻譯機上的多方向性麥克風803或方向性麥克風802，記錄無通告語音時在任意處的靜態(tài)噪聲“B”。然后，在ST902步，用方向性麥克風802記錄當在進行通告時的通告語音“A”。通告語音“A”主要包含如先前記錄的噪聲“B”一樣的背景噪聲。然后，去噪聲單元812從疊加了噪聲的通告一樣信號的頻譜“A”中減去代表靜態(tài)噪聲的信號的頻譜“B”(ST903步)。然后，由相減得到的頻譜“C”(頻譜“C”＝頻譜“A”-頻譜“B”)并作為通告語音頻譜數(shù)據(jù)存儲到大規(guī)模通告聲音數(shù)據(jù)庫824中，并根據(jù)這些數(shù)據(jù)，將靜態(tài)噪聲“B”的頻譜數(shù)據(jù)存入大規(guī)模通告聲音數(shù)據(jù)庫824中(ST904步)。聲音分析單元825對所存入的通告語音頻譜“C”進行短時頻率分析以實現(xiàn)聲音特征提取(聲音分析)，并也分析噪聲環(huán)境(ST905)。最后，根據(jù)語音分析結(jié)果，模式學習單元826生成一個聲學模式(模式學習)和將生成的聲學模式與一個代表詞或句的碼相關(guān)，并將該聲學模式存入聲學模式存儲單元819(ST906步)。
圖10是一個顯示海外旅游者用便攜式翻譯機對在海外機場，火車站等地，在諸如飛機，公共汽車，地鐵，出租車，等處，或在觀光樓周圍的語音和通告語音進行語音識別的一系列處理的流程圖。
假設(shè)，一個海外旅游者并不理解如在飛機場，火車站等地，在飛機，公共汽車，地鐵，出租車，等處，或在觀光樓中聽到的通告的含義。然而，他可從隨隊的聽眾的反應(yīng)容易地判斷所通告的事情與其有關(guān)。此時，該旅游者打開便攜式翻譯機，而無通告語音時的各處的靜態(tài)(即背景環(huán)境)噪聲“B”通過安裝在便攜式翻譯機上的多方向麥克風或方向性麥克風被記錄(ST1001)。然后，當感興趣的通告實際開始時，通過方向性麥克風802將包含基本上與先前記錄的靜態(tài)噪聲“B”一樣的噪聲的通告語音記錄下來(ST1002步)。
接著，在ST1003步，去噪聲單元812從混雜有噪聲的通告語音信號的頻譜“A”中減去靜態(tài)噪聲信號的頻譜“B”。然后，對由減操作獲得的頻譜“C”進行短時頻率分析來實現(xiàn)生特征提取(聲分析)(ST1004)。然后，根據(jù)連續(xù)通告語音的輸入波形檢測存在所需語音的區(qū)段(ST1005)，最后，將輸入的語音與通告識別目標的聲學模式和詞或句模式相比較，以檢測有關(guān)鍵詞或鍵句。
圖11示出了搜索一個聲學模式的示意圖，說明可容易地以一個通告語音的數(shù)字數(shù)據(jù)813的聲學對照處理來搜索一個聲學模式，其中的數(shù)字數(shù)據(jù)813是通過從包含噪聲的通告語音中去除噪聲獲得的。
如上所述，在已經(jīng)進行了去噪聲處理的通告語音的數(shù)字數(shù)據(jù)中并未去全部噪聲。然而，在該處理中，噪聲已經(jīng)顯示減少，因為通告語音被顯示加重了。于是，如果可以識別噪聲的類型的話，則就可能在各處的嘈雜環(huán)境下進行通告語音的語音識別。
在圖11中，參考數(shù)字1101代表去除噪聲的通告語音的數(shù)字數(shù)據(jù)，參考數(shù)字1102代表用來執(zhí)行聲學對照的聲學對照單元，參考數(shù)字1103代表噪聲聲學模式，參考數(shù)字1104代表一個判斷單元，而參考數(shù)字1105代表根據(jù)每個噪聲環(huán)境碼一個被學習的和被存儲的環(huán)境聲學模式。在圖11的構(gòu)成的元素，噪聲聲學模式1103和通告語音模式1105被包含在圖的聲學模式存儲單元819中。聲學對照單元1102和判斷單元1104分別對應(yīng)于圖8的聲學對照單元817和判斷單元818。
在本實施例中，如上所述，無通告語音時的靜態(tài)(即背景環(huán)境)噪聲“B”由安裝在便攜式翻譯機多方向性或方向性麥克風在檢測一個要翻譯的目標語音(此時為一個通告語音)前預(yù)先記錄好(參閱圖10的ST1001步)。此時，聲學對照單元1102中，噪聲“B”被與存儲在噪聲聲學模式1103中的各種模式相比較，以便識別噪聲“B”產(chǎn)生處的場所(噪聲環(huán)境)。通過識別一個加有噪聲聲學模式的噪聲環(huán)境碼來進行上述識別的。然后，記錄包含靜態(tài)噪聲“B”的通過語音“A”，接受預(yù)定處理，并與相應(yīng)于被識別的環(huán)境地面噪聲環(huán)境下的通告語音模式相對照。如上所述，只有對相應(yīng)于被識別的噪聲環(huán)境碼的通告語音模式進行搜索和將通告語音與所搜索的模式進行對照，所以可以容易而迅速地進行搜索操作。例如，當噪聲“B”是在地鐵中的背景環(huán)境噪聲時，聲學對照單元1104只搜索在“在地鐵”的噪聲環(huán)境下的通告語音模式就足夠了。
圖12A和12B分別顯示了一個使用便攜式翻譯機的場景及其外觀圖。更具體地說，圖12A示出了一個導(dǎo)游通告混有火車站內(nèi)的聲音。一個旅游使用者可通過顯示一個便攜式翻譯機的聲輸出裝置識別通過的內(nèi)容。當該使用者希望將該通告翻譯成，例如，日語時，因為他是日本人，則會將此通告翻譯成日語。
圖12B示出了便攜式翻譯機的外形，其中參考數(shù)字1201代表便攜式翻譯機的主體，而參考數(shù)字1202代表用來檢測在飛機場，火車站等地，在飛機，公共汽車，地鐵，出租車，等處，或在觀光樓中聽到的通告語音，或在講演處的語音。參考數(shù)字1203代表用來從上述語音中去除噪聲和檢測無目標語音在該處的全體聲音的多方向性麥克風。參考數(shù)字1204代表用來輸出被翻譯的語音的聲輸出單元，以使使用者可以聽到該語音，該聲輸出單元包括一個揚聲器和耳機。參考數(shù)字1205代表一個用來顯示語音翻譯結(jié)果的內(nèi)容的顯示器。參考數(shù)字1206代表可一個集成電路卡，在該卡中裝有用于語音識別和翻譯的聲學模式存儲單元819，字典820，語法字典821，詞典830，和語法字典831。參考數(shù)字1207代表一個集成電路卡，在該卡中裝有用于語音識別和翻譯的字典834，語法字典835和發(fā)音字典836。
圖13是一個顯示內(nèi)容的例子，該內(nèi)容是由便攜式識別和翻譯機通過語音識別和翻譯獲得的。在圖13中，參考數(shù)字1301代表便攜式翻譯機的顯示區(qū)域。將通過識別一個在飛機場，火車站等地，在飛機，公共汽車，地鐵，出租車，等處，或在觀光樓中聽到的通告語音，或在講演處的語音識別結(jié)果，以當?shù)卣Z言的字符形式顯示在顯示區(qū)域1301的局部區(qū)域1302中。此外，將一個翻譯結(jié)果以字符的形式形式在局部區(qū)域1303上。例如，在本例中是將阿拉伯語翻譯成英語詞或句。另外，配置了一個區(qū)域1304用來顯示一個翻譯的信息，例如翻譯率概率，翻譯成功率等信息。在本例中，將翻譯成功率顯示在區(qū)域1304中。除了在翻譯前，可以將翻譯成功率，有關(guān)原來語言的的類型的信息顯示在區(qū)域1304上。
根據(jù)本發(fā)明，可以提供有關(guān)適用于識譯在飛機場，火車站等地，在飛機，公共汽車，地鐵，出租車，等處，或在觀光樓中聽到的通告語音，或在講演處的語音的語音識別和翻譯系統(tǒng)。
本發(fā)明并限于上述實施例，熟悉本技術(shù)領(lǐng)域的人們可以在權(quán)利要求中所要求保護的主題范圍內(nèi)可以作出各種修改。無需說，這種修改均在本發(fā)明的覆蓋范圍內(nèi)。例如，在第一個發(fā)明中，字符(文件)識別和翻譯系統(tǒng)包括識別系統(tǒng)101，學習系統(tǒng)102和翻譯系統(tǒng)103。然而，識別系統(tǒng)101和翻譯系統(tǒng)103可以安裝在有關(guān)諸如便攜式翻譯機這樣的有關(guān)緊湊的器件上，而學習系統(tǒng)102則可安裝在具有諸如個人計算機之類的相對為大容量存儲器件。在本例中個人計算機，便攜式翻譯機被連接到被互連而識別系統(tǒng)和學習系統(tǒng)被用以將學習系統(tǒng)102的樣本掩碼學習單元117數(shù)據(jù)送到識別系統(tǒng)101的樣本掩碼存儲單元111。于是，在識別系統(tǒng)的樣本掩碼存儲單元111存儲了必要數(shù)據(jù)，因此，便攜式翻譯系機可自由使用。于是，個人計算機至少可以配置字符數(shù)據(jù)庫115，同時，給可拆地與個人計算機連接的便攜式翻譯機還可配置其它構(gòu)件。
此外，在第二實施例中，語音識別和翻譯系包括識別系統(tǒng)801，學習系統(tǒng)823，和翻譯系統(tǒng)828。在這些構(gòu)件中，可將諸如便攜式翻譯機這樣的小型設(shè)備配置識別系統(tǒng)801和翻譯系統(tǒng)828，而給諸如個人計算機這樣的大容量存儲設(shè)備配置學習系統(tǒng)823。在這種情形下，個人計算機和便攜式翻譯機被相互連接，并配合識別系統(tǒng)801和學習系統(tǒng)823的工作，以便將來自學習系統(tǒng)823的模式學習單元826的數(shù)據(jù)送到識別系統(tǒng)101的聲學模式存儲單元819。于是，將所需的數(shù)據(jù)存儲在識別系統(tǒng)801的聲學模式存儲單元819，因而便攜式翻譯機可自由使用。另外，也可以至少給個人計算機配置聲數(shù)據(jù)庫824，同時也可將其他的構(gòu)件配置給可拆地與個人計算機相連的便攜式翻譯機。
此外，在本說明書中，詞“裝置”并不一定意味著是一種實體裝置，而是也可是獲得裝置的功能的軟件。另外，一個裝置或元件的功能可以由兩個或多個實體裝置或元件獲得，或兩個或多個裝置或元件的若干功能也可由一個裝置或元件獲得。
權(quán)利要求
1.一種用來識別包含在所攝取的圖象的字符并翻譯由所識別的字符組成的詞或句的字符識別和翻譯系統(tǒng)，包括一個字符數(shù)據(jù)庫，用來積累代表包含在攝取的圖象中的字符的字符數(shù)據(jù)；一個字符形狀分析單元，用來根據(jù)在字符數(shù)據(jù)庫中的字符數(shù)據(jù)分析每個字符的形狀和用來提取構(gòu)成字符的字符構(gòu)元的特征；一個掩碼學習單元，用來根據(jù)所述字符形狀分析單元的分析結(jié)果產(chǎn)生字符構(gòu)元的樣本掩碼數(shù)據(jù)；一個一個字符對照單元，用來將用作為識別目標的字符的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)相對照，所述的識別目標包含在新攝取的圖象中；和翻譯單元，用來翻譯由所述字符對照單元識別的字符組成的詞或句。
2.如權(quán)利要求1所述的字符識別和翻譯系統(tǒng)，其中所述的字符識別和翻譯系統(tǒng)包括一個具有一個外部存儲設(shè)備的靜止安裝式的信息設(shè)備和一個可拆地與所述靜止安裝式的信息設(shè)備相連接的便攜式信息設(shè)備，所述字符形狀分析單元和所述掩碼學習單元配置給所述靜止安裝式信息設(shè)備，所述外部存儲設(shè)備包含所述字符數(shù)據(jù)庫，并給所述便攜式信息設(shè)備配置所有其余的構(gòu)件。
3.如權(quán)利要求1所述的字符識別和翻譯系統(tǒng)，其中所述的字符形狀分析單元將來自所述字符數(shù)據(jù)庫的字符數(shù)據(jù)分出m×n象素的二進制數(shù)據(jù)，并給每個象素檢測“1”或“0”，同時將字符數(shù)據(jù)以增量n劃分(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)個包含字符特征的象素區(qū)域和分析代表字符識別的加權(quán)系數(shù)和/或連接及結(jié)束的屬性。
4.如權(quán)利要求3所述的字符識別和翻譯系統(tǒng)，其中所述的掩碼學習單元附加每個包含字符特征的m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)個象素區(qū)域，所述字符特征具有代表用來表示字符識別的加權(quán)系數(shù)(即代表字符的什么是感興趣的)的屬性和/字符的起始，關(guān)聯(lián)及結(jié)束以產(chǎn)生樣本掩碼數(shù)據(jù)。
5.如權(quán)利要求4所述的字符識別和翻譯系統(tǒng)，其中所述的包含對照單元的字符從在所述字符數(shù)據(jù)庫的字符數(shù)據(jù)中分出m×n象素的二進制，并檢測每個象素的“1”或“0”，同時將字符數(shù)據(jù)以增量n分為m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)個包含字符特征的象素區(qū)域，并將象素區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)相比較。
6.如權(quán)利要求4或5所述的字符識別和翻譯系統(tǒng)，還包括一個用來存儲樣本掩碼數(shù)據(jù)的樣本掩碼存儲器，所述樣本掩碼數(shù)據(jù)是由所述掩碼學習單元獲得的，所述樣本掩碼存儲器給一個任意的字符存儲不同的樣本掩碼數(shù)據(jù)n1，n2，...，nj。
7.如權(quán)利要求1-6中任一權(quán)利要求所述的所述的字符識別和翻譯系統(tǒng)，還包括一個用來攝取包含字符的圖象的圖象攝取單元，和一個字符陣列指定單元，用來從由所述圖象攝取單元攝取的圖象數(shù)據(jù)中指定一個包含要被識別的詞或句的字符陣列。
8.如權(quán)利要求7所述的字符識別和翻譯系統(tǒng)，其中所述的字符陣列指定單元在由所述的圖象攝取單元獲得的圖象數(shù)據(jù)的任何位置上指定一個或一個以上的m×n象素區(qū)域。
9.如權(quán)利要求8所述的字符識別和翻譯系統(tǒng)，其中所述的字符陣列指定單元在由所述的圖象攝取單元獲得的圖象數(shù)據(jù)的任何位置上指定一個或一個以上的m×n象素區(qū)域。
10.如權(quán)利要求8或9所述的字符識別和翻譯系統(tǒng)，其中當由所述字符陣列指定單元獲得字符陣列為橫向書寫時，所述字符對照單元獲得象素區(qū)域并將其以增量n劃分，該n與字符的寬度方向上的n個象素相關(guān)，并將該象素區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)相對照。
11.如權(quán)利要求1-10中任一權(quán)利要求所述的字符識別和翻譯系統(tǒng)，其中所述的字符識別和翻譯系統(tǒng)包括一個具有外部存儲設(shè)備的靜止安裝式信息設(shè)備，和包括一個可拆地與所述靜止安裝式信息設(shè)備相連的便攜式信息設(shè)備，而其中至少將所述的字符數(shù)據(jù)庫配置該所述靜止安裝式信息設(shè)備的外部存儲設(shè)備，而給所述的便攜式信息設(shè)備配置其余的構(gòu)件。
12.一種字符識別和翻譯系統(tǒng)，用來根據(jù)代表字符的字符數(shù)據(jù)分析包含在攝取的圖象的字符的形狀以獲得構(gòu)成該字符的字符構(gòu)元的樣本掩碼數(shù)據(jù)，在樣本掩碼數(shù)據(jù)的基礎(chǔ)上，識別一個新攝取的用于字符識別和翻譯的字符和翻譯由識別的字符組成的詞或句，包括一個字符對照單元，用來將包含在圖象中的字符的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)相比較；和一個翻譯單元，用來翻譯由被所述的字符對照單元識別的字符組成的詞或句。
13.一種語音識別和翻譯系統(tǒng)，用來識別一個檢測到的語音和將語音翻譯成為詞或句，包括一個用來存儲代表所檢測的語音的語音數(shù)據(jù)的語音存儲器；一個用來去除相應(yīng)于來自語音數(shù)據(jù)的噪聲的數(shù)據(jù)的去噪聲單元；一個用來存儲被所述去噪聲單元除去了噪聲的數(shù)據(jù)的聲數(shù)據(jù)庫；一個第一聲分析單元，用來提取相應(yīng)于存儲在所述聲數(shù)據(jù)庫中的語音數(shù)據(jù)的語音的特征；一個模式學習單元，用來由所述第一聲分析單元的分析結(jié)果生成聲學模式；一個用來存儲聲學模式的聲學模式存儲單元；一個第二聲分析單元，用來提取相應(yīng)于通過從語音的語音數(shù)據(jù)中除去代表噪聲的數(shù)據(jù)之后的數(shù)據(jù)的語音的特征；一個語音對照單元，用來將由所述的第二聲分析單元獲得語音數(shù)據(jù)與存儲在所述聲學模式存儲單元中存儲的聲學模式的數(shù)據(jù)相比較以識別該檢測到的語音；及一個翻譯單元，利用翻譯由所述語音對照單元識別的所檢測的語音組成的詞或句。
14.根據(jù)權(quán)利要求13所述的語音識別和翻譯系統(tǒng)，其中所述的語音識別和翻譯系統(tǒng)包括一個具有一個外部存儲設(shè)備的靜止安裝式信息設(shè)備，和一個可拆地與所述靜止安裝式信息設(shè)備相連的便攜式信息設(shè)備，所述第一聲分析第一和所述模式學習單元配置給所述靜止安裝式信息設(shè)備，所述外部存儲設(shè)備包含所述聲數(shù)據(jù)庫，而所有其余的構(gòu)件被配置給所述便攜式信息設(shè)備。
15.構(gòu)件權(quán)利要求13和14所述的語音識別和翻譯系統(tǒng)，其中所述的存儲器被用來存儲相應(yīng)于第一語音的第一語音數(shù)據(jù)，在第一語音中，在要被識別和翻譯的目標語音中疊加了環(huán)境噪聲，和存儲相應(yīng)由環(huán)境噪聲組成的第二語音的第二語音數(shù)據(jù)。
16.根據(jù)權(quán)利要求15所述的語音識別和翻譯系統(tǒng)，其中所述的去噪聲第一包括將第一語音數(shù)據(jù)的第一語音頻譜數(shù)據(jù)與第語音數(shù)據(jù)的第二語音頻譜數(shù)據(jù)相比較，以獲得相應(yīng)于已除去了噪聲的數(shù)據(jù)的頻譜數(shù)據(jù)。
17.根據(jù)權(quán)利要求16所述的語音識別和翻譯系統(tǒng)，其中所述的聲數(shù)據(jù)庫存儲第一頻譜數(shù)據(jù)和第二頻譜數(shù)據(jù)同時將它們互相相關(guān)聯(lián)。
18.根據(jù)權(quán)利要求17的語音識別和翻譯系統(tǒng)，其中所述的聲學對照單元將環(huán)境噪聲的噪聲頻譜數(shù)據(jù)與在第二頻譜數(shù)據(jù)基礎(chǔ)上獲得噪聲聲學模式的數(shù)據(jù)相對照，而這些數(shù)據(jù)是在要識別和翻譯的語音被輸入處預(yù)先獲得的，從而可識別噪聲的類型，并且所述聲學對照單元將要識別和翻譯的語音語音數(shù)據(jù)與第語音數(shù)據(jù)的聲學模式的數(shù)據(jù)相對照，所述第一語音數(shù)據(jù)是根據(jù)噪聲的類型確定的，從而可識別該語音。
19.根據(jù)權(quán)利要求13-18的其中任一權(quán)利要求的語音識別和翻譯系統(tǒng)，其中由所述翻譯單元所獲得的結(jié)果被至少顯示設(shè)備作為字符輸出，將一個由翻譯前的詞或句組成的原來語言文本和由在翻譯之后的詞或句組成的語言顯示在所述顯示設(shè)備的屏幕上。
20.根據(jù)權(quán)利要求19所述的語言識別和翻譯系統(tǒng)，其中所述結(jié)果包含代表翻譯精確度的翻譯率或語言類型其中之一。
21.根據(jù)權(quán)利要求13-20之一所述的語音識別和翻譯系統(tǒng)，其中所述的語音識別和翻譯系統(tǒng)包括一個具有一個外部存儲設(shè)備的靜止安裝式信息設(shè)備和包括一個可拆地與所述靜止安裝式信息設(shè)備相連的便攜式信息設(shè)備，并且給所述靜止安裝式信息設(shè)備的外部存儲設(shè)備至少配置第二數(shù)據(jù)庫，同時給所述便攜式信息設(shè)備配置其余的構(gòu)件。
22.一種語音識別和翻譯系統(tǒng)，用來從代表一個輸入語音的語音數(shù)據(jù)中去除相應(yīng)于噪聲的數(shù)據(jù)，以便提取相應(yīng)于由此獲得語音的特征，以便根據(jù)提取結(jié)果生成聲學模式，根據(jù)聲學模式設(shè)備一個新輸入的語音，并翻譯構(gòu)成該設(shè)備的語音的詞或句，包括一個第二聲分析單元，用來根據(jù)通過從新輸入語音的語音數(shù)據(jù)中去除代表噪聲的數(shù)據(jù)獲得數(shù)據(jù)提取相應(yīng)于所關(guān)心的數(shù)據(jù)語音的特征；一個語音對照單元，用來將由所述第二聲分析單元獲得的語音數(shù)據(jù)與聲學模式相比較以設(shè)備該語音；及一個翻譯單元，用來翻譯由所述語音對照單元識別的語音構(gòu)成的詞或句。
全文摘要
一種字符識別和翻譯系統(tǒng)，包括一個字符數(shù)據(jù)庫，用來積累字符的字符數(shù)據(jù)；一個字符形狀分析單元，用來提取構(gòu)成字符的字符構(gòu)元的特征；一個掩碼學習單元，用來根據(jù)所述字符形狀分析單元的分析結(jié)果產(chǎn)生字符構(gòu)元的樣本掩碼數(shù)據(jù)；一個字符對照單元，用來將用作為識別目標的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)相對照，所述的識別目標包含在新攝取的圖象中；和翻譯單元，用來翻譯由所述字符對照單元識別的字符組成的詞或句。
文檔編號G10L21/02GK1157442SQ9611457
公開日1997年8月20日申請日期1996年11月15日優(yōu)先權(quán)日1995年11月15日
發(fā)明者脅坂新路, 佐藤裕子申請人:株式會社日立制作所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：脅坂新路;佐藤裕子
技術(shù)所有人：株式會社日立制作所
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

字符識別系統(tǒng)相關(guān)技術(shù)

字符識別相關(guān)技術(shù)

手寫字符識別相關(guān)技術(shù)

字符識別算法相關(guān)技術(shù)

車牌字符識別相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

字符識別翻譯系統(tǒng)和語音識別系統(tǒng)的制作方法