欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于惡劣環(huán)境中的東方字詞的混合鍵盤/語音識(shí)別技術(shù)的制作方法

文檔序號(hào):2830640閱讀:284來源:國知局
專利名稱:用于惡劣環(huán)境中的東方字詞的混合鍵盤/語音識(shí)別技術(shù)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音信號(hào)處理,特別是一種只有有限存儲(chǔ)量的手持小型電子裝置中的東方語言,如普通漢語、日語、韓語等的自動(dòng)語音識(shí)別(ASR)。
背景技術(shù)
自動(dòng)語音識(shí)別(ASR)技術(shù)已經(jīng)發(fā)展了幾十年。一個(gè)例子是個(gè)人計(jì)算機(jī)中的大詞匯量連續(xù)語音識(shí)別系統(tǒng)(LVCSR)。參照?qǐng)D1,LVCSR系統(tǒng)1通常使用一聲音前端,該前端包括用于特征提取的頻譜分析模塊15和音調(diào)分析16,和具有上下文關(guān)聯(lián)模型和語言模型的發(fā)音字典,以識(shí)別信號(hào)。由于用于上下文關(guān)聯(lián)模型和語言模型的大量參數(shù)要被處理,因此LVCSR系統(tǒng)1的計(jì)算和存儲(chǔ)工作量很大。對(duì)具有有限存儲(chǔ)量的小型裝置,如個(gè)人數(shù)字助理(PDA)、移動(dòng)電話、無線電話以及電子字典等中使用的傳統(tǒng)語音識(shí)別技術(shù)來說,聲音特征和具有碼本設(shè)計(jì)的語音/字典模型被典型地用來識(shí)別語音輸入模式。這些技術(shù)對(duì)東方語言,如普通漢語、日語、韓語等特別有用。雖然LVCSR系統(tǒng)1已經(jīng)得到發(fā)展,而且對(duì)個(gè)人計(jì)算機(jī)用戶來說已經(jīng)比較成熟,但它仍然具有缺陷,如聲音特征、語音識(shí)別器的感應(yīng)器易于受到惡劣環(huán)境中背景噪聲的干擾。另一方面,LVCSR系統(tǒng)1識(shí)別錯(cuò)誤率的下降主要?dú)w因于輸入字詞序列的知識(shí),即特定語言發(fā)音者最常使用的所謂的語言模型。這樣,LVCSR系統(tǒng)1不可避免的需要大的存儲(chǔ)容量和計(jì)算工作以處理輸入的字詞序列。這樣,LVCSR系統(tǒng)1就不再適用于具有有限存儲(chǔ)能力的小型電子裝置,特別是在惡劣環(huán)境中。
本發(fā)明技術(shù)方案在研究用于惡劣環(huán)境中的傳統(tǒng)LVCSR技術(shù)時(shí),本發(fā)明的發(fā)明人發(fā)現(xiàn)很難在性能不降低的情況下設(shè)計(jì)出連續(xù)語音中的語言模型;單獨(dú)語音較連續(xù)語音更易識(shí)別;單獨(dú)語音中的元音較輔音更易識(shí)別;由于大多數(shù)普通漢語發(fā)音者,如在臺(tái)灣和香港學(xué)習(xí)者,比較熟悉注音發(fā)音,因此通過注音發(fā)音對(duì)漢字進(jìn)行區(qū)分相對(duì)較為容易。通常,一個(gè)漢字一般使用一到三個(gè)拼音發(fā)音。一些東方語言,如漢語、日語、韓語等的一個(gè)單獨(dú)語音中的音節(jié)結(jié)構(gòu)都是如S-停頓-S-停頓-S-停頓-...,其中S表示音節(jié)。如本領(lǐng)域技術(shù)人員所公知,該音節(jié)結(jié)構(gòu)具有S=(C)+V的特性,其中C表示輔音,V表示元音,C對(duì)韓語、日語和漢語是可選的。
至于漢字,通常使用的大約有20,000個(gè)。這些漢字具有大約400個(gè)音節(jié)和大約1400個(gè)不同發(fā)音,即所謂的音調(diào)音節(jié)。這些音調(diào)音節(jié)具有V+T或C+V+T的特殊結(jié)構(gòu),其中V表示元音,C表示輔音,T表示音調(diào)。如語音識(shí)別技術(shù)領(lǐng)域人員所知,考慮到其能量譜,很容易得出不同輔音的發(fā)音(或能量譜)不能被清楚區(qū)分的結(jié)論。對(duì)傳統(tǒng)的ASR技術(shù),識(shí)別錯(cuò)誤率主要由輔音發(fā)音的不穩(wěn)定造成。用于提高發(fā)音和輔音模型聯(lián)合清晰度的穩(wěn)定性的一個(gè)方法就是選擇模型單元作為上下文關(guān)聯(lián)音素。如果沒有模型上下文關(guān)聯(lián)音素,輔音發(fā)音的不穩(wěn)定性就會(huì)導(dǎo)致字詞錯(cuò)誤率增加。另一個(gè)降低識(shí)別字詞錯(cuò)誤率的方法就是利用對(duì)生活語言中經(jīng)常使用的字詞順序的知識(shí),即所謂的語言模型。由于在惡劣環(huán)境中,上下文中輔音的發(fā)聲與清楚的語音相比變得更加不確定,因此在惡劣環(huán)境中使用語言模型是ASR技術(shù)的關(guān)鍵因素,例如用于電話的對(duì)話系統(tǒng)。但是,上下文關(guān)聯(lián)音素模型的缺點(diǎn)是它的模型復(fù)雜度很高并且大量統(tǒng)計(jì)學(xué)參數(shù)(通常為100K字節(jié))需要被處理(由統(tǒng)計(jì)方法來估算)和存儲(chǔ)在動(dòng)態(tài)存儲(chǔ)器中,如RAM中。另一個(gè)方法是使用整個(gè)字詞模型。但是,由于300的因素,這也將增加模型的復(fù)雜度。另外,用于LVCSR系統(tǒng)1(通常有10,000字詞)的語言模型(N字母組,N=2,3)的內(nèi)存使用率很高且很昂貴。這樣,由于其固有的計(jì)算和存儲(chǔ)限制,因此對(duì)手持電子裝置來說很不切實(shí)際。
基于單獨(dú)語音中元音較容易識(shí)別,目前的語音識(shí)別技術(shù)在單獨(dú)語音中識(shí)別元音是可信賴的。至于音調(diào),語音的聲音特性可提供足夠的信息以區(qū)別不同的音調(diào)。至于輔音的區(qū)分,這是目前語音識(shí)別技術(shù)中唯一的缺陷,特別是在惡劣環(huán)境中,當(dāng)語音的聲音特性被噪音干擾時(shí)。
本發(fā)明的第一個(gè)優(yōu)點(diǎn)是可提供一種將東方語言中的包括輔音和元音的多個(gè)音素在手持電子裝置的多個(gè)鍵中進(jìn)行分組,其分組原則是分組到各鍵上的多個(gè)音素的距離平方和(即聲音特征間距的相異尺寸)與多個(gè)鍵間的多個(gè)音素的距離平方和的比被最大化。
本發(fā)明的第二個(gè)優(yōu)點(diǎn)是提供一種將東方字詞輸入電子裝置的方法,該電子裝置具有包括多個(gè)鍵的數(shù)字鍵盤,語音輸入裝置,其中所述東方語言中包括元音和輔音的音素的至少一個(gè)根據(jù)上述方法被分配到并可視地地表示在各鍵的所屬區(qū)域之上或之中,其中所述東方字詞的語音表達(dá)由用戶發(fā)出并被所述聲音輸入裝置接收,每當(dāng)用戶以單獨(dú)語音的方式發(fā)出各所述的東方字詞時(shí),用戶隨后按下一表示對(duì)應(yīng)所述東方字詞音素的第一個(gè)音素,通常為輔音的鍵,則對(duì)應(yīng)的東方字詞根據(jù)順序鍵入的輔音被選擇出來。
本發(fā)明的第三優(yōu)點(diǎn)是提供一種電子裝置,該裝置可輸入東方語言的口語語音,并通過混合鍵盤/語音識(shí)別來識(shí)別其中的東方字詞,其中該電子裝置具有一聲音輸入裝置和一具有多個(gè)根據(jù)上述方法被分配的鍵的數(shù)字鍵盤。在該電子裝置中,語音識(shí)別裝置根據(jù)通過數(shù)字鍵盤鍵入的音素的序列和口語語音來識(shí)別口語語音中的東方字詞,這樣?xùn)|方字詞就可以在惡劣環(huán)境中以有效的方式被輸入到電子裝置中。
本發(fā)明的第四優(yōu)點(diǎn)是提供一種通過用于上述電子裝置中的數(shù)字鍵盤的鍵輸入的幫助,識(shí)別東方語言中的語音的方法。
本發(fā)明的第五優(yōu)點(diǎn)是提供一種可操作的計(jì)算機(jī)產(chǎn)品,當(dāng)其運(yùn)行時(shí)可使處理器執(zhí)行上述識(shí)別方法。


通過以下附圖及說明,將對(duì)本發(fā)明有更全面地了解。其中圖1為傳統(tǒng)大詞匯量連續(xù)語音識(shí)別系統(tǒng)(LVCSR)的方框圖;圖2為按照本發(fā)明用于拼音字詞的混合鍵盤/語音識(shí)別技術(shù)的電子裝置的示意圖;圖3為用于圖2所示的電子裝置中的混合鍵盤/語音識(shí)別系統(tǒng)的示意方框圖;圖4為圖3中在數(shù)字鍵盤多個(gè)按鍵輸入的幫助下進(jìn)行東方語言語音識(shí)別的方法的流程圖。
最佳實(shí)施例本發(fā)明為適用于下述條件的用于手持裝置的高精度、混合鍵盤/ASR的結(jié)構(gòu)(1)在惡劣環(huán)境中傳統(tǒng)語音識(shí)別技術(shù)的缺陷。例如,語音的聲音特性由于不穩(wěn)定噪音和信道干擾變得不清楚。此外,傳統(tǒng)技術(shù)的計(jì)算和存儲(chǔ)工作量太高,如全部字詞模型、上下文關(guān)聯(lián)音素模型以及三字母組語言模型。
(2)韓語、日語和漢語語言的單獨(dú)語音中的一些東方語言特征的音節(jié)結(jié)構(gòu)。即(C)+V,停頓,(C)+V,停頓,(C)+V,...,其中C表示輔音,V表示元音,C對(duì)韓語、日語、和漢語是可選的。
本發(fā)明將通過普通漢語的例子來進(jìn)行解釋和說明。但是,本領(lǐng)域技術(shù)人員也同樣可以在不脫離附加權(quán)利要求范圍的基礎(chǔ)上,將本發(fā)明的原理和宗旨應(yīng)用于其他東方語言,如日語、韓語、廣東話等。
圖2示出可根據(jù)本發(fā)明的最佳實(shí)施例的用于手持電子裝置20的混合鍵盤/語音識(shí)別結(jié)構(gòu)。圖2中,本發(fā)明將鍵盤22上的十二個(gè)經(jīng)常使用的數(shù)字鍵,如0到9、*和#,進(jìn)行專門分配,以明顯地表示漢語的注音文字(基本由37個(gè)BoPoMoFo音素組成),下面將進(jìn)行詳述。如本領(lǐng)域所公知的,鍵盤22還可以是手持電子裝置20的屏幕23上的觸摸板,其中這十二個(gè)鍵以屏幕23上的圖標(biāo)來表示。在操作中,電子裝置20的使用者發(fā)出一可通過麥克21接收到的單獨(dú)語音(語音中具有停頓),并且每當(dāng)發(fā)出該音節(jié)時(shí),同時(shí)按下鍵盤22上的一代表在該單獨(dú)語音中各音節(jié)的第一拼音音素的鍵。
現(xiàn)在參照?qǐng)D3,接收到的語音信號(hào)通過A/D轉(zhuǎn)換器24被數(shù)字化采樣,并被發(fā)送到頻譜分析模塊25和音調(diào)分析模塊26中。如本領(lǐng)域技術(shù)人員所知,麥克21中可整合入A/D轉(zhuǎn)換器24以形成一具有內(nèi)置A/D轉(zhuǎn)換器的數(shù)字化麥克。在模塊25中,被采樣的語音信號(hào)以相等的寬度和時(shí)序的重疊被分割至多個(gè)分析門電路。然后,各分析門電路與語音分析中通常使用的內(nèi)核,即所謂的漢明窗相乘。在各分析門中進(jìn)行采樣語音信號(hào)的快速傅里葉變換(FFT)的計(jì)算,從而在分析門中產(chǎn)生采樣的語音信號(hào)的頻譜,然后進(jìn)行平方產(chǎn)生能量譜并形成頻譜、聲音特性。另外,通過用于東方語言,如馬來語、廣東話、泰國語、臺(tái)灣語等的音調(diào)分析模塊26,從采樣語音信號(hào)中提取出口語單獨(dú)語音的音調(diào)特性。音調(diào)分析模塊26不用于東方無音調(diào)語言,如日語和韓語。如從鍵盤22輸出的啟動(dòng)/數(shù)據(jù)信號(hào)30所示,用戶所作的按壓第一鍵的動(dòng)作還表示由隨后的聲音匹配模塊27、單獨(dú)音節(jié)匹配模塊28、和最佳假設(shè)匹配模塊29進(jìn)行的采樣語音信號(hào)處理的開始。如啟動(dòng)/數(shù)據(jù)信號(hào)30所示,口語語音組成的各音節(jié)的通常為輔音的音素的信息被輸入到聲音匹配模塊27,以進(jìn)一步促使音節(jié)的識(shí)別,從而降低了電子裝置20的計(jì)算工作量。類似地,根據(jù)從聲音匹配模塊27輸入的各音節(jié)和通過鍵盤22順序鍵入的音素(輔音),單獨(dú)音節(jié)匹配模塊28可促使所述口語語音中包括多個(gè)音節(jié)的各字詞的識(shí)別。
根據(jù)本發(fā)明的最佳實(shí)施例,單獨(dú)語音(語音中具有停頓)模式是最佳的,尤其對(duì)于惡劣環(huán)境中的ASR。也就是說,根據(jù)本發(fā)明,電子裝置20的用戶發(fā)出的單獨(dú)語音更為可靠。而且,根據(jù)本發(fā)明最佳實(shí)施例,對(duì)各口語多音節(jié)單詞,單獨(dú)音節(jié)模式是最佳的。就是說,在惡劣環(huán)境中,多音節(jié)單詞中的音節(jié)之間出現(xiàn)的停頓可使各音節(jié)更易被識(shí)別。根據(jù)本發(fā)明最佳實(shí)施例,對(duì)各口語單獨(dú)音節(jié),當(dāng)向麥克21說出該音節(jié)時(shí),最好通過鍵盤22手工輸入單獨(dú)音節(jié)中的對(duì)應(yīng)輔音(或元音),尤其是對(duì)那些具有簡單音節(jié)結(jié)構(gòu)S=(C)+V的語言,如韓語、日語和漢語。如上所述,其原因是對(duì)傳統(tǒng)語音識(shí)別技術(shù)來說,在惡劣環(huán)境中輔音比元音更難識(shí)別。
根據(jù)本發(fā)明,用戶向鍵盤22的手工輸入可用于下述情況(i)當(dāng)口語單獨(dú)語音由聲音匹配模塊27處理時(shí);(ii)當(dāng)對(duì)應(yīng)單獨(dú)口語音節(jié)(對(duì)韓國、日本和中國人來說較為容易識(shí)別)的輔音由單獨(dú)音節(jié)匹配模塊28處理時(shí);(iii)當(dāng)通過鍵盤22上的瀏覽功能鍵,如滾動(dòng)鍵“<”和“>”等從相似備選列表(即,具有相同發(fā)音的不同字,如漢語中的你、擬、伲和昵)中選擇的所需音節(jié)由最佳假設(shè)匹配模塊28處理時(shí)。
通過如上所述,根據(jù)本發(fā)明,圖4示出了借助電子裝置20中的鍵盤22的鍵輸入在東方語言中識(shí)別語音的方法。參照?qǐng)D4,在步驟41中,表示所述用戶的口語語音的語音信號(hào)通過麥克21被輸入。在步驟42中,通過頻譜分析模塊25和音調(diào)分析模塊26提取出語音信號(hào)的語音特征。在步驟43中,當(dāng)用戶發(fā)出各音節(jié)時(shí),通過鍵盤22得到對(duì)應(yīng)于口語語音中各音節(jié)的第一音素的鍵的信息。在步驟44中,根據(jù)語音信號(hào)的語音特征和隨后在步驟43中接收到的鍵入音素,口語語音的各音節(jié)通過聲音匹配模塊27而被識(shí)別。在步驟45中,根據(jù)步驟44中各被識(shí)別的音節(jié)和步驟43中被隨后接收的鍵入音素,口語語音中各由多個(gè)音節(jié)組成的詞通過單獨(dú)音節(jié)匹配模塊28而被識(shí)別。
根據(jù)本發(fā)明,上述識(shí)別方法可以用軟件的形式記錄在計(jì)算機(jī)可讀介質(zhì)中。另外,計(jì)算機(jī)產(chǎn)品可運(yùn)行使電子裝置20的處理器執(zhí)行上述識(shí)別方法。
普通漢語的37個(gè)注音(BoPoMoFo)音素如下所列ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗ
ㄘㄙㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ一ㄨㄩ根據(jù)本發(fā)明,普通漢語的這37個(gè)注音文字以數(shù)據(jù)驅(qū)動(dòng)的形式,即基于漢字發(fā)聲數(shù)據(jù)庫的“反向線性判別分析(ILDA)”,被分配到鍵盤22中的十二個(gè)鍵上。根據(jù)本發(fā)明的方法,最好是通過將分組在鍵盤22各鍵上的幾個(gè)包括輔音和元音的音素的距離(即聲音特性間隔中的相異尺寸)的平方和與鍵盤22中鍵間的音素的距離的平方和的比最大化來實(shí)現(xiàn)。換句話說,為了確保鍵盤按壓效率而向鍵盤22的鍵分配普通漢語的37個(gè)注音文字的創(chuàng)造性標(biāo)準(zhǔn)可被歸納為●鍵盤22上各鍵中,37個(gè)注音文字的聲音特性間隔中的相異尺寸被最大化(通常3到4個(gè)音素被分配在一個(gè)鍵上,如本發(fā)明中“ㄒ”、“ㄝ”和“ㄈ”被分配到鍵“1”上)。這種最大化可以確保如圖3中所示的ASR系統(tǒng)相對(duì)比較容易從被各按壓鍵表示的一組音素中識(shí)別特定的音節(jié)/音素。
●鍵盤22上各鍵之間,37個(gè)注音文字(根據(jù)本發(fā)明,“ㄙ”在鍵“2”上、“ㄕ”在鍵“3”上、“ㄘ”在鍵“6”上)的聲音特性間隔中的相異尺寸被最小化。這種最小化可以確保最模糊的聲音(音素)通過按壓鍵被識(shí)別。
37個(gè)注音文字在鍵盤22中分配的一個(gè)例子在圖2中示出并在下面給出鍵 注音1(ㄒㄝㄈ)2(ㄙㄦㄖ)3(ㄕㄛㄌ)4(ㄑㄚㄩ)5(ㄗㄡㄨㄜ)6(ㄘㄢ一)7(ㄓㄣㄆ)8(ㄏㄤㄊ)9(ㄐㄥㄎ)0(ㄔㄅㄞ)*(ㄇㄉㄟ)#(ㄋㄍㄠ)作為本發(fā)明操作的一個(gè)例子,根據(jù)本發(fā)明創(chuàng)造性的混合鍵盤/語音識(shí)別方案,當(dāng)要通過麥克21和鍵盤22向電子裝置20輸入一多音節(jié)詞,如“你是誰”(who afe you?)時(shí),用戶首先在單獨(dú)音節(jié)模式下發(fā)出單獨(dú)的語音“你—(停頓)—是—(停頓)—誰—(停頓)—”,然后發(fā)出的各音節(jié)通過麥克21被順序接收。每當(dāng)用戶在兩次停頓之間發(fā)出各音節(jié)時(shí),他/她可以按下該音節(jié)的輔音(如果有的話,否則是元音)。這是因?yàn)槿缟纤?,發(fā)明人從現(xiàn)有惡劣環(huán)境中的語音識(shí)別技術(shù)中發(fā)現(xiàn),在單獨(dú)語音中識(shí)別元音比識(shí)別輔音更為容易,因此對(duì)輔音最好由用戶按壓鍵進(jìn)行指定以提高口語單獨(dú)語音的識(shí)別率。例如,對(duì)于中文“你”(you,注音為“ㄋ—— ”),用戶可以直觀地按壓表示輔音“ㄋ”的鍵“#”。類似地,對(duì)于中文“是”(are,注音為“ㄕ—\”),用戶可以按壓表示輔音“ㄕ”的鍵“3”,而對(duì)于中文“誰”(who,注音為“ㄕ—ㄟ—/”),則重復(fù)按壓表示輔音“ㄕ”的鍵“3”。如上所述,通過音調(diào)分析模塊26提取出上述單獨(dú)音調(diào)語音中的音調(diào)特征,然后由聲音匹配模塊27、單獨(dú)音節(jié)匹配模塊28和最佳假設(shè)匹配模塊29進(jìn)行分析。從而,按照本發(fā)明的電子裝置20不需要用于普通漢語的四聲“●、/、 、\”的音調(diào)鍵。
另外,在上述隋況中,每當(dāng)用戶在停頓之間發(fā)出各音節(jié)并同時(shí)按下表示其輔音的鍵時(shí),一些同音字(即具有相同發(fā)音的不同字)就在屏幕23(圖2中未示出)上的各選列表中顯示出來。然后,用戶可利用鍵盤22上的滾動(dòng)鍵,如“<”“>”和“OK”鍵(未示出)來選擇所需的漢字。通過這種方法,如要向電子裝置20中輸入超過三個(gè)漢字,用戶只需按壓三個(gè)按鍵而不是傳統(tǒng)技術(shù)中不考慮滾動(dòng)鍵和“OK”鍵的至少6到8個(gè)鍵(每個(gè)字至少兩次鍵的按壓)。如本領(lǐng)域所公知,在單獨(dú)語音中的同音字可根據(jù)上下文學(xué)習(xí)技術(shù)自動(dòng)選擇。這樣,根據(jù)本發(fā)明,通過創(chuàng)造性的鍵分配和語音識(shí)別方法,就可以實(shí)現(xiàn)在惡劣環(huán)境中輸入東方語言的高效鍵盤按壓。
在本發(fā)明的最佳實(shí)施例中,通過按壓表示對(duì)應(yīng)單獨(dú)口語音節(jié)結(jié)構(gòu)中的輔音的鍵,音節(jié)間的模糊可被有效地大幅降低,而且在不增加任何附加計(jì)算工作量或存儲(chǔ)的情況下,識(shí)別的錯(cuò)誤率也被顯著減少。本發(fā)明特別適用在惡劣環(huán)境中匣用的手持電子裝置,該裝置可通過鍵盤和麥克輸入韓語、日語和漢語,因?yàn)檫@些語言都具有簡單的音節(jié)結(jié)構(gòu),S=(C)+V,其中S表示特定音節(jié),C/V表示對(duì)應(yīng)的輔音/元音。
雖然本發(fā)明已經(jīng)公開了普通漢語的最佳實(shí)施例,但該公開并不限制本發(fā)明。東方語言,如日語、韓語(無音調(diào))、泰國語、越南語(有音調(diào))也可采用本發(fā)明。另外,雖然本發(fā)明實(shí)施例適合漢語,但將37個(gè)注音文字分配到鍵盤22的十二個(gè)鍵的原則也可應(yīng)用于其他拉丁語言,如英語。例如,獲得例如英語的拉丁語的多個(gè)音素的聲音特性間隔,并以數(shù)據(jù)驅(qū)動(dòng)方式將分組在鍵盤22的各鍵上的多個(gè)音素的距離(即聲音特性間隔中的相異尺寸)的平方和與鍵盤22的鍵之間的音素的距離的平方和的比最大化。通過這種方法,英語字母表的26個(gè)字母也可被分配到鍵盤中的幾個(gè),如10或12個(gè)數(shù)字鍵上,這樣,鍵盤的大小也可顯著減小。
本發(fā)明還可由ASR領(lǐng)域技術(shù)人員在不脫離本發(fā)明權(quán)利要求的實(shí)質(zhì)和范圍的情況下進(jìn)行修改或改變。
權(quán)利要求
1.一種用于東方語言的口語語音輸入的電子裝置,該語音具有輔音加元音加音調(diào)或元音加音調(diào)的音節(jié)結(jié)構(gòu),所述電子裝置包括一語音接收器,用于接收表示所述口語語音的語音信號(hào);一預(yù)處理裝置,與所述語音接收器相連,用于提取所述語音信號(hào)的語音特征;一包括多個(gè)鍵的鍵盤裝置,其中各鍵上分配有包括輔音和元音的音素中的至少一個(gè)音素;聲音匹配裝置,用于根據(jù)所述語音信號(hào)的語音特征和隨后通過所述鍵盤裝置獲得的音素來識(shí)別所述語音的各音節(jié);和單獨(dú)音節(jié)匹配裝置,用于根據(jù)聲音匹配裝置輸出的各音節(jié)和通過所述鍵盤順序鍵入的音素,識(shí)別所述口語語音中包含多個(gè)音節(jié)的各字詞。
2.根據(jù)權(quán)利要求1所述的電子裝置,其特征在于各鍵分配有至少一個(gè)音素,使得分組在多個(gè)鍵的各鍵上成組的音素的距離平方和與多個(gè)鍵間的音素的距離平方和之和為最大。
3.根據(jù)權(quán)利要求1所述的電子裝置,其特征在于當(dāng)發(fā)出各音節(jié)時(shí),按壓對(duì)應(yīng)口語語音中各音節(jié)的第一音素(最好為一輔音)的鍵。
4.根據(jù)權(quán)利要求1所述的電子裝置,其特征在于電子裝置是從包括蜂窩電話、無線電話、電子字典、個(gè)人數(shù)字助理和電子表的組中選出的。
5.根據(jù)權(quán)利要求1所述的電子裝置,其特征在于口語語音是由至少一多音節(jié)字詞組成的單獨(dú)語音。
6.根據(jù)權(quán)利要求3中所述的電子裝置,其特征在于口語語音中各音節(jié)的第一音素為一輔音。
7.一種具有一顯示單元的電子裝置,包括一語音接收裝置,用于接收表示具有輔音加元音或元音的音節(jié)結(jié)構(gòu)的東方語言中的口語語音的語音信號(hào);一具有多個(gè)鍵的數(shù)字鍵盤,其中包括元音和輔音的音素中的至少一個(gè)被分配到并可視地表示在各鍵上或各鍵的附近區(qū)域;一語音識(shí)別裝置,用于根據(jù)通過所述數(shù)字鍵盤隨后輸入的音素和由所述語音接收裝置接收到的口語語音,識(shí)別所述口語語音中的東方字詞;和用于將所述口語語音中的東方字詞顯示在所述顯示單元上的裝置。
8.根據(jù)權(quán)利要求7所述的電子裝置,其特征在于根據(jù)分組在多個(gè)鍵的各鍵上的多個(gè)音素的距離平方和與多個(gè)鍵間的多個(gè)音素的距離平方和之比為最大的原則向各鍵上分配至少一個(gè)音素,從而使東方語言更有效地通過所述數(shù)字鍵盤和所述語音接收裝置輸入。
9.一種在通過數(shù)字鍵盤按鍵輸入的幫助下識(shí)別東方語言語音的方法,其特征在于所述東方語音具有輔音加元音或元音的音節(jié)結(jié)構(gòu),且所述數(shù)字鍵盤具有多個(gè)鍵,所述方法包括以下步驟(a)輸入表示所述語音的語音信號(hào);(b)從所述語音信號(hào)中提取語音特征;(c)當(dāng)發(fā)出各音節(jié)時(shí),通過所述數(shù)字鍵盤隨后接收對(duì)應(yīng)所述語音中各音節(jié)的第一音素的鍵的信息;(d)根據(jù)所述語音信號(hào)的語音特征和步驟(c)中隨后接收到的音素,識(shí)別所述語音的各音節(jié);(e)根據(jù)步驟(d)中識(shí)別的各音節(jié)和步驟(c)中隨后接收的音素,識(shí)別所述語音中包括多個(gè)音節(jié)的各字詞。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于所述數(shù)字鍵盤各鍵上被分配至少一個(gè)包括元音和輔音的音素,步驟(c)中的所述第一音素為一輔音。
11.一種用于在一電子裝置的數(shù)字鍵盤中對(duì)多個(gè)東方語言的包括元音和輔音的音素進(jìn)行分組的方法,其特征在于鍵盤的各鍵被分配至少一個(gè)音素,包括步驟(a)得到多個(gè)音素的聲音特性;和(b)以數(shù)據(jù)驅(qū)動(dòng)的方式將分組在多個(gè)鍵的各鍵上的多個(gè)音素的距離平方和與多個(gè)鍵間的多個(gè)音素的距離平方和之比最大化。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于最大化步驟包括(b1)最大化各鍵中的音素的聲音特性間距中的第一相異尺寸,以使分組到各鍵的多個(gè)音素在聲音上可區(qū)別;(b2)最小化鍵間音素的聲音特性間距中的第二相異尺寸,以使最易模糊的音素不會(huì)被分組在同一鍵中。
13.根據(jù)權(quán)利要求11所述的方法,其特征在于東方語言為漢語,電子裝置的數(shù)字鍵盤有十二個(gè)鍵,其中在十二鍵中的漢語的多個(gè)音素的分組如下1(ㄒㄝㄈ)2(ㄙㄦㄖ)3(ㄕㄛㄌ)4(ㄑㄚㄩ)5(ㄗㄡㄨㄜ)6(ㄘㄢ一)7(ㄓㄣㄆ)8(ㄏㄤㄊ)9(ㄐㄥㄎ)0(ㄔㄅㄞ)*(ㄇㄉㄟ)#(ㄋㄍㄠ)。
14.一種向具有包括多個(gè)鍵的數(shù)字鍵盤和語音輸入裝置的電子裝置中輸入東方字詞的方法,其特征在于包括輔音和元音的音素的至少一個(gè)被分配到并可視地表示在各鍵上或各鍵附近的區(qū)域;其中所述東方字詞的語音表達(dá)由用戶發(fā)出并由所述語音輸入裝置接收,當(dāng)用戶以單獨(dú)語音模式發(fā)出各東方字詞時(shí),用戶隨后按壓表示對(duì)應(yīng)所述各東方字詞的第一個(gè)音素鍵;然后對(duì)應(yīng)的東方字詞根據(jù)隨后鍵入的音素被選出。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于根據(jù)將分組在多個(gè)鍵的各鍵上的多個(gè)音素的距離平方和與多個(gè)鍵間的音素的距離平方和之比為最大的方式將至少一個(gè)音素分配到各鍵上。
16.一種計(jì)算機(jī)程序產(chǎn)品,在通過數(shù)字鍵盤的鍵輸入的幫助下,其運(yùn)行可使處理器執(zhí)行東方語言語音識(shí)別的多個(gè)步驟,其特征在于所述東方語音具有輔音加元音或元音的音節(jié)結(jié)構(gòu),數(shù)字鍵盤具有多個(gè)鍵,其步驟包括(a)輸入表示所述語音的語音信號(hào);(b)從所述語音信號(hào)中提取語音特征;(c)當(dāng)發(fā)出各音節(jié)時(shí),通過所述數(shù)字鍵盤隨后接收對(duì)應(yīng)所述語音中各音節(jié)的第一音素的鍵的信息;(d)根據(jù)所述語音信號(hào)的語音特征和步驟(c)中隨后接收到的音素,識(shí)別所述語音的各音節(jié);(e)根據(jù)步驟(d)中識(shí)別的各音節(jié)和步驟(c)中隨后接收的音素,識(shí)別所述語音中由多個(gè)音節(jié)組成的各字詞。
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)產(chǎn)品,其特征在于所述數(shù)字鍵盤各鍵上分配有至少一個(gè)包括所述東方語言的元音和輔音的音素,步驟(c)中所述的第一音素為一輔音。
全文摘要
一種高精度東方語言,如漢語的輸入方法和裝置,用于惡劣環(huán)境中的具有小鍵盤和/或有限內(nèi)存的小型電子裝置,如PDA、移動(dòng)電話、電子字典、電子表。通過將多音節(jié)中文字詞分為單獨(dú)的音調(diào)音節(jié)發(fā)聲,同時(shí)按壓特殊設(shè)計(jì)鍵盤的一鍵,如包含音節(jié)(輔音或元音)的第一音素的鍵,以進(jìn)一步解決惡劣環(huán)境中例如輔音的拼音發(fā)音(子字詞單元)引起的模糊問題,單獨(dú)的音調(diào)音節(jié)的元音和輔音由自動(dòng)語音識(shí)別系統(tǒng)進(jìn)行分離而實(shí)現(xiàn),。如果模糊仍然存在,按壓音節(jié)的第二或第三拼音發(fā)音是有必要的。鍵盤設(shè)計(jì)是以數(shù)據(jù)驅(qū)動(dòng)方式進(jìn)行的,各鍵盤中音素的相似度被最小化而鍵之間拼音發(fā)音相似度被最大化。
文檔編號(hào)G10L15/20GK1360301SQ0114568
公開日2002年7月24日 申請(qǐng)日期2001年12月19日 優(yōu)先權(quán)日2000年12月22日
發(fā)明者C·-H·黃 申請(qǐng)人:皇家菲利浦電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
石屏县| 昭苏县| 盐城市| 屏边| 芦山县| 本溪| 民权县| 阿拉善盟| 育儿| 永修县| 中西区| 庆安县| 印江| 襄城县| 景东| 本溪市| 涿州市| 体育| 黄冈市| 天全县| 辽中县| 囊谦县| 灵璧县| 登封市| 黄浦区| 三台县| 乌拉特中旗| 满城县| 定远县| 上思县| 苍梧县| 石门县| 桃园市| 河西区| 崇文区| 乌拉特前旗| 榆林市| 竹山县| 文水县| 清苑县| 德江县|