專利名稱:智能互動(dòng)型語言練習(xí)裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明有關(guān)于語言學(xué)習(xí)設(shè)備和方法,具體地說,涉及一種具有互動(dòng)功能的語言練習(xí)裝置和練習(xí)方法。
背景技術(shù):
隨著時(shí)代的發(fā)展和進(jìn)步,人與人的交流已不再受地域的限制,除了地域性的交往之外,國際交流也越來越頻繁。交流的內(nèi)容除了普通的進(jìn)出口商務(wù)之外,其它類型的交流,諸如投資、旅游等也越來越普遍。以往的依靠翻譯進(jìn)行交流的模式也已不能適應(yīng)這種發(fā)展。因此,在社會(huì)中,人們已開始要求外語語言能力作為人的一種必備的技能,學(xué)習(xí)外語蔚然成風(fēng)。
學(xué)習(xí)語言,除了下功夫之外,語言環(huán)境相當(dāng)重要。小孩之所以能學(xué)會(huì)語言,環(huán)境起到了相當(dāng)大的作用。然而,目前語言學(xué)習(xí)者大都在國門之內(nèi)學(xué)習(xí),外語語言環(huán)境的欠缺是快速學(xué)會(huì)和學(xué)好語言的最重要的障礙之一。
為了幫助人員學(xué)好語言,目前市場(chǎng)上已出現(xiàn)了各式各樣的學(xué)習(xí)輔助裝置。大致可以分成以下幾類一、電子字典類使用者可以通過這類裝置輸入一個(gè)中文或英文單詞,然后裝置會(huì)提供相應(yīng)的英文或中文翻譯,或還包括一些對(duì)詞的解釋和說明,較為高檔的裝置還可以提供該單詞的發(fā)單。顯然,這類裝置起到的仍然是一本字典的作用,至多提供了用戶發(fā)音的功能,離用戶的需求尚遠(yuǎn);二、學(xué)習(xí)類這類裝置可以包括一個(gè)輸入裝置、一個(gè)顯示裝置和一個(gè)音頻輸出裝置,用戶可以選擇學(xué)習(xí)的內(nèi)容,裝置把學(xué)習(xí)的內(nèi)容通過顯示裝置或音頻輸出裝置輸出,用戶跟讀。在一些功能更好的裝置中,還可以把用戶的讀音輸入到裝置中,進(jìn)行識(shí)別比較,然后,輸出一個(gè)分值,以分值的形式,告知用戶發(fā)音的準(zhǔn)確程度。
這類學(xué)習(xí)裝置,在一定程度上給學(xué)習(xí)者制造了一個(gè)語言學(xué)習(xí)環(huán)境,提高了使用者的語言學(xué)習(xí)的效率和效果。然而,由于其與學(xué)習(xí)者的互動(dòng)僅通過分?jǐn)?shù)的形式,學(xué)習(xí)者雖然能通過分?jǐn)?shù)了解自己的發(fā)音準(zhǔn)確程度,然而,在發(fā)音不正確的時(shí)間去無法了解什么地方錯(cuò)了。因此,這類學(xué)習(xí)裝置的互動(dòng)性尚待提高。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種具有更好的互動(dòng)性的智能互動(dòng)型語言練習(xí)裝置和方法,通過本發(fā)明的裝置和方法,給用戶創(chuàng)造和提供一個(gè)更接近真人的語言環(huán)境。
根據(jù)本發(fā)明的上述目的,本發(fā)明提供一種互動(dòng)型語言練習(xí)方法,包括如下步驟(a)提供第一語音庫,包含至少一條第一語音數(shù)據(jù);(b)提供一語音模型和語法庫,包含至少一條語音模型識(shí)別數(shù)據(jù);(c)將每一所述語音模型識(shí)別數(shù)據(jù)與一標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);(d)提供第二語音庫,包括至少一條第二語音數(shù)據(jù);(e)將所述標(biāo)識(shí)數(shù)據(jù)與所述第二語音庫的第二語音數(shù)據(jù)相關(guān)聯(lián);(f)從所述第一語音庫中選擇一條第一語音數(shù)據(jù),通過音頻裝置輸出;(g)接收學(xué)習(xí)者的語音輸入,轉(zhuǎn)換成輸入語音數(shù)據(jù);(h)將所述輸入語音數(shù)據(jù)通過所述語音模型和語法庫進(jìn)行語音識(shí)別,與一條語音模型識(shí)別數(shù)據(jù)相匹配,從而獲得一標(biāo)識(shí)數(shù)據(jù);(i)根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述第二語音庫中得到第二語音數(shù)據(jù);以及(j)通過音頻輸出裝置,輸出所述第二語音數(shù)據(jù)。
在上述方法中,所述第一語音庫為引導(dǎo)語音庫,所述第一語音數(shù)據(jù)是引導(dǎo)語音數(shù)據(jù)。
在上述方法中,所述第二語音庫為反饋語音庫,所述第二語音數(shù)據(jù)為反饋語音數(shù)據(jù)。
在上述方法中,還提供一第三語音庫,所述第三語音庫包含至少一條第三語音數(shù)據(jù);所述第三語音庫中的所述第三語音數(shù)據(jù)與所述第一語音庫中的所述第一語音數(shù)據(jù)相關(guān)聯(lián);在所述步驟(f)之后,還包括(f1)根據(jù)已輸出的所述第一語音數(shù)據(jù),利用所述第三語音數(shù)據(jù)與所述第一語音數(shù)據(jù)的關(guān)聯(lián)性,從所述第三語音庫中選擇一條第三語音數(shù)據(jù),通過音頻設(shè)備輸出。
在上述方法中,所述第三語音庫是講解語音庫,所述第三語音數(shù)據(jù)為講解語音數(shù)據(jù)。
在上述方法中,根據(jù)用戶的選擇決定是否執(zhí)行所述步驟(f1)。
在上述方法中,在所述步驟(g)之后,還包括(g1)存儲(chǔ)所述輸入語音數(shù)據(jù)。
在上述方法中,在所述步驟(j)之后,還包括(k)再次通過所述音頻輸出設(shè)備輸出所述第一語音數(shù)據(jù),或者通過所述音頻設(shè)備輸出在步驟(g1)存儲(chǔ)的所述輸入語音數(shù)據(jù)。
在上述方法中,還包括提供一練習(xí)語句庫,包含至少一條練習(xí)語句顯示數(shù)據(jù),所述練習(xí)語句顯示數(shù)據(jù)與所述第一語音庫中的第一語音數(shù)據(jù)相關(guān)聯(lián);根據(jù)所述第一語音數(shù)據(jù),從所述練習(xí)語句庫中選擇一條練習(xí)語句顯示數(shù)據(jù),通過一顯示裝置顯示所述練習(xí)語句顯示數(shù)據(jù)。
在上述方法中,還包括提供一反饋顯示數(shù)據(jù)庫,包含至少一條反饋顯示數(shù)據(jù),所述反饋顯示數(shù)據(jù)與所述標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);根據(jù)在步驟(h)得到的所述標(biāo)識(shí)數(shù)據(jù),從所述反饋顯示數(shù)據(jù)庫中選擇一條反饋顯示數(shù)據(jù),通過一顯示裝置顯示所述反饋顯示數(shù)據(jù)。
在上述方法中,還包括將所述語音模型識(shí)別數(shù)據(jù)與一分?jǐn)?shù)數(shù)據(jù)相關(guān)聯(lián);在所述步驟(h)時(shí),獲得一分?jǐn)?shù)數(shù)據(jù);將該分?jǐn)?shù)數(shù)據(jù)通過一顯示裝置顯示。
在上述方法中,所述語音模型識(shí)別數(shù)據(jù)包括標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)和錯(cuò)誤語音模型識(shí)別數(shù)據(jù),所述標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)為被視為正確發(fā)音的語音模型識(shí)別數(shù)據(jù);所述錯(cuò)誤語音模型識(shí)別數(shù)據(jù)為被視為錯(cuò)誤發(fā)音的語音模型識(shí)別數(shù)據(jù)。
在上述方法中,所述第一引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù),所述第二引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù)。
本發(fā)明還提供一種互動(dòng)型語言練習(xí)裝置,包括第一語音庫,包含至少一條第一語音數(shù)據(jù);語音模型和語法庫,包含至少一條語音模型識(shí)別數(shù)據(jù)和與所述語音模型識(shí)別數(shù)據(jù)關(guān)聯(lián)的標(biāo)識(shí)數(shù)據(jù);第二語音庫,包括至少一條第二語音數(shù)據(jù),所述第二語音數(shù)據(jù)與所述標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);控制裝置,與所述第一語音庫相連,從所述第一語音庫中選擇第一語音數(shù)據(jù);音頻輸出裝置,與所述控制裝置和所述第一語音庫相連,根據(jù)所述控制裝置的選擇,從第一語音庫中得到所述第一語音數(shù)據(jù),并輸出;
語音輸入裝置,用于接收用戶的語音輸入,并將所述語音輸入轉(zhuǎn)換成輸入語音數(shù)據(jù);以及識(shí)別裝置,與所述語音輸入裝置相連,用于接收所述輸入語音數(shù)據(jù),將所述輸入語音數(shù)據(jù)通過所述語音模型和語法庫進(jìn)行語音識(shí)別,與一條語音模型識(shí)別數(shù)據(jù)相匹配,獲得一標(biāo)識(shí)數(shù)據(jù);所述控制裝置還與所述識(shí)別裝置相連,接收所述標(biāo)識(shí)數(shù)據(jù),根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述第二語音庫中選出第二語音數(shù)據(jù);音頻輸出裝置還與所述第二語音庫相連,根據(jù)控制裝置的選擇,從第二語音庫中得到所述第二語音數(shù)據(jù),并輸出。
在上述裝置中,所述第一語音庫為引導(dǎo)語音庫,所述第一語音數(shù)據(jù)是引導(dǎo)語音數(shù)據(jù)。
在上述裝置中,所述第二語音庫為反饋語音庫,所述第二語音數(shù)據(jù)為反饋語音數(shù)據(jù)。
在上述裝置中,還包括第三語音庫,包含至少一條第三語音數(shù)據(jù),所述第三語音庫中的所述第三語音數(shù)據(jù)與所述第一語音庫中的所述第一語音數(shù)據(jù)相關(guān)聯(lián);所述控制裝置還與所述第三語音庫相連,根據(jù)所述第一語音數(shù)據(jù),利用所述第三語音數(shù)據(jù)與所述第一語音數(shù)據(jù)的關(guān)聯(lián)性,從所述第三語音庫中選擇一條第三語音數(shù)據(jù);所述音頻設(shè)備還與所述第三語音庫相連,根據(jù)所述控制裝置的選擇,從第三語音庫中得到所述第三語音數(shù)據(jù),并輸出。
在上述裝置中,所述第三語音庫是講解語音庫,所述第三語音數(shù)據(jù)為講解語音數(shù)據(jù)。
在上述裝置中,還包括輸入裝置,接收用戶的輸入,用于選擇第一語音數(shù)據(jù)。
在上述裝置中,還包括輸入語音存儲(chǔ)裝置,與所述語音輸入裝置相連,用于存儲(chǔ)所述輸入語音數(shù)據(jù)。
在上述裝置中,所述語音輸出裝置與所述輸入語音存儲(chǔ)裝置相連,用于輸出所述輸入語音數(shù)據(jù)。
在上述裝置中,還包括練習(xí)語句庫,包含至少一條練習(xí)語句顯示數(shù)據(jù),所述練習(xí)語句顯示數(shù)據(jù)與所述第一語音庫相關(guān)聯(lián);顯示裝置;所述控制裝置與所述顯示裝置和所述練習(xí)語句庫相連,根據(jù)所述第一語音數(shù)據(jù),從所述練習(xí)語句庫中選擇一條練習(xí)語句顯示數(shù)據(jù),通過所述顯示裝置顯示所述練習(xí)語句顯示數(shù)據(jù)。
在上述裝置中,還包括反饋顯示數(shù)據(jù)庫,包含至少一條反饋顯示數(shù)據(jù),所述反饋顯示數(shù)據(jù)與所述標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);所述控制裝置根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述反饋顯示數(shù)據(jù)庫中選擇一條反饋顯示數(shù)據(jù),通過所述顯示裝置顯示所述類型反饋顯示數(shù)據(jù)。
在上述裝置中,所述語音模型識(shí)別數(shù)據(jù)還與一分?jǐn)?shù)數(shù)據(jù)相關(guān)聯(lián);所述識(shí)別裝置獲得分?jǐn)?shù)數(shù)據(jù),所述控制裝置從所述識(shí)別裝置接收所述分?jǐn)?shù)數(shù)據(jù),并將所述分?jǐn)?shù)數(shù)據(jù)提供給所述顯示裝置進(jìn)行顯示。
在上述裝置中,所述語音模型識(shí)別數(shù)據(jù)包括標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)和錯(cuò)誤語音模型識(shí)別數(shù)據(jù),所述標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)為正確發(fā)音的語音數(shù)據(jù);所述錯(cuò)誤語音模型識(shí)別數(shù)據(jù)為錯(cuò)誤發(fā)音的語音數(shù)據(jù)。
在上述裝置中,所述第一引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù),所述第二引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù)。
如上所述,本發(fā)明的練習(xí)方法和裝置向用戶提供了即時(shí)的語音對(duì)話,并能對(duì)學(xué)習(xí)者所犯的錯(cuò)誤給出具體的語音反饋,用戶猶如身邊多了一位外語老師,有效地改善學(xué)習(xí)環(huán)境,提高學(xué)習(xí)的準(zhǔn)備性和學(xué)習(xí)效率。
圖1是本發(fā)明的智能互動(dòng)型語言練習(xí)裝置的結(jié)構(gòu)圖;圖2至圖6是本發(fā)明的智能互動(dòng)型語言練習(xí)裝置的各個(gè)變化例的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面將根據(jù)附圖詳細(xì)描述本發(fā)明的具體實(shí)施例,應(yīng)當(dāng)理解,下面的描述僅是一個(gè)具體的例子而已,是為了有助于理解和實(shí)現(xiàn)本發(fā)明,這些例子不應(yīng)成為對(duì)本發(fā)明的限制,本發(fā)明的保護(hù)范圍就由所附的權(quán)利要求書來限定。
首先,請(qǐng)參見圖1,圖1示出了本發(fā)明的互動(dòng)型語言練習(xí)裝置的結(jié)構(gòu)框圖。如圖1所示,圖1示出了本發(fā)明的一個(gè)基本結(jié)構(gòu),它包括第一語音庫10、第二語音庫20、語音模型和語法庫30、控制裝置40、識(shí)別裝置50、語音輸入裝置60和音頻輸出裝置70。
第一語音庫10包含至少一條第一語音數(shù)據(jù),在本發(fā)明中第一語音數(shù)據(jù)可以為引導(dǎo)語音數(shù)據(jù),如需要用戶跟讀的數(shù)據(jù)nuclear,或I was in your shoes justa few years ago;或者可以是一個(gè)提問How old are you?第一語音數(shù)據(jù)可以采用目前常用的MP3格式數(shù)據(jù),或者OGG-Speex音頻格式,也可以采用例如WAV、AAC等音頻格式數(shù)據(jù)。
第二語音庫20包含至少一條第二語音數(shù)據(jù),在本發(fā)明中第二語音數(shù)據(jù)為反饋語音數(shù)據(jù)。所謂反饋,后面將作進(jìn)一步的描述。
語音模型和語法庫30包含有至少一條語音模型識(shí)別數(shù)據(jù)。該語音模型識(shí)別數(shù)據(jù)與第一語音庫10中的第一語音數(shù)據(jù)相對(duì)應(yīng)。例如,對(duì)于上面的“nuclear”的例子,在語音模型和語法庫30中對(duì)應(yīng)有一條該單詞的正確讀音[nu:kli:]的語音模型識(shí)別數(shù)據(jù),在本發(fā)明中,與第一語音數(shù)據(jù)相對(duì)應(yīng)的除了正確讀音的語音模型識(shí)別數(shù)據(jù)之外,還可以包括錯(cuò)誤讀音的語音模型識(shí)別數(shù)據(jù)。對(duì)于上面的“nuclear”的例子,在語音模型和語法庫30中除了有一條該單詞的正確讀音[nu:kli:]的語音模型識(shí)別數(shù)據(jù)之外,還可以包括一些典型錯(cuò)誤讀音的語音模型識(shí)別數(shù)據(jù),例如[nu:ku:l],或者[nu:kel]等。
再例如,對(duì)于上面的I was in your shoes just a few years ago的例子,與該句子的第一語音數(shù)據(jù)相對(duì)應(yīng)的除了這句句子的正確讀音的語音模型識(shí)別數(shù)據(jù)之外,還可以包括一些典型錯(cuò)誤讀音或者句法錯(cuò)誤的語音模型識(shí)別數(shù)據(jù),下面是一些具有語法錯(cuò)誤的句子的語音模型識(shí)別數(shù)據(jù)的例子I was in your shoes just a few years;I was in your shoes just a years ago.
對(duì)于上面的提問的例子,除了把對(duì)該提問的正確回答的讀音作為語音模型識(shí)別數(shù)據(jù)之外,還可以把一些典型錯(cuò)誤的回答的讀音作為語音模型識(shí)別數(shù)據(jù)。
每個(gè)語音模型識(shí)別數(shù)據(jù)還關(guān)聯(lián)一個(gè)標(biāo)識(shí)數(shù)據(jù)。該標(biāo)識(shí)數(shù)據(jù)用于對(duì)該語音模型識(shí)別數(shù)據(jù)作一標(biāo)識(shí),以便通過該標(biāo)識(shí)數(shù)據(jù)獲得該語音模型識(shí)別數(shù)據(jù)的反饋數(shù)據(jù)。
在第二語音庫20中包括的反饋語音數(shù)據(jù)與語音模型和語法庫30中的標(biāo)識(shí)數(shù)據(jù)相對(duì)應(yīng),即與語音模識(shí)別數(shù)據(jù)關(guān)聯(lián)的每個(gè)標(biāo)識(shí)數(shù)據(jù),在第二語音庫20中可以找到一個(gè)對(duì)應(yīng)的反饋語音數(shù)據(jù)。標(biāo)識(shí)數(shù)據(jù)可以使用數(shù)據(jù)定表示,例如對(duì)應(yīng)于“00”標(biāo)識(shí)數(shù)據(jù),在第二語音庫20中有一條發(fā)音為“correct”的反饋語音數(shù)據(jù)與之對(duì)應(yīng),根據(jù)標(biāo)識(shí)數(shù)據(jù)“00”即可從第二語音庫20中找到“correct”的反饋語音數(shù)據(jù)。對(duì)應(yīng)于“03”標(biāo)識(shí)數(shù)據(jù),在第二語音庫20中有一條發(fā)音為“語法錯(cuò)誤”的反饋語音數(shù)據(jù),也可以包括一條能指出更具體的錯(cuò)誤之處的反饋語音數(shù)據(jù),例如對(duì)于“I was inyour shoes just a few years”的語音模型識(shí)別數(shù)據(jù),其反饋語音數(shù)據(jù)可以是“我聽到您說了I was in your shoes just a few years,漏掉了ago。請(qǐng)?jiān)僭囈槐椤?,語音模型識(shí)別數(shù)據(jù)與反饋語音數(shù)據(jù)之間通過標(biāo)識(shí)數(shù)據(jù)進(jìn)行關(guān)聯(lián)。
至于標(biāo)識(shí)數(shù)據(jù)的多少以及語音反饋的內(nèi)容可以根據(jù)需要和實(shí)際的課程加以確定,常見的一些語音反饋可以包括發(fā)音(或回答)正確、讀音錯(cuò)誤、語法錯(cuò)誤、語調(diào)錯(cuò)誤、重音錯(cuò)誤等。
控制裝置40是互動(dòng)型語言練習(xí)裝置的核心單元,整個(gè)裝置在其統(tǒng)一控制下協(xié)調(diào)運(yùn)作。它與第一語音庫10相連,從第一語音庫10中選擇一條第一語音數(shù)據(jù),提供給與之相連的音頻輸出裝置70。
音頻輸出裝置70通常采用揚(yáng)聲器等元件,例如,如果控制裝置40選擇了nuclear的第一語音數(shù)據(jù),則音頻輸出裝置70發(fā)出nuclear的正確讀音。當(dāng)然,控制裝置40的選擇可以是裝置本身設(shè)定的,按一定的順序進(jìn)行;也可以由用戶通過其它輸入裝置(例如鍵盤或鼠標(biāo)等,圖中未示出)來進(jìn)行選擇,這種選擇結(jié)構(gòu)屬于公知技術(shù),在本實(shí)施例中,不再作詳細(xì)的描述。
語音輸入裝置60通常采用諸如話筒等電聲轉(zhuǎn)換元件,它可以接收用戶的語音輸入,把語音輸入轉(zhuǎn)換成電子式的輸入語音數(shù)據(jù)。在音頻輸出裝置70發(fā)出的nuclear等要求用戶跟讀的標(biāo)準(zhǔn)音之后,用戶通過語音輸入裝置60把跟讀的語音輸入到裝置中。
識(shí)別裝置50與語音輸入裝置60相連,接收輸入語音數(shù)據(jù),然后,將輸入語音數(shù)據(jù)通過語音模型和語法庫30進(jìn)行語音識(shí)別,識(shí)別出最接近的語音模型識(shí)別數(shù)據(jù),然后通過關(guān)聯(lián)得到標(biāo)識(shí)數(shù)據(jù),并把標(biāo)識(shí)數(shù)據(jù)提供給控制裝置40。在本實(shí)施例中的語音模型和語法庫30和識(shí)別裝置50可以使用一些公知的技術(shù),具體內(nèi)容可以參見例如“Spoken Language Processing″(出自Prentice Hall PTR(2001))和StatisticalMethod for Speech Recognition(出自MIT Press 98)。
控制裝置40則根據(jù)該標(biāo)識(shí)數(shù)據(jù),從第二語音庫中20中,通過關(guān)聯(lián)查找得到第二語音數(shù)據(jù);然后把查找得到的第二語音數(shù)據(jù)提供給音頻輸出裝置70,由音頻輸出裝置70以音頻方式向用戶發(fā)出反饋。
下面是一個(gè)用戶學(xué)習(xí)的例子控制裝置40按設(shè)定的順序,或根據(jù)用戶的選擇,從第一語音庫10中選出了nuclear的第一語音數(shù)據(jù),通過音頻輸出裝置70向用戶發(fā)出nuclear的正確發(fā)音。
然后裝置等待用戶的跟讀,如果用戶的發(fā)音為[nu:ku:l],通過語音輸入裝置60將該發(fā)音轉(zhuǎn)換成輸入語音數(shù)據(jù)之后,在識(shí)別裝置50中進(jìn)行識(shí)別,從語音模型和語法庫30中識(shí)別出了發(fā)明為[nu:ku:l]的識(shí)別語音數(shù)據(jù),通過該識(shí)別語音數(shù)據(jù)獲得與其關(guān)聯(lián)的標(biāo)識(shí)數(shù)據(jù)。
然后,識(shí)別裝置50把標(biāo)識(shí)數(shù)據(jù)提供給控制單元40,控制單元通過該標(biāo)識(shí)數(shù)據(jù),從第二語音庫20中查找得到相應(yīng)的第二語音數(shù)據(jù),該第二語音數(shù)據(jù)可以是“我聽到您的發(fā)音中第二和第三音節(jié)為[ku:l],發(fā)音有誤,請(qǐng)?jiān)僭囈槐椤薄?br>
下面說明和描述本發(fā)明的一些其它可行的變化例。
變化例一請(qǐng)參見圖2所示,與圖1的實(shí)施例相比,圖2的變化例增加了一個(gè)第三語音庫80,該第三語音庫80包含至少一條第三語音數(shù)據(jù),第三語音數(shù)據(jù)與第一語音庫20中的第一語音數(shù)據(jù)相關(guān)聯(lián)。
當(dāng)控制裝置40通過音頻輸出裝置70輸出了第一語音庫10中選擇的第一語音數(shù)據(jù)之后,通過關(guān)聯(lián),從第三語音庫80中找出相關(guān)聯(lián)的第三語音數(shù)據(jù),并把該第三語音數(shù)據(jù)提供給音頻輸出裝置70,由音頻輸出裝置70輸出。
第三語音數(shù)據(jù)可以是講解語音數(shù)據(jù)。例如,與″nuclear″的第一語音數(shù)據(jù)相對(duì)應(yīng)的講解語音數(shù)據(jù)可以是“該單詞的含義是核心的、原子核的,請(qǐng)跟讀”。
裝置是否利用第三語音數(shù)據(jù),則可以由用戶通過例如鍵盤或鼠標(biāo)等輸入裝置進(jìn)行選擇,是決定是否播放講解語音數(shù)據(jù)。
變化例二請(qǐng)參見圖3所示,與圖1的實(shí)施例相比,圖3的變化例增加了一個(gè)輸入語音存儲(chǔ)裝置90,該輸入語音存儲(chǔ)裝置90與語音輸入裝置60相連,用于存儲(chǔ)語音輸入裝置60轉(zhuǎn)換輸出的輸入語音數(shù)據(jù)??刂蒲b置40可以根據(jù)需要(例如系統(tǒng)設(shè)定或用戶選擇),通過音頻輸出裝置70輸出存儲(chǔ)在輸入語音存儲(chǔ)裝置90中的輸入語音數(shù)據(jù)。
例如,在裝置播放了反饋語音數(shù)據(jù)之后,可以根據(jù)系統(tǒng)設(shè)定或用戶的選擇,通過音頻輸出設(shè)備70輸出存儲(chǔ)在輸入語音存儲(chǔ)裝置60內(nèi)的輸入語音數(shù)據(jù),供用戶了解自己的發(fā)音,或者根據(jù)系統(tǒng)設(shè)定或用戶選擇,再次輸出第一語音數(shù)據(jù)(引導(dǎo)語音數(shù)據(jù)),供用戶再次跟讀。
變化例三請(qǐng)參見圖4所示,與圖1的實(shí)施例相比,圖4的變化例增加了一個(gè)練習(xí)語句庫100和顯示裝置110。
該練習(xí)語句庫100包含至少一條練習(xí)語句顯示數(shù)據(jù),該練習(xí)語句顯示數(shù)據(jù)與第一語音庫中的第一語音數(shù)據(jù)相關(guān)聯(lián)??刂蒲b置40可以根據(jù)需要(例如系統(tǒng)設(shè)定或用戶選擇),把練習(xí)語句顯示數(shù)據(jù)通過顯示裝置110向用戶顯示。
例如,控制裝置40從第一語音庫10中選擇了一條第一語音數(shù)據(jù)之后,在通過音頻輸出裝置70輸出第一語音數(shù)據(jù)之前或之后,根據(jù)選出的第一語音數(shù)據(jù),通過關(guān)聯(lián)關(guān)系,從練習(xí)語句庫100中選擇相關(guān)聯(lián)的練習(xí)語句顯示數(shù)據(jù),并傳送給顯示裝置110,向用戶顯示。
變化例四請(qǐng)參見圖5所示,與圖4的實(shí)施例相比,圖5的變化例是用反饋顯示數(shù)據(jù)庫120替代了練習(xí)語句庫100。
該反饋顯示數(shù)據(jù)庫120包含了至少一條反饋顯示數(shù)據(jù),該反饋顯示數(shù)據(jù)與標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián)。在一個(gè)具體的例子中,反饋顯示數(shù)據(jù)顯示的內(nèi)容可以與反饋語音數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。控制裝置40可以根據(jù)需要(例如系統(tǒng)設(shè)定或用戶選擇),根據(jù)獲得的標(biāo)識(shí)數(shù)據(jù)以關(guān)聯(lián)關(guān)系,從反饋顯示數(shù)據(jù)庫120中得到相應(yīng)的反饋顯示數(shù)據(jù),然后,把反饋顯示數(shù)據(jù)通過顯示裝置110向用戶顯示,可以作為反饋語音數(shù)據(jù)的一個(gè)補(bǔ)充。
變化例五請(qǐng)參見圖4所示,在圖4的實(shí)施例中,除了把語音模型識(shí)別數(shù)據(jù)與一個(gè)標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián)之外,還可以把語音模型識(shí)別數(shù)據(jù)與一個(gè)分?jǐn)?shù)數(shù)據(jù)相關(guān)據(jù)。識(shí)別裝置50在進(jìn)行語音識(shí)別時(shí),除了獲得標(biāo)識(shí)數(shù)據(jù)之外,通過關(guān)聯(lián)關(guān)系,也可以同時(shí)獲得該分?jǐn)?shù)數(shù)據(jù),并提供給控制裝置40??刂蒲b置40可以把該分?jǐn)?shù)數(shù)據(jù)通過顯示裝置110向用戶顯示分?jǐn)?shù)數(shù)據(jù)。該分?jǐn)?shù)可以表示用戶此次練習(xí)的得分情況。
變化例六
請(qǐng)參見圖6所示,在圖6的實(shí)施例中,在識(shí)裝置50中還可以增加包含一個(gè)韻律分析裝置55。韻律分析裝置55可以判斷輸入語音數(shù)據(jù)(或?qū)W習(xí)者的發(fā)音)在重音、句子音調(diào)、語速等方面是否存在問題。韻律分析裝置55在作了上述的分析之后,輸出一個(gè)標(biāo)識(shí)數(shù)據(jù),提供給控制裝置40,然后由控制裝置40根據(jù)該標(biāo)識(shí)數(shù)據(jù),從第二語音庫20中,通過關(guān)聯(lián)查找得到第二語音數(shù)據(jù)。在本實(shí)施例中,韻律分析裝置55可以采用公知的技術(shù),,具體內(nèi)容可以參見例如“Spoken LanguageProcessing″(出自Prentice Hall PTR(2001))和Statistical Method for SpeechRecognition(出自MIT Press 98)。
雖然上面分別描述了一些本發(fā)明的實(shí)施例可能出現(xiàn)的一些變化例,但應(yīng)當(dāng)理解,上述這些描述并非是對(duì)本發(fā)明的限制,上述的這些變化例也可以相互組合形成新的變化例,例如變化例一可以和變化二組成構(gòu)成新的變化例,因這些組合對(duì)于本領(lǐng)域技術(shù)人員在了解了本發(fā)明之后都是可以推導(dǎo)而得的,因此為使描述不過于繁復(fù),在此不再一一描述。
權(quán)利要求
1.一種互動(dòng)型語言練習(xí)方法,包括如下步驟(a)提供第一語音庫,包含至少一條第一語音數(shù)據(jù);(b)提供一語音模型和語法庫,包含至少一條語音模型識(shí)別數(shù)據(jù);(c)將每一所述語音模型識(shí)別數(shù)據(jù)與一標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);(d)提供第二語音庫,包括至少一條第二語音數(shù)據(jù);(e)將所述標(biāo)識(shí)數(shù)據(jù)與所述第二語音庫的第二語音數(shù)據(jù)相關(guān)聯(lián);(f)從所述第一語音庫中選擇一條第一語音數(shù)據(jù),通過音頻裝置輸出;(g)接收學(xué)習(xí)者的語音輸入,轉(zhuǎn)換成輸入語音數(shù)據(jù);(h)將所述輸入語音數(shù)據(jù)通過所述語音模型和語法庫進(jìn)行語音識(shí)別,與一條語音模型識(shí)別數(shù)據(jù)相匹配,從而獲得一標(biāo)識(shí)數(shù)據(jù);(i)根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述第二語音庫中得到第二語音數(shù)據(jù);以及(j)通過音頻輸出裝置,輸出所述第二語音數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述第一語音庫為引導(dǎo)語音庫,所述第一語音數(shù)據(jù)是引導(dǎo)語音數(shù)據(jù)。
3.如權(quán)利要求2所述的方法,其特征在于,所述第二語音庫為反饋語音庫,所述第二語音數(shù)據(jù)為反饋語音數(shù)據(jù)。
4.如權(quán)利要求3所述的方法,其特征在于,還提供一第三語音庫,所述第三語音庫包含至少一條第三語音數(shù)據(jù);所述第三語音庫中的所述第三語音數(shù)據(jù)與所述第一語音庫中的所述第一語音數(shù)據(jù)相關(guān)聯(lián);在所述步驟(f)之后,還包括(f1)根據(jù)已輸出的所述第一語音數(shù)據(jù),利用所述第三語音數(shù)據(jù)與所述第一語音數(shù)據(jù)的關(guān)聯(lián)性,從所述第三語音庫中選擇一條第三語音數(shù)據(jù),通過音頻設(shè)備輸出。
5.如權(quán)利要求4所述的方法,其特征在于,所述第三語音庫是講解語音庫,所述第三語音數(shù)據(jù)為講解語音數(shù)據(jù)。
6.如權(quán)利要求4所述的方法,其特征在于,根據(jù)用戶的選擇決定是否執(zhí)行所述步驟(f1)。
7.如權(quán)利要求1或4所述的方法,其特征在于,在所述步驟(g)之后,還包括(g1)存儲(chǔ)所述輸入語音數(shù)據(jù)。
8.如權(quán)利要求7所述的方法,其特征在于,在所述步驟(j)之后,還包括(k)再次通過所述音頻輸出設(shè)備輸出所述第一語音數(shù)據(jù),或者通過所述音頻設(shè)備輸出在步驟(g1)存儲(chǔ)的所述輸入語音數(shù)據(jù)。
9.如權(quán)利要求1或4所述的方法,其特征在于,還包括提供一練習(xí)語句庫,包含至少一條練習(xí)語句顯示數(shù)據(jù),所述練習(xí)語句顯示數(shù)據(jù)與所述第一語音庫中的第一語音數(shù)據(jù)相關(guān)聯(lián);根據(jù)所述第一語音數(shù)據(jù),從所述練習(xí)語句庫中選擇一條練習(xí)語句顯示數(shù)據(jù),通過一顯示裝置顯示所述練習(xí)語句顯示數(shù)據(jù)。
10.如權(quán)利要求1或4所述的方法,其特征在于,還包括提供一反饋顯示數(shù)據(jù)庫,包含至少一條反饋顯示數(shù)據(jù),所述反饋顯示數(shù)據(jù)與所述標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);根據(jù)在步驟(h)得到的所述標(biāo)識(shí)數(shù)據(jù),從所述反饋顯示數(shù)據(jù)庫中選擇一條反饋顯示數(shù)據(jù),通過一顯示裝置顯示所述反饋顯示數(shù)據(jù)。
11.如權(quán)利要求1或4所述的方法,其特征在于,還包括將所述語音模型識(shí)別數(shù)據(jù)與一分?jǐn)?shù)數(shù)據(jù)相關(guān)聯(lián);在所述步驟(h)時(shí),獲得一分?jǐn)?shù)數(shù)據(jù);將該分?jǐn)?shù)數(shù)據(jù)通過一顯示裝置顯示。
12.如權(quán)利要求1或4所述的方法,其特征在于,所述語音模型識(shí)別數(shù)據(jù)包括標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)和錯(cuò)誤語音模型識(shí)別數(shù)據(jù),所述標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)為被視為正確發(fā)音的語音模型識(shí)別數(shù)據(jù);所述錯(cuò)誤語音模型識(shí)別數(shù)據(jù)為被視為錯(cuò)誤發(fā)音的語音模型識(shí)別數(shù)據(jù)。
13.如權(quán)利要求1或4所述的方法,其特征在于,所述第一引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù),所述第二引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù)。
14.一種互動(dòng)型語言練習(xí)裝置,包括第一語音庫,包含至少一條第一語音數(shù)據(jù);語音模型和語法庫,包含至少一條語音模型識(shí)別數(shù)據(jù)和與所述語音模型識(shí)別數(shù)據(jù)關(guān)聯(lián)的標(biāo)識(shí)數(shù)據(jù);第二語音庫,包括至少一條第二語音數(shù)據(jù),所述第二語音數(shù)據(jù)與所述標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);控制裝置,與所述第一語音庫相連,從所述第一語音庫中選擇第一語音數(shù)據(jù);音頻輸出裝置,與所述控制裝置和所述第一語音庫相連,根據(jù)所述控制裝置的選擇,從第一語音庫中得到所述第一語音數(shù)據(jù),并輸出;語音輸入裝置,用于接收用戶的語音輸入,并將所述語音輸入轉(zhuǎn)換成輸入語音數(shù)據(jù);以及識(shí)別裝置,與所述語音輸入裝置相連,用于接收所述輸入語音數(shù)據(jù),將所述輸入語音數(shù)據(jù)通過所述語音模型和語法庫進(jìn)行語音識(shí)別,與一條語音模型識(shí)別數(shù)據(jù)相匹配,獲得一標(biāo)識(shí)數(shù)據(jù);所述控制裝置還與所述識(shí)別裝置相連,接收所述標(biāo)識(shí)數(shù)據(jù),根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述第二語音庫中選出第二語音數(shù)據(jù);音頻輸出裝置還與所述第二語音庫相連,根據(jù)控制裝置的選擇,從第二語音庫中得到所述第二語音數(shù)據(jù),并輸出。
15.如權(quán)利要求14所述的裝置,其特征在于,所述第一語音庫為引導(dǎo)語音庫,所述第一語音數(shù)據(jù)是引導(dǎo)語音數(shù)據(jù)。
16.如權(quán)利要求15所述的裝置,其特征在于,所述第二語音庫為反饋語音庫,所述第二語音數(shù)據(jù)為反饋語音數(shù)據(jù)。
17.如權(quán)利要求15所述的裝置,其特征在于,還包括第三語音庫,包含至少一條第三語音數(shù)據(jù),所述第三語音庫中的所述第三語音數(shù)據(jù)與所述第一語音庫中的所述第一語音數(shù)據(jù)相關(guān)聯(lián);所述控制裝置還與所述第三語音庫相連,根據(jù)所述第一語音數(shù)據(jù),利用所述第三語音數(shù)據(jù)與所述第一語音數(shù)據(jù)的關(guān)聯(lián)性,從所述第三語音庫中選擇一條第三語音數(shù)據(jù);所述音頻設(shè)備還與所述第三語音庫相連,根據(jù)所述控制裝置的選擇,從第三語音庫中得到所述第三語音數(shù)據(jù),并輸出。
18.如權(quán)利要求17所述的裝置,其特征在于,所述第三語音庫是講解語音庫,所述第三語音數(shù)據(jù)為講解語音數(shù)據(jù)。
19.如權(quán)利要求14所述的裝置,其特征在于,還包括e輸入裝置,接收用戶的輸入,用于選擇第一語音數(shù)據(jù)。
20.如權(quán)利要求14或17所述的裝置,其特征在于,還包括輸入語音存儲(chǔ)裝置,與所述語音輸入裝置相連,用于存儲(chǔ)所述輸入語音數(shù)據(jù)。
21.如權(quán)利要求20所述的裝置,其特征在于,所述語音輸出裝置與所述輸入語音存儲(chǔ)裝置相連,用于輸出所述輸入語音數(shù)據(jù)。
22.如權(quán)利要求14或17所述的裝置,其特征在于,還包括練習(xí)語句庫,包含至少一條練習(xí)語句顯示數(shù)據(jù),所述練習(xí)語句顯示數(shù)據(jù)與所述第一語音庫相關(guān)聯(lián);顯示裝置;所述控制裝置與所述顯示裝置和所述練習(xí)語句庫相連,根據(jù)所述第一語音數(shù)據(jù),從所述練習(xí)語句庫中選擇一條練習(xí)語句顯示數(shù)據(jù),通過所述顯示裝置顯示所述練習(xí)語句顯示數(shù)據(jù)。
23.如權(quán)利要求14或17所述的裝置,其特征在于,還包括反饋顯示數(shù)據(jù)庫,包含至少一條反饋顯示數(shù)據(jù),所述反饋顯示數(shù)據(jù)與所述標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);所述控制裝置根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述反饋顯示數(shù)據(jù)庫中選擇一條反饋顯示數(shù)據(jù),通過所述顯示裝置顯示所述類型反饋顯示數(shù)據(jù)。
24.如權(quán)利要求23所述的裝置,其特征在于,所述語音模型識(shí)別數(shù)據(jù)還與一分?jǐn)?shù)數(shù)據(jù)相關(guān)聯(lián);所述識(shí)別裝置獲得分?jǐn)?shù)數(shù)據(jù),所述控制裝置從所述識(shí)別裝置接收所述分?jǐn)?shù)數(shù)據(jù),并將所述分?jǐn)?shù)數(shù)據(jù)提供給所述顯示裝置進(jìn)行顯示。
24.如權(quán)利要求13或16所述的裝置,其特征在于,所述語音模型識(shí)別數(shù)據(jù)包括標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)和錯(cuò)誤語音模型識(shí)別數(shù)據(jù),所述標(biāo)準(zhǔn)語音模型識(shí)別數(shù)據(jù)為正確發(fā)音的語音數(shù)據(jù);所述錯(cuò)誤語音模型識(shí)別數(shù)據(jù)為錯(cuò)誤發(fā)音的語音數(shù)據(jù)。
25.如權(quán)利要求13或16所述的裝置,其特征在于,所述第一引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù),所述第二引導(dǎo)語音數(shù)據(jù)為MP3格式的數(shù)據(jù)或OGG-Speex格式的數(shù)據(jù)。
全文摘要
本發(fā)明涉及智能互動(dòng)型語言練習(xí)方法和裝置,包括提供第一語音庫,包含至少一條第一語音數(shù)據(jù);提供一個(gè)語音模型和語法庫,包含至少一條語音模型識(shí)別數(shù)據(jù);將所述語音模型識(shí)別數(shù)據(jù)與標(biāo)識(shí)數(shù)據(jù)相關(guān)聯(lián);提供第二語音庫,包括至少一條第二語音數(shù)據(jù);將所述標(biāo)識(shí)數(shù)據(jù)與所述第二語音庫的第二語音數(shù)據(jù)相關(guān)聯(lián);從所述第一語音庫中選擇一條第一語音數(shù)據(jù),通過音頻裝置輸出;接收學(xué)習(xí)者的語音輸入,轉(zhuǎn)換成輸入語音數(shù)據(jù);將所述輸入語音數(shù)據(jù)通過所述語音模型和語法庫進(jìn)行語音識(shí)別,獲得一標(biāo)識(shí)數(shù)據(jù);根據(jù)所述標(biāo)識(shí)數(shù)據(jù),從所述第二語音庫中得到第二語音數(shù)據(jù);以及通過音頻輸出裝置,輸出所述第二語音數(shù)據(jù)。
文檔編號(hào)G09B7/00GK1952995SQ200510030
公開日2007年4月25日 申請(qǐng)日期2005年10月18日 優(yōu)先權(quán)日2005年10月18日
發(fā)明者潘鵬凱, 歐可祺, 蘇樂文 申請(qǐng)人:說寶堂信息科技(上海)有限公司