專利名稱:具語音辨識的交互式語言學習方法
技術領域:
本發(fā)明是一種具語音辨識的交互式語言學習方法,特別是關于一種交互式的語言學習方法,利用語音辨識技術分析比對練習者所練習的語言是否正確的方式。
背景技術:
當前,英文是一種世界流行最廣的語言,為了面對邁向國際化的今天,以及加入W.T.O.后的國際沖擊,要能生存于國際上就必須加強提升英文能力,因此如何激勵人們自動自發(fā)學習英文,以提升國際競爭力,是相當重要的。但是學習語言最重要的關鍵就是詞匯,然而除非有語言老師在旁協(xié)助對話,以及糾正練習者的發(fā)音,否則大部分的人僅能從書本、錄音帶或計算機軟件學習到聽、讀、寫,而無法練習到說。
目前民間語言教學媒體各種各樣,多不勝數(shù),單就英文教材及許多的速成教學方式,大都著重在語言的聽、讀、寫記憶練習,而無法著重于說的練習,主要的原因既是在于練習者無法自行判斷是否說的正確,也無相關的軟硬件輔助練習者來判斷是否說的正確。
在專利文獻方面,如臺灣專利公告號第470904號,是一種交互式教學系統(tǒng)與方法,其是披露一種利用計算機的網(wǎng)絡學習系統(tǒng)及交互式的計算機學習方法,可由復數(shù)客戶端與一個服務器聯(lián)機,透過該服務器的學習系統(tǒng)數(shù)據(jù)庫,進行網(wǎng)絡上的語言學習。
又如臺灣專利公告號第472222號,是一種計算機輔助語言學習方法與系統(tǒng),同樣揭露一種利用計算機來輔助使用者進行詞匯、文法、句型等語言練習,其中更包括有語音數(shù)據(jù)庫,可發(fā)出正確的語音供使用者練習。
然而上述的兩件專利同樣地具有無法輔助練習者判斷其說出的語言是否正確的缺點,因此本案發(fā)明人為解決上述現(xiàn)有語言教學輔助媒體無法輔助說部分的缺陷,乃特地潛心研究并配合學理的運用,提出一種具語音辨識的交互式語言學習方法,是利用目前極為熱門的語音辨識技術,結合在語言學習輔助軟件或硬件中,可借由語音辨識輔助語言學習者練習說的部分,是一種設計合理且有效改善上述缺陷的發(fā)明。
發(fā)明內容
本發(fā)明是提供以下的技術手段來達成交互式語言學習的目的本發(fā)明的主要技術特征是在于提供一種具語音辨識的交互式語言學習方法,以分析比對練習者的語言是否正確,本發(fā)明包括有一個跟說模式或一個交互方式,其方法首先擷取并播放任一該語言聲音數(shù)據(jù),等待一個時間值,讓練習者輸入一個練習聲音信號后,進行語音辨識產(chǎn)生該語音辨識數(shù)據(jù),接著比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù)產(chǎn)生一個近似度值,最后比較該近似度值與該預設調整值,儲存該練習者練習該語言聲音數(shù)據(jù)的正確或錯誤信息,以便統(tǒng)計該練習者所有練習的正確或錯誤信息記錄,達成交互式語言學習的功效。
圖1是本發(fā)明使用于一個單機系統(tǒng)的架構示意圖。
圖2是本發(fā)明使用于一個網(wǎng)絡系統(tǒng)的架構示意圖。
圖3是本發(fā)明第一實施例跟說模式的流程示意圖。
圖4是本發(fā)明第二實施例交互方式的流程示意圖。
符號說明1單機系統(tǒng)2計算機裝置3語言學習主機10 中央處理器
11語音辨識器12語言儲存媒體13語音播放裝置14聲音擷取裝置15顯示器具體實施方式
為了使貴審查員能進一步了解本發(fā)明為達成預定目的所采取的技術、手段及功效,請參閱以下有關本發(fā)明的詳細說明與附圖,相信本發(fā)明的目的、特征與特點,當可由此得到一個深入且具體的了解,然而所附圖式僅提供參考與說明用,并非用來對本發(fā)明加以限制。
請參閱圖1所示,是本發(fā)明使用于一個單機系統(tǒng)的架構示意圖,圖2是本發(fā)明使用于一個網(wǎng)絡系統(tǒng)的架構示意圖。本發(fā)明的具語音辨識的交互式語言學習方法可使用以一個單機系統(tǒng)1上,如一臺個人計算機(PC)或一臺隨身語言學習機,讓一個練習者可借由該單機系統(tǒng)1學習語言。本發(fā)明也可使用在一個主從式架構的網(wǎng)絡系統(tǒng)中,利用一臺計算機裝置2聯(lián)機至一臺語言學習主機3上,以便讓復數(shù)該練習者進行語言學習。
本發(fā)明若使用于單機系統(tǒng)1時,該語言學習機中至少包括一個中央處理器10、一個語音辨識器11、一個語言儲存媒體12、一個語音播放裝置13及一個聲音擷取裝置14,本發(fā)明若使用在網(wǎng)絡系統(tǒng)時,該語言學習機3中至少包括一個中央處理器10、一個語音辨識器11、一個語言儲存媒體12,而該遠程計算機裝置2至少包括一個語音播放裝置13及一個聲音擷取裝置14。
其中該語言儲存媒體12是可以為一個語言數(shù)據(jù)庫或一個語言檔案,其中儲存了復數(shù)語言學習用的單字、詞組、語句或問答對話等文字及語音數(shù)據(jù),而該語音播放裝置13是用以播放該語言儲存媒體12中的語音數(shù)據(jù),可以為一個聲卡或一個喇叭,該聲卡的輸出端可連接該喇叭,而該聲音擷取裝置14是用以擷取該練習者的練習聲音,可以為一個聲卡或一個麥克風,該聲卡的輸入端連接至該麥克風。
其中該中央處理器10是用以執(zhí)行一個語言學習程序,可由該程控或記錄該練習者的學習進度或者統(tǒng)計學習成績等,而該語音辨識器11是用以辨識該練習者所輸入的練習聲音,以便與儲存于該語言儲存媒體12中的語音數(shù)據(jù)進行比對,以決定出該練習者所輸入的練習聲音是否正確。
本發(fā)明所執(zhí)行的語言學習程序,主要包括有兩種學習模式,第一為跟說模式,第二為交互方式,而每一模式都可以包括有兩種語言型態(tài),例如以中文學習英文的跟說或對話型態(tài),或者以英文學習英文的跟說或對話型態(tài),如圖3所示是本發(fā)明第一實施例跟說模式的流程示意圖,因此在本發(fā)明執(zhí)行該語言學習程序前,需先設定該語言學習模式為跟說模式或交互方式100。
在該實施例中,首先擷取儲存于該語言儲存媒體12中的任一該語言聲音數(shù)據(jù),如英文單字或語句,并由該喇叭播放出該語言聲音數(shù)據(jù)101,且可依學習的課程進度來逐一擷取所需學習的該語言聲音數(shù)據(jù),以中文學習英文為例,該語言聲音數(shù)據(jù)中就可能包含有一個英文語音及一個中文語音,且該中文語音是對應于該英文語音的翻譯語音,當播放該語言聲音數(shù)據(jù)時,可先播放該中文語音,再播放該英文語音,然后讓練習者借由該麥克風輸入一個練習聲音信號,也即跟說該英文語音。
接著本發(fā)明等待一個時間值102,例如五秒鐘,若在該五秒鐘內該練習者未跟說該英文語音,也即在該五秒鐘內為未輸入該練習聲音信號,或許表示該練習者尚未聽清楚,則重復再播放該語言聲音數(shù)據(jù)一次,使該練習者重復聆聽。當該練習者借由該麥克風輸入該練習聲音信號103后,本發(fā)明即進行語音辨識該練習聲音信號,產(chǎn)生一語音辨識數(shù)據(jù)104。
在語音辨識技術方面,目前已有很大的進步,最典型的語音辨識包括有宜接相異度比較法、LPC特征參數(shù)擷取法及語音音包分析比較法…等等,有不下上千篇的相關論文及眾多的學者專家已研究出高達90%辨識率的技術,由于本發(fā)明并非申請語音辨識技術,而是應用該語音辨識技術,故而不再詳述其技術內容。本發(fā)明以LPC特征參數(shù)擷取法為例,先將該練習者的練習聲音信號轉換為一語音波形,接著將該語音波形區(qū)分成一系列的音框,然后替每個音框求出一組線形預測系數(shù),最后擷取出其中高音波能量的特征參數(shù)值,以產(chǎn)生出該語音辨識數(shù)據(jù)。
當本發(fā)明求出該語音辨識數(shù)據(jù)之后,接著比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù)產(chǎn)生一個近似度值105,借由該近似度值決定該練習者練習該語言聲音數(shù)據(jù)的正確性。而比對的方法也與語音辨識的方法相同,將該練習聲音信號與該語言聲音數(shù)據(jù)都轉換為語音波形,由該語音波形中擷取至少一個特征參數(shù)值,再逐一比對該特征參數(shù)值是否相近,而產(chǎn)生該近似度值。
最后比較該近似度值與一個預設調整值106,若該近似度值高于該預設調整值,即表示練習者跟說的練習聲音信號與所播放的該語音聲音數(shù)據(jù)近似,完成此一個單字或語句的語言學習,但若該近似度值低于該預設調整值,則會發(fā)出一個錯誤訊息的語音,要求練習者重新再跟說一次,而該預設調整值可事先調整其與該近似度值的比較比例,本發(fā)明將其區(qū)分成高/中/低三種比對正確率,初學者用低正確率的預設調整值,而進階者可用中/高的正確率預設調整值。
本發(fā)明在每一次完成語句練習后不論正確與否都會儲存該練習者練習該語言聲音數(shù)據(jù)的正確或錯誤信息107,并記錄所練習的該語言聲音數(shù)據(jù)的編號、練習次數(shù)或練習時間。若完成一次課程或一個學習階段后,可統(tǒng)計該練習者所有練習的正確或錯誤信息記錄108,并加以評分后以一個顯示器15顯示該評分結果。而所記錄的該語言聲音數(shù)據(jù)的編號、練習次數(shù)或練習時間可作為往后重復練習的參考數(shù)據(jù),并以錯誤較多次的該語言聲音數(shù)據(jù)編號為優(yōu)先擷取及播放參考,也可以練習時間隔離較久的該語言聲音數(shù)據(jù)編號為優(yōu)先擷取及播放參考。
請參閱圖4所示,是本發(fā)明第二實施例交互方式的流程示意圖,本發(fā)明交互方式的流程大致與跟說模式相同,其不同處在于該語言聲音數(shù)據(jù)中包括有一個問句語音及一個答句語音,而該問句語音是作為播放之用,該答句語音是作為比較該練習者的練習聲音信號之用。
在該實施例中,同樣地先擷取儲存于該語言儲存媒體12中的任一該語言聲音數(shù)據(jù),并由該喇叭播放出該語言聲音數(shù)據(jù)201,以中文學習英文為例,該語言聲音數(shù)據(jù)中包含有一個英文問句語音、一個中文問句語音及一個英文答句語音,且先播放該中文問句語音,再播放該英文問句語音,然后讓練習者借由該麥克風輸入回答出該英文答句語音。
接著本發(fā)明等待一個時間值202,當該練習者借由該麥克風輸入該練習聲音信號203后,本發(fā)明即進行語音辨識該練習聲音信號,產(chǎn)生該語音辨識數(shù)據(jù)204,接著比對該語音辨識數(shù)據(jù)與英文答句的該語言聲音數(shù)據(jù)產(chǎn)生一個近似度值205,最后比較該近似度值與該預設調整值206,儲存該練習者練習該語言聲音數(shù)據(jù)的正確或錯誤信息207,以便統(tǒng)計該練習者所有練習的正確或錯誤信息記錄208。
于是,本發(fā)明確能借上述所披露的技術,提供一種迥然不同于習知者的設計,堪能提高整體的使用價值,又其申請前未見于刊物或公開使用,誠已符合發(fā)明專利的要求,故依法提出發(fā)明專利的申請。
以上所披露的圖式、說明,僅為本發(fā)明的實施例而已,凡精于此項技藝者當可依據(jù)上述的說明作其它種種的改良,而這些改變仍屬于本發(fā)明的發(fā)明精神及以下所界定的專利范圍中。
權利要求
1.一種具語音辨識的交互式語言學習方法,其特征在于該方法至少包括下列步驟擷取并播放一語言聲音數(shù)據(jù);輸入一個練習者的練習聲音信號;語音辨識該練習聲音信號,產(chǎn)生一語音辨識數(shù)據(jù);以及比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù),產(chǎn)生一個近似度值,借由該近似度值決定該練習者練習該語言聲音數(shù)據(jù)的正確性。
2.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中擷取該語言聲音數(shù)據(jù)的步驟前更包括設定一個語言學習模式為一個跟說模式或一個交互方式。
3.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中擷取該語言聲音數(shù)據(jù)是由一個資料儲存媒體中擷取任一該語言聲音數(shù)據(jù)。
4.如權利要求3所述的具語音辨識的交互式語言學習方法,其特征在于,其中擷取該語言聲音數(shù)據(jù)是由該資料儲存媒體中依課程進度逐一擷取其中某一該語言聲音數(shù)據(jù)。
5.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中該語言聲音數(shù)據(jù)包含有第一語音及第二語音,且該第二語音是對應于該第一語音的翻譯語音。
6.如權利要求4所述的具語音辨識的交互式語言學習方法,其特征在于,其中該第一語言是英文語音,而該第二語言是中文語音。
7.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中播放該語言聲音數(shù)據(jù)是由該喇叭播放該語言聲音數(shù)據(jù)。
8.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中播放該語言聲音數(shù)據(jù)的步驟中,若該語言聲音數(shù)據(jù)中包含一個第一語音及一個第二語音時,先播放該第二語音,再播放該第一語音。
9.如權利要求8所述的具語音辨識的交互式語言學習方法,其特征在于,其中該第一語音是英文語音,而該第二語音是中文語音。
10.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中輸入該練習者的該練習聲音信號的步驟前更包括下列步驟等待一個時間值;及在該時間值內,若該練習者未輸入該練習聲音信號,則重復播放該語言聲音數(shù)據(jù)。
11.如權利要求10所述的具語音辨識的交互式語言學習方法,其特征在于,其中該時間值可以為五秒鐘。
12.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中輸入該練習者該練習聲音信號是使用一個麥克風。
13.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中該語言聲音數(shù)據(jù)可以為一個問句語音及一個答句語音,且該問句語音作為播放之用,而該答句語音是作為比較該練習者的練習聲音信號之用。
14.如權利要求13所述的具語音辨識的交互式語言學習方法,其特征在于,其中該問句語音是可作為一個英文語音問句或一個中文語音問句。
15.如權利要求13所述的具語音辨識的交互式語言學習方法,其特征在于,其中該答句語音是可作為一個英文語音答句或一個中文語音答句。
16.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中語音辨識該練習聲音信號的步驟中更包括下列步驟轉換該練習聲音信號為一個語音波形;及擷取該語音波形中的至少一個特征參數(shù)值,產(chǎn)生該語音辨識數(shù)據(jù)。
17.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù)的步驟中,該比對方式更包括下列步驟將該練習聲音信號與該語言聲音數(shù)據(jù)都轉換為語音波形;由該語音波形中擷取至少一個特征參數(shù)值,再逐一比對該特征參數(shù)值是否相近,而產(chǎn)生該近似度值。
18.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù)的步驟后更包括下列步驟比較該近似度與一個預設調整值;若該近似度值高于該預設調整值,則完成此次語言學習;及若該近似度值低于該預設調整值,則發(fā)出一個錯誤語音,要求重新輸入該練習聲音信號。
19.如權利要求18所述的具語音辨識的交互式語言學習方法,其特征在于,其中該預設調整值可事先調整比較該近似度值的比例,并區(qū)分成高/中/低三種比對正確率。
20.如權利要求1所述的具語音辨識的交互式語言學習方法,其特征在于,其中比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù)的步驟后更包括儲存該練習者練習該語言聲音數(shù)據(jù)的正確或錯誤信息,并記錄該語言聲音數(shù)據(jù)的編號、練習次數(shù)或練習時間。
21.如權利要求20所述的具語音辨識的交互式語言學習方法,其特征在于,其儲存比對記錄的步驟后更包括統(tǒng)計該練習者所有練習該語言聲音數(shù)據(jù)的正確或錯誤信息記錄,加以評分后,以一個顯示器顯示該評分結果。
22.如權利要求21所述的具語音辨識的交互式語言學習方法,其特征在于,其中記錄該語言聲音數(shù)據(jù)的編號、練習次數(shù)或練習時間的步驟,可作為往后重復練習的參考數(shù)據(jù)。
23.如權利要求22所述的具語音辨識的交互式語言學習方法,其特征在于,其中該重復練習的參考數(shù)據(jù)是以錯誤較多次的該語言聲音數(shù)據(jù)編號為優(yōu)先擷取及播放。
24.如權利要求22所述的具語音辨識的交互式語言學習方法,其特征在于,其中該重復練習的參考數(shù)據(jù)是以練習時間隔離較久的該語言聲音數(shù)據(jù)編號為優(yōu)先擷取及播放。
全文摘要
一種具語音辨識的交互式語言學習方法,特別是關于一種利用語音辨識技術作為交互式的語言學習的方法,以分析比對練習者所練習的語言是否正確,本發(fā)明包括有一個跟說模式或一個交互方式,其方法首先擷取并播放任一該語言聲音數(shù)據(jù),等待一個時間值,讓練習者輸入一個練習聲音信號后,進行語音辨識產(chǎn)生該語音辨識數(shù)據(jù),接著比對該語音辨識數(shù)據(jù)與該語言聲音數(shù)據(jù)產(chǎn)生一個近似度值,最后比較該近似度值與該預設調整值,儲存該練習者練習該語言聲音數(shù)據(jù)的正確或錯誤信息,以便統(tǒng)計該練習者所有練習的正確或錯誤信息記錄,達成交互式語言學習的目的。
文檔編號G06F15/18GK1581130SQ0315353
公開日2005年2月16日 申請日期2003年8月15日 優(yōu)先權日2003年8月15日
發(fā)明者彭文富 申請人:彭文富