專(zhuān)利名稱(chēng):用于測(cè)量語(yǔ)調(diào)相似性的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于測(cè)量語(yǔ)調(diào)相似性的方法,并特別涉及一種能夠有效地用于外語(yǔ)學(xué)習(xí)或發(fā)音校正的用于測(cè)量語(yǔ)調(diào)相似性的方法,其中對(duì)從用戶的語(yǔ)音數(shù)據(jù)中提取的音調(diào)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(normalized)和均勻化(leveled),并且通過(guò)對(duì)用戶的語(yǔ)調(diào)給出分?jǐn)?shù)而客觀地判斷與標(biāo)準(zhǔn)語(yǔ)調(diào)的相似性。
背景技術(shù):
隨著工業(yè)的專(zhuān)業(yè)化和全球化的趨勢(shì),現(xiàn)代人對(duì)外語(yǔ)越來(lái)越感興趣。為順應(yīng)此趨勢(shì),已開(kāi)發(fā)了各種語(yǔ)言學(xué)習(xí)設(shè)備和語(yǔ)言學(xué)習(xí)程序。
在這些語(yǔ)言程序中,預(yù)先登記期望被識(shí)別的目標(biāo)詞匯,并且用戶念出一個(gè)或幾個(gè)詞匯。語(yǔ)言程序在登記的詞匯之中找到與說(shuō)出的詞匯相似的詞匯,并輸出對(duì)應(yīng)的詞匯。以真/假類(lèi)型或分?jǐn)?shù)類(lèi)型來(lái)表示結(jié)果。用戶可判斷他/她自己的發(fā)音的準(zhǔn)確性。
此類(lèi)評(píng)估方法計(jì)算發(fā)出的語(yǔ)音信號(hào)相對(duì)于對(duì)應(yīng)詞或句子的統(tǒng)計(jì)聲學(xué)模型的概率值。于是,通過(guò)將該概率值與根據(jù)相對(duì)于說(shuō)本族語(yǔ)的人的概率值而預(yù)先計(jì)算的閾值作比較,而評(píng)估發(fā)音的準(zhǔn)確性。評(píng)估方法包括特征提取操作、語(yǔ)音識(shí)別操作、以及評(píng)估操作。
然而,此方法等同于一般的語(yǔ)音識(shí)別,并對(duì)于詞或完整的句子而顯示出與母語(yǔ)發(fā)音的相似性。該傳統(tǒng)方法不能精細(xì)地分析和比較構(gòu)成詞的音節(jié)或單音的發(fā)音的準(zhǔn)確性。
為解決這些問(wèn)題,韓國(guó)專(zhuān)利公開(kāi)第2002-0067870號(hào)公開(kāi)了基于語(yǔ)音識(shí)別技術(shù)而學(xué)習(xí)英語(yǔ)發(fā)音的方法和系統(tǒng)。根據(jù)此公開(kāi),有可能評(píng)估重音、語(yǔ)調(diào)和速度、以及用戶發(fā)音的準(zhǔn)確性。因此,集中的發(fā)音學(xué)習(xí)成為可能,并且,提供學(xué)習(xí)結(jié)果的統(tǒng)計(jì)文檔,作為可示出發(fā)音改進(jìn)程度的信息。用戶可通過(guò)監(jiān)視基于單音和質(zhì)量的統(tǒng)計(jì),而檢查發(fā)音改進(jìn)程度,并可被激發(fā)出學(xué)習(xí)意愿。
具體地,通過(guò)將從用戶發(fā)音提取出的音調(diào)的能量和模式(pattern)與從說(shuō)本族語(yǔ)的人的發(fā)音提取出的音調(diào)的能量和模式作比較,而確定用戶的發(fā)音是否正確??商鎿Q地,從訓(xùn)練數(shù)據(jù)庫(kù)得到有限數(shù)目的語(yǔ)調(diào)模式模型,并通過(guò)使用語(yǔ)調(diào)模式模型的組合的相關(guān)評(píng)估,而評(píng)估發(fā)音的準(zhǔn)確性。
然而,不作出有關(guān)這些方法的詳細(xì)描述。僅確定語(yǔ)調(diào)是否正確,而不評(píng)估相似度。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用于測(cè)量語(yǔ)調(diào)相似性的方法,其中,可通過(guò)對(duì)用戶語(yǔ)調(diào)給出分?jǐn)?shù)而客觀地判斷與標(biāo)準(zhǔn)語(yǔ)調(diào)的相似度。因而,該方法可有效地用于外語(yǔ)學(xué)習(xí)或發(fā)音校正。
根據(jù)本發(fā)明,一種用于測(cè)量語(yǔ)調(diào)相似性的方法包括以下步驟從用戶的語(yǔ)音數(shù)據(jù)提取音調(diào)數(shù)據(jù);在預(yù)置頻帶上映射提取出的音調(diào)數(shù)據(jù),以對(duì)該音調(diào)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;對(duì)不存在音調(diào)數(shù)據(jù)的部分進(jìn)行均勻化;通過(guò)參照提取出的基于詞組的時(shí)間信息以時(shí)間為單位而重新劃分和處理音調(diào)數(shù)據(jù);以及通過(guò)將處理過(guò)的音調(diào)數(shù)據(jù)與標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的音調(diào)數(shù)據(jù)相匹配,而測(cè)量相似性。
在均勻化步驟中,可將不存在音調(diào)數(shù)據(jù)的部分的兩端的音調(diào)平均值分配給對(duì)應(yīng)的部分。
所述預(yù)置頻帶可為50-200Hz的頻帶。當(dāng)音調(diào)數(shù)據(jù)的最大值和最小值之間的差小于60Hz時(shí),可將音調(diào)數(shù)據(jù)與50-150Hz的頻帶相映射。
可以以詞組為單位從由基于計(jì)算機(jī)的語(yǔ)音自動(dòng)劃分系統(tǒng)自動(dòng)劃分的用戶的語(yǔ)音數(shù)據(jù)中提取時(shí)間信息。
通過(guò)參照附圖而對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,本發(fā)明的以上目的和其它優(yōu)點(diǎn)將變得更為明顯,其中圖1為圖解根據(jù)本發(fā)明的實(shí)施例的用于測(cè)量語(yǔ)調(diào)相似性的方法的流程圖;圖2為圖解標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)和用戶的語(yǔ)音數(shù)據(jù)的音調(diào)曲線的圖;以及圖3為圖解對(duì)于圖2的音調(diào)曲線中不存在音調(diào)數(shù)據(jù)的部分使用兩端的音調(diào)平均值而執(zhí)行均勻化操作時(shí)的音調(diào)曲線的圖。
具體實(shí)施例方式
現(xiàn)在,將通過(guò)參照附圖來(lái)詳細(xì)描述本發(fā)明的優(yōu)選實(shí)施例。
圖1為圖解根據(jù)本發(fā)明的實(shí)施例的用于測(cè)量語(yǔ)調(diào)相似性的方法的流程圖。
語(yǔ)調(diào)表示語(yǔ)音數(shù)據(jù)中的音高,并可通過(guò)一些特性之中的音調(diào)來(lái)表示。音調(diào)表示周期性的信號(hào)的周期,并可通過(guò)音調(diào)周期或音調(diào)頻率來(lái)表示。
由于語(yǔ)音數(shù)據(jù)中的無(wú)語(yǔ)音(voiceless)或無(wú)聲(mute)的聲音以不具有周期性特性的噪聲形式而存在,所以,音調(diào)不在無(wú)語(yǔ)音或無(wú)聲的聲音中出現(xiàn)。也就是說(shuō),僅在有語(yǔ)音的聲音中提取音調(diào)周期。
參照?qǐng)D1,在步驟S10和S11中,當(dāng)輸入了用于測(cè)量語(yǔ)調(diào)相似性的用戶語(yǔ)音時(shí),使用程序工具而提取音調(diào)數(shù)據(jù)。
音調(diào)提取方法是公知的。例如,使用自相關(guān)函數(shù),選擇音調(diào)候選路徑并設(shè)置最佳音調(diào)路徑。于是,使用中值濾波器而對(duì)提取出的音調(diào)數(shù)據(jù)進(jìn)行平滑。這樣,可提取音調(diào)數(shù)據(jù)。
在步驟S12中,通過(guò)與預(yù)置頻帶的映射而對(duì)提取出的音調(diào)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
每個(gè)人具有不同的音調(diào)頻帶。女人的音調(diào)頻帶約為200-300Hz,而男人的音調(diào)頻帶約為80-150Hz。也就是說(shuō),女人的音調(diào)頻帶和男人的音調(diào)頻帶之間存在巨大的差異。
因而,提取出的音調(diào)數(shù)據(jù)需要被標(biāo)準(zhǔn)化。關(guān)于標(biāo)準(zhǔn)化,從提取出的音調(diào)數(shù)據(jù)得到除了0之外的最大值和最小值。于是,基于所述最大和最小值,將除了0之外的所有點(diǎn)與50-200Hz的頻帶映射。
在音調(diào)數(shù)據(jù)的最大值和最小值之間的差小于60Hz時(shí),優(yōu)選將所述點(diǎn)與50-150Hz的頻帶相映射。
在步驟S13中,對(duì)不存在音調(diào)數(shù)據(jù)的部分進(jìn)行均勻化。在標(biāo)準(zhǔn)化的音調(diào)數(shù)據(jù)中存在的無(wú)語(yǔ)音部分或無(wú)聲部分中,沒(méi)有音調(diào)數(shù)據(jù)。因此,如果將其應(yīng)用于后面將描述的匹配操作,則會(huì)產(chǎn)生匹配錯(cuò)誤。為此原因,對(duì)不存在音調(diào)數(shù)據(jù)的部分執(zhí)行均勻化操作。
例如,圖2為在輸入語(yǔ)音數(shù)據(jù)“Let’s read a bit more it’s only 10 o’clock”時(shí)的音調(diào)曲線圖。在圖2中,中斷部分為無(wú)聲部分或短暫停(sp)部分,并且在中斷部分中不存在語(yǔ)音數(shù)據(jù)。因而,在這些部分中,可通過(guò)在其音調(diào)平均值處連接兩端而執(zhí)行均勻化操作。
圖3為圖解對(duì)于圖2的音調(diào)曲線中不存在音調(diào)數(shù)據(jù)的部分使用兩端的音調(diào)平均值而執(zhí)行均勻化操作時(shí)的音調(diào)曲線的圖。上面的圖示出了對(duì)標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的均勻化,而下面的圖示出了對(duì)用戶的語(yǔ)音數(shù)據(jù)的均勻化。
同時(shí),在步驟S21中,由基于計(jì)算機(jī)的語(yǔ)音自動(dòng)劃分系統(tǒng)對(duì)輸入的用戶的語(yǔ)音數(shù)據(jù)自動(dòng)地進(jìn)行劃分。在步驟S22中,以詞組為單位從語(yǔ)音數(shù)據(jù)提取時(shí)間信息。在此發(fā)明的申請(qǐng)人所提交的韓國(guó)專(zhuān)利申請(qǐng)第2003-90052號(hào)中公開(kāi)了有關(guān)時(shí)間信息的提取的詳細(xì)描述。
在步驟S14中,通過(guò)參照提取出的基于詞組的時(shí)間信息而以時(shí)間為單位重新劃分和處理音調(diào)數(shù)據(jù)。在此實(shí)施例中,將音調(diào)數(shù)據(jù)劃分為“Let’s read a”、“bit more”、“it’s only”、以及“10 o’clock”。
可一次全部地映射該音調(diào)數(shù)據(jù)。然而,通過(guò)語(yǔ)音自動(dòng)劃分而比較基于詞組的音調(diào)數(shù)據(jù),可增加可靠性。
并且,將以上操作同等地應(yīng)用于標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)。為了簡(jiǎn)明,將描述有關(guān)其的詳細(xì)內(nèi)容。
在圖3中,垂直的點(diǎn)劃線表示通過(guò)參照時(shí)間信息、基于詞組單位而處理的音調(diào)數(shù)據(jù)。在步驟S15中,通過(guò)將在下部示出的處理過(guò)的音調(diào)數(shù)據(jù)與在上部示出的標(biāo)準(zhǔn)音調(diào)數(shù)據(jù)相匹配,而測(cè)量相似性。
可使用語(yǔ)音識(shí)別算法中最基本的動(dòng)態(tài)時(shí)間偏差(Dynamic Time Warping,DTW)算法來(lái)執(zhí)行該匹配。
在圖3的匹配結(jié)果中,對(duì)詞組“Let’s read a”給出高的相似性分?jǐn)?shù)92分,而由于不相似的模式而對(duì)詞組“bit more”給出低的相似性分?jǐn)?shù)67分。
如上所述,通過(guò)對(duì)基于詞組的語(yǔ)音數(shù)據(jù)進(jìn)行匹配、并給出客觀的相似性分?jǐn)?shù),除了語(yǔ)調(diào)的正確與否之外,還可提供相似度。
并且,可通過(guò)對(duì)用戶語(yǔ)調(diào)給出分?jǐn)?shù)而客觀地判斷與標(biāo)準(zhǔn)語(yǔ)調(diào)的相似度。根據(jù)本發(fā)明的方法可有效地用于外語(yǔ)學(xué)習(xí)或發(fā)音校正。
盡管已詳細(xì)地描述了本發(fā)明,但應(yīng)當(dāng)理解,可對(duì)其作出各種改變、替換、以及變更,而不背離由所附權(quán)利要求限定的本發(fā)明的精神和范圍。
權(quán)利要求
1.一種用于測(cè)量語(yǔ)調(diào)相似性的方法,包括以下步驟從用戶的語(yǔ)音數(shù)據(jù)中提取音調(diào)數(shù)據(jù);在預(yù)置頻帶上映射所提取的音調(diào)數(shù)據(jù),以對(duì)該音調(diào)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;對(duì)不存在音調(diào)數(shù)據(jù)的部分進(jìn)行均勻化;通過(guò)參照提取出的基于詞組的時(shí)間信息而以時(shí)間為單位重新劃分和處理音調(diào)數(shù)據(jù);以及通過(guò)將處理過(guò)的音調(diào)數(shù)據(jù)與標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的音調(diào)數(shù)據(jù)相匹配,而測(cè)量相似性。
2.如權(quán)利要求1所述的方法,其中在均勻化步驟中,將不存在音調(diào)數(shù)據(jù)的部分的兩端的音調(diào)平均值分配給對(duì)應(yīng)的部分。
3.如權(quán)利要求1所述的方法,其中所述預(yù)置頻帶為50-200Hz的頻帶。
4.如權(quán)利要求3所述的方法,其中當(dāng)音調(diào)數(shù)據(jù)的最大值和最小值之間的差小于60Hz時(shí),將音調(diào)數(shù)據(jù)與50-150Hz的頻帶相映射。
5.如權(quán)利要求1所述的方法,其中以詞組為單位從由基于計(jì)算機(jī)的語(yǔ)音自動(dòng)劃分系統(tǒng)自動(dòng)劃分的用戶的語(yǔ)音數(shù)據(jù)中提取時(shí)間信息。
全文摘要
一種用于測(cè)量語(yǔ)調(diào)相似性的方法,包括以下步驟從用戶的語(yǔ)音數(shù)據(jù)提取音調(diào)數(shù)據(jù);在預(yù)置頻帶上映射提取出的音調(diào)數(shù)據(jù),以對(duì)該音調(diào)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;對(duì)不存在音調(diào)數(shù)據(jù)的部分進(jìn)行均勻化;通過(guò)參照提取出的基于詞組的時(shí)間信息而以時(shí)間為單位重新劃分和處理音調(diào)數(shù)據(jù);以及通過(guò)將處理過(guò)的音調(diào)數(shù)據(jù)與標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的音調(diào)數(shù)據(jù)相匹配,而測(cè)量相似性。因而,可通過(guò)對(duì)用戶語(yǔ)調(diào)給出分?jǐn)?shù)而客觀地判斷與標(biāo)準(zhǔn)語(yǔ)調(diào)的相似度。
文檔編號(hào)G10L15/00GK1892816SQ200510082059
公開(kāi)日2007年1月10日 申請(qǐng)日期2005年7月1日 優(yōu)先權(quán)日2005年7月1日
發(fā)明者鄭道祥, 金茂中 申請(qǐng)人:株式會(huì)社言語(yǔ)科學(xué)