專利名稱:帶方言背景的漢語語音識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機人工智能及模式識別技術(shù)領(lǐng)域,特別涉及通過計算機識別人類語音的方法。
語音識別器由兩個部分組成一個是聲學(xué)模型(Acoustic Model,AM),一個是語言模型(Language Model,LM)。
聲學(xué)模型用于把聲音信號轉(zhuǎn)換為漢語聲韻母(或音節(jié))的網(wǎng)格,實現(xiàn)由信號到聲音符號(用聲韻母或拼音表示)的轉(zhuǎn)換。目前最有效、最通用的實現(xiàn)聲學(xué)模型的方法是隱式馬爾可夫模型(Hidden Markov Model,HMM)方法及由其派生出來的方法。聲學(xué)模型分為聲學(xué)模型的訓(xùn)練過程和聲學(xué)模型的識別過程兩個部分,如圖1所示。聲學(xué)模型的訓(xùn)練過程1(簡稱聲學(xué)訓(xùn)練),包括聲學(xué)特征提取、聲學(xué)訓(xùn)練和聲學(xué)模型庫的建立;它利用從大量的說話人所說的話語中提取出來的聲學(xué)特征為每個聲學(xué)識別基元(也稱識別基元、基元或語音識別基元)建立一個模型,對漢語的語音識別,識別基元通常為漢語音節(jié)、漢語聲韻母或漢語音素等。聲學(xué)模型的識別過程2(簡稱聲學(xué)識別),包括聲學(xué)特征提取、聲學(xué)搜索;它用模型庫中的模型與某段發(fā)音的聲學(xué)特征進行匹配比較,從而找到最可能的匹配模型序列或網(wǎng)格,也就是聲學(xué)識別的結(jié)果;由于模型序列有很多種可能性,識別過程需要盡可能有效地嘗試各種可能的模型序列組合,這相當(dāng)于在模型序列空間中進行最優(yōu)序列的搜索,因此聲學(xué)模型的識別過程也稱為聲學(xué)模型的搜索過程(簡稱聲學(xué)搜索)。在語音識別的整個過程中,聲學(xué)搜索是第一階段,其輸出結(jié)果往往是語音識別基元的網(wǎng)格的形式,它是下一階段的輸入,如圖2所示,圖中,灰色的圓圈中是實際所發(fā)音節(jié)的拼音(實際發(fā)音為我們是中國人),而其他圓圈中的拼音是聲學(xué)搜索輸出的其他可能的候選。
語言模型用以刻劃句子的上下文中相鄰詞之間的搭配概率關(guān)系。目前最常用的語言模型是稱為Tri-gram(三元組)的語言模型,它給出了任意三個詞a、b和c之間的搭配概率P(c|a,b)。語言模型部分也分為語言模型的訓(xùn)練過程和語言模型的搜索過程兩個部分。語言模型的訓(xùn)練過程當(dāng)已經(jīng)有海量的漢語文本(稱為訓(xùn)練文本)時,通過簡單的計數(shù)方法,可以統(tǒng)計出任意三個詞之間的搭配次數(shù),從而估算出其搭配概率;語言模型的搜索過程在把聲學(xué)搜索的中間結(jié)果--語音識別基元網(wǎng)格--轉(zhuǎn)換為漢語句子過程中,語言模型用以從眾多可能的候選中根據(jù)最大似然的原則挑選出最好的句子候選。這里最大似然準則意味著最大概率。在搜索過程中,句子概率用下式計算P(w1,w2,···,wN)≈P(w1)·P(w2|w1)·Πn=3NP(wn|wn-2,wn-1)]]>其中詞的三元組(wn-2,wn-1,wn)出現(xiàn)的概率,也就是P(wn|wn-2,wn-1),是從訓(xùn)練文本中通過已有語言模型訓(xùn)練方法學(xué)習(xí)來的。
在進行語言模型的搜索時,采用搜索樹約束其空間擴展的速度和程度,以保證搜索的效率。搜索樹的例子如圖3所示,這是按聲母和韻母組織的。搜索樹中總共有三類節(jié)點。根節(jié)點用雙圓環(huán)表示,是一棵樹的起點,也是搜索過程的起點。中間節(jié)點用黑色圓點表示,在從中間節(jié)點的父節(jié)點指向該節(jié)點的有向弧上標出的是聲學(xué)基元,圖3中表示的聲學(xué)基元是聲母、韻母;其中一個節(jié)點的父節(jié)點定義為用箭頭指向該節(jié)點的那個節(jié)點,在搜索樹中,除根節(jié)點外任何一個節(jié)點的父節(jié)點都有且只有一個。葉子節(jié)點用白色圓點表示,在從葉子節(jié)點的父節(jié)點指向該節(jié)點的有向弧上標出的是漢語的詞,表示該詞讀音的拼音串就是從根節(jié)點到該葉子節(jié)點所經(jīng)過的所有有向弧上標出的聲母和韻母按順序組成的拼音串;由于指向葉子節(jié)點的有向弧是唯一的,因此,把該有向弧對應(yīng)的詞稱作該葉子節(jié)點所對應(yīng)的詞。
搜索樹中所有的葉子節(jié)點所對應(yīng)的詞組成了語音識別器的整個詞表。大詞匯連續(xù)漢語語音識別器的詞表一般含5~6萬漢語詞匯。語言模型的搜索過程,就是把聲學(xué)搜索中間結(jié)果--語音識別基元網(wǎng)格(按聲韻母或按拼音組織)--與搜索樹(按聲韻母或按拼音組織)進行匹配比較,利用語言模型概率計算公式,從而找到最大似然句子的過程。在搜索過程中,如果識別基元網(wǎng)格的某條路徑與搜索樹的某個葉子節(jié)點所對應(yīng)的有向弧已經(jīng)匹配完成,則搜索樹會自動回復(fù)到根節(jié)點起點,除非此時識別基元網(wǎng)格中的那條路徑已經(jīng)匹配到最后一個基元。
大詞匯連續(xù)漢語語音識別器已經(jīng)取得了很大的進展,對標準普通話,識別器的準確率可以達到95%以上。但是,漢語的方言問題是漢語語音識別面臨的主要問題。由于在中國大部分人的普通話都帶有一定的方言背景,在這樣的情況下,大部分的語音識別器的性能都會大大下降,甚至降至不能使用的地步。
在中國,漢語有八大方言區(qū)(1)北方方言——以黃河流域為中心,東北和長江流域中部及西南各省;(2)吳方言——上海地區(qū)、江蘇東南部和浙江大部分;(3)湘方言——湖南省大部分地區(qū);(4)贛方言——江西省大部分地區(qū)和湖北東南角;(5)客家方言——廣東、廣西、福建、江西部分地區(qū);(6)閩北方言——福建北部和臺灣部分地區(qū);(7)閩南方言——福建南部、廣東潮汕、臺灣大部分、海南部分地區(qū);(8)粵方言——廣東中部及西南部、廣西東南部。
這八大方言又可以進一步分為40多個子方言。各方言都有各自明顯的特點,使得有方言背景的說話人的普通話與標準普通話存在一定的差別。
目前很多識別器對方言背景對語音識別器性能造成的影響是用數(shù)據(jù)庫方法去消除或減弱的,就是說,當(dāng)已經(jīng)有一個對標準普通話進行識別的語音識別器,需要對帶某種方言背景的普通話進行識別時,采用的方法為收集大量與該方言有關(guān)的語音數(shù)據(jù)庫,然后利用已有的聲學(xué)模型訓(xùn)練方法去重新訓(xùn)練聲學(xué)模型,或利用已有的說話人自適應(yīng)方法對聲學(xué)模型進行自適應(yīng)。這種方法的缺點是(1)收集帶方言背景的數(shù)據(jù)庫的工作量非常巨大,對于漢語這么多的方言,數(shù)據(jù)庫的收集更是一件巨大的工程。(2)這種方法無法兼顧標準普通話和帶發(fā)音背景普通話之間的共性,僅是通過數(shù)據(jù)驅(qū)動的方法去解決問題,相當(dāng)于完全重新構(gòu)建一個語音識別器,給不同方言背景的語音識別器之間的資源共享和兼容帶來困難。
本發(fā)明提出一種帶方言背景的漢語語音識別方法,包括一個漢語標準普通話的語音識別器;其特征在于,該方法包括以下步驟1)根據(jù)特定方言的特點,構(gòu)建從普通話讀音到方言讀音的音節(jié)映射表;2)根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;
3)用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹。
經(jīng)過以上三個步驟的改造,漢語標準普通話的語音識別器就可以識別帶方言背景的普通話。
本發(fā)明的原理說明如下帶方言背景的普通話與標準普通話之間存在很多共性,通過一定的語言知識,可以讓它們很好結(jié)合起來,使得帶方言背景的普通話的語音識別器與標準普通話的語音識別器共用在一個框架下。根據(jù)語言學(xué)知識,帶方言背景的普通話,其音節(jié)表與標準普通話的音節(jié)表是類似的。但是由于方言背景的影響,帶方言背景的普通話的實際音節(jié)發(fā)音會發(fā)生變化如果所說的普通話比較標準,那么這種變化很??;相反,則可能保留很多方言的發(fā)音特點。總結(jié)來說,這種變化分為幾種,兩者發(fā)音的映射關(guān)系如圖4所示(映射前后的發(fā)音均用標準普通話的拼音、聲母或韻母表示)(1)詞無關(guān)(Word-Independent)的聲母和韻母變化,這種變化在任何詞中都可能發(fā)生,并不受具體詞的影響。比如南方口音把聲母zh、ch、sh分別發(fā)成z、c、s;把韻母eng和en、ing和in、或ang和an混淆等。
(2)詞相關(guān)(Word-Dependent)的音節(jié)變化,這種變化因詞而異。比如,在四川話中,拼音guo在“中國”中讀gui,而在“過去”中仍然讀guo。
圖4中,帶箭頭的虛線表示詞無關(guān)的音節(jié)映射,由于只發(fā)生聲母或韻母的變化,圖中僅把相關(guān)的聲母或韻母用黑體標出,該線段由標準普通話的發(fā)音指向所映射成的方言中的發(fā)音。圖4中,帶箭頭的實線表示詞相關(guān)的音節(jié)映射,由該詞中發(fā)生映射音節(jié)的標準普通話發(fā)音指向其在該方言中的發(fā)音;詞中沒有發(fā)生發(fā)音變化,或發(fā)生詞無關(guān)發(fā)音變化的那些音節(jié),則不標出,相應(yīng)的漢字用“[]”標出。
本發(fā)明具有以下特征1)充分利用語言層面的知識和規(guī)律,變換方言背景時,不用采集大量用于自適應(yīng)的語音數(shù)據(jù)庫,因而可以節(jié)省大量的工作量;2)不同方言背景的普通話語音識別器與標準普通話的語音識別器共用相同的聲學(xué)模型和語言模型;3)變換方言背景時,只需要變換音節(jié)映射表即可,支持音節(jié)映射表的聲學(xué)搜索算法與語言搜索算法可以很好地解決方言背景對發(fā)音的影響,因而使用和維護方便;4)語音識別器既可以識別標準普通話,又可以識別帶有各種程度的方言背景的普通話,因而可以很大程度地提高漢語普通話語音識別器的性能。
圖1是已有的語音識別之聲學(xué)模型訓(xùn)練和搜索的總體框圖。
圖2是已有語音識別中聲學(xué)搜索輸出的結(jié)果示例(拼音的網(wǎng)格)。
圖3是按聲母和韻母組織的搜索樹示例。
圖4是四川話發(fā)音變化的示例(用標準普通話的拼音表示音節(jié)映射關(guān)系)。
圖5是音節(jié)映射表構(gòu)建的流程圖。
圖6是搜索樹擴展的流程圖。
圖7是搜索樹中按詞無關(guān)的音節(jié)映射對對有向弧進行擴展的示例。
上述步驟1)構(gòu)建音節(jié)映射表的方法實施例,如圖5所示,包括以下步驟(1)根據(jù)語言知識總結(jié)相關(guān)方言的音節(jié)映射規(guī)律;(2)對于任何一個詞無關(guān)的音節(jié)映射,如果映射是發(fā)生在聲母,則注冊聲母映射對{I*(x)}→{I*(y)},它表示含有聲母x的音節(jié)其聲母會映射成y,-例如{I*(zh)}→{I*(z)},{I*(hu}→{I*(w)}等;(3)對于任何一個詞無關(guān)的音節(jié)映射,如果映射是發(fā)生在韻母,則注冊韻母映射對{*F(x)}→{*F(y)},它表示含有韻母x的音節(jié)其韻母會映射成y,例如{*F(en)}→{*F(eng},{*F(eng}→{*F(en)}等;(4)對于任何一個詞相關(guān)的音節(jié)映射,則注冊音節(jié)映射對{W(x1,…,xn)}→{W(y1,…,yn)},它表示在詞W的上下文環(huán)境下,詞W的音節(jié)串由(x1,…,xn)映射成(y1,…,yn),其中,沒有發(fā)生音節(jié)映射的音節(jié),或僅發(fā)生詞無關(guān)的音節(jié)映射的音節(jié),相應(yīng)的yi用“*”標出,例如{中國(zhong,guo)}→{中國(*,gui)},表示在“中國”這個詞中,音節(jié)guo發(fā)生詞相關(guān)音節(jié)映射成為gui,而僅發(fā)生詞無關(guān)音節(jié)映射的音節(jié)zhong,在箭頭右端用“*”標出。
上述步驟2)擴展搜索樹的方法實施例,如圖6所示,包括以下步驟(1)根據(jù)每一個詞相關(guān)的音節(jié)映射對{W(x1,…,xn)}→{W(y1,…,yn)},向詞表中加入一個新詞W,其中該詞的漢字串不變,用以表示該詞的標識碼(在已有語音識別器中每一個詞有唯一的標識碼)不變,該詞的音節(jié)串(y1,…,yn)中用“*”標出的拼音從原詞相應(yīng)的音節(jié)復(fù)制過來,對每一個這樣的詞,該步驟使得它有個一個新的讀音;(2)按已有的搜索樹的創(chuàng)建方法,為加入了新詞后的詞表建立新的搜索樹;(3)對每一個詞無關(guān)的音節(jié)映射{I*(x)}→{I*(y)}或{*F(x)}→{*F(y)},檢查搜索樹中所有非葉子節(jié)點對應(yīng)的有向弧,如果該有向弧中所標的聲母或韻母是x,則將該有向弧擴展出一個與之并列的同向有向弧,并標以y;如圖7所示,圖中粗線表示的有向弧是根據(jù)大箭頭上面的音節(jié)映射對所擴展出來的有向弧。
上述步驟3)的用擴展了的搜索樹替換已有語音識別器中的搜索樹方法實施例為,在搜索樹擴展完成后,不用修改已有識別器中的聲學(xué)搜索算法和語言搜索算法,直接用已有的語音識別器中去指導(dǎo)聲學(xué)搜索和語言搜索。
權(quán)利要求
1.一種帶方言背景的漢語語音識別方法,包括一個漢語標準普通話的語音識別器;其特征在于,該方法包括以下步驟1)根據(jù)特定方言的特點,構(gòu)建從普通話讀音到方言讀音的音節(jié)映射表;2)根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;3)用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹。
2.如權(quán)利要求1所述的帶方言背景的漢語語音識別方法,其特征在于,所說的步驟1)構(gòu)建音節(jié)映射表的方法,具體包括以下步驟(1)根據(jù)語言知識總結(jié)相關(guān)方言的音節(jié)映射規(guī)律;(2)對于任何一個詞無關(guān)的音節(jié)映射,如果映射是發(fā)生在聲母,則注冊聲母映射對{I*(x)}→{I*(y)},式中表示含有聲母x的音節(jié)其聲母會映射成y;(3)對于任何一個詞無關(guān)的音節(jié)映射,如果映射是發(fā)生在韻母,則注冊韻母映射對{*F(x)}→{*F(y)},式中表示含有韻母x的音節(jié)其韻母會映射成y;(4)對于任何一個詞相關(guān)的音節(jié)映射,則注冊音節(jié)映射對{W(x1,…,xn)}→{W(y1,…,yn)},式中表示在詞W的上下文環(huán)境下,詞W的音節(jié)串由(x1,…,xn)映射成(y1,…,yn),其中,沒有發(fā)生音節(jié)映射的音節(jié),或僅發(fā)生詞無關(guān)的音節(jié)映射的音節(jié),相應(yīng)的yi用“*”標出。
3.如權(quán)利要求1所述的帶方言背景的漢語語音識別方法,其特征在于,所說的步驟2)擴展搜索樹的方法,具體包括以下步驟(1)根據(jù)每一個詞相關(guān)的音節(jié)映射對{W(x1,…,xn)}→→{W(y1,…,yn)},向詞表中加入一個新詞W,其中該詞的漢字串不變,用以表示該詞的標識碼不變,該詞的音節(jié)串(y1,…,yn)中用“*”標出的拼音從原詞相應(yīng)的音節(jié)復(fù)制過來,對每一個這樣的詞,有一個新的讀音;(2)按已有的搜索樹的創(chuàng)建方法,為加入了新詞后的詞表建立新的搜索樹;(3)對每一個詞無關(guān)的音節(jié)映射{I*(x)}→{I*(y)}或{*F(x)}→{*F(y)},檢查搜索樹中所有非葉子節(jié)點對應(yīng)的有向弧,如果該有向弧中所標的聲母或韻母是x,則將該有向弧擴展出一個與之并列的同向有向弧,并標以y。
4.如權(quán)利要求1所述的帶方言背景的漢語語音識別方法,其特征在于,所說的步驟3)的用擴展了的搜索樹替換已有語音識別器中的搜索樹方法為,在搜索樹擴展完成后,不修改已有識別器中的聲學(xué)搜索算法和語言搜索算法,直接用已有的語音識別器中去指導(dǎo)聲學(xué)搜索和語言搜索。
全文摘要
本發(fā)明屬于計算機人工智能及模式識別技術(shù)領(lǐng)域,涉及帶方言背景的漢語語音識別方法。本發(fā)明包括根據(jù)特定方言的特點,構(gòu)建從普通話讀音到方言讀音的音節(jié)映射表;根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹。本發(fā)明可節(jié)省大量的錄制數(shù)據(jù)庫的工作量;不同方言背景的普通話語音識別器與標準普通話的語音識別器共用相同的聲學(xué)模型和語言模型;變換方言背景時,只需要變換音節(jié)映射表即可,因而使用和維護方便;語音識別器既可以識別標準普通話,又可以識別帶有各種程度的方言背景的普通話,因而可以很大程度地提高漢語普通話語音識別器的性能。
文檔編號G10L15/00GK1412741SQ0215560
公開日2003年4月23日 申請日期2002年12月13日 優(yōu)先權(quán)日2002年12月13日
發(fā)明者鄭方 申請人:鄭方