本發(fā)明涉及一種語音識別處理方法,尤其涉及一種高識別率的對大范圍波動的漢語方言語音識別處理方法,并涉及采用了該對大范圍波動的漢語方言語音識別處理方法的智能機器人。
背景技術:
我國擁有56個民族,地域廣人口多,雖然普通話作為國語,但是各個地方都有自己的方言和母語,并且同一個語種的發(fā)音也會由于地方口音等問題而有所不同,那么,對于,語音識別系統(tǒng)來說,如何準確識別和處理漢語方言或是帶有口音的音頻信號,就會面臨非常大的困難,尤其是對于老年人來說,其漢語方言或是地方口音更為嚴重,那么,對于語音控制撥打電話等基于語音識別功能的一些應用就勢必會面臨很大的識別率困難,非常容易造成識別失敗或是識別錯誤。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是需要提供一種高識別率的對大范圍波動的漢語方言語音識別處理方法,并需要提供采用了該對大范圍波動的漢語方言語音識別處理方法的智能機器人。
對此,本發(fā)明提供一種對大范圍波動的漢語方言語音識別處理方法,包括:
步驟S1,對用戶的音頻信號進行語音識別,并返回語音識別后的識別結果至管理中心;
步驟S2,在預先設置的目標關鍵字和語音識別后的識別結果之間建立映射表;
步驟S3,實時識別用戶的音頻控制指令,將實時識別的音頻控制指令結果通過映射表映射至通訊錄。
本發(fā)明的進一步改進在于,所述步驟S2中,建立映射表用于存儲所述語音識別后的識別結果,進而使得對同一用戶語音識別后的所有的識別結果均指向所述目標關鍵字的地址。
本發(fā)明的進一步改進在于,所述步驟S3包括以下子步驟:
步驟S301,實時識別用戶的音頻控制指令,得到實時識別的音頻控制指令結果后,判斷音頻控制指令結果是否為預先設置的目標關鍵字,若是,則直接調取所述目標關鍵字的地址;若否,則跳轉至步驟S302;
步驟S302,判斷音頻控制指令結果是否為映射表的識別結果中的任意一個,若是,則通過所述映射表的映射關系調取該識別結果對應的目標關鍵字的地址;若否,返回錯誤信號至管理中心。
本發(fā)明的進一步改進在于,所述步驟S3中,得到實時識別的音頻控制指令結果后,判斷所述音頻控制指令結果是否為所述目標關鍵字或識別結果中的任意一個,若是,則通過映射表調取目標關鍵字的地址;若否,則進入步驟S4實現(xiàn)自學習功能。
本發(fā)明的進一步改進在于,所述步驟S4中,返回音頻控制指令結果,并提示用戶選擇該音頻控制指令結果的所需要指向的目標關鍵字,當用戶選擇該音頻控制指令結果的所需要指向的目標關鍵字后,將所述音頻控制指令結果添加至所述目標關鍵字的映射表中以實現(xiàn)自學習功能。
本發(fā)明的進一步改進在于,所述步驟S1中,對同一用戶的音頻信號進行兩次或兩次以上的語音識別,并返回每一次語音識別后的識別結果至管理中心;所述步驟S2中,在預先設置的目標關鍵字和所述用戶所有的識別結果之間建立映射表。
本發(fā)明的進一步改進在于,所述步驟S1中,對同一個用戶的音頻信號進行語音識別時,當語音識別的次數(shù)在預設次數(shù)范圍內均未返回新的識別結果時,則結束步驟S1并跳轉至所述步驟S2。
本發(fā)明的進一步改進在于,所述步驟S1中,實現(xiàn)語音識別后,返回次數(shù)由多至少順序排序后的識別結果至管理中心;所述步驟S2中,根據(jù)排序的順序,將排序后的識別結果依次與所述預先設置的目標關鍵字建立映射關系。
本發(fā)明的進一步改進在于,所述步驟S3中,識別到音頻控制指令結果后,若該音頻控制指令結果指向同一用戶的多個目標關鍵字的映射表,則通過排序后的識別結果作為優(yōu)先級別實現(xiàn)映射;或,彈出指向同一用戶的多個目標關鍵字以供用戶選擇。
本發(fā)明還提供一種智能機器人,所述智能機器人采用了如上所述的對大范圍波動的漢語方言語音識別處理方法。
與現(xiàn)有技術相比,本發(fā)明的有益效果在于:先對用戶的音頻信號進行語音識別,并返回語音識別后的識別結果,然后在語音識別后的識別結果和預先設置的目標關鍵字之間建立映射表,這樣子,不管由于其漢語方言或是用戶口音而導致語音識別出來的識別結果是什么,只要預先將識別結果保存并與目標關鍵字相匹配形成映射表,就能夠在實時識別用戶的音頻控制指令之后,通過映射表映射至通訊錄,很好地消除了由于漢語方言或是用戶口音而帶來的無法準確識別語音的問題,對于語音控制撥打電話等基于語音識別功能的一些應用來說,漢語方言和用戶口音也不再是語音識別的難題;因此,本發(fā)明提高了對于漢語方言的語音識別準確率和適應性,應用范圍很廣,不再局限于識別標準的普通話而是適用于各種漢語方言和用戶口音,尤其是對于老年人來說,更是大大提高了這一特殊群體中的語音識別的適應性和識別率。
附圖說明
圖1是本發(fā)明一種實施例的工作流程示意圖;
圖2是本發(fā)明一種實施例的工作原理示意圖;
圖3是本發(fā)明一種實施例的人機界面示意圖。
具體實施方式
下面結合附圖,對本發(fā)明的較優(yōu)的實施例作進一步的詳細說明。
如圖1至圖3所示,本例提供一種對大范圍波動的漢語方言語音識別處理方法,包括:
步驟S1,對用戶的音頻信號進行語音識別,并返回語音識別后的識別結果至管理中心;
步驟S2,在預先設置的目標關鍵字和語音識別后的識別結果之間建立映射表;
步驟S3,實時識別用戶的音頻控制指令,將實時識別的音頻控制指令結果通過映射表映射至通訊錄。
本例所述管理中心可以是設置于智能機器人中的主控模塊,也可以是遠程管理中心,如遠程服務器等;所述步驟S2中,建立映射表用于存儲所述語音識別后的識別結果,進而使得對同一用戶語音識別后的所有的識別結果均指向所述目標關鍵字的地址;也就是說,對同一用戶語音識別后的所有的識別結果均與預先設置的目標關鍵字等效。所述步驟S3中,音頻控制指令指的是用戶在實際操作中為了實現(xiàn)某一功能的語音指令,而音頻控制指令結果則是識別音頻控制指令后提取的與映射表相對應的關鍵字,比如音頻控制指令是撥打大兒子電話,那么,其識別音頻控制指令結果提取與映射表相對應的關鍵字“大兒子”,并實現(xiàn)撥打通訊錄中大兒子的聯(lián)系號碼,該步驟S3可以通過現(xiàn)有的聲控撥打電話功能來實現(xiàn)。
本例以通過對粵語的語音識別實現(xiàn)語音控制撥打電話為例,比如用戶的目標關鍵字是“大兒子”,也就是說,通訊錄里面的地址是大兒子的聯(lián)系號碼,正確的識別結果應該是“大仔”;但是由于語音識別平臺、地方口音或是用戶自己的發(fā)音等原因,對粵語里面“大兒子”的語音識別所返回的識別結果往往并不準確,經(jīng)常會返回比如“帶仔”、“大獎”、“大只”和“呆仔”等各種錯誤的識別結果,那么,在現(xiàn)有技術中,這種錯誤的識別結果是沒有辦法找到通訊錄里面“大兒子”的地址的,也就沒法實現(xiàn)語音控制撥打電話的功能。
如圖1和圖2所示,本例通過先對用戶的音頻信號進行語音識別,比如對某一個用戶的音頻信號進行連續(xù)幾次的語音識別,如果識別出來的結果共包括“大仔”、“帶仔”、“大獎”、“大只”和“呆仔”這五種,那么,返回這幾種語音識別后的識別結果,并將“大仔”、“帶仔”、“大獎”、“大只”和“呆仔”這五種語音識別后的識別結果均和預先設置的目標關鍵字“大兒子”之間建立映射表,這樣子,不管由于語音識別平臺、地方口音或是用戶個人口音而導致語音識別出來的識別結果是這五種結果中的哪一種,只要通過識別結果與目標關鍵字相匹配所形成映射表,就能夠在實時識別該用戶的音頻控制指令(比如語音控制撥打“大兒子”電話)之后,通過映射表映射至通訊錄里面的大兒子的地址,進而很好地消除了由于語音識別平臺、漢語方言、地方口音或是用戶個人口音而帶來的無法準確識別語音的問題,對于語音控制撥打電話等基于語音識別功能的一些應用來說,語音識別平臺、漢語方言、地方口音以及用戶個人口音都不再是語音識別的難題。
也就是說,本例很好地提高了對于漢語方言的語音識別準確率,對于大范圍波動的漢語方言的適用性和識別率都很高,應用范圍很廣,不再局限于識別標準的普通話而是適用于各種漢語方言和口音,尤其是對于老年人來說,更是大大提高了這一特殊群體中的語音識別的適應性和識別率。
在實際應用中,在語音控制撥打電話時,由于很多老年人的普通話或是漢語方言不夠標準,比如通過普通話念目標關鍵字“大兒子”時,可能識別結果是“帶兒子”;而通過普通話念目標關鍵字“大女兒”時,可能識別結果是“帶女子”;而通過普通話念目標關鍵字“清姨”時,可能識別結果是“青衣”等等,為此,本例通過所述對大范圍波動的漢語方言語音識別處理方法實現(xiàn)了個性化口音名稱設置的功能,如圖3所示,這樣,用戶在輸入目標關鍵字時,此時的目標關鍵字為個性化口音姓名,就可以通過步驟S1和步驟S2將語音識別的識別結果均與預先設置的目標關鍵字對應匹配起來,進而在步驟S3接收并識別到用戶的音頻控制指令后,通過映射表映射至通訊錄,實現(xiàn)語音控制撥打電話的功能;所述音頻控制指令指的是用戶在實際使用過程中的語音指令,比如撥打大兒子電話等,反饋出來的音頻控制指令結果就是撥打通訊錄中大兒子聯(lián)系號碼。
本例所述步驟S3包括以下子步驟:
步驟S301,實時識別用戶的音頻控制指令,得到實時識別的音頻控制指令結果后,判斷音頻控制指令結果是否為預先設置的目標關鍵字,若是,則直接調取所述目標關鍵字的地址;若否,則跳轉至步驟S302;
步驟S302,判斷音頻控制指令結果是否為映射表的識別結果中的任意一個,若是,則通過所述映射表的映射關系調取該識別結果對應的目標關鍵字的地址;若否,返回錯誤信號至管理中心。
也就是說,在實際應用中,目標關鍵字的優(yōu)選級別高于映射表中保存的識別結果,這樣設置的目的在于,既保證了發(fā)音不標準的用戶能夠有效實現(xiàn)漢語方言的語音識別和處理,同時也優(yōu)先保證發(fā)音標準的用戶能夠更快實現(xiàn)基本的語音識別和處理;所述錯誤信號指的是音頻控制指令結果與映射表中的識別結果無法匹配時,返回的控制失敗提示信號;經(jīng)過試驗證明,在語音控制撥打電話的功能,本例對于一些發(fā)音非常不標準的老人的漢語方言的語音識別準確率幾乎高達百分之百。
值得一提的是,本例所述步驟S3中,得到實時識別的音頻控制指令結果后,判斷所述音頻控制指令結果是否為所述目標關鍵字或識別結果中的任意一個,若是,則通過映射表調取目標關鍵字的地址;若否,則進入步驟S4實現(xiàn)自學習功能。優(yōu)選的,所述步驟S4中,返回音頻控制指令結果,并提示用戶選擇該音頻控制指令結果的所需要指向的目標關鍵字,當用戶選擇該音頻控制指令結果的所需要指向的目標關鍵字后,將所述音頻控制指令結果添加至所述目標關鍵字的映射表中以實現(xiàn)自學習功能。
這樣設置的原因在于,假如某一用戶的音頻控制指令結果中,提取出來的信息對應不到目標關鍵字,能夠通過自學習不斷完善所述映射表,進而使得映射表的適用性更加廣;比如音頻控制指令結果是“撥打通訊錄中大兒子聯(lián)系號碼”,那么,理論上來說,找到的就是通訊錄中的目標關鍵字“大兒子”的地址,或是映射表中“大仔”、“帶仔”、“大獎”、“大只”和“呆仔”等識別結果,這兩種情況都能夠準確實現(xiàn)用戶的音頻控制指令;但是如果該用戶的音頻控制指令結果所提取出來的信息變成“大崽”或是變成任意一個不屬于目標關鍵字“大兒子”、也不屬于映射表中的識別結果“大仔”、“帶仔”、“大獎”、“大只”和“呆仔”的詞語時,就無法完成音頻控制指令;而基于本例所設置的自學習步驟,就會不斷完善和補充所述映射表,使得所述對大范圍波動的漢語方言語音識別處理方法具有實時完善和自我修復的功能。
優(yōu)選的,本例所述步驟S1中,對同一用戶的音頻信號進行兩次或兩次以上的語音識別,并返回每一次語音識別后的識別結果至管理中心,也就是說,所述步驟S1盡可能多識別幾次該用戶對于同一目標關鍵字的音頻信號,進而盡量使得同一目標關鍵字對應的識別結果全面且準確;所述步驟S2中,在預先設置的目標關鍵字和所述用戶所有的識別結果之間建立映射表,如圖2和圖3所示。
更為具體的,本例所述步驟S1中,對同一個用戶的音頻信號進行語音識別時,當語音識別的次數(shù)在預設次數(shù)范圍內均未返回新的識別結果時,則結束步驟S1并跳轉至所述步驟S2。所述預設次數(shù)可以根據(jù)實際情況進行自定義設置,一般優(yōu)選為5~6次,比如,在連續(xù)5~6次對用戶的同一目標關鍵字進行音頻信號的語音識別時,若均沒有出現(xiàn)新的識別結果,則認為其識別結果已經(jīng)是全面且準確的;這樣設置的理由在于,雖然用戶的口音不一定標準,但是每一個用戶對于同一個目標關鍵字的讀音其實是變化不大的,只要其識別結果已經(jīng)覆蓋完整,那么語音識別的準確率就會有所保障。
優(yōu)選的,所述步驟S1中,實現(xiàn)語音識別后,返回排序后的識別結果,該排序優(yōu)選為次數(shù)由多至少的順序排序;所述步驟S2中,根據(jù)排序的順序,將排序后的識別結果依次與所述預先設置的目標關鍵字建立映射關系。比如粵語的語音識別中,目標關鍵字為“大兒子”,在所述步驟S1中識別多次之后,識別結果從高到低的排序是:“大仔”、“帶仔”、“大獎”、“大只”和“呆仔”,那么,在映射表中,其映射關系也就是“大仔”、“帶仔”、“大獎”、“大只”和“呆仔”,這樣做的好處在于,能夠更加有效保證語音識別的速度。
此外,本例所述步驟S3中,識別到音頻控制指令結果后,若該音頻控制指令結果指向同一用戶的多個目標關鍵字的映射表,則通過排序后的識別結果作為優(yōu)先級別實現(xiàn)映射;或,彈出指向同一用戶的多個目標關鍵字以供用戶選擇。
這樣設置的原因在于,漢語中存在多音字和同音字,那么,難免同一用戶的不同目標關鍵字之間可能識別出來的識別結果有所重疊,比如:“姨姨”和“伊一”之類的詞語,在語音識別里面,出現(xiàn)的識別結果很有可能是重疊的,那么,本例通過排序結果作為優(yōu)先級別實現(xiàn)映射或是通過用戶自主選擇來實現(xiàn)具體的功能,就能夠很好地保證針對不同的用戶都滿足其要求。
值得一提的是,本例所述的語音識別是針對特定用戶的音頻信號,而不局限于該用戶的語種,因此不管是普通話、粵語、湖南話或是其他任何的漢語方言均可適用,也就是說,本例主要針對的是大范圍波動的漢語方言,這是現(xiàn)有技術中語音識別均沒有實現(xiàn)的功能,此為其一;其二,本例的識別率和適應性非常高,因為每一個用戶對于同一個目標關鍵字的音頻信號的識別結果都是有限的,通過本例的映射表能夠很好地解決識別率和適應性的問題;其三,本例所述的語音識別不局限于硬件的語音識別模塊或是網(wǎng)絡語音識別平臺,還可以是離線的語音識別軟件等等,比如語音識別APP;其四,本例所述通訊錄不局限于電話簿里面的通訊錄,還可以是微信或是其他即時通軟件的通訊錄,比如在微信中,通過安卓系統(tǒng)的無障礙助手/插件等配合,也能實現(xiàn)語音查找通訊錄并實現(xiàn)語音聊天或是視頻聊天,這是非常方便和實用的,尤其是對于老年人等特殊群體的用戶來說,只要語音識別就能夠代替“打開微信→通訊錄→查找聯(lián)系人→視頻聊天→視頻聊天/語音聊天”這些操作步驟,是非常實用的功能,其意義是非常重大的!
本例還提供一種智能機器人,所述智能機器人采用了如上所述的對大范圍波動的漢語方言語音識別處理方法。所述智能機器人優(yōu)選為針對老年人或是特殊群體的智能機器人。
以上內容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本發(fā)明的保護范圍。