專利名稱:一種個(gè)性化的語(yǔ)音識(shí)別的方法及裝置的制作方法
一種個(gè)性化的語(yǔ)音識(shí)別的方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù),特別涉及一種個(gè)性化的語(yǔ)音識(shí)別方法及裝置。
背景技術(shù):
語(yǔ)音識(shí)別技術(shù)在很多領(lǐng)域都有重要的應(yīng)用,例如語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航等應(yīng)用,都依賴語(yǔ)音識(shí)別技術(shù)。語(yǔ)音識(shí)別效果的好壞,直接影響到各種與語(yǔ)音識(shí)別相關(guān)的應(yīng)用的效果好壞。語(yǔ)音識(shí)別模型所具有的描述語(yǔ)音到文本的能力,是影響語(yǔ)音識(shí)別效果好壞的關(guān)鍵因素?,F(xiàn)有技術(shù)采用相同的語(yǔ)音識(shí)別模型對(duì)各種用戶的語(yǔ)音進(jìn)行識(shí)別,由于相同的語(yǔ)音識(shí)別模型,很難描述不同用戶的語(yǔ)音差異,因此,采用這種方式進(jìn)行語(yǔ)音識(shí)別,很多情況下的 識(shí)別精度不佳,難以滿足用戶語(yǔ)音識(shí)別的個(gè)性化需求。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種個(gè)性化的語(yǔ)音識(shí)別方法及裝置,以提高在各種用戶下的語(yǔ)音識(shí)別的精度。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種個(gè)性化的語(yǔ)音識(shí)別的方法,包括:A.確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則執(zhí)行步驟B ;B.確定所述待識(shí)別語(yǔ)音所屬方言類另IJ,并利用所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括當(dāng)無(wú)法確定所述待識(shí)別語(yǔ)音所屬方言類別時(shí),利用通用語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟A中,對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后進(jìn)一步包括根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別豐吳型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B中,對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后進(jìn)一步包括根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的步驟包括提取待識(shí)別語(yǔ)音的聲學(xué)特征,并確定所述待識(shí)別語(yǔ)音的聲學(xué)特征與所述授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識(shí)別語(yǔ)音屬于所述授權(quán)用戶,否則確定所述待識(shí)別語(yǔ)音不屬于所述授權(quán)用戶。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,確定所述待識(shí)別語(yǔ)音所屬方言類別的步驟包括將所述待識(shí)別語(yǔ)音的聲學(xué)特征分別與各方言類別對(duì)應(yīng)的聲學(xué)模板進(jìn)行比對(duì),當(dāng)各比對(duì)結(jié)果中的最大匹配度超過設(shè)定值時(shí),將該最大匹配度對(duì)應(yīng)的方言類別作為所述待識(shí)別語(yǔ)音所屬方言類別。本發(fā)明還提供了一種個(gè)性化的語(yǔ)音識(shí)別的裝置,包括第一識(shí)別單元,用于確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則觸發(fā)第二識(shí)別單元執(zhí)行;第二識(shí)別單元,用于確定所述待識(shí)別語(yǔ)音所屬方言類別,并利用所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括第三識(shí)別單元,用于當(dāng)所述第二識(shí)別單元無(wú)法確定所述待識(shí)別語(yǔ)音所屬方言類別時(shí),利用通用語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括第一優(yōu)化單元,用于在所述第一識(shí)別單元對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括第二優(yōu)化單元,用于在所述第二識(shí)別單元對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第一識(shí)別單元確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的方式包括提取待識(shí)別語(yǔ)音的聲學(xué)特征,并確定所述待識(shí)別語(yǔ)音的聲學(xué)特征與所述授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識(shí)別語(yǔ)音屬于所述授權(quán)用戶,否則確定所述待識(shí)別語(yǔ)音不屬于所述授權(quán)用戶。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第二識(shí)別單元確定所述待識(shí)別語(yǔ)音所屬方言類別的方式包括將所述待識(shí)別語(yǔ)音的聲學(xué)特征分別與各方言類別對(duì)應(yīng)的聲學(xué)模板進(jìn)行比對(duì),當(dāng)各比對(duì)結(jié)果中的最大匹配度超過設(shè)定值時(shí),將該最大匹配度對(duì)應(yīng)的方言類別作為所述待識(shí)別語(yǔ)音所屬方言類別。由以上技術(shù)方案可以看出,本發(fā)明通過確定待識(shí)別語(yǔ)音的歸屬類型,從而可以利用與待識(shí)別語(yǔ)音的歸屬類型相適應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,能夠很好地提 高待識(shí)別語(yǔ)音的識(shí)別精度。如果待識(shí)別語(yǔ)音屬于授權(quán)用戶,則可以選擇個(gè)人用戶適用的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,即使待識(shí)別語(yǔ)音不屬于授權(quán)用戶,也可以選擇與待識(shí)別語(yǔ)音的方言相適應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,通過這種方式,可以智能適應(yīng)待識(shí)別語(yǔ)音的特點(diǎn),能夠充分提高在各種用戶下的語(yǔ)音識(shí)別精度。
圖I為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的方法的流程示意圖;圖2為本發(fā)明中確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的一個(gè)實(shí)施例的流程示意圖;圖3為本發(fā)明中語(yǔ)音識(shí)別過程的一個(gè)實(shí)施例的流程示意圖;圖4為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的裝置的實(shí)施例一的結(jié)構(gòu)示意框圖;圖5為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的裝置的實(shí)施例二的結(jié)構(gòu)示意框圖;圖6為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的裝置的實(shí)施例三的結(jié)構(gòu)示意框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
請(qǐng)參考圖1,圖I為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的方法的流程示意圖。如圖I所示,該方法包括步驟SlOl :確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則執(zhí)行步驟S102。步驟S102 :確定待識(shí)別語(yǔ)音所屬方言類別,并利用待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。下面對(duì)上述步驟進(jìn)行具體說明。 本發(fā)明中的授權(quán)用戶,指的是具有注冊(cè)信息或可標(biāo)識(shí)的身份信息的用戶。如果授權(quán)用戶是具有注冊(cè)信息的用戶,則步驟SlOl在確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶時(shí),可通過待識(shí)別語(yǔ)音所屬用戶提交的當(dāng)前身份信息與注冊(cè)信息是否匹配來判斷待識(shí)別語(yǔ)音是否屬于授權(quán)用戶。此外,授權(quán)用戶也可以是具有可標(biāo)識(shí)的身份信息的用戶,這里所指的可標(biāo)識(shí)的身份信息,包括預(yù)先通過授權(quán)用戶的語(yǔ)音樣本訓(xùn)練得到的聲學(xué)模板。與之對(duì)應(yīng)的,步驟SlOl確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的方式包括提取待識(shí)別語(yǔ)音的聲學(xué)特征,并確定待識(shí)別語(yǔ)音的聲學(xué)特征與授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定待識(shí)別語(yǔ)音屬于授權(quán)用戶,否則確定待識(shí)別語(yǔ)音不屬于授權(quán)用戶。請(qǐng)參考圖2,圖2為本發(fā)明中確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的一個(gè)實(shí)施例的流程示意圖。其中比對(duì)是為了確定待識(shí)別語(yǔ)音的聲學(xué)特征與授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如確定待識(shí)別語(yǔ)音的聲學(xué)特征與授權(quán)用戶的聲學(xué)模板之間的余弦距離是否滿足最低限值要求。為了確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,在對(duì)語(yǔ)音樣本和待識(shí)別語(yǔ)音進(jìn)行特征提取時(shí),可選擇的聲學(xué)特征包括說話人聲道長(zhǎng)度信息等,此外,這里的聲學(xué)特征還可以是本領(lǐng)域技術(shù)人員在進(jìn)行說話人確認(rèn)時(shí)使用的其他特征,本發(fā)明對(duì)此不做限制。如果待識(shí)別語(yǔ)音是屬于授權(quán)用戶的,則本發(fā)明中,將利用與授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。其中與授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型,是預(yù)先利用授權(quán)用戶的語(yǔ)音標(biāo)注樣本訓(xùn)練得到的。請(qǐng)參考圖3,圖3為本發(fā)明中語(yǔ)音識(shí)別過程的一個(gè)實(shí)施例的流程示意圖。圖2中的授權(quán)用戶的聲學(xué)模板,只需要授權(quán)用戶的語(yǔ)音樣本即可訓(xùn)練得到,而圖3中的授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型,則是通過授權(quán)用戶的語(yǔ)音標(biāo)注樣本訓(xùn)練得到的??梢岳斫猓Z(yǔ)音識(shí)別的過程就是將語(yǔ)音轉(zhuǎn)化為相應(yīng)文本的過程。因此,為了得到能夠描述語(yǔ)音與相應(yīng)文本之間轉(zhuǎn)化參數(shù)的語(yǔ)音識(shí)別模型,必須有語(yǔ)音和對(duì)應(yīng)的文本標(biāo)注形成的樣本數(shù)據(jù)供訓(xùn)練使用。授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型,可以是大量采集授權(quán)用戶的語(yǔ)音標(biāo)注樣本數(shù)據(jù)對(duì)未知參數(shù)的模型進(jìn)行一次性訓(xùn)練后得到的,也可以是每次采集授權(quán)用戶的少量語(yǔ)音標(biāo)注樣本數(shù)據(jù)對(duì)一個(gè)已有參數(shù)的通用模型進(jìn)行增量訓(xùn)練,通過多次訓(xùn)練后得到的。進(jìn)一步地,本發(fā)明還可以在步驟SlOl中將識(shí)別結(jié)果返回給用戶后,接受用戶對(duì)識(shí)別結(jié)果的反饋,并利用用戶反饋與待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。語(yǔ)音識(shí)別結(jié)果可以包括多個(gè)文本結(jié)果項(xiàng)。例如語(yǔ)音“baidu”,在識(shí)別后,得到多個(gè)文本結(jié)果項(xiàng)“百度”、“白度”和“擺渡”。用戶如果點(diǎn)擊了 “百度”作為對(duì)識(shí)別結(jié)果的反饋,則步驟SlOl中,就可以將語(yǔ)音“baidu”與“百度”作為標(biāo)注數(shù)據(jù)對(duì)授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型進(jìn)行增量訓(xùn)練,從而優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。
在上述例子中,如果用戶對(duì)識(shí)別結(jié)果中的文本進(jìn)行了修改,并以修改后的文本作為反饋,則還需要進(jìn)一步對(duì)該反饋進(jìn)行判斷后,才確定是否利用該反饋和待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。具體地,利用用戶反饋與待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型的方式包括確定用戶對(duì)識(shí)別結(jié)果的反饋與識(shí)別結(jié)果之間的語(yǔ)音差異,當(dāng)該差異在設(shè)定區(qū)間內(nèi)時(shí),接受用戶對(duì)識(shí)別結(jié)果的反饋,并使用該反饋與待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。 例如上述例子中,語(yǔ)音“baidu”的識(shí)別結(jié)果有“百度”、“白度”、“擺渡”,用戶的反饋是“拜讀”,則根據(jù)上述實(shí)施方式,在接收到用戶反饋的“拜讀”后,將確定“拜讀”與上述識(shí)別結(jié)果“百度”、“白度”、“擺渡”之間的語(yǔ)音差異,如果該差異在設(shè)定區(qū)間,則可以利用“baidu”與“拜讀”來優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。但是,如果用戶在接收到上述識(shí)別結(jié)果“百度”、“白度”、“擺渡”后,將結(jié)果改為“谷歌”作為對(duì)識(shí)別結(jié)果的反饋,則根據(jù)上述實(shí)施方式,在接收到用戶反饋的“谷歌”之后,由于“谷歌”與“百度”、“白度”、“擺渡”之間的語(yǔ)音差異太大,就不會(huì)采用“baidu”和“谷歌”來優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。在步驟SlOl中,如果待識(shí)別語(yǔ)音不屬于授權(quán)用戶,則在步驟S102中,首先需要確定待識(shí)別語(yǔ)音所屬方言類別。確定待識(shí)別語(yǔ)音所屬方言類別的方式與確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的方式是類似的,具體包括將待識(shí)別語(yǔ)音的聲學(xué)特征分別與各方言類別對(duì)應(yīng)的聲學(xué)模板進(jìn)行比對(duì),當(dāng)各比對(duì)結(jié)果中的最大匹配度超過設(shè)定值時(shí),將該最大匹配度對(duì)應(yīng)的方言類別作為待識(shí)別語(yǔ)音所屬方言類別。其中各方言類別對(duì)應(yīng)的聲學(xué)模板也是預(yù)先利用對(duì)應(yīng)方言的語(yǔ)音樣本訓(xùn)練得到的。在上述實(shí)施方式中,待識(shí)別語(yǔ)音的聲學(xué)特征與各個(gè)聲學(xué)模板均需要進(jìn)行比對(duì),以確定匹配度最高值,如果該匹配度最高值超過設(shè)定值,就可以把待識(shí)別語(yǔ)音歸類到該最高匹配度對(duì)應(yīng)的方言類別。進(jìn)一步地,如果待識(shí)別語(yǔ)音的聲學(xué)特征與各個(gè)聲學(xué)模板之間的匹配度均不超過設(shè)定值,則說明無(wú)法確定待識(shí)別語(yǔ)音的方言類別。當(dāng)確定了待識(shí)別語(yǔ)音所屬方言類別之后,就可以利用待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。其中,待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型,是預(yù)先利用該方言類別的語(yǔ)音標(biāo)注樣本訓(xùn)練得到的。各個(gè)方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型的訓(xùn)練方式與授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型的訓(xùn)練方式是類似的,可以采用大量語(yǔ)音標(biāo)注數(shù)據(jù)對(duì)未知參數(shù)的模型進(jìn)行一次性訓(xùn)練得至IJ,也可以是每次采用少量的語(yǔ)音標(biāo)注數(shù)據(jù)對(duì)已知參數(shù)的通用模型進(jìn)行增量訓(xùn)練,通過多次訓(xùn)練后得到。利用待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,進(jìn)一步也可根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及待識(shí)別語(yǔ)音,優(yōu)化待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型。具體地包括確定用戶對(duì)識(shí)別結(jié)果的反饋與識(shí)別結(jié)果之間的語(yǔ)音差異,當(dāng)該差異在設(shè)定區(qū)間時(shí),接受用戶對(duì)識(shí)別結(jié)果的反饋,并使用該反饋與待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。進(jìn)一步地,如果步驟S102中無(wú)法確定待識(shí)別語(yǔ)音所屬方言類別,則本發(fā)明還可以進(jìn)一步利用通用語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。其中通用語(yǔ)音識(shí)別模型是預(yù)先利用各種語(yǔ)音標(biāo)注樣本數(shù)據(jù)進(jìn)行訓(xùn)練得到的。本發(fā)明通過對(duì)待識(shí)別語(yǔ)音進(jìn)行分析判斷,可以選取最適合待識(shí)別語(yǔ)音的語(yǔ)音識(shí)別模型對(duì)其進(jìn)行識(shí)別,從而大大提高語(yǔ)音識(shí)別的精度。如果待識(shí)別語(yǔ)音屬于授權(quán)用戶,則可以采用根據(jù)該用戶的語(yǔ)音特點(diǎn)訓(xùn)練得到的個(gè)性化模型(授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型)對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別;如果待識(shí)別語(yǔ)音不屬于授權(quán)用戶,也可以根據(jù)待識(shí)別語(yǔ)音的方言特點(diǎn),選取適應(yīng)該方言特點(diǎn)的語(yǔ)音識(shí)別模型對(duì)其進(jìn)行識(shí)別;如果待識(shí)別語(yǔ)音的方言特點(diǎn)也不能確定,還可以采用通用的語(yǔ)音識(shí)別模型對(duì)其進(jìn)行識(shí)別。通過這種方式,本發(fā)明能夠有效實(shí)現(xiàn)語(yǔ)音識(shí)別的個(gè)性化,有針對(duì)性地提高語(yǔ)音識(shí)別的精度。本發(fā)明的方法,在現(xiàn)有手機(jī)(移動(dòng)終端)可能被多個(gè)用戶使用的條件下,能夠得到很好的應(yīng)用。例如,手機(jī)被機(jī)主長(zhǎng)期使用,機(jī)主就是授權(quán)用戶,當(dāng)機(jī)主在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠根據(jù)適用于該機(jī)主的語(yǔ)音識(shí)別模型對(duì)其語(yǔ)音進(jìn)行識(shí)別,從而得到最佳結(jié)果,并且,如果機(jī) 主的反饋行為滿足優(yōu)化條件(即反饋與識(shí)別結(jié)果的語(yǔ)音差別在設(shè)定區(qū)間),則機(jī)主的反饋可以進(jìn)一步優(yōu)化對(duì)應(yīng)的識(shí)別模型,而手機(jī)被機(jī)主之外的人使用時(shí),其他人的反饋行為則不會(huì)影響到機(jī)主對(duì)應(yīng)的語(yǔ)音識(shí)別模型,這樣可以在滿足各種用戶使用需要的同時(shí),保證授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型的參數(shù)不被錯(cuò)誤數(shù)據(jù)影響。如果待識(shí)別語(yǔ)音不是機(jī)主本人發(fā)出的, 則在滿足非機(jī)主用戶的使用需求時(shí),本發(fā)明也可以根據(jù)方言判斷適用的語(yǔ)音識(shí)別模型,保證了對(duì)其他用戶的語(yǔ)音進(jìn)行識(shí)別時(shí)的精度。請(qǐng)參考圖4,圖4為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的裝置的實(shí)施例一的結(jié)構(gòu)示意框圖。如圖4所示,該實(shí)施例包括第一識(shí)別單元201及第二識(shí)別單元202。其中第一識(shí)別單元201,用于確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則觸發(fā)第二識(shí)別單元202執(zhí)行。第二識(shí)別單元202,用于確定待識(shí)別語(yǔ)音所屬方言類別,并利用待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。具體地,第一識(shí)別單元201確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的方式包括提取待識(shí)別語(yǔ)音的聲學(xué)特征,并確定待識(shí)別語(yǔ)音的聲學(xué)特征與授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定待識(shí)別語(yǔ)音屬于授權(quán)用戶,否則確定待識(shí)別語(yǔ)音不屬于授權(quán)用戶。具體地,第二識(shí)別單元202確定待識(shí)別語(yǔ)音所屬方言類別的方式包括將待識(shí)別語(yǔ)音的聲學(xué)特征分別與各方言類別對(duì)應(yīng)的聲學(xué)模板進(jìn)行比對(duì),當(dāng)各比對(duì)結(jié)果中的最大匹配度超過設(shè)定值時(shí),將該最大匹配度對(duì)應(yīng)的方言類別作為待識(shí)別語(yǔ)音所屬方言類別。請(qǐng)參考圖5,圖5為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的裝置的實(shí)施例二的結(jié)構(gòu)示意框圖。如圖5所示,該實(shí)施例在實(shí)施例一的基礎(chǔ)上進(jìn)一步包括第一優(yōu)化單元203和第二優(yōu)化單元204。其中第一優(yōu)化單元203,用于在第一識(shí)別結(jié)果201對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及待識(shí)別語(yǔ)音,優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。具體地,第一優(yōu)化單元203優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型的方式包括確定用戶對(duì)識(shí)別結(jié)果的反饋與識(shí)別結(jié)果之間的語(yǔ)音差異,當(dāng)該差異在設(shè)定區(qū)間內(nèi)時(shí),接受用戶對(duì)識(shí)別結(jié)果的反饋,并使用該反饋與待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。第二優(yōu)化單元204,用于在第二識(shí)別單元202對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及待識(shí)別語(yǔ)音,優(yōu)化待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型。具體地,第二優(yōu)化單元204優(yōu)化待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型的方式包括確定用戶對(duì)識(shí)別結(jié)果的反饋與識(shí)別結(jié)果之間的語(yǔ)音差異,當(dāng)該差異在設(shè)定區(qū)間時(shí),接受用戶對(duì)識(shí)別結(jié)果的反饋,并使用該反饋與待識(shí)別語(yǔ)音優(yōu)化授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別豐吳型。請(qǐng)參考圖6,圖6為本發(fā)明中個(gè)性化的語(yǔ)音識(shí)別的裝置的實(shí)施例三的結(jié)構(gòu)示意框圖。如圖6所示,該實(shí)施例在實(shí)施例二的基礎(chǔ)上進(jìn)一步包括第三識(shí)別單元205,用于當(dāng)?shù)诙R(shí)別單元202無(wú)法確定待識(shí)別語(yǔ)音所屬方言類別時(shí),利用通用語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別?!ひ陨纤鰞H為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種個(gè)性化的語(yǔ)音識(shí)別的方法,包括 A.確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則執(zhí)行步驟B ; B.確定所述待識(shí)別語(yǔ)音所屬方言類別,并利用所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法進(jìn)一步包括 當(dāng)無(wú)法確定所述待識(shí)別語(yǔ)音所屬方言類別時(shí),利用通用語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟A中,對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后進(jìn)一步包括 根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B中,對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后進(jìn)一步包括 根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的步驟包括 提取待識(shí)別語(yǔ)音的聲學(xué)特征,并確定所述待識(shí)別語(yǔ)音的聲學(xué)特征與所述授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識(shí)別語(yǔ)音屬于所述授權(quán)用戶,否則確定所述待識(shí)別語(yǔ)音不屬于所述授權(quán)用戶。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,確定所述待識(shí)別語(yǔ)音所屬方言類別的步驟包括 將所述待識(shí)別語(yǔ)音的聲學(xué)特征分別與各方言類別對(duì)應(yīng)的聲學(xué)模板進(jìn)行比對(duì),當(dāng)各比對(duì)結(jié)果中的最大匹配度超過設(shè)定值時(shí),將該最大匹配度對(duì)應(yīng)的方言類別作為所述待識(shí)別語(yǔ)音所屬方言類別。
7.—種個(gè)性化的語(yǔ)音識(shí)別的裝置,包括 第一識(shí)別單元,用于確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則觸發(fā)第二識(shí)別單元執(zhí)行; 第二識(shí)別單元,用于確定所述待識(shí)別語(yǔ)音所屬方言類別,并利用所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 第三識(shí)別單元,用于當(dāng)所述第二識(shí)別單元無(wú)法確定所述待識(shí)別語(yǔ)音所屬方言類別時(shí),利用通用語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 第一優(yōu)化單元,用于在所述第一識(shí)別單元對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 第二優(yōu)化單元,用于在所述第二識(shí)別單元對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別后,根據(jù)用戶對(duì)識(shí)別結(jié)果的反饋及所述待識(shí)別語(yǔ)音,優(yōu)化所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型。
11.根據(jù)權(quán)利要求I所述的裝置,其特征在于,所述第一識(shí)別單元確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶的方式包括 提取待識(shí)別語(yǔ)音的聲學(xué)特征,并確定所述待識(shí)別語(yǔ)音的聲學(xué)特征與所述授權(quán)用戶對(duì)應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識(shí)別語(yǔ)音屬于所述授權(quán)用戶,否則確定所述待識(shí)別語(yǔ)音不屬于所述授權(quán)用戶。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第二識(shí)別單元確定所述待識(shí)別語(yǔ)音所屬方言類別的方式包括 將所述待識(shí)別語(yǔ)音的聲學(xué)特征分別與各方言類別對(duì)應(yīng)的聲學(xué)模板進(jìn)行比對(duì),當(dāng)各比對(duì)結(jié)果中的最大匹配度超過設(shè)定值時(shí),將該最大匹配度對(duì)應(yīng)的方言類別作為所述待識(shí)別語(yǔ)音所屬方言類別。
全文摘要
本發(fā)明提供了一種個(gè)性化的語(yǔ)音識(shí)別的方法及裝置,其中個(gè)性化的語(yǔ)音識(shí)別的方法包括A.確定待識(shí)別語(yǔ)音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)所述待識(shí)別語(yǔ)音進(jìn)行識(shí)別,否則執(zhí)行步驟B;B.確定所述待識(shí)別語(yǔ)音所屬方言類別,并利用所述待識(shí)別語(yǔ)音所屬方言類別對(duì)應(yīng)的語(yǔ)音識(shí)別模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別。通過上述方式,本發(fā)明可以提高在各種用戶下的語(yǔ)音識(shí)別的精度。
文檔編號(hào)G10L15/18GK102915731SQ20121038308
公開日2013年2月6日 申請(qǐng)日期2012年10月10日 優(yōu)先權(quán)日2012年10月10日
發(fā)明者劉俊啟, 胡星, 郭志峰 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司