本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種語音識(shí)別的方法及裝置。
背景技術(shù):
語音識(shí)別技術(shù)隨著計(jì)算機(jī)和相關(guān)軟硬件技術(shù)的發(fā)展,已越來越多的應(yīng)用在各個(gè)領(lǐng)域,其識(shí)別率也在不斷的提高。在環(huán)境安靜、發(fā)音標(biāo)準(zhǔn)等特定條件下,目前應(yīng)用在語音識(shí)別輸入文字系統(tǒng)的識(shí)別率已經(jīng)達(dá)到95%以上。常規(guī)語音識(shí)別技術(shù)已比較成熟,針對(duì)移動(dòng)終端的語音識(shí)別,由于語音質(zhì)量相對(duì)于普通語音識(shí)別場景相對(duì)較差,因此語音識(shí)別效果受到限制。這里語音質(zhì)量很差包括如下的原因,例如客戶端有背景噪聲、客戶端語音采集設(shè)備、通話設(shè)備的噪聲、通信線路的噪聲和干擾、還有本身說話帶有口音或者使用了方言、說話人本身的說話含糊或者不清楚等。所有這些因素都可能造成語音識(shí)別效果變差。其識(shí)別率受到很多因素的影響,針對(duì)相關(guān)技術(shù)中語音識(shí)別率低而導(dǎo)致的用戶體驗(yàn)度差的問題,目前尚未提出有效的解決方案。在車上或噪聲較大、發(fā)音不標(biāo)準(zhǔn)的情況下,其識(shí)別率將大打折扣,以至于無法達(dá)到真正實(shí)用目的。其正確識(shí)別率低,影響精確操控,效果不夠理想。若能采用其它方法來輔助判斷以提高其語音識(shí)別的準(zhǔn)確率,那么語音識(shí)別的實(shí)用性將顯著提高。
人類的語言認(rèn)知過程是一個(gè)多通道的感知過程。在人與人日常交流的過程中,通過聲音來感知他人講話的內(nèi)容,在喧鬧的環(huán)境或?qū)Ψ桨l(fā)音模糊不清時(shí),還需要眼睛觀察其口型,表情等的變化,才能準(zhǔn)確地理解對(duì)方所講的內(nèi)容?,F(xiàn)行的語音識(shí)別系統(tǒng)忽略了語言感知的視覺特性這一面,僅僅利用了單一的聽覺特性,使得現(xiàn)有的語音識(shí)別系統(tǒng)在噪聲環(huán)境或多話者條件下,其識(shí)別率都顯著下降,降低了語音識(shí)別的實(shí)用性,應(yīng)用范圍也受限制。
針對(duì)相關(guān)技術(shù)中,僅通過用戶的聲音獲取用戶的講話內(nèi)容導(dǎo)致語音識(shí)別的準(zhǔn)確度不高的問題,還未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種語音識(shí)別的方法及裝置,以至少解決相關(guān)技術(shù)中僅通過用戶的聲音獲取用戶的講話內(nèi)容導(dǎo)致語音識(shí)別的準(zhǔn)確度不高的問題。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種語音識(shí)別的方法,包括:獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與所述用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取所述語音識(shí)別信息的輔助識(shí)別信息;根據(jù)所述語音識(shí)別信息和所述輔助識(shí)別信息確定所述用戶當(dāng)前語音 的最終識(shí)別結(jié)果。
進(jìn)一步地,根據(jù)所述語音識(shí)別信息和所述輔助識(shí)別信息確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果包括:根據(jù)所述語音識(shí)別信息獲取所述用戶當(dāng)前語音對(duì)應(yīng)的一個(gè)或者多個(gè)第一候選詞匯;根據(jù)所述輔助識(shí)別信息獲取所述用戶當(dāng)前語音對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)第二候選詞匯;根據(jù)所述一個(gè)或者多個(gè)第一候選詞匯和所述詞匯類型確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果;或者,根據(jù)所述一個(gè)或者多個(gè)第一候選詞匯和所述一個(gè)或者多個(gè)第二候選詞匯確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,根據(jù)所述一個(gè)或者多個(gè)第一候選詞匯和所述詞匯類型確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果包括:從所述一個(gè)或者多個(gè)第一候選詞匯中選擇符合所述詞匯類別的第一特定詞匯,將所述第一特定詞匯作為所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,根據(jù)所述一個(gè)或者多個(gè)第一候選詞匯和所述一個(gè)或者多個(gè)第二候選詞匯確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果包括:從所述一個(gè)或者多個(gè)第二候選詞匯中選擇與所述一個(gè)或者多個(gè)第一候選詞匯相似度高的第二特定詞匯,將所述第二特定詞匯作為所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,基于與所述用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取所述語音識(shí)別信息的輔助識(shí)別信息包括:獲取用于指示所述用戶當(dāng)前狀態(tài)的圖像;根據(jù)所述圖像獲取圖像特征信息;根據(jù)所述圖像特征信息獲取與所述圖像特征信息對(duì)應(yīng)的詞匯類別和/或一個(gè)或者多個(gè)候選詞匯,將所述詞匯類別和/或所述一個(gè)或者多個(gè)候選詞匯作為所述輔助識(shí)別信息。
進(jìn)一步地,根據(jù)所述圖像特征信息獲取與所述圖像特征信息對(duì)應(yīng)的詞匯類別和/或一個(gè)或者多個(gè)候選詞匯包括:在預(yù)定的圖像庫中查找與所述圖像特征信息相似度最高的特定圖像;根據(jù)預(yù)設(shè)的圖像與詞匯類別或者一個(gè)或者多個(gè)候選詞匯的對(duì)應(yīng)關(guān)系,獲取與所述特定圖像對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)候選詞匯。
進(jìn)一步地,所述用戶當(dāng)前狀態(tài)包括以下至少之一:所述用戶的唇形運(yùn)動(dòng)狀態(tài)、所述用戶的喉部振動(dòng)狀態(tài)、所述用戶的臉部運(yùn)動(dòng)狀態(tài)、所述用戶的手勢運(yùn)動(dòng)狀態(tài)。
進(jìn)一步地,獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與所述用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取所述語音識(shí)別信息的輔助識(shí)別信息之前包括:判定基于所述語音識(shí)別信息確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果的正確率小于預(yù)定閾值。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種語音識(shí)別的裝置,所述裝置包括:獲取模塊,用于獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與所述用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取所述語音識(shí)別信息的輔助識(shí)別信息;確定模塊,用于根據(jù)所述語音識(shí)別信息和所述輔助識(shí)別信息確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,所述確定模塊包括:第一獲取單元,用于根據(jù)所述語音識(shí)別信息獲取所 述用戶當(dāng)前語音對(duì)應(yīng)的一個(gè)或者多個(gè)第一候選詞匯;第二獲取單元,用于根據(jù)所述輔助識(shí)別信息獲取所述用戶當(dāng)前語音對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)第二候選詞匯;確定單元,用于根據(jù)所述一個(gè)或者多個(gè)第一候選詞匯和所述詞匯類型確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果;或者,根據(jù)所述一個(gè)或者多個(gè)第一候選詞匯和所述一個(gè)或者多個(gè)第二候選詞匯確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,所述確定單元還用于從所述一個(gè)或者多個(gè)第一候選詞匯中選擇符合所述詞匯類別的第一特定詞匯,將所述第一特定詞匯作為所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,所述確定單元還用于從所述一個(gè)或者多個(gè)第二候選詞匯中選擇與所述一個(gè)或者多個(gè)第一候選詞匯相似度高的第二特定詞匯,將所述第二特定詞匯作為所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
進(jìn)一步地,所述獲取模塊還包括:第三獲取單元,用于獲取用于指示所述用戶當(dāng)前狀態(tài)的圖像;第四獲取單元,用于根據(jù)所述圖像獲取圖像特征信息;第五獲取單元,用于根據(jù)所述圖像特征信息獲取與所述圖像特征信息對(duì)應(yīng)的詞匯類別和/或一個(gè)或者多個(gè)候選詞匯,將所述詞匯類別和/或所述一個(gè)或者多個(gè)候選詞匯作為所述輔助識(shí)別信息。
進(jìn)一步地,所述第五獲取單元還包括:查找子單元,用于在預(yù)定的圖像庫中查找與所述圖像特征信息相似度最高的特定圖像;獲取子單元,用于根據(jù)預(yù)設(shè)的圖像與詞匯類別或者一個(gè)或者多個(gè)候選詞匯的對(duì)應(yīng)關(guān)系,獲取與所述特定圖像對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)候選詞匯。
進(jìn)一步地,所述用戶當(dāng)前狀態(tài)包括以下至少之一:所述用戶的唇形運(yùn)動(dòng)狀態(tài)、所述用戶的喉部振動(dòng)狀態(tài)、所述用戶的臉部運(yùn)動(dòng)狀態(tài)、所述用戶的手勢運(yùn)動(dòng)狀態(tài)。
進(jìn)一步地,所述裝置還包括:判定模塊,用于判定基于所述語音識(shí)別信息確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果的正確率小于預(yù)定閾值。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種終端,包括處理器,所述處理器用于獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與所述用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取所述語音識(shí)別信息的輔助識(shí)別信息;根據(jù)所述語音識(shí)別信息和所述輔助識(shí)別信息確定所述用戶當(dāng)前語音的最終識(shí)別結(jié)果。
通過本發(fā)明,獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取該語音識(shí)別信息的輔助識(shí)別信息;根據(jù)語音識(shí)別信息和輔助識(shí)別信息確定用戶當(dāng)前語音的最終識(shí)別結(jié)果。解決了相關(guān)技術(shù)中僅通過用戶的聲音獲取用戶的講話內(nèi)容導(dǎo)致語音識(shí)別的準(zhǔn)確度不高的問題,進(jìn)而提高了語音識(shí)別的準(zhǔn)確性。
附圖說明
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明 的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別方法的流程圖;
圖2是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖;
圖3是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(一);
圖4是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(二);
圖5是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(三);
圖6是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(四);
圖7是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別處理方法的流程圖;
圖8根據(jù)本發(fā)明實(shí)施例的語音識(shí)別處理裝置的結(jié)構(gòu)框圖;
圖9是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別處理流程圖。
具體實(shí)施方式
下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。
在本實(shí)施例中提供了一種語音識(shí)別的方法,圖1是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別方法的流程圖,如圖1所示,該流程包括如下步驟:
步驟S102,獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與該用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取該語音識(shí)別信息的輔助識(shí)別信息;
步驟S104,根據(jù)語音識(shí)別信息和輔助識(shí)別信息確定用戶當(dāng)前語音的最終識(shí)別結(jié)果。
通過上述步驟,獲取用戶當(dāng)前語音的語音識(shí)別信息,并且獲取用戶在發(fā)出語音時(shí)的狀態(tài)特征信息,將用戶在發(fā)出語音時(shí)的狀態(tài)特征信息作為識(shí)別當(dāng)前語音的輔助信息,相比于現(xiàn)有技術(shù)中僅通過用戶的當(dāng)前語音進(jìn)行語音的識(shí)別準(zhǔn)確率較低,上述步驟解決了相關(guān)技術(shù)中僅通過用戶的聲音獲取用戶的講話內(nèi)容導(dǎo)致語音識(shí)別的準(zhǔn)確度不高的問題,進(jìn)而提高了語音識(shí)別的準(zhǔn)確性。
上述步驟S104中涉及根據(jù)語音識(shí)別信息和輔助識(shí)別信息確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果,在一個(gè)可選實(shí)施例中,根據(jù)語音識(shí)別信息獲取用戶當(dāng)前語音對(duì)應(yīng)的一個(gè)或者多個(gè)第一候選詞匯;根據(jù)輔助識(shí)別信息獲取該用戶當(dāng)前語音對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)第二候選詞匯;根據(jù)一個(gè)或者多個(gè)第一候選詞匯和該詞匯類型確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果;或者,根據(jù)一個(gè)或者多個(gè)第一候選詞匯和一個(gè)或者多個(gè)第二候選詞匯確定用戶當(dāng)前語音的最終識(shí)別結(jié)果。
根據(jù)一個(gè)或者多個(gè)第一候選詞匯和詞匯類型確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果的方式可以有很多種,在一個(gè)可選實(shí)施例中,從一個(gè)或者多個(gè)第一候選詞匯中選擇符合詞匯類別的第一特定詞匯,將第一特定詞匯作為該用戶當(dāng)前語音的最終識(shí)別結(jié)果。在另一個(gè)可選實(shí)施例中,從一個(gè)或者多個(gè)第二候選詞匯中選擇與一個(gè)或者多個(gè)第一候選詞匯相似度高的第二特定詞匯,將第二特定詞匯作為用戶當(dāng)前語音的最終識(shí)別結(jié)果。
上述在根據(jù)一個(gè)或者多個(gè)第一候選詞匯和一個(gè)或者多個(gè)第二候選詞匯確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果的過程中,在一個(gè)可選實(shí)施例中,首先獲取用于指示該用戶當(dāng)前狀態(tài)的圖像,然后根據(jù)該圖像獲取圖像特征信息,再根據(jù)該圖像特征信息獲取與該圖像特征信息對(duì)應(yīng)的詞匯類別和/或一個(gè)或者多個(gè)候選詞匯,將該詞匯類別和/或該一個(gè)或者多個(gè)候選詞匯作為該輔助識(shí)別信息。
在一個(gè)可選實(shí)施例中,在預(yù)定的圖像庫中查找與該圖像特征信息相似度最高的特定圖像,根據(jù)預(yù)設(shè)的圖像與詞匯類別或者一個(gè)或者多個(gè)候選詞匯的對(duì)應(yīng)關(guān)系,獲取與該特定圖像對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)候選詞匯。從而根據(jù)圖像特征信息獲取到了與該圖像特征信息對(duì)應(yīng)的詞匯類別和/或一個(gè)或者多個(gè)候選詞匯。
用戶當(dāng)前狀態(tài)可以包括多種,下面對(duì)此進(jìn)行舉例說明。在一個(gè)可選實(shí)施例中,該用戶的唇形運(yùn)動(dòng)狀態(tài)、該用戶的喉部振動(dòng)狀態(tài)、該用戶的臉部運(yùn)動(dòng)狀態(tài)、該用戶的手勢運(yùn)動(dòng)狀態(tài)。上述用戶的當(dāng)前狀態(tài)特征所包括的信息僅作為舉例說明,對(duì)此不作限制。例如在現(xiàn)實(shí)生活中,僅可以通過唇語即可識(shí)別說話者所說的內(nèi)容。因此,唇語是識(shí)別語音的重要的輔助因素。
在一個(gè)可選實(shí)施例中,獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與該用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取該語音識(shí)別信息的輔助識(shí)別信息之前,判定基于該語音識(shí)別信息確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果的正確率小于預(yù)定閾值。
在本實(shí)施例中還提供了一種語音識(shí)別的裝置,該裝置用于實(shí)現(xiàn)上述實(shí)施例及優(yōu)選實(shí)施方式,已經(jīng)進(jìn)行過說明的不再贅述。如以下所使用的,術(shù)語“模塊”可以實(shí)現(xiàn)預(yù)定功能的軟件和/或硬件的組合。盡管以下實(shí)施例所描述的裝置較佳地以軟件來實(shí)現(xiàn),但是硬件,或者軟件和硬件的組合的實(shí)現(xiàn)也是可能并被構(gòu)想的。
圖2是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖,如圖2所示,該裝置包括:獲取模塊22,用于獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與該用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取該語音識(shí)別信息的輔助識(shí)別信息;確定模塊24,用于根據(jù)該語音識(shí)別信息和該輔助識(shí)別信息確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果。
圖3是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(一),如圖3所示,確定模塊24包括:第一獲取單元242,用于根據(jù)該語音識(shí)別信息獲取該用戶當(dāng)前語音對(duì)應(yīng)的一個(gè)或者多個(gè)第一候選詞匯;第二獲取單元244,用于根據(jù)該輔助識(shí)別信息獲取該用戶當(dāng)前語音對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)第二候選詞匯;確定單元246,用于根據(jù)該一 個(gè)或者多個(gè)第一候選詞匯和該詞匯類型確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果;或者,根據(jù)該一個(gè)或者多個(gè)第一候選詞匯和該一個(gè)或者多個(gè)第二候選詞匯確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果。
可選地,確定單元246還用于從該一個(gè)或者多個(gè)第一候選詞匯中選擇符合該詞匯類別的第一特定詞匯,將該第一特定詞匯作為該用戶當(dāng)前語音的最終識(shí)別結(jié)果。
可選地,確定單元246還用于從該一個(gè)或者多個(gè)第二候選詞匯中選擇與該一個(gè)或者多個(gè)第一候選詞匯相似度高的第二特定詞匯,將該第二特定詞匯作為該用戶當(dāng)前語音的最終識(shí)別結(jié)果。
圖4是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(二),如圖4所述,獲取模塊22還包括:第三獲取單元222,用于獲取用于指示該用戶當(dāng)前狀態(tài)的圖像;第四獲取單元224,用于根據(jù)該圖像獲取圖像特征信息;第五獲取單元226,用于根據(jù)該圖像特征信息獲取與該圖像特征信息對(duì)應(yīng)的詞匯類別和/或一個(gè)或者多個(gè)候選詞匯,將該詞匯類別和/或該一個(gè)或者多個(gè)候選詞匯作為該輔助識(shí)別信息。
圖5是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(三),如圖5所示,第五獲取單元226還包括:查找子單元2262,用于在預(yù)定的圖像庫中查找與該圖像特征信息相似度最高的特定圖像;獲取子單元2264,用于根據(jù)預(yù)設(shè)的圖像與詞匯類別或者一個(gè)或者多個(gè)候選詞匯的對(duì)應(yīng)關(guān)系,獲取與該特定圖像對(duì)應(yīng)的詞匯類別或者一個(gè)或者多個(gè)候選詞匯。
可選地,用戶當(dāng)前狀態(tài)包括以下至少之一:該用戶的唇形運(yùn)動(dòng)狀態(tài)、該用戶的喉部振動(dòng)狀態(tài)、該用戶的臉部運(yùn)動(dòng)狀態(tài)、該用戶的手勢運(yùn)動(dòng)狀態(tài)。
圖6是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖(四),如圖6所示,該裝置還包括:判定模塊26,用于判定基于該語音識(shí)別信息確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果的正確率小于預(yù)定閾值。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種終端,包括處理器,該處理器用于獲取用戶當(dāng)前語音的語音識(shí)別信息,以及基于與該用戶當(dāng)前語音對(duì)應(yīng)的用戶當(dāng)前狀態(tài)獲取該語音識(shí)別信息的輔助識(shí)別信息;根據(jù)該語音識(shí)別信息和該輔助識(shí)別信息確定該用戶當(dāng)前語音的最終識(shí)別結(jié)果。
需要說明的是,上述各個(gè)模塊是可以通過軟件或硬件來實(shí)現(xiàn)的,對(duì)于后者,可以通過以下方式實(shí)現(xiàn),但不限于此:上述各個(gè)模塊均位于同一處理器中;或者,上述各個(gè)模塊分別位于第一處理器、第二處理器和第三處理器…中。
針對(duì)相關(guān)技術(shù)中存在的上述問題,下面結(jié)合具體的可選實(shí)施例進(jìn)行說明,在下述可選實(shí)施例中結(jié)合了上述可選實(shí)施例及其可選實(shí)施方式。
本可選實(shí)施例提供了一種語音識(shí)別處理方法及裝置,以解決相關(guān)技術(shù)中語音識(shí)別率 低而導(dǎo)致的用戶體驗(yàn)度差的問題。為了克服現(xiàn)有技術(shù)的上述缺點(diǎn)與不足,本可選實(shí)施例的目的在于提供一種基于輔助交互方式的智能語音識(shí)別方法和裝置,在語音識(shí)別的基礎(chǔ)上,作為基本信號(hào),配合使用唇形識(shí)別、人臉識(shí)別、手勢識(shí)別、喉部振動(dòng)識(shí)別等,作為輔助信號(hào)。利用各技術(shù)在其應(yīng)用領(lǐng)域的優(yōu)勢,取長補(bǔ)短,各技術(shù)模塊相對(duì)獨(dú)立又相互融合,大大提高語音處理識(shí)別率,優(yōu)選的,輔助信號(hào)識(shí)別的增加可以由語音識(shí)別結(jié)果決定,當(dāng)語音識(shí)別結(jié)果可能性小于閾值則增加輔助數(shù)據(jù)。符合人類的語言認(rèn)知過程是一個(gè)多通道的感知過程。讓終端基于通過聲音來感知講話的內(nèi)容,配合識(shí)別其口型,面部變化等準(zhǔn)確地理解所講的內(nèi)容。
根據(jù)本可選實(shí)施例的一個(gè)方面,提供了一種語音識(shí)別處理方法,通過音頻傳感器獲取音頻數(shù)據(jù)作為基本信號(hào)進(jìn)行語音識(shí)別的基礎(chǔ)上,通過終端設(shè)備攝像頭或者外置的傳感器采集人體的運(yùn)動(dòng)圖像,包括手勢運(yùn)動(dòng)、面部運(yùn)動(dòng)、喉部振動(dòng),唇形識(shí)別等,并通過集成的圖像算法和動(dòng)作處理芯片進(jìn)行解析,作為語音識(shí)別的輔助信號(hào),基本信號(hào)和輔助信號(hào)識(shí)別結(jié)果由終端綜合處理并執(zhí)行相應(yīng)操作。將輔助信號(hào)識(shí)別結(jié)果與語音識(shí)別基本信號(hào)結(jié)果進(jìn)行累加處理形成統(tǒng)一的識(shí)別結(jié)果,對(duì)語音識(shí)別起輔助作用,提高語音識(shí)別率。
將手勢運(yùn)動(dòng)、面部運(yùn)動(dòng)、喉部振動(dòng),唇形識(shí)別綜合起來、每種方式都通過特征提取、模板訓(xùn)練、模板分類、判決過程有機(jī)的結(jié)合起來,運(yùn)用先語音識(shí)別作為基本信號(hào)進(jìn)行分析確認(rèn)、后輔助信號(hào)進(jìn)行輔助判斷的邏輯判斷序列、有效的降低因噪聲和外界聲音干擾產(chǎn)生識(shí)別錯(cuò)誤的幾率。在輔助信號(hào)識(shí)別過程中,通過傳感器和攝像頭采集特征數(shù)據(jù),進(jìn)行特征數(shù)據(jù)提取,與預(yù)置的模板庫數(shù)據(jù)進(jìn)行一系列匹配判斷識(shí)別,再與相應(yīng)的識(shí)別特征結(jié)果進(jìn)行比對(duì),識(shí)別出在語音識(shí)別模型詞庫中可能的候選詞詞匯。
可選地,上述唇形識(shí)別通過攝像頭采集說話者的唇形圖像,對(duì)唇形圖像進(jìn)行圖像處理,實(shí)時(shí)動(dòng)態(tài)提取唇形特征,然后用唇形模式識(shí)別算法確定說話內(nèi)容。采用唇形和唇色相結(jié)合的判斷方法,準(zhǔn)確定位口唇位置。采用適當(dāng)?shù)拇叫纹ヅ渌惴ㄟM(jìn)行識(shí)別。
可選地,上述唇形識(shí)別對(duì)預(yù)處理后的視頻數(shù)據(jù)取出唇形圖像的特征,利用唇形圖像的特征識(shí)別當(dāng)前用戶的嘴型變化;探測用戶嘴部運(yùn)動(dòng)來實(shí)現(xiàn)唇形的識(shí)別,提高識(shí)別效率和準(zhǔn)確率。對(duì)上述嘴部運(yùn)動(dòng)特征圖進(jìn)行分類,獲得分類信息,將上述嘴部運(yùn)動(dòng)特征圖進(jìn)行歸類,每種特征類型的嘴部運(yùn)動(dòng)特征圖都對(duì)應(yīng)有若干詞匯類別。上述唇形識(shí)別獲取信息,經(jīng)過去噪、模數(shù)(A/D)轉(zhuǎn)換等一系列處理后,分別與預(yù)設(shè)在圖像/語音識(shí)別處理模塊中的模板庫數(shù)據(jù)比對(duì),比較上述唇形識(shí)別信息的與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的若干詞匯類別。
可選地,上述喉部振動(dòng)識(shí)別通過外置傳感器采集說話者的喉部振動(dòng)形態(tài),對(duì)振動(dòng)形態(tài)進(jìn)行處理,實(shí)時(shí)動(dòng)態(tài)提取振動(dòng)形態(tài)特征,然后用振動(dòng)形態(tài)模式識(shí)別算法確定說話內(nèi)容。
可選地,在對(duì)用戶進(jìn)行喉部振動(dòng)識(shí)別之前,需先對(duì)用戶的喉部振動(dòng)運(yùn)動(dòng)特征圖進(jìn)行采樣,對(duì)不同用戶建立不同的喉部振動(dòng)運(yùn)動(dòng)特征檔案。在預(yù)先采樣用戶的喉部振動(dòng)運(yùn)動(dòng) 特征圖時(shí),可對(duì)用戶發(fā)出一個(gè)音節(jié)的喉部振動(dòng)運(yùn)動(dòng)特征圖進(jìn)行采樣,也可對(duì)用戶發(fā)出一個(gè)單詞的喉部振動(dòng)運(yùn)動(dòng)特征圖進(jìn)行采樣。對(duì)于發(fā)音不同的語音事件,喉部振動(dòng)運(yùn)動(dòng)不同,由于用戶發(fā)出的每個(gè)語音事件之間是相關(guān)的,在完成對(duì)喉部振動(dòng)的識(shí)別后,通過使用上下文的糾錯(cuò)技術(shù),對(duì)識(shí)別的喉部振動(dòng)進(jìn)行驗(yàn)證,減少同類別喉部振動(dòng)運(yùn)動(dòng)特征圖的識(shí)別錯(cuò)誤,進(jìn)一步提高喉部振動(dòng)識(shí)別的準(zhǔn)確率。
可選地,上述喉部振動(dòng)識(shí)別對(duì)預(yù)處理后的振動(dòng)數(shù)據(jù)取出喉部振動(dòng)圖像的特征,利用喉部振動(dòng)圖像的特征識(shí)別當(dāng)前用戶的喉部振動(dòng)變化;探測用戶喉部振動(dòng)運(yùn)動(dòng)來實(shí)現(xiàn)喉部振動(dòng)的識(shí)別,提高識(shí)別效率和準(zhǔn)確率。對(duì)上述喉部振動(dòng)運(yùn)動(dòng)特征圖進(jìn)行分類,獲得分類信息,將上述喉部振動(dòng)運(yùn)動(dòng)特征圖進(jìn)行歸類,每種特征類型的喉部振動(dòng)運(yùn)動(dòng)特征都對(duì)應(yīng)有若干詞匯類別。上述喉部振動(dòng)識(shí)別獲取信息,分別與預(yù)設(shè)在圖像/語音識(shí)別處理模塊中的模板庫數(shù)據(jù)比對(duì),比較上述喉部振動(dòng)識(shí)別信息的與預(yù)先采樣的所有喉部振動(dòng)運(yùn)動(dòng)特征圖的相似度,讀取相似度最高的喉部振動(dòng)運(yùn)動(dòng)特征圖所對(duì)應(yīng)的若干詞匯類別。
上述人臉識(shí)別用于對(duì)視頻數(shù)據(jù)中用戶臉部特征進(jìn)行提取,對(duì)用戶的身份和位置進(jìn)行確定;說話時(shí)面部肌肉也對(duì)應(yīng)著不同的運(yùn)動(dòng)模式,通過采集面部肌肉的動(dòng)作,完全可以從信號(hào)特征中識(shí)別對(duì)應(yīng)的肌肉動(dòng)作模式,進(jìn)而輔助進(jìn)行識(shí)別語音信息。
根據(jù)本可選實(shí)施例的一個(gè)方面,還提供了一種語音識(shí)別處理裝置,包括:基本信號(hào)模塊。輔助信號(hào)模塊、信號(hào)處理模塊。
基本信號(hào)模塊,為傳統(tǒng)的語音識(shí)別模塊,上述語音識(shí)別模塊通過音頻傳感器用于對(duì)預(yù)處理后的音頻數(shù)據(jù)進(jìn)行識(shí)別;語音識(shí)別模塊的識(shí)別對(duì)象包括孤立詞匯的語音識(shí)別和連續(xù)大詞匯量的語音識(shí)別,前者主要用來確定控制指令,后者主要用于文本的輸入。在本發(fā)明中主要以孤立詞匯的識(shí)別為例進(jìn)行說明,連續(xù)大詞匯量的識(shí)別采用相同的處理方式。
可選地,音頻傳感器為麥克風(fēng)陣列或指向性麥克風(fēng)。由于環(huán)境中存在各種形式的噪聲干擾,而現(xiàn)有基于普通麥克風(fēng)的音頻獲取方式對(duì)于用戶語音及環(huán)境噪聲具有相同的靈敏度,沒有區(qū)別語音與噪聲的能力,因此容易造成用戶語音識(shí)別指令操作正確率的下降。使用麥克風(fēng)陣列或指向性麥克風(fēng)可以克服上述問題,使用聲源定位與語音增強(qiáng)算法跟蹤操作用戶的聲音并對(duì)其聲音信號(hào)進(jìn)行增強(qiáng),抑制周圍環(huán)境噪聲及人聲干擾的影響,提高系統(tǒng)語音音頻輸入的信噪比,保證后端算法獲取數(shù)據(jù)質(zhì)量的可靠。
輔助信號(hào)模塊,包括前端攝像頭、音頻傳感器、喉部振動(dòng)傳感器;用于獲取視頻數(shù)據(jù)、音頻數(shù)據(jù)和動(dòng)作數(shù)據(jù);
可選地,喉部振動(dòng)傳感器集成于可穿戴設(shè)備,位置和用戶喉部接觸,檢測用戶產(chǎn)生的語音振動(dòng),一個(gè)溫度傳感器放置于可穿戴設(shè)備內(nèi)側(cè),一個(gè)溫度傳感器放置于可穿戴設(shè)備的外側(cè),微處理器通過比較兩個(gè)傳感器檢測的溫度,判斷可穿戴設(shè)備是否被用戶穿戴,可穿戴設(shè)備在不被穿戴的狀況下,將自動(dòng)進(jìn)入到休眠模式,降低可穿戴設(shè)備整體功耗。微處理器將檢測振動(dòng)傳感器狀態(tài)判斷并識(shí)別用戶發(fā)出的語音指令,并將語音指令通過藍(lán) 牙設(shè)備發(fā)送到需要控制的設(shè)備,執(zhí)行語音識(shí)別指令。
信號(hào)處理單元,包括唇形識(shí)別模塊、人臉識(shí)別模塊、振動(dòng)識(shí)別模塊、手勢識(shí)別模塊、語音識(shí)別模塊和分調(diào)整模塊;用于對(duì)基本信號(hào)(語音信號(hào))和輔助信號(hào)進(jìn)行識(shí)別,選擇基本信號(hào)作為主要的語音信息,將輔助信號(hào)作為輔助語音信息;
運(yùn)用先基本信號(hào)(語音信號(hào))作為基本信號(hào)進(jìn)行分析確認(rèn)、后輔助信號(hào)進(jìn)行輔助判斷的邏輯判斷序列,具體識(shí)別過程中,選擇語音信號(hào)識(shí)別得出的可能性分值最高的若干個(gè)詞作為候選詞,用于對(duì)于每個(gè)候選詞,根據(jù)預(yù)定的詞表生成多級(jí)相關(guān)詞集合。輔助信號(hào)產(chǎn)生的輔助語音信息用于提高語音識(shí)別模型中候選詞和相關(guān)詞集合中的相關(guān)詞在語音別模型詞庫中的分值。當(dāng)基本信號(hào)和輔助信號(hào)全部處理完畢后,選擇分值最高的候選詞或相關(guān)詞作為識(shí)別結(jié)果。
上述唇形識(shí)別模塊用于對(duì)預(yù)處理后的視頻數(shù)據(jù)取出唇形圖像的特征,利用唇形信息識(shí)別當(dāng)前用戶的嘴型變化;
上述人臉識(shí)別模塊用于對(duì)視頻數(shù)據(jù)中用戶臉部特征進(jìn)行提取,對(duì)用戶的身份和位置進(jìn)行確定,識(shí)別出不同注冊用戶的身份主要是有利于整個(gè)裝置個(gè)性化操作的定制,如不同控制權(quán)的授予,用戶的位置信息可以用于輔助手勢識(shí)別確定用戶手的操作區(qū)域、確定用戶進(jìn)行語音操作時(shí)的方位,以提高麥克風(fēng)用戶方位的音頻輸入增益;當(dāng)有多個(gè)可能的用戶時(shí),此模塊能夠識(shí)別出所有人臉的位置,并對(duì)所有用戶身份進(jìn)行判斷,并分別進(jìn)行處理。問用戶哪位攝像頭視野中的用戶將被授予控制權(quán);
上述手勢識(shí)別模塊用于對(duì)預(yù)處理后的視頻數(shù)據(jù)中手勢信息進(jìn)行提取,確定手型、手的運(yùn)動(dòng)軌跡、手在圖像中的坐標(biāo)信息,進(jìn)而對(duì)任意手型進(jìn)行跟蹤,對(duì)手在圖像中的輪廓進(jìn)行分析,用戶通過特定的手勢或動(dòng)作以獲得整個(gè)終端的啟動(dòng)和控制權(quán)。
通過可選實(shí)施例,對(duì)現(xiàn)有的各種形式的人機(jī)交互技術(shù),包括手勢識(shí)別、喉部振動(dòng)識(shí)別、語音識(shí)別、人臉識(shí)別、唇形識(shí)別技術(shù)等進(jìn)行融合,語音識(shí)別作為基本信號(hào),配合使用唇形識(shí)別、人臉識(shí)別、手勢識(shí)別、喉部振動(dòng)識(shí)別等作為輔助信號(hào)進(jìn)行語音識(shí)別候選詞的分調(diào)整。運(yùn)用先基本信號(hào)(語音信號(hào))作為基本信號(hào)進(jìn)行分析確認(rèn)、后輔助信號(hào)進(jìn)行輔助判斷的邏輯判斷序列,利用各技術(shù)在其應(yīng)用領(lǐng)域的優(yōu)勢,取長補(bǔ)短,各技術(shù)模塊相對(duì)獨(dú)立又相互融合,利用唇形信息識(shí)別當(dāng)前用戶的嘴型變化,以此為依據(jù)降低用戶進(jìn)行語音識(shí)別操作時(shí)的誤判率,以保證在噪聲環(huán)境中語音操作也能正常識(shí)別;人臉識(shí)別模塊識(shí)別出用戶的位置信息,可以用于輔助手勢識(shí)別確定用戶手的操作區(qū)域、確定用戶進(jìn)行語音操作時(shí)的方位,以提高麥克風(fēng)用戶方位的音頻輸入增益。從而克服噪音的影響,顯著提高了語音識(shí)別率,再把結(jié)果轉(zhuǎn)化成相關(guān)指令。很好地做到了提升終端語音識(shí)別穩(wěn)定與操作的舒適。
在附圖的流程圖示出的步驟可以在用戶終端諸如智能手機(jī)、平板電腦等中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí) 行所示出或描述的步驟。
本實(shí)施例提供了一種語音識(shí)別處理方法,圖7是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別處理方法的流程圖,如圖7所示,該流程包括:
步驟S702,將音頻傳感器獲取的語音信息作為基本信號(hào)進(jìn)行識(shí)別處理;
步驟S704,將唇形識(shí)別、人臉識(shí)別、振動(dòng)識(shí)別、手勢識(shí)別作為輔助信號(hào)進(jìn)行識(shí)別處理,并對(duì)基本信號(hào)的識(shí)別結(jié)果進(jìn)行分調(diào)整。
語音識(shí)別對(duì)象包括孤立詞匯的語音識(shí)別和連續(xù)大詞匯量的語音識(shí)別,前者主要用來確定控制指令,后者主要用于文本的輸入。在本實(shí)施例中以孤立詞匯的識(shí)別為例進(jìn)行說明,連續(xù)大詞匯量的識(shí)別采用相同的處理方式。通過上述各個(gè)步驟,采用先基本信號(hào)(語音信號(hào))作為基本信號(hào)進(jìn)行分析確認(rèn)、后輔助信號(hào)進(jìn)行輔助判斷的邏輯判斷序列,選擇語音信號(hào)識(shí)別得出的可能性分值最高的若干個(gè)詞作為候選詞,用于對(duì)于每個(gè)候選詞,根據(jù)預(yù)定的詞表生成多級(jí)相關(guān)詞集合。輔助信號(hào)識(shí)別產(chǎn)生的可能性分值最高的候選詞類別作為輔助信息,依次判斷基本信號(hào)識(shí)別出的若干個(gè)候選詞,如果符合輔助信號(hào)識(shí)別出的候選詞類別,則提高該候選詞和相關(guān)詞集合中的相關(guān)詞在語音別模型詞庫中的分值。當(dāng)基本信號(hào)和輔助信號(hào)全部處理完畢后,選擇分值最高的候選詞或相關(guān)詞作為識(shí)別結(jié)果。
在具體實(shí)施過程中,唇形識(shí)別、人臉識(shí)別、振動(dòng)識(shí)別、手勢識(shí)別作為輔助信號(hào)進(jìn)行識(shí)別處理,各種識(shí)別方式是相互獨(dú)立的,可以同時(shí)使用一個(gè)或多個(gè)識(shí)別方式作為輔助信號(hào)輸入。
在實(shí)施例中還提供了一種裝置,該裝置與上述實(shí)施例中的方法相對(duì)應(yīng),已經(jīng)進(jìn)行過說明的在此不再贅述。該裝置中的模塊或單元可以是存儲(chǔ)在存儲(chǔ)器或用戶終端中并可以被處理器運(yùn)行的代碼,也可以用其他方式實(shí)現(xiàn),在此不再一一舉例。
根據(jù)本發(fā)明的一個(gè)方面,還提供了一種語音識(shí)別處理裝置,圖8是根據(jù)本發(fā)明實(shí)施例的語音識(shí)別處理裝置的結(jié)構(gòu)框圖,如圖8所示,該裝置包括:
基本信號(hào)模塊,包括音頻傳感器、為傳統(tǒng)的語音識(shí)別模塊,上述語音識(shí)別模塊通過音頻傳感器用于對(duì)預(yù)處理后的音頻數(shù)據(jù)進(jìn)行識(shí)別;
輔助信號(hào)模塊,包括前端攝像頭、喉部振動(dòng)傳感器;用于獲取視頻數(shù)據(jù)、音頻數(shù)據(jù)和動(dòng)作數(shù)據(jù),包括唇形識(shí)別、人臉識(shí)別、喉部振動(dòng)識(shí)別、手勢識(shí)別等;
信號(hào)處理模塊,包括唇形識(shí)別模塊、人臉識(shí)別模塊、振動(dòng)識(shí)別模塊、手勢識(shí)別模塊、語音識(shí)別模塊和分調(diào)整模塊;用于對(duì)基本信號(hào)(語音信號(hào))和輔助信號(hào)進(jìn)行識(shí)別,選擇基本信號(hào)作為主要的語音信息,將輔助信號(hào)作為輔助信息進(jìn)行分調(diào)整;
上述唇形識(shí)別模塊用于對(duì)預(yù)處理后的視頻數(shù)據(jù)取出唇形圖像的特征,利用唇形信息識(shí)別當(dāng)前用戶的嘴型變化;
上述人臉識(shí)別模塊用于對(duì)視頻數(shù)據(jù)中用戶臉部特征進(jìn)行提取,對(duì)用戶的身份和位置進(jìn)行確定,識(shí)別出不同注冊用戶的身份主要是有利于整個(gè)裝置個(gè)性化操作的定制,如不同控制權(quán)的授予;
上述手勢識(shí)別模塊用于對(duì)預(yù)處理后的視頻數(shù)據(jù)中手勢信息進(jìn)行提取,確定手型、手的運(yùn)動(dòng)軌跡、手在圖像中的坐標(biāo)信息,進(jìn)而對(duì)任意手型進(jìn)行跟蹤,對(duì)手在圖像中的輪廓進(jìn)行分析,用戶通過特定的手勢或動(dòng)作以獲得整個(gè)終端的啟動(dòng)和控制權(quán);
圖9是根據(jù)本發(fā)明語音識(shí)別處理方法的流程圖,如圖9所示,該實(shí)施例的語音識(shí)別方法如下:
步驟S902,從音頻傳感器獲取的語音信息,從前端攝像頭、喉部振動(dòng)傳感器獲取視頻數(shù)據(jù)、動(dòng)作數(shù)據(jù),包括唇形識(shí)別、人臉識(shí)別、喉部振動(dòng)識(shí)別、手勢識(shí)別等信息;
步驟S904,以孤立詞匯的語音識(shí)別為例,對(duì)語音信號(hào)作為基本信號(hào)進(jìn)行識(shí)別確認(rèn),識(shí)別該孤立詞匯得到該可能性最大的若干個(gè)詞作為候選詞;
步驟S906,對(duì)終端設(shè)備攝像頭或者外置的傳感器采集人體的運(yùn)動(dòng)圖像,包括手勢運(yùn)動(dòng)、面部運(yùn)動(dòng)、喉部振動(dòng),唇形識(shí)別等作為輔助信號(hào),進(jìn)行分析確認(rèn),得到可能性分值最高的候選詞類別;
步驟S908,依次判斷基本信號(hào)識(shí)別出的若干個(gè)候選詞,如果符合輔助信號(hào)識(shí)別出的候選詞類別,則提高該候選詞在語音別模型詞庫中的分值;
步驟S910,當(dāng)基本信號(hào)和輔助信號(hào)全部處理完畢后,選擇分值最高的候選詞作為識(shí)別結(jié)果。
下面以一個(gè)具體示例對(duì)本可選實(shí)施例進(jìn)行說明。例如通過對(duì)機(jī)主的語音進(jìn)行識(shí)別,得到以下結(jié)果:
“請(0.6)名片夾(0.9)呼叫(0.9)瀏覽器(0.7),其中括號(hào)中的數(shù)值為可能性分值值,代表可能性大小,分值越大可能性越大。選擇可能性分值最高的詞為候選詞,例如選擇如下的候選詞:名片夾(0.9)呼叫(0.9)作為語音識(shí)別結(jié)果。
同時(shí)進(jìn)行的手勢運(yùn)動(dòng)、面部運(yùn)動(dòng)、喉部振動(dòng),唇形識(shí)別等多種方式組合或者只使用其中一種或多種方式作為輔助信號(hào)進(jìn)行識(shí)別,得到可能性分值最高的候選詞類別。
依次判斷語音信號(hào)識(shí)別出的名片夾(0.9)呼叫(0.9),判斷是否符合輔助信號(hào)識(shí)別出的候選詞類別。假設(shè)名片夾符合候選詞類別。則提高名片夾的可能性分值,例如更新為名片夾(1.0)呼叫(0.9)。
當(dāng)語音基本信號(hào)和輔助信號(hào)全部處理完畢后,選擇分值最高的候選詞名片夾(1.0)作為識(shí)別結(jié)果。
作為本實(shí)施例的可選實(shí)施例,可以運(yùn)用先輔助信號(hào)識(shí)別確定候選詞類別,后通過語音信號(hào)作為基本信號(hào)進(jìn)行分析確認(rèn)的邏輯判斷序列。先通過手勢運(yùn)動(dòng)、面部運(yùn)動(dòng)、喉部振動(dòng),唇形識(shí)別等多種方式組合或者只使用其中一種或多種方式作為輔助信號(hào)進(jìn)行識(shí)別,當(dāng)使用多種方式進(jìn)行識(shí)別時(shí),每種方式的識(shí)別結(jié)果累加處理,得到可能性分值最高的候選詞類別,在此的基礎(chǔ)上結(jié)合語音識(shí)別結(jié)果,從中選擇可能性分值最高的詞為最終識(shí)別結(jié)果。下面以一個(gè)具體示例對(duì)本方案進(jìn)行說明。例如通過對(duì)機(jī)主的語音進(jìn)行識(shí)別,得到以下結(jié)果:
“請(0.6)名片夾(0.9)呼叫(0.9)瀏覽器(0.7),其中括號(hào)中的數(shù)值為可能性分值。選擇可能性分值最高的詞為候選詞,例如選擇如下的候選詞:名片夾(0.9)呼叫(0.9)作為語音識(shí)別結(jié)果。
同時(shí)進(jìn)行的喉部振動(dòng)和唇形識(shí)別兩種方式組合作為輔助信號(hào)進(jìn)行識(shí)別,假設(shè)首先是喉部振動(dòng)識(shí)別,依次判斷基本信號(hào)識(shí)別出的名片夾(0.9)呼叫(0.9),判斷是否符合喉部振動(dòng)識(shí)別識(shí)別出的候選詞類別。假設(shè)名片夾符合喉部振動(dòng)識(shí)別的類別,則提高名片夾的可能性分值,例如更新為名片夾(1.0)呼叫(0.9)。在上一次識(shí)別結(jié)果的基礎(chǔ)上繼續(xù)進(jìn)行唇形識(shí)別判斷,依次判斷名片夾(1.0)呼叫(0.9),判斷是否符合唇形識(shí)別的候選詞類別。假設(shè)名片夾符合唇形識(shí)別的類別,則提高名片夾的可能性分值,例如更新為名片夾(1.1)呼叫(0.9)。兩種方式的識(shí)別結(jié)果進(jìn)行了累加處理。
當(dāng)語音基本信號(hào)和輔助信號(hào)全部處理完畢后,選擇分值最高的候選詞名片夾(1.1)作為識(shí)別結(jié)果。
作為本實(shí)施例的可選實(shí)施例,進(jìn)一步篩選的過程是通過分調(diào)整來完成,即可以增加符合輔助信號(hào)識(shí)別的候選詞的分值,也可以減小不符合輔助信號(hào)識(shí)別的候選詞的分值,當(dāng)基本信號(hào)和輔助信號(hào)全部處理完畢后,選擇分值最高的候選詞作為識(shí)別結(jié)果。
作為本實(shí)施例的可選實(shí)施例,為了提高語音識(shí)別準(zhǔn)確率加入的利用輔助信息對(duì)識(shí)別結(jié)果進(jìn)行確認(rèn)對(duì)用戶是可選的,語音識(shí)別器根據(jù)輸入語音確定識(shí)別結(jié)果。為上述識(shí)別結(jié)果計(jì)算出一個(gè)可能性度量值。如果該可能性度量值小于閾值,則向用戶提示是否輸入輔助數(shù)據(jù)或者自動(dòng)開啟輔助數(shù)據(jù)識(shí)別。如果該可能性度量值大于閾值,則向用戶提示是否關(guān)閉輔助數(shù)據(jù)或者自動(dòng)關(guān)閉輔助數(shù)據(jù)識(shí)別。閾值的具體數(shù)值不進(jìn)行限定,由經(jīng)驗(yàn)值得出或者根據(jù)用戶體驗(yàn)得出。
基于本上述實(shí)施例提高的語音識(shí)別方法,對(duì)現(xiàn)有的各種形式的人機(jī)交互技術(shù),包括手勢識(shí)別、喉部振動(dòng)識(shí)別、語音識(shí)別、人臉識(shí)別、唇形識(shí)別技術(shù)等進(jìn)行融合,語音識(shí)別作為基本信號(hào),配合使用唇形識(shí)別、人臉識(shí)別、手勢識(shí)別、喉部振動(dòng)識(shí)別等作為輔助信號(hào)進(jìn)行語音識(shí)別候選詞的分調(diào)整。運(yùn)用先基本信號(hào)(語音信號(hào))作為基本信號(hào)進(jìn)行分析確認(rèn)、后輔助信號(hào)進(jìn)行輔助判斷的邏輯判斷序列,利很好地做到了提升終端語音識(shí)別穩(wěn)定與操作的舒適。
綜上所述,通過本發(fā)明提供的一種語音識(shí)別處理方法及裝置,在語音識(shí)別的基礎(chǔ)上,作為基本信號(hào),配合使用唇形識(shí)別、人臉識(shí)別、手勢識(shí)別、喉部振動(dòng)識(shí)別等作為輔助信號(hào)。解決了相關(guān)技術(shù)中語音識(shí)別率低而導(dǎo)致的用戶體驗(yàn)度差的問題。利用各技術(shù)在其應(yīng)用領(lǐng)域的優(yōu)勢,取長補(bǔ)短,各技術(shù)模塊相對(duì)獨(dú)立又相互融合,大大提高語音處理識(shí)別率。
在另外一個(gè)實(shí)施例中,還提供了一種軟件,該軟件用于執(zhí)行上述實(shí)施例及優(yōu)選實(shí)施方式中描述的技術(shù)方案。
在另外一個(gè)實(shí)施例中,還提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)中存儲(chǔ)有上述軟件,該存儲(chǔ)介質(zhì)包括但不限于:光盤、軟盤、硬盤、可擦寫存儲(chǔ)器等。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。