本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種語音信息的處理方法及裝置。
背景技術(shù):
隨著世界經(jīng)濟(jì)的快速發(fā)展,使用不同語言的人們之間的交流越來越多,在雙人對話場景中,若對話雙方均不懂對方的語言,往往需要借助翻譯人員對雙方的交談內(nèi)容進(jìn)行翻譯,以實(shí)現(xiàn)兩人的溝通。這種采用翻譯人員進(jìn)行翻譯的方式雖然可以較準(zhǔn)確的傳達(dá)雙方交談內(nèi)容,但是費(fèi)用較高。
為實(shí)現(xiàn)低成本溝通,目前更傾向于借助翻譯軟件翻譯,也即,在對話過程中,通過麥克風(fēng)采集用戶的對話內(nèi)容,并經(jīng)由翻譯軟件對該對話內(nèi)容進(jìn)行分析,之后利用用戶指定的翻譯語種對分析出的對話內(nèi)容進(jìn)行翻譯,并將翻譯后的數(shù)據(jù)通過語音播放,實(shí)現(xiàn)兩人的溝通。但是,這種溝通方式存在一個極大的缺陷:每次采集完語音之后,用戶都要停下來手動選擇所需的翻譯語言,導(dǎo)致對話操作繁瑣,對話效率低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種語音信息的處理方法及裝置,以解決現(xiàn)有語音翻譯方法操作繁瑣、對話效率低的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供以下技術(shù)方案:
一種語音信息的處理方法,其包括:
獲取聲源的語音信息和目標(biāo)位置信息;
根據(jù)所述目標(biāo)位置信息確定目標(biāo)翻譯策略;
利用所述目標(biāo)翻譯策略對所述語音信息進(jìn)行翻譯,得到翻譯信息;
輸出所述翻譯信息。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還提供以下技術(shù)方案:
一種語音信息的處理裝置,其包括:
獲取模塊,用于獲取聲源的語音信息和目標(biāo)位置信息;
確定模塊,用于根據(jù)所述目標(biāo)位置信息確定目標(biāo)翻譯策略;
翻譯模塊,用于利用所述目標(biāo)翻譯策略對所述語音信息進(jìn)行翻譯,得到翻譯信息;
輸出模塊,用于輸出所述翻譯信息。
本發(fā)明所述的語音信息的處理方法及裝置,通過獲取聲源的語音信息和目標(biāo)位置信息,并根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略,之后,利用該目標(biāo)翻譯策略對語音信息進(jìn)行翻譯,得到翻譯信息,并輸出該翻譯信息,從而無需用戶反復(fù)輸入翻譯方式即可實(shí)現(xiàn)翻譯操作,操作簡單,對話效率高。
附圖說明
下面結(jié)合附圖,通過對本發(fā)明的具體實(shí)施方式詳細(xì)描述,將使本發(fā)明的技術(shù)方案及其它有益效果顯而易見。
圖1a是本發(fā)明實(shí)施例提供的語音信息的處理系統(tǒng)的場景示意圖。
圖1b為本發(fā)明實(shí)施例提供的語音信息的處理方法的流程示意圖。
圖2a為本發(fā)明實(shí)施例提供的語音信息的處理方法的流程示意圖。
圖2b為本發(fā)明實(shí)施例提供的雙麥克風(fēng)采集過程示意圖。
圖3a為本發(fā)明實(shí)施例提供的語音信息的處理裝置的結(jié)構(gòu)示意圖。
圖3b為本發(fā)明實(shí)施例提供的語音信息的另一處理裝置的結(jié)構(gòu)示意圖。
圖4為本發(fā)明實(shí)施例提供的終端的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供一種語音信息的處理方法、裝置及系統(tǒng)。
請參閱圖1a,該語音信息的處理系統(tǒng)可以包括本發(fā)明實(shí)施例所提供的任一種語音信息的處理裝置,該語音信息的處理裝置具體可以集成在終端中,該終端可以是手機(jī)、平板電腦或者其它具有翻譯功能的設(shè)備。
其中,終端可以獲取聲源的語音信息和目標(biāo)位置信息,并根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略,之后,利用該目標(biāo)翻譯策略對語音信息進(jìn)行翻譯,得到翻譯信息,并輸出該翻譯信息。
其中,該聲源可以包括人或者可發(fā)聲物體,比如可以為視頻通話過程中的語音播放設(shè)備。該目標(biāo)位置信息可以指聲源與終端的相對位置,主要用于辨別不同的說話對象。該目標(biāo)翻譯策略可以根據(jù)實(shí)際需求而定,其通常包括待翻譯的初始語言和最終翻譯成的目標(biāo)語言,比如若該目標(biāo)翻譯策略為“將中文翻譯成英文”,則初始語言為中文,目標(biāo)語言為英文。當(dāng)對話雙方P1和P2位于終端兩邊進(jìn)行對話時,可以根據(jù)說話對象相對于終端的位置信息來判斷當(dāng)前說話者是誰,從而選擇合適的目標(biāo)翻譯策略進(jìn)行翻譯,并且,可以進(jìn)一步將翻譯出的內(nèi)容通過喇叭播放出來,以便對話雙方P1和P2可以聽到。
以下將分別進(jìn)行詳細(xì)說明。需說明的是,以下實(shí)施例的序號不作為實(shí)施例優(yōu)先順序的限定。
第一實(shí)施例
本實(shí)施例將從語音信息的處理裝置的角度進(jìn)行描述,該語音信息的處理裝置可以集成在終端中。
請參閱圖1b,圖1b具體描述了本發(fā)明第一實(shí)施例提供的語音信息的處理方法,其可以包括:
S101、獲取聲源的語音信息和目標(biāo)位置信息。
本實(shí)施例中,該聲源可以包括人或者可發(fā)聲物體,比如可以為視頻通話過程中的語音播放設(shè)備。該語音信息可以包括語音內(nèi)容、音量和音色等信息。該目標(biāo)位置信息可以指聲源與終端(或終端中內(nèi)置部件)的相對位置,主要用于辨別不同位置的說話對象。該語音信息可以通過聲音采集設(shè)備獲取,該目標(biāo)位置信息可以根據(jù)采集的語音信息得到,也可以通過一些檢測裝置檢測得到,比如可以通過終端內(nèi)置的紅外設(shè)備感應(yīng)得到。
例如,上述步驟S101具體可以包括:
1-1、分別利用多個音頻采集單元對聲源所發(fā)出的聲音進(jìn)行采集,得到多個具有同一語音內(nèi)容的語音信息。
本實(shí)施例中,該音頻采集單元可以包括麥克風(fēng),該多個音頻采集單元可以表現(xiàn)為麥克風(fēng)陣列,其中每一音頻采集單元在終端中具有不同的安裝位置,該多個音頻采集單元的數(shù)量可以根據(jù)實(shí)際需求而定,比如可以為2個或者3個,等等。
1-2、根據(jù)該語音信息和音頻采集單元確定目標(biāo)位置信息。
例如,上述步驟1-2具體可以包括:
獲取每一語音信息的音量值,以及每一音頻采集單元的標(biāo)識;
根據(jù)該音量值的大小和標(biāo)識確定目標(biāo)位置信息。
本實(shí)施例中,可以對語音信息進(jìn)行數(shù)字化處理(比如傅里葉變換)來獲取音量值。該標(biāo)識主要用于區(qū)分不同的音頻采集單元,其可以按照音頻采集單元在終端中的安裝位置來設(shè)定,比如從左往右該音頻采集單元的標(biāo)識可以依次設(shè)定為M1、M2直至Mn。該目標(biāo)位置信息主要指聲源相對于音頻采集單元的位置,其可以有多種表現(xiàn)形式,比如可以表現(xiàn)為方位“左”、“中”或“右”,或者標(biāo)識M1、M2或Mn,其中每一標(biāo)識表示一個位置,當(dāng)然,為提高精準(zhǔn)度,還可以表現(xiàn)為具有排序規(guī)則的標(biāo)識集,比如M1M2M3或M1M3M2,等等。
需要說明的是,由于每個音頻采集單元在終端中具有不同的安裝位置,且離聲源越近,音頻采集單元采集到的音量越大,故對于同一聲源,每個音頻采集單元采集到的語音信息的內(nèi)容和音色相同,音量不同,從而只要知道每個音頻采集單元采集的語音的音量值就可確定聲源的目標(biāo)位置信息,也即可以根據(jù)音量值確定該聲源相對于音頻采集單元的位置。
例如,上述步驟“根據(jù)該音量值的大小和標(biāo)識確定目標(biāo)位置信息”具體可以包括:
2-1、獲取最大音量值對應(yīng)的音頻采集單元的標(biāo)識,或者根據(jù)音量值的大小對音頻采集單元的標(biāo)識進(jìn)行排序,以獲取排序后標(biāo)識集;
2-2、將獲取的標(biāo)識或者排序后標(biāo)識集確定為目標(biāo)位置信息。
本實(shí)施例中,可以按音量值從大到小或從小到大順序?qū)?biāo)識進(jìn)行排序,得到排序后標(biāo)識集。容易理解的是,由于目標(biāo)位置信息的表現(xiàn)形式有多種,故該目標(biāo)位置信息的確定方式也可以有多種,比如當(dāng)目標(biāo)位置信息表現(xiàn)為標(biāo)識或者具有排序規(guī)則的標(biāo)識集時,該目標(biāo)位置信息可以直接是獲取的標(biāo)識或者排序后標(biāo)識集。比如當(dāng)當(dāng)目標(biāo)位置信息表現(xiàn)為方位信息時,需要進(jìn)一步根據(jù)獲取的標(biāo)識或者排序后標(biāo)識集從預(yù)設(shè)的方位信息庫中查找對應(yīng)的方位信息作為目標(biāo)位置信息,其中該方位信息庫中保存的是標(biāo)識或者標(biāo)識集與方位信息之間的關(guān)聯(lián)關(guān)系,其可以是終端出廠時廠家已經(jīng)設(shè)置好的,比如出廠時已設(shè)置好:M1或M1M2對應(yīng)方位信息“左”,M2或M2M1對應(yīng)方位信息“右”等等。
S102、根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略。
本實(shí)施例中,該目標(biāo)翻譯策略可以根據(jù)實(shí)際需求而定,其通??梢园ùg的初始語言和最終翻譯成的目標(biāo)語言,比如若該目標(biāo)翻譯策略為“將中文翻譯成英文”,則初始語言為中文,目標(biāo)語言為英文。
例如,上述步驟S102具體可以包括:
根據(jù)目標(biāo)位置信息從已建立的翻譯策略集合中選擇對應(yīng)的翻譯策略;
將選擇的翻譯策略確定為目標(biāo)翻譯策略。
本實(shí)施例中,該翻譯策略集合中的翻譯策略可以根據(jù)實(shí)際需求而定,其可以包括“將中文翻譯成英文”,“將日文翻譯成英文”或者“將英文翻譯成中文”等等。實(shí)際應(yīng)用過程中,需要預(yù)先在翻譯策略集合中建立翻譯策略和位置信息之間的關(guān)聯(lián)關(guān)系,此時,該目標(biāo)位置信息可以由終端中的內(nèi)置設(shè)備,比如攝像頭檢測得到,也可以是通過多個音頻采集設(shè)備采集用戶的語音信息來確定的。
當(dāng)該關(guān)聯(lián)關(guān)系中的位置信息是通過多個音頻采集設(shè)備采集用戶的語音信息來確定的時,在上述步驟S101之前,該語音信息的處理方法還可以包括:
利用該音頻采集單元采集聲源的首次語音信息;
獲取用戶輸入的當(dāng)前翻譯策略;
根據(jù)首次語音信息和當(dāng)前翻譯策略建立翻譯策略集合。
本實(shí)施例中,該首次語音信息可以是終端開啟語音翻譯功能時,第一次采集的語音,且為確保后續(xù)位置信息檢測的準(zhǔn)確性,該首次語音信息可以是多段語音組成,也可以是指定時長的語音段。
例如,上述步驟“根據(jù)首次語音信息和當(dāng)前翻譯策略建立翻譯策略集合”具體可以包括:
獲取首次語音信息的音量值;
根據(jù)首次語音信息的音量值和音頻采集單元的標(biāo)識確定當(dāng)前位置信息;
根據(jù)當(dāng)前位置信息和當(dāng)前翻譯策略建立翻譯策略集合。
本實(shí)施例中,當(dāng)前位置信息的確定方式可以有多種,比如若當(dāng)前位置信息的表現(xiàn)形式為標(biāo)識或標(biāo)識集時,可以獲取最大音量值對應(yīng)的音頻采集單元的標(biāo)識,或者按音量值從大到小或從小到大順序?qū)?biāo)識進(jìn)行排序,得到排序后標(biāo)識集,此時,獲取到的標(biāo)識或排序后標(biāo)識集即為當(dāng)前位置信息,且需要將當(dāng)前位置信息存儲在翻譯策略集合中。
比如若當(dāng)前位置信息的表現(xiàn)形式為方位信息時,可以進(jìn)一步根據(jù)獲取到的標(biāo)識或排序后標(biāo)識集判斷用戶的當(dāng)前位置信息,比如將獲取到的標(biāo)識或排序后標(biāo)識集與上述步驟2-2中的方位信息庫進(jìn)行匹配,匹配得到的方位信息即為當(dāng)前位置信息,比如“左”或“右”等。
此外,該當(dāng)前位置信息還可以是用戶手動輸入的,比如終端可以向用戶顯示一個位置信息選擇框,該選擇框內(nèi)可以提供“左”、“中”和“右”等多個位置信息以供用戶選擇,或者該當(dāng)前位置信息還可以是終端通過內(nèi)置設(shè)備自行檢測的,等等。
例如,上述步驟“根據(jù)當(dāng)前位置信息和當(dāng)前翻譯策略建立翻譯策略集合具體可以包括:
建立當(dāng)前位置信息和當(dāng)前翻譯策略之間的關(guān)聯(lián)關(guān)系;
將該關(guān)聯(lián)關(guān)系存儲在翻譯策略集合中。
此時,上述步驟“根據(jù)目標(biāo)位置信息從已建立的翻譯策略集合中選擇對應(yīng)的翻譯策略”具體可以包括:
根據(jù)該關(guān)聯(lián)關(guān)系從已建立的翻譯策略集合中選擇與該目標(biāo)位置信息對應(yīng)的翻譯策略。
本實(shí)施例中,若對話雙方(或?qū)υ挾喾?在對話的過程中,任一方的說話聲音、位置和翻譯策略這些信息在首次說話時已經(jīng)設(shè)置好了,則之后在所站位置不變的情況下,任一方說話時,終端均可以根據(jù)采集的語音信息確定該用戶的目標(biāo)位置信息,并根據(jù)該目標(biāo)位置信息查找對應(yīng)的翻譯策略以進(jìn)行翻譯操作,無需用戶手動選擇,操作簡單方便,能最大程度的降低對話被打斷的幾率,提高溝通的流暢性。
S103、利用該目標(biāo)翻譯策略對該語音信息進(jìn)行翻譯,得到翻譯信息。
本實(shí)施例中,可以先利用待翻譯的初始語言對語音信息進(jìn)行語義分析,然后利用最終翻譯成的目標(biāo)語言將分析出的語義表達(dá)出來,得到翻譯信息。
S104、輸出該翻譯信息。
本實(shí)施例中,可以將翻譯后的內(nèi)容通過揚(yáng)聲器等設(shè)備進(jìn)行語音播放,以便用戶可以聽到。需要指出的是,在播放的過程中,該多個音頻采集單元可以不進(jìn)行語音采集操作。
由上述可知,本實(shí)施例提供的語音信息的處理方法,通過獲取聲源的語音信息和目標(biāo)位置信息,并根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略,之后,利用該目標(biāo)翻譯策略對語音信息進(jìn)行翻譯,得到翻譯信息,并輸出該翻譯信息,相對于現(xiàn)有技術(shù)中需要用戶反復(fù)手動選擇翻譯方式來說,無需手動操作即可實(shí)現(xiàn)翻譯,操作簡單,對話效率高,溝通流暢性好。
第二實(shí)施例
根據(jù)實(shí)施例一所描述的方法,以下將舉例作進(jìn)一步詳細(xì)說明。
在本實(shí)施例中,將以該語音信息的處理裝置集成在終端中,對話參與人數(shù)為兩人為例進(jìn)行詳細(xì)說明。
如圖2a和圖2b所示,一種語音信息的處理方法,具體流程可以如下:
S201、終端分別利用多個音頻采集單元采集聲源的首次語音信息,并獲取用戶輸入的當(dāng)前翻譯策略。
譬如,該多個音頻采集單元可以為雙麥克風(fēng),該聲源可以是對話雙方P1或P2。該首次語音信息可以是采集時長為1分鐘的一段語音信息。具體的,終端在采集首次語音信息的過程中,P1或P2還需要手動輸入自己所需的翻譯策略,比如終端可以提供翻譯策略選擇框,供用戶選擇,該翻譯策略選擇框中可以包括“將中文翻譯成英文”,“將日文翻譯成英文”和“將英文翻譯成中文”等多個選項(xiàng)。
S202、終端獲取首次語音信息的音量值,以及每一音頻采集單元的標(biāo)識。
譬如,該多個音頻采集單元的標(biāo)識可以按照從左往右的順序依次標(biāo)記為M1和M2。該音量值為音量平均值,其可以包括L1和L2,其中L1=30分貝,L2=34分貝,且M1對應(yīng)的音量值為L1,M2對應(yīng)的音量值為L2。
S203、終端根據(jù)首次語音信息的音量值和標(biāo)識確定當(dāng)前位置信息。
譬如,若當(dāng)前位置信息的表現(xiàn)形式為標(biāo)識或標(biāo)識集時,可以獲取最大音量值對應(yīng)的音頻采集單元的標(biāo)識M2,或者按音量值從大到小或從小到大順序?qū)?biāo)識進(jìn)行排序,得到排序后標(biāo)識集M2M1,此時,M2或M2M1即為當(dāng)前位置信息。
若當(dāng)前位置信息的表現(xiàn)形式為方位信息時,比如“左”、“中”或“右”,可以進(jìn)一步根據(jù)獲取到的標(biāo)識M2或排序后標(biāo)識集M2M1判斷用戶的當(dāng)前位置信息,比如將獲取到的標(biāo)識M2或排序后標(biāo)識集M2M1與方位信息庫進(jìn)行匹配,得到當(dāng)前位置信息“右”,此處的方位信息庫中保存的是標(biāo)識或者標(biāo)識集與方位信息之間的關(guān)聯(lián)關(guān)系,其可以是終端出廠時廠家已經(jīng)設(shè)置好的,比如出廠時已設(shè)置好:M1或M1M2對應(yīng)方位信息“左”,M2或M2M1對應(yīng)方位信息“右”等等。
S204、終端建立當(dāng)前位置信息和當(dāng)前翻譯策略之間的關(guān)聯(lián)關(guān)系,并將該關(guān)聯(lián)關(guān)系存儲在翻譯策略集合中。
譬如,將當(dāng)前位置信息M2或M2M1或“右”與當(dāng)前翻譯策略“將中文翻譯成英文”進(jìn)行關(guān)聯(lián)并存儲,將當(dāng)前位置信息M1或M1M2或“左”與當(dāng)前翻譯策略“將英文翻譯成中文”進(jìn)行關(guān)聯(lián)并存儲。
S205、終端利用該音頻采集單元采集聲源的語音信息,并獲取每一語音信息的音量值。
譬如,當(dāng)終端建立好翻譯策略集合之后,在所站位置不變的情況下,只要任一方開始說話,終端即可利用麥克風(fēng)采集該時刻的語音信息,并根據(jù)該時刻的語音信息就可確定當(dāng)前說話人是P1還是P2,從而選擇合適的翻譯策略,而無需得到采集完一段語音后才能確定,方便快捷。
S206、終端根據(jù)每一語音信息的音量值的大小和標(biāo)識確定目標(biāo)位置信息。
譬如,當(dāng)目標(biāo)位置信息表現(xiàn)為標(biāo)識或者具有排序規(guī)則的標(biāo)識集時,該目標(biāo)位置信息可以直接是獲取的標(biāo)識或者排序后標(biāo)識集。當(dāng)目標(biāo)位置信息表現(xiàn)為方位信息時,需要進(jìn)一步根據(jù)獲取的標(biāo)識或者排序后標(biāo)識集從方位信息庫中查找對應(yīng)的方位信息作為目標(biāo)位置信息,比如根據(jù)M1或M1M2查找的方位信息為“左”,也即可判斷當(dāng)前對話人為P1。
S207、終端根據(jù)目標(biāo)位置信息從翻譯策略集合中選擇對應(yīng)的翻譯策略作為目標(biāo)翻譯策略。
譬如,終端可以根據(jù)目標(biāo)位置信息M1或M1M2或“左”從翻譯策略集合中確定的目標(biāo)翻譯策略為“將中文翻譯成英文”。
S208、終端利用該目標(biāo)翻譯策略對該語音信息進(jìn)行翻譯,得到翻譯信息,并輸出該翻譯信息。
譬如,終端可以將P1說的中文語音翻譯成英文語音,并通過喇叭播放出來,以便P2可以聽到。
由上述可知,本實(shí)施例提供的語音信息的處理方法,其中終端可以分別利用多個音頻采集單元采集聲源的首次語音信息,并獲取用戶輸入的當(dāng)前翻譯策略,之后,獲取首次語音信息的音量值,以及每一音頻采集單元的標(biāo)識,并根據(jù)首次語音信息的音量值和標(biāo)識確定當(dāng)前位置信息,接著,建立當(dāng)前位置信息和當(dāng)前翻譯策略之間的關(guān)聯(lián)關(guān)系,并將該關(guān)聯(lián)關(guān)系存儲在翻譯策略集合中,這樣,后續(xù)在該聲源說話的過程中,終端可以利用該音頻采集單元采集聲源的語音信息,并獲取每一語音信息的音量值,接著,根據(jù)每一語音信息的音量值的大小和標(biāo)識確定目標(biāo)位置信息,并根據(jù)目標(biāo)位置信息從翻譯策略集合中選擇對應(yīng)的翻譯策略作為目標(biāo)翻譯策略,之后,利用該目標(biāo)翻譯策略對該語音信息進(jìn)行翻譯,得到翻譯信息,并輸出該翻譯信息,從而用戶只需輸入一次翻譯策略即可實(shí)現(xiàn)后續(xù)的翻譯操作,無需反復(fù)輸入,操作簡單,且能盡量避免對話被打斷,溝通流暢性好,對話效率高。
第三實(shí)施例
在實(shí)施例一和實(shí)施例二所述方法的基礎(chǔ)上,本實(shí)施例將從語音信息的處理裝置的角度進(jìn)一步進(jìn)行描述,請參閱圖3a,圖3a具體描述了本發(fā)明第三實(shí)施例提供的語音信息的處理裝置,其可以包括:獲取模塊10、確定模塊20、翻譯模塊30和輸出模塊40,其中:
(1)獲取模塊10
獲取模塊10,用于獲取聲源的語音信息和目標(biāo)位置信息。
本實(shí)施例中,該聲源可以包括人或者可發(fā)聲物體,比如可以為視頻通話過程中的語音播放設(shè)備。該語音信息可以包括語音內(nèi)容、音量和音色等信息。該目標(biāo)位置信息可以指聲源與終端(或終端中內(nèi)置部件)的相對位置,主要用于辨別不同位置的說話對象。獲取模塊10可以通過聲音采集設(shè)備獲取該語音信息,可以根據(jù)采集的語音信息或者一些檢測裝置得到目標(biāo)位置信息,比如可以通過終端內(nèi)置的紅外設(shè)備感應(yīng)目標(biāo)位置信息。
例如,請參閱圖3b,該獲取模塊10具體可以包括:第一采集子模塊11和第一確定子模塊12,其中,
第一采集子模塊11,用于分別利用多個音頻采集單元對聲源所發(fā)出的聲音進(jìn)行采集,得到多個具有同一語音內(nèi)容的語音信息。
本實(shí)施例中,該音頻采集單元可以包括麥克風(fēng),該多個音頻采集單元可以表現(xiàn)為麥克風(fēng)陣列,其中每一音頻采集單元在終端中具有不同的安裝位置,該多個音頻采集單元的數(shù)量可以根據(jù)實(shí)際需求而定,比如可以為2個或者3個,等等。
第一確定子模塊12,用于根據(jù)該語音信息和音頻采集單元確定目標(biāo)位置信息。
例如,該第一確定子模塊12具體可以用于:
獲取每一語音信息的音量值,以及每一音頻采集單元的標(biāo)識;
根據(jù)該音量值的大小和標(biāo)識確定目標(biāo)位置信息。
本實(shí)施例中,第一確定子模塊12可以對語音信息進(jìn)行數(shù)字化處理(比如傅里葉變換)來獲取音量值。該標(biāo)識主要用于區(qū)分不同的音頻采集單元,其可以按照音頻采集單元在終端中的安裝位置來設(shè)定,比如從左往右該音頻采集單元的標(biāo)識可以依次設(shè)定為M1、M2直至Mn。該目標(biāo)位置信息主要指聲源相對于音頻采集單元的位置,其可以有多種表現(xiàn)形式,比如可以表現(xiàn)為方位“左”、“中”或“右”,或者標(biāo)識M1、M2或Mn,其中每一標(biāo)識表示一個位置,當(dāng)然,為提高精準(zhǔn)度,還可以表現(xiàn)為具有排序規(guī)則的標(biāo)識集,比如M1M2M3或M1M3M2,等等。
需要說明的是,由于每個音頻采集單元在終端中具有不同的安裝位置,且離聲源越近,音頻采集單元采集到的音量越大,故對于同一聲源,每個音頻采集單元采集到的語音信息的內(nèi)容和音色相同,音量不同,從而只要知道每個音頻采集單元采集的語音的音量值就可確定聲源的目標(biāo)位置信息,也即可以根據(jù)音量值確定該聲源相對于音頻采集單元的位置。
例如,上述第一確定子模塊12具體可以用于:
獲取最大音量值對應(yīng)的音頻采集單元的標(biāo)識,或者根據(jù)音量值的大小對音頻采集單元的標(biāo)識進(jìn)行排序,以獲取排序后標(biāo)識集;
將獲取的標(biāo)識或者排序后標(biāo)識集確定為目標(biāo)位置信息。
本實(shí)施例中,第一確定子模塊12可以按音量值從大到小或從小到大順序?qū)?biāo)識進(jìn)行排序,得到排序后標(biāo)識集。容易理解的是,由于目標(biāo)位置信息的表現(xiàn)形式有多種,故該目標(biāo)位置信息的確定方式也可以有多種,比如當(dāng)目標(biāo)位置信息表現(xiàn)為標(biāo)識或者具有排序規(guī)則的標(biāo)識集時,第一確定子模塊12可以直接將獲取的標(biāo)識或者排序后標(biāo)識集作為該目標(biāo)位置信息。比如當(dāng)當(dāng)目標(biāo)位置信息表現(xiàn)為方位信息時,第一確定子模塊12需要進(jìn)一步根據(jù)獲取的標(biāo)識或者排序后標(biāo)識集從預(yù)設(shè)的方位信息庫中查找對應(yīng)的方位信息作為目標(biāo)位置信息,其中該方位信息庫中保存的是標(biāo)識或者標(biāo)識集與方位信息之間的關(guān)聯(lián)關(guān)系,其可以是終端出廠時廠家已經(jīng)設(shè)置好的,比如出廠時已設(shè)置好:M1或M1M2對應(yīng)方位信息“左”,M2或M2M1對應(yīng)方位信息“右”等等。
(2)確定模塊20
確定模塊20,用于根據(jù)該目標(biāo)位置信息確定目標(biāo)翻譯策略。
本實(shí)施例中,該目標(biāo)翻譯策略可以根據(jù)實(shí)際需求而定,其通??梢园ùg的初始語言和最終翻譯成的目標(biāo)語言,比如若該目標(biāo)翻譯策略為“將中文翻譯成英文”,則初始語言為中文,目標(biāo)語言為英文。
例如,該確定模塊20具體可以包括:選擇子模塊21和第二確定子模塊22,其中:
選擇子模塊21,用于根據(jù)目標(biāo)位置信息從已建立的翻譯策略集合中選擇對應(yīng)的翻譯策略。
第二確定子模塊22,用于將選擇的翻譯策略確定為目標(biāo)翻譯策略。
本實(shí)施例中,該翻譯策略集合中的翻譯策略可以根據(jù)實(shí)際需求而定,其可以包括“將中文翻譯成英文”,“將日文翻譯成英文”或者“將英文翻譯成中文”等等。實(shí)際應(yīng)用過程中,需要預(yù)先在翻譯策略集合中建立翻譯策略和位置信息之間的關(guān)聯(lián)關(guān)系,此時,該目標(biāo)位置信息可以由終端中的內(nèi)置設(shè)備,比如攝像頭檢測得到,也可以是通過多個音頻采集設(shè)備采集用戶的語音信息來確定的
當(dāng)該關(guān)聯(lián)關(guān)系中的位置信息是通過多個音頻采集設(shè)備采集用戶的語音信息來確定的時,該語音信息的處理裝置還可以包括建立模塊50,該建立模塊50可以包括:第二采集子模塊51、獲取子模塊52和建立子模塊53,其中:
第二采集子模塊51,用于在該獲取模塊獲取聲源的語音信息和目標(biāo)位置信息之前,利用該音頻采集單元采集聲源的首次語音信息;
獲取子模塊52,用于獲取用戶輸入的當(dāng)前翻譯策略;
建立子模塊53,用于根據(jù)首次語音信息和當(dāng)前翻譯策略建立翻譯策略集合。
本實(shí)施例中,該首次語音信息可以是終端開啟語音翻譯功能時,第一次采集的語音,且為確保后續(xù)位置信息檢測的準(zhǔn)確性,該首次語音信息可以是多段語音組成,也可以是指定時長的語音段。
例如,該建立子模塊53具體可以包括:
獲取單元,用于獲取首次語音信息的音量值;
確定單元,用于根據(jù)首次語音信息的音量值和音頻采集單元的標(biāo)識確定當(dāng)前位置信息;
第一建立單元,用于根據(jù)當(dāng)前位置信息和當(dāng)前翻譯策略建立翻譯策略集合。
本實(shí)施例中,當(dāng)前位置信息的確定方式可以有多種,比如若當(dāng)前位置信息的表現(xiàn)形式為標(biāo)識或標(biāo)識集時,確定單元可以獲取最大音量值對應(yīng)的音頻采集單元的標(biāo)識,或者按音量值從大到小或從小到大順序?qū)?biāo)識進(jìn)行排序,得到排序后標(biāo)識集,此時,獲取到的標(biāo)識或排序后標(biāo)識集即為當(dāng)前位置信息,且需要將當(dāng)前位置信息存儲在翻譯策略集合中。
比如若當(dāng)前位置信息的表現(xiàn)形式為方位信息時,確定單元可以進(jìn)一步根據(jù)獲取到的標(biāo)識或排序后標(biāo)識集判斷用戶的當(dāng)前位置信息,比如將獲取到的標(biāo)識或排序后標(biāo)識集與方位信息庫進(jìn)行匹配,匹配得到的方位信息即為當(dāng)前位置信息,比如“左”或“右”等。
此外,該當(dāng)前位置信息還可以是用戶手動輸入的,比如終端可以向用戶顯示一個位置信息選擇框,該選擇框內(nèi)可以提供“左”、“中”和“右”等多個位置信息以供用戶選擇,或者該當(dāng)前位置信息還可以是終端通過內(nèi)置設(shè)備自行檢測的,等等。
例如,該第一建立單元具體可以用于:
建立當(dāng)前位置信息和當(dāng)前翻譯策略之間的關(guān)聯(lián)關(guān)系;將該關(guān)聯(lián)關(guān)系存儲在翻譯策略集合中。
此時,該選擇子模塊21具體可以用于:
根據(jù)該關(guān)聯(lián)關(guān)系從已建立的翻譯策略集合中選擇與該目標(biāo)位置信息對應(yīng)的翻譯策略。
本實(shí)施例中,若對話雙方(或?qū)υ挾喾?在對話的過程中,第一建立單元已經(jīng)將任一方的說話聲音、位置和翻譯策略這些信息在首次說話時設(shè)置好了,則之后在所站位置不變的情況下,任一方說話時,第一確定子模塊12均可以根據(jù)采集的語音信息確定該用戶的目標(biāo)位置信息,選擇子模塊21根據(jù)該目標(biāo)位置信息查找對應(yīng)的翻譯策略以進(jìn)行翻譯操作,無需用戶手動選擇,操作簡單方便,能最大程度的降低對話被打斷的幾率,提高溝通的流暢性。
(3)翻譯模塊30
翻譯模塊30,用于利用該目標(biāo)翻譯策略對該語音信息進(jìn)行翻譯,得到翻譯信息。
本實(shí)施例中,翻譯模塊30可以先利用待翻譯的初始語言對語音信息進(jìn)行語義分析,然后利用最終翻譯成的目標(biāo)語言將分析出的語義表達(dá)出來,得到翻譯信息。
(4)輸出模塊40
輸出模塊40,用于輸出該翻譯信息。
本實(shí)施例中,輸出模塊40可以將翻譯后的內(nèi)容通過揚(yáng)聲器等設(shè)備進(jìn)行語音播放,以便用戶可以聽到。需要指出的是,在播放的過程中,該多個音頻采集單元可以不進(jìn)行語音采集操作。
具體實(shí)施時,以上各個單元可以作為獨(dú)立的實(shí)體來實(shí)現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個實(shí)體來實(shí)現(xiàn),以上各個單元的具體實(shí)施可參見前面的方法實(shí)施例,在此不再贅述。
由上述可知,本實(shí)施例提供的語音信息的處理裝置,通過獲取模塊10獲取聲源的語音信息和目標(biāo)位置信息,確定模塊20根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略,之后,翻譯模塊30利用該目標(biāo)翻譯策略對語音信息進(jìn)行翻譯,得到翻譯信息,輸出模塊40輸出該翻譯信息,相對于現(xiàn)有技術(shù)中需要用戶反復(fù)手動選擇翻譯方式來說,無需手動操作即可實(shí)現(xiàn)翻譯,操作簡單,對話效率高,溝通流暢性好。
第四實(shí)施例
相應(yīng)的,本發(fā)明實(shí)施例還提供一種語音信息的處理系統(tǒng),包括本發(fā)明實(shí)施例所提供的任一種語音信息的處理裝置,該語音信息的處理裝置具體可參見實(shí)施例三。
其中,該語音信息的處理裝置具體可以集成在終端中,例如,可以如下:
終端,用于獲取聲源的語音信息和目標(biāo)位置信息,根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略,之后,利用該目標(biāo)翻譯策略對語音信息進(jìn)行翻譯,得到翻譯信息,并輸出該翻譯信息。
以上各個設(shè)備的具體實(shí)施可參見前面的實(shí)施例,在此不再贅述。
由于該驗(yàn)證信息的處理系統(tǒng)可以包括本發(fā)明實(shí)施例所提供的任一種語音信息的處理裝置,因此,可以實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的任一種語音信息的處理裝置所能實(shí)現(xiàn)的有益效果,詳見前面的實(shí)施例,在此不再贅述。
第五實(shí)施例
相應(yīng)的,本發(fā)明實(shí)施例還提供一種終端,如圖4所示,該終端可以包括射頻(RF,Radio Frequency)電路601、包括有一個或一個以上計(jì)算機(jī)可讀存儲介質(zhì)的存儲器602、輸入單元603、顯示單元604、傳感器605、音頻電路606、無線保真(WiFi,Wireless Fidelity)模塊607、包括有一個或者一個以上處理核心的處理器608、以及電源609等部件。本領(lǐng)域技術(shù)人員可以理解,圖4中示出的終端結(jié)構(gòu)并不構(gòu)成對終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
RF電路601可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器608處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路601包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(SIM,Subscriber Identity Module)卡、收發(fā)信機(jī)、耦合器、低噪聲放大器(LNA,Low Noise Amplifier)、雙工器等。此外,RF電路601還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。所述無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動通訊系統(tǒng)(GSM,Global System of Mobile communication)、通用分組無線服務(wù)(GPRS,General Packet Radio Service)、碼分多址(CDMA,Code Division Multiple Access)、寬帶碼分多址(WCDMA,Wideband Code Division Multiple Access)、長期演進(jìn)(LTE,Long Term Evolution)、電子郵件、短消息服務(wù)(SMS,Short Messaging Service)等。
存儲器602可用于存儲軟件程序以及模塊,處理器608通過運(yùn)行存儲在存儲器602的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器602可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)終端的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲器602可以包括高速隨機(jī)存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應(yīng)地,存儲器602還可以包括存儲器控制器,以提供處理器608和輸入單元603對存儲器602的訪問。
輸入單元603可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號輸入。具體地,在一個具體的實(shí)施例中,輸入單元603可包括觸敏表面以及其他輸入設(shè)備。觸敏表面,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面上或在觸敏表面附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動相應(yīng)的連接裝置??蛇x的,觸敏表面可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器608,并能接收處理器608發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸敏表面。除了觸敏表面,輸入單元603還可以包括其他輸入設(shè)備。具體地,其他輸入設(shè)備可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
顯示單元604可用于顯示由用戶輸入的信息或提供給用戶的信息以及終端的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。顯示單元604可包括顯示面板,可選的,可以采用液晶顯示器(LCD,Liquid Crystal Display)、有機(jī)發(fā)光二極管(OLED,Organic Light-Emitting Diode)等形式來配置顯示面板。進(jìn)一步的,觸敏表面可覆蓋顯示面板,當(dāng)觸敏表面檢測到在其上或附近的觸摸操作后,傳送給處理器608以確定觸摸事件的類型,隨后處理器608根據(jù)觸摸事件的類型在顯示面板上提供相應(yīng)的視覺輸出。雖然在圖4中,觸敏表面與顯示面板是作為兩個獨(dú)立的部件來實(shí)現(xiàn)輸入和輸入功能,但是在某些實(shí)施例中,可以將觸敏表面與顯示面板集成而實(shí)現(xiàn)輸入和輸出功能。
終端還可包括至少一種傳感器605,比如光傳感器、運(yùn)動傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示面板的亮度,接近傳感器可在終端移動到耳邊時,關(guān)閉顯示面板和/或背光。作為運(yùn)動傳感器的一種,重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機(jī)姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計(jì)姿態(tài)校準(zhǔn))、振動識別相關(guān)功能(比如計(jì)步器、敲擊)等;至于終端還可配置的陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路606、揚(yáng)聲器,傳聲器可提供用戶與終端之間的音頻接口。音頻電路606可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號,傳輸?shù)綋P(yáng)聲器,由揚(yáng)聲器轉(zhuǎn)換為聲音信號輸出;另一方面,傳聲器將收集的聲音信號轉(zhuǎn)換為電信號,由音頻電路606接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器608處理后,經(jīng)RF電路601以發(fā)送給比如另一終端,或者將音頻數(shù)據(jù)輸出至存儲器602以便進(jìn)一步處理。音頻電路606還可能包括耳塞插孔,以提供外設(shè)耳機(jī)與終端的通信。
WiFi屬于短距離無線傳輸技術(shù),終端通過WiFi模塊607可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖4示出了WiFi模塊607,但是可以理解的是,其并不屬于終端的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
處理器608是終端的控制中心,利用各種接口和線路連接整個手機(jī)的各個部分,通過運(yùn)行或執(zhí)行存儲在存儲器602內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器602內(nèi)的數(shù)據(jù),執(zhí)行終端的各種功能和處理數(shù)據(jù),從而對手機(jī)進(jìn)行整體監(jiān)控??蛇x的,處理器608可包括一個或多個處理核心;優(yōu)選的,處理器608可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器608中。
終端還包括給各個部件供電的電源609(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器608邏輯相連,從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。電源609還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
盡管未示出,終端還可以包括攝像頭、藍(lán)牙模塊等,在此不再贅述。具體在本實(shí)施例中,終端中的處理器608會按照如下的指令,將一個或一個以上的應(yīng)用程序的進(jìn)程對應(yīng)的可執(zhí)行文件加載到存儲器602中,并由處理器608來運(yùn)行存儲在存儲器602中的應(yīng)用程序,從而實(shí)現(xiàn)各種功能:
獲取聲源的語音信息和目標(biāo)位置信息;
根據(jù)目標(biāo)位置信息確定目標(biāo)翻譯策略;
利用該目標(biāo)翻譯策略對語音信息進(jìn)行翻譯,得到翻譯信息;
輸出該翻譯信息。
以上各操作的實(shí)現(xiàn)方法具體可參見上述實(shí)施例,此處不再贅述。
該終端可以實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的任一種語音信息的處理裝置所能實(shí)現(xiàn)的有效效果,詳見前面的實(shí)施例,在此不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM,Read Only Memory)、隨機(jī)存取記憶體(RAM,Random Access Memory)、磁盤或光盤等。
以上對本發(fā)明實(shí)施例所提供的一種語音信息的處理方法、裝置和系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。