專利名稱:語音處理的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對輸入語音進行處理和輸出的裝置和方法。
背景技術(shù):
近年來,作為一類處理輸入語音的語音處理裝置,正在進行對于通過將輸入話音的源語言翻譯為目標語言從而支持語際交流的語音翻譯系統(tǒng)等的開發(fā)。
在所述語音處理系統(tǒng)中,由于將多個說話人的語音輸入所述系統(tǒng),需要對每位說話人執(zhí)行語音處理。已經(jīng)提出了一種用于指定方向的技術(shù),在其中,通過利用可移動的麥克風(fēng)或陀螺傳感器,使得每個輸入語音的說話人都可以存在,并用于確定翻譯方向,例如,見JP-A 2005-141759(公開)中所公開的。
然而,在JP-A 2005-141759(公開)中公開的技術(shù)存在著發(fā)生故障或者操作復(fù)雜的問題。這是因為,如果存在環(huán)境噪聲或者來自說話人的交流對象的響應(yīng)諸如是不應(yīng)該處理的點頭時,此技術(shù)不能為每個輸入語音進行語音處理。
利用在JP-A 2005-141759(公開)中公開的技術(shù),通過移動朝向操作者或交流對象的語音翻譯系統(tǒng)或者麥克風(fēng)的主體,將說話人在操作者和交流對象之間進行切換。然而,此切換操作的缺陷在于,對于每個對話都需要進行,并可能妨礙自然對話。JP-A 2005-141759(公開)公開了利用麥克風(fēng)陣列的說話人切換方法;然而,仍然沒有解決對不需要的語音進行可能不希望的處理的問題。
作為確定說話人的另一種方法,在JP-A 2003-295892(公開)中公開了允許用戶明確指定說話人的技術(shù)。具體地,當輸入用戶的語音時,所述用戶打開開關(guān),而當輸入交流對象的語音時,關(guān)閉該開關(guān)。在JP-A2003-295892(公開)中公開的技術(shù)使得可以通過一次開關(guān)操作確定翻譯語言,并且因此能夠改進所述裝置的可操作性。
然而,在JP-A2003-295892(公開)中公開的方法存在這樣的問題,即,處理了不需要的語音,從而導(dǎo)致可能出現(xiàn)由于如下原因的故障。利用在JP-A 2003-295892(公開)中公開的方法,通過打開所述開關(guān),能夠為用戶的語音指定將要進行處理的語音的持續(xù)時間。然而,當用戶關(guān)閉所述開關(guān)時,所有輸入語音都被處理。這個問題是由于缺少一種方法來為所述交流對象的語音適當?shù)卦O(shè)置話音持續(xù)時間而導(dǎo)致的。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一方面,一種語音處理裝置,包括語音輸入單元,用于接收語音的輸入,該語音包括操作者和該操作者之外的人之中的一個的話音;指定持續(xù)時間接受單元,用于接受由所述操作者指定的指定持續(xù)時間作為時間間隔,該時間間隔是在所述輸入語音中的語音處理的對象;話音持續(xù)時間檢測單元,用于從所述輸入語音中檢測話音持續(xù)時間,該話音持續(xù)時間是在其中存在所述話音的時間間隔;說話人確定單元,基于所述輸入語音來確定所述話音的說話人是所述操作者還是所述操作者之外的人;以及決定單元,用于檢測在所述接受的指定持續(xù)時間和所述檢測的話音持續(xù)時間之間的重疊時間段,并且,當檢測到所述重疊時間段并且由所述說話人確定單元確定所述說話人是所述操作者之外的人時,決定包括了所述重疊時間段的所述話音持續(xù)時間是處理持續(xù)時間。
根據(jù)本發(fā)明另一方面,一種語音處理方法,包括步驟輸入語音,該語音包括操作者和該操作者之外的人之中的一個的話音;接受由所述操作者指定的指定持續(xù)時間的輸入作為時間間隔,該時間間隔是在所述輸入語音中的語音處理的對象;從所述輸入語音中檢測話音持續(xù)時間,該話音持續(xù)時間是在其中存在所述話音的時間間隔;基于所述輸入語音來確定所述話音的說話人是所述操作者還是所述操作者之外的人;檢測在所述接收的指定持續(xù)時間和所述檢測的話音持續(xù)時間之間的重疊時間段;以及,當檢測到所述重疊時間段并且確定所述說話人是所述操作者之外的人時,決定包括了所述重疊時間段的所述話音持續(xù)時間是處理持續(xù)時間。
圖1是示意性視圖,其解釋了使用根據(jù)本發(fā)明第一實施例的語音處理裝置的情況;圖2是根據(jù)第一實施例的語音處理裝置的功能框圖;圖3是根據(jù)第一實施例的語音處理的流程圖;圖4是根據(jù)第一實施例的話音持續(xù)時間檢測處理的流程圖;圖5是在其中進行話音持續(xù)時間檢測處理的處理狀態(tài)的一個例子的說明視圖;圖6是根據(jù)第一實施例的說話人確定處理的流程圖;圖7是根據(jù)第一實施例的處理內(nèi)容確定處理的流程圖;圖8是根據(jù)第一實施例的話音持續(xù)時間結(jié)束檢測處理的流程圖;圖9是根據(jù)第一實施例的指定持續(xù)時間結(jié)束檢測處理的流程圖;圖10是根據(jù)第一實施例的處理的各種信息的例子的說明視圖;圖11是根據(jù)第二實施例的語音處理裝置的框圖;圖12是根據(jù)第二實施例的語音處理的流程圖;圖13是根據(jù)第三實施例的語音處理的流程圖;圖14是根據(jù)第四實施例的語音處理的流程圖;圖15是根據(jù)第四實施例的處理內(nèi)容確定處理的流程圖;圖16是根據(jù)第五實施例的語音處理裝置的框圖;圖17是根據(jù)第五實施例的說話人確定處理的流程圖;以及圖18是根據(jù)第一到第五實施例的各語音處理裝置的硬件構(gòu)成的說明視圖。
具體實施例方式
以下將參照
根據(jù)本發(fā)明的語音處理裝置和語音處理方法的示例性實施例。
根據(jù)本發(fā)明第一實施例的語音處理裝置基于指定持續(xù)時間、話音持續(xù)時間以及說話人信息,來決定處理持續(xù)時間。所述處理持續(xù)時間是作為語音處理對象的語音持續(xù)時間(此后,簡稱為“對象語音”)。所述指定持續(xù)時間是由操作者指定的持續(xù)時間。所述話音持續(xù)時間是從輸入語音檢測的。通過參照關(guān)于從多個麥克風(fēng)輸入的語音的信息來獲得所述說話人信息。
具體地,所述話音持續(xù)時間是在多個輸入語音中被確定為話音的話音的持續(xù)時間。所述處理持續(xù)時間是實際處理的對象語音的持續(xù)時間。所述指定持續(xù)時間是操作者為語音處理指定的持續(xù)時間。因為由操作者指定所述指定持續(xù)時間,存在由于操作錯誤而導(dǎo)致操作者錯誤指定所述指定持續(xù)時間的可能性。在這種情況下,不應(yīng)將所指定的持續(xù)時間視為所述處理持續(xù)時間。然而,第一實施例能夠考慮到可能的操作錯誤等來適當?shù)貨Q定所述處理持續(xù)時間。
圖1是使用根據(jù)第一實施例的語音處理裝置的情況的示意性視圖。
語音處理裝置100的說話人或用戶包括系統(tǒng)操作者101和交流對象102。在第一實施例中,假設(shè)系統(tǒng)操作者101所說的語言是語言L1,而交流對象102所說的是語言L2。
作為硬件構(gòu)造,語音處理裝置100包括輸入單元103、麥克風(fēng)104a和104b以及按下講話按鍵105。輸出單元103向用戶,即,系統(tǒng)操作者101和交流對象102輸出語音處理結(jié)果。輸出單元103可以使用諸如在例如液晶顯示器的顯示裝置上顯示所述語音處理結(jié)果的方法,或者輸出通過語音合成所述語音處理結(jié)果所得到的語音的方法等許多常規(guī)方法,作為輸出方法。
包括系統(tǒng)操作者101或者交流對象102的話音的語音被輸入到麥克風(fēng)104a和104b的每一個。麥克風(fēng)104a朝向系統(tǒng)操作者101,而麥克風(fēng)104b朝向交流對象102。假設(shè)在系統(tǒng)操作者101和交流對象102之間的相對位置關(guān)系固定。
系統(tǒng)操作者101使用按下講話按鍵105來指定語音的指定持續(xù)時間。按下講話按鍵105可以被設(shè)置為兩種狀態(tài);ON狀態(tài),在其中系統(tǒng)操作者101開啟按下講話按鍵105,以及OFF狀態(tài),在其中系統(tǒng)操作者101關(guān)閉按下講話按鍵105。假設(shè)系統(tǒng)操作者101指定這樣的持續(xù)時間,在其中按下講話按鍵105處于ON狀態(tài),即,從按下講話按鍵105輸出指示ON狀態(tài)的ON信號,作為指定持續(xù)時間。
圖2是根據(jù)第一實施例的語音處理裝置100的框圖。參照圖1進行解釋,作為硬件構(gòu)造,語音處理裝置100包括輸出單元103、麥克風(fēng)104a和104b以及按下講話按鍵105。如圖2所示,作為軟件構(gòu)造,語音處理裝置100還包括輸入接收單元201、話音持續(xù)時間檢測單元202、說話人確定單元203、指定持續(xù)時間接受單元204、處理內(nèi)容確定單元205以及語音處理單元206。
輸入接收單元201接收語音,該語音包括系統(tǒng)操作者101或交流對象102的話音。具體地,輸入接收單元201對從兩個麥克風(fēng)104a和104b輸出的語音的模擬信號進行采樣,并將該模擬信號轉(zhuǎn)換為立體聲數(shù)字信號。輸入接收單元201向話音持續(xù)時間檢測單元202和說話人確定單元203輸出所述立體聲數(shù)字信號。輸入接收單元201能夠利用常規(guī)A/D轉(zhuǎn)換技術(shù)等進行所述處理。
話音持續(xù)時間檢測單元202從輸入接收單元201輸出的所述立體聲數(shù)字信號檢測話音持續(xù)時間。話音持續(xù)時間檢測單元202能夠利用任意一種常規(guī)話音持續(xù)時間檢測技術(shù)來檢測所述話音持續(xù)時間。常規(guī)檢測技術(shù)的例子包括將比具有預(yù)設(shè)音量的閾值相對更長的持續(xù)時間確定為話音持續(xù)時間的方法,以及將具有較高的話音模型似然(likelihood)的持續(xù)時間確定為話音持續(xù)時間的方法,其中通過對語音進行頻率分析得到所述話音模型。
說話人確定單元203從由輸入接收單元201輸出的立體聲數(shù)字信號來確定所述語音的說話人是系統(tǒng)操作者101還是交流對象102。
說話人確定單元203能夠利用任何一種常規(guī)方法來確定所述說話人是系統(tǒng)操作者101還是交流對象102。所述常規(guī)確定方法的例子包括利用從麥克風(fēng)104a和104b輸出的信號的基于輸入到麥克風(fēng)104a和104b中每一個的語音的響度的方法,以及,基于用互相關(guān)函數(shù)表示的時間差的正或負的方法。
指定持續(xù)時間接受單元204接受由系統(tǒng)操作者101指定的持續(xù)時間。具體地,當按下講話按鍵105處于ON狀態(tài)時,按下講話按鍵105向指定持續(xù)時間接受單元204發(fā)送ON信號,而當按下講話按鍵105處于OFF狀態(tài)時,其向指定持續(xù)時間接受單元204發(fā)送OFF信號。當指定持續(xù)時間接受單元204接收到所述ON信號時,指定持續(xù)時間接受單元204接受在其中所述ON信號被輸入到指定持續(xù)時間接受單元204的持續(xù)時間,作為指定持續(xù)時間。
參照關(guān)于由話音持續(xù)時間檢測單元202檢測的話音持續(xù)時間的信息、關(guān)于由說話人確定單元203確定的說話人的信息以及關(guān)于由指定持續(xù)時間接受單元204接受的指定持續(xù)時間的信息,處理內(nèi)容確定單元205判斷在其中語音處理單元206對被輸入到輸入接收單元201的語音進行語音處理的處理持續(xù)時間以及語音處理的內(nèi)容。在第一實施例中,作為語音處理的內(nèi)容,處理內(nèi)容確定單元205決定是否利用語言L1或語言L2進行語音識別和翻譯。
在由處理內(nèi)容確定單元205決定的處理持續(xù)時間內(nèi),語音處理單元206進行語音處理,其中該語音處理的內(nèi)容由處理內(nèi)容確定單元205決定。語音處理單元206對于輸入語音之中的在處理持續(xù)時間內(nèi)的語音進行語音識別處理和翻譯處理,并向輸出單元103輸出語音識別處理結(jié)果和翻譯處理結(jié)果。
在所述語音識別處理中,語音處理單元206能夠使用任何一種熟知的語音識別方法,諸如利用線性預(yù)測編碼(LPC)分析、隱馬爾科夫模型(HMM)、動態(tài)規(guī)劃、神經(jīng)網(wǎng)絡(luò)以及N-gram語音模型的方法。
在所述翻譯處理中,語音處理單元206能夠使用任何一種熟知的機器翻譯方法,諸如基于句法轉(zhuǎn)移的(syntactic-transfer-based)機器翻譯、基于實例的機器翻譯、統(tǒng)計機器翻譯以及中間語言機器翻譯等。
下面將解釋根據(jù)第一實施例的語音處理裝置100所進行的語音處理。
在所述語音處理中,處理內(nèi)容確定單元205對于每個預(yù)定時間單元(此后,簡稱為“幀”)基于從話音持續(xù)時間檢測單元202、說話人確定單元203以及指定持續(xù)時間接受單元204輸出的處理結(jié)果,來決定處理持續(xù)時間和處理內(nèi)容。另外,語音處理單元206對所述語音進行語音處理。
通常需要預(yù)定的時間期間來分別進行話音持續(xù)時間檢測處理、說話人確定處理以及指定持續(xù)時間接受處理。由于這個原因,所述語音處理實際上會被延遲差不多與所述話音持續(xù)時間檢測處理、所述說話人確定處理以及所述指定持續(xù)時間接受處理中的最長持續(xù)時間相對應(yīng)的幀數(shù)。然而,為方便起見,假設(shè)進行所述語音處理而沒有這些延遲。
例如,說話人在時刻t產(chǎn)生語音?;ㄙMΔt秒來確定在時刻t所述語音開始。然而,即使實際時刻是t+Δt,裝置能夠認為時刻t是檢測所述語音的開始。作為諸如語音識別的處理實時信號的例子,這樣的處理方法為人所熟知,并且能夠通過常規(guī)技術(shù)實現(xiàn)。
此外,話音持續(xù)時間檢測單元202、說話人確定單元203、指定持續(xù)時間接受單元204、處理內(nèi)容確定單元205以及語音處理單元206為每幀進行他們各自的處理,并輸出處理結(jié)果。可以在話音持續(xù)時間檢測單元202或者指定持續(xù)時間接受單元204得到各持續(xù)時間的起點或終點之后輸出所述處理結(jié)果。
以下將描述根據(jù)第一實施例的語音處理的整體流程。圖3是根據(jù)第一實施例的語音處理的整體流程的流程圖。
首先,在各幀中,輸入接收單元201接收由用戶(系統(tǒng)操作者101或交流對象102)之一生成的語音(步驟S301)。具體地,輸入接收單元201將從麥克風(fēng)104a或104b輸出的語音模擬信號轉(zhuǎn)換為數(shù)字信號,并輸出與所述幀一樣多的處理結(jié)果。
指定持續(xù)時間接受單元204接受從系統(tǒng)操作者101開啟所述按下講話按鍵105到系統(tǒng)操作者101關(guān)閉該按下講話按鍵105的時間間隔,作為指定持續(xù)時間(步驟S302)。具體地,指定持續(xù)時間接受單元204確定在每一幀中系統(tǒng)操作者101是否按下所述按下講話按鍵105,并接受從開始按下到結(jié)束按下的間隔作為指定持續(xù)時間。
接下來,話音持續(xù)時間檢測單元202進行話音持續(xù)時間檢測處理(步驟S303),說話人確定單元203進行說話人確定處理(步驟S304),而處理內(nèi)容確定單元205進行處理內(nèi)容判斷處理(步驟S305)。稍后將詳細解釋話音持續(xù)時間檢測處理、說話人確定處理以及處理內(nèi)容判斷處理。
然后,語音處理單元206根據(jù)所述處理內(nèi)容判斷處理的結(jié)果,在處理持續(xù)時間中對語音進行語音識別處理(步驟S306)。
在第一實施例中,在由處理內(nèi)容判斷處理確定了所述處理內(nèi)容和所述處理持續(xù)時間之后,語音處理單元206即開始所述語音處理??蛇x地,可以在確定了所述處理內(nèi)容和所述處理持續(xù)時間并且然后完成了對話音持續(xù)時間和指定持續(xù)時間的檢測之后,進行所述語音處理。
具體地,如下執(zhí)行步驟S306中的語音識別處理。首先,語音處理單元206從諸如隨機存儲器(RAM)的存儲區(qū)域(未示出)獲取對應(yīng)于所述處理持續(xù)時間的語音信息。在獲取所述語音信息時,說話人確定單元203已經(jīng)確定了說話人是系統(tǒng)操作者101還是交流對象102。因此,如果說話人是系統(tǒng)操作者101,語音處理單元206對于由麥克風(fēng)104a收集的語音來獲取對應(yīng)于處理持續(xù)時間的語音信息。如果說話人是交流對象102,語音處理單元206對于由麥克風(fēng)104b收集的語音來獲取對應(yīng)于處理持續(xù)時間的語音信息。
在獲取所述語音信息之后,語音處理單元206利用在處理內(nèi)容中指定的語言對所獲取的語音進行語音識別處理。通過處理內(nèi)容確定單元205的處理內(nèi)容判斷處理,如果說話人是系統(tǒng)操作者101,在處理內(nèi)容中設(shè)置語言L1,且如果說話人是交流對象102,在處理內(nèi)容中設(shè)置語言L2。語音處理單元206根據(jù)所述處理內(nèi)容對所獲取的語音進行語音識別處理。
由于根據(jù)所述說話人是系統(tǒng)操作者101還是交流對象102,存在著語言差異,語音處理單元206進行語音識別處理的同時改變在語音識別處理中所使用的諸如聲學(xué)模型、字典以及語法的信息。
語音處理單元206根據(jù)所述語音識別處理的結(jié)果在處理持續(xù)時間中對所述語音進行翻譯處理(步驟S307)。
具體地,語音處理單元206將所述語音識別處理結(jié)果從某種語言翻譯為在處理內(nèi)容中設(shè)置的語言。例如,處理內(nèi)容確定單元205通過所述處理內(nèi)容判斷處理來設(shè)置如下的處理內(nèi)容。如果說話人是系統(tǒng)操作者101,語音處理單元206將語音識別處理結(jié)果從語言L1翻譯為語言L2。如果說話人是交流對象102,語音處理單元206將語音識別處理結(jié)果從語言L2翻譯為語言L1。語音處理單元206根據(jù)所述處理內(nèi)容來翻譯所述語音識別處理結(jié)果。
可選地,根據(jù)所述說話人是系統(tǒng)操作者101還是交流對象102,不僅可改變源語言和翻譯語言,還可以改變翻譯方法。
接下來將詳細解釋在步驟S303的話音持續(xù)時間檢測處理。圖4是根據(jù)第一實施例的話音持續(xù)時間檢測處理的整體流程的流程圖。
首先,話音持續(xù)時間檢測單元202從時刻t為預(yù)設(shè)數(shù)目(此后簡稱為“X”)的幀獲取每幀音量(volume per frame)(步驟S401)??梢岳脧妮斎虢邮諉卧?01輸入的數(shù)字信號來計算所述每幀音量。話音持續(xù)時間檢測單元202確定在所述X幀期間,每幀音量是否高于預(yù)定閾值(此后,稱為“閾值T1”)(步驟S402)。如果所述每幀音量不高于閾值T1(步驟S402否),流程返回到步驟S401,并重復(fù)所述處理。
如果每幀音量高于閾值T1(步驟S402是),話音持續(xù)時間檢測單元202檢測所述時刻t,作為話音持續(xù)時間的起點(步驟S403)。
接下來,話音持續(xù)時間檢測單元202從某時刻u獲取每預(yù)設(shè)數(shù)目(此后,簡稱為“Y”)幀的音量(步驟S404)。
話音持續(xù)時間檢測單元202確定在Y幀期間每幀音量是否低于預(yù)定閾值(此后,稱為“閾值T2”)(步驟S405)。如果每幀音量不低于閾值T2(步驟S405否),流程返回到步驟S404,并重復(fù)進行所述處理。如果每幀音量低于閾值T2(步驟S405是),話音持續(xù)時間檢測單元202檢測出時刻u,作為話音持續(xù)時間的終點(步驟S406)。這樣,話音持續(xù)時間檢測單元202檢測出從話音持續(xù)時間的檢測的起點到所述話音的檢測的終點的持續(xù)時間,作為話音持續(xù)時間。
接下來,將解釋在話音持續(xù)時間檢測處理中的狀態(tài)轉(zhuǎn)換。圖5是話音持續(xù)時間檢測處理中的處理狀態(tài)的一個例子的說明視圖。
剛啟動語音處理裝置100之后的狀態(tài)是初始狀態(tài)501,其被示于圖5的左部。當話音持續(xù)時間檢測單元202開始所述話音持續(xù)時間檢測處理時,所述狀態(tài)被改變?yōu)榈却龣z測話音持續(xù)時間的起點的狀態(tài)(無話音狀態(tài))。在此狀態(tài)下,話音持續(xù)時間檢測單元202進行對應(yīng)于圖4所示的步驟S402的確定502(關(guān)于從時刻t到現(xiàn)在,在X幀期間內(nèi),所述音量是否高于閾值T1)。此時,話音持續(xù)時間檢測單元202可以參照前X幀的音量。
如果所述音量不高于閾值T1,所述狀態(tài)保持為等待檢測所述話音持續(xù)時間的起點的狀態(tài)。如果所述音量高于閾值T1,話音持續(xù)時間檢測單元202檢測時刻t,作為話音持續(xù)時間的起點。另外,話音持續(xù)時間檢測單元202的狀態(tài)被改變?yōu)榈却龣z測話音持續(xù)時間的終點的狀態(tài)(話音狀態(tài))。在所述等待檢測話音持續(xù)時間的終點的狀態(tài)下,話音持續(xù)時間檢測單元202進行對應(yīng)于圖4所示的步驟S405的確定503(關(guān)于從時刻u到現(xiàn)在,在Y幀期間內(nèi),所述音量是否低于閾值T2)。
如果所述音量不低于閾值T2,話音持續(xù)時間檢測單元202的狀態(tài)保持為等待檢測話音持續(xù)時間的終點的狀態(tài)。如果所述音量低于閾值T2,話音持續(xù)時間檢測單元202檢測出時刻u作為話音持續(xù)時間的終點。另外,話音持續(xù)時間檢測單元202的狀態(tài)被改變?yōu)榈却龣z測話音持續(xù)時間的起點的狀態(tài)。
由話音持續(xù)時間檢測單元202所進行的話音持續(xù)時間檢測處理不限于基于以上解釋的方法的話音持續(xù)時間檢測處理。話音持續(xù)時間檢測單元202能夠基于任何一種常規(guī)方法進行話音持續(xù)時間檢測處理。例如,話音持續(xù)時間檢測單元202能夠通過另外進行如下處理來更精確地檢測所述話音持續(xù)時間。話音持續(xù)時間檢測單元202在等待檢測所述話音持續(xù)時間的起點的狀態(tài)(無語音狀態(tài))中從話音信號來估計環(huán)境噪聲的強度。另外,話音持續(xù)時間檢測單元202根據(jù)所估計的環(huán)境噪聲的強度改變閾值T1和T2。
以下將解釋在步驟S304的說話人確定處理。圖6是根據(jù)第一實施例的說話人確定處理的整體流程的流程圖。
首先,說話人確定單元203利用立體聲信號基于當前幀計算互相關(guān)函數(shù),其中所述立體聲信號是預(yù)設(shè)持續(xù)時間中的信號,并且被從兩個麥克風(fēng)104a和104b所輸出的模擬話音信號中獲得(步驟S601)。
說話人確定單元203基于當相關(guān)度變得最大時的時間來指定聲源方向,并確定說話人是系統(tǒng)操作者101還是交流對象102(步驟S602)。麥克風(fēng)104a和104b的位置以及在系統(tǒng)操作者101和交流對象102之間的相對位置關(guān)系被固定。因此,說話人確定單元203確定位于所述指定的聲源的方向的人是每幀的說話人。
說話人確定單元203獲取關(guān)于由話音持續(xù)時間檢測單元202檢測出的話音持續(xù)時間的信息(步驟S603)。說話人確定單元203將在所述話音持續(xù)時間中說話最頻繁的人確定為話音持續(xù)時間中的說話人(步驟S604)。
如果說話人確定單元203確定所述相同的人說話的時間長于預(yù)定時間,說話人確定單元203能夠確定該人是話音持續(xù)時間中的對應(yīng)持續(xù)時間的話音的說話人。如果說話人確定單元203確定說話人在某時間的邊界發(fā)生變化,可以在此邊界劃分所述話音持續(xù)時間。從而可以每個話音持續(xù)時間確定一個說話人。假設(shè)在一個話音持續(xù)時間中沒有出現(xiàn)多個說話人的語音。
由說話人確定單元203進行的說話人確定處理不限于以上解釋的方法。說話人確定單元203能夠使用任何一種能夠確定話音持續(xù)時間的說話人的常規(guī)技術(shù)。
以下將詳細解釋在步驟S305的處理內(nèi)容判斷處理。
圖7是根據(jù)第一實施例的處理內(nèi)容判斷處理的整體流程的流程圖。
首先,處理內(nèi)容確定單元205從存儲區(qū)域(未示出)獲取關(guān)于由話音持續(xù)時間檢測單元202檢測出的話音持續(xù)時間的信息(步驟S701)。
處理內(nèi)容確定單元205獲取關(guān)于由指定持續(xù)時間接受單元204接受的指定持續(xù)時間的信息(步驟S702)。
如果通過在步驟S302的指定持續(xù)時間接受處理以及在步驟S303的話音持續(xù)時間檢測處理獲取了指定持續(xù)時間和話音持續(xù)時間的起點和終點,在所述存儲區(qū)域(未示出)中記錄所述信息作為處理持續(xù)時間候選。在步驟S701和S702,處理內(nèi)容確定單元205從存儲區(qū)域獲取所述記錄的信息。
此外,在處理內(nèi)容確定單元205通過處理內(nèi)容判斷處理決定了處理持續(xù)時間和處理內(nèi)容并且語音處理單元206進行了具有所述決定的處理內(nèi)容的語音處理之后,將所述處理持續(xù)時間候選之中的終點被確定的話音持續(xù)時間或指定持續(xù)時間從存儲區(qū)域中刪除。
處理內(nèi)容確定單元205確定是否檢測到所述話音持續(xù)時間的終點(步驟S703)。如果檢測到所述話音持續(xù)時間的終點(S703是),處理內(nèi)容確定單元205進行指定持續(xù)時間終點處理,該處理基于在終點已被檢測出的話音持續(xù)時間和指定持續(xù)時間之間的關(guān)系以及關(guān)于說話人的信息,來決定所述處理持續(xù)時間(步驟S704)。稍后將詳細描述該話音持續(xù)時間終點處理。
如果在步驟S703沒有檢測到話音持續(xù)時間的終點(步驟S703否),或者在處理內(nèi)容確定單元205進行話音持續(xù)時間結(jié)束處理之后,處理內(nèi)容確定單元205確定是否檢測到所述指定持續(xù)時間的終點(步驟S705)。
如果檢測到所述指定持續(xù)時間的終點(步驟S705是),處理內(nèi)容確定單元205進行指定持續(xù)時間終點處理,該處理基于在終點已被檢測出的指定持續(xù)時間和話音持續(xù)時間之間的關(guān)系以及關(guān)于說話人的信息,來決定所述處理持續(xù)時間(步驟S706)。稍后將詳細描述該指定持續(xù)時間終點處理。
如果沒有檢測到所述指定持續(xù)時間的終點(步驟S705否),則處理內(nèi)容確定單元205在進行指定持續(xù)時間終點處理或者話音持續(xù)時間終點處理之后,確定是否決定了所述處理持續(xù)時間和所述處理內(nèi)容(步驟S707)。
如果決定了所述處理持續(xù)時間和所述處理內(nèi)容(步驟S707是),處理內(nèi)容確定單元205向語音處理單元206輸出處理持續(xù)時間和處理內(nèi)容(步驟S708),并結(jié)束所述處理內(nèi)容判斷處理。
如果未決定所述處理持續(xù)時間和所述處理內(nèi)容(步驟S707否),處理內(nèi)容確定單元205結(jié)束所述處理內(nèi)容判斷處理,而不輸出所述處理持續(xù)時間和所述處理內(nèi)容。在這種情況下,處理內(nèi)容確定單元205保留關(guān)于處理持續(xù)時間候選的信息,并進行下一幀的處理。
下面將詳細解釋在步驟S703的話音持續(xù)時間終點處理。圖8是根據(jù)第一實施例的話音持續(xù)時間終點處理的整體流程的流程圖。
處理內(nèi)容確定單元205確定所述指定持續(xù)時間是否被包含在從話音持續(xù)時間的起點到終點的時間間隔中(步驟S801)。如果所述指定持續(xù)時間未被包含在從話音持續(xù)時間的起點到終點的時間間隔中(步驟S801否),處理內(nèi)容確定單元205初始化所述處理持續(xù)時間候選,并結(jié)束所述話音持續(xù)時間終點處理(步驟S802)。
以下將參照圖10解釋具體例子,在其中以與步驟S802類似的方式來決定所述處理內(nèi)容等。圖10是根據(jù)第一實施例進行處理的各種信息的例子的說明視圖。在圖10中,用符號(B)表示系統(tǒng)操作者101,用符號(A)表示交流對象102。
例(1)示出了這樣的情形,在其中以與步驟S802類似的方式來決定所述處理持續(xù)時間和所述處理內(nèi)容。具體地,例(1)是系統(tǒng)操作者(B)是說話人但沒有輸入所述指定持續(xù)時間的情形的例子。
在第一實施例中,所述指定持續(xù)時間未被包含在例(1)中的檢測出的話音持續(xù)時間中。由此,處理內(nèi)容確定單元205將所述話音持續(xù)時間初始化為所述處理持續(xù)時間候選而不決定所述處理持續(xù)時間(步驟S802)。
原因如下。如果系統(tǒng)操作者101是說話人但所述指定持續(xù)時間未被包含在檢測到的話音持續(xù)時間中,則系統(tǒng)操作者101能夠判斷所述話音是不期望的處理對象語音。即,所檢測到的話音持續(xù)時間不是所述處理持續(xù)時間。通過所述處理,可以減少由于接收到不應(yīng)該被處理的噪聲或話音而導(dǎo)致的可能故障。
如果處理內(nèi)容確定單元205確定所述指定持續(xù)時間被包含在從話音持續(xù)時間的起點到終點的時間間隔中(步驟S801是),處理內(nèi)容確定單元205基于關(guān)于由說話人確定單元203確定的說話人的信息,確定所述話音持續(xù)時間中的說話人是否為系統(tǒng)操作者101(步驟S803)。
如果所述說話人不是系統(tǒng)操作者101,即,說話人是交流對象102(步驟S803否),處理內(nèi)容確定單元205決定將所檢測到的話音持續(xù)時間作為所述處理持續(xù)時間,并且然后決定將從語言L2到語言L1的語音翻譯作為所述處理內(nèi)容(步驟S804)。處理內(nèi)容確定單元205結(jié)束所述話音持續(xù)時間終點處理。
繼續(xù)參照圖10,例(2)示出了這樣的情形,在其中以與步驟S804類似的方式?jīng)Q定所述處理持續(xù)時間和所述處理內(nèi)容。
具體地,例(2)是系統(tǒng)操作者(B)在交流對象(A)說話的時刻后稍微延時的時刻指定所述指定持續(xù)時間的情形的例子。在這種情形下,話音持續(xù)時間檢測單元202檢測所述話音持續(xù)時間,且說話人確定單元203確定該話音持續(xù)時間對應(yīng)于交流對象(A)。
如果系統(tǒng)操作者(B),通過按下所述按下講話按鍵105,響應(yīng)于交流對象102的話音來輸入所述指定持續(xù)時間,則系統(tǒng)操作者(B)不能夠準確把握系統(tǒng)操作者(B)之外的人的話音持續(xù)時間的起點和終點。由此,可以考慮到,在話音持續(xù)時間的起點和終點以及按下講話按鍵105的ON和OFF之間存在偏移的可能性。結(jié)果,如例(2)所示的指定持續(xù)時間的部分所示,檢測出的話音持續(xù)時間和指定持續(xù)時間之間具有偏移。
在第一實施例中,即使存在所述偏移,處理內(nèi)容確定單元205也能夠決定將所檢測的話音持續(xù)時間作為處理持續(xù)時間,并且將語音識別和從語言L2到語言L1的翻譯作為處理內(nèi)容(步驟S804)。
利用常規(guī)方法,不能通過所述按鍵等明確地指定處理交流對象的語音的持續(xù)時間,并且需要對所有語音進行處理。結(jié)果,由于對不必要的噪聲等的處理,存在出現(xiàn)故障的可能性。相比較而言,在第一實施例中,甚至對于交流對象102的語音,也能夠指定所述處理持續(xù)時間。因此能夠減小出現(xiàn)故障的可能性。
此外,當為交流對象102的語音指定所述指定持續(xù)時間時,存在在實際的話音持續(xù)時間和所述指定持續(xù)時間之間出現(xiàn)偏移的可能性。在第一實施例中,可以適當?shù)貨Q定所述處理持續(xù)時間,并進行所述語音處理。即,如果系統(tǒng)操作者101希望對交流對象102的語音進行處理,則開始指定所述指定持續(xù)時間,從而使得所述指定持續(xù)時間與話音持續(xù)時間相重疊。通過這樣做,將所述話音持續(xù)時間確定為處理持續(xù)時間,并且可將交流對象102的語音設(shè)置為語音處理對象。
通常,不知道交流對象102的話音持續(xù)時間的起點和終點的時刻。然而,通過輸入關(guān)于所述話音期間內(nèi)的指定持續(xù)時間的信息,能夠?qū)⑺鲈捯舫掷m(xù)時間確定為所述處理持續(xù)時間。因此,系統(tǒng)操作者101能夠決定將交流對象102所期望的話音的話音持續(xù)時間作為所述處理持續(xù)時間。
如果處理內(nèi)容確定單元205確定所述話音持續(xù)時間中的說話人是系統(tǒng)操作者101(步驟S803是),處理內(nèi)容確定單元205確定是否檢測到最新的指定持續(xù)時間的終點(步驟S805)。
如果沒有檢測到最新的指定持續(xù)時間的終點(步驟S805否),則用于處理間隔的判斷資料不充分。如果是這樣,處理內(nèi)容確定單元205保留所述話音持續(xù)時間和所述指定持續(xù)時間的所有處理持續(xù)時間候選,即,延緩確定所述處理持續(xù)時間,并結(jié)束所述話音持續(xù)時間終點處理。
圖10所示的例(3)的前半部分(直到話音持續(xù)時間1001中的話音完成的時刻)示出了處理內(nèi)容確定單元205確定在步驟S805中沒有檢測到最新的指定持續(xù)時間的終點的例子。
在例(3)中,在檢測系統(tǒng)操作者(B)的話音時將話音持續(xù)時間劃分為兩個話音持續(xù)時間。在確定第一話音持續(xù)時間時,仍然沒有檢測到指定持續(xù)時間的終點。由此,處理內(nèi)容確定單元205延緩對所述處理持續(xù)時間等的確定,并結(jié)束所述話音持續(xù)時間終點處理。此外,在檢測到所述指定持續(xù)時間的終點之后,結(jié)合所述兩個劃分的話音持續(xù)時間,并且利用被設(shè)置為處理持續(xù)時間的所述結(jié)合的話音持續(xù)時間進行所述語音處理。
通過所述處理,當系統(tǒng)操作者101發(fā)出某一句的話音時,所述指定持續(xù)時間是在其中指定了整個句子的持續(xù)時間。然而,即使通過話音持續(xù)時間檢測處理檢測到兩個話音持續(xù)時間,由于系統(tǒng)操作者101摸索(fumble)語音中間的正確單詞,可以避免為每個話音持續(xù)時間劃分所述處理持續(xù)時間。
此外,通過避免為每個話音持續(xù)時間劃分所述處理持續(xù)時間,可以防止語音識別處理和翻譯處理的精確度下降。如果利用諸如語言模型的語言信息進行語音識別處理,則采用了上下文信息。由此,如果對一個句子來整體地處理語音,就能夠有效利用所述上下文信息。
如果檢測到最新的指定持續(xù)時間的終點(步驟S805是),處理內(nèi)容確定單元205決定將話音持續(xù)時間和指定持續(xù)時間之間的所有重疊時間段作為處理持續(xù)時間,并決定將從語言L1到語言L2的語音翻譯作為處理內(nèi)容(步驟S806)。然后,處理內(nèi)容確定單元205結(jié)束所述話音持續(xù)時間終點處理。
繼續(xù)參照圖10,例(4)示出了以與步驟S806類似的方式?jīng)Q定處理持續(xù)時間和處理內(nèi)容的情形。具體地,例(4)是這樣的情形的例子,在其中,系統(tǒng)操作者(B)說話并且為所述話音的第一部分之外的部分指定所述指定持續(xù)時間。
在例(4)中,在話音持續(xù)時間和指定持續(xù)時間之間的重疊時間段等同于所述指定持續(xù)時間。因此,決定將所述指定持續(xù)時間作為處理持續(xù)時間。此外,由于所述說話人是系統(tǒng)操作者101,決定將從語言L1到語言L2的語音翻譯作為所述處理內(nèi)容。
通過上述處理,系統(tǒng)操作者能夠?qū)⑺稣Z音的期望間隔設(shè)置為處理持續(xù)時間。例如,當刪除不必要的單詞或者存在環(huán)境噪聲時,系統(tǒng)操作者101關(guān)閉麥克風(fēng)104a和104b。從而可以僅將必需的持續(xù)時間設(shè)置為所述處理持續(xù)時間,并避免故障。
此外,例如,系統(tǒng)操作者101對大部分話音使用外語,而對系統(tǒng)操作者101不知道如何用外語表述的部分使用他/她的母語。系統(tǒng)操作者101指定在其中該系統(tǒng)操作者101使用他/她的母語的時間間隔作為指定持續(xù)時間。因此,能夠決定僅將后一部分作為語音翻譯處理對象。通過這樣做,即使在所述話音中混合了兩種語言,系統(tǒng)操作者101仍然能夠?qū)⒃捯舻囊馑紓鬟_給交流對象102。
如果話音持續(xù)時間的起點被包含在指定持續(xù)時間中,可以將所述話音持續(xù)時間的起點設(shè)置為指定持續(xù)時間的起點。通過這樣做,即使當系統(tǒng)操作者101在系統(tǒng)操作者101按下所述按下講話按鍵105之后的時刻才開始講話,能夠決定不是將按下所述按下講話按鍵105的起點作為所述處理持續(xù)時間的起點,而是將話音檢測的起點作為所述處理持續(xù)時間的起點。
以下將參照圖9詳細解釋在步驟S706中的指定持續(xù)時間終點處理。圖9是根據(jù)第一實施例的指定持續(xù)時間終點處理的整體流程的流程圖。
首先,處理內(nèi)容確定單元205判斷所述話音持續(xù)時間是否被包含在從所述指定持續(xù)時間的起點到終點的時間間隔中(步驟S901)。如果所述話音持續(xù)時間未被包含在從所述指定持續(xù)時間的起點到終點的時間間隔中(步驟S901否),處理內(nèi)容確定單元205初始化所述處理持續(xù)時間候選,并結(jié)束所述指定持續(xù)時間終點處理(步驟S902)。
通過所述處理,即使系統(tǒng)操作者101指定了所述指定持續(xù)時間,在檢測到話音之前也不進行所述語音處理。因此,可以防止由于操作錯誤或噪聲所導(dǎo)致的故障。
如果判斷所述話音持續(xù)時間被包含在從所述指定持續(xù)時間的起點到終點的時間間隔中(步驟S901是),處理內(nèi)容確定單元205確定是否檢測到最新的話音持續(xù)時間的終點(步驟S903)。
如果沒有檢測到最新的話音持續(xù)時間的終點(步驟S903否),處理內(nèi)容確定單元205確定不能對所述處理持續(xù)時間作出最終確定,并且延緩確定所述處理持續(xù)時間,并結(jié)束所述指定持續(xù)時間終點處理。
如果檢測到最新的話音持續(xù)時間的終點(步驟S903是),處理內(nèi)容確定單元205決定將在話音持續(xù)時間和指定持續(xù)時間之間的重疊時間段作為處理持續(xù)時間,并決定將從語言L1到語言L2的語音翻譯作為處理內(nèi)容(步驟S904)。然后,處理內(nèi)容確定單元205結(jié)束所述指定持續(xù)時間終點處理。
如果說話人是交流對象102,當檢測到所述話音持續(xù)時間的終點時,處理內(nèi)容確定單元205決定所述處理持續(xù)時間(步驟S804)。由此,處理內(nèi)容確定單元205在步驟S903不作出確定處理。因此,在圖9所示的指定持續(xù)時間終點處理中,不需要確定與話音持續(xù)時間終點處理中的步驟S803不同的說話人。另外,在處理內(nèi)容確定單元205能夠決定所述處理內(nèi)容(從語言L1到語言L2的語音翻譯)時假設(shè)說話人是系統(tǒng)操作者101。
繼續(xù)參照圖10,例(3)是以與步驟S904類似的方式來決定所述處理持續(xù)時間和所述處理內(nèi)容的情形的例子。具體地,例(3)示出了這樣的情形,在其中,系統(tǒng)操作者(B)說話,并且所述話音持續(xù)時間被劃分為兩個話音持續(xù)時間,并且,由于在話音的中間插入了停頓(pause),可檢測到兩個劃分的話音持續(xù)時間。例(3)還示出了這樣的情形,在其中,系統(tǒng)操作者(B)在第一話音持續(xù)時間的開始發(fā)出意思為“呃”的不必要的單詞的話音。在圖10中,系統(tǒng)操作者(B)的話音的涂黑的持續(xù)時間表示所述不必要的單詞部分。
在例(3)的情形中,系統(tǒng)操作者(B)意圖將除了所述不必要單詞以外的兩個劃分的語音相結(jié)合所得到的語音設(shè)置為對象語音。由此,系統(tǒng)操作者(B)在發(fā)出所述不必要單詞的話音之后,開始指定所述指定持續(xù)時間,并且在所述話音結(jié)束后結(jié)束對所述指定持續(xù)時間的指定。
在第一實施例中,在例(3)的情形中,處理內(nèi)容確定單元205能夠決定將檢測的話音持續(xù)時間中的整個指定持續(xù)時間作為處理持續(xù)時間并且決定將語音識別以及從語言L1到語言L2的翻譯作為處理內(nèi)容(步驟S904)。如果話音持續(xù)時間的終點遲于指定持續(xù)時間的終點,處理內(nèi)容確定單元205能夠在步驟S806中類似地決定所述處理持續(xù)時間。
結(jié)果,所述用于語音處理的處理持續(xù)時間是圖10中例(3)的垂直線所指示的持續(xù)時間的結(jié)合。于是,能夠?qū)νㄟ^結(jié)合所述兩個被劃分的語音所得到的語音的語音識別處理結(jié)果進行翻譯處理,并且能夠提高所述翻譯處理的精確度。
通過這樣做,如果系統(tǒng)操作者101說“呃,我(停頓)想去車站”,并且在“我(停頓)想去車站”部分按下所述按下講話按鍵105,則不會處理不必要的單詞“呃”。另外,“我想去車站”部分被視為對象語音,而無需將這部分劃分為“我”部分和“想去車站”部分。因此,可以分別把握“想去”的主語和賓語是“我”和“車站”,并進行高精確度的翻譯。
下面將參照圖10解釋根據(jù)第一實施例的語音處理的另一個具體例子。
例(5)是這樣的情形的例子,在其中,交流對象(A)說了兩句話,而系統(tǒng)操作者(B)保持按下講話按鍵105開啟,以指示所述指示持續(xù)時間。
在例(5)的情形中,系統(tǒng)操作者(B)不能把握交流對象(A)的話音持續(xù)時間的起點和終點的時刻,并且不能確定所述語音是否僅包括來自所述話音的兩個句子。在第一實施例中,即使在例(5)的情形中,處理內(nèi)容確定單元205決定將所述兩個檢測的話音持續(xù)時間作為所述處理持續(xù)時間,并決定將從語言L2到語言L1的語音識別和翻譯作為所述處理內(nèi)容(步驟S804)。
對于例(5)的情形和例(3)的情形,其話音持續(xù)時間和指定持續(xù)時間之間的關(guān)系相同,不同之處僅在于說話人。在例(3)的情形中,說話人是系統(tǒng)操作者(B),從而能夠準確地指定所述處理對象話音持續(xù)時間。因此,處理內(nèi)容確定單元205決定將不包含所述不必要單詞的持續(xù)時間作為所述處理持續(xù)時間。
另一方面,在例(5)的情形中,說話人是交流對象(A),從而不能準確地指定所述處理對象話音持續(xù)時間。因此,處理內(nèi)容確定單元205可以適當?shù)貨Q定所述處理持續(xù)時間,而不必刪除作為所述不必要的單詞的在話音持續(xù)時間和指定持續(xù)時間之間的偏移部分。
這樣,根據(jù)第一實施例的語音處理裝置能夠基于由系統(tǒng)操作者指定的指定持續(xù)時間、從輸入語音檢測到的話音持續(xù)時間以及通過參照關(guān)于從多個麥克風(fēng)輸入的語音的信息而獲得的說話人,來適當?shù)貨Q定作為對象語音處理的語音持續(xù)時間的處理持續(xù)時間。因此,可以減少故障的出現(xiàn)而無需處理不必要的話音。
根據(jù)本發(fā)明第二實施例的語音處理裝置包括攝像頭(camera)來代替所述按下講話按鍵,并且根據(jù)由該攝像頭攝取的說話人面部的圖像中的變化來接受對于對象語音的指定持續(xù)時間的指定。
圖11是根據(jù)第二實施例的語音處理裝置1100的框圖。如圖11所示,語音處理裝置1100包括輸出單元103、麥克風(fēng)104a和104b、攝像頭1108、輸入接收單元201、話音持續(xù)時間檢測單元202、說話人確定單元203、指定持續(xù)時間接受單元1204、處理內(nèi)容確定單元205以及語音處理單元206。
第二實施例與第一實施例的不同之處在于取代所述按下講話按鍵105而設(shè)置了攝像頭1108,以及指定持續(xù)時間接受單元1204的功能。語音處理裝置1100的其它組成元件及功能與圖2所示的根據(jù)第一實施例的語音處理裝置100相同。因此,通過與圖2所示相同的參考符號表示圖11所示的相同的組成元件,并且在此不再重復(fù)進行描述。
攝像頭1108攝取說話人的面部圖像。攝像頭1108能夠由任何一種常規(guī)成像裝置構(gòu)成,諸如包含光學(xué)系統(tǒng)組件的成像裝置,該光學(xué)系統(tǒng)組件包括諸如用于攝取圖像的鏡頭、電荷耦合器件(CCD)、CCD驅(qū)動電路以及A/D轉(zhuǎn)換器。
指定持續(xù)時間接受單元1204分析由攝像頭1108攝取的面部圖像,提取說話人的視線,并且接受所述視線朝向所述語音處理裝置1100的持續(xù)時間作為指定持續(xù)時間。這種分析面部圖像并提取說話人視線的方法可以包括任何一種常規(guī)方法,諸如,對從面部五官如眼睛、鼻子計算得到的特征量進行模式匹配的方法。
接下來,將詳細解釋根據(jù)第二實施例的語音處理裝置1100的語音處理。圖12是根據(jù)第二實施例的語音處理的流程圖。
步驟S1201的輸入接收處理與根據(jù)第一實施例的語音處理裝置100的步驟S301中的處理相同。因此,不重復(fù)解釋該處理。
在輸入接收單元201接收語音輸入之后,指定持續(xù)時間接受單元1204從由攝像頭1108攝取的面部圖像檢測視線,并接受所述視線朝向所述語音處理裝置1100的持續(xù)時間作為指定持續(xù)時間(步驟S1202)。具體地,指定持續(xù)時間接受單元1204從各幀的面部圖像檢測所述視線。另外,指定持續(xù)時間接受單元1204接受從視線朝向語音處理裝置1100開始到視線離開語音處理裝置1100的持續(xù)時間作為所述指定持續(xù)時間。
從步驟S1203到S1207的話音持續(xù)時間檢測處理、說話人確定處理、處理內(nèi)容確定處理以及語音處理與根據(jù)第一實施例的語音處理裝置100的步驟S303到S307相同。因此,不再重復(fù)解釋該處理。
這樣,根據(jù)第二實施例的語音處理裝置1100包括攝像頭1108來代替按下講話按鍵105。另外,語音處理裝置1100能夠接受這樣的指定持續(xù)時間,在其中根據(jù)由攝像頭1108攝取的說話人面部圖像中的變化對所述話音進行處理。因此,可以減輕系統(tǒng)操作者按下所述按鍵等的負擔,并提高語音處理裝置1100的可操作性。
在第二實施例中,假設(shè)交流對象102說“今天天氣很好(停頓)而且舒服”,而系統(tǒng)操作者101響應(yīng)于交流對象102,在所述停頓時說“是啊”。即使連續(xù)指定所述指定持續(xù)時間,仍然可能出現(xiàn)將所述話音持續(xù)時間劃分為兩段話音持續(xù)時間的問題。
結(jié)果,所述語音處理被進行三次,即,將“今天天氣很好”從語言L2翻譯為語言L1,將“是啊”從語言L1翻譯為語言L2,并將“而且舒服”從語言L2翻譯為語言L1。如果句子被劃分,則語音處理的精確度下降,而且處理結(jié)果可能不確切。
因此,根據(jù)本發(fā)明第三實施例的語音處理裝置意在通過在接受所述指定持續(xù)時間時進行所述語音處理而不改變的所確定的說話人,來提高語音處理的精確度。
第三實施例與第一實施例的不同之處在于說話人確定單元203的功能。第三實施例的語音處理裝置的其它組成元件及功能與圖2所示的根據(jù)第一實施例的語音處理裝置100相同。因此,利用與圖2所示相同的參考符號表示相同的組成元件,并且在此不再進行重復(fù)解釋。
根據(jù)第三實施例的說話人確定單元203與根據(jù)第一實施例的相應(yīng)單元的不同之處如下。如果系統(tǒng)操作者101按下所述按下講話按鍵105并且已經(jīng)確定了說話人,則說話人確定單元203不進行所述說話人確定處理。
以下將參照圖13詳細解釋根據(jù)第三實施例的語音處理的整體流程。圖13是根據(jù)第三實施例的語音處理的整體流程的流程圖。
從步驟S1301到S1303的輸入接收處理、指定持續(xù)時間接收處理以及話音持續(xù)時間檢測處理與根據(jù)第一實施例的語音處理裝置100的步驟S301到S303中的處理相同。因此,不再重復(fù)解釋該處理。
在所述話音持續(xù)時間檢測處理之后,說話人確定單元203確定是否系統(tǒng)操作者101按下所述按下講話按鍵105并且已經(jīng)確定了所述說話人(步驟S1304)。
如果系統(tǒng)操作者101沒有按下所述按下講話按鍵105,以及還沒有確定所述說話人(步驟S1304否),則說話人確定單元203進行所述說話人確定處理(步驟S1305)。
如果系統(tǒng)操作者101按下所述按下講話按鍵105,并且已經(jīng)確定了所述說話人(步驟S1304是),則說話人確定單元203向輸出單元103輸出關(guān)于所確定的說話人的信息而不進行所述說話人確定處理(步驟S1306)。從而系統(tǒng)操作者101能夠掌握是否正確地確定了所述說話人。
這樣,當指定所述指定持續(xù)時間時,所述說話人能夠被固定并且無需間斷即可對短響應(yīng)或突發(fā)噪聲進行語音處理??蛇x地,所述語音處理裝置可以被配置成固定所述說話人,直到檢測到所述話音持續(xù)時間的終點。
從步驟S1307到S1309的處理內(nèi)容確定處理和語音處理與根據(jù)第一實施例的語音處理裝置100的步驟S305到S307中的處理相同。因此,在此不再重復(fù)解釋該處理。
由于上述功能,如果系統(tǒng)操作者101在例如所述“今天天氣很好”部分連續(xù)指定所述指定持續(xù)時間,則指定持續(xù)時間中的說話人被固定為交流對象102。此外,如果在所述停頓時沒有確定所述語音結(jié)束,則可以將“今天天氣很好而且舒服”的整體語音設(shè)置為處理持續(xù)時間中的語音。此外,由于能夠?qū)⑻幚沓掷m(xù)時間中的說話人確定為交流對象102,可以僅從朝向交流對象102的麥克風(fēng)104b收集話音,而不收集周圍的和不必要的短話音。
這樣,當固定了所確定的說話人且指定了所述指定持續(xù)時間時,根據(jù)第三實施例的語音處理裝置能夠進行所述語音處理。因此,可以提高所述語音處理的精確度。
根據(jù)本發(fā)明第四實施例的語音處理裝置計算檢測的話音持續(xù)時間的可靠度,并根據(jù)所述可靠度調(diào)整所述處理持續(xù)時間的起點和終點。
第四實施例與第一實施例的不同之處在于話音持續(xù)時間檢測單元202和處理內(nèi)容確定單元205的功能。根據(jù)第四實施例的語音處理裝置的其它組成元件和功能與圖2所示的根據(jù)第一實施例的語音處理裝置100相同。因此,利用與圖2所示相同的參考符號表示根據(jù)第四實施例的語音處理裝置的相同組成元件,并且在此不再進行重復(fù)解釋。
根據(jù)第四實施例的話音持續(xù)時間檢測單元202與根據(jù)第一實施例的話音持續(xù)時間檢測單元202的差別在于所述可靠度表示在各幀中的語音是人的話音的似然。
作為所述可靠度,其是音量的強度的似然或相對于從大量語音數(shù)據(jù)計算得到的話音統(tǒng)計模型的幀特征量的似然。為計算所述幀特征量的似然,可以使用任何一種用于話音持續(xù)時間檢測技術(shù)的常規(guī)方法,諸如基于多個混合正態(tài)分布來計算話音模型的似然的方法。
根據(jù)第四實施例的處理內(nèi)容確定單元205與根據(jù)第一實施例的處理內(nèi)容確定單元205的不同之處在于利用由話音持續(xù)時間檢測單元202計算的可靠度來調(diào)整所述處理持續(xù)時間的起點和終點。
以下將參照圖14詳細解釋根據(jù)第四實施例的語音處理的整體流程。圖14是根據(jù)第四實施例的語音處理的整體流程的流程圖。
從步驟S1401到S1402的輸入接收處理和指定持續(xù)時間接受處理與根據(jù)第一實施例的語音處理裝置100的步驟S301到S302中的處理相同。因此,在此不再解釋該處理。
在所述指定持續(xù)時間接受處理之后,話音持續(xù)時間檢測單元202計算各幀中的語音的可靠度(步驟S1403)。在計算時,將音量的強度或幀特征量的似然計算為各幀中的語音的可靠度。將計算得到的可靠度存儲在存儲區(qū)域(未示出)中,從而可以由后續(xù)的處理內(nèi)容確定處理參照。
從步驟S1404到S1405的話音持續(xù)時間檢測處理和說話人確定處理以及從步驟S1407到S1408的語音處理與根據(jù)第一實施例的語音處理裝置100的步驟S303到S304以及步驟S306到S307中的處理相同。因此,在此不再解釋該處理。
在第四實施例中,在步驟S1406的處理內(nèi)容確定處理的內(nèi)容不同于第一實施例。以下將詳細解釋在步驟S1406的處理內(nèi)容確定處理。
圖15是根據(jù)第四實施例的處理內(nèi)容確定處理的整體流程的流程圖。
從步驟S1501到S1506的話音持續(xù)時間信息獲取處理、話音持續(xù)時間終點處理以及指定持續(xù)時間終點處理與根據(jù)第一實施例的語音處理裝置100的步驟S701到S706中的處理相同。因此,在此不再解釋該處理。
在進行了所述話音持續(xù)時間終點處理或者所述指定持續(xù)時間終點處理之后,處理內(nèi)容確定單元205決定將預(yù)設(shè)數(shù)目(此后,稱為“n”)的前后幀之中的具有在步驟S1403計算得到的最高可靠度的幀作為處理持續(xù)時間的起點(步驟S1507)。
假設(shè)所述處理持續(xù)時間的起點是語音處理裝置100啟動后的第20幀。如果n是三(n=3),處理內(nèi)容確定單元205從存儲區(qū)域獲取從第17(=20-3)幀到第23(20+3)幀的可靠度。如果第22幀的可靠度最高,處理內(nèi)容確定單元205決定將第22幀作為處理持續(xù)時間的起點。
然后,處理內(nèi)容確定單元205決定將預(yù)設(shè)數(shù)目的前后幀之中的具有最高可靠度的幀作為所述處理持續(xù)時間的終點(步驟S1508)。
從步驟S1509到S1510的確定處理和輸出處理與根據(jù)第一實施例的語音處理裝置100的步驟S707到S708中的處理相同。因此,在此不再解釋該處理。
可選地,可以根據(jù)說話人是系統(tǒng)操作者101還是交流對象102來改變預(yù)設(shè)值n。通過這樣做,可以校正當檢測到不同說話人的話音持續(xù)時間的起點和終點時產(chǎn)生的可能誤差,并且,可以檢測出合適的處理持續(xù)時間。
此外,通過進行上述處理,即使所述話音持續(xù)時間的起點的時刻與系統(tǒng)操作者開始指定所述處理持續(xù)時間的時刻相比有偏移,也可以檢測到合適的處理持續(xù)時間。
這樣,根據(jù)第四實施例的語音處理裝置能夠計算所檢測的話音持續(xù)時間的可靠度,并根據(jù)該可靠度調(diào)整所述處理持續(xù)時間的起點和終點。因此,可以減少由于所述處理持續(xù)時間的錯誤設(shè)置而導(dǎo)致的故障發(fā)生。
根據(jù)第五實施例的語音處理裝置利用由多個麥克風(fēng)構(gòu)成的麥克風(fēng)陣列來接收所述話音,檢測具有高精確度的聲源的方向,加強在所述聲源方向上的話音,以及進行高精確度的語音處理。
圖16是根據(jù)第五實施例的語音處理裝置6100的構(gòu)造的框圖。語音處理裝置6100包括輸出單元103、麥克風(fēng)陣列6109、按下講話按鍵105、輸入接收單元6201、話音持續(xù)時間檢測單元202、說話人確定單元6203、指定持續(xù)時間接受單元204、處理內(nèi)容確定單元205以及語音處理單元206。
第五實施例與第一實施例的不同之處在于,取代所述麥克風(fēng)104a和104b而設(shè)置了麥克風(fēng)陣列6109,以及輸入接收單元6201和說話人確定單元6203的功能。語音處理裝置6100的其它組成元件和功能與圖2所示的根據(jù)第一實施例的語音處理裝置100相同。因此,利用與圖2所示相同的參考符號表示相同的組成元件,并且在此不再重復(fù)進行描述。麥克風(fēng)陣列6109接收來自多個麥克風(fēng)的話音,并且利用從聲源到各麥克風(fēng)的話音到達時間的差或者聲壓的差來估計該話音的聲源的方向。此外,麥克風(fēng)陣列6109能夠通過信號處理加強或者抑制在指定方向上的話音。對于麥克風(fēng)陣列6109,可以采用任何一種常規(guī)類型的麥克風(fēng)陣列。
輸入接收單元6201將從麥克風(fēng)陣列6109輸出的模擬話音信號轉(zhuǎn)換為數(shù)字信號,并向話音持續(xù)時間檢測單元202和說話人確定單元6203輸出該數(shù)字信號。
說話人確定單元6203從話音到達麥克風(fēng)陣列6109的多個麥克風(fēng)的時間差來指定聲源的方向,并確定將存在于所指定的聲源方向上的說話人作為對應(yīng)的說話人。
說話人確定單元6203輸出在所指定的聲音方向上的加強的話音的數(shù)字話音信號。從而可以利用所述加強的話音的信號來檢測具有高精確度的話音持續(xù)時間。此外,由于可以對所述加強的話音進行語音識別等,因此,能夠提高所述語音處理的精確度。
接下來,將詳細解釋根據(jù)第五實施例的說話人確定處理。圖17是根據(jù)第五實施例的說話人確定處理的整體流程的流程圖。
首先,說話人確定單元6203通過常規(guī)技術(shù),諸如使用了互相關(guān)的方法,利用話音從聲源到各個麥克風(fēng)的到達時間的差來估計聲源的方向(S1701)。
說話人確定單元6203指定存在于所指定的聲源方向上的說話人(步驟S1702)。
從步驟S1703到S1704的話音持續(xù)時間信息獲取處理和說話人確定處理與根據(jù)第一實施例的語音處理裝置100的步驟S603到S604中的處理相同。因此,在此不再解釋該處理。
與第三實施例類似,當指定所述指定持續(xù)時間時,可以將聲源的估計方向固定為先前聲源的方向,而不進行說話人確定處理,即,所述聲源方向估計處理。在這種情況下,加強和收集在所述固定方向上的話音,并通過語音處理單元206對所述加強的話音進行語音處理。
這樣,根據(jù)第五實施例的語音處理裝置能夠利用由多個麥克風(fēng)構(gòu)成的麥克風(fēng)陣列來接收話音,檢測具有高精確度的聲源方向,加強在該聲源方向上的話音,以及進行高精確度的話音持續(xù)時間處理和語音處理。
本發(fā)明不限于所述第一到第五實施例。在本發(fā)明的范圍內(nèi),可以適當?shù)匦薷幕蚋淖儽景l(fā)明。例如,可以進行如下修改。
在第一到第五實施例中,如果檢測到交流對象102的話音,系統(tǒng)操作者指定所述指定持續(xù)時間,并且存在在話音持續(xù)時間和指定持續(xù)時間之間的重疊時間段,該話音持續(xù)時間被決定為處理持續(xù)時間(步驟S804)。然而,可能出現(xiàn)以下缺點。如果在交流對象102的話音中的一瞬間指定了所述指定持續(xù)時間,則該指定持續(xù)時間被決定為所述處理持續(xù)時間。
為防止所述缺點,可以進行如下配置,即,如果所述話音持續(xù)時間和所述指定持續(xù)時間的持續(xù)時間長度小于預(yù)定長度,不決定將所述話音持續(xù)時間作為所述處理持續(xù)時間??蛇x地,如果話音持續(xù)時間中的指定持續(xù)時間的長度小于指定持續(xù)時間對話音持續(xù)時間的預(yù)定比例,不決定將所述話音持續(xù)時間作為所述處理持續(xù)時間。
通過如上配置,如果系統(tǒng)操作者101按下所述按下講話按鍵105以翻譯交流對象102的話音,但是不久之后停止所述語音翻譯處理,或者如果由于操作錯誤而指定所述指定持續(xù)時間時,通過立即結(jié)束所述指定持續(xù)時間的指定(關(guān)閉所述按下講話按鍵105),能夠避免對于所述處理持續(xù)時間的決定。
在第一到第五實施例中,如果當指定所述指定持續(xù)時間時檢測到所述系統(tǒng)操作者的話音持續(xù)時間的起點和終點,則延緩確定所述處理持續(xù)時間,直到檢測到所述指定持續(xù)時間的終點,并且不決定所述處理持續(xù)時間和所述處理內(nèi)容(步驟S805否)。
因此,可以將所述語音處理裝置配置為測量從檢測到系統(tǒng)操作者的話音持續(xù)時間的終點開始所經(jīng)過的時間,以及當所述經(jīng)過的時間等于或大于預(yù)設(shè)值時,確定檢測到所述指定持續(xù)時間的終點并且強制性地決定所述處理持續(xù)時間和所述處理內(nèi)容。
通過這樣做,可以避免決定所述處理持續(xù)時間以延遲所述語音處理,以及避免對流暢對話的妨礙,諸如在其中系統(tǒng)操作者101沒有結(jié)束對所述指定持續(xù)時間的指定。此外,由于兩段話音之間的長時間間隔,將會很自然地確定所述兩段語音互不相同,而不會確定所述兩段話音組成一句話。在這種情況下,可以將所述話音劃分為兩段話音,因此,可以實現(xiàn)具有較短等待時間的響應(yīng)。
在第一到第五實施例中,當系統(tǒng)操作者101通過按下所述按下講話按鍵105來指定所述指定持續(xù)時間時,可以將在其間所述按下講話按鍵105處于ON狀態(tài)的話音的持續(xù)時間確定為所述指定持續(xù)時間。
可選地,當所述按下講話按鍵105的ON/OFF操作被認為是諸如點擊按下講話按鍵105的一個操作時,可以將所述語音處理裝置配置為,對于按下講話按鍵105的每一次操作,切換指定所述指定持續(xù)時間的起點和終點。即,如果沒有輸入所述指定持續(xù)時間的起點,通過點擊所述按下講話按鍵105來開始所述指定持續(xù)時間的指定。當系統(tǒng)操作者101下一次點擊所述按下講話按鍵105時,結(jié)束所述指定持續(xù)時間的指定。
此外,當以是否點擊了所述按下講話按鍵105來確定所述指定持續(xù)時間的起點時,可以將所述語音處理裝置配置為,無需指定所述指定持續(xù)時間的終點,并且決定將所述話音持續(xù)時間的終點作為所述指定持續(xù)時間的終點。通過這樣做,如果說話人是交流對象102,能夠決定將話音持續(xù)時間作為處理持續(xù)時間。如果說話人是系統(tǒng)操作者101,能夠決定將點擊之后的話音持續(xù)時間的一部分作為處理持續(xù)時間。
利用所述配置,失去了系統(tǒng)操作者101能夠決定將所述話音的期望部分的持續(xù)時間作為所述處理持續(xù)時間這樣的優(yōu)點。然而,系統(tǒng)操作者101能夠排除諸如話音持續(xù)時間的開始部分的不必要的話音持續(xù)時間。因此,可以表現(xiàn)出可根據(jù)說話人來決定合適的處理持續(xù)時間的優(yōu)點。
在第一到第五實施例中,提取對應(yīng)于所述處理持續(xù)時間的語音信息,通過以時間順序結(jié)合多個處理持續(xù)時間來對所述語音信息進行語音識別,并翻譯所述語音識別結(jié)果。原因如下。如果在結(jié)合所述處理持續(xù)時間時對所述語音進行語音識別處理,期望提高所述語音識別處理的精確度。
作為另一種方法,可以如下配置所述語音處理裝置。對與所述處理持續(xù)時間相重疊的所有話音持續(xù)時間進行語音識別處理,并且僅輸出和翻譯對應(yīng)于所述處理持續(xù)時間的部分的語音識別結(jié)果。通過這樣做,能夠?qū)^長持續(xù)時間中的話音進行語音識別處理。因此,可以利用上下文信息來提高語音識別的精確度。
作為再一種方法,可以如下配置所述語音處理裝置。如果將所述處理持續(xù)時間劃分為多個處理持續(xù)時間,對每個劃分的處理持續(xù)時間中的語音進行語音識別并且翻譯語音識別結(jié)果,而無需以時間順序結(jié)合所述劃分的處理持續(xù)時間。
圖18是根據(jù)第一到第五實施例的各個語音處理裝置的硬件框圖。
根據(jù)第一到第五各個實施例的語音處理裝置包括諸如中央處理單元(CPU)51的控制裝置,諸如只讀存儲器(ROM)52和隨機存儲器(RAM)53的存儲裝置,用于連接到網(wǎng)絡(luò)以保持通信的通信接口(I/F)54,以及連接各組成元件的總線61。
通過被預(yù)先集成在ROM 52等之內(nèi),來提供由根據(jù)第一到第五各個實施例的語音處理裝置所執(zhí)行的語音處理程序。
由根據(jù)第一到第五各個實施例的語音處理裝置所執(zhí)行的語音處理程序可以被配置為,通過以可安裝或可執(zhí)行的格式被記錄在諸如光盤只讀存儲器(CD-ROM)、軟盤(FD)、可記錄光盤(CD-R)或者數(shù)字通用光盤(DVD)的計算機可讀記錄介質(zhì)中,來進行提供。
此外,由根據(jù)第一到第五各個實施例的語音處理裝置所執(zhí)行的語音處理程序可以被配置為,通過被存儲在與諸如互聯(lián)網(wǎng)的網(wǎng)絡(luò)相連接的計算機中,并經(jīng)由網(wǎng)絡(luò)下載而進行提供。此外,由根據(jù)第一到第五各個實施例的語音處理裝置所執(zhí)行的語音處理程序可以被構(gòu)成為經(jīng)由諸如互聯(lián)網(wǎng)的網(wǎng)絡(luò)來提供或發(fā)布。
通過包含所述單元(輸入接收單元、話音持續(xù)時間檢測單元、說話人確定單元、指定持續(xù)時間接受單元、處理內(nèi)容確定單元以及語音處理單元)的模塊來配置由根據(jù)第一到第五各個實施例的語音處理裝置所執(zhí)行的語音處理程序。作為實際硬件,CPU 51從ROM 52讀取語音處理程序,并執(zhí)行該語音處理程序。結(jié)果,在主存儲裝置(未示出)上加載并生成所述各單元。
本領(lǐng)域技術(shù)人員將很容易得到其它的優(yōu)點和變型。因此,就其廣義方面而言,本發(fā)明不限于在此示出和描述的具體細節(jié)和代表性實施例。于是,無需脫離由所附的權(quán)利要求及其等同內(nèi)容所定義的一般發(fā)明概念的精神和范圍,即可作出各種變型。
權(quán)利要求
1.一種語音處理裝置,包括語音輸入單元,用于接收語音的輸入,該語音包括操作者與該操作者之外的人之中的一個的話音;指定持續(xù)時間接受單元,用于接受由所述操作者指定的指定持續(xù)時間作為時間間隔,該時間間隔是在所述輸入語音中的語音處理的對象;話音持續(xù)時間檢測單元,用于從所述輸入語音中檢測話音持續(xù)時間,該話音持續(xù)時間是在其中存在所述話音的時間間隔;說話人確定單元,基于所述輸入語音來確定所述話音的說話人是所述操作者還是所述操作者之外的人;以及決定單元,用于檢測在所述接受的指定持續(xù)時間和所述檢測的話音持續(xù)時間之間的重疊時間段,并且,當檢測到所述重疊時間段并且由所述說話人確定單元確定所述說話人是所述操作者之外的人時,決定包括了所述重疊時間段的所述話音持續(xù)時間是處理持續(xù)時間。
2.根據(jù)權(quán)利要求1所述的裝置,其中,當檢測到所述重疊時間段并且由所述說話人確定單元確定所述說話人是所述操作者時,所述決定單元決定所述重疊時間段是所述處理持續(xù)時間。
3.根據(jù)權(quán)利要求1所述的裝置,進一步包括語音處理單元,用于對由所述決定單元決定的所述處理持續(xù)時間中的語音進行語音處理,其中,所述決定單元進一步基于由所述說話人確定單元確定的說話人,決定對所述語音進行的語音處理的處理內(nèi)容,以及所述語音處理單元根據(jù)由所述決定單元決定的所述處理內(nèi)容對所述處理持續(xù)時間中的語音進行語音處理。
4.根據(jù)權(quán)利要求3所述的裝置,其中,所述決定單元根據(jù)所述說話人是所述操作者還是所述操作者之外的人,改變用于語音識別處理并包括聲學(xué)模型、字典以及語法中至少一種的信息,并且決定將利用所述改變的信息進行語音識別處理作為所述處理內(nèi)容。
5.根據(jù)權(quán)利要求3所述的裝置,其中,所述確定單元根據(jù)所述說話人是所述操作者還是所述操作者之外的人,改變用于翻譯處理并包括翻譯源語言、翻譯目標語言以及翻譯方法中的至少一種的信息,并且決定將利用所述改變的信息進行翻譯處理作為所述處理內(nèi)容。
6.根據(jù)權(quán)利要求3所述的裝置,其中,所述語音處理單元對由所述話音持續(xù)時間檢測單元檢測到的所述話音持續(xù)時間中的語音進行語音處理,并且輸出全部語音處理結(jié)果中對應(yīng)于由所述決定單元確定的所述處理持續(xù)時間的部分語音處理結(jié)果。
7.根據(jù)權(quán)利要求3所述的裝置,其中,當所述話音持續(xù)時間檢測單元在由所述指定持續(xù)時間接受單元接受的所述指定持續(xù)時間中檢測到多個話音持續(xù)時間,并且所述決定單元決定所述多個話音持續(xù)時間是所述處理持續(xù)時間時,所述語音處理單元結(jié)合所述多個處理持續(xù)時間并且對所述結(jié)合的處理持續(xù)時間中的語音進行語音處理。
8.根據(jù)權(quán)利要求1所述的裝置,其中,當所述接受的指定持續(xù)時間短于預(yù)定時間段時,由于所述指定持續(xù)時間接受單元不接受所述指定持續(xù)時間,所述決定單元決定所述處理持續(xù)時間。
9.根據(jù)權(quán)利要求1所述的裝置,其中,當由所述指定持續(xù)時間接受單元接受的所述指定持續(xù)時間對于所述檢測到的話音持續(xù)時間的比例低于預(yù)定閾值時,由于所述指定持續(xù)時間接受單元不接受所述指定持續(xù)時間,所述決定單元決定所述處理持續(xù)時間。
10.根據(jù)權(quán)利要求1所述的裝置,其中,所述指定持續(xù)時間接受單元接受操作按鍵被按下的時間段作為所述指定持續(xù)時間。
11.根據(jù)權(quán)利要求1所述的裝置,其中,所述指定持續(xù)時間接受單元接受從按下操作按鍵到下一次按下該操作按鍵的時間段作為所述指定持續(xù)時間。
12.根據(jù)權(quán)利要求1所述的裝置,其中,當從按下操作按鍵開始經(jīng)過預(yù)定時間段時,所述指定持續(xù)時間接受單元接受從按下該操作按鍵開始直到經(jīng)過所述預(yù)定時間段的持續(xù)時間作為所述指定持續(xù)時間。
13.根據(jù)權(quán)利要求1所述的裝置,進一步包括成像單元,用于攝取所述操作者的面部的圖像或者所述操作者之外的人的面部的圖像;以及識別單元,用于識別由所述成像單元攝取的所述面部的圖像,從而獲取包括所述面部的方向和表情的面部圖像信息,其中,所述指定持續(xù)時間接受單元基于所述獲取的面部圖像信息的變化來接受所述指定持續(xù)時間的起點和終點。
14.根據(jù)權(quán)利要求1所述的裝置,其中,當在所述指定持續(xù)時間的指定期間已經(jīng)確定了所述說話人時,所述說話人確定單元不確定所述說話人。
15.根據(jù)權(quán)利要求1所述的裝置,其中,所述話音持續(xù)時間檢測單元進一步計算表示所述檢測的話音持續(xù)時間的似然的可靠度,以及所述決定單元將所述話音持續(xù)時間的起點和終點改變?yōu)樗鲇嬎愕目煽慷茸畲蟮乃鲈捯舫掷m(xù)時間的起點和終點,其中對于在所述話音持續(xù)時間的起點或終點的之前和之后中的至少一個的預(yù)定范圍內(nèi)的話音持續(xù)時間來計算所述可靠度。
16.根據(jù)權(quán)利要求1所述的裝置,其中,所述語音輸入單元通過包含了多個麥克風(fēng)的麥克風(fēng)陣列來接收所述語音,以及所述說話人確定單元基于輸入到所述多個麥克風(fēng)的語音來確定所述話音的說話人是所述操作者還是所述操作者之外的人。
17.一種語音處理方法,包括以下步驟輸入語音,該語音包括操作者與該操作者之外的人之中的一個的話音;接受由所述操作者指定的指定持續(xù)時間的輸入作為時間間隔,該時間間隔是在所述輸入語音中的語音處理的對象;從所述輸入語音中檢測話音持續(xù)時間,該話音持續(xù)時間是在其中存在所述話音的時間間隔;基于所述輸入語音來確定所述話音的說話人是所述操作者還是所述操作者之外的人;檢測在所述接收的指定持續(xù)時間和所述檢測的話音持續(xù)時間之間的重疊時間段;以及,當檢測到所述重疊時間段并且確定所述說話人是所述操作者之外的人時,決定包括了所述重疊時間段的所述話音持續(xù)時間是處理持續(xù)時間。
全文摘要
語音處理裝置,包括語音輸入單元,接收語音的輸入,該語音包括操作者和該操作者之外的人之中的一個的話音;指定持續(xù)時間接受單元,接受由所述操作者指定的指定持續(xù)時間作為時間間隔,該時間間隔是在所述輸入語音中的語音處理的對象;話音持續(xù)時間檢測單元,從所述輸入語音中檢測話音持續(xù)時間,該話音持續(xù)時間是在其中存在所述話音的時間間隔;說話人確定單元,基于所述輸入語音來確定所述話音的說話人是所述操作者還是所述之外的人;以及決定單元,檢測在指定持續(xù)時間和話音持續(xù)時間之間的重疊時間段,并且,當檢測到所述重疊時間段并且確定所述說話人是所述之外的人時,決定包括了所述重疊時間段的所述話音持續(xù)時間是處理持續(xù)時間。
文檔編號G06F17/28GK101046958SQ20071009156
公開日2007年10月3日 申請日期2007年3月28日 優(yōu)先權(quán)日2006年3月29日
發(fā)明者蟻生政秀 申請人:株式會社東芝