欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信號處理裝置及信號處理方法

文檔序號:2832676閱讀:251來源:國知局
專利名稱:信號處理裝置及信號處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及在周圍存在別人的聲音或噪音的環(huán)境下提取正在對話的組的信號處理裝置及信號處理方法。
背景技術(shù)
作為現(xiàn)有的提取正在對話的組的信號處理裝置,存在如下裝置根據(jù)基于有音 /無音評價的語音信號的時間序列數(shù)據(jù)間的相關(guān)關(guān)系,判斷對話的成立度,提取有效語音 (參照專利文獻(xiàn)1)。在專利文獻(xiàn)1記載的信號處理裝置中,利用成立狀態(tài)下的對話中兩個激勵間交替出現(xiàn)有音的現(xiàn)象,對分離出的激勵信號進(jìn)行有音/無音評價,利用兩個激勵間的有音/無音的組合,計算對話成立度。圖1表示專利文獻(xiàn)1記載的對話成立度計算方法的思路。如果在對象語音信號及受話信號中的一方為有音、另一方為無音,則對于對話成立度進(jìn)行加分, 如果都是有音或都是無音,則進(jìn)行減分。而且,將該對話成立度大的組合的激勵之間設(shè)為對話成立。現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)1 日本特開2004-133403號公報專利文獻(xiàn)2 日本特開2002-6874號公報專利文獻(xiàn)3 日本特開2004-243023號公報專利文獻(xiàn)4 日本特開平1_93四8號公報非專利文獻(xiàn)「音聲処理i顏畫像処理全統(tǒng)合L· fz対話映像如h Θ笑0 Θ認(rèn)識(Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video)」伊藤彰規(guī)則他、東北大、2005-NL-167,2005-SLP-56,2005/5/2
發(fā)明內(nèi)容
發(fā)明要解決的問題但是,在日常的非正式對話中,進(jìn)行對話的說話人的發(fā)言不會在時間上清晰地交替顯現(xiàn)。這里所謂的日常的非正式對話是指,不是按照會議那樣的形式的對話,而是參與者自由發(fā)言的雜談那樣的對話。并且,關(guān)于這種日常的對話,存在越是非正式的對話,發(fā)言的重疊(串?dāng)_)越增多的傾向。因此,在日常對話中,有音的時間上重疊增多。所以,在僅通過有音/無音的組合來求出對話成立度的現(xiàn)有技術(shù)中,很難準(zhǔn)確地區(qū)分對話對方和非對話對方。另外,在日常的非正式對話中,伴隨有笑聲而進(jìn)行交談的情況較多。笑是有音的, 在現(xiàn)有技術(shù)那樣根據(jù)能量進(jìn)行有音判定、僅通過有音/無音的組合求出對話成立度的方法中,在同時笑時,對話成立度降低,很難準(zhǔn)確地區(qū)分對話對方和非對話對方。
另外,在現(xiàn)有技術(shù)中,如果一方的說話人是有音、另一方的說話人是無音,則對于對話成立度進(jìn)行加分,因此在說話人的聲音一方地一直存在的情況下,也會視為對話成立。 在會議等進(jìn)行對話的場合下,在找到對話對方時,使用現(xiàn)有的方法即可。但是,在像助聽器那樣由用戶始終隨身佩帶著可佩帶式麥克風(fēng)的狀況下,用戶的自言自語、并非與自己說話的別人的聲音一直輸入到麥克風(fēng)的情況也較多,缺乏實(shí)用性。這樣,在實(shí)際的日常環(huán)境下,在像上述現(xiàn)有方法那樣僅利用有音/無音的組合求出對話成立度的方法中,具有難以準(zhǔn)確地檢測對話的成立的問題,缺乏實(shí)用性。本發(fā)明的目的在于,提供即使在日常的環(huán)境下也能準(zhǔn)確地檢測對話的成立的信號處理裝置及信號處理方法。解決問題的方案本發(fā)明信號處理裝置所采用的結(jié)構(gòu)包括分離單元,將混入了多個激勵的混合音信號分離為各個激勵;語音檢測單元,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息;使用所述語音區(qū)間信息來計算并分析發(fā)言重疊持續(xù)長度的發(fā)言重疊持續(xù)長度提取單元和計算并分析所述沉默持續(xù)長度的沉默持續(xù)長度提取單元中的至少一個單元;以及對話成立度計算單元,根據(jù)提取到的所述發(fā)言重疊持續(xù)長度或所述沉默持續(xù)長度,計算表示對話成立的程度的對話成立度。根據(jù)該結(jié)構(gòu),即使在日常的環(huán)境下也能準(zhǔn)確地檢測對話的成立。例如,通過利用在對方發(fā)言中隨聲附和、在對方未完全說完時就開始發(fā)言、產(chǎn)生短暫的沉默等日常對話特征, 即使在非正式的日常對話中,也能準(zhǔn)確地判定對話對方。本發(fā)明的信號處理裝置采用的結(jié)構(gòu)為,在上述信號處理裝置中,具備對于所述分離出的多個激勵信號的各個激勵信號進(jìn)行笑聲檢測并提取笑聲區(qū)間信息作為所述識別參數(shù)的笑聲檢測單元,以替代所述發(fā)言重疊持續(xù)長度提取單元或所述沉默持續(xù)長度提取單元,所述對話成立度計算單元對于所述多個激勵信號的組合,使用所述語音區(qū)間信息及所述笑聲區(qū)間信息計算所述對話成立度。根據(jù)該結(jié)構(gòu),通過檢測笑聲、對著眼于笑聲的重疊的對話成立度進(jìn)行評價,由此即使在非正式的日常對話中,也能準(zhǔn)確地檢測對話的成立的情況。本發(fā)明的信號處理裝置采用的結(jié)構(gòu)為,在上述信號處理裝置中,對于所述多個激勵信號的組合提取發(fā)言比率信息作為所述識別參數(shù)的發(fā)言比率計算單元,以替代所述發(fā)言重疊持續(xù)長度提取單元或所述沉默持續(xù)長度提取單元,所述對話成立度計算單元使用所述語音區(qū)間信息及所述發(fā)言比率信息,計算所述對話成立度。根據(jù)該結(jié)構(gòu),在自己與對方的發(fā)言區(qū)間比極端失衡的情況下,通過使對話成立度變低,信號處理裝置能夠避免誤動作。例如,在像助聽器那樣日常佩帶的設(shè)備中,不會因佩帶人自己的自言自語、佩帶人自己未對話時的別人的聲音等而使信號處理裝置誤動作。本發(fā)明的信號處理方法包括分離步驟,將混入了多個激勵的混合音信號分離為各個激勵;語音檢測步驟,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息;使用所述語音區(qū)間信息來計算并分析發(fā)言重疊持續(xù)長度的步驟和計算并分析所述沉默持續(xù)長度的步驟中的至少一個步驟;以及計算步驟,根據(jù)提取出的所述發(fā)言重疊持續(xù)長度或所述沉默持續(xù)長度,計算表示對話成立的程度的對話成立度。根據(jù)該方法,即使在日常的環(huán)境下也能準(zhǔn)確地檢測對話的成立。發(fā)明的效果根據(jù)本發(fā)明,即使在日常的環(huán)境下也能準(zhǔn)確地檢測對話的成立,因此能夠容易聽到地調(diào)整或記錄對話成立的語音。


圖1是表示專利文獻(xiàn)1記載的對話成立程度計算方法的思路的圖。圖2是表示日常對話數(shù)據(jù)的發(fā)言重疊持續(xù)長度的分布的圖。圖3是表示日常對話數(shù)據(jù)的沉默持續(xù)長度的分布的圖。圖4是表示本發(fā)明的實(shí)施方式1的信號處理裝置的主要部分的結(jié)構(gòu)的方框圖。圖5是表示一例將本發(fā)明應(yīng)用于主體與耳機(jī)分離了的方式的遙控型助聽器的圖。圖6是表示實(shí)際使用遙控型助聽器時的人的位置關(guān)系的例子的圖。圖7是表示實(shí)施方式1的助聽器的動作的流程圖。圖8是用于說明發(fā)言重疊分析值Pc的求法的圖。圖9是表示實(shí)施方式1的基于模擬試驗(yàn)的對話對方檢測率的圖。圖10是表示對于對話對方的笑聲/發(fā)言/無音的重疊持續(xù)長度合計的圖。圖11是表示對于非對話對方的笑聲/發(fā)言/無音的重疊持續(xù)長度合計的圖。圖12是表示計算作為對話對方的比例所得的結(jié)果的圖。圖13是表示本發(fā)明的實(shí)施方式2的信號處理裝置的主要部分的結(jié)構(gòu)的方框圖。圖14是表示實(shí)施方式2的助聽器的動作的流程圖。圖15是用于說明基于發(fā)言/笑聲/無音的組合的對話成立度計算方法的圖。圖16是表示某一組的對話的每個時間窗口長度的發(fā)言區(qū)間比Rb的推移的例子的圖。圖17是表示本發(fā)明的實(shí)施方式3的信號處理裝置的主要部分的結(jié)構(gòu)的方框圖。圖18是表示實(shí)施方式3的助聽器的動作的流程圖。圖19是表示本發(fā)明的實(shí)施方式4的信號處理裝置的主要部分的結(jié)構(gòu)的方框圖。圖20是表示實(shí)施方式4的助聽器的動作的流程圖。標(biāo)號說明100、300、400、500 信號處理裝置110、220麥克風(fēng)陣列120、230A/D 轉(zhuǎn)換單元130激勵分離單元140語音檢測單元150、310、410、510識別參數(shù)提取單元151,511發(fā)言重疊持續(xù)長度分析單元152、512沉默持續(xù)長度分析單元160、320、420、520對話成立度計算單元170對話對方判定單元
180輸出音控制單元200助聽器210助聽器主體240CPU250存儲器260 耳機(jī)311笑聲檢測單元411、513發(fā)言比率計算單元
具體實(shí)施例方式以下,參照附圖詳細(xì)地說明本發(fā)明的實(shí)施方式。(實(shí)施方式1)在本實(shí)施方式中,著眼于發(fā)言的重疊或沉默的持續(xù)長度,計算對話成立度。在說明本實(shí)施方式的具體的結(jié)構(gòu)及動作之前,首先,說明本發(fā)明人著眼于發(fā)言的重疊或沉默的持續(xù)長度的情況。在日常的非正式對話中,進(jìn)行對話的說話人的發(fā)言不會在時間上清晰地交替顯現(xiàn)。存在越是非正式的對話,發(fā)言的重疊(串?dāng)_)越增多的傾向。因此,在日常對話中,由于有音的時間重疊增多,所以在僅通過有音/無音的組合求出對話成立度的現(xiàn)有技術(shù)中, 具有很難準(zhǔn)確地區(qū)分對話對方和非對話對方的問題。本實(shí)施方式解決上述問題。在日常對話中頻繁出現(xiàn)以下情況在一方的說話人說完之前另一方的說話人就開始說話、或者在一方的說話人的說話過程中另一方的說話人隨聲附和。因此,本發(fā)明人著眼于這種發(fā)言的重疊持續(xù)長度。首先,本發(fā)明人實(shí)際上分別拾取了 9組的10分鐘左右的日常對話的聲音,并對于該數(shù)據(jù),分析了對話對方的發(fā)言重疊、非對話對方的發(fā)言重疊的持續(xù)長度。圖2是分別對于對話對方、非對話對方表示發(fā)言重疊的一次連續(xù)的區(qū)間的長度 (持續(xù)長度)的分布的曲線圖。在圖2中,橫軸表示一次的發(fā)言重疊連續(xù)的區(qū)間的長度,縱軸表示頻度。作為其結(jié)果可知對于進(jìn)行對話的對方,一次發(fā)言重疊連續(xù)的區(qū)間的長度往往較短,對于非對話對方,一次的發(fā)言重疊連續(xù)的區(qū)間的長度往往較長。因此,在本實(shí)施方式中, 導(dǎo)入這樣的參數(shù)該參數(shù)不是單純地著眼于發(fā)言重疊的多少,而是著眼于發(fā)言重疊的一次連續(xù)的區(qū)間的長度(持續(xù)長度)。另外,本發(fā)明人將雙方的說話人沉默的狀態(tài)定義為沉默,對于沉默的持續(xù)長度,也同樣地進(jìn)行了分析。圖3是分別對于對話對方、非對話對方表示沉默的一次連續(xù)的區(qū)間的長度(持續(xù)長度)的分布的曲線圖。在圖3中,橫軸表示一次的沉默連續(xù)的區(qū)間的長度,縱軸表示頻度。作為結(jié)果可知沉默與發(fā)言重疊同樣,與非對話對方相比,對話對方的沉默的持續(xù)長度往往較短。因此,在本實(shí)施方式中,與發(fā)言重疊同樣地導(dǎo)入著眼于沉默一次連續(xù)的區(qū)間的長度(持續(xù)長度)的參數(shù)。以下說明本實(shí)施方式的信號處理裝置的內(nèi)部結(jié)構(gòu)。
圖4是表示本實(shí)施方式的信號處理裝置100的主要部分的結(jié)構(gòu)的方框圖。麥克風(fēng)陣列110是配置有多個麥克風(fēng)的拾音裝置。A/D (Analog to Digital,模數(shù))轉(zhuǎn)換單元120將各個麥克風(fēng)拾取到的音信號轉(zhuǎn)換
成數(shù)字信號。激勵分離單元130利用到達(dá)各麥克風(fēng)的音信號的到達(dá)時間之差進(jìn)行信號處理,由此將混入了多個激勵的混合音信號分離為各個激勵。語音檢測單元140判定由激勵分離單元130分離的音信號是否為語音,對每個激勵,生成表示語音/非語音的檢測結(jié)果的語音區(qū)間信息。關(guān)于語音檢測單元140中的語音檢測方法,在后面進(jìn)行敘述。識別參數(shù)提取單元150提取識別參數(shù),該識別參數(shù)在判定(識別)對話對方而計算對話成立度時使用。識別參數(shù)的詳細(xì)情況在后面所述。在本實(shí)施方式中,識別參數(shù)提取單元150具有發(fā)言重疊持續(xù)長度分析單元151及沉默持續(xù)長度分析單元152。發(fā)言重疊持續(xù)長度分析單元151利用表示由語音檢測單元140判定出的每個激勵的語音/非語音的檢測結(jié)果的語音區(qū)間信息,求出并分析激勵間的發(fā)言重疊區(qū)間的持續(xù)長度(以下稱為“發(fā)言重疊持續(xù)長度分析值”)。沉默持續(xù)長度分析單元152使用表示由語音檢測單元140判定出的每個激勵的語音/非語音的檢測結(jié)果的語音區(qū)間信息,求出并分析激勵間的沉默區(qū)間的持續(xù)長度(以下稱為“沉默持續(xù)長度分析值”)。這樣,識別參數(shù)提取單元150提取發(fā)言重疊持續(xù)長度分析值及沉默持續(xù)長度分析值,作為表示日常對話特征量的識別參數(shù)。并且,關(guān)于識別參數(shù)提取單元150中的發(fā)言重疊分析值及沉默分析值的計算方法,在后面進(jìn)行敘述。對話成立度計算單元160根據(jù)由發(fā)言重疊持續(xù)長度分析單元151計算的發(fā)言重疊持續(xù)長度分析值、由沉默持續(xù)長度分析單元152計算的沉默持續(xù)長度分析值,計算對話成立度。關(guān)于對話成立度計算單元160中的對話成立度計算方法,在后面進(jìn)行敘述。對話對方判定單元170使用在對話成立度計算單元160中計算的對話成立度,判定哪個激勵是對話對方。輸出音控制單元180對于由激勵分離單元130分離出的音信號,控制輸出音后將其輸出,以使在對話對方判定單元170中判定的對話對方的聲音容易聽到。具體而言,輸出音控制單元180對于由激勵分離單元130分離出的音信號,進(jìn)行抑制非對話對方的激勵方向的指向性控制。圖5是將本實(shí)施方式的信號處理裝置100應(yīng)用于助聽器主體與耳機(jī)分離的方式的遙控型助聽器(以下簡稱為“助聽器”)200中的例子。助聽器200具有助聽器主體210及耳機(jī)洸0。助聽器主體210包括麥克風(fēng)陣列220、A/D轉(zhuǎn)換單元230、CPU240、及存儲器250。 在麥克風(fēng)陣列220中,8個麥克風(fēng)配置成圓狀。A/D轉(zhuǎn)換單元230將由麥克風(fēng)陣列220拾取到的音信號轉(zhuǎn)換成數(shù)字信號。CPU240進(jìn)行助聽器主體210的控制及運(yùn)算。存儲器250存儲用于運(yùn)算的數(shù)據(jù)。輸出音信號的耳機(jī)沈0與助聽器主體210連接。CPU240使用存儲器250,除了進(jìn)行適合于用戶聽覺的音信號放大等通常的助聽處理以外,還進(jìn)行上述激勵分離、語音檢測、發(fā)言重疊持續(xù)長度分析、沉默持續(xù)長度分析、對話成立度計算、對話對方判定、輸出音控制。通常,助聽器主體210放置在桌子上,對助聽器主體210內(nèi)部的麥克風(fēng)陣列220拾取的聲音進(jìn)行加工,使佩帶耳機(jī)260的用戶聽到。在本實(shí)施方式中,說明助聽器主體210與耳機(jī)260間的連接為有線的情況,但是,也可以通過無線通信來連接助聽器主體210與耳機(jī) 260。接著,說明如上構(gòu)成的助聽器200的動作。圖6是表示實(shí)際使用圖5的助聽器200時的人的位置關(guān)系的例子的圖。在圖6中, 助聽器200的用戶佩帶耳機(jī)沈0。助聽器主體210放置在桌子上,用戶與位于正面的對話對方進(jìn)行對話。并且,假設(shè)助聽器主體210放置在桌子上,以使助聽器200的用戶面對主體前方(圖5的▲方向)。在圖6的例子中,從助聽器200的用戶來看,在右側(cè),無關(guān)的說話人正在進(jìn)行對話,成為干擾音。圖7是表示搭載了本實(shí)施方式的信號處理裝置100的助聽器200的動作的流程圖。使用圖7的流程圖,說明助聽器200的動作。圖中S表示流程的各步驟。另外,圖7的各步驟中的以下處理是使用CPU240及存儲器250來進(jìn)行的。在CPU240及存儲器250中, 以每個短時間單位(幀,這里設(shè)為10msec)進(jìn)行處理。首先,在步驟SllO中,A/D轉(zhuǎn)換單元120對從內(nèi)置于助聽器主體210中的麥克風(fēng)陣列110(220)輸入的音信號進(jìn)行A/D轉(zhuǎn)換,輸出到激勵分離單元130。接著,在步驟S120中,激勵分離單元130利用到達(dá)各麥克風(fēng)的音信號的到達(dá)時間之差,以幀為單位,在不同方向上分離音信號。這里,假定激勵分離單元130在前后左右依次傾斜45°的8個方向k(k= 1,2,......,8)上分離音信號。這里,假定該分離出的音信號從用戶所處的助聽器200前方起沿逆時針方向依次是51、52、53、54、55、56、57、58。這8個方向中的助聽器200的前方是助聽器200的用戶所處的方向,因此假定來自該方向的音信號Sl是用戶的聲音。接著,分別對于分離出的8個方向的音信號Sk (k 方向,k = 1,2,......,8)進(jìn)行
步驟S130的處理。在步驟S130中,語音檢測單元140對于音信號Sk(k:方向,k= 1,2,......,8)進(jìn)
行語音/非語音檢測。作為語音檢測方法,例如,這里是以幀為單位計算語音頻帶(例如, 200Hz 4000Hz)中的能量,在時間方向上進(jìn)行平滑化,在能量超過閾值的情況下,判定為語音。為了更高精度地進(jìn)行語音檢測,優(yōu)選的是,在后續(xù)處理中,進(jìn)行如下等處理將短時間的語音區(qū)間作為無音處理,或者在語音持續(xù)時存在短時間的無音的情況下,作為語音處理。并且,語音檢測方法不限于基于語音頻帶能量的方法,也可以使用檢測諧波結(jié)構(gòu)的方法、或與模型對照的方法等其他方法。以下,語音檢測單元140將判定為語音的區(qū)間定義為發(fā)言區(qū)間。接著,對于前方的音信號Sl與除了前方以外的7個方向的音信號S2 S8的各個組合,進(jìn)行步驟S140、S150的處理。在步驟S140中,發(fā)言重疊持續(xù)長度分析單元151及沉默持續(xù)長度分析單元152求
出音信號Sl與音信號Sk(k 方向,k = 2,3,......,8)的發(fā)言重疊及沉默的區(qū)間的持續(xù)長
度。然后,發(fā)言重疊持續(xù)長度分析單元151及沉默持續(xù)長度分析單元152分別計算幀t中的發(fā)言重疊分析值Pc及沉默分析值1^,將它們輸出至對話成立度計算單元160。
以下,說明發(fā)言重疊分析值Pc及沉默分析值I^s的計算方法。首先,參照圖8,說明發(fā)言重疊分析值Pc的計算方法。在圖8A中,四邊形所示的區(qū)間表示基于由語音檢測單元140生成的表示語音/非語音檢測結(jié)果的語音區(qū)間信息而判定為音信號Sl是語音的發(fā)言區(qū)間。在圖8B中,四邊形所示的區(qū)間表示判定為音信號Sk是語音的發(fā)言區(qū)間。并且,發(fā)言重疊持續(xù)長度分析單元151 將這些區(qū)間重疊的部分定義為發(fā)言重疊(圖8C)。發(fā)言重疊持續(xù)長度分析單元151中的具體動作如下所述。在幀t中,在發(fā)言重疊開始時,發(fā)言重疊持續(xù)長度分析單元151將該幀存儲為起始幀。并且,在幀t中發(fā)言重疊結(jié)束的情況下,發(fā)言重疊持續(xù)長度分析單元151將其視為1個發(fā)言重疊,將從起始幀起的時間長度作為發(fā)言重疊的持續(xù)長度。在圖8C中,橢圓包圍的部分表示幀t以前的發(fā)言重疊。并且,在幀t中發(fā)言重疊結(jié)束的情況下,發(fā)言重疊持續(xù)長度分析單元151求出并存儲與幀t以前的發(fā)言重疊的持續(xù)長度有關(guān)的統(tǒng)計量。進(jìn)而,發(fā)言重疊持續(xù)長度分析單元151使用該統(tǒng)計量,計算幀t中的發(fā)言重疊分析值Pc。優(yōu)選的是,發(fā)言重疊分析值Pc是表示在發(fā)言重疊中其持續(xù)長度短的情況較多或其持續(xù)長度長的情況較多的參數(shù)。接著,說明沉默分析值I^s的計算方法。首先,沉默持續(xù)長度分析單元152將根據(jù)由語音檢測單元140生成的語音區(qū)間信息而判定為音信號Si是非語音的區(qū)間、與判定為音信號Sk是非語音的區(qū)間重疊的部分定義為沉默。與發(fā)言重疊的分析度相同,沉默持續(xù)長度分析單元152求出沉默區(qū)間的持續(xù)長度,求出并存儲與幀t以前的沉默區(qū)間的持續(xù)長度有關(guān)的統(tǒng)計量。并且,沉默持續(xù)長度分析單元152使用該統(tǒng)計量,計算幀t中的沉默分析值1^。優(yōu)選的是,沉默分析值I^s也是表示在沉默中其持續(xù)長度短的情況較多或其持續(xù)長度長的情況較多的參數(shù)。以下,說明具體的發(fā)言重疊分析值Pc及沉默分析值I^s的計算方法。沉默持續(xù)長度分析單元152在幀t中分別存儲/更新與持續(xù)長度有關(guān)的統(tǒng)計量。 與持續(xù)長度有關(guān)的統(tǒng)計量包括幀t以前的(1)發(fā)言重疊的持續(xù)長度之和Wc、(2)發(fā)言重疊的個數(shù)Nc、C3)沉默的持續(xù)長度之和Ws、及(4)沉默的個數(shù)Ns。并且,發(fā)言重疊持續(xù)長度分析單元151及沉默持續(xù)長度分析單元152通過式(1-1)、(1-2)分別求出幀t以前的發(fā)言重疊的平均持續(xù)長度Ac、及幀t以前的沉默區(qū)間的平均持續(xù)長度As。Ac =發(fā)言重疊的持續(xù)長度之和Wc/發(fā)言重疊的個數(shù)Ne... (1-1)As =沉默區(qū)間的持續(xù)長度之和Ws/沉默的個數(shù)Ns. . . (1-2)Ac、As的值越小,表示短的發(fā)言重疊、短的沉默越多。因此,為了匹配大小關(guān)系,使 Ac、As的符號逆轉(zhuǎn),如下式0-1)、0-2)那樣定義發(fā)言重疊分析值Pc及沉默分析值1^。Pc = -Ac . . . (2-1)Ps = -As . . . (2-2)并且,除了發(fā)言重疊分析值Pc及沉默分析值I^s以外,作為表示持續(xù)長度短的對話多或持續(xù)長度長的對話多的參數(shù),還可考慮如下參數(shù)。在計算參數(shù)時,劃分為發(fā)言重疊及沉默的持續(xù)長度小于閾值T (例如T= 1秒)的短對話、持續(xù)長度為T以上的長對話,求出各自的出現(xiàn)個數(shù)或持續(xù)長度和。接著,在計算參數(shù)時,求出在幀t以前出現(xiàn)的持續(xù)長度短的對話的出現(xiàn)個數(shù)或相對于持續(xù)長度和的比例。
11于是,該比例是表示其值越大,則持續(xù)長度短的對話越多的參數(shù)。另外,為了表現(xiàn)出一個對話的集中的性質(zhì),在沉默持續(xù)了一定時間的時刻,對這些統(tǒng)計量進(jìn)行初始化?;蛘撸部梢悦恳欢〞r間(例如20秒)對統(tǒng)計量進(jìn)行初始化。另外, 也可以一直使用過去一定時間窗口內(nèi)的發(fā)言重疊、沉默持續(xù)長度的統(tǒng)計量,作為統(tǒng)計量。另外,為了削減計算量,也可以判定為在一定時間內(nèi)未檢測到語音的激勵方向上沒有人存在,直到下次檢測到語音為止,不進(jìn)行上述處理。再次返回到圖7,在步驟S150中,對話成立度計算單元160計算音信號Sl與音信號Sk的對話成立度,將對話成立度輸出至對話對方判定單元170。幀t中的對話成立度CuU)例如如式C3)那樣進(jìn)行定義。Clj k (t) = wl · Pc (t) +w2 · Ps (t) ... (3)并且,關(guān)于發(fā)言重疊分析值Pc的權(quán)重wl及沉默分析值I3S的權(quán)重w2,通過試驗(yàn),預(yù)先求出最佳值。在幀t中,對于所有方向的激勵,在無音持續(xù)了一定時間的的時刻,進(jìn)行初始化。 并且,對話成立度計算單元160在某一方向的激勵具有能量時,開始計數(shù)。另外,對話成立度也可以丟棄很早以前的數(shù)據(jù)而使用適應(yīng)于最新狀況的時間常數(shù)來求。在求出7個方向的對話成立度Ut) (k:方向,k = 2,3,......,8)后,接著,在
步驟S160中,對話對方判定單元170判定哪個方向的激勵是用戶的對話對方。然后,對話對方判定單元170將判定結(jié)果輸出至輸出音控制單元180。作為對話對方的判定方法,從所有方向的CuU)中,將超過閾值θ且值最大的一方向的激勵作為對話對方。另外,作為對話對方的其他判定方法,例如可考慮以下的變形。 從所有方向的C1Jt)中,將超過閾值θ的方向的激勵都作為對話對方。·僅將前方(S3 S7等)作為探索對象,而不是所有方向?!ぴ诓排卸藢υ拰Ψ降那闆r下,僅將該方向及相鄰方向作為探索對象(由于在時間上說話人不會急速地進(jìn)行移動)。最后,在步驟S170中,輸出音控制單元180在判定為對話對方的方向上控制指向性,由此將輸入了的混合音加工為容易聽到后從耳機(jī)260輸出。在以上說明中,說明了識別參數(shù)提取單元150具有發(fā)言重疊持續(xù)長度分析單元 151及沈持續(xù)長度分析單元152的情況。另外,在本實(shí)施方式中,也可以僅具有發(fā)言重疊持續(xù)長度分析單元151及沈持續(xù)長度分析單元152中的任意一方。在該情況下,等價于在式 (3)中將發(fā)言重疊分析值Pc的權(quán)重wl或沉默分析值Ps的權(quán)重w2中的任意一方設(shè)為0。如上所述,在本實(shí)施方式中構(gòu)成為,識別參數(shù)提取單元150至少具有發(fā)言重疊持續(xù)長度分析單元151或沈持續(xù)長度分析單元152中的至少一者。發(fā)言重疊持續(xù)長度分析單元151使用語音區(qū)間信息,計算并分析發(fā)言重疊持續(xù)長度,沈持續(xù)長度分析單元152計算并分析沉默持續(xù)長度。并且,對話成立度計算單元160使用發(fā)言重疊持續(xù)長度及沉默持續(xù)長度中的至少一方,計算對話成立度。這樣,在本實(shí)施方式中,能夠利用如下的日常對話特征隨聲附和產(chǎn)生的發(fā)言重疊較短、在對方未完全說完時就開始發(fā)言的情況下的發(fā)言重疊較短、對話中的沉默較短等。因此,在本實(shí)施方式中,即使在非正式的日常對話中,也能準(zhǔn)確地求出對話成立度,因此能夠準(zhǔn)確地檢測對話的成立,從而能夠準(zhǔn)確地判定對話對方。另外,本發(fā)明人使用實(shí)際對5組日常對話錄音所得的語音數(shù)據(jù),進(jìn)行了對話對方檢測的模擬試驗(yàn)。在模擬試驗(yàn)中,使用麥克風(fēng)陣列拾取了 5組兩分鐘的日常對話,以SN比為5、10、 15、20dB的方式將在食堂中另外拾取了的喧囂的多人交談噪音(multi-talker noise)疊加于拾取了的語音數(shù)據(jù)。接著,在模擬試驗(yàn)中,對于各SN比,對每個說話人進(jìn)行了基于語音能量的語音檢測。然后,在模擬試驗(yàn)中,對于每個說話人的語音檢測結(jié)果,虛擬地生成5組對話對方的組合及40組非對話對方的組合,對于現(xiàn)有方法及本發(fā)明的方法,求出了對話對方正確率。這里,現(xiàn)有方法是專利文獻(xiàn)1公開的方法,使用時間常數(shù)來更新對話成立度。在現(xiàn)有方法中,使用式⑷求出了幀t中的對話成立度C1Jt)。這里,在幀t中,在音信號Sk為語音時,Vk (t) = 1,在音信號Sk為非語音時,Vk (t) =0。
Cuit) = S ■ cu{t -1) + (1- SiRl k(t) + Tl k(t) + (1- Dl k(t)) + (1- ^u(O)J …(4 -
1 )
Dljk(t) = α - Dljk(t-l) + (l-a) · V1 (t) · Vk(t)... (4-2) Rljk(t) = β · Rljk(t-1) + (1-^) · (I-V1W) · Vk(t)... (4-2)
V1 (t) · (I-Vk (t)).. . (4-2) (I-V1W) · (l"Vk (t)).. . (4-2)
I\,k(t) = y .T^a-D + d-y) Sljk(t) = δ · Sljk(t-l) + (l-5)其中,時間常數(shù)a = β = y = 0.99999、δ = 0.99995、ε = 0.999。另外,在本發(fā)明的方法中,使用利用了發(fā)言重疊分析及沉默分析的方法,以幀為單位求出發(fā)言重疊分析值及沉默分析值,更新對話成立度。另外,使用式C3)計算了幀t中的對話成立度Ut)這里,作為評價方法,在對話對方的組的情況下,如果超過閾值θ,則為正確,在非對話對方的組的情況下,如果低于閾值θ,則為正確。另外,將對話對方正確率定義為準(zhǔn)確地檢測對話對方的比例和準(zhǔn)確地丟棄非對話對方的比例的平均值。圖9表示基于現(xiàn)有方法及本發(fā)明的方法的對話對方正確率。由圖9可知,與現(xiàn)有方法相比,在使用發(fā)言重疊及沉默的平均持續(xù)長度的分析值來求出對話成立度的本發(fā)明的方法中,無論在哪個SN比電平下,都能得到相當(dāng)高的對話對方檢測性能。因此,確認(rèn)到本發(fā)明是有效的。另外,在以上的說明中,說明了激勵分離單元130在不同方向分離音信號的情況。另外,激勵分離單元130也可以使用獨(dú)立成分分析(ICA :Ind印endent Component Analysis)等其他激勵分離方法來分離音信號。另外,激勵分離單元130也可以在不同方向僅求出每個頻帶的能量大小,根據(jù)不同方向的能量進(jìn)行語音檢測,進(jìn)行同樣的動作。另外,本實(shí)施方式也可以設(shè)置識別說話人的說話人識別部,當(dāng)在相同方向存在多個說話人時,能夠?qū)⒚總€說話人分離。(實(shí)施方式2)在本實(shí)施方式中,著眼于笑聲的重疊,計算對話成立度。在說明本實(shí)施方式的具體的結(jié)構(gòu)及動作之前,首先,說明本發(fā)明人著眼于笑聲的重疊的情況。在日常的非正式對話中,伴隨有笑聲而進(jìn)行交談的情況較多。笑聲是有音的。因此,在現(xiàn)有技術(shù)的根據(jù)能量進(jìn)行有音判定僅通過有音/無音的組合來求出對話成立度的方法中,在同時出現(xiàn)笑聲時,對話成立度降低。因此,在現(xiàn)有方法中,具有難以準(zhǔn)確地區(qū)分對話對方與非對話對方的問題。本實(shí)施方式解決上述問題。本發(fā)明人為了分析實(shí)際的日常對話中的笑聲出現(xiàn)時機(jī),根據(jù)拾取了日常對話的9 組對話數(shù)據(jù),確認(rèn)了笑聲/發(fā)言/無音(既不是發(fā)言也不是笑聲的沉默區(qū)間)在時間上以何種程度重疊。對每個說話人拾取該對話數(shù)據(jù),通過試聽,賦予了笑聲/發(fā)言/無音的發(fā)言區(qū)間的標(biāo)簽。圖10表示對話對方的發(fā)言/笑聲/無音的重疊持續(xù)長度合計(msec),圖11表示非對話對方的發(fā)言/笑聲/無音的重疊持續(xù)長度合計(msec)。對它們進(jìn)行比較可知對話對方的笑聲的重疊比非對話對方多。圖12表示根據(jù)這些數(shù)據(jù)、對于發(fā)言/笑聲/無音的重疊的組合、計算其為對話對方的比例而得到的結(jié)果。由圖12可知,在笑聲重疊的情況下,其為對話對方的比例非常高, 達(dá)到92.觀%,遠(yuǎn)遠(yuǎn)高于一方發(fā)言、另一方無音時為對話對方的比例(62. 23%,57. 48% )0 因此,可以說笑聲的重疊是表示日常對話的特征量,判定是否為對話對方的重要參數(shù)。因此,在本實(shí)施方式中,除了僅有音/無音的組合以外,還著眼于笑聲的重疊來計算對話成立度。作為對話成立度的評價方法,例如使用在笑聲重疊的情況下對于對話成立度進(jìn)行加分等方法。與一方的說話人發(fā)言、另一方的說話人無音的情況相比,使加分的權(quán)重相同或增大。另外,由圖12可知,在當(dāng)一方的說話人笑時而另一方的說話人發(fā)言的情況下,其為對話對方的比例較低,為40%左右。另外,還可知,在當(dāng)一方的說話人笑時而另一方的說話人無音的情況下,其為對話對方的比例為50%左右,無助于對話成立度的識別。由此,在當(dāng)一方的說話人笑時而另一方的說話人發(fā)言或無音的情況下,進(jìn)行小的減分或不進(jìn)行加分和減分。這樣,通過著眼于笑聲的重疊來進(jìn)行評價,能夠準(zhǔn)確地求出對話成立度。以下說明本實(shí)施方式的信號處理裝置的內(nèi)部結(jié)構(gòu)。本實(shí)施方式為與實(shí)施方式1同樣地將本發(fā)明應(yīng)用于遙控型助聽器中的例子。遙控型助聽器的形狀與圖5相同,所以省略說明。圖13是表示本實(shí)施方式的信號處理裝置300的主要部分的結(jié)構(gòu)的方框圖。此外, 在圖13的信號處理裝置300中,對與圖4的信號處理裝置100相同的結(jié)構(gòu)部分附加與圖4 相同的標(biāo)號,并省略說明。圖13的信號處理裝置300相對于圖4的信號處理裝置100,具有識別參數(shù)提取單元310及對話成立度計算單元320,以代替識別參數(shù)提取單元150及對話成立度計算單元160。識別參數(shù)提取單元310具有笑聲檢測單元311。笑聲檢測單元311判定由激勵分離單元130分離的音信號是否是笑聲。另外,根據(jù)音信號檢測笑聲的方法使用公知技術(shù)。作為公知技術(shù),例如以往具有以下的方法。例如,在專利文獻(xiàn)2中,將語音能量超過規(guī)定閾值的區(qū)間判定為語音區(qū)間,以幀為單位,求出rms振幅值。接著,專利文獻(xiàn)2公開了如下方法提取其平均值超過規(guī)定閾值的區(qū)間,通過語音識別,將“哈哈”或“哈哈哈”那樣相同的母音間斷地連續(xù)的區(qū)間判定為笑聲區(qū)間。
另外,專利文獻(xiàn)3公開了如下方法求出母音的頻帶信號的包絡(luò)線,在該包絡(luò)線的振幅峰值為一定值以上時,判斷該振幅峰值的周期是否在一定范圍內(nèi)。另外,非專利文獻(xiàn)1公開了如下方法通過GMM(Gaussian Mixture Model,高斯混合模型)對笑聲進(jìn)行建模,以幀為單位,識別笑聲和非笑聲。以下,說明與非專利文獻(xiàn)1同樣地使用將預(yù)先學(xué)習(xí)的笑聲GMM與非笑聲GMM對照而進(jìn)行檢測的方法作為笑聲檢測方法的情況。對話成立度計算單元320使用笑聲檢測單元311得到的笑聲區(qū)間信息、及語音檢測單元140得到的語音區(qū)間信息,計算對話成立度。關(guān)于對話成立度計算單元320中的對話成立度計算方法,在后面進(jìn)行敘述。圖14是表示安裝有本實(shí)施方式的信號處理裝置300的助聽器200的動作的流程圖。使用圖14的流程圖,說明助聽器200的動作。并且,在圖14中,對與圖7共用的步驟附加與圖7相同的符號并省略其說明。在步驟S110、S120、S130中,與實(shí)施方式1相同,分別進(jìn)行拾音及A/D轉(zhuǎn)換、分離、
語音檢測。在步驟S130之后,在步驟S210中,笑聲檢測單元311對于音信號Sk進(jìn)行笑聲/非笑聲判定。首先,笑聲檢測單元311在幀t中將幀t的特征參數(shù)矢量與預(yù)先學(xué)習(xí)的笑聲GMM 及非笑聲GMM進(jìn)行對照,求出笑聲似然及非笑聲似然。特征參數(shù)矢量是由以幀為單位進(jìn)行音響分析而得到的MFCC12維(Cl C12)、其一元線性回歸系數(shù)12維(ACl AC12)、對數(shù)能量的一元線性回歸系數(shù)1維(ΔΕ)的合計25維構(gòu)成的矢量。另外,MFCC(Mel Filter Cepstral Coefficient)表示Mel濾波器組倒譜系數(shù)。并且,笑聲檢測單元311分別累積過去N幀(例如、N =50)的笑聲似然及非笑聲似然,將蓄積結(jié)果較大的一方作為判定結(jié)果。 通過笑聲檢測單元311累積N幀的似然,進(jìn)行判定,從而可提高識別性能。在步驟S220中,對話成立度計算單元320對于前方的音信號Sl與除了前方以外
的7個方向的音信號(1^方向,1^ = 2,3,......,8)的各個組合,計算音信號Sl與音信號
Sk的對話成立度。圖15是表示基于發(fā)言/笑聲/無音的組合的對話成立度計算方法的思路的表。Sl 表示存在用戶的聲音的方向1的音信號,Sk表示方向k(k = 2,3,......,8)的音信號。這里,“發(fā)言”、“無音”及“笑聲”定義如下。“發(fā)言”語音檢測結(jié)果為語音且笑聲檢測結(jié)果為非笑聲的幀“無音”語音檢測結(jié)果為非語音且笑聲檢測結(jié)果為非笑聲的幀“笑聲”與語音檢測結(jié)果無關(guān),笑聲檢測結(jié)果為笑聲的幀在本實(shí)施方式中,對話成立度計算單元320例如使用式( 計算幀t中的對話成立度CuU)。Clj k(t) = SCljk(t)/t. . . (5)t=0時SClj k(t) = 0t>0時SC1,k(t) = SClik(t-1)-K11 (在幀 t 中 Sl 為發(fā)言、Sk 為發(fā)言時)= 3(1,1^-1)-1(12(在幀{中Sl為發(fā)言、Sk為笑聲時)
= SCuk(t-D+u (在幀t中Sl為發(fā)言、Sk為無音時)
= SCukα-ι)-κ12 (在幀t中Sl為笑聲、Sk為發(fā)言時)
= SCuk(t-D+Kd 在幀t中Sl為笑聲、Sk為笑聲時)
= SCuk(t-D (在幀t中Sl為笑聲、Sk為無音時)
= SCuk(t-D+u (在幀t中Sl為無音、Sk為發(fā)言時)
= SCuk(t-i)(在幀t中Sl為無音、Sk為笑聲時)
= SCuk(t-l)-Kltl (在幀t中Sl為無音、Sk為無音時)其中,0彡 K12 彡 K11 彡 K22,0 彡 K00。另外,在幀t中,對于所有方向的激勵,在無音持續(xù)了一定時間的時刻,進(jìn)行初始化。另外,對話成立度也可以丟棄很早以前的數(shù)據(jù)而使用適應(yīng)于最新狀況的時間常數(shù)來求取。并且,對話成立度計算單元320將計算出的對話成立度輸出至對話對方判定單元 170。以后,與實(shí)施方式1相同,在步驟S160中,對話對方判定單元170判定對話對方。另外,在步驟S170中,輸出控制單元180控制輸出音。如上所述,在本實(shí)施方式中,采用識別參數(shù)提取單元310具有笑聲檢測單元311的結(jié)構(gòu)。笑聲檢測單元311檢測笑聲,對話成立判定單元320評價著眼于笑聲的重疊的對話成立度。由此,在本實(shí)施方式中,能夠準(zhǔn)確地求出對話成立度,因此能夠準(zhǔn)確地檢測對話的成立,從而能夠準(zhǔn)確地判定對話對方。另外,在以上的說明中,將語音檢測單元140與笑聲檢測單元311作為不同結(jié)構(gòu)進(jìn)行了說明,但是,也可以設(shè)置將輸入信號劃分為發(fā)言/笑聲/無音這三個的語音笑聲檢測單兀。(實(shí)施方式3)在本實(shí)施方式中,著眼于說話人的發(fā)言比率,計算對話成立度。在說明本實(shí)施方式的具體的結(jié)構(gòu)及動作之前,首先說明本發(fā)明人著眼于說話人的發(fā)言比率的情況。在現(xiàn)有技術(shù)中,如果一方的說話人是有音、另一方的說話人是無音,則對于對話成立度進(jìn)行加分,因此在一方的說話人的聲音一直存在的情況下,也會視為對話成立。在會議等進(jìn)行對話的場合下,在找到對話對方時,也可以使用現(xiàn)有的方法。但是,在像助聽器那樣由用戶始終隨身佩帶著可佩帶式麥克風(fēng)的狀況下,用戶的自言自語、并非與自己說話的別人的聲音往往會一直輸入到麥克風(fēng)中,缺乏實(shí)用性。本實(shí)施方式解決上述問題。在本實(shí)施方式中,檢測自己或?qū)Ψ街械哪囊环皆趩为?dú)說話的情況,在檢測到“單方地說話”的情況下,降低對話成立度。并且,作為檢測“單方地說話”的方法,在本實(shí)施方式中,求出自己與對話對方的發(fā)言區(qū)間比,將該發(fā)言區(qū)間比極端失衡的情況判斷為“單方地說話”。這里,通過下式(6)來定義音信號Sl與音信號Sk(k:方向,k = 2,3,......,8)的
發(fā)言區(qū)間比Rb1,k。發(fā)言區(qū)間比Rblik =(過去N秒中的Sl的發(fā)言區(qū)間的持續(xù)長度和)/(過去N秒中的Sl的發(fā)言區(qū)間的持續(xù)長度和+過去N秒中的Sk的發(fā)言區(qū)間的持續(xù)長度和)(6)本發(fā)明人為了分析在實(shí)際的日常對話中以何種程度出現(xiàn)一個說話人持續(xù)說話的
16單方地說話,根據(jù)拾取日常對話而得到的9組對話數(shù)據(jù),改變時間窗口的長度(時間窗口長度),求出了上述發(fā)言區(qū)間比。圖16是表示某一組的對話的每個時間窗口長度的發(fā)言區(qū)間比Rb的推移的例子的曲線圖。橫軸表示從對話開始時起的經(jīng)過時間,縱軸表示發(fā)言區(qū)間比。時間窗口長度N分別表示5秒、10秒、20秒、30秒。其結(jié)果,本發(fā)明人著眼于如下情況在以N= 10秒左右的時間窗口來看時,兩個說話人間的發(fā)言區(qū)間比隨著時間經(jīng)過而變化,但是無論對于哪個對話, 發(fā)言區(qū)間比都大致收斂于10% 90%的范圍內(nèi)。因此,在本實(shí)施方式中,根據(jù)過去N秒的發(fā)言區(qū)間比的值,對于對話成立度乘以小于1的權(quán)重,由此抑制“單方地說話”。以下說明本實(shí)施方式的信號處理裝置的內(nèi)部結(jié)構(gòu)。本實(shí)施方式為與實(shí)施方式1同樣地將本發(fā)明應(yīng)用于遙控型助聽器中的例子。遙控型助聽器的形狀與圖5相同,所以省略說明。圖17是表示本實(shí)施方式的信號處理裝置400的主要部分的結(jié)構(gòu)的方框圖。此外, 在圖17的信號處理裝置400中,對與圖4的信號處理裝置100相同的結(jié)構(gòu)部分附加與圖4 相同的標(biāo)號,并省略說明。圖17的信號處理裝置400相對于圖4的信號處理裝置100而言, 具有識別參數(shù)提取單元410及對話成立度計算單元420,以代替識別參數(shù)提取單元150及對話成立度計算單元160。 識別參數(shù)提取單元410具有發(fā)言比率計算單元411。發(fā)言比率計算單元411根據(jù)在語音檢測單元140中計算出的語音區(qū)間信息,計算發(fā)言區(qū)間比率,作為發(fā)言比率信息。對話成立度計算單元420根據(jù)在語音檢測單元140中計算出的語音區(qū)間信息、以及在發(fā)言比率計算單元411中計算出的發(fā)言區(qū)間比率,求出對話成立度。關(guān)于對話成立度計算單元420中的對話成立度計算方法,在后面進(jìn)行敘述。圖18是表示安裝有本實(shí)施方式的信號處理裝置400的助聽器200的動作的流程圖。使用圖18的流程圖,說明助聽器200的動作。并且,在圖18中,對與圖7共用的步驟附加與圖7相同的符號并省略其說明。在步驟S110、S120、S130中,與實(shí)施方式1相同,分別進(jìn)行拾音及A/D轉(zhuǎn)換、分離、
語音檢測。在本實(shí)施方式中,與實(shí)施方式1同樣,語音檢測單元140將判定為語音的區(qū)間定義為發(fā)言區(qū)間。接著,對于前方的音信號Sl與除了前方以外的7個方向的音信號Sk(方向k = 2, 3,......,8)的各個組合,進(jìn)行步驟S310及步驟S320的處理。在步驟S310中,發(fā)言比率計算單元411求出從幀t起過去N秒(N = 10)的區(qū)間內(nèi)的音信號Sl與音信號Sk的發(fā)言區(qū)間比Rb1,k,并輸出到對話成立度計算單元420。接著,在步驟S320中,對話成立度計算單元420計算音信號Sl與音信號Sk的對話成立度。在本實(shí)施方式中,對話成立度計算單元420例如按照式(7)求出幀t中的對話成立度C1Jt)。Cljk(t) = SCljk(t)/tXw(Rbljk). . . (7)w(Rbljk) = IORbljk(Rbljk < 0. 1)
=1 (0. 1 彡 Rbljk <0. 9)
=IO-IORbljk (Rbljk ^ 0. 9)
t = 0時
SC1Jt)=0
t > 0時
SC1Jt)=scua-i)-K11 (在幀t中Sl為發(fā)言、1為發(fā)言時)
=SC1^a-I)-Kcitl (在幀 t 中 Sl 為無ιIdk為無音時)
=SC1^a-I)+Ktll (在幀t中Sl為發(fā)言、Sk為無音時)
=SC1^a-I)+Ktll (在幀 t 中 Sl 為無IIdk為發(fā)言時)其中,0彡 K。。,0 彡 K01,0 彡 Kn。這樣,在本實(shí)施方式中,在發(fā)言區(qū)間比失衡至小于10%或90%以上時,通過乘以小于1的權(quán)重,能夠抑制“單方地說話”。另外,此次是如上述那樣設(shè)計了 N = 10,權(quán)重w(Rb1, k),但不限于此。并且,對話成立度計算單元420將計算出的對話成立度輸出至對話對方判定單元 170。以后,與實(shí)施方式1相同,在步驟S160中,對話對方判定單元170判定對話對方。另外,在步驟S170中,輸出控制單元180控制輸出音。如上所述,在本實(shí)施方式中,采用識別參數(shù)提取單元410具有發(fā)言比率計算單元 411的結(jié)構(gòu)。發(fā)言比率計算單元411根據(jù)語音區(qū)間信息,計算發(fā)言區(qū)間比率,作為發(fā)言比率信息,對話成立度計算單元420使用語音區(qū)間信息及發(fā)言比率信息,計算對話成立度。具體而言,發(fā)言比率計算單元411在自己與對方的發(fā)言區(qū)間比極端失衡的情況下以使對話成立度降低的方式設(shè)定發(fā)言區(qū)間比Rbu。接著,對話成立度計算單元420使用該發(fā)言區(qū)間比Rb1, k,計算對話成立度。由此,在像助聽器那樣日常佩帶的設(shè)備中,不會出現(xiàn)因佩帶人自己的自言自語、佩帶人自己未對話時的別人的聲音等導(dǎo)致的誤動作,能夠準(zhǔn)確地檢測對話的成立, 從而能夠準(zhǔn)確地判定對話對方。(實(shí)施方式4)在本實(shí)施方式中,著眼于發(fā)言的重疊或沉默的持續(xù)長度、笑聲的重疊、及說話人的發(fā)言比率,計算對話成立度。以下說明本實(shí)施方式的信號處理裝置的內(nèi)部結(jié)構(gòu)。本實(shí)施方式為與實(shí)施方式1同樣地將本發(fā)明應(yīng)用于遙控型助聽器的例子。遙控型助聽器的形狀與圖5相同,所以省略說明。圖19是表示本實(shí)施方式的信號處理裝置500的主要部分的結(jié)構(gòu)的方框圖。另外, 在圖19的信號處理裝置500中,對與圖4、圖13及圖17的信號處理裝置100、300、400相同的結(jié)構(gòu)部分附加與這些圖相同的標(biāo)號,并省略說明。圖19的信號處理裝置100相對于圖4 的信號處理裝置100而言,具有識別參數(shù)提取單元510及對話成立度計算單元520,以代替識別參數(shù)提取單元150及對話成立度計算單元160。識別參數(shù)提取單元510具有發(fā)言重疊持續(xù)長度分析單元511、沉默持續(xù)長度分析單元512、笑聲檢測單元311及發(fā)言比率計算單元513。另外,在本實(shí)施方式中,由笑聲檢測單元311得到的笑聲區(qū)間信息也被輸入到發(fā)言重疊持續(xù)長度分析單元511、沉默持續(xù)長度分析單元512及發(fā)言比率計算單元513。并且,在發(fā)言重疊持續(xù)長度分析單元511、沉默持續(xù)長度分析單元512及發(fā)言比率計算單元513 中,笑聲區(qū)間信息與來自語音檢測單元140的語音區(qū)間信息一起用于發(fā)言重疊持續(xù)長度分析、沉默持續(xù)長度分析及發(fā)言比率計算。本實(shí)施方式的這一點(diǎn)與實(shí)施方式1及實(shí)施方式3 的發(fā)言重疊持續(xù)長度分析單元151、沉默持續(xù)長度分析單元152及發(fā)言比率計算單元411不同。圖20是表示安裝有本實(shí)施方式的信號處理裝置500的助聽器200的動作的流程圖。使用圖20的流程圖,說明助聽器200的動作。并且,在圖20中,對與圖14共用的步驟附加與圖14相同的符號并省略其說明。在步驟S110、S120、S130、S210中,與實(shí)施方式2同樣,分別進(jìn)行拾音及A/D轉(zhuǎn)換、
分離、語音檢測、笑聲/非笑聲判定。接著,對于前方的音信號Sl與除了前方以外的7個方向的音信號Sk(方向k = 2, 3,......,8)的各個組合,進(jìn)行步驟S410、S420、S430的處理。這里,在本實(shí)施方式中,與實(shí)施方式2同樣,將“發(fā)言”、“無音”及“笑聲”定義如下。“發(fā)言”語音檢測結(jié)果為語音且笑聲檢測結(jié)果為非笑聲的幀“無音”語音檢測結(jié)果為非語音且笑聲檢測結(jié)果為非笑聲的幀“笑聲”與語音檢測結(jié)果無關(guān),笑聲檢測結(jié)果為笑聲的幀基于該發(fā)言/笑聲/無音的分類,在步驟S410中,發(fā)言重疊持續(xù)長度分析單元511 求出不包含音信號Si和音信號Sk的笑聲的發(fā)言區(qū)間的重疊的持續(xù)長度,進(jìn)行分析。另外, 沉默持續(xù)長度分析單元512基于該發(fā)言/笑聲/無音的分類,求出不包含笑聲的沉默區(qū)間的持續(xù)長度,進(jìn)行分析。接著,在步驟S420中,發(fā)言比率計算單元513計算不包含音信號Sl和音信號Sk 的笑聲的發(fā)言區(qū)間的比率。接著,在步驟S430中,對話成立度計算單元520計算音信號Sl與音信號Sk的對話成立度。在本實(shí)施方式中,對話成立度計算單元520例如按照式(8)求出幀t中的對話
成立度Ci,k(t)o
C1^a)={SCljk(t)/t+wl · Pc (t) +w2 · Ps (t)} Xw(Rbljk). . . (8)
W(Rblik)==IORbljk (Rbljk < 0. 1)
=1 (0· 1 彡 Rbljk < 0. 9)
=I-IORbljk (Rbljk ^ 0. 9)
t = 0時
SC1Jt)=0
t > 0時
SC1Jt)=SUt-l)-K11 (在幀t中Sl為發(fā)言、Sk為發(fā)言時)
=SC1Jt-I)-K12 (在幀t中Sl為發(fā)言、Sk為笑聲時)
=SCljk (t-1) +K01 (在幀t中Sl為發(fā)言、Sk為無音時)
=SClik (t-1)-K12 (在幀t中Sl為笑聲、Sk為發(fā)言時)
= SCua--1) +K22 (在幀t中Sl為笑聲、Sk為笑聲時)
=SCljk(t-l)(在幀t中Sl為笑聲、Sk為無音時)
= SCua--1) +K01 (在幀t中Sl為無音、Sk為發(fā)言時)
= SCljk(t-l)(在幀t中Sl為無音、Sk為笑聲時)= SC1, Jt-D-K1。(在幀t中Sl為無音、Sk為無音時)其中,0彡 K12 彡 K11 彡 K22,0 彡 K00。并且,對話成立度計算單元520將計算出的對話成立度輸出到對話對方判定單元 170。以后,與實(shí)施方式1同樣,在步驟S160中,對話對方判定單元170判定對話對方。另外,在步驟S170中,輸出控制單元180控制輸出音。如上所述,采用識別參數(shù)提取單元510具有發(fā)言重疊持續(xù)長度分析單元511、沉默持續(xù)長度分析單元512、及笑聲檢測單元311的結(jié)構(gòu)。對話成立度計算單元520使用發(fā)言重疊持續(xù)長度、沉默持續(xù)長度、表示笑聲區(qū)間的笑聲區(qū)間信息、或表示發(fā)言區(qū)間長度比率的發(fā)言比率信息,計算對話成立度。因此,本實(shí)施方式能夠?qū)萌粘υ捤赜械拇當(dāng)_或笑聲出現(xiàn)的特征的對話成立度進(jìn)行評價,即使在非正式的日常對話中,也能準(zhǔn)確地求出對話成立度。由此,在本實(shí)施方式中,能夠準(zhǔn)確地檢測對話的成立,從而能夠準(zhǔn)確地判定對話對方。特別是,在本實(shí)施方式中,發(fā)言重疊持續(xù)長度分析單元511及沉默持續(xù)長度分析單元512考慮笑聲區(qū)間信息,計算發(fā)言重疊持續(xù)長度及沉默持續(xù)長度。由此,本實(shí)施方式能夠準(zhǔn)確地提取不包含笑聲的發(fā)言區(qū)間,因此,能夠準(zhǔn)確地求出發(fā)言重疊及沉默的區(qū)間的持續(xù)長度,從而能夠更準(zhǔn)確地求出對話成立度。另外,本實(shí)施方式通過在識別參數(shù)提取單元510中設(shè)置發(fā)言比率計算單元513,能夠抑制“單方地說話”。由此,在像助聽器那樣日常佩帶的設(shè)備中,不會出現(xiàn)因佩帶人自己的自言自語、佩帶人自己未對話時的別人的聲音等導(dǎo)致的誤動作。在實(shí)施方式1至實(shí)施方式4中,假定將本發(fā)明應(yīng)用于遙控型助聽器中的情況進(jìn)行了說明,但是也能將本發(fā)明應(yīng)用于使用耳掛型或耳塞型等可佩帶型麥克風(fēng)的助聽器中。在可佩帶型麥克風(fēng)中,與遙控型助聽器不同,很難通過使麥克風(fēng)陣列的規(guī)定方向朝向用戶來對用戶的聲音進(jìn)行分離拾音。因此,本發(fā)明能夠應(yīng)用于專利文獻(xiàn)4公開的在助聽器中附加骨傳導(dǎo)麥克風(fēng)來檢測自身發(fā)言引起的頭蓋骨振動、由此檢測用戶的聲音的方法中?;蛘撸軌蛲ㄟ^將本發(fā)明應(yīng)用于安裝頭帶式麥克風(fēng)來檢測嘴邊的語音的方法等中,檢測自身發(fā)言。 另外,本實(shí)施方式也可以不設(shè)置激勵分離單元,而是按照每個短時間,僅判定是否存在用戶的自身發(fā)言及除此以外的音是否為語音求出用戶和其他說話人的對話成立度。另外,作為面向其他用途的應(yīng)用,可將本發(fā)明應(yīng)用于錄音機(jī)、數(shù)字照相機(jī)、攝像機(jī)、 電話會議系統(tǒng)等中。在錄音機(jī)、數(shù)字照相機(jī)、攝像機(jī)等數(shù)字記錄設(shè)備中,能夠抑制希望記錄的對話以外的別人的對話等干擾音,來進(jìn)行記錄。或者,本發(fā)明也可以記錄基于麥克風(fēng)陣列的所有輸入聲音,然后提取對話成立度高的組合的對話,對希望的對話進(jìn)行重放。另外,在電話會議系統(tǒng)中,當(dāng)僅在一方的位置的附近有進(jìn)行其他會議等的干擾音時,提取從另一方的安靜位置發(fā)送來的對話對方的聲音,抑制除此以外的聲音,由此能夠順暢地進(jìn)行會議。另外,當(dāng)在兩個位置都具有干擾音的情況下,例如檢測輸入到麥克風(fēng)中的最大聲音,找到其對話對方,抑制除此以外的聲音,由此能夠得到同樣的效果。在2010年2月25日提交的特愿第2010-039698號的日本專利申請所包含的說明書、附圖和說明書摘要的公開內(nèi)容,全部引用于本申請。工業(yè)實(shí)用性本發(fā)明的信號處理裝置及信號處理方法作為助聽器、或錄音機(jī)、數(shù)碼照相機(jī)、攝像
20機(jī)、電話會議系統(tǒng)等各種領(lǐng)域中的信號處理裝置是有用的。
權(quán)利要求
1.信號處理裝置,包括分離單元,將混入了多個激勵的混合音信號分離為各個激勵;語音檢測單元,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息;使用所述語音區(qū)間信息來計算并分析發(fā)言重疊持續(xù)長度的發(fā)言重疊持續(xù)長度提取單元和計算并分析所述沉默持續(xù)長度的沉默持續(xù)長度提取單元中的至少一個單元;以及對話成立度計算單元,基于提取出的所述發(fā)言重疊持續(xù)長度或所述沉默持續(xù)長度,計算表示對話成立的程度的對話成立度。
2.信號處理裝置,在權(quán)利要求1所述的信號處理裝置中,替代所述發(fā)言重疊持續(xù)長度提取單元或所述沉默持續(xù)長度提取單元而具備笑聲檢測單元,所述笑聲檢測單元對所述分離出的多個激勵信號的各個激勵信號進(jìn)行笑聲檢測并提取笑聲區(qū)間信息作為所述識別參數(shù),所述對話成立度計算單元對于所述多個激勵信號的組合,使用所述語音區(qū)間信息及所述笑聲區(qū)間信息,計算所述對話成立度。
3.信號處理裝置,在權(quán)利要求1所述的信號處理裝置中,替代所述發(fā)言重疊持續(xù)長度提取單元或所述沉默持續(xù)長度提取單元而具備發(fā)言比率計算單元,所述發(fā)言比率計算單元對于所述多個激勵信號的組合提取發(fā)言比率信息作為所述識別參數(shù),所述對話成立度計算單元使用所述語音區(qū)間信息及所述發(fā)言比率信息,計算所述對話成立度。
4.如權(quán)利要求1所述的信號處理裝置,所述提取單元在所述發(fā)言重疊持續(xù)長度分析單元及所述沉默持續(xù)長度分析單元中的至少一個單元中提取所述發(fā)言重疊持續(xù)長度或所述沉默的持續(xù)長度的長短的比例,作為所述識別參數(shù)。
5.如權(quán)利要求1所述的信號處理裝置,所述提取單元在所述發(fā)言重疊持續(xù)長度分析單元及所述沉默持續(xù)長度分析單元中的至少一個單元中,提取所述發(fā)言重疊持續(xù)長度或所述沉默的持續(xù)長度的平均值,作為所述識別參數(shù)。
6.如權(quán)利要求2所述的信號處理裝置,所述對話成立度計算單元在所述多個激勵信號中同時檢測到笑聲的情況下,提高所述對話成立度。
7.如權(quán)利要求2所述的信號處理裝置,所述對話成立度計算單元在所述多個激勵信號中,在第一激勵信號檢測到笑聲,在第二激勵信號未檢測到笑聲的情況下,不改變所述第一激勵信號和所述第二激勵信號的所述對話成立度,或者降低所述對話成立度。
8.如權(quán)利要求3所述的信號處理裝置,所述發(fā)言比率計算單元將所述多個激勵信號中的、過去一定時間窗口內(nèi)的第一激勵信號和第二激勵信號的發(fā)言區(qū)間比作為所述發(fā)言比率信息。
9.信號處理裝置,包括分離單元,將混入了多個激勵的混合音信號分離為各個激勵;語音檢測單元,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息;提取單元,基于所述多個激勵信號或所述語音區(qū)間信息,提取表示日常對話的特征量的識別參數(shù);以及對話成立度計算單元,基于提取出的所述識別參數(shù),計算表示對話成立的程度的對話成立度,所述提取單元包括笑聲檢測單元,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行笑聲檢測,提取笑聲區(qū)間信息;對于所述多個激勵信號的組合,使用所述語音區(qū)間信息及所述笑聲區(qū)間信息來計算并分析用于表示發(fā)言重疊的連續(xù)區(qū)間的長度的發(fā)言重疊持續(xù)長度的發(fā)言重疊持續(xù)長度分析單元和計算并分析用于表示沉默的連續(xù)區(qū)間的長度的沉默持續(xù)長度的沉默持續(xù)長度分析單元中的至少一個單元;以及發(fā)言比率計算單元,對于所述多個激勵信號的組合,提取發(fā)言比率信息,提取所述發(fā)言重疊持續(xù)長度、所述沉默持續(xù)長度、所述笑聲區(qū)間信息、或所述發(fā)言比率信息作為所述識別參數(shù)。
10.信號處理裝置,包括麥克風(fēng)陣列,配置有多個麥克風(fēng);A/D轉(zhuǎn)換單元,將從所述麥克風(fēng)陣列輸入了的模擬區(qū)域的混合音信號轉(zhuǎn)換成數(shù)字區(qū)域的信號;如權(quán)利要求1所述的信號處理裝置,將數(shù)字區(qū)域的所述混合音信號作為輸入;以及輸出音控制單元,根據(jù)所述對話成立度,對數(shù)字區(qū)域的所述混合音信號進(jìn)行加工并輸出ο
11.如權(quán)利要求10所述的信號處理裝置,所述輸出音控制單元通過指向性控制對數(shù)字區(qū)域的所述混合音信號進(jìn)行加工并輸出。
12.助聽器,包括麥克風(fēng)陣列,配置有多個麥克風(fēng);A/D轉(zhuǎn)換單元,將從所述麥克風(fēng)陣列輸入了的模擬區(qū)域的混合音信號轉(zhuǎn)換成數(shù)字區(qū)域的信號;分離單元,將所述轉(zhuǎn)換后的數(shù)字區(qū)域的所述混合音信號分離為各個激勵;語音檢測單元,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判定所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息;對于所述多個激勵信號的組合,使用所述語音區(qū)間信息計算并分析發(fā)言重疊持續(xù)長度的發(fā)言重疊持續(xù)長度提取單元和計算并分析所述沉默持續(xù)長度的沉默持續(xù)長度提取單元中的至少一個單元;對話成立度計算單元,基于提取出的所述發(fā)言重疊持續(xù)長度或所述沉默持續(xù)長度,計算表示對話成立的程度的對話成立度;以及輸出音控制單元,根據(jù)所述對話成立度,對數(shù)字區(qū)域的所述混合音信號進(jìn)行加工并輸出ο
13.記錄介質(zhì),記錄下述步驟將混入了多個激勵的混合音信號分離為各個激勵的步驟;對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息的步驟;對于所述多個激勵信號的組合,使用所述語音區(qū)間信息來計算并分析發(fā)言重疊持續(xù)長度的步驟和計算并分析所述沉默持續(xù)長度的步驟中的至少一個步驟;以及基于提取出的所述發(fā)言重疊持續(xù)長度或所述沉默持續(xù)長度,計算表示對話成立的程度的對話成立度的步驟。
14.信號處理方法,包括分離步驟,將混入了多個激勵的混合音信號分離為各個激勵; 語音檢測步驟,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷所述多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息;對于所述多個激勵信號的組合,使用所述語音區(qū)間信息來計算并分析發(fā)言重疊持續(xù)長度的步驟和計算并分析所述沉默持續(xù)長度的步驟中的至少一個步驟;以及計算步驟,基于提取出的所述發(fā)言重疊持續(xù)長度或所述沉默持續(xù)長度,計算表示對話成立的程度的對話成立度。
15.如權(quán)利要求14所述的信號處理方法,所述提取步驟包括笑聲檢測步驟,對所述分離出的多個激勵信號的各個激勵信號進(jìn)行笑聲檢測,提取笑聲區(qū)間信息;對于所述多個激勵信號的組合,使用所述語音區(qū)間信息及所述笑聲區(qū)間信息來計算并分析用于表示發(fā)言重疊的連續(xù)區(qū)間的長度的發(fā)言重疊持續(xù)長度的發(fā)言重疊持續(xù)長度分析步驟和計算并分析用于表示沉默的連續(xù)區(qū)間的長度的沉默持續(xù)長度的沉默持續(xù)長度分析步驟中的至少一個步驟;以及發(fā)言比率計算步驟,對于所述多個激勵信號的組合,提取發(fā)言比率信息, 提取所述發(fā)言重疊持續(xù)長度、所述沉默持續(xù)長度、所述笑聲區(qū)間信息、或所述發(fā)言比率信息作為所述識別參數(shù)。
全文摘要
本發(fā)明提供了即使在日常的環(huán)境下也能準(zhǔn)確地檢測對話的成立的信號處理裝置及信號處理方法。在信號處理裝置(100)中,激勵分離單元(130)將混入了多個激勵的混合音信號分離為各個激勵。語音檢測單元(140)對分離出的多個激勵信號的各個激勵信號進(jìn)行語音檢測,判斷多個激勵信號是否為語音,對每個激勵信號生成表示語音/非語音信息的語音區(qū)間信息。識別參數(shù)提取單元(150)基于多個激勵信號或語音區(qū)間信息,提取表示日常對話特征量的識別參數(shù)。對話成立度計算單元(160)基于提取出的所述識別參數(shù),計算并輸出對話成立度。對話對方判定單元(170)使用對話成立度,判定哪個激勵是對話對方。
文檔編號G10L15/10GK102388416SQ20118000170
公開日2012年3月21日 申請日期2011年1月24日 優(yōu)先權(quán)日2010年2月25日
發(fā)明者山田麻紀(jì), 水島考一郎, 遠(yuǎn)藤充 申請人:松下電器產(chǎn)業(yè)株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
吴桥县| 金塔县| 锡林浩特市| 水富县| 胶南市| 仲巴县| 富裕县| 潞西市| 广南县| 洪洞县| 阿瓦提县| 芷江| 涟水县| 烟台市| 威远县| 林西县| 舟曲县| 亳州市| 泸西县| 临沭县| 浙江省| 宝山区| 丰县| 会同县| 章丘市| 乌鲁木齐县| 康保县| 阿坝县| 龙南县| 黔西县| 黄大仙区| 宁化县| 出国| 万荣县| 马公市| 雷州市| 芒康县| 深水埗区| 芮城县| 商都县| 望江县|