語音處理設(shè)備及語音處理方法

文檔序號(hào)：2826480閱讀：251來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音處理設(shè)備及語音處理方法
【專利摘要】一種語音處理設(shè)備及語音處理方法。該語音處理設(shè)備包括：處理器；以及存儲(chǔ)多個(gè)指令的存儲(chǔ)器，當(dāng)由該處理器執(zhí)行所述多個(gè)指令時(shí)，使該處理器執(zhí)行以下操作：接收包括多個(gè)語音段的第一信號(hào)；進(jìn)行控制以使得長(zhǎng)度等于或大于預(yù)定的第一閾值的非語音段存在于多個(gè)語音段中的至少一個(gè)語音段之間；以及輸出包括多個(gè)語音段和所控制的非語音段的第二信號(hào)。
【專利說明】語音處理設(shè)備及語音處理方法
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)基于并且要求于2012年12月12日提交的在先日本專利申請(qǐng)第2012-270916號(hào)的優(yōu)先權(quán)，其全部?jī)?nèi)容通過引用合并于此。
【技術(shù)領(lǐng)域】
[0003]本文討論的實(shí)施方式涉及例如一種配置為對(duì)輸入信號(hào)進(jìn)行控制的語音處理設(shè)備、語音處理方法以及語音處理程序。
【背景技術(shù)】
[0004]一種已知的方法是對(duì)給定作為輸入信號(hào)的語音信號(hào)進(jìn)行控制以使得語音信號(hào)易于聽到。例如，對(duì)于老年人，由于聽力等隨著衰老下降，語音識(shí)別能力可能降低。因此，當(dāng)講話者使用便攜式通信終端等在雙向語音通信中以高語速講話時(shí)，對(duì)于老年人來說往往變得難以聽到語音。應(yīng)對(duì)上述情況的一個(gè)最簡(jiǎn)單的方式是講話者“緩慢”并且“清晰”地說話，例如，如以下文獻(xiàn)中所公開的:Tomono Miki 等人，“Development of Radio and TelevisionReceiver with Speech Rate Conversion Technology，，，CASE#10-03, Institute ofInnovation Research, Hitotsubashi University, 2010 年 4 月。換句話說，講話者逐字地緩慢說話并且在各字之間和各短語之間有清晰的停頓是有效的。然而，在雙向語音通信中，難以要求通常說話快的講話者有意“緩慢”并且“清晰”地說話。鑒于上述情況，例如，日本專利第4460580號(hào)公開了一種檢測(cè)并擴(kuò)展所接收到的語音信號(hào)的語音段以提高其可聽度而且縮短非語音段以減小由語音段的擴(kuò)展引起的延遲的技術(shù)。更具體地，當(dāng)給定輸入信號(hào)時(shí)，檢測(cè)所給定的輸入信號(hào)中的語音段即活動(dòng)話音段和非語音段即非話音段，并且周期性地重復(fù)包含在語音段中的語音樣本從而在不改變所接收到的語音的音高的情況下控制語速使之降低，由此實(shí)現(xiàn)易聽度的提高。此外，通過縮短各語音段之間的非語音段，可以使語音段的擴(kuò)展所引起的延遲最小以便抑制由語音段的擴(kuò)展導(dǎo)致的遲緩，從而使得雙向語音通信能夠自然。

【發(fā)明內(nèi)容】

[0005]根據(jù)實(shí)施方式的一方面，一種語音處理設(shè)備包括:處理器；以及存儲(chǔ)多個(gè)指令的存儲(chǔ)器，當(dāng)由處理器執(zhí)行所述多個(gè)指令時(shí)，使處理器執(zhí)行以下操作:接收包括多個(gè)語音段的第一信號(hào)；進(jìn)行控制以使得長(zhǎng)度等于或大于預(yù)定第一閾值的非語音段存在于所述多個(gè)語音段中的至少一個(gè)語音段之間；以及輸出包括所述多個(gè)語音段和所控制的非語音段的第二信號(hào)。
[0006]本發(fā)明的目的和優(yōu)點(diǎn)將借助于權(quán)利要求中具體指出的要素及組合而實(shí)現(xiàn)和獲得。應(yīng)理解，以上的整體概述和以下的詳細(xì)描述都是示例性和說明性的并且不限制如所要求保護(hù)的本發(fā)明。
[0007]本說明書中公開的語音處理設(shè)備能夠提高聽者聽到語音的容易程度?！緦＠綀D】

【附圖說明】
[0008]根據(jù)結(jié)合附圖對(duì)實(shí)施方式的以下描述，這些和/或其他方面和優(yōu)點(diǎn)將變得明顯并且更易于理解，在附圖中:
[0009]圖1A是示出從發(fā)送側(cè)發(fā)送的遠(yuǎn)端信號(hào)的幅度與時(shí)間之間的關(guān)系的圖。
[0010]圖1B是示出作為從發(fā)送側(cè)發(fā)送的遠(yuǎn)端信號(hào)和接收側(cè)的環(huán)境噪聲的混合的總信號(hào)的幅度與時(shí)間之間的關(guān)系的圖。
[0011]圖2是根據(jù)實(shí)施方式的語音處理設(shè)備的功能框圖。
[0012]圖3是根據(jù)實(shí)施方式的控制單元的功能框圖。
[0013]圖4是示出噪聲特征值與非語音段長(zhǎng)度的控制量之間的關(guān)系的圖。
[0014]圖5是示出第一遠(yuǎn)端信號(hào)的幀結(jié)構(gòu)的示例的框圖。
[0015]圖6是示出由處理單元增大非語音段長(zhǎng)度的處理的構(gòu)思的框圖。
[0016]圖7是示出由處理單元減小非語音段長(zhǎng)度的處理的構(gòu)思的框圖。
[0017]圖8是示出由語音處理設(shè)備執(zhí)行的語音處理方法的流程圖。
[0018]圖9是示出第一遠(yuǎn)端信號(hào)的噪聲特征值與調(diào)節(jié)量之間的關(guān)系的圖。
[0019]圖10是示出第一遠(yuǎn)端信號(hào)的信噪比(SNR)與調(diào)節(jié)量之間的關(guān)系的圖。
[0020]圖11是示出噪聲特征值與語音段長(zhǎng)度的擴(kuò)展比之間的關(guān)系的圖。
[0021]圖12是示出根據(jù)實(shí)施方式的用作語音處理設(shè)備的計(jì)算機(jī)的硬件配置的圖。
[0022]圖13是示出根據(jù)實(shí)施方式的便攜式通信設(shè)備的硬件配置的圖。
【具體實(shí)施方式】
[0023]下面將參照附圖詳細(xì)描述語音處理設(shè)備、語音處理方法以及語音處理程序的實(shí)施方式。請(qǐng)注意，下述的實(shí)施方式僅是說明性的而不是限制性的。
[0024]在上述控制語速的方法中，僅考慮到語速的降低，而并未考慮到通過在話音中做出清晰的停頓來提高語音清晰度，因而上述方法在提高可聽度方面是不足的。此外，在上述控制語速的技術(shù)中，不論在聽者所在的近端側(cè)處是否有環(huán)境噪聲，只是減小非語音段。然而，當(dāng)在聽者處于嘈雜環(huán)境(其中存在環(huán)境噪聲)的情形中進(jìn)行雙向通信的情況下，環(huán)境噪聲可以使得聽者難以聽到語音。圖1A示出了從發(fā)送側(cè)發(fā)送的遠(yuǎn)端信號(hào)的幅度的示例，其中幅度隨時(shí)間變化。圖1B示出了作為從發(fā)送側(cè)發(fā)送的遠(yuǎn)端信號(hào)和接收側(cè)的環(huán)境噪聲的混合的總信號(hào)，其中總信號(hào)的幅度隨時(shí)間變化。在圖1A和圖1B中，可以例如如下確定遠(yuǎn)端信號(hào)是在活動(dòng)段還是非語音段。即，當(dāng)遠(yuǎn)端信號(hào)的幅度小于任意確定的閾值時(shí)，則可以確定遠(yuǎn)端信號(hào)在非語音段。另一方面，當(dāng)遠(yuǎn)端信號(hào)的幅度等于或大于該閾值時(shí)，則確定遠(yuǎn)端信號(hào)在語音段。在圖1B中，圖1A中的非語音段中存在環(huán)境噪聲。請(qǐng)注意，圖1B中也存在背景噪聲非語音段，但是背景噪聲的幅度比遠(yuǎn)端信號(hào)的幅度小得多，因此沒有示出語音段中的背景噪聲的幅度。
[0025]鑒于上述情況，如下所述，發(fā)明人已經(jīng)考慮了在生成近端信號(hào)的接收側(cè)存在噪聲的環(huán)境下可能使得在雙向通信中難以聽到語音的因素。如圖1B所示，在語音段的結(jié)束部分與非語音段中環(huán)境噪聲的開始部分之間存在交疊，這使得難以清晰地區(qū)分遠(yuǎn)端信號(hào)的結(jié)束與非語音段中環(huán)境噪聲的開始。只有在聽者感知到環(huán)境噪聲持續(xù)一段時(shí)間之后，聽者才注意到其聽到的不是遠(yuǎn)端信號(hào)而是環(huán)境噪聲。在這種情況下，由聽者識(shí)別的有效的非語音段長(zhǎng)度小于圖1A中所示的真實(shí)的非語音段長(zhǎng)度，這使得語音段的界限模糊并且因此發(fā)生易聽度(可聽度)的降低。環(huán)境噪聲越大，遠(yuǎn)端信號(hào)的幅度越接近環(huán)境噪聲的幅度，因此有效的非語音段變得越短，這導(dǎo)致聽到語音的容易度更大地降低。
[0026](第一實(shí)施方式)
[0027]圖2是示出根據(jù)實(shí)施方式的語音處理設(shè)備I的功能框圖。語音處理設(shè)備I包括接收單元2、檢測(cè)單元3、計(jì)算單元4、控制單元5以及輸出單元6。
[0028]接收單元2例如通過有線邏輯硬件電路實(shí)現(xiàn)?；蛘?，接收單元2可以是由語音處理設(shè)備I中執(zhí)行的計(jì)算機(jī)程序?qū)崿F(xiàn)的功能模塊。接收單元2從外部獲取從接收側(cè)(語音處理設(shè)備I的用戶)發(fā)送的近端信號(hào)以及包括從發(fā)送側(cè)(與語音處理設(shè)備I的用戶進(jìn)行通信的人)發(fā)送的發(fā)出的語音的第一遠(yuǎn)端信號(hào)。接收單元2可以接收例如來自連接到語音處理設(shè)備I或布置在語音處理設(shè)備I中的麥克風(fēng)(未示出)的近端信號(hào)。接收單元2可以經(jīng)由有線或無線電路接收第一遠(yuǎn)端信號(hào)，并且可以使用連接到語音處理設(shè)備I或布置在語音處理設(shè)備I中的解碼單元(未示出)對(duì)第一遠(yuǎn)端信號(hào)進(jìn)行解碼。接收單元2將所接收到的第一遠(yuǎn)端信號(hào)輸出給檢測(cè)單元3和控制單元5。接收單元2將所接收到的近端信號(hào)輸出給計(jì)算單元
4。此處，作為示例假定第一遠(yuǎn)端信號(hào)和近端信號(hào)例如以各自具有約10毫秒到20毫秒的長(zhǎng)度的幀和各自包括特定數(shù)量的語音樣本(或環(huán)境噪聲樣本)的幀為單位輸入到接收單元2。近端信號(hào)可以包括接收側(cè)的環(huán)境噪聲。
[0029]檢測(cè)單元3例如通過有線邏輯電路實(shí)現(xiàn)?；蛘撸瑱z測(cè)單元3可以是由語音處理設(shè)備I中執(zhí)行的計(jì)算機(jī)程序?qū)崿F(xiàn)的功能模塊。檢測(cè)單元3接收來自接收單元2的第一遠(yuǎn)端信號(hào)。檢測(cè)單元3檢測(cè)包含在第一遠(yuǎn)端信號(hào)中的語音段長(zhǎng)度和非語音段長(zhǎng)度。檢測(cè)單元3可以例如通過確定第一遠(yuǎn)端信號(hào)中的每幀是在語音段中還是在非語音段中來檢測(cè)非語音段長(zhǎng)度和語音段長(zhǎng)度。確定給定的幀是語音段還是非語音段的方法的示例是從當(dāng)前幀的語音樣本功率中減去針對(duì)過去幀所計(jì)算的輸入語音樣本的平均功率，從而確定功率差，并且將功率差與閾值進(jìn)行比較。當(dāng)功率差等于或大于閾值時(shí)，確定當(dāng)前幀為語音段，而當(dāng)功率差小于閾值時(shí)，確定當(dāng)前幀為非語音段。檢測(cè)單元3可以將相關(guān)信息添加到第一遠(yuǎn)端信號(hào)中所檢測(cè)的非語音段長(zhǎng)度和語音段長(zhǎng)度。更具體地，例如，檢測(cè)單元3可以將相關(guān)信息添加到第一遠(yuǎn)端信號(hào)中所檢測(cè)的語音段長(zhǎng)度，使得將以下信息添加到語音段長(zhǎng)度:包含在語音段長(zhǎng)度中的幀的幀編號(hào)f(i);以及語音活動(dòng)檢測(cè)的標(biāo)志(以下稱為flag vad)，其被設(shè)置為I (flagvad=l)以表示該幀在語音段中。檢測(cè)單元3可以將相關(guān)信息添加到第一遠(yuǎn)端信號(hào)中所檢測(cè)的非語音段長(zhǎng)度，使得將以下信息添加到非語音段長(zhǎng)度:包含在非語音段長(zhǎng)度中的幀的中貞編號(hào)f(i);以及flag vad,其被設(shè)置成等于O (flag vad=0)以表示該巾貞在非語音段中。關(guān)于檢測(cè)給定的幀中的語音段和非語音段的方法，可以使用各種已知的方法。例如，可以使用日本專利第4460580號(hào)中所公開的方法。檢測(cè)單元3將第一遠(yuǎn)端信號(hào)中所檢測(cè)的語音段長(zhǎng)度和非語音段長(zhǎng)度輸出給控制單元5。
[0030]計(jì)算單元4例如通過有線邏輯電路實(shí)現(xiàn)?；蛘撸?jì)算單元4可以是由語音處理設(shè)備I中執(zhí)行的計(jì)算機(jī)程序?qū)崿F(xiàn)的功能模塊。計(jì)算單元4接收來自接收單元2的近端信號(hào)。計(jì)算單元4計(jì)算包含在近端信號(hào)中的環(huán)境噪聲的噪聲特征值。計(jì)算單元4將所計(jì)算出的環(huán)境噪聲的噪聲特征值輸出給控制單元5。[0031]下面描述由計(jì)算單元4計(jì)算環(huán)境噪聲的噪聲特征值的方法示例。首先，計(jì)算單元4根據(jù)近端信號(hào)(Sin)計(jì)算近端信號(hào)功率(S(i))。例如，在近端信號(hào)(Sin)的每幀包括160個(gè)樣本(具有SkHz的采樣率)的情況下，計(jì)算單元4根據(jù)下述的公式(I)計(jì)算近端信號(hào)功率(S(i))。
【權(quán)利要求】
1.一種語音處理設(shè)備，包括: 處理器；以及存儲(chǔ)器，其存儲(chǔ)多個(gè)指令，當(dāng)由所述處理器執(zhí)行所述多個(gè)指令時(shí)，使所述處理器執(zhí)行以下操作: 接收第一信號(hào)，所述第一信號(hào)包括多個(gè)語音段；進(jìn)行控制以使得長(zhǎng)度等于或大于預(yù)定的第一閾值的非語音段存在于所述多個(gè)語音段中的至少一個(gè)語音段之間；以及輸出第二信號(hào)，所述第二信號(hào)包括所述多個(gè)語音段和所控制的非語音段。
2.根據(jù)權(quán)利要求1所述的設(shè)備，還包括: 檢測(cè)所述第一信號(hào)中的非語音段長(zhǎng)度和語音段長(zhǎng)度，其中，所述第一信號(hào)包括所述多個(gè)語音段中的語音段之間的至少一個(gè)非語音段，并且其中，所述控制對(duì)所述非語音段長(zhǎng)度進(jìn)行控制，使得所述非語音段長(zhǎng)度等于或大于所述第一閾值。
3.根據(jù)權(quán)利要求2所述的設(shè)備，還包括: 計(jì)算包含在第三信號(hào)中的環(huán)境噪聲的噪聲特征值，其中，所述接收還接收包括所述環(huán)境噪聲的所述第三信號(hào)，并且其中，所述控制基于所述非語音段長(zhǎng)度和所述噪聲特征值來控制所述非語音段長(zhǎng)度，使得所述非語音段長(zhǎng)度等于或大于所述第一閾值。`
4.根據(jù)權(quán)利要求3所述的設(shè)備，其中，所述控制進(jìn)行控制以使得在所述非語音段長(zhǎng)度小于所述第一閾值的情況下，根據(jù)所述噪聲特征值的大小來擴(kuò)展所述非語音段長(zhǎng)度。
5.根據(jù)權(quán)利要求3所述的設(shè)備，其中，所述控制進(jìn)行控制以使得在所述非語音段長(zhǎng)度等于或大于所述第一閾值的情況下，根據(jù)所述噪聲特征值的大小來減小所述非語音段長(zhǎng)度。
6.根據(jù)權(quán)利要求4所述的設(shè)備，其中，所述控制基于通過所述接收而接收到的所述第一信號(hào)的接收量與通過所述輸出而輸出的所述第二信號(hào)的輸出量之差來控制所述非語音段長(zhǎng)度的擴(kuò)展比或減小比。
7.根據(jù)權(quán)利要求3所述的設(shè)備，其中，所述控制根據(jù)所述噪聲特征值的大小來擴(kuò)展所述語音段長(zhǎng)度。
8.根據(jù)權(quán)利要求3所述的設(shè)備，其中，所述計(jì)算基于所述第三信號(hào)在預(yù)定時(shí)間段的功率波動(dòng)來計(jì)算所述噪聲特征值。
9.一種語音處理方法，包括: 接收包括多個(gè)語音段的第一信號(hào)；通過處理器進(jìn)行控制，以使得長(zhǎng)度等于或大于預(yù)定的第一閾值的非語音段存在于所述多個(gè)語音段中的至少一個(gè)語音段之間；以及輸出包括所述多個(gè)語音段和所控制的非語音段的第二信號(hào)。
10.根據(jù)權(quán)利要求9所述的方法，還包括: 檢測(cè)所述第一信號(hào)中的非語音段長(zhǎng)度和語音段長(zhǎng)度，其中，所述第一信號(hào)包括所述多個(gè)語音段中的語音段之間的至少一個(gè)非語音段，并且其中，所述控制對(duì)所述非語音段長(zhǎng)度進(jìn)行控制，使得所述非語音段長(zhǎng)度等于或大于所述第一閾值。
11.根據(jù)權(quán)利要求10所述的方法，還包括: 計(jì)算包含在第三信號(hào)中的環(huán)境噪聲的噪聲特征值，其中，所述接收還接收包括所述環(huán)境噪聲的所述第三信號(hào)，并且其中，所述控制基于所述非語音段長(zhǎng)度和所述噪聲特征值來控制所述非語音段長(zhǎng)度，使得所述非語音段長(zhǎng)度等于或大于所述第一閾值。
12.根據(jù)權(quán)利要求11所述的方法，其中，所述控制進(jìn)行控制以使得在所述非語音段長(zhǎng)度小于所述第一閾值的情況下，根據(jù)所述噪聲特征值的大小來擴(kuò)展所述非語音段長(zhǎng)度。
13.根據(jù)權(quán)利要求11所述的方法，其中，所述控制進(jìn)行控制以使得在所述非語音段長(zhǎng)度等于或大于所述第一閾值的情況下，根據(jù)所述噪聲特征值的大小來減小所述非語音段長(zhǎng)度。
14.根據(jù)權(quán)利要求12所述的方法，其中，所述控制基于通過所述接收而接收到的所述第一信號(hào)的接收量與通過所述輸出而輸出的所述第二信號(hào)的輸出量之差來控制所述非語音段長(zhǎng)度的擴(kuò)展比或減小比。
15.根據(jù)權(quán)利要求11所述的方法，其中，所述控制根據(jù)所述噪聲特征值的大小來擴(kuò)展所述語音段長(zhǎng)度。
16.根據(jù)權(quán)利要求11所述的方法，其中，所述計(jì)算基于所述第三信號(hào)在預(yù)定時(shí)間段的功率波動(dòng)來計(jì)算所述噪聲特征值。
17.一種便攜式通信設(shè)備，包括: 處理器；以及存儲(chǔ)器，其存儲(chǔ)多個(gè)指令，當(dāng)由所述處理器執(zhí)行所述多個(gè)指令時(shí)，使所述處理器執(zhí)行以下操作: 通過麥克風(fēng)接收包括多個(gè)語音段的第一信號(hào)；接收來自所述麥克風(fēng)的所述第一信號(hào)；進(jìn)行控制以使得長(zhǎng)度等于或大于預(yù)定的第一閾值的非語音段存在于所述多個(gè)語音段中的至少一個(gè)語音段之間；以及從揚(yáng)聲器輸出包括所述多個(gè)語音段和所控制的非語音段的第二信號(hào)。
【文檔編號(hào)】G10L21/003GK103871416SQ201310638114
【公開日】2014年6月18日申請(qǐng)日期:2013年12月2日優(yōu)先權(quán)日:2012年12月12日
【發(fā)明者】鈴木政直, 大谷猛, 外川太郎申請(qǐng)人:富士通株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載