語音處理裝置的制作方法

文檔序號：2821734閱讀：223來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音處理裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音處理裝置，用于利用例如多個與會者發(fā)出的語音識別命令，并對這些命令進行處理。
背景技術(shù)：
具有對人類的語音執(zhí)行聲紋識別并對其(聲紋識別)進行處理功能的語音處理裝置基于連接到作為語音輸入裝置的諸如電話和個人計算機的控制裝置上的擴音器的前提，被提供有這種擴音器的語音處理裝置已經(jīng)被應(yīng)用于例如金融機構(gòu)中的呼叫中心和網(wǎng)絡(luò)中的個人識別。
然而，相關(guān)技術(shù)中的這些語音處理裝置因為其使用環(huán)境而只能執(zhí)行個體語音識別。因此，當在許多人團體工作的現(xiàn)場使用這種語音處理裝置時，例如，在有許多人參加的會議里，它將錯誤地檢測和錯誤地識別多個語音，因此就不能采用這種裝置。
也就是，在兩個或更多與會者同時講話的狀態(tài)下，由于多個語音被混合在一起并通過擴音器輸入給語音處理裝置，不可能在許多演講者當中指定一與會者作為主講者，也就不可能得到精確的聲紋識別結(jié)果。
另一方面，按照慣例，在會議或其他團體工作中利用記錄裝置等將會議的內(nèi)容記錄在記錄媒質(zhì)里，并在會議后，通過確認每一個演講者撰寫備忘錄。雖然已經(jīng)存在將他們所進行會議的內(nèi)容記錄到記錄媒體中的方法，但是組織每個演講者的數(shù)據(jù)還是要花費一些時間，并且這項工作是需要的。
因此，就想到了利用上述聲紋識別技術(shù)執(zhí)行個人識別和為每個演講者整理語音數(shù)據(jù)的方法。然而，在會議中多個與會者語音重疊等情況下，難以確定是誰正在講話，因此，不可能通過應(yīng)用上述聲紋識別技術(shù)本身進行演講者的個人識別。
而且，當演講者正在會議上講話時，存在演講者的屬性數(shù)據(jù)(名字和角色等等)不能通過實時處理輸出的缺點。因此，與會者必須參考所分發(fā)的文檔等，而不能專心于聽演講。
另外，會議主席必須操作PC來顯示數(shù)據(jù)和通過發(fā)言來加入解釋，這是十分苛求的，并且在會議效率方面是不利的。
因此，需要準確地確定主講者并在屏幕上輸出演講者的屬性數(shù)據(jù)，或者即使是在多個與會者同時講話的時候只用一個語音通知所有的與會者。

發(fā)明內(nèi)容
本發(fā)明的一個目的是提供一種語音處理裝置，用于在多個演講者中規(guī)定一個與會者為主講者，并例如當通過識別由多個與會者發(fā)出語音的聲紋進行處理時，通過聲紋識別，準確地執(zhí)行個人識別。
為了實現(xiàn)上述目的，提供一種語音處理裝置，包括多個分別面向不同語音收集方向排列的擴音器；擴音器選擇裝置，用于根據(jù)由所述的多個擴音器收集的語音的聲壓選擇一個擴音器；聲紋識別裝置，用于在聲紋可識別的時間內(nèi)根據(jù)由所述的一個擴音器收集的語音信號連續(xù)地執(zhí)行聲紋識別，并產(chǎn)生聲紋數(shù)據(jù)；以及數(shù)據(jù)處理裝置，用于根據(jù)由所述聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)處理由所述的一個擴音器收集的語音信號。
最好是，進一步提供一聲紋數(shù)據(jù)存儲裝置，用于通過使兩者相互關(guān)聯(lián)存儲演講者數(shù)據(jù)和聲紋數(shù)據(jù)，其中，所述的數(shù)據(jù)處理裝置通過與通過對存儲在所述聲紋數(shù)據(jù)存儲裝置中的聲紋數(shù)據(jù)進行檢查所獲得演講者數(shù)據(jù)相關(guān)聯(lián)對由聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)執(zhí)行處理。演講者做好是，還提供一語音轉(zhuǎn)換裝置，用于將語音信號轉(zhuǎn)換為字符串數(shù)據(jù)，其中，所述的語音轉(zhuǎn)換裝置將由所述的一個擴音器收集的語音信號轉(zhuǎn)換為字符串數(shù)據(jù)；并且通過與通過對所述語音信號進行檢查所獲得的演講者數(shù)據(jù)相關(guān)聯(lián)對所述字符串數(shù)據(jù)進行處理。演講者為了實現(xiàn)上述目的，根據(jù)本發(fā)明的第二方面，提供一種語音處理裝置，包括多個分別面向不同語音收集方向排列的擴音器；擴音器選擇裝置，用于根據(jù)由所述的多個擴音器收集的語音的聲壓選擇一個擴音器；聲紋識別裝置，用于在聲紋識別時間內(nèi)根據(jù)由所述的一個擴音器收集的語音信號連續(xù)地執(zhí)行聲紋識別并產(chǎn)生聲紋數(shù)據(jù)；聲紋數(shù)據(jù)存儲裝置，用于通過使兩者相互關(guān)聯(lián)來存儲演講者數(shù)據(jù)和聲紋數(shù)據(jù)；屬性數(shù)據(jù)存儲裝置，用于通過使兩者相互關(guān)聯(lián)來存儲演講者數(shù)據(jù)和屬性數(shù)據(jù)；以及數(shù)據(jù)處理裝置，用于通過使由聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)和存儲在所述的聲紋數(shù)據(jù)存儲裝置中的聲紋數(shù)據(jù)相互匹配規(guī)定演講者數(shù)據(jù)，并通過將所述演講者數(shù)據(jù)與相應(yīng)的屬性數(shù)據(jù)相關(guān)聯(lián)對演講者數(shù)據(jù)進行處理。演講者屬性數(shù)據(jù)根據(jù)本發(fā)明第一方面的語音處理裝置的操作如下。
也就是，該擴音器選擇裝置根據(jù)由多個擴音器收集的聲壓選擇一個擴音器。該聲紋識別裝置在聲紋可識別時間內(nèi)根據(jù)由該擴音器收集的語音信號連續(xù)地執(zhí)行聲紋識別并產(chǎn)生聲紋數(shù)據(jù)。該數(shù)據(jù)處理裝置依照由該聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)處理由該擴音器收集的語音信號。
根據(jù)本發(fā)明的第二方面語音處理裝置的操作如下。
也就是，該擴音器選擇裝置根據(jù)由多個擴音器收集的聲壓選擇一個擴音器。該聲紋識別裝置在聲紋可識別時間內(nèi)根據(jù)由該擴音器收集的語音信號連續(xù)地執(zhí)行聲紋識別并產(chǎn)生聲紋數(shù)據(jù)。
該數(shù)據(jù)處理裝置對照存儲在聲紋數(shù)據(jù)存儲裝置中的聲紋數(shù)據(jù)檢查由聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)，并定義演講者數(shù)據(jù)。此外，它通過與通過對照屬性數(shù)據(jù)存儲裝置進行檢查和承受處理所獲得的屬性數(shù)據(jù)相關(guān)聯(lián)對多定義的演講者數(shù)據(jù)進行處理。
根據(jù)本發(fā)明，具有下述優(yōu)點，即，即使在例如會議等過程中有多個演講重疊的情況下，能非常準確地確定主講者，該演講者的屬性數(shù)據(jù)等能同時在屏幕上顯示給與會者，等等，因此，會議能順利地進行。

通過下面結(jié)合附圖對最佳實施例的描述，本發(fā)明的這些和其它目的和特征將變得更清楚，其中附圖1是雙向電話通信部分2的框圖；附圖2是雙向電話通信部分2的DSP22的框圖；附圖3A到3D是雙向電話通信部分2的單向擴音器的FFT結(jié)果視圖；附圖4是雙向電話通信部分2的選擇擴音器信號的輸出圖；附圖5是第一實施例的語音處理裝置1的框圖；附圖6A到6G用于解釋第一實施例中語音處理裝置1的操作；附圖7是第一實施例中語音處理裝置1的改進實例圖；附圖8是第二實施例的語音處理裝置1a的框圖；附圖9是第二實施例的語音處理裝置1a顯示的屬性數(shù)據(jù)實例圖；附圖10是第三實施例的語音處理裝置1b的框圖；以及附圖11是第三實施例的語音處理裝置1b改進實例圖。
具體實施例方式
在隨后說明的第一到第三實施例中，在任一實施例中都使用下面說明的雙向電話通信部分2，因此，為了便于說明，首先參考圖1到4解釋雙向電話通信部分2的操作和結(jié)構(gòu)，然后，再解釋各實施例。
雙向電話通信部分2附圖1是雙向電話通信部分2的電路框圖。
如圖1所示，雙向電話通信部分2包括A/D轉(zhuǎn)換器組件21，數(shù)字信號處理器(DSP)22和23，中央處理單元(CPU)24，編解碼器25，D/A轉(zhuǎn)換組件26(D/A轉(zhuǎn)換器261和262)，A/D轉(zhuǎn)換器263和放大器組件27。
在圖1的例子中，雙向電話通信部分2從6個單向擴音器MC1到MC6中接收作為輸入的語音。單向擴音器被安排成對對該擴音器位置前面具有極強的方向性。CPU24執(zhí)行整個雙向電話通信部分2的控制處理。
編解碼器25編碼語音。
DSP22執(zhí)行各種信號處理，諸如是濾波處理和擴音器選擇處理，這將在隨后詳細說明。
DSP23用做回波抵消器。
在圖1中，A/D轉(zhuǎn)換器211到213是作為A/D轉(zhuǎn)換器組件21的例子示出的，A/D轉(zhuǎn)換器263是作為A/D轉(zhuǎn)換器的例子示出的，D/A轉(zhuǎn)換器261和262是作為D/A轉(zhuǎn)換器組件26的例子示出的，放大器271和272是作為放大器組件27的例子示出的。
各擴音器對MC1和MC4、MC2和MC5、MC3和MC6被輸入給A/D轉(zhuǎn)換器211到213，用于將兩信道模擬信號轉(zhuǎn)換為數(shù)字信號。
在A/D轉(zhuǎn)換器211到213中轉(zhuǎn)換的擴音器MC1到MC6的語音收集信號被輸入給DSP22，并經(jīng)受各種隨后說明的信號處理。
作為DSP22的一個處理結(jié)果，擴音器MC1到MC6中的一個被選擇。在DSP22中，使用上述的擴音器的單向特性來執(zhí)行擴音器的選擇。
DSP22的處理結(jié)果被輸出給DSP23并經(jīng)過回聲消除處理。
DSP23的處理結(jié)果通過D/A轉(zhuǎn)換器261和262轉(zhuǎn)換為模擬信號。D/A轉(zhuǎn)換器261的輸出根據(jù)需要編解碼器(CODEC)25編碼，并通過放大器271輸出。
同樣，D/A轉(zhuǎn)換器262的輸出經(jīng)過放大器272作為雙向電話通信部分2的揚聲器28的語音輸出。也就是，使用雙向電話通信部分2的與會者通過揚聲器28能聽到會議室里演講者發(fā)出的語音。
雙向電話通信部分2通過A/D轉(zhuǎn)換器263將其它參與者的語音輸入至DSP23，并執(zhí)行回聲消除處理。同樣，其它參與者的語音通過未示出的路徑施加于揚聲器28并作為語音輸出。
需要注意的是當使用沒有方向性的擴音器時，擴音器周圍的所有語音都被收集，因此，演講者語音和周圍噪聲的S/N(信噪比)不佳。為了防止這一點，在本實施例中，通過采用單向擴音器收集語音，改進了具有周圍噪聲的信噪比(S/N)。
下一步，將說明DSP22執(zhí)行的處理。
由DSP22執(zhí)行的主處理是選擇和轉(zhuǎn)換擴音器的處理。即，當使用雙向電話通信部分2的多個與會者同時講話時，他們的語音被混合并且難以被其他人聽見，因此，只有所選擇的擴音器的語音信號才作為圖1中的信號S271輸出。
為了準確地執(zhí)行當前的處理，執(zhí)行下面作為例子而解釋的各種信號處理。
(a)擴音器信號的頻帶分離和電平轉(zhuǎn)換處理；(b)判斷演講開始和結(jié)束的處理；(c)與演講者同方向的擴音器的檢測處理，分析每個擴音器的語音收集信號和判斷面向演講者的擴音器；(d)與演講者同方向的擴音器的轉(zhuǎn)換定時判斷處理，和面對被檢測到的演講者的擴音器信號的選擇/轉(zhuǎn)換處理。
下面，將說明上述各信號處理。
(a)擴音器信號的電平頻帶分離和電平轉(zhuǎn)換。
對啟動擴音器選擇處理的觸發(fā)器之一執(zhí)行判斷演講開始和結(jié)束的處理。為了該目的，對每個擴音器信號都要進行帶通濾波(下文中稱為BPF)處理和電平轉(zhuǎn)換處理。
圖2僅示出了在BPF處理和電平轉(zhuǎn)換處理中6個擴音器MC1道MC6中的一個信道(CE)。電平BPF處理和電平轉(zhuǎn)換處理電路包括BPF221a到221f(總稱之為BPF組件221)，其中的每一個具有100到600Hz、100到250Hz、250到600Hz、600到1500Hz、1500到4000Hz和4000到7500Hz的帶通特征；以及電平轉(zhuǎn)換器222a到222g(總稱之為電平轉(zhuǎn)換組件222)，用于對原始擴音器語音收集信號和上述帶通語音收集信號執(zhí)行電平轉(zhuǎn)換。
每一個電平轉(zhuǎn)換器包括信號絕對值處理部分223和峰值保持處理部分224。因此，如以作為例子的波形曲線所示，信號絕對值處理部分將由虛線指出的輸入負信號的代碼反相，和將該輸入負信號轉(zhuǎn)換為正信號。然后，峰值保持處理部分224保持信號絕對值處理部分223輸出信號的絕對值。
b)判斷演講開始和結(jié)束的處理。
當在圖2所示的擴音器信號電平轉(zhuǎn)換處理部分222b中經(jīng)過聲壓電平轉(zhuǎn)換的聲壓電平數(shù)據(jù)通過100到600Hz的BPF變?yōu)轭A(yù)定的值或更大時，DSP22判斷演講開始；當預(yù)定時間內(nèi)(例如0.5秒)該數(shù)據(jù)變?yōu)轭A(yù)定值或更小時，判斷演講結(jié)束。
c)與演講者同方向的擴音器的檢測處理圖3實施例所示的單向擴音器的特征用于演講者方向的檢測。
如圖3所示，在單向擴音器中，頻率特征和電平特征根據(jù)語音從演講者到達擴音器的角度而變化。演講者圖3中，演講者位于離雙向電話通信部分2有1.5m距離處，示出了以固定的時間間隔對由各擴音器收集的語音執(zhí)行FFT的結(jié)果。該x軸表示頻率，y軸表示時間，z軸表示信號電平。在XY平面上為每一特定頻率繪制的線指出參考圖2說明的BPF處理的截止頻率，并且這些線之間的頻帶電平通過圖2中的BPF221b到221f變成用于處理的數(shù)據(jù)。
各頻帶的BPF輸出電平分別經(jīng)過適當加權(quán)處理(例如，當假設(shè)1dBFs級時，0dBFs的加權(quán)值將為“0”，-3dBFs的加權(quán)值為“3”)。處理精度由該加權(quán)步驟決定。
利用每一取樣時鐘執(zhí)行上述加權(quán)處理，各擴音器的加權(quán)值相加，取某一些抽樣的平均值，具有最小(或最大)總值的擴音器被判定為面向演講者的擴音器。在表1中可以看到這個結(jié)果。
在表1的實例里，MIC1有最小的總值，因此判斷聲源在擴音器1的方向。該結(jié)果以聲源方向中的擴音器號碼的形式被保存。
表1

d)演講者方向的擴音器的轉(zhuǎn)換定時判斷處理，以及面向檢測到的演講者擴音器信號的選擇/轉(zhuǎn)換處理。
當某一演講者的演講(比如，擴音器MC1)結(jié)束時，其它方向(比如，擴音器MC2)有新的演講發(fā)生，在b)判斷演講開始和結(jié)束的處理中已說明，從先前演講者的擴音器(MC1)信號電平變?yōu)轭A(yù)定值或更小時的一定時間后(比如0.5秒)，判斷該演講者的演講結(jié)束。
當由于后續(xù)演講者的演講開始而導(dǎo)致擴音器(MC2)的信號電平變?yōu)橐活A(yù)定值或更大時，面向該后續(xù)演講者的擴音器被確定為語音收集擴音器并啟動擴音器信號選擇和轉(zhuǎn)換處理。
當在先演講者的演講(擴音器MC1)正在進行的同時重新出現(xiàn)來自其他方向的更大聲的演講(該后續(xù)演講者(擴音器MC2))時，擴音器的判斷和轉(zhuǎn)換處理在后續(xù)演講者的演講開始(當擴音器MC2的信號電平變?yōu)轭A(yù)定值或更大時)的某一時間后(比如0.5秒)開始。
擴音器的判斷和轉(zhuǎn)換處理按如下方式執(zhí)行。
即，當在第一演講者(擴音器MC1)演講完成前出現(xiàn)了比當前選擇的演講者演講語音更大的演講者(擴音器MC2)時，來自擴音器MC2的聲壓電平變高。結(jié)果，在(c)演講者方向的擴音器的檢測處理中，在上表中MC1和MC2的值被倒置，聲源方向的擴音器號就從擴音器MC1改變成MC2，并且執(zhí)行擴音器信號選擇/轉(zhuǎn)換處理。
如圖4中所示，擴音器信號選擇/轉(zhuǎn)換處理是由6個乘法器電路和具有6個輸入端的加法器構(gòu)成的。為了選擇擴音器信號，通過把連接到將被選擇的擴音器信號上的乘法器的信道增益(CH增益)設(shè)置為“1”和把其他乘法器的信道增益設(shè)置為“0”，[選擇的擴音器信號×1]和[其它擴音器信號×0]的處理結(jié)果在加法器中相加，并且輸出預(yù)期的擴音器選擇信號。
注意在轉(zhuǎn)換擴音器前后的信道增益(比如，CH1增益和CH2增益)是例如在10毫秒內(nèi)逐漸變化的。如上詳細描述，根據(jù)所述雙向電話通信部分2，可以使用單向擴音器的特征利用最佳的S/N收集演講者的語音和在多個擴音器信號中適當選擇一個擴音器信號，并且將該選擇的擴音器信號和選擇的擴音器信息(擴音器號1到6)提供給后一級中的裝置。
第一實施例下面，將說明第一實施例的語音處理裝置。
圖5是第一實施例的語音處理裝置1的框圖。
如圖5所示，語音處理裝置1包括上述說明的雙向電話通信部分2、語音識別處理部分3和聲紋寄存器4。
語音識別處理部分3包括A/D轉(zhuǎn)換器31和識別處理部分32，識別處理部分32包括CPU321和聲紋識別部分322。
注意的是本發(fā)明的擴音器選擇裝置相當于第一實施例中的雙向電話通信部分2。
本發(fā)明中聲紋識別裝置相當于第一實施例中的聲紋識別部分322。
本發(fā)明中數(shù)據(jù)處理裝置相當于第一實施例中的CPU321。
例如通過將其設(shè)置于會議室圓桌中央使用根據(jù)第一實施例的語音處理裝置1，雙向電話通信部分2提供多個、比如6個面向各與會者的擴音器，接收與會者的語音，選擇一個擴音器信號輸出到語音識別處理部分3，并通知所選擇的擴音器號。
語音識別處理部分在雙向電話通信部分2中對選擇的擴音器信號執(zhí)行處理，確定演講者和輸出演講者代碼。
聲紋積存器4存儲演講者代碼，以通過兩者相互關(guān)聯(lián)識別演講者和演講者的聲紋數(shù)據(jù)，而這將被CPU321參考用于聲紋匹配。要注意的是在圖5所示語音處理裝置1的雙向電話通信部分2中，A/D轉(zhuǎn)換器組件21不是由結(jié)合圖1所解釋的兩信道A/D轉(zhuǎn)換器組成，而是由分別用于擴音器的一信道A/D轉(zhuǎn)換器211到216組成。圖5所示的語音處理裝置1的雙向電話通信部分2不使用揚聲器28，因此，圍繞它的部分和執(zhí)行回聲消除處理的DSP23不再需要，并在圖5中省略。
另外，在圖5所示的語音處理裝置1中，在雙向電話通信部分2和語音識別處理部分3被集成到一起的情況下，由雙向電話通信部分2選擇的擴音器信號S261不必作為模擬信號提供給語音識別處理部分3，因此，由虛線指出的數(shù)字信號S22被提供給語音識別處理部分3。然而，在下面的說明中假設(shè)提供了模擬信號(信號S261)。
如以上說明的，所選擇的擴音器信息(1至6的擴音器號)作為MC_SEL提供給語音識別處理部分3。
語音識別處理部分3包括A/D轉(zhuǎn)換器31和語音識別處理部分32，并且語音識別部分32包括CPU321和聲紋識別部分322。
A/D轉(zhuǎn)換器31接收雙向電話通信部分2選擇的輸入擴音器的模擬信號并同樣轉(zhuǎn)換為數(shù)字信號。
語音識別裝置部分32接收A/D轉(zhuǎn)換器31的數(shù)字擴音器信號作為輸入并得到雙向電話通信部分2選擇的擴音器信號。
因此，向語音識別處理部分32提供擴音器信號，該擴音器信號是通過雙向電話通信部分2和其中的擴音器信息MC_SEL(擴音器號1到6)，按照擴音器的轉(zhuǎn)換順序更新的。
CPU321控制整個語音識別處理部分32，并通過檢查后面說明的聲紋數(shù)據(jù)具體地確定演講者。
聲紋識別部分322利用聲紋可識別周期單元對經(jīng)過A/D轉(zhuǎn)換器31數(shù)字轉(zhuǎn)換的擴音器信號執(zhí)行聲紋處理，并根據(jù)CPU321的指令產(chǎn)生聲紋數(shù)據(jù)。
這里，可以使用各種方法設(shè)置聲紋可識別周期。
例如，它可以是預(yù)定的3秒短周期，或者根據(jù)聲紋識別部分322的聲紋識別能力設(shè)置最小周期?？蛇x擇地，可以設(shè)置為比一個短語更短的周期。
因此，聲紋可識別周期可以根據(jù)作為聲紋識別引擎應(yīng)用到語音識別裝置1上的聲紋識別部分322的聲紋識別能力和使用語音處理裝置1的應(yīng)用和條件靈活地加以設(shè)置。只要應(yīng)用和條件允許，就能設(shè)定最小周期。
在當前實施例中，聲紋可識別周期單元被設(shè)置為3秒。
下面，將參考圖6A到圖6G說明聲紋識別處理部分322的操作。
圖6A到圖6G示出了當個人A、個人B和個人C依次做演講時語音處理裝置1的處理操作。
首先，圖6A中，朝上的箭頭指出聲紋識別開始，朝下的箭頭指出聲紋識別結(jié)束。此處，從聲紋識別開始到結(jié)束占用3秒鐘，并且聲紋識別部分322以3秒為一單元執(zhí)行聲紋識別處理以產(chǎn)生聲紋數(shù)據(jù)。
圖6B中，個人A的演講數(shù)據(jù)經(jīng)過雙向電話通信部分2和A/D轉(zhuǎn)換器31被聲紋識別部分322重新獲得。
在聲紋識別部分322中，作為一聲紋識別單元，每3秒生成基于個人A演講數(shù)據(jù)的聲紋數(shù)據(jù)，并且將數(shù)據(jù)存儲在未示出的識別處理部分32的緩存器中。
圖6C示出了演講數(shù)據(jù)承受聲紋處理并且聲紋數(shù)據(jù)被存儲在緩存器中。
在圖6C中，在個人A演講數(shù)據(jù)中剛好在演講結(jié)束之前的數(shù)據(jù)長度小于聲紋處理所必須的3秒，因此，不能執(zhí)行聲紋處理。
圖6D示出了利用CPU321對存儲在緩存器中的聲紋數(shù)據(jù)連續(xù)進行的處理。
在CPU321中，對照預(yù)先存儲在聲紋寄存器4中的聲紋數(shù)據(jù)連續(xù)檢查存儲在該緩存器中的聲紋數(shù)據(jù)。由于相應(yīng)于演講者數(shù)據(jù)的聲紋數(shù)據(jù)被存儲在聲紋寄存器4中，CPU321基于作為檢查結(jié)果的演講者數(shù)據(jù)推定演講者為個人A。
在個人識別處理中，根據(jù)由雙向電話通信部分2提供的擴音器轉(zhuǎn)換信號MC_SEL，識別精度能進一步改善。
即，當其中的擴音器號和演講者數(shù)據(jù)相互關(guān)聯(lián)的數(shù)據(jù)預(yù)先被存儲到識別處理部分32中時，可以通過對照與該擴音器號對應(yīng)的演講者數(shù)據(jù)檢查擴音器轉(zhuǎn)換信號MC_SEL的數(shù)據(jù)(1到6)來確定演講者。
例如，可以設(shè)置為將基于擴音器轉(zhuǎn)換信號MC_SEL確定的演講者數(shù)據(jù)與上述由聲紋匹配所確定的演講者數(shù)據(jù)進行比較，并只在兩者匹配時才對擴音器信號執(zhí)行處理。
另外，可以設(shè)置為，當基于擴音器轉(zhuǎn)換信號MC_SEL確定的演講者數(shù)據(jù)和上述由聲紋匹配所確定的演講者數(shù)據(jù)不匹配時，聲紋匹配結(jié)果更為精確的被判定，并且在由聲紋匹配所確定的演講者數(shù)據(jù)的基礎(chǔ)上執(zhí)行對該處理擴音器信號的處理。
在圖6D中，與圖6C中情況相比沒有發(fā)生時間滯后，但是由于如上所述，個人識別是在用于CPU321中執(zhí)行的處理的時間之后執(zhí)行的，所以，存在右移處理時間量的時間移動。
圖6E示出了利用個人識別所完成的個人A的演講數(shù)據(jù)。
如上所解釋的，利用個人識別所完成的演講數(shù)據(jù)(擴音器信號)可以作為圖5所示的信號S3被連續(xù)地輸出并且在未示出的硬盤驅(qū)動器(HDD)或其它外部存儲器中累積以用于每個演講者數(shù)據(jù)。
這里，由于在個人A的演講數(shù)據(jù)里，正好在演講結(jié)束前的數(shù)據(jù)長度小于3秒，所以不能對數(shù)據(jù)的執(zhí)行識別處理，但是可以被添加和作為個體A的演講數(shù)據(jù)輸出。
可替換地，作為圖5中信號S3的輸出，只有由CPU321確定的演講數(shù)據(jù)(在這種情況下是指出個體A的數(shù)據(jù))才可以被輸出。
之后，同樣當在雙向電話通信部分2中所選擇的擴音器從#4變?yōu)?2、并且個人B的演講開始時，操作與如上說明的對個人A演講數(shù)據(jù)的處理相同。
在圖6所示的個人B的演講中，由于取樣數(shù)據(jù)的時間長度小于作為一聲紋識別處理周期單元的3秒，所以，不僅是在演講結(jié)束時、而且還在演講開始時，都存在不能對其執(zhí)行個人識別的部分。在這種情況下，執(zhí)行一處理以對作為個人B演講的輸出進行添加。
之后，同樣，當在雙向電話通信部分2中所選擇的擴音器從#2移到#1且個人C開始演講時，操作與如上說明的對個人A的演講數(shù)據(jù)的處理操作相同。
上面解釋了根據(jù)本發(fā)明語音處理裝置的第一實施例。
根據(jù)第一實施例中的語音處理裝置1，即使是在因分別面向多個與會者的擴音器而使許多人對著語音處理裝置1的演講重疊的情況下，也可以通過提供給語音處理裝置1的雙向電話通信部分2的特征分析聲壓電平以用于各語音的每個頻帶，規(guī)定主講者的擴音器信號，并將該語音信號給予語音識別處理部分3。
因此，在語音識別處理部分3中，即使當多個語音被同時輸入時，也能夠盡可能地阻止導(dǎo)致錯誤識別處理的可能性，并且可以適當?shù)嘏袛嘀髦v者的語音和執(zhí)行處理。
語音識別處理部分3利用聲紋可識別周期單元對給出的語音信號(擴音器信號)執(zhí)行語音識別處理，針對存儲在聲紋寄存器4中的聲紋數(shù)據(jù)進行檢查，規(guī)定匹配演講者數(shù)據(jù)并對該數(shù)據(jù)進行處理。
因此，擴音器信號能夠被作為已經(jīng)被用于執(zhí)行了個人識別的演講者數(shù)據(jù)而被處理。
本實施例不局限于圖5所示的內(nèi)容，并且可以做各種改進。
圖7為圖5所示當前實施例的語音處理裝置1的結(jié)構(gòu)改進的例子。
如圖7所示，CPU321，聲紋識別部分322和聲紋寄存器4可以集成配置。
第二實施例下面，將解釋本發(fā)明的第二實施例。
圖8的框圖示出了第二實施例中的語音處理裝置1a的結(jié)構(gòu)。
與第一實施例的語音處理裝置1相比，語音處理裝置1a的不同點在于還提供了屬性數(shù)據(jù)處理部分5。
該屬性數(shù)據(jù)處理部分5具有屬性數(shù)據(jù)存儲器51。
注意本發(fā)明中屬性數(shù)據(jù)存儲器裝置相當于本實施例中的屬性數(shù)據(jù)存儲器51。
本發(fā)明的數(shù)據(jù)處理裝置相當于本實施例中的屬性數(shù)據(jù)處理部分5。
在本實施例中，語音識別處理部分3輸出由語音識別結(jié)果規(guī)定的演講者數(shù)據(jù)S3。
屬性數(shù)據(jù)處理部分5接收演講者數(shù)據(jù)S3作為輸入，針對存儲在屬性數(shù)據(jù)存儲器51中的屬性數(shù)據(jù)進行檢查并輸出屬性數(shù)據(jù)S5。
屬性數(shù)據(jù)存儲器51通過使兩者關(guān)聯(lián)存儲各演講者數(shù)據(jù)和屬性數(shù)據(jù)。
屬性數(shù)據(jù)是每個演講者諸如姓名，團體，性別和業(yè)余愛好等的個人信息，并且能夠通過從外部對屬性存儲器51進行訪問來更新。
圖9示出了對屬性數(shù)據(jù)S5進行處理的例子。
如圖9所示，使用一外部顯示裝置(未示出)能夠?qū)⒀葜v者的屬性數(shù)據(jù)輸出到屏幕上。也可以通過語音輸出。
根據(jù)本實施例的語音處理裝置1a，即使是在經(jīng)分別面向多個與會者的擴音器而使多個個人對語音處理裝置1的演講重疊的情況下，還是能夠通過提供給語音處理裝置1a的雙向電話通信部分2的特征對聲壓電平進行分析以用于各語音的頻帶，由此規(guī)定主講者的擴音器信號，并且該語音信號提供給語音識別處理部分3。
因此，在語音識別處理部分3中，即使當多個語音被同時輸入時，仍能夠盡可地避免導(dǎo)致錯誤的識別處理的可能性，并且可以適當判斷主講者的語音和執(zhí)行處理。
語音識別處理部分3利用聲紋可識別周期單元對給出的語音信號(擴音器信號)執(zhí)行語音識別處理，針對存儲在聲紋寄存器4中的聲紋數(shù)據(jù)進行檢查，并將匹配演講者數(shù)據(jù)給予屬性數(shù)據(jù)處理部分5。
在屬性數(shù)據(jù)處理部分5中，對照屬性數(shù)據(jù)存儲器51中的數(shù)據(jù)檢查輸入演講者數(shù)據(jù)，并且其屬性數(shù)據(jù)被顯示在未示出的外部顯示裝置等上，因此，與會者不需要參考分發(fā)的文件等，和能夠?qū)Ｗ⒂谘葜v，使會議能順利進行。
第三實施例下面將解釋本發(fā)明的第三實施例。
圖10的框圖示出了第三實施例的語音處理裝置1b的結(jié)構(gòu)。
與第一實施例的語音處理裝置1相比，語音處理裝置1b的不同點在于語音識別部分323還被提供給識別處理部分32b。
需要注意的是，本發(fā)明中的語音轉(zhuǎn)換裝置對應(yīng)于本實施例中的語音識別部分323。
語音識別部分323的語音識別與在第一實施例中解釋的由聲紋識別執(zhí)行的個人識別處理并行執(zhí)行，或者串行處理。
語音識別部分323將經(jīng)過雙向電話通信部分2和A/D轉(zhuǎn)換器31取得的擴音器信號轉(zhuǎn)換為作為語音識別結(jié)果的字符串數(shù)據(jù)(文本數(shù)據(jù))。
轉(zhuǎn)換后的字符串數(shù)據(jù)作為信號S3b輸出。
根據(jù)當前實施例的語音處理裝置1b帶來如第一實施例中同樣的效果。
也就是，根據(jù)本實施例的語音處理裝置1b，即使是在經(jīng)分別面向多個與會者的擴音器而使多個各人對著語音處理裝置1b的演講重疊的情況下，仍然可以能通過提供給語音處理裝置1a的雙向電話通信部分2的特征對聲壓電平進行分析一用于各語音的每個頻帶，規(guī)定主講者的擴音器信號，并且該語音信號被提供給語音識別處理部分3。
因此，在語音識別處理部分3中，即使當多個語音被同時輸入時，也能夠盡可能地避免導(dǎo)致錯誤的識別處理的可能性，并且可以適當?shù)嘏袛嘀髦v者的語音和執(zhí)行處理。
語音識別處理部分3利用聲紋可識別周期單元對給出的語音信號(擴音器信號)執(zhí)行語音識別處理，針對存儲在聲紋寄存器4中的聲紋數(shù)據(jù)進行檢查，并規(guī)定匹配的演講者數(shù)據(jù)。
當演講者被規(guī)定，由語音識別部分323對語音信號(擴音器信號)執(zhí)行語音識別處理，并且在外部存儲器中為每個演講者存儲該演講數(shù)據(jù)(擴音器信號)。
因此，例如，在會后創(chuàng)建備忘錄的情況下，由于存儲了與每個演講者相關(guān)的各自的演講數(shù)據(jù)，所以，數(shù)據(jù)整理就變得很容易。
本實施例并不局限于圖10中所示的內(nèi)容，和可以做各種修改。
圖11是圖10所示的本實施例語音處理裝置1b的改進結(jié)構(gòu)的例子。
在圖10所示的語音處理裝置1b中，CPU321b、語音識別部分322、語音識別部分323和聲紋寄存器4被集成配置，并且還提供了演講者數(shù)據(jù)存儲部分6作為每一演講者數(shù)據(jù)的輸出目的。
演講者數(shù)據(jù)存儲部分6被結(jié)構(gòu)成能夠存儲與多個演講者中的每一個相關(guān)的演講者數(shù)據(jù)，如圖11所示。
根據(jù)圖11所示的語音處理裝置1b，特定演講者的演講數(shù)據(jù)可以根據(jù)該語音處理裝置的使用狀況以聲音形式經(jīng)聲卡輸出、作為視頻(S3b_2)輸出給外部顯示裝置、和作為演講記錄存儲在上述演講者數(shù)據(jù)存儲部分6中。
上面解釋的實施例是為了容易理解本發(fā)明，而并不是對本發(fā)明做出限制。因此，上述實施例所披露的各要素包括屬于本發(fā)明技術(shù)領(lǐng)域設(shè)計和等效物中的所有修改。
權(quán)利要求
1.一種語音處理裝置，包括被安排成指向各自不同聲音收集方向的多個擴音器；擴音器選擇裝置，用于根據(jù)由所述多個擴音器收集的聲音的聲壓選擇一個擴音器；聲紋識別裝置，用于在一聲紋可識別周期內(nèi)基于由所述一個擴音器收集的語音信號連續(xù)地執(zhí)行聲紋識別并生成聲紋數(shù)據(jù)；和數(shù)據(jù)處理裝置，用于根據(jù)由所述聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)處理由所述一個擴音器收集的語音信號。
2.如權(quán)利要求1所述的語音處理裝置，還包括一聲紋數(shù)據(jù)存儲裝置，用于通過使兩者相互關(guān)聯(lián)存儲演講者數(shù)據(jù)和聲紋數(shù)據(jù)。其中，通過與通過針對存儲在所述聲紋數(shù)據(jù)存儲裝置中的聲紋數(shù)據(jù)進行檢查獲得的演講者數(shù)據(jù)相互關(guān)聯(lián)，所述的數(shù)據(jù)處理裝置對由一聲紋識別裝置產(chǎn)生的聲紋數(shù)據(jù)進行處理。
3.如權(quán)利要求2所述的語音處理裝置，其中使得存儲在所述聲紋數(shù)據(jù)存儲裝置中的演講者數(shù)據(jù)對應(yīng)于所述多個擴音器中的每一個；以及在對通過針對存儲在聲紋數(shù)據(jù)存儲器中的聲紋數(shù)據(jù)執(zhí)行檢查所獲得的第一演講者數(shù)據(jù)和對應(yīng)于所述一個擴音器的第二演講者數(shù)據(jù)進行比較所得結(jié)果的基礎(chǔ)上，所述數(shù)據(jù)處理裝置對由所述一個擴音器收集的語音信號進行處理。
4.如權(quán)利要求3所述的語音處理裝置，其中，所述數(shù)據(jù)處理裝置比較所述第一演講者數(shù)據(jù)和所述第二演講者數(shù)據(jù)，和只有當兩者相互匹配時，才通過與所述第二演講者數(shù)據(jù)相關(guān)聯(lián)對從所述一個擴音器輸出的語音信號進行處理。
5.如權(quán)利要求3所述的語音處理裝置，其中，所述的數(shù)據(jù)處理裝置比較所述第一演講者數(shù)據(jù)與第二演講者數(shù)據(jù)，并且，只有當兩者不匹配時，才通過與所述第一演講者數(shù)據(jù)相關(guān)聯(lián)對從所述一個擴音器輸出的語音信號進行處理。
6.如權(quán)利要求2所述的語音處理裝置，還包括一語音轉(zhuǎn)換裝置，用于將語音信號轉(zhuǎn)換為字符串數(shù)據(jù)，其中所述的語音轉(zhuǎn)換裝置將由所述一個擴音器收集的語音信號轉(zhuǎn)換為字符串數(shù)據(jù)；和所述的數(shù)據(jù)處理裝置通過與針對所述語音信號執(zhí)行檢查所獲得的演講者數(shù)據(jù)相關(guān)聯(lián)對所述的字符串數(shù)據(jù)進行處理。
7.如權(quán)利要求3所述的語音處理裝置，還包括一語音轉(zhuǎn)換裝置，用于將語音信號轉(zhuǎn)換為字符串數(shù)據(jù)，其中所述的語音轉(zhuǎn)換裝置將由所述一個擴音器收集的語音信號轉(zhuǎn)換為字符串數(shù)據(jù)；并且所述的數(shù)據(jù)處理裝置通過與針對所述語音信號執(zhí)行檢查所獲得的演講者數(shù)據(jù)相關(guān)聯(lián)對所述字符串數(shù)據(jù)進行處理。
8.如權(quán)利要求4所述的語音處理裝置，還包括一語音轉(zhuǎn)換裝置，用于將語音信號轉(zhuǎn)換為字符串數(shù)據(jù)，其中所述的語音轉(zhuǎn)換裝置將由所述一個擴音器收集的語音信號轉(zhuǎn)換為字符串數(shù)據(jù)；并且所述的數(shù)據(jù)處理裝置通過與針對所述語音信號執(zhí)行檢查所獲得的演講者數(shù)據(jù)相關(guān)聯(lián)來處理所述的字符串數(shù)據(jù)。
9.如權(quán)利要求5所述的語音處理裝置，還包括一語音轉(zhuǎn)換裝置，用于將語音信號轉(zhuǎn)換為字符串數(shù)據(jù)，其中所述的語音轉(zhuǎn)換裝置將由所述一個擴音器收集的語音信號轉(zhuǎn)換為字符串數(shù)據(jù)；和所述的數(shù)據(jù)處理裝置通過與針對所述的語音信號執(zhí)行檢查所獲得的演講者數(shù)據(jù)相關(guān)聯(lián)處理所述的字符串數(shù)據(jù)。
10.一種語音處理裝置，包括安排成指向各自不同聲音收集方向的多個擴音器；擴音器選擇裝置，用于根據(jù)由所述多個擴音器收集的語音的聲壓選擇一個擴音器；聲紋識別裝置，用于在聲紋可識別周期內(nèi)基于所述一個擴音器收集的語音信號連續(xù)地執(zhí)行聲紋識別并產(chǎn)生聲紋數(shù)據(jù)；以及聲紋數(shù)據(jù)存儲器裝置，用于通過兩者的關(guān)聯(lián)存儲演講者數(shù)據(jù)和聲紋數(shù)據(jù)；屬性數(shù)據(jù)存儲裝置，用于通過兩者的關(guān)聯(lián)存儲演講者數(shù)據(jù)和屬性數(shù)據(jù)，以及數(shù)據(jù)處理裝置，用于通過使由聲紋識別裝置生成的聲紋數(shù)據(jù)和存儲在所述聲紋數(shù)據(jù)存儲裝置中的聲紋數(shù)據(jù)相匹配規(guī)定演講者數(shù)據(jù)，并通過使所述演講者數(shù)據(jù)與對應(yīng)的屬性數(shù)據(jù)相互關(guān)聯(lián)對演講者數(shù)據(jù)進行處理。
11.如權(quán)利要求10所述的語音處理裝置，其中使得存儲在所述聲紋數(shù)據(jù)存儲裝置中的演講者數(shù)據(jù)對應(yīng)于所述多個擴音器中的每一個；并且在將通過針對存儲在聲紋數(shù)據(jù)存儲裝置中的聲紋數(shù)據(jù)執(zhí)行檢查所獲得的第一演講者數(shù)據(jù)與對應(yīng)于所述一個擴音器的第二演講者數(shù)據(jù)進行比較的比較結(jié)果的基礎(chǔ)上，所述的數(shù)據(jù)處理裝置處理對應(yīng)于所述第一演講者數(shù)據(jù)的屬性數(shù)據(jù)。
12.如權(quán)利要求11所述的語音處理裝置，其中，所述的數(shù)據(jù)處理裝置比較所述第一演講者數(shù)據(jù)和所述的第二演講者數(shù)據(jù)，并且，只有當這兩者相互匹配時，才處理對應(yīng)于所述第二演講者數(shù)據(jù)的屬性數(shù)據(jù)。
13.如權(quán)利要求11所述的語音處理裝置，其中，所述的數(shù)據(jù)處理裝置比較所述第一演講者數(shù)據(jù)和所述第二演講者數(shù)據(jù)，并且，只有當這兩者相互不匹配時，才處理對應(yīng)于所述第一演講者數(shù)據(jù)的屬性數(shù)據(jù)。
14.一種語音處理裝置，包括安排成指向各自不同聲音收集方向的多個擴音器；擴音器選擇裝置，用于根據(jù)由所述許多擴音器收集的聲音的聲壓選擇一個擴音器；以及語音轉(zhuǎn)換裝置，用于將由所述一個擴音器收集的語音信號轉(zhuǎn)換為字符串數(shù)據(jù)。
全文摘要
一種語音處理裝置，用于即使是在會議中多個與會者同時講話的情況下，也能高精度地執(zhí)行聲紋識別處理；其中雙向電話通信部分接收作為輸入的來自多個擴音器的各語音信號，基于該輸入語音信號選擇一擴音器，并且從擴音器輸出語音信號；聲紋識別部分322在一聲紋可識別周期內(nèi)根據(jù)輸入的語音信號執(zhí)行聲紋識別，并將聲紋數(shù)據(jù)連續(xù)地存儲在緩存器中；和，CPU連續(xù)從緩存器中取出聲紋數(shù)據(jù)，針對存儲在聲紋寄存器中的聲紋數(shù)據(jù)執(zhí)行檢查，規(guī)定演講者，并通過使該語音信號與該演講者相關(guān)聯(lián)，對從雙向電話通信部分輸出的語音信號進行處理。
文檔編號G10L15/00GK1584982SQ200410079459
公開日2005年2月23日申請日期2004年8月4日優(yōu)先權(quán)日2003年8月4日
發(fā)明者增田彰, 阿部義孝, 藤山英春申請人:索尼株式會社

完整全部詳細技術(shù)資料下載