專利名稱:語音檢測裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及檢測輸入音頻信號中語音段的開始和結(jié)束之處的裝置,在輸入音頻信號中還夾雜著非語音噪聲或背景噪聲。
背景技術(shù):
對于許多裝置來說,語音的實(shí)時(shí)檢測是必備的功能部件,這些裝置不勝枚舉,其中包括聲音啟動(dòng)的磁帶錄音機(jī)、應(yīng)答機(jī)器、自動(dòng)語音識別機(jī)和用于從音樂中去除話音的處理器等等。在許多這樣的應(yīng)用場合下,噪聲與語音密不可分地混合在一起。語音的檢測需要更為高級的語音檢測能力,簡單的檢測能級何時(shí)高于或低于預(yù)先設(shè)定閾值的常規(guī)裝置提供的檢測能力是不夠的。
在自動(dòng)語音識別領(lǐng)域,語音檢測部件是極為關(guān)鍵的。在實(shí)際應(yīng)用中,語音檢測帶來的錯(cuò)誤要比譜型匹配帶來的錯(cuò)誤多,后者通常用來確定語音信號的內(nèi)容。解決這個(gè)問題的一個(gè)途徑是利用單詞捕捉技術(shù)(word spotting technique),在該技術(shù)中識別器一直監(jiān)聽著特定的單詞。但是如果語音檢測沒有預(yù)先進(jìn)行單詞捕捉,則可能會引起較高的整體錯(cuò)誤率。
許多語音檢測裝置都基于輸入信號的某個(gè)參數(shù),例如能量、音調(diào)和零交匯點(diǎn)(zero crossing)。語音檢測器的性能很大程度上取決于那個(gè)參數(shù)對于背景噪聲的強(qiáng)壯度(robustness)。對于實(shí)時(shí)語音檢測,必須能較快地從信號中提取那個(gè)參數(shù)。發(fā)明內(nèi)容本發(fā)明的其中一個(gè)目標(biāo)是提供一種能夠以同步于信號輸入的速度(即實(shí)時(shí))工作的語音檢測裝置。
本發(fā)明的另一個(gè)目標(biāo)是提供一種可以用普通的數(shù)字信號處理電路板來實(shí)現(xiàn)的語音檢測裝置。
本發(fā)明的另一個(gè)目標(biāo)是提供一種對于夾雜有各種噪聲的語音仍然有效的語音檢測裝置。
本發(fā)明的另一個(gè)目標(biāo)是提供一種用于各種場合的語音檢測裝置,這些應(yīng)用場合不勝枚舉,其中包括孤立單詞自動(dòng)語音識別機(jī)、連續(xù)語音識別機(jī)(用來檢測語句中詞組之間的停頓)、聲控磁帶錄音機(jī)、應(yīng)答機(jī)器和對混錄有背景噪聲或音樂的話音進(jìn)行處理的處理器。
通過提供一種檢測輸入信號中語音的裝置達(dá)到了本發(fā)明的上述這些和其它目標(biāo),該裝置包括確定信號內(nèi)有限頻帶能量平滑值(smoothed frequency band limited energy)的裝置;確定信號內(nèi)有限頻帶能量平滑值方差的裝置;根據(jù)信號內(nèi)有限頻帶能量平滑值的方差和有限頻帶能量的先前歷程確定信號內(nèi)語音的開始和結(jié)束點(diǎn)的裝置。
本發(fā)明利用有限頻帶能量平滑值的方差和有限頻帶能量的先前歷程來檢測信號內(nèi)語音的開始和結(jié)束點(diǎn)。采用有限頻帶能量平滑值的方差是基于下述的觀察,即對于復(fù)雜背景下的前臺語音(諸如音樂背景烘托下歌唱家的聲音),其能級在波動(dòng)幅度相對較低的“噪聲平臺(noise floor)”上產(chǎn)生顯著的波動(dòng)。即使在背景噪聲能級較高的情況,方法仍然有效。方差量化了能量的波動(dòng)。
按照較佳實(shí)施例,裝置利用漢明窗和傅利葉變換計(jì)算有限頻帶能量平滑值。方差作為時(shí)間的函數(shù)從移位寄存器內(nèi)存儲的有限頻帶能量平滑值計(jì)算出來。為了確定語音的開始和結(jié)束點(diǎn),裝置將有限頻帶能量平滑值與預(yù)先設(shè)定的能量閾值進(jìn)行比較,將作為時(shí)間函數(shù)的方差與兩個(gè)預(yù)先確定的閾值(上閾值和下閾值)進(jìn)行比較,如果有限頻帶能量平滑值超過能量閾值,裝置則初步確定語音已經(jīng)開始。
但是,如果在經(jīng)過一段規(guī)定的時(shí)間后方差值未能上升超過上閾值水平,則取消對語音開始的初步確認(rèn)。從有限頻帶能量平滑值超過能量閾值到方差值超過上閾值的這一段時(shí)間內(nèi),裝置將信號表征為處于開始(B)語音狀態(tài)。一旦方差值超過上閾值水平,裝置就將信號表征為處于語音(S)狀態(tài)。最后,當(dāng)方差值低于下閾值水平時(shí)確定為語音結(jié)束之處。
另一種辦法是將有限頻帶能量的最近歷程以及作為時(shí)間函數(shù)的方差輸入精心設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的單值二進(jìn)制輸出確定語音是否繼續(xù)下去。
采用比較方差上下閾值的方法,最大程度地減少了語音檢測中的錯(cuò)誤率。利用有限頻帶能級來初步確定語音開始點(diǎn),最大程度地縮短了語音實(shí)際開始與語音檢測裝置作出反應(yīng)之間的延時(shí)。通過利用神經(jīng)網(wǎng)絡(luò)來確定語音的存在,該裝置可以檢測出多種噪聲中的語音。
比較好的是,裝置以集成電路硬件的形式實(shí)現(xiàn),以致于可以實(shí)時(shí)處理輸入信號根據(jù)有限頻帶能量的方差和有限頻帶能量的先前歷程實(shí)時(shí)確定語音的開始和結(jié)束之處。附圖的簡要說明從以下結(jié)合附圖的詳細(xì)描述將顯而易見本發(fā)明的精確特性及其目標(biāo)和優(yōu)點(diǎn),這里附圖中相同的參數(shù)字表示相同的部分,其中
圖1提供了采用按照本發(fā)明較佳實(shí)施例的語音檢測裝置的自動(dòng)語音識別機(jī)的框圖;圖2為圖1的語音檢測裝置的框圖;圖3提供的是流程圖,它表示了在圖1的語音檢測裝置中用于確定有限頻帶能量方差的方法;圖4為圖2的語音檢測裝置的狀態(tài)轉(zhuǎn)換示意圖;圖5為輸入信號的例子;以及圖6為第二實(shí)施例中圖2判斷單元的框圖,圖示了如何利用神經(jīng)網(wǎng)絡(luò)來確定語音的開始和結(jié)束點(diǎn)。
發(fā)明的最佳實(shí)施方式以下的描述使得本領(lǐng)域內(nèi)的技術(shù)人員能夠?qū)嵤┖屠冒l(fā)明人經(jīng)過深思熟慮作出的此發(fā)明及其最佳實(shí)施例。由于這里已經(jīng)給出了本發(fā)明的基本原理,特別是提供了根據(jù)輸入信號的有限頻帶能量的方差來檢測語音的開始和結(jié)束點(diǎn)的語音檢測裝置,所以本領(lǐng)域內(nèi)的技術(shù)人員很容易在此基礎(chǔ)上對本發(fā)明作出各種修改。
圖1示出了采用本發(fā)明的孤立單詞自動(dòng)語音識別系統(tǒng)的預(yù)處理器。來自話筒的模擬輸入101經(jīng)過電壓放大并由模擬—數(shù)字轉(zhuǎn)換器102以采樣頻率的速率(典型的為每秒1000次采樣)轉(zhuǎn)換成數(shù)字信號。最終的數(shù)字信號103被保存在存儲器區(qū)域104內(nèi),該區(qū)域可以存儲長達(dá)6.5536秒的語音(超過了一個(gè)單詞發(fā)音的周期)。如果超出了104的容量,則刪除舊的數(shù)據(jù)而保存新的數(shù)據(jù)。因此,104包含的是最近6.5536秒的輸入數(shù)據(jù)。數(shù)字信號103還用作語音檢測裝置105的輸入。輸出判斷信號106觸發(fā)門電路107,使由105確定為包含語音的存儲器104的一部分內(nèi)容通向輸出108。對于不同的應(yīng)用場合,可以修改緩沖器104的長度,并且在例如應(yīng)答機(jī)之類的應(yīng)用中,可以省卻緩沖器104而由信號106直接控制磁帶驅(qū)動(dòng)裝置。此外,緩沖器104還可以僅僅是延遲幾個(gè)毫秒的延時(shí)線路。
圖2詳細(xì)示出了語音檢測裝置105。圖1中的數(shù)字輸入信號103在圖2中表示為輸入信號201。信號201進(jìn)入能保持nf個(gè)連續(xù)輸入樣本(例如256個(gè))的延時(shí)線路。當(dāng)信號填滿時(shí),頻帶限制器203開始處理信號。當(dāng)已經(jīng)接收了nf/2個(gè)(例如128)新的輸入樣本數(shù)據(jù)201時(shí),延時(shí)線路202將128個(gè)樣本右移,從而刪除了128個(gè)保持時(shí)間最長的舊樣本,并且還將128個(gè)新樣本填入左半部分。這樣,移位寄存器202總是包含256個(gè)連續(xù)輸入的樣本并覆蓋50%的先前內(nèi)容。準(zhǔn)備128個(gè)新樣本的時(shí)間單位是幀,一幀可以是例如0.0128秒。
有限頻帶能量在203中計(jì)算。在將延時(shí)線路的元素乘以漢明窗之后,傅利葉變換205提取出202內(nèi)容中的頻譜。介于250—3500赫茲之間(該頻帶包含了最重要的語音信息)的頻譜成份由206轉(zhuǎn)換為分貝單位,并在207內(nèi)求和,從而產(chǎn)生有限頻帶能量,如圖2中信號251所示。
另外,除了將頻譜轉(zhuǎn)換器部分相加以外,還可以采用其它的方法計(jì)算有限頻帶的能量。例如,輸入信號可以通過卷積或遞歸濾波器進(jìn)行數(shù)字濾波,并且可以用下述方法測量其能量。這樣可以替代圖2中的202和203的全部。
頻帶限制也可以借助直接從模擬濾波器獲得的能量在模擬域上完成或通過下述方法完成。模擬帶寬限制器可以由帶通濾波器、低通濾波器或其它頻譜整形濾波器組成,或者可以利用放大器或話筒自身的頻率限制特性實(shí)現(xiàn),或者可以采用抗混濾波器的形式。能量可以直接取自濾波器或者采用下節(jié)所述方法獲得。以下將通過這些不同技術(shù)獲得的信號稱之為有限頻帶信號。
下面將一般隨有限頻帶信號的能量單調(diào)變化的量值稱為有限頻帶能量。與圖2所述方法不同,有限頻帶能量也可以由下列方法計(jì)算(a)計(jì)算一個(gè)短暫時(shí)間間隔內(nèi)有限頻帶信號的方差;(b)對一個(gè)短暫時(shí)間間隔內(nèi)有限頻帶信號的絕對值、幅值、修正值或其它功率的平方求和;或(c)確定一個(gè)短暫時(shí)間間隔內(nèi)有限頻帶信號的峰值、幅值、修正值或其它功率的平方的峰值。
現(xiàn)回到本發(fā)明的較佳實(shí)施例,有限頻帶能量由平滑模塊220進(jìn)行平滑。有限頻帶能量首先進(jìn)入延時(shí)線路259。在每一幀內(nèi),本例中是12.8毫秒之內(nèi),延時(shí)線路接收一個(gè)新樣本并右移一個(gè)余下的樣本。本例中延時(shí)線路的長度為10幀,等于0.128秒??s短延時(shí)線路會減少語音檢測裝置的響應(yīng)時(shí)間;時(shí)間長度的增加則使得裝置抵御脈沖噪聲的能力加強(qiáng)。
平滑計(jì)算單位250計(jì)算出延時(shí)線路259內(nèi)容的平均值,該數(shù)值就是有限頻帶能量平滑值208。
另外,也可以通過計(jì)算延時(shí)線路259中數(shù)值的中間值或通過計(jì)算具有平滑功能或抑制延時(shí)線路259內(nèi)容的短暫脈沖變化的函數(shù)來完成平滑計(jì)算250。在簡并的情況下,延時(shí)線路259的長度可以為1,信號251可以直接通向輸出208,從而使得有限頻帶能量平滑值208與有限頻帶能量251一致。
有限頻帶能量平滑值進(jìn)入了延時(shí)線路209。由于平滑計(jì)算250具有去除延時(shí)線路259內(nèi)容的快速變化的效果,所以用于方差計(jì)算的延時(shí)線路209能以低于每幀一次的速率接收新的數(shù)值。它在新的數(shù)值到達(dá)時(shí)右移一位原來的數(shù)值。延時(shí)線路長度的增加可以延長語音結(jié)束之前發(fā)音期間內(nèi)的停頓;延時(shí)線路長度的減少則加快了語音檢測器對語音結(jié)束的響應(yīng)時(shí)間。延時(shí)線路209的長度為nv,本例中是40,相應(yīng)于0.51秒的停頓 方差計(jì)算單元210計(jì)算了延時(shí)線路209中數(shù)值的方差。有限頻帶能量平滑值的方差V為V=g(A,B)這里g(A,B)=Anr-B×BnV×nr]]>而A=Σf=1f=nv(BLE(f)×BLE(f))]]>B=Σf=1f=nvBLE(f)]]>V是方差計(jì)算210的輸出211;BLE(f)是位于f=nv,…,3,2,1處的延時(shí)線路209的內(nèi)容;BLE(1)是保留時(shí)間最長的數(shù)值,而BLE是有限頻帶能量平滑值;方差211和有限頻帶能量平滑值208驅(qū)動(dòng)判斷單元212,其操作示于圖4和圖5中。
圖3示出了計(jì)算方差V的最快方式,這里省卻了方差計(jì)算210和延時(shí)線路209。這種較快的技術(shù)不是每次重新計(jì)算量值A(chǔ)和B,而是將其按上式更新A’=A+[BLE(nv)×BLE(nv)]-[BLE(0)×BLE(0)]B’=B+BLE(nv)-BLE(0)這里A’為A的更新值,用302表示,B’是B的更新值,用303表示,并且BLE(nv)是來自圖2的208的最新有限頻帶能量平滑值301,而BLE(0)是保留時(shí)間最長的有限頻帶能量平滑值304。
BLE的平方在延時(shí)線路305中延遲??梢允s延時(shí)線路而直接對來自304的數(shù)值作平方運(yùn)算。延時(shí)線路305和306應(yīng)該初始化為零。而且應(yīng)注意,延時(shí)線路306和305的長度比圖2的延時(shí)線路209長1個(gè)單位。
圖6表示采用神經(jīng)網(wǎng)絡(luò)的判斷單元(圖2中的212)的框圖。取前1.28秒語音期間內(nèi)的有限頻帶能量的一些樣本和頻帶能量平滑值的方差作為神經(jīng)網(wǎng)絡(luò)620的輸入。延時(shí)線路603存儲過去1秒的有限頻帶能量602,而寄存器604存儲有限頻帶能量的方差601。神經(jīng)網(wǎng)絡(luò)的輸出621為一個(gè)二進(jìn)制判斷值,確定了當(dāng)前幀是否包含語音。這對應(yīng)于圖2的214。
另外,判斷單元可以采用閾值計(jì)算法。圖4表示利用方差(圖2中的211)和能量(圖2中的213)來檢測語音存在的判斷單元的狀態(tài)轉(zhuǎn)換示意圖。圖5表示語音信號的有限頻帶能量平滑值SBLE有限頻帶能量平滑值的方差VSBLE和相應(yīng)的狀態(tài)的例子,以利于理解狀態(tài)狀態(tài)轉(zhuǎn)換示意圖。每一幀內(nèi),這里是0.0128秒內(nèi),狀態(tài)轉(zhuǎn)換示意圖中的狀態(tài)發(fā)生一次轉(zhuǎn)換(transition)。
狀態(tài)轉(zhuǎn)換示意圖中的狀態(tài)開始處于N—或噪聲—狀態(tài)(502)。只要SBLE小于能量閾值510,就取402轉(zhuǎn)換,并留在狀態(tài)N上。當(dāng)SBLE超出能量閾值510時(shí),取403轉(zhuǎn)換并進(jìn)入狀態(tài)B(初步確定的語音開始503)。因此該能量用來快速觸發(fā)裝置。當(dāng)進(jìn)入狀態(tài)B時(shí),裝置確定語音在前幾個(gè)毫秒之處已經(jīng)開始。這段時(shí)間z一般等于延時(shí)線路259的長度。
狀態(tài)B要保留一段預(yù)先設(shè)定的時(shí)間即取轉(zhuǎn)換404。如果時(shí)間太短,則估計(jì)的開始點(diǎn)將過份推后,語音頭將被截去;當(dāng)這段時(shí)間較長時(shí),雖然沒有不精確,但延緩了語音檢測器響應(yīng)語音開始的時(shí)間;如果這段時(shí)間長于延時(shí)線路209的長度,那么裝置將完全丟失語音。在本例中,這段時(shí)間為175毫秒。在這段時(shí)間的結(jié)束點(diǎn),檢測VSBLE以檢查其是否超過方差上閾值506并離開狀態(tài)B。如果VSBLE低于方差上閾值,則取轉(zhuǎn)換406并放棄初步確定的開始點(diǎn),而裝置返回N狀態(tài)。如果SBLE高于方差上閾值,則取轉(zhuǎn)換405,裝置進(jìn)入S狀態(tài)504,這意味著語音已經(jīng)確認(rèn)并正在輸入裝置。
只要VSBLE保持在方差下閾值501之上,就維持轉(zhuǎn)換407并留在狀態(tài)S。當(dāng)VSBLE跌落到方差下閾值之下,轉(zhuǎn)換408使得裝置進(jìn)入E狀態(tài),表示已經(jīng)檢測到語音結(jié)束。語音結(jié)束點(diǎn)確定為在進(jìn)入E狀態(tài)之前SBLE最后一次低于能量閾值的地方。在下一幀處,裝置又返回N狀態(tài)。
如果圖1門電路107后面的裝置是自動(dòng)語音識別機(jī),則通過圖2線路214上的當(dāng)前狀態(tài)連接到圖1的106上,從而控制門電路107,就可以實(shí)時(shí)處理輸入的語音。延時(shí)僅僅來自語音檢測器確定語音開始點(diǎn)所用的時(shí)間。如果語音可以在狀態(tài)B下傳送到自動(dòng)語音識別機(jī),即如果門電路或識別機(jī)能夠在406轉(zhuǎn)換時(shí)取消輸入的語音,那么自動(dòng)語音識別機(jī)就可以在一個(gè)等于延時(shí)線路259長度的延遲時(shí)間后立即開始處理語音。
上面描述了用于檢測輸入信號中是否存在語音的裝置。該裝置根據(jù)信號內(nèi)的有限頻帶能量平滑值的方差計(jì)算語音的開始和結(jié)束之處。通過利用有限頻帶能量平滑值的方差,有效而實(shí)時(shí)地檢測出了語音的存在。該裝置特別適合用于檢測包含語音的錄音段,從而提取和進(jìn)一步處理錄音段。
在不偏離本發(fā)明的范圍和精神的前提下,本領(lǐng)域的技術(shù)人員可以很容易地對上述較佳實(shí)施例作出各種更改和改進(jìn)。因此本發(fā)明由后面所附權(quán)利要求所限定而不拘泥于上述具體的描述。
權(quán)利要求
1.一種用于檢測輸入信號中語音的裝置,其特征在于包含用于確定信號內(nèi)有限頻帶能量平滑值(smoothed frequencyband limited energy)的裝置;用于確定信號內(nèi)所述有限頻帶能量平滑值的方差的裝置;以及用于根據(jù)信號內(nèi)所述有限頻帶能量平滑值方差和所述有限頻帶能量平滑值的先前歷程確定信號內(nèi)語音的開始和結(jié)束點(diǎn)的裝置。
2.如權(quán)利要求1所述的裝置,其特征在于,所述用于確定信號內(nèi)有限頻帶能量平滑值的裝置包含用于確定與信號相關(guān)的頻率的裝置;用于選取信號中頻率在預(yù)定范圍內(nèi)的部分的裝置;用于確定所選取信號部分內(nèi)總能量值的裝置,所述總能量值為頻帶能量;以及用于平滑所述有限頻帶能量的裝置,所得數(shù)值為有限頻帶能量平滑值。
3.如權(quán)利要求1所述的裝置,其特征在于,所述用于確定信號內(nèi)有限頻帶能量平滑值數(shù)值的裝置包含將漢明窗濾波器應(yīng)用于部分信號以產(chǎn)生濾波信號的裝置;將傅利葉變換應(yīng)用于所述濾波信號以產(chǎn)生變換后信號的裝置;用于對所述變換后信號求和以產(chǎn)生該信號部分總能量值的裝置,該信號能量值為有限頻帶能量;以及將濾波器應(yīng)用于所述有限頻帶能量的裝置,所得結(jié)果為所述有限頻帶能量平滑值。
4.如權(quán)利要求1所述的裝置,其特征在于包含接收語音信號的裝置;存儲一個(gè)連續(xù)m秒間隔內(nèi)的信號部分的裝置;以及當(dāng)接收到新的信號時(shí)更新所存儲信號部分的裝置。
5.如權(quán)利要求4所述的裝置,其特征在于m介于0與10秒之間。
6.如權(quán)利要求4所述的裝置,其特征在于所述存儲信號部分的裝置包含移位寄存器。
7.如權(quán)利要求1所述的裝置,其特征在于,所述確定有限頻帶能量平滑值方差的裝置包含存儲多個(gè)有限頻帶能量平滑值數(shù)值的裝置,該數(shù)值作為時(shí)間的函數(shù)被存儲;計(jì)算方差V的裝置,V由V=g(A,B)給出;這里BLE(f)表示多個(gè)有限頻帶能量平滑值,nv是數(shù)值的編號,f=nv,...,3,2,1;而BLE(1)為保留時(shí)間最長的BLE數(shù)值。
8.如權(quán)利要求7所述的裝置,其特征在于,所述確定有限頻帶能量方差值的裝置包含當(dāng)接收到新的BLE(nv)數(shù)值時(shí)計(jì)算V=g(A’,B’)的裝置,這里A’=A+[BLE(nv)×BLE(nv)]-[BLE(0)×BLE(0)];B’=B+BLE(nv)-BLE(0);A’為A的更新值,B’為B的更新值,以及BLE(nv)為最新的BLE數(shù)值,而BLE(1)為保留時(shí)間最長的BLE數(shù)值。
9.如權(quán)利要求1所述的裝置,其特征在于,所述根據(jù)有限頻帶能量平滑值的方差確定語音信號內(nèi)語音開始和結(jié)束之處的裝置包含當(dāng)所述有限頻帶能量平滑值超過預(yù)先設(shè)定的能量閾值時(shí)確定語音開始(B)的裝置;以及當(dāng)所述有限頻帶能量平滑值的方差低于預(yù)先確定的方差下閾值時(shí)確定語音結(jié)束(E)的裝置。
10.如權(quán)利要求9所述的裝置,其特征在于,所述能量閾值和方差下閾值都是預(yù)先確定的,并且語音信號的開始(B)之處確定為有限頻帶能量平滑值首次超過能量閾值水平前的z秒。
11.如權(quán)利要求10所述的裝置,其特征在于z介于0與100秒之間。
12.如權(quán)利要求9所述的裝置,其特征在于,所述上閾值和下閾值都是預(yù)先確定的,并且語音信號的結(jié)束(E)點(diǎn)確定為有限頻帶能量平滑值的方差低于方差下閾值之前的z秒。
13.如權(quán)利要求12所述的裝置,其特征在于z介于0與100秒之間。
14.如權(quán)利要求9所述的裝置,其特征在于,語音信號的結(jié)束(E)之處確定為在有限頻帶能量平滑值的方差低于方差下閾值之前的最后一次有限頻帶能量平滑值低于能量閾值的地方。
15.如權(quán)利要求1所述的裝置,其特征在于,所述根據(jù)有限頻帶能量平滑值的方差和有限頻帶能量平滑值的先前歷程確定語音信號內(nèi)語音開始和結(jié)束點(diǎn)的裝置包含精心設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)。
16.如權(quán)利要求1所述的裝置,其特征在于,如果在有限頻帶能量平滑值超過能量閾值之后的t秒內(nèi),有限頻帶能量平滑值的方差沒有超出方差上閾值,則放棄語音的開始點(diǎn)。
17.如權(quán)利要求16所述的裝置,其特征在于t介于0與100秒之間。
18.識別輸入信號內(nèi)語音的裝置,其特征在于包含接收語音信號的裝置、確定信號內(nèi)語音開始和結(jié)束之處的裝置以及確定信號內(nèi)語音開始與結(jié)束之間語音內(nèi)容的裝置,確定語音開始和結(jié)束點(diǎn)的裝置經(jīng)過改進(jìn)后包含用于確定輸入信號內(nèi)有限頻帶能量平滑值數(shù)值的裝置;用于確定所述有限頻帶能量平滑值的方差的裝置;以及用于根據(jù)所述有限頻帶能量平滑值的方差和所述有限頻帶能量平滑值的先前歷程確定語音信號內(nèi)語音的開始和結(jié)束點(diǎn)的裝置。
19.一種檢測輸入信號x(t)內(nèi)語音的裝置,其特征在于包含用于確定所述輸入信號內(nèi)有限頻帶能量平滑值的方差的裝置;以及用于根據(jù)所述有限頻帶能量平滑值的方差和有限頻帶能量平滑值先前歷程確定信號內(nèi)語音的開始和結(jié)束點(diǎn)的語音間隔確定裝置。
20.如權(quán)利要求19所述的裝置,其特征在于所述有限頻帶的能量平滑值來自經(jīng)過傅利葉變換的輸入信號。
21.如權(quán)利要求19所述的裝置,其特征在于,所述的方差由一段間隔為m秒的連續(xù)時(shí)間內(nèi)的有限頻帶能量平滑值確定。
22.如權(quán)利要求21所述的裝置,其特征在于m介于0與10秒之間。
23.如權(quán)利要求1所述的裝置,其特征在于,通過保持m秒內(nèi)有限頻帶能量平滑值之和與所述m秒內(nèi)有限頻帶能量平滑值的平方之和確定有限頻帶能量平滑值的方差,為了確定新的方差,通過加上最新的有限頻帶能量平滑值的平方并減去m秒之前的有限頻帶能量平滑值的平方更新有限頻帶能量平滑值的平方和,通過加上最新的有限頻帶能量平滑值并減去m秒之前的有限頻帶能量平滑值更新有限頻帶能量平滑值。
24.如權(quán)利要求1所述的裝置包含一個(gè)信號記錄儀,其特征在于,所述信號記錄裝置包含接收信號的裝置;存儲最近m秒信號的裝置;以及選取對應(yīng)于由權(quán)利要求1所述的裝置確定的開始和結(jié)束點(diǎn)的存儲信號部分的裝置。
25.如權(quán)利要求1所述的裝置包含信號記錄裝置,其特征在于所述信號記錄裝置包含接收信號的裝置;存儲最近m秒信號的裝置;以及在接收信號的同時(shí)選取z秒前信號部分的裝置,其中z由權(quán)利要求1的裝置確定。
26.如權(quán)利要求25所述的裝置,其特征在于z介于0與100秒之間。
27.如權(quán)利要求25所述的裝置,其特征在于m大于或等于零秒。
28.如權(quán)利要求1所述的裝置,其特征在于,所述用于確定信號內(nèi)有限頻帶能量平滑值數(shù)值的裝置包含計(jì)算有限頻帶能量的裝置;以及將平滑函數(shù)應(yīng)用于有限頻帶能量值以產(chǎn)生有限頻帶能量平滑值的裝置。
29.如權(quán)利要求28所述的裝置,其特征在于,所述用于對有限頻帶能量值進(jìn)行平滑的裝置包含計(jì)算有限頻帶能量值最新中間值的裝置。
30.如權(quán)利要求28所述的裝置,其特征在于,所述用于對有限頻帶能量值進(jìn)行平滑的裝置包含計(jì)算有限頻帶能量值最新平均值的裝置。
31.如權(quán)利要求28所述的裝置,其特征在于,所述用于對有限頻帶能量值進(jìn)行平滑的裝置包含采用抑制有限頻帶能量值快速變化的濾波器的裝置。
全文摘要
本發(fā)明涉及一種根據(jù)輸入信號內(nèi)有限頻帶能量平滑值的方差和有限頻帶能量平滑值的先前歷程確定信號內(nèi)語音的開始和結(jié)束點(diǎn)的裝置。利用這種方差可以在信號信噪比較高的情況下進(jìn)行檢測,并且在音樂、馬達(dá)聲、背景噪聲等一系列場合下精確檢測出語音。采用現(xiàn)成的硬件連同高速專用數(shù)字信號處理器集成電路可以很容易地實(shí)現(xiàn)這種裝置。
文檔編號G10L11/00GK1131472SQ9419343
公開日1996年9月18日 申請日期1994年7月18日 優(yōu)先權(quán)日1994年7月18日
發(fā)明者B·K·萊維斯 申請人:松下電器產(chǎn)業(yè)株式會社, 語言技術(shù)實(shí)驗(yàn)室