一種雙門限地名語音端點檢測方法與流程

文檔序號：12678455閱讀：474來源：國知局

本發(fā)明屬于語音端點檢測領域，特別涉及一種雙門限地名語音端點檢測方法。

背景技術：

隨著經濟的高速發(fā)展和全球化趨勢的日益突出，現代物流行業(yè)已在發(fā)達國家得到了空前的發(fā)展，并產生了巨大的經濟效益和社會效益。物流資源有運輸、倉儲、分揀、包裝、配送等，這些資源分散在多個領域，包括制造業(yè)、農業(yè)、流通業(yè)等。

在分揀環(huán)節(jié)中，現階段基本是人工進行分揀，由于工人們長期處于嘈雜的工作環(huán)境中，心里和身體上勢必會產生一定的疲勞感，并且工作任務的單一性和重復性也會使他們的工作狀態(tài)過于放松，這必然導致分揀精確性的下降，造成較多不可挽回的分揀失誤事故發(fā)生，因此工業(yè)領域中對流水線上的產品進行人工檢測的方式已不能滿足現代化工業(yè)的需求。

語音識別作為人機交互的重要接口，發(fā)展到現在已經在很多方面改變了我們的生活，從智能家居的語音控制系統(tǒng)到車載語音識別系統(tǒng)等，因此將語音識別技術與物流分揀環(huán)節(jié)的融合是物流行業(yè)發(fā)展的必然要求。

而在語音識別技術中，端點檢測技術是語音識別中極為重要的環(huán)節(jié)，其效果的好壞直接影響最終的識別結果，傳統(tǒng)的基于短時能量和過零率的端點檢測方法是在理想的環(huán)境中才能適用，且對于孤立詞的地名語音信號，端點檢測的準確率相對較低。

技術實現要素：

本發(fā)明的目的在于克服現有技術的缺點與不足，提供一種雙門限地名語音端點檢測方法，提高了端點檢測的準確性。

一種雙門限地名語音端點檢測方法，包括以下步驟：從第一幀信號開始判斷每幀語音信號的能量與最低能量閾值、最高能量閾值的大小，判斷過零率與過零率閾值的大小，從而確定對下一幀信號進行檢測的合適方法，并在可能進入語音狀態(tài)的情況下，通過增加變量來對語音段前面出現的發(fā)音輕時間段的語音信號進行保留。

具體步驟如下：

1、接收經過預處理的地名語音信號，判斷每幀語音信號的能量與最低能量閾值、最高能量閾值的大小以及判斷過零率與過零率閾值的大??；

2、當第i幀語音信號的能量＜最低能量閾值時，將狀態(tài)變量設置為0，語音長度計數變量設置成0，表明仍處于靜音段，繼續(xù)返回步驟1進行下一幀檢測；

當最高能量閾值＞第i幀語音信號的能量＞最低能量閾值，且過零率＞過零率閾值，將狀態(tài)變量設置為1，表明可能處于語音段，將語音長度計數變量加1，同時將可能處于語音段的長度的變量加1，并返回步驟1進行下一幀檢測；

3、若已經有狀態(tài)變量為1，則對可能處于語音段的語音信號按照一定的標準進行篩選，進一步區(qū)分噪音段和語音段；

4、當第i幀語音信號的能量＞最高能量閾值，則將狀態(tài)變量設置為2，表示進入語音段，同時將語音長度計數變量加1，按照步驟5進行下一幀檢測；

5、判斷當前幀語音信號的能量＞最低能量閾值或當前幀語音信號的過零率＞過零率閾值是否成立；

若成立，表示還在語音段，不是靜音，將狀態(tài)變量保持為2，語音長度計數變量加1，按照步驟5繼續(xù)下一幀檢測；

若不成立，說明信號已經從語音段轉向靜音段，則將靜音長度加1，并對靜音長度作進一步判斷；直到找到全部有效的語音信號，將狀態(tài)參數設置為3，結束進程。

優(yōu)選的，若已經有狀態(tài)變量為1，且語音信號的能量小于最低能量閾值時，判斷可能處于語音段的長度的變量大于一定閾值是否成立，若成立，表示當前是噪音段，舍棄前面的語音部分，令狀態(tài)變量，語音長度計數變量和可能處于語音段的長度的變量等于0并返回步驟1繼續(xù)下一幀檢測；若不成立，則表示可能還在語音段，保持狀態(tài)變量等于1且將語音長度計數變量加1，可能處于語音段的長度的變量加1，返回步驟1進行下一幀檢測。

進一步的，上述一定閾值等于6。

優(yōu)選的，對靜音長度作進一步判斷的步驟是：判斷靜音長度＜最大靜音長度是否成立；

若成立，則保持狀態(tài)變量為2，將語音長度計數變量加1，并按照步驟5進行下一幀檢測；

若不成立，則判斷語音長度計數變量＜語音信號最小長度是否成立；若語音長度計數變量＜語音信號最小長度成立，表明前面檢測出來的都是噪聲，將狀態(tài)變量設置為0、靜音段長度設置為0、語音長度計數變量設置為0，再繼續(xù)檢驗；若語音長度計數變量＜語音信號最小長度不成立，表示語音段已經找到，認為是有效的語音信號，將狀態(tài)參數設置為3，結束進程。

優(yōu)選的，初始狀態(tài)下，令狀態(tài)變量等于0，語音長度計數變量等于0，用于計算未確定進入語音段時可能處于語音段的長度的變量等于0，靜音長度等于0。

優(yōu)選的，所述最低能量閾值的值為0.01，最高能量閾值的值是0.1，過零率閾值為100。

優(yōu)選的，所述靜音最大長度等于10，所述語音信號最小長度等于5。

優(yōu)選的，預處理過程包括預加重處理及分幀處理。

具體的，預加重處理是通過具有6dB/倍頻程的提升高頻特性的數字濾波器來實現，所述高通濾波器滿足H(z)＝1-μz^-1，μ＝0.97；按照幀長256，幀移128對語音信號進行分幀。

本發(fā)明與現有技術相比，具有如下優(yōu)點和有益效果：

本發(fā)明結合孤立詞的地名語音信號的特點，通過對傳統(tǒng)的雙門限方法進行改進，加入用于計算未確定進入語音段時可能處于語音段的長度的變量slience1變量，以及優(yōu)化各種端點檢測參數，能夠保證輕音且持續(xù)時間很短的斷續(xù)的地名語音信號的前一部分不會被判定為噪聲，從而避免丟失語音信號，提高了端點檢測的準確性以及現場應用環(huán)境的適應性，降低了端點檢測對環(huán)境的要求。

附圖說明

圖1是實施例方法的過程示意圖。

具體實施方式

下面結合實施例及附圖對本發(fā)明作進一步詳細的描述，但本發(fā)明的實施方式不限于此。

在地名語音信號的端點檢測過程中，如果一段地名語音先是處于語音段，然后處于靜音段，再進入正常語音段，則傳統(tǒng)的端點檢測方法會將正常語音段前面的一段認為是噪音段，然后重新剪切語音信號，這就導致語音信號的丟失，例如“石家莊”這個發(fā)音，“石”發(fā)音很輕很短，不易識別。

而本實施例給出的雙門限地名語音端點檢測方法，基于改進的短時平均能量和過零率，通過加入用于計算未確定進入語音段時可能處于語音段的長度的變量slience1，即使遇到上述情況，也能夠保存正常語音段前面的語音長度，將其作為有效片段，從而提高端點檢測的有效性。

在進行端點檢測前，對地名語音信號進行預處理，包括預加重處理(Pre-emphasis)及分幀處理。

由于語音信號的平均功率受聲門激勵和口鼻輻射的影響，高頻端大約在80Hz以上按6dB倍頻程跌落，所以當求語音信號頻譜時，頻率越高相應的成分越小，高頻部分的頻譜比低頻部分難求，因此要對語音信號進行預加重處理。預加重處理的中心思想是利用信號特性和噪聲特性的差別來有效地對信號進行處理，目的是提升高頻部分，使信號的頻譜變得平坦，保持在低頻到高頻的整個頻帶中，能用同樣的信噪比求頻譜，以便于頻譜分析或聲道參數分析。預加重是通過具有6dB/倍頻程的提升高頻特性的數字濾波器來實現，本實施例中采用高通濾波器，所述高通濾波器滿足H(z)＝1-μz^-1，μ＝0.97。

另外，語音信號從整體來看，其特性及表征其本質特征的參數均是隨時間變化的，但是它又具有短時平穩(wěn)特性，在短時間內(一般為10ms～30ms內)可以看作是一個近似不變的平穩(wěn)過程。

目前絕大多數的語音信號處理技術均是在短時的基礎上對語音信號進行分幀處理，然后分別對每一幀提取特征參數段，為了使幀與幀之間平滑，保持連續(xù)性，一般采用交疊分幀的方法，使前一幀和后一幀具有相交部分，相交部分稱為幀移，分幀時要對幀長和幀移的長度進行選擇，如果采用較大的幀長，則幀數太少，計算量會小，系統(tǒng)處理的速度快，但容易增加端點檢測的誤差，如果采用較小的幀長，則幀數較多，計算量增加，系統(tǒng)處理的速度慢。一般每秒的幀數約為33～100幀，幀移一般取幀長的1/3～2/3，本實施例中，按照幀長256，幀移128對語音信號進行分幀，256、128均為采樣點個數。

對地名語音信號經過預處理后，即可進行端點檢測，，如附圖1所示，具體步驟如下：

初始狀態(tài)下，令狀態(tài)變量status＝0，語音長度計數變量count＝0，用于計算未確定進入語音段時可能處于語音段的長度的變量slience1＝0，靜音長度slience＝0。

S1、接收經過預處理的地名語音信號，判斷每幀語音信號的能量amp[i]與最低能量閾值amp2、最高能量閾值amp1的大小以及判斷過零率zcr[i]與過零率閾值zcr的大小，其中，所述最低能量閾值amp2的值為0.01，最高能量閾值amp1的值是0.1，過零率閾值zcr為100。

這些閾值均是語音信號在歸一化處理之后設置的閾值，假設語音信號為x＝[x₁，x₂，…x_n]，則歸一化處理是：

在這些處理之后，信號x中的所有值均在[-1，1]之間。在這基礎上設定的閾值，以下數據均是在歸一化之后設定的閾值。

這個過程是將語音信號的每一幀依次進行檢測，根據語音信號各幀的判斷結果，設置狀態(tài)變量status的值，從而確定下一幀語音信號應該如何進行判斷。

S2、當第i幀語音信號的能量amp[i]＜最低能量閾值amp2時，將狀態(tài)變量status設置為0，語音長度計數變量count設置成0，表明仍處于靜音段，繼續(xù)返回S1步驟進行下一幀檢測；

S3、當最高能量閾值amp1＞第i幀語音信號的能量amp[i]＞最低能量閾值amp2，且過零率zcr[i]＞過零率閾值zcr，將狀態(tài)變量status設置為1，表明可能處于語音段，將語音長度計數變量count加1，同時將可能處于語音段的長度的變量sliencel加1，并返回S1步驟進行下一幀檢測。

S4、若已經進入狀態(tài)status＝1，且當下一幀語音信號的能量小于最低能量閾值amp2時，判斷sliencel＞6是否成立，若成立，表示當前是噪音段，舍棄前面的語音部分，令狀態(tài)變量status＝0，語音長度計數變量count＝0，可能處于語音段的長度的變量slience1＝0并返回S1步驟繼續(xù)下一幀檢測；若不成立，則表示可能還在語音段，保持狀態(tài)變量status＝1且將語音長度計數變量count加1，可能處于語音段的長度的變量slience1加1，返回S1步驟進行下一幀檢測。

S5、當第i幀語音信號的能量amp[i]＞最高能量閾值amp1，則將狀態(tài)變量status設置為2，表示進入語音段，同時將語音長度計數變量count加1，按照S6步驟進行下一幀檢測。

S6、判斷當前幀語音信號的能量amp[i]＞最低能量閾值amp2或當前幀語音信號的過零率zcr[i]＞過零率閾值zcr是否成立。

若成立，表示還在語音段，不是靜音，將狀態(tài)變量status保持為2，語音長度計數變量count加1，按照S6步驟繼續(xù)下一幀檢測。

若不成立，說明信號已經從語音段轉向靜音段，則將靜音長度slience加1，此處靜音長度slience變量是用于后面判斷語音信號是否結束，并執(zhí)行S9步驟。

S9、判斷靜音長度slience＜最大靜音長度maxslience是否成立，其中所述靜音最大長度maxslience＝10；

若成立，則表示可能還在語音段，這是因為在前面出現語音信號之后，當前靜音段的語音長度沒有達到最大靜音長度，則說明語音信號后面可能還沒結束，可能還有信號，因此可能還在語音段，保持狀態(tài)變量status為2，將語音長度計數變量count加1，并按照步驟S6進行下一幀檢測。

若不成立，則判斷語音長度計數變量count＜語音信號最小長度minlen是否成立，其中所述語音信號最小長度minlen＝5；若語音長度計數變量count＜語音信號最小長度minlen成立，表明前面檢測出來的都是噪聲，這是因為：正常的語音信號長度應該大于語音信號最小長度minlen，若小于此長度，則判定為噪聲，將狀態(tài)變量status設置為0、靜音段長度slience設置為0、語音長度計數變量count設置為0，再繼續(xù)檢驗；若語音長度計數變量count＜語音信號最小長度minlen不成立，表示語音段已經找到，認為是有效的語音信號，因此可以結束整個過程，即將狀態(tài)參數status設置為3，結束進程。

本實施例中對于范圍的判斷都是用大于或者小于表達，未提及等于，可將等于歸結為大于那一類。

上述實施例為本發(fā)明較佳的實施方式，但本發(fā)明的實施方式并不受上述實施例的限制，其他的任何未背離本發(fā)明的精神實質與原理下所作的改變、修飾、替代、組合、簡化，均應為等效的置換方式，都包含在本發(fā)明的保護范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：謝巍;董萬里
技術所有人：華南理工大學
我是此專利的發(fā)明人

上一篇：一種自動控制的膠圈骨架修整裝置的制作方法
上一篇：偏心螺絲刀的制作方法與工藝

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

雙門限端點檢測相關技術

語音端點檢測相關技術

語音信號端點檢測相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種雙門限地名語音端點檢測方法與流程