專利名稱:有效的用來檢測(cè)固定功率信號(hào)的語音活動(dòng)檢測(cè)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體涉及信號(hào)處理,尤其涉及區(qū)別話音信號(hào)和非話音信號(hào)。
背景技術(shù):
通過將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),語音被承載在數(shù)字電話網(wǎng)絡(luò) 上,無論是電路交換還是分組交換的數(shù)字電話網(wǎng)絡(luò)。在分組交換的網(wǎng) 絡(luò)的情形下,代表數(shù)字信號(hào)的音頻采樣被組包,并且組包的采樣通過 網(wǎng)絡(luò)被電子發(fā)送。組包的采樣在目的地節(jié)點(diǎn)被接收,該采樣被拆包, 模擬信號(hào)被重建并提供給另一方。
在與其他方通話時(shí),存在雙方都不說話的時(shí)間段。在這種時(shí)間段
中,背景噪聲(可包括背景語音)可由該電話的傳聲器(microphone) 接收到。當(dāng)呼叫的任何一方都不在講話和沒有可聽見的呼叫信令傳送
(signaling)時(shí)所接收到的比如背景噪聲的音頻信息,比如音(tone), 在此被稱作"靜音(silence)"。
靜音抑制是在參與電話呼叫的一方?jīng)]有講話時(shí)在網(wǎng)絡(luò)上不傳輸 音頻信息,以此顯著減少帶寬使用率并協(xié)助對(duì)抖動(dòng)緩沖器調(diào)整點(diǎn)的識(shí) 別的過程。在因特網(wǎng)上語音協(xié)議("VoIP")系統(tǒng)中,語音活動(dòng)檢測(cè)
("VAD")或話音活動(dòng)檢測(cè)("SAD")被用來動(dòng)態(tài)監(jiān)視背景噪聲、設(shè) 定合適的話音檢測(cè)閾值以及識(shí)別抖動(dòng)緩沖器調(diào)整點(diǎn)。VAD檢測(cè)音頻信 號(hào)或其采樣中人的話音的存在與否,并使用該信息識(shí)別靜音期。當(dāng)靜 音抑制生效時(shí),在這種靜音期接收到的音頻信息不在網(wǎng)絡(luò)上傳輸給其 它(目的地)端點(diǎn)。在給定了在任何一個(gè)時(shí)間通常是通話中的一方在 講話的條件下,靜音抑制可以在典型電話呼叫的持續(xù)過程中實(shí)現(xiàn)整體 帶寬50°/。的節(jié)省。
在語聲的話音和背景噪聲之間進(jìn)行區(qū)別是困難的。而且,VAD 或SAD必須很快進(jìn)行以避免削波(clip )。為了解決這些問題,已經(jīng) 使用了一些區(qū)別復(fù)雜度的算法。例子包括基于能量閾值(例如,使用 信噪比或SNR)、音調(diào)檢測(cè)、頻嫌(spectrum)或光鐠(spectral) 形狀分析、零交叉速率(例如,確定信號(hào)幅度從正改變到負(fù)有多頻繁)、 周期測(cè)量、線性預(yù)測(cè)碼或LPC剩余(residual)域中的高階統(tǒng)計(jì)(例 如,當(dāng)背景和輸入信號(hào)的形狀之間失配時(shí),預(yù)測(cè)編碼錯(cuò)誤或剩余的能 量增加)、以及它們的組合的算法。
在一個(gè)公共靜音抑制方案中,信號(hào)的功率被用作一致的判斷以將 信號(hào)分類到語音和靜音段。假設(shè)在出現(xiàn)話音時(shí)總信號(hào)的功率足夠大于 背景噪聲的功率。閾值用來標(biāo)注用于將被分類為語音活動(dòng) (voice-active)的段的最小SNR。該閾值被熟知為噪聲底限(floor) 并被使用信號(hào)功率動(dòng)態(tài)地重新計(jì)算。如果該信號(hào)的SNR落在該閾值 中,那么其被認(rèn)為是語音活動(dòng)的。否則,其被認(rèn)為是背景噪聲。這種 行為可以從圖2中看出,圖2中描述了接收的音頻信號(hào)的幅度波形 200、接收的音頻信號(hào)的功率波形204和噪聲底限功率波形208。噪聲 底限的數(shù)值為信號(hào)波形200的平滑表示。該圖進(jìn)一步分別顯示了檢測(cè) 到的語音活動(dòng)以及靜音段212和216。從圖2中可以看出,當(dāng)該信號(hào) 包括話音段220和224時(shí),由于信號(hào)功率的較大增長(zhǎng),噪聲底限波形 208趨于向上,并由于信號(hào)功率的較大下降而在所述段之后立即向下。 在這個(gè)算法的核心是其通過其時(shí)變?cè)肼暤紫薜膶?shí)施適用于改變背景 噪聲的能力。
上面的VAD方案在檢測(cè)比如進(jìn)程音(例如,攔截(intercept) 音、回鈴音、忙音、撥號(hào)音、重新排序(re order)音等)的具有實(shí) 質(zhì)上恒定的功率的信號(hào)時(shí)存在困難。這些方案經(jīng)常將這些音識(shí)別為背 景噪聲,所述背景噪聲并不被傳輸?shù)搅硪欢它c(diǎn)。檢測(cè)進(jìn)程音的問題被 圖3A和3B所顯示。圖3A將該進(jìn)程音顯示為正弦波形300。圖3B 顯示的音被表示為具有實(shí)質(zhì)上恒定的功率級(jí)別的波形304。因?yàn)樵肼?底限基于該信號(hào)的功率,所以當(dāng)該信號(hào)具有實(shí)質(zhì)上恒定的功率時(shí),該
噪聲底限波形308將接近波形304。使用上述的VAD方案,間隔312 將被正確地診斷為是語音活動(dòng)的并因此被傳輸?shù)搅?一 端點(diǎn),而間隔 316將被誤診為靜音并因此不被傳輸?shù)搅硪欢它c(diǎn)。最好也只不過是另 一方只會(huì)聽到一部分音,這將使他或她認(rèn)為是電話出現(xiàn)了故障。這種 誤診還會(huì)進(jìn)一步引起抖動(dòng)緩沖器的誤調(diào)整(這將使另 一個(gè)人聽到^噠 聲或砰砰聲)。
固定功率信號(hào)可以被更精細(xì)的方法可靠地檢測(cè)到,比如通過使用 像快速傅立葉變換(FFT)和倒鐠(Cepstral)分析這樣的復(fù)雜技術(shù) 分析所述信號(hào)的頻鐠。然而,將信號(hào)轉(zhuǎn)換到頻域所需的處理和存儲(chǔ)成 本太高并且用于這些算法的處理時(shí)間太長(zhǎng)以至于在實(shí)時(shí)應(yīng)用中是不 實(shí)際的。 一些技術(shù),比如FFT,引入了延遲,這是因?yàn)樾枰獦?gòu)建輸入 采樣的緩沖器(組塊(blocking ))和/或使用大量隨機(jī)存儲(chǔ)器(RAM ) 用于存儲(chǔ)。 一種切實(shí)可行的解決方案一定是要基于時(shí)間的。
閾值VAD是最普遍使用的解決方案。在能量閾值方法下,出現(xiàn) 話音(包括進(jìn)程音)時(shí)的總信號(hào)的能量被認(rèn)為大于預(yù)設(shè)閾值。幅度大 于該閾值的信號(hào)被認(rèn)為是語音活動(dòng)的而不管VAD的結(jié)論。雖然保留 了很多進(jìn)程音信息,但這種方法做出的假設(shè)在一些應(yīng)用中是不能成立 (hold)的,結(jié)果導(dǎo)致準(zhǔn)確率很低。信號(hào)的統(tǒng)計(jì)分析也已經(jīng)被使用, 其例如使用幅度概率分布作為確定噪聲級(jí)別的手段。但是,這些方法 還是在計(jì)算上昂貴的并且不適于VoIP網(wǎng)關(guān)設(shè)定。
已經(jīng)部分成功的一種算法已經(jīng)被4吏用在Acaya Inc.的 Crossfire 網(wǎng)關(guān)中。該網(wǎng)關(guān)使用零交叉速率方法并利用固定功率信號(hào) 的基于時(shí)間的周期。噪聲信號(hào)被認(rèn)為是在本性上隨機(jī)的。用于每一幀 的零交叉速率被監(jiān)測(cè)。常量零交叉速率意味著周期以及從而意味著語 音活動(dòng)段。換句話說,各種零交叉點(diǎn)的周期被確定并且樣式匹配技術(shù) 被用來識(shí)別固定功率信號(hào)的零交叉行為特性。
類似的零交叉算法被使用在用于ITU-T標(biāo)準(zhǔn)化的G.729話音編 碼器的G.729B擴(kuò)展中。在該擴(kuò)展下,每10亳秒對(duì)包括80個(gè)音頻采 樣的語音幀做出選擇。從這些話音幀中提取出來的參數(shù)包括全帶能
量、低帶能量、線光鐠頻率("LSF")系數(shù)和零交叉速率。從當(dāng)前幀 提取出來的這四個(gè)系數(shù)之間的差值和噪聲游動(dòng)平均數(shù)被為每一幀計(jì)
算。這些差值代表噪聲特性。大的差值意味著當(dāng)前幀是語音,而相反 則意味著不存在語音。VAD做出的決定是基于復(fù)雜的多邊算法的。
關(guān)于這些方法的問題是恒定零交叉速率不總是對(duì)應(yīng)于周期信號(hào)。 噪聲信號(hào)可能偶爾越過恒定速率的固定線。因?yàn)槊慷蝺H包括80個(gè)音 頻采樣,所以該方法的準(zhǔn)確率受較小的釆樣空間限制。識(shí)別零交叉點(diǎn) 時(shí)的錯(cuò)誤可能使得恒定功率信號(hào)被誤診為背景噪聲。為了解決該問 題,這些方案可通過使用額外的固定閾值被增強(qiáng)以確保高幅度信號(hào)總 是被確定為活動(dòng)信號(hào)。然而,對(duì)這種閾值的使用會(huì)引起低幅度、固定 功率的信號(hào)現(xiàn)在錯(cuò)誤地被檢測(cè)為靜音。
還有一種VAD方案由Tucker R.在1992年8月乂〉開的他的論文 "Voice Activity Detection Using a Periodicity Measure,,中提出。他描 述了一種VAD,其能夠以低到0db的SNR可靠地操作并能夠以-5db 檢測(cè)到大部分語音。當(dāng)找到非常大量的周期時(shí),該檢測(cè)器對(duì)輸入信號(hào) 和觸發(fā)器應(yīng)用最小平方周期估計(jì)器。然而,其目的不是找出準(zhǔn)確的講 話爆發(fā)(talkspurt)邊界,因此,其最適于話音登記應(yīng)用,在那里很 容易包括較小的容限以允許任何錯(cuò)過的話音。就像所理解的那樣,"講 話爆發(fā)"邊緣指話音和非話音音頻信息之間的邊界(例如,"靜音"期 和語聲話音期之間的邊界)。該解決方案適用于VoIP系統(tǒng),其中對(duì) 準(zhǔn)確講話爆發(fā)邊界的檢測(cè)是關(guān)鍵的。
發(fā)明內(nèi)容
這些和其他需求由本發(fā)明的各個(gè)實(shí)施例和配置所解決。本發(fā)明總 體上涉及使用基于幅度的周期以檢測(cè)轉(zhuǎn)向點(diǎn)(例如峰值和最低點(diǎn))和 所識(shí)別的轉(zhuǎn)向點(diǎn)的樣式匹配以確定所采樣的音頻信號(hào)段是否是周期 信號(hào)或?qū)嵸|(zhì)上固定的功率級(jí)別的信號(hào)(此后稱為"實(shí)質(zhì)上固定的功率 信號(hào)")。實(shí)質(zhì)上固定的功率信號(hào)的例子包括進(jìn)程音。
在本發(fā)明的第一實(shí)施例中,提供了一種方法,包括步驟(a) 接收多個(gè)音頻釆樣,這些音頻采樣定義了采樣的信號(hào)段;
(b) 在這些音頻采樣定義的信號(hào)幅度波形中識(shí)別轉(zhuǎn)向點(diǎn);
(c) 確定所識(shí)別的轉(zhuǎn)向點(diǎn)是否代表實(shí)質(zhì)上固定的功率級(jí)別的信 號(hào);以及
(d) 當(dāng)所識(shí)別的轉(zhuǎn)向點(diǎn)代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào)時(shí), 認(rèn)為所釆樣的信號(hào)段包括活動(dòng)信號(hào)。
在第二個(gè)實(shí)施例中,提供了一種方法,包括步驟
(a) 在語音通話過程中,接收模擬音頻信號(hào);
(b) 將該模擬音頻信號(hào)轉(zhuǎn)換為其數(shù)字表示,該數(shù)字表示包括多 個(gè)話音幀,每個(gè)話音幀包括多個(gè)音頻采樣,每個(gè)音頻采樣包括信號(hào)幅 度并具有固定的持續(xù)時(shí)間;
(c) 在這些音頻采樣中識(shí)別信號(hào)幅度轉(zhuǎn)向點(diǎn);
(d) 確定所識(shí)別的轉(zhuǎn)向點(diǎn)是否代表非周期的信號(hào);以及
(e) 當(dāng)所識(shí)別的轉(zhuǎn)向點(diǎn)代表非周期信號(hào)時(shí),將所選擇的話音幀 傳輸給目的地端點(diǎn)。
本發(fā)明不需要依賴于噪聲底限波形,而可使用 一套其他基于時(shí)間 和幅度的技術(shù),以識(shí)別固定功率信號(hào)。使用基于幅度和時(shí)間的周期相 對(duì)于單獨(dú)依賴于基于時(shí)間的周期或基于時(shí)間的周期和零交叉的組合
而言,對(duì)信號(hào)波形的定義要精確得多。因此其能夠準(zhǔn)確地并有效地檢 測(cè)固定功率信號(hào)的存在。
該發(fā)明能夠改善僅依賴于基于時(shí)間的周期的方案。這種方法具有 80個(gè)采樣中的l個(gè)的范圍內(nèi)的精確度。通過依賴于基于幅度的周期, 精確度可被提高到65536幅度級(jí)別中的1個(gè)。周期性的幅度是16比 特范圍(即+32767至-32768 )。
該發(fā)明比用于執(zhí)行話音抑制的其他解決方案需要更少的處理資 源,因此允許使用本發(fā)明的網(wǎng)關(guān)中具有高信道計(jì)數(shù)。例如,當(dāng)所估計(jì) 的歷史緩沖器的大小被定為100峰值/最低點(diǎn)數(shù)值時(shí),其表示200字節(jié) 的RAM使用率,因?yàn)槊總€(gè)采樣包括16比特。通常, 一個(gè)樣式具有少 于40個(gè)轉(zhuǎn)向點(diǎn)。由于相對(duì)較低的處理開銷,話音活動(dòng)檢測(cè)能夠快速發(fā)生,而避免削波。
本發(fā)明能夠可靠地識(shí)別講話爆發(fā)邊界。
這些和其他優(yōu)勢(shì)將從這里包含的本發(fā)明的公開內(nèi)容中變得明顯。 如在此所使用的,"至少一個(gè)"、"一個(gè)或多個(gè),,以及"和/或"是開放式的表述,其在操作中既是連接的又是分離的。例如,表述"A、 B 和C中的至少一個(gè)"、"A、 B或C中的至少一個(gè)"、"A、 B和C中的 一個(gè)或多個(gè)"、"A、 B或C中的一個(gè)或多個(gè),,以及"A、 B和/或C,,中的 每一個(gè)表示單獨(dú)A、單獨(dú)B、單獨(dú)C、 A和B—起、A和C一起、B 和C一起、或A、 B和C一起。
上面描述的實(shí)施例和配置不是完全的也不是窮盡的。就像將被理 解的那樣,本發(fā)明的其他實(shí)施例可以單獨(dú)或組合地利用上面陳述的或 在下面詳述的一個(gè)或多個(gè)特征實(shí)現(xiàn)。
圖l根據(jù)本發(fā)明第一實(shí)施例描述了語音通信架構(gòu); 圖2描述了噪聲底限功率波形對(duì)接收信號(hào)的功率中話音的變化 的響應(yīng);
圖3A和3B描述了周期性信號(hào)波形和噪聲底限功率波形對(duì)實(shí)質(zhì) 上恒定的信號(hào)功率的響應(yīng);
圖4A和4B描述了周期性信號(hào)波形以圖示本發(fā)明的概念; 圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的一組數(shù)據(jù)結(jié)構(gòu);以及 圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的流程圖。
具體實(shí)施例方式
圖1中描述了根據(jù)第一實(shí)施例的架構(gòu)100。該架構(gòu)100包括由廣 域網(wǎng)或WAN 112互聯(lián)的語音通信設(shè)備104和企業(yè)網(wǎng)絡(luò)108。企業(yè)網(wǎng) 絡(luò)108包括服務(wù)于服務(wù)器120的網(wǎng)關(guān)116、局域網(wǎng)124和通信i殳備128。
網(wǎng)關(guān)116可以是控制進(jìn)入或離開相應(yīng)LAN的任何合適設(shè)備。該 網(wǎng)關(guān)邏輯上位于相應(yīng)的企業(yè)基地(premise) 108中的其他組件和網(wǎng)絡(luò)
112之間以 一邊處理服務(wù)器120和內(nèi)部通信設(shè)備128之間的通信傳送, 另一邊處理服務(wù)器120和網(wǎng)絡(luò)112之間的通信。網(wǎng)關(guān)116通常包括電 子中繼器功能,其從網(wǎng)絡(luò)112攔截電信號(hào)并將電信號(hào)引入相應(yīng)的LAN 124,反之亦然,并且提供代碼和協(xié)議轉(zhuǎn)換。當(dāng)處理語音通信時(shí),網(wǎng) 關(guān)116進(jìn)一步執(zhí)行多個(gè)VoIP功能,特別是靜音抑制和抖動(dòng)緩沖器處 理。因此網(wǎng)關(guān)116包括語音活動(dòng)檢測(cè)器132來執(zhí)行VAD和SAD以及 舒適噪聲發(fā)生器(未示出)來在靜音期產(chǎn)生舒適的噪聲。舒適噪聲是 合成的背景噪聲,其防止了收聽者在靜音抑制所導(dǎo)致的絕對(duì)靜音期間 覺察到通信信道已經(jīng)斷開。合適的網(wǎng)關(guān)的例子包括Avaya Inc.的 G700、 G650、 G350、 Crossfire (串?dāng)_)、MCC/SCC媒體網(wǎng)關(guān)的修 改版本以及Acme Packet的Net-Net 4000會(huì)話邊界控制器。
服務(wù)器200處理呼叫控制信令,比如進(jìn)入的IP上語音或VoIP 和電話呼叫建立以及拆除消息。如在這里使用的術(shù)語"服務(wù)器,,應(yīng)被理 解為包括ACD、專用分支交換機(jī)PBX (或?qū)S米詣?dòng)交換機(jī)PAX)、 企業(yè)交換機(jī)、企業(yè)服務(wù)器、或其他類型的電信系統(tǒng)交換機(jī)或服務(wù)器、 以及其他類型的基于處理器的通信控制設(shè)備,比如媒體服務(wù)器、計(jì)算 機(jī)、附件等等。作為示例,圖1的服務(wù)器可以是Avaya Inc.的DefinityTM 基于專用分支交換機(jī)(PBX)的ACD系統(tǒng)或運(yùn)行修改的Advocate 軟件的MultiVantageTM PBX 、 CRM Central 2000 ServerTM 、 communication Manager , S8300TM媒體服務(wù)器、SIP Enabled ServicesTM、和/或Avaya Interaction Center 。
內(nèi)部和外部通信設(shè)備104和128優(yōu)選為分組交換站或通信設(shè)備、 比如IP硬電話(hardphone)(例如Avaya Inc.的4600 Series IP Phone )、IP軟電話(softphone X例如Avaya Inc.的IP Softphone )、 個(gè)人數(shù)字助理或PDA、個(gè)人電腦或PC 、筆記本電腦、基于分組的H.320 視頻電話和會(huì)議單元、基于分組的語音消息和響應(yīng)單元、基于對(duì)等的 通信設(shè)備、以及基于分組的傳統(tǒng)計(jì)算機(jī)電話附件。合適的設(shè)備的例子 是Avaya Inc.的4610TM、 4621SWTM、和9620TMIP電話。
如從圖1中看到的語音活動(dòng)檢測(cè)器116可依據(jù)該架構(gòu)位于許多組件中。
該檢測(cè)器132通過檢測(cè)峰值和最低點(diǎn)(即轉(zhuǎn)向點(diǎn))來利用固定信 號(hào)的周期。除了基于時(shí)間的周期外,該檢測(cè)器132還使用基于幅度的 周期。其依賴于對(duì)信號(hào)內(nèi)部的規(guī)則樣式的檢測(cè)。該檢測(cè)器132是有效 率的,因?yàn)槠洳恍枰罅康男盘?hào)處理資源來檢測(cè)固定功率信號(hào)。
緩沖器136存儲(chǔ)n個(gè)音頻采樣。采樣的數(shù)目通常與包含在將被傳 輸?shù)侥康牡赝ㄐ旁O(shè)備的分組(或幀)中的音頻采樣數(shù)目相同。N經(jīng)常 為80,這表示以8KHz采樣的10毫秒語音。檢測(cè)器132在該緩沖器 136進(jìn)行迭代,每次一個(gè)采樣,并記錄信號(hào)的采樣部分的所選擇的特 性。特別地,信號(hào)的高和低點(diǎn)(例如峰值和最低點(diǎn))被記錄。該信息 當(dāng)與之前記錄的信號(hào)特征歷史相結(jié)合時(shí)能夠提供該樣式應(yīng)該是什么 樣的精簡(jiǎn)歷史跨覽(span)。
此后,還有后處理步驟來檢索所收集的用于樣式(或模板)的信 息。這通常通過搜索重復(fù)來完成。例如對(duì)于雙頻率信號(hào),檢測(cè)器132 搜索具有兩個(gè)明顯峰值和兩個(gè)明顯最低點(diǎn)的信號(hào)樣式,而對(duì)于單頻率 信號(hào),搜索僅具有一個(gè)峰值并僅具有一個(gè)最低點(diǎn)的信號(hào)樣式。當(dāng)數(shù)值 與所選擇的樣式不符時(shí),所采樣的信號(hào)被認(rèn)為是更隨機(jī)的信號(hào)并被算 法所拒絕??梢酝ㄟ^建立 一個(gè)范圍來考慮噪聲底限波形和任何可能的 干擾,在該范圍內(nèi)兩個(gè)數(shù)值被認(rèn)為是相似的。這允許算法在存在背景 噪聲時(shí)執(zhí)行。
圖5中顯示了在處理緩沖器136中的采樣的過程中所產(chǎn)生的記錄 的數(shù)據(jù)結(jié)構(gòu)的、例子。如圖5所示,每個(gè)音頻釆樣具有相應(yīng)的采樣標(biāo)識(shí) 符500,為了筒便起見,其被顯示為連續(xù)編號(hào)。每個(gè)采樣被分析,以 確定其相對(duì)于前一采樣在幅度上是趨于向上(正)或向下(負(fù))。當(dāng) 趨勢(shì)504在相鄰釆樣之間改變時(shí),轉(zhuǎn)向點(diǎn)、或峰值或谷底被識(shí)別。參 考圖5,轉(zhuǎn)向點(diǎn)在采樣2和3 (峰值)、7和8 (谷底)、12和13 (峰 值)、和17和18(谷底)中的一個(gè)中或它們之間被識(shí)別。轉(zhuǎn)向點(diǎn)的 每個(gè)實(shí)例通過合適的指示符508來標(biāo)注(例如,"Y"意味著存在轉(zhuǎn)向 點(diǎn)而"N"意味著不存在轉(zhuǎn)向點(diǎn))。到前一轉(zhuǎn)向點(diǎn)512的時(shí)間距離通過
計(jì)數(shù)到前一轉(zhuǎn)向點(diǎn)的實(shí)例的采樣數(shù)來跟蹤,因?yàn)椴蓸哟笮£P(guān)聯(lián)于固定
的時(shí)間段(例如10毫秒)。例如,在采樣3與轉(zhuǎn)向點(diǎn)相關(guān)聯(lián)的時(shí)間 距離為0 (因?yàn)樵诓蓸觢之前沒有釆樣數(shù)據(jù)),在采樣8為5 (或50 毫秒),在采樣13為5 (或50毫秒),以及在采樣18為5 (或50 毫秒)。最后,每個(gè)轉(zhuǎn)向點(diǎn)的幅度516被記錄。例如,在釆樣3轉(zhuǎn)向 點(diǎn)的幅度為+11000單位,在采樣8為-10500單位,在采樣13為+10700 單位,以及在釆樣18為-11500單位。如將被理解的,周期性幅度是 16比特范圍(即+32767至-32768 )。如還將被理解的,為了節(jié)省存儲(chǔ) 器空間,數(shù)據(jù)結(jié)構(gòu)可被簡(jiǎn)化為僅包括與轉(zhuǎn)向點(diǎn)相關(guān)聯(lián)的那些采樣(例 如僅包括采樣3、 8、 13、和18)。
然后基于轉(zhuǎn)向點(diǎn)的周期和那些點(diǎn)的幅度,所得的記錄數(shù)據(jù)被檢 查,以查找在信號(hào)本身內(nèi)部是否出現(xiàn)固定樣式。信號(hào)內(nèi)的固定樣式可 通過將該數(shù)據(jù)與一個(gè)或多個(gè)通常為不同類型的進(jìn)程音的模板進(jìn)行比 較而被識(shí)別,這些進(jìn)程音比如是攔截音、回鈴音、忙音、撥號(hào)音、重 排序序者等,以確定所分析的采樣信號(hào)段是否為固定信號(hào)。如所指出 的,在雙頻信號(hào)中搜索的樣式具有以交替方式設(shè)置的第一和第二組明 顯的峰值以及第一和第二組明顯的最低點(diǎn)。在單頻信號(hào)中搜索的樣式 具有以交替方式設(shè)置的一組峰值和一組最低點(diǎn)。大部分進(jìn)程音是單頻 信號(hào)。樣式不僅使用轉(zhuǎn)向點(diǎn)的時(shí)間周期、還使用轉(zhuǎn)向點(diǎn)處的信號(hào)幅度 來定義??梢允褂酶怕蕘泶_定該段與該樣式符合得多好。低于指定閾 值的概率不被認(rèn)為是固定信號(hào),而位于或高于該指定閾值的概率被認(rèn) 為是固定信號(hào)。如從圖5的數(shù)據(jù)結(jié)構(gòu)中所看出的那樣,采樣的信號(hào)段 可被認(rèn)為是固定信號(hào)。
如將被理解的,任何合適的樣式匹配算法可被用于后處理。這種 算法一般檢查給定樣式的要素的存在。
相對(duì)簡(jiǎn)單的算法的一個(gè)例子是構(gòu)建描述采樣音頻信號(hào)段的第一 和第二陣列。第一陣列包括在轉(zhuǎn)向點(diǎn)之間所選擇的時(shí)間距離的實(shí)例數(shù) 目。例如,該陣列可包含用于所選擇的時(shí)間距離1、 2、 3、 4......的每
一個(gè)的多個(gè)實(shí)例。第二陣列包括轉(zhuǎn)向點(diǎn)處的多個(gè)所選擇的幅度范圍的
實(shí)例數(shù)目。例如,該陣列可包含用于幅度范圍A-B、 B-C、 C-D......的
每一個(gè)的多個(gè)實(shí)例,其中A、 B、 C、 D是幅度數(shù)值。然后在每個(gè)陣列 欄中所得到的實(shí)例將與指定模板在時(shí)間和幅度周期方面進(jìn)行比較以
確定該信號(hào)段是否很可能是固定信號(hào)段。例如,該模板可以是不同陣 列欄中實(shí)例的最大允許分布。如果這些實(shí)例分布得太廣,那么該比較 將指示該信號(hào)段是可變的,而更緊縮的分布指示該信號(hào)段是固定的。 然后與第一和第二陣列的比較所得的模板匹配概率被加權(quán)以達(dá)到該 信號(hào)段具有固定或可變信號(hào)的特性的組合概率。
分析方法被進(jìn)一步顯示在圖4A和4B中。圖4A和4B顯示了固 定或恒定信號(hào),比如音調(diào),以及為了方便比較,還顯示了基于噪聲底 限波形的可允許范圍。各種采樣點(diǎn)被進(jìn)一步顯示在每個(gè)信號(hào)段中。圖 4B中的虛線顯示了周期性信號(hào)樣式。如從圖4A和4B中看到的,釆 樣點(diǎn)會(huì)顯示與圖5中類似的行為。如虛線所示意的,圖4B的信號(hào)樣 式在下一個(gè)信號(hào)段被重復(fù),不過轉(zhuǎn)向點(diǎn)的幅度可能輕微偏移。本發(fā)明 的算法可被寫成這種方式,即該方法能夠在較小波形不完整存在的情 況下檢測(cè)樣式。換句話說,樣式不需要完全匹配。這是特別重要的, 因?yàn)樾盘?hào)會(huì)由于背景噪聲變失真。這種不完整至少部分地被考慮,因 為在模板和所分析的采樣信號(hào)段之間的信號(hào)幅度的基本類似或不類 似與轉(zhuǎn)向點(diǎn)之間時(shí)間間隔的基本類似或不類似相比,通常被更重地正 常加權(quán)。
現(xiàn)在將參考附圖6描述檢測(cè)器132的操作。
在步驟600,接收包括n個(gè)音頻信號(hào)采樣的幀。該幀中的采樣在 所接收的模擬音頻信號(hào)被轉(zhuǎn)換為數(shù)字形式時(shí)被產(chǎn)生。以下步驟被一個(gè) 采樣一個(gè)采樣地以及一幀一幀地執(zhí)行。如所指出的, 一個(gè)分組將通常 包含80個(gè)采樣的一個(gè)幀。
在步驟604,下一個(gè)采樣被選擇用于分析。
在步驟608,由所選擇的采樣所指示的趨勢(shì)被確定。如所指出的, 該趨勢(shì)通常通過將所選擇的采樣的幅度與前一采樣的幅度相比較而 確定。如果該幅度正在增長(zhǎng),那么該趨勢(shì)為正,而如果該幅度正在下
降,那么該趨勢(shì)為負(fù)。
在決定菱形框612,確定該采樣是否包括轉(zhuǎn)向點(diǎn)。當(dāng)趨勢(shì)從前一 個(gè)采樣中的正改變?yōu)樗x擇采樣中的負(fù)或是從前一個(gè)采樣中的負(fù)改 變?yōu)樗x擇采樣中的正時(shí),所選擇的采樣被認(rèn)為包括轉(zhuǎn)向點(diǎn)。
當(dāng)所選擇的采樣包括轉(zhuǎn)向點(diǎn)時(shí),到前一轉(zhuǎn)向點(diǎn)的時(shí)間距離在步驟 616被確定。這是通過計(jì)數(shù)在所選擇的采樣和包含轉(zhuǎn)向點(diǎn)的最新近(前 一個(gè))采樣之間的采樣數(shù)量來完成的。
在步驟620,采樣標(biāo)識(shí)符、轉(zhuǎn)向點(diǎn)指示符、從所選擇的釆樣中的 轉(zhuǎn)向點(diǎn)到前 一 個(gè)轉(zhuǎn)向點(diǎn)之間的時(shí)間距離、以及當(dāng)前轉(zhuǎn)向點(diǎn)的幅度都被 保存。
當(dāng)所選擇的釆樣不包括轉(zhuǎn)向點(diǎn)時(shí)或在步驟616之后,在決定菱形 框624中確定是否有下一個(gè)采樣。如果有,那么檢測(cè)器返回到步驟604。 如果沒有,那么在決定菱形框628中,檢測(cè)器確定所記錄的數(shù)據(jù)是否 定義了樣式。當(dāng)所記錄的數(shù)據(jù)很可能定義了樣式時(shí),在步驟632,檢 測(cè)器斷定在所選擇的分組中的音頻采樣不是靜音并且不考慮由另一 個(gè)技術(shù)例如使用噪聲底限波形所作出的任何相反的決定。當(dāng)所記錄的 數(shù)據(jù)很可能不定義樣式時(shí),在步驟636,檢測(cè)器斷定在所選擇的分組 中的音頻采樣不是固定信號(hào)。因此,不對(duì)另一個(gè)技術(shù)所確定的結(jié)果作 任何改變。
依據(jù)幀的內(nèi)容,其或者被作為靜音丟棄,或者被作為活動(dòng)信號(hào)被 組包并發(fā)送到目的地端點(diǎn)。
本發(fā)明的多個(gè)變形和修改可以被使用。有可能提供本發(fā)明的 一些 特征而不提供其它特征。
例如在一個(gè)可選實(shí)施例中,本發(fā)明被用于非VoIP應(yīng)用,比如話 音編碼和自動(dòng)話音識(shí)別。
在另一個(gè)實(shí)施例中,包括但不局限于專用集成電路或ASIC、可 編程邏輯陣列、和其它硬件設(shè)備的專用硬件實(shí)施方式可同樣被構(gòu)建來 實(shí)施這里描述的方法。而且,包括但不局限于分布式處理或組件/對(duì)象 分布式處理、并行處理、或虛擬機(jī)處理的可替換軟件實(shí)施方式也可被
構(gòu)建以實(shí)施這里描述的方法。
還應(yīng)當(dāng)說明,本發(fā)明的軟件實(shí)施方式被任選地存儲(chǔ)在有形的存儲(chǔ) 媒體上,比如如盤或磁帶的磁媒體、如盤的磁光或光媒體、或如存儲(chǔ) 卡或容納有一個(gè)或多個(gè)只讀(非易失)存儲(chǔ)器的其它封裝的固態(tài)媒體。 電子郵件的數(shù)字文件附件或其它自包含信息檔案或檔案組被認(rèn)為是 等同于有形存儲(chǔ)媒體的分布媒體。因此,本發(fā)明被認(rèn)為包括本發(fā)明的
可識(shí)別出的等同體和后續(xù)媒體。
盡管本發(fā)明參考特定標(biāo)準(zhǔn)和協(xié)議描述了在諸實(shí)施例中實(shí)施的組 件和功能,但是本發(fā)明并不局限于這些標(biāo)準(zhǔn)和協(xié)議。在此沒有提及的 其它類似標(biāo)準(zhǔn)和協(xié)議也存在并被認(rèn)為是包括在本發(fā)明中。此外,在此 提及的標(biāo)準(zhǔn)和協(xié)議以及在此沒有提及的標(biāo)準(zhǔn)和協(xié)議周期性地被具有 實(shí)質(zhì)相同功能的更快或更有效的等同體所取代。這種具有相同功能的 替換標(biāo)準(zhǔn)和協(xié)議被認(rèn)為是包括在本發(fā)明中的等同體。
在各個(gè)實(shí)施例中的本發(fā)明包括實(shí)質(zhì)上在這里描述和說明的組件、 方法、過程、系統(tǒng)和/或裝置,它們包括各種實(shí)施例、子組合及其子集。 本領(lǐng)域技術(shù)人員在理解本公開內(nèi)容后將明白如何做出并使用本發(fā)明。 在各種實(shí)施例中的本發(fā)明包括在不存在這里或在本發(fā)明各種實(shí)施例 中所描述的和/或說明的項(xiàng)目時(shí)(其中包括在不存在如已經(jīng)被使用在之 前的,例如用于提高性能、實(shí)現(xiàn)簡(jiǎn)便和/或降低實(shí)施成本的設(shè)備或過程 中的項(xiàng)目時(shí))提供設(shè)備和過程。
本發(fā)明的前述討論已經(jīng)被提出用于說明和描述目的。前述內(nèi)容并 不是意在將本發(fā)明限制在這里描述的一個(gè)或多個(gè)形式中。例如在前述具體實(shí)施方式
中,本發(fā)明的各種特征被一起分組在一個(gè)或多個(gè)實(shí)施例
中以使得描述流暢。本公開內(nèi)容的方法不應(yīng)解釋為反映這樣的意圖 所要求保護(hù)的發(fā)明比每個(gè)權(quán)利要求中所明確敘述的內(nèi)容需要更多特 征。而是,如后面的權(quán)利要求所反映的,本發(fā)明的方面存在于少于單 個(gè)前面描述的實(shí)施例中的所有特征。因此,后面的權(quán)利要求被結(jié)合到 該具體實(shí)施方式
中,每個(gè)權(quán)利要求本身都作為本發(fā)明單獨(dú)的優(yōu)選實(shí)施
例。
此外,雖然本發(fā)明的描述包括了對(duì)一個(gè)或多個(gè)實(shí)施例和特定變形 和修改的描述,但是其它變化和修改同樣處于本發(fā)明的范圍之內(nèi),例 如在本領(lǐng)域技術(shù)人員理解本公開內(nèi)容后,處于其技術(shù)和知識(shí)范圍內(nèi)。 其意在獲取包括可允許程度的可選實(shí)施例的權(quán)利,這些實(shí)施例包括與 要求保護(hù)的內(nèi)容可替換的、可互換的和/或等同的結(jié)構(gòu)、功能、范圍或 步驟,無論這種可替換的、可互換的和/或與等同的結(jié)構(gòu)、功能、范圍
或步驟在這里是否公開,而且并不意在公開限制說明(dedicate)任 何可專利性的主題。
權(quán)利要求
1.一種方法,包括(a)接收多個(gè)音頻采樣,這些音頻采樣定義了采樣的信號(hào)段;(b)在由這些音頻采樣定義的信號(hào)幅度波形中識(shí)別轉(zhuǎn)向點(diǎn);(c)確定所識(shí)別出的轉(zhuǎn)向點(diǎn)是否代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào);以及(d)當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào)時(shí),認(rèn)為所采樣的信號(hào)段包括活動(dòng)信號(hào)。
2. 如權(quán)利要求l所述的方法,其中所采樣的信號(hào)段被作為第一 和第二方之間實(shí)況語音呼叫的一部分而接收,其中所述轉(zhuǎn)向點(diǎn)對(duì)應(yīng)于 信號(hào)幅度波形中的峰值和谷底,其中,當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表實(shí)質(zhì) 上固定的功率級(jí)別的信號(hào)時(shí),所采樣的信號(hào)段被認(rèn)為包括周期性的樣 式,其中靜音抑制生效,其中,當(dāng)所采樣的信號(hào)段包括活動(dòng)信號(hào)時(shí), 傳輸所述多個(gè)音頻采樣到目的地節(jié)點(diǎn),并且其中當(dāng)所采樣的信號(hào)段不 包括活動(dòng)信號(hào)和當(dāng)該段不包括第一和/或第二方的語音能量時(shí),不將所述多個(gè)音頻釆樣傳輸?shù)侥康牡毓?jié)點(diǎn)。
3. 如權(quán)利要求l所述的方法,其中該方法被用于確定抖動(dòng)緩沖 器調(diào)整點(diǎn),并進(jìn)一步包括(e) 識(shí)別在信號(hào)幅度波形中相鄰的、所識(shí)別出的轉(zhuǎn)向點(diǎn)之間的 時(shí)間距離;(f) 確定所述相鄰的、所識(shí)別出的轉(zhuǎn)向點(diǎn)之間的時(shí)間距離是否 代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào);以及(g) 當(dāng)所述時(shí)間距離代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào)和當(dāng)所 識(shí)別出的轉(zhuǎn)向點(diǎn)代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào)時(shí),認(rèn)為所采樣的 信號(hào)段包括活動(dòng)信號(hào),其中,在確定所采樣的信號(hào)段是否包括活動(dòng)信 號(hào)時(shí),步驟(c)的結(jié)果比步驟(f)的結(jié)果更重地被加權(quán)。
4. 如權(quán)利要求l所述的方法,其中轉(zhuǎn)向點(diǎn)不是零交叉,并且其 中,當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表實(shí)質(zhì)上固定的功率級(jí)別的信號(hào)時(shí),所采樣的信號(hào)段被認(rèn)為包括進(jìn)程音。
5. —種計(jì)算機(jī)可讀媒體,包括用于執(zhí)行權(quán)利要求1的步驟的處 理器可執(zhí)行指令。
6. —種設(shè)備,包括(a) 輸入裝置,用于在語音通話期間接收模擬音頻信號(hào);(b) 轉(zhuǎn)換裝置,用于將該模擬音頻信號(hào)轉(zhuǎn)換成它的數(shù)字表示, 該數(shù)字表示包括多個(gè)話音幀,每個(gè)話音幀包括多個(gè)音頻采樣,每個(gè)音 頻采樣包括信號(hào)幅度并具有固定的持續(xù)時(shí)間;(c) 識(shí)別裝置,用于在音頻采樣中識(shí)別信號(hào)幅度轉(zhuǎn)向點(diǎn);(d) 確定裝置,用于確定所識(shí)別出的轉(zhuǎn)向點(diǎn)是否代表周期性信 號(hào);以及(e) 傳輸裝置,用于當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表周期性信號(hào)時(shí), 將所選擇的話音幀傳輸?shù)侥康牡囟它c(diǎn)。
7. 如權(quán)利要求6所述的設(shè)備,其中當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表周 期性信號(hào)時(shí),不允許抖動(dòng)緩沖器進(jìn)行調(diào)整,并且其中當(dāng)所選擇的幀不 包括語聲的話音時(shí),傳輸裝置不將所選擇的話音幀傳輸?shù)侥康牡囟它c(diǎn) 并且不允許抖動(dòng)緩沖器進(jìn)行調(diào)整。
8. 如權(quán)利要求6所述的設(shè)備,其中該周期性信號(hào)具有實(shí)質(zhì)上固 定的功率級(jí)別,其中該識(shí)別裝置識(shí)別在相鄰的、所識(shí)別出的轉(zhuǎn)向點(diǎn)之 間的時(shí)間距離,其中該確定裝置確定相鄰的、所識(shí)別出的轉(zhuǎn)向點(diǎn)之間 的時(shí)間距離是否代表周期性信號(hào),并且其中所述該時(shí)間距離代表周期 性信號(hào)和當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表周期性信號(hào)時(shí),所選擇的幀被認(rèn)為 包括進(jìn)程音。
9. 如權(quán)利要求6所述的設(shè)備,其中所述轉(zhuǎn)向點(diǎn)不是零交叉,并 且其中當(dāng)所識(shí)別出的轉(zhuǎn)向點(diǎn)代表周期性信號(hào)時(shí),所采樣的信號(hào)段被認(rèn) 為包括進(jìn)程音。
10. 如權(quán)利要求6所述的設(shè)備,其中該設(shè)備是網(wǎng)關(guān)。
11. 如權(quán)利要求6所述的設(shè)備,其中該設(shè)備是分組交換語音通信設(shè)備。
全文摘要
本發(fā)明涉及一種語音活動(dòng)檢測(cè)器,該語音活動(dòng)檢測(cè)器使用幅度峰值和谷底的周期來識(shí)別實(shí)質(zhì)上固定的功率或具有周期的信號(hào)。
文檔編號(hào)G10L11/00GK101202040SQ20071014131
公開日2008年6月18日 申請(qǐng)日期2007年8月6日 優(yōu)先權(quán)日2006年9月19日
發(fā)明者盧克·A.·塔克, 王明盛 申請(qǐng)人:阿瓦雅技術(shù)有限公司