用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的通信裝置和方法

文檔序號(hào)：2818873閱讀：507來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的通信裝置和方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及具有語音識(shí)別技術(shù)的電子裝置。更特別地，本發(fā)明涉及具有與說話者相關(guān)的語音識(shí)別技術(shù)的便攜式通信裝置。
隨著對(duì)小型化、便攜式電子裝置的需求的增長(zhǎng)，消費(fèi)者希望使用能夠增強(qiáng)和擴(kuò)展便攜式電子裝置用途的附加特征。這些電子裝置包括CD播放器，雙向無線通信裝置，蜂窩電話，計(jì)算機(jī)，個(gè)人助理，語音記錄器，和類似的裝置。特別地，消費(fèi)者希望僅使用聲音通信就能夠輸入信息和控制電子裝置。應(yīng)理解，聲音通信包括語音，聲學(xué)的和其它非接觸性通信。通過使用聲音來進(jìn)行輸入和控制，一個(gè)用戶可以操作電子裝置而不需要與其接觸，并且可以以比使用一個(gè)鍵盤更快的速度來輸入信息和輸入控制命令。另外，聲音輸入及控制裝置消除了對(duì)鍵盤和其它直接接觸輸入裝置的需要，這樣可以允許制造尺寸更小的電子裝置。
聲音輸入及控制裝置需要正確地使用起支撐作用的語音識(shí)別技術(shù)?；镜?，語音識(shí)別技術(shù)分析一個(gè)語音數(shù)據(jù)采集窗口內(nèi)的一個(gè)語音波形，以將這個(gè)波形與被保存在存儲(chǔ)器中的詞模型進(jìn)行匹配。如果發(fā)現(xiàn)語音波形與一個(gè)詞模型相互匹配，語音識(shí)別技術(shù)就向電子裝置提供一個(gè)信號(hào)，將這個(gè)語音波形識(shí)別為與這個(gè)詞模型相關(guān)的詞。
一般通過將從一個(gè)特定詞的語音波形中推導(dǎo)出來的參數(shù)保存在存儲(chǔ)器中，來產(chǎn)生一個(gè)詞模型。在與說話者無關(guān)的語音識(shí)別裝置中，使用某種方式，對(duì)所期望的一個(gè)抽樣人群所說的一個(gè)詞的語音波形的參數(shù)進(jìn)行平均，來產(chǎn)生這個(gè)詞的一個(gè)詞模型。通過讓不同人說同一個(gè)詞，并對(duì)其語音參數(shù)進(jìn)行平均，這個(gè)詞的模型對(duì)大多數(shù)人來說應(yīng)該是可以使用的，盡管很可能不會(huì)對(duì)所有人均適用。
在與說話者有關(guān)的電子裝置中，用戶通過當(dāng)被電子裝置提示時(shí)就說出一個(gè)特定詞來訓(xùn)練這個(gè)裝置。然后，這個(gè)語音識(shí)別技術(shù)根據(jù)從用戶的輸入來產(chǎn)生一個(gè)詞模型。語音識(shí)別技術(shù)可能會(huì)提示這個(gè)用戶重復(fù)這個(gè)詞很多次，然后以某種方式平均語音波形參數(shù)，來產(chǎn)生詞模型。
為了正確地操作語音識(shí)別技術(shù)，一致地識(shí)別語音說話方式的開始和結(jié)束端點(diǎn)是很重要的。不一致地識(shí)別說話的端點(diǎn)很可能會(huì)把一個(gè)詞截?cái)?，并且很可能?huì)在被語音識(shí)別技術(shù)獲得的語音波形中包括外來噪聲。詞被截?cái)嗪?或者噪聲很可能會(huì)產(chǎn)生訓(xùn)練很差的模型，并且當(dāng)所獲得的語音波形不與任何詞模型匹配時(shí)，使語音識(shí)別技術(shù)不能正確地工作。另外，詞被截?cái)嗪?或者噪聲很可能會(huì)促使語音識(shí)別技術(shù)將所獲得的語音波形錯(cuò)誤地識(shí)別為另一個(gè)詞。在與說話者相關(guān)的語音識(shí)別裝置中，當(dāng)語音識(shí)別技術(shù)僅允許幾個(gè)訓(xùn)練說話方式時(shí)，因?yàn)槎它c(diǎn)很差而引起的問題就變得更嚴(yán)重了。
現(xiàn)有技術(shù)描述了使用閾值能量比較，過零分析，和互相關(guān)的技術(shù)。這些方法依次從左到右，從右到左，或者從語音波形的中心向周圍來分析語音特征。在這些技術(shù)中，對(duì)包括停頓或者間隙的說話方式進(jìn)行分析是有問題的。典型地，一個(gè)說話中的停頓或者間隙是由詞的本質(zhì)、用戶的風(fēng)格所決定的，是由包括多個(gè)詞的說話方式所決定的。某些技術(shù)在間隙處對(duì)詞或者句子進(jìn)行截?cái)?，并且錯(cuò)誤地假定已經(jīng)達(dá)到了說話的端點(diǎn)。其它技術(shù)使用一個(gè)最大間隙尺寸準(zhǔn)則來將被檢測(cè)的、帶停頓的說話的部分組合成一單句話。在這樣的技術(shù)中，比一個(gè)預(yù)定閾值長(zhǎng)的停頓將促使一句話的部分會(huì)被排除在這句話的外面。
所以，需要能夠一致地識(shí)別一個(gè)語音采集窗口內(nèi)一個(gè)完整語音句的開始和結(jié)束端點(diǎn)。另外，還需要能夠確保一句說話中被停頓或者間隙分隔開的詞或者詞的部分能夠被包括在一句話的邊界內(nèi)。
本發(fā)明的基本目的是提供用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置和方法。本發(fā)明的另一個(gè)目的是確保被間隙和停頓分隔開的詞和詞的部分能夠被包括在一句話的邊界內(nèi)。如下面將要更細(xì)致地討論的，本發(fā)明克服了現(xiàn)有技術(shù)的缺陷，實(shí)現(xiàn)了本發(fā)明的這些目的和其它目的。
本發(fā)明提供了能夠用于斷開語音說話并且能夠?qū)⒈婚g隙和停頓分隔開的詞和詞的部分包括在一句話的邊界內(nèi)的一個(gè)通信裝置。這個(gè)通信裝置包括一個(gè)微處理器，這個(gè)微處理器與通信接口電路，音頻電路，存儲(chǔ)器，一個(gè)可選的鍵盤，一個(gè)顯示器，和一個(gè)振動(dòng)器/蜂鳴器相連。音頻電路連接到一個(gè)麥克風(fēng)和一個(gè)揚(yáng)聲器。音頻電路包括濾波與放大電路，和一個(gè)模擬-數(shù)字轉(zhuǎn)換器。這個(gè)微處理器包括一個(gè)語音/噪聲分類器，和語音識(shí)別技術(shù)。
微處理器分析一個(gè)語音信號(hào)來決定在一個(gè)語音采集窗口內(nèi)的語音波形參數(shù)。這個(gè)微處理器利用這些語音波形參數(shù)來決定語音說話的開始和結(jié)束端點(diǎn)。為了做這個(gè)決定，這個(gè)微處理器根據(jù)語音說話的能量質(zhì)心來在一個(gè)幀的索引處開始，并且分析在這個(gè)幀索引前面的和后面的幀來決定端點(diǎn)。當(dāng)識(shí)別了一個(gè)潛在的端點(diǎn)時(shí)，這個(gè)微處理器將這個(gè)潛在端點(diǎn)處的累加能量與語音采集窗口內(nèi)的總能量相比，以決定附加的語音幀是否已經(jīng)出現(xiàn)。所以，說話中的間隙和停頓不會(huì)產(chǎn)生一個(gè)錯(cuò)誤的端點(diǎn)判斷。
當(dāng)參考附圖來閱讀本發(fā)明時(shí)，能夠更好地理解本發(fā)明。

圖1是能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置的一個(gè)框圖；和圖2是描述對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)流圖。
圖1是根據(jù)本發(fā)明的一個(gè)通信裝置100的一個(gè)框圖。通信裝置100可以是一個(gè)蜂窩電話，一個(gè)便攜式電話裝置，一個(gè)雙向收音機(jī)，一個(gè)計(jì)算機(jī)或者個(gè)人助理的一個(gè)數(shù)據(jù)接口，或者類似的電子裝置。通信裝置100包括微處理器110，微處理器110與通信接口電路115，存儲(chǔ)器120，音頻電路130，鍵盤140，顯示器150，和振動(dòng)器/蜂鳴器160相連。
微處理器110可以是包括一個(gè)數(shù)字信號(hào)處理器或者其它類型數(shù)字計(jì)算引擎的任何類似微處理器。優(yōu)選地，微處理器110包括一個(gè)語音/噪聲分類器和語音識(shí)別技術(shù)?？梢允褂靡粋€(gè)或者多個(gè)附加的微處理器(沒有顯示)來提供語音/噪聲分類器，語音識(shí)別技術(shù)，和本發(fā)明的斷點(diǎn)。
通信接口電路115連接到微處理器110。這個(gè)通信接口電路是用于發(fā)送和接收數(shù)據(jù)。在個(gè)蜂窩電話中，通信接口電路115將包括一個(gè)發(fā)送器，接收器，和一個(gè)天線。在一個(gè)計(jì)算機(jī)中，通信接口電路115將包括一個(gè)到中央處理單元的數(shù)據(jù)鏈路。
存儲(chǔ)器120可以是任何類型的永久或者臨時(shí)存儲(chǔ)器，例如隨機(jī)訪問存儲(chǔ)器(RAM)，只讀存儲(chǔ)器(ROM)，磁盤，和其它類型的電子數(shù)據(jù)保存裝置，存儲(chǔ)器120的類型可以是這些類型中的一種，或者是幾種的組合。優(yōu)選地，存儲(chǔ)器120具有連接到微處理器110的RAM123和ROM125。
音頻電路130連接到麥克風(fēng)133和揚(yáng)聲器135，另外，它還可以連接到通信裝置100中發(fā)現(xiàn)的另一個(gè)麥克風(fēng)或者揚(yáng)聲器。音頻電路130優(yōu)選地包括放大與濾波電路(沒有顯示)和一個(gè)模擬-數(shù)字轉(zhuǎn)換器(沒有顯示)。雖然優(yōu)選是采用音頻電路130，但是麥克風(fēng)133和揚(yáng)聲器135可以直接連接到微處理器110，當(dāng)它執(zhí)行所有或者部分音頻電路130的功能時(shí)。
鍵盤140可以是一個(gè)電話鍵盤，一個(gè)計(jì)算機(jī)鍵盤，一個(gè)觸摸屏幕顯示器，或者類似的觸摸式輸入裝置。但是，如果具有本發(fā)明的語音輸入和控制能力，鍵盤140就不是必需的。
顯示器150可以是一個(gè)LED顯示器，一個(gè)LCD顯示器，或者其它類型的可視屏幕，以顯示來自微處理器110的信息。顯示器150還可以包括一個(gè)觸摸屏幕顯示器。在一個(gè)替代的實(shí)施方式(沒有顯示)中，觸摸屏幕和顯示用屏幕顯示器是分開的。
工作中，音頻電路130在由微處理器110所設(shè)置的一個(gè)語音采集窗口內(nèi)，經(jīng)過麥克風(fēng)133接收聲音通信。語音采集窗口是用于接收聲音通信的一個(gè)預(yù)定時(shí)間段。語音采集窗口的持續(xù)時(shí)間受存儲(chǔ)器120的可用數(shù)量的限制。雖然可以選擇任何時(shí)間段，但是優(yōu)選的，語音采集窗口的范圍是1到5秒。
聲音通信包括語音，其它聲學(xué)通信，和噪聲。噪聲可以是背景噪聲和由用戶所產(chǎn)生的噪聲，包括脈沖噪聲(砰的聲音，滴答的聲音，噼啪的聲音，等等)，音調(diào)噪聲(口哨聲音，嘀嘀的聲音，鈴聲等等)，或者風(fēng)的噪聲(呼吸的聲音，其它空氣流動(dòng)的聲音，等等)。
優(yōu)選地，音頻電路130在將聲音通信作為一個(gè)語音信號(hào)發(fā)送到微處理器110以前，對(duì)它進(jìn)行濾波和量化。微處理器110將語音信號(hào)保存在存儲(chǔ)器120中，微處理器110在使用語音識(shí)別技術(shù)處理語音信號(hào)以前，分析語音信號(hào)。微處理器110將語音采集窗口分成很多幀。雖然可以使用任何時(shí)間長(zhǎng)度的幀，但是優(yōu)選采用持續(xù)時(shí)間相同、且長(zhǎng)為10毫秒的幀。對(duì)每一個(gè)幀來說，微處理器110使用下述方程來決定幀能量
， n＝1，2，…，N參數(shù)fegyn與一幀采樣數(shù)據(jù)的能量相關(guān)。這可以是實(shí)際的幀能量或者是實(shí)際幀能量的某種函數(shù)。Xi是語音采樣。I是在一個(gè)數(shù)據(jù)幀 n中的采樣數(shù)目。N是語音采集窗口內(nèi)幀的總數(shù)。
另外，微處理器110將每一個(gè)幀依次從1到幀的總數(shù)N編號(hào)。盡管可以按照聲音波形流的順序(從左到右)來對(duì)所有幀進(jìn)行計(jì)數(shù)，或者按照反聲音波形流的順序(從右到左)來對(duì)所有幀進(jìn)行計(jì)數(shù)，但是優(yōu)選地，使用按照聲音流的順序來對(duì)幀進(jìn)行計(jì)數(shù)。所以，每一個(gè)幀有一個(gè)幀號(hào)碼，n，與幀在語音采集窗口內(nèi)的位置相應(yīng)。
微處理器110具有一個(gè)語音/噪聲分類器，來判斷每一個(gè)幀是語音或者是噪聲?？梢允褂萌魏晤愋偷恼Z音/噪聲分類器。但是，當(dāng)這個(gè)分類器的準(zhǔn)確性增加時(shí)，本發(fā)明的性能就會(huì)增強(qiáng)。如果這個(gè)分類器將一個(gè)幀識(shí)別為語音，這個(gè)分類器將給這個(gè)幀分配SN標(biāo)志為1。如果這個(gè)分類器將一個(gè)幀識(shí)別為噪聲，這個(gè)分類器就給這個(gè)幀分配SN標(biāo)志為0。SN標(biāo)志是用于對(duì)幀進(jìn)行分類的一個(gè)控制值。
然后，微處理器根據(jù)下述方程來決定語音信號(hào)的其它語音波形參數(shù)Nfegyn＝fegyn-Bfegy，n＝1，2，...，N歸一化幀能量，Nfegyn是對(duì)噪聲進(jìn)行調(diào)節(jié)的幀能量。偏置幀能量Bfegy是噪聲能量的一個(gè)估計(jì)值。它可以是一個(gè)理論上的值，或者是經(jīng)驗(yàn)數(shù)值。它還可以被測(cè)量，例如語音采集窗口內(nèi)前面幾個(gè)幀的噪聲。
，n＝1，2，...，N累加幀能量，sumNfegyn是直至當(dāng)前幀的所有前面歸一化幀能量的和?？偟拇翱谀芰渴窃贜處的累加幀能量，N是語音采集窗口內(nèi)的幀的總數(shù)。icom=NINT[Σn=1Nn·NfegynΣn=1NNfegyn]]]>參數(shù)，icom是語音說話的能量質(zhì)心的幀索引。語音信號(hào)可以被認(rèn)為是沿時(shí)間軸分布的一個(gè)可變“質(zhì)量”。使用fegy參數(shù)作為模擬質(zhì)量，可以使用前面的方程來決定能量質(zhì)心的位置。NINT是最近的整數(shù)函數(shù)。
epkindx＝{nMAX(fegyn)}，n＝1，2，...，N參數(shù)，epkindx是峰值能量幀的幀索引號(hào)。
除了這些參數(shù)，微處理器110可能決定會(huì)用于識(shí)別語音說話的端點(diǎn)的其它與語音或者信號(hào)相關(guān)的參數(shù)。在決定了語音波形參數(shù)后，微處理器110識(shí)別一句話的開始和結(jié)束端點(diǎn)。
圖2是描述對(duì)語音說話方式進(jìn)行斷點(diǎn)的方法的一個(gè)流圖。在步驟205中，這個(gè)用戶激活語音識(shí)別技術(shù)，當(dāng)通信裝置100被打開時(shí)，這個(gè)激活過程可以自動(dòng)地進(jìn)行。替代地，這個(gè)用戶可以激發(fā)一個(gè)機(jī)械的或者電子的開關(guān)，或者使用一個(gè)語音命令來激活語音識(shí)別技術(shù)。一旦被激活，微處理器110就提示用戶進(jìn)行語音輸入。
在步驟210中，這個(gè)用戶向麥克風(fēng)133提供語音輸入。語音采集窗口的開始和結(jié)束由微處理器110發(fā)信號(hào)來進(jìn)行通知。這個(gè)信號(hào)可以是通過揚(yáng)聲器135發(fā)出的一個(gè)蜂鳴聲，可以是顯示器150上的一個(gè)打印或者閃爍的消息，可以是通過振動(dòng)器/蜂鳴器160發(fā)出的一個(gè)蜂鳴或者振動(dòng)，或者類似的提示消息。
在步驟215中，微處理器110分析語音信號(hào)來決定前面所討論的語音波形參數(shù)。
在步驟220到235中，微處理器110決定所計(jì)算能量質(zhì)心是否位于說話的語音范圍內(nèi)。如果在能量質(zhì)心前面的或者后面的一定數(shù)量幀是噪聲幀，能量質(zhì)心就不可能位于說話的語音范圍內(nèi)。在這個(gè)情形下，微處理器110使用峰值能量索引作為開始點(diǎn)來決定端點(diǎn)。雖然已經(jīng)選擇圍繞能量質(zhì)心的噪聲幀的百分?jǐn)?shù)作為判斷因素，但是應(yīng)理解，替代地，可以選擇語音幀的百分?jǐn)?shù)。
在步驟220中，微處理器110判斷在能量質(zhì)心前面的M1幀中的噪聲幀的百分?jǐn)?shù)是否大于或者等于Valid1。雖然M1可以是任何數(shù)目的幀，但是優(yōu)選地，M1的范圍在5到20幀之間。Valid1是在質(zhì)心前面的噪聲幀的百分?jǐn)?shù)，并且表示能量質(zhì)心沒有位于一個(gè)語音范圍內(nèi)。雖然Valid1可以是包括100％的任何一個(gè)百分?jǐn)?shù)，但是優(yōu)選地，Valid1的范圍位于70％到100％。如果在能量質(zhì)心前面M1幀中的噪聲幀的百分?jǐn)?shù)大于或者等于Valid1，然后，幀索引號(hào)被設(shè)置成等于峰值能量索引，epkindx，在步驟235中。如果在能量質(zhì)心前面M1幀中的噪聲幀的百分?jǐn)?shù)小于Valid1，然后，方法進(jìn)行到步驟225。
在步驟225中，微處理器110判斷在能量質(zhì)心后面M2幀中的噪聲幀的百分?jǐn)?shù)是否大于或者等于Valid2。雖然M2可以是任何數(shù)目的幀，但是優(yōu)選地，M2的范圍在5到20幀之間。Valid2是在質(zhì)心后面的噪聲幀的百分?jǐn)?shù)，并且表示能量質(zhì)心沒有位于一個(gè)語音范圍內(nèi)。雖然Valid2可以是包括100％的任何一個(gè)百分?jǐn)?shù)，但是優(yōu)選地，Valid2的范圍位于70％到100％。如果在能量質(zhì)心后面M2幀中的噪聲幀的百分?jǐn)?shù)大于或者等于Valid2，然后，幀索引號(hào)被設(shè)置成等于峰值能量索引，epkindx，在步驟235中。如果在能量質(zhì)心后面M2幀中的噪聲幀的百分?jǐn)?shù)小于Valid2，然后，在步驟230中幀索引號(hào)被設(shè)置成等于能量質(zhì)心索引，icom。在步驟230中或者步驟235中設(shè)置幀索引后，方法進(jìn)行到步驟240。
在步驟240到260中，微處理器110判斷語音說話的開始端點(diǎn)。微處理器110從幀索引開始，基本上是從說話語音范圍內(nèi)的一個(gè)位置開始，并且分析在這個(gè)幀索引號(hào)前面的幀來識(shí)別一個(gè)潛在的開始端點(diǎn)。當(dāng)識(shí)別了一個(gè)潛在的開始端點(diǎn)后，微處理器110檢查在這個(gè)潛在開始端點(diǎn)處的累加幀能量是否小于或者等于總窗口能量的一個(gè)百分?jǐn)?shù)。如果這個(gè)潛在的開始端點(diǎn)是這個(gè)說話的開始端點(diǎn)，在這個(gè)幀的累加幀能量無論如何應(yīng)該是非常的少。在這個(gè)潛在開始端點(diǎn)處的累加幀能量表示附加的語音幀是否出現(xiàn)了。使用這個(gè)方式，說話中的間隙和停頓不會(huì)產(chǎn)生一個(gè)開始端點(diǎn)的錯(cuò)誤判斷。
在步驟240中，微處理器110將STRPNT設(shè)置成幀索引號(hào)。STRPNT是被作為開始端點(diǎn)而被測(cè)試的幀。雖然STRPNT開始與幀索引號(hào)相等，但是微處理器110將減少STRPNT，直到發(fā)現(xiàn)了開始端點(diǎn)。
在步驟245中，微處理器110判斷在STRPNT前面M3幀中的噪聲幀的百分?jǐn)?shù)是否大于或者等于Test1。雖然M3可以是任何數(shù)目的幀，但是優(yōu)選地，M3的范圍在5到20幀之間。Test1是表示STRPNT是一個(gè)端點(diǎn)的噪聲幀的百分?jǐn)?shù)。雖然Test1可以是包括100％的任何一個(gè)百分?jǐn)?shù)，但是優(yōu)選地，Test1的范圍位于70％到100％。
如果在能量質(zhì)心前面M3幀中的噪聲幀的百分?jǐn)?shù)小于Test1，然后STRPNT不是一個(gè)端點(diǎn)。這個(gè)方法進(jìn)行到步驟250，其中微處理器110將STRPNT減少X幀，X可以是任何數(shù)目的幀，但是優(yōu)選地，X的范圍在1到3幀之間。然后，這個(gè)方法繼續(xù)進(jìn)行到步驟245。
如果在STRPNT前面M3幀中的噪聲幀的百分?jǐn)?shù)大于或者等于Test1，然后STRPNT可能是一個(gè)端點(diǎn)。在步驟255中，微處理器110判斷在STRTNP處的累加能量是否小于或者等于總窗口能量的一個(gè)最小百分?jǐn)?shù)，EMINP。如果STRTNP是開始端點(diǎn)，然后在STRTNP處的累加能量無論如何應(yīng)該是很小的。如果STRTNP不是開始端點(diǎn)，然后，累加能量將表示出現(xiàn)了附加的語音幀。EMINP是總窗口能量的一個(gè)最小百分?jǐn)?shù)。雖然EMINP可以是包括0％的任何一個(gè)百分?jǐn)?shù)，但是優(yōu)選地，EMINP的范圍位于5％到15％。如果在STRTNP處的累加能量大于總窗口能量的一個(gè)最小百分?jǐn)?shù)EMINP，然后STRPNT不是一個(gè)端點(diǎn)。這個(gè)方法進(jìn)行到步驟250，其中微處理器110將STRPNT減少X幀。然后，這個(gè)方法繼續(xù)進(jìn)行到步驟245。
如果在STRTNP處的累加能量小于或者等于總窗口能量的一個(gè)最小百分?jǐn)?shù)EMINP，然后STRPNT是開始端點(diǎn)。這個(gè)方法進(jìn)行到步驟260，其中語音開始索引號(hào)等于STRPNT的當(dāng)前值。這個(gè)方法繼續(xù)進(jìn)行到步驟265，其中微處理器110決定結(jié)束端點(diǎn)。
在步驟265到285中，微處理器110判斷語音說話的結(jié)束端點(diǎn)。微處理器110從幀索引開始，基本上是從說話語音范圍內(nèi)的一個(gè)位置開始，并且分析在這個(gè)幀索引號(hào)后面的幀來識(shí)別一個(gè)潛在的結(jié)束端點(diǎn)。當(dāng)識(shí)別了一個(gè)潛在的結(jié)束端點(diǎn)后，微處理器110檢查在這個(gè)潛在結(jié)束端點(diǎn)處的累加幀能量是否大于或者等于總窗口能量的一個(gè)百分?jǐn)?shù)。如果這個(gè)潛在的結(jié)束端點(diǎn)是這個(gè)說話的結(jié)束端點(diǎn)，在這個(gè)幀的累加幀能量即使不是總窗口能量也應(yīng)該是總窗口能量中的絕大部分。在這個(gè)潛在結(jié)束端點(diǎn)處的累加幀能量表示附加的語音幀是否出現(xiàn)了。使用這個(gè)方式，說話中的間隙和停頓不會(huì)產(chǎn)生一個(gè)結(jié)束端點(diǎn)的錯(cuò)誤判斷。
在步驟265中，微處理器110將ENDPNT設(shè)置成幀索引號(hào)。ENDPNT是被作為結(jié)束端點(diǎn)而被測(cè)試的幀。雖然ENDPNT開始與幀索引號(hào)相等，但是微處理器110將增加ENDPNT，直到發(fā)現(xiàn)了結(jié)束端點(diǎn)。
在步驟270中，微處理器110判斷在ENDPNT后面M4幀中的噪聲幀的百分?jǐn)?shù)是否大于或者等于Test2。雖然M4可以是任何數(shù)目的幀，但是優(yōu)選地，M4的范圍在5到20幀之間。Test2是表示ENDPNT是一個(gè)端點(diǎn)的噪聲幀的百分?jǐn)?shù)。雖然Test2可以是包括100％的任何一個(gè)百分?jǐn)?shù)，但是優(yōu)選地，Test2的范圍位于70％到100％。
如果在能量質(zhì)心后面M4幀中的噪聲幀的百分?jǐn)?shù)小于Test2，然后ENDPNT不是一個(gè)端點(diǎn)。這個(gè)方法進(jìn)行到步驟275，其中微處理器110將ENDPNT增加Y幀，Y可以是任何數(shù)目的幀，但是優(yōu)選地，Y的范圍在1到3幀之間。然后，這個(gè)方法繼續(xù)進(jìn)行到步驟275。
如果在ENDPNT后面M4幀中的噪聲幀的百分?jǐn)?shù)大于或者等于Test2，然后ENDPNT可能是一個(gè)端點(diǎn)。在步驟280中，微處理器110判斷在ENDPNT處的累加能量是否大于或者等于總窗口能量的一個(gè)最大百分?jǐn)?shù)，EMAXP。如果ENDPNT是結(jié)束端點(diǎn)，然后在ENDPNT處的累加能量應(yīng)該大于或者等于總窗口能量的一個(gè)百分?jǐn)?shù)。EMAXP是總窗口能量的一個(gè)最大百分?jǐn)?shù)。雖然EMAXP可以是包括100％的任何一個(gè)百分?jǐn)?shù)，但是優(yōu)選地，EMAXP的范圍位于80％到100％。如果在ENDPNT處的累加能量小于總窗口能量的一個(gè)最大百分?jǐn)?shù)EMAXP，然后ENDPNT不是一個(gè)端點(diǎn)。這個(gè)方法進(jìn)行到步驟275，其中微處理器110將ENDPNT增加Y幀。然后，這個(gè)方法繼續(xù)進(jìn)行到步驟270。
如果在ENDPNT處的累加能量大于或者等于總窗口能量的一個(gè)最大百分?jǐn)?shù)EMAXP，然后ENDPNT的當(dāng)前值是結(jié)束端點(diǎn)。這個(gè)方法進(jìn)行到步驟285，其中語音結(jié)束索引號(hào)等于ENDPNT的當(dāng)前值。
已經(jīng)聯(lián)系圖中所顯示的實(shí)施方式描述了本發(fā)明。但是，可以使用其它實(shí)施方式，并且可以進(jìn)行改變來執(zhí)行本發(fā)明中相同的功能，而不會(huì)偏離它。所以，應(yīng)明確，后附權(quán)利要求書覆蓋了所有落在本發(fā)明很寬范圍內(nèi)的這種變化和修改。因此，本發(fā)明不局限于任何單個(gè)的實(shí)施方式，而應(yīng)被解釋成包括后附權(quán)利要求書所規(guī)定的內(nèi)容和范圍。
權(quán)利要求
1.能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置，包括至少一個(gè)具有一個(gè)語音/噪聲分類器的微處理器，其中，所述至少一個(gè)微處理器分析一個(gè)語音信號(hào)來決定一個(gè)語音采集窗口內(nèi)的語音波形參數(shù)，其中語音波形參數(shù)包括一個(gè)累加幀能量，語音波形的一個(gè)能量質(zhì)心，和一個(gè)總窗口能量，其中所述至少一個(gè)微處理器通過聯(lián)系能量質(zhì)心分析語音采集窗口內(nèi)的幀來識(shí)別一個(gè)潛在的端點(diǎn)，和其中所述至少一個(gè)微處理器通過將在潛在端點(diǎn)處的累加幀能量與總窗口能量相比來證實(shí)這個(gè)潛在的端點(diǎn)是一個(gè)端點(diǎn)；一個(gè)麥克風(fēng)，用于向所述至少一個(gè)微處理器提供語音信號(hào)；和至少一個(gè)通信輸出機(jī)制。
2.如權(quán)利要求1的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置，其中所述至少一個(gè)微處理器證實(shí)能量質(zhì)心是位于數(shù)據(jù)采集窗口的一個(gè)語音范圍內(nèi)。
3.如權(quán)利要求1的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置，進(jìn)一步包括音頻電路，與所述麥克風(fēng)和所述至少一個(gè)微處理器相連，所述音頻電路具有一個(gè)模擬-數(shù)字轉(zhuǎn)換器。
4.如權(quán)利要求1的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置，其中所述至少一個(gè)微處理器具有語音識(shí)別技術(shù)，和其中所述至少一個(gè)微處理器使用語音識(shí)別技術(shù)來從語音信號(hào)中產(chǎn)生一個(gè)語音識(shí)別信號(hào)。
5.如權(quán)利要求4的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置，進(jìn)一步包括通信接口電路，被連接來從所述至少一個(gè)微處理器接收語音識(shí)別信號(hào)。
6.用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)方法，其中語音說話具有一個(gè)開始端點(diǎn)和一個(gè)結(jié)束端點(diǎn)，這個(gè)方法包括步驟(a)分析二個(gè)語音信號(hào)來決定一個(gè)語音采集窗口內(nèi)的語音波形參數(shù)，其中語音波形參數(shù)包括一個(gè)累加幀能量，語音波形的一個(gè)能量質(zhì)心，和一個(gè)總窗口能量；(b)通過分析在這個(gè)能量質(zhì)心前面的、語音采集窗口內(nèi)的幀中的至少一個(gè)噪聲和語音，來識(shí)別一個(gè)潛在的開始端點(diǎn)；和(c)通過將這個(gè)潛在開始端點(diǎn)處的累加幀能量與總窗口能量相比，來證實(shí)這個(gè)潛在的開始端點(diǎn)是一個(gè)開始端點(diǎn)。
7.如權(quán)利要求6的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)方法，進(jìn)一步包括步驟(d)當(dāng)這個(gè)潛在開始端點(diǎn)處的累加幀能量大于或者等于總窗口能量的一個(gè)預(yù)定百分?jǐn)?shù)時(shí)，重復(fù)步驟(b)和(c)。
8.如權(quán)利要求6的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)方法，進(jìn)一步包括步驟(d)通過分析在能量質(zhì)心后面的、位于語音采集窗口內(nèi)的幀來識(shí)別一個(gè)潛在的結(jié)束端點(diǎn)；(e)通過將在這個(gè)潛在結(jié)束端點(diǎn)處的累加幀能量與總窗口能量相比，來證實(shí)這個(gè)潛在結(jié)束端點(diǎn)是一個(gè)結(jié)束端點(diǎn)；(f)當(dāng)在這個(gè)潛在開始端點(diǎn)處的累加幀能量大于總窗口能量的一第一預(yù)定百分?jǐn)?shù)時(shí)，重復(fù)步驟(b)和(c)；和(g)當(dāng)在這個(gè)潛在結(jié)束端點(diǎn)處的累加幀能量小于總窗口能量的一第二預(yù)定百分?jǐn)?shù)時(shí)，重復(fù)步驟(d)和(e)。
9.如權(quán)利要求6的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)方法，其中步驟(a)包括證實(shí)能量質(zhì)心是位于語音采集窗口的一個(gè)語音范圍內(nèi)的子步驟(a1)。
10.如權(quán)利要求9的能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)方法，其中步驟(b)包括中間步驟分析在這個(gè)能量質(zhì)心前面的幀，和分析在這個(gè)能量質(zhì)心后面的幀。
全文摘要
能夠用于對(duì)語音說話方式進(jìn)行斷點(diǎn)的一個(gè)通信裝置,微處理器(110)分析一個(gè)語音信號(hào)來決定一個(gè)語音采集窗口內(nèi)的語音波形參數(shù),比較語音波形參數(shù)來決定語音說話的開始和結(jié)束端點(diǎn),還從根據(jù)語音說話能量質(zhì)心的一個(gè)幀索引號(hào)開始,并且分析在這個(gè)幀索引號(hào)前面的和后面的幀來決定端點(diǎn)。由于將累加幀能量與語音采集窗口內(nèi)的總能量相比來決定是否出現(xiàn)了附加語音幀,所以說話中的間隙和停頓不會(huì)產(chǎn)生一個(gè)錯(cuò)誤的端點(diǎn)判斷。
文檔編號(hào)G10L11/00GK1262570SQ0010163
公開日2000年8月9日申請(qǐng)日期2000年1月21日優(yōu)先權(quán)日1999年1月22日
發(fā)明者威廉·M·庫什那, 阿德里爾斯·帕里凱蒂斯申請(qǐng)人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載