使用與發(fā)話人相關的時標變化技術的通信系統(tǒng)和方法

文檔序號：2820027閱讀：479來源：國知局

專利名稱：使用與發(fā)話人相關的時標變化技術的通信系統(tǒng)和方法
技術領域：
本發(fā)明涉及語音壓縮和擴展技術，更具體地是涉及使用基于波形相似性的疊加技術(WSOLA)的改進版本進行語音壓縮和擴展的方法和裝置。
在帶寬和存儲量有限的應用中對語音信號進行傳輸或變換通常會導致折衷，這種折衷或者降低了所得到的語音輸出信號的質量，或者降低了此種聲頻信號的變換的靈活性。利用時標修正對音樂或話音進行加速或減速(最好不改變音調(pitch))具有許多應用，這些應用包括錄音電話(dictation)，語音郵件和聲道編輯等。另一種具體應用，語音消息尋呼，對于采用當前技術的大型尋呼系統(tǒng)而言在經濟上是不可行的。語音尋呼與音頻(tone)尋呼、數(shù)字尋呼和字符數(shù)字尋呼相比需要更多的傳播時間。在當前技術下，與遜于理想音質再現(xiàn)的音頻、數(shù)字或字符數(shù)字尋呼相比，語音尋呼服務在經濟上是不可行的。另一個限制語音消息尋呼的約束是帶寬和當前使用尋呼信道的帶寬的方法。相比之下，不管是以個人鍵盤的形式，還是通過打電話到話務員中心，對發(fā)送字符數(shù)字消息到尋呼終端的鍵盤輸入設備的有限訪問約束了字符數(shù)字尋呼的增長。一種語音系統(tǒng)克服了列出的這些問題，其中主叫方可以簡單地摘下電話，撥打電話號并講出一條消息。并且，當前沒有語音尋呼系統(tǒng)采用摩托羅拉的FLEXTM新型高速尋呼協(xié)議結構。
現(xiàn)有的語音尋呼系統(tǒng)，尤其是在大城市中，缺乏許多FLEXTM協(xié)議的優(yōu)點，其中包括高電池節(jié)省率，多信道掃描能力，諸如語音加數(shù)據(jù)的模式混合，回送確認尋呼(允許向主叫方返回接收情況)，位置搜尋能力，系統(tǒng)和頻率重用。
對于涉及語音信號時標變化的尋呼和諸如錄音電話和語音郵件的其它應用，當前的時標變化方法缺乏理想的組合，這種組合能夠提供足夠的，允許設計者在給定的約束下優(yōu)化應用的話音質量和靈活性。這樣，需要一種經濟易行并且具有允許在給定的結構下進行優(yōu)化的靈活性的語音通信系統(tǒng)，并且更具體地，對于尋呼應用，該系統(tǒng)還保留了摩托羅拉的FLEXTM協(xié)議的許多優(yōu)點。
一種使用基于波形相似性的疊加技術(WSOLA)的改進版本的語音時標修正方法包括步驟在存儲器中存儲一部分輸入語音信號；分析該部分輸入語音信號，提供估測音調值；根據(jù)估測音調值確定分段長度；并且根據(jù)確定出的分段長度，針對給定的時標變化因子對輸入語音信號進行時標變化。
在本發(fā)明的另一方面，使用語音壓縮、具有至少一個發(fā)送器基站和多個選擇呼叫接收器的通信系統(tǒng)包括一個使用WSOLA-SD技術和正交幅度調制技術壓縮音頻信號以提供經過處理的信號的處理設備；和一個發(fā)送經過處理的信號的正交幅度調制發(fā)送器。在多個選擇呼叫接收器中的每一個上，一個選擇呼叫接收器模塊接收被發(fā)送的處理信號，一個處理設備使用正交幅度解調技術和WSOLA-SD擴展技術對接收的處理信號進行解調以提供一個重構信號。
在本發(fā)明的另一方面，接收壓縮語音信號的選擇呼叫接收器包括一個接收被發(fā)送的處理信號的選擇呼叫接收器，一個使用單邊帶解調技術和WSOLA-SD擴展技術對接收的處理信號進行解調以提供重構信號的處理設備。
在本發(fā)明的另一方面，一個使用基于波形相似性的疊加技術(WSOLA)的改進版本進行語音時標或頻標修正的電子設備包括一個存儲一部分輸入語音信號的存儲器，一個分析該部分輸入語音以提供估測音調值，并且根據(jù)估測的音調值確定出分段長度的處理器，和一個根據(jù)所確定的分段長度對輸入語音信號進行時標變化或頻率定標的設備。

圖1是基于本發(fā)明的一個語音通信系統(tǒng)的模塊圖。
圖2是基于本發(fā)明的一個基站發(fā)送器的模塊圖。
圖3是基于本發(fā)明的一個基站發(fā)送器的擴展電路模塊圖。
圖4是基于本發(fā)明的另一個基站發(fā)送器的擴展電路模塊圖。
圖5是基于本發(fā)明的一個基站發(fā)送器的語音處理，編碼和調制部分的模塊圖。
圖6是基于本發(fā)明的一個6單邊帶信號發(fā)送器的頻譜分析器輸出。
圖7是基于本發(fā)明的一個選擇呼叫接收器的擴展電路模塊圖。
圖8是基于本發(fā)明的另一個選擇呼叫接收器的擴展電路模塊圖。
圖9是基于本發(fā)明的另一個選擇呼叫接收器的擴展電路模塊圖。
圖10是說明基于本發(fā)明的帶外信令協(xié)議的傳輸格式的時序圖。
圖11是說明基于本發(fā)明的帶外信令協(xié)議的傳輸格式，其中包括一個語音幀的細節(jié)內容的時序圖。
圖12是圖示基于本發(fā)明的帶外信令協(xié)議的一個控制幀和兩個模擬幀的另一個時序圖。
圖13-17圖示了針對基于本發(fā)明的WSOLA時標變化(壓縮)方法的幾次迭代的時序圖。
圖18-22圖示了針對基于本發(fā)明的WSOLA-SD時標變化(壓縮)方法的幾次迭代的時序圖。
圖23-24圖示了針對基于本發(fā)明的WSOLA-SD時標變化(擴展)方法的幾次迭代的時序圖。
圖25圖示了關于基于本發(fā)明的整個WSOLA-SD時標變化方法的模塊圖。
參照圖1，在選擇呼叫系統(tǒng)100的模塊圖中說明了圖示本發(fā)明的語音壓縮和擴展技術的通信系統(tǒng)，其中選擇呼叫系統(tǒng)100包括一個接收音頻信號，諸如電話114的輸入設備，從該設備產生基于語音的選擇呼叫以便發(fā)送到系統(tǒng)100中的選擇呼叫接收器。通過電話114(或其它諸如計算機的輸入設備)進入的各選擇呼叫通常包括(a)系統(tǒng)中至少一個選擇呼叫接收器的接收器地址和(b)一個語音消息。所產生的選擇呼叫通常被提供給一個發(fā)送器基站或一個選擇呼叫終端113以便進行格式化和排隊。終端113的語音壓縮電路101用于壓縮所提供的語音消息的時間長度(在下面對圖2，3和4的描述中討論這種語音壓縮電路101的詳細操作)。語音壓縮電路101最好包含一個處理設備，該設備使用時標變化技術和單邊帶調制技術壓縮音頻信號以便提供經過處理的信號。接著選擇呼叫被輸入到選擇呼叫發(fā)送器102，在該發(fā)送器中對通過天線103發(fā)送的射頻信號進行調制。發(fā)送器最好是一個發(fā)送經過處理的信號的正交幅度調制發(fā)送器。
選擇呼叫接收器112中的天線104接收經過調制的發(fā)送射頻信號，并且把該信號輸入到接收經過處理的信號或射頻信號的選擇呼叫接收器模型或射頻接收器模型105，其中射頻信號被解調并且接收器地址和壓縮語音消息調制被恢復。接著壓縮語音消息被提供給一個模數(shù)轉換器(A/D)115。選擇呼叫接收器112最好包含一個處理設備，該設備使用單邊帶解調技術和時標變化擴展技術解調所接收的處理信號以便提供一個重構信號。接著壓縮語音消息被提供給語音擴展電路106，該電路把語音消息的時間長度擴展到期望的值上(在下面圖7和8的描述中詳細討論本發(fā)明中使用的語音擴展電路106的操作)。接著語音消息被提供給一個諸如音頻放大器108的放大器以便把該消息放大成重構音頻信號。
解調接收器地址被從射頻接收器105提供給解碼器107。如果接收器地址與解碼器107中存儲的任一接收器地址相匹配，則激活報警器111，向選擇呼叫接收器112的用戶提供簡略的感覺指示，表明已經接收到一個選擇呼叫。簡略的感覺指示可以包括聽覺信號，諸如振動的觸覺信號，或諸如光的視覺信號，或各種信號的組合。放大后的語音消息接著被從音頻放大器108提供給報警器111中的音頻揚聲器以便通知消息并由用戶查詢消息。
解碼器107可以包括一個存儲器，在該存儲器中可以存儲并反復調出所接收的語音消息以便通過激活一個或多個控制器110來進行查詢。
在本發(fā)明的另一方面，圖1的各部分可以被等價地解釋成錄音電話設備，語音郵件系統(tǒng)，應答機或聲道編輯設備的相應部分。通過去除系統(tǒng)100中包括選擇呼叫發(fā)送器102和射頻接收器105的無線特性，如破折線所示，可以通過A/D115從語音壓縮電路101把系統(tǒng)硬連接到語音擴展電路106。這樣，在語音郵件，應答機，聲道編輯或錄音電話系統(tǒng)中，輸入設備114會向具有語音壓縮電路101的終端113提供諸如語音信號的聲頻輸入信號。語音擴展電路106和控制器110會提供偵聽和變換在語音郵件，應答機，錄音電話，聲道編輯或其它可應用的系統(tǒng)中的輸出語音信號的手段。本發(fā)明清楚地表明除了尋呼之外，本發(fā)明的時標變化技術還具有許多其它的應用。這里所公開的尋呼例子只是為了說明這些應用中的一個。
現(xiàn)在參照圖2，其中說明了尋呼發(fā)送器102和終端113的模塊圖，終端113包含一個振幅壓縮和濾波模塊150，該模塊與一個時間壓縮模塊160相連，而時間壓縮模塊160與選擇呼叫發(fā)送器102相連并且使用天線裝置或天線103發(fā)送消息。參照圖3和4，其中說明了圖2的模塊圖的低層模塊圖。
請記住，通過使用正交幅度調制(QAM)或單邊帶(SSB)調制和語音信號時標變化的基本概念，這種壓縮語音尋呼系統(tǒng)具有高帶寬效率并且在每個25kHz信道上通常支持6到30個語音消息。在第一實施例中，并且還參照圖6，壓縮語音信道或語音通信資源最好包含3個相隔6250Hz的子信道。各子信道包括2個邊帶和一個導頻載波。在第一方法中，兩個邊帶可以具有相同的消息，在第二方法中，兩個邊帶可以分別具有不同的語音消息，或者是把單個消息分割在上邊帶和下邊帶之間(正如所期望和設計的那樣，都涉及到相同或不同的接收器)。單個的子信道的帶寬實際上有6250Hz，其中各邊帶占有3125Hz的帶寬。實際的語音帶寬為300-2800Hz。任意地，可以使用正交幅度調制，其中通過信號的I和Q分量直接發(fā)送兩個獨立的信號以構成各個子信道信號。進行這種傳輸所需的帶寬與在QAM和SSB的情況下所需的相同。
注意，圖2中的模塊150和160可以被不同的語音信號反復使用(在25KHz寬的信道中為6次，而在50KHz寬的信道中為14次)，從而允許高效率地同時傳輸(在所示的例子中達到6)語音消息。接著可以在一個累加設備(未示出，但在圖5中可以看到)中累加所有這些邊帶，并且最好是在102中把這些邊帶當作一個復合信號來處理。一個分離信號(未示出)包含F(xiàn)LEXTM協(xié)議(將在下面描述)FM調制，這種調制可以通過軟件來完成，或者是通過硬件FM信號激勵器來完成。
在這里說明的例子中，最好是由終端113接收一個輸入語音消息。本系統(tǒng)最好是使用時標變化方案或技術來進行所需的壓縮。本發(fā)明中使用的最優(yōu)壓縮技術需要某些特定于輸入消息的參數(shù)以便提供最佳的質量。時標壓縮技術把語音信號處理成與未壓縮的語音具有相同的帶寬特征的信號。(一旦計算出這些參數(shù)，則使用期望的時標變化壓縮技術壓縮語音)。接著使用一個數(shù)字編碼器對這種時標變化壓縮語音進行編碼，以便減少需要分配到發(fā)送器的位數(shù)。在尋呼系統(tǒng)的情況下，為了進一步進行諸如振幅壓縮的處理，需要再次對編碼語音進行解碼，其中編碼語音被分配到同時廣播尋呼系統(tǒng)中多個同時廣播站點的發(fā)送器上。在發(fā)送器上對輸入語音信號進行振幅壓縮(最好是使用音節(jié)壓縮擴展器)以防止信道損耗。
被稱作基于波形相似性的疊加技術或WSOLA的一種時標變化技術把語音編碼成與未壓縮的語音具有相同的帶寬特征的模擬信號。WSOLA的性質允許把該技術與SSB或QAM調制混合使用，使得所得到的總壓縮(compression)就是多個QAM或SSB子信道(在本例中為6個語音信道)的帶寬壓縮比與WSOLA的時間壓縮比(通常介于1和5之間)的乘積。在本發(fā)明中，使用一種將在下面描述并被稱作“WSOLA-SD”的WSOLA改進版本。WSOLA-SD保留了WSOLA允許與SSB或QAM調制混合使用的兼容性特征。
最好是使用一個自適應差分脈沖編碼調制編碼器(ADPCM)把語音編碼成被分配到發(fā)送器上的數(shù)據(jù)。在發(fā)送器上，對數(shù)字數(shù)據(jù)進行解碼以得到WSOLA-SD壓縮語音，該語音接著被進行振幅壓縮擴展以防止信道噪聲。對該信號進行希爾伯特變換以得到一個單邊帶信號。也可以對該信號進行正交調制以得到QAM信號。接著把一個導頻載波加到信號中，并且把最終的信號內插到16kHz的采樣速率上并且轉換成模擬信號。接著對該信號進行調制和發(fā)送。
本發(fā)明可以用一種混合模式(語音或數(shù)字)操作單向或雙向通信系統(tǒng)，把模擬語音和/或數(shù)字消息傳遞到前向信道(從基發(fā)送器向外)的選擇呼叫接收器單元上，并且接收來自相同的選擇呼叫接收器單元的確認，其中選擇呼叫接收器單元在一個可選的反向信道(向內到達一個基接收器)上額外具有一個可選的發(fā)送器。本發(fā)明的系統(tǒng)在前向信道上使用一個與FLEXTM(由摩托羅拉制定的高速尋呼協(xié)議，這里參考引用的美國專利第5,282,205號的主題)類似的同步幀結構以便進行尋址和語音消息傳輸。使用了兩種類型幀控制幀和語音幀。控制幀被用于尋址和傳遞數(shù)字數(shù)據(jù)到達具有便攜語音單元(PVU)的形式的選擇呼叫接收器。語音幀被用來向PVU傳遞模擬語音消息。兩種類型幀在長度上均與標準的FLEXTM幀相同，并且這兩種幀都是從標準FLEXTM幀同步開始。這兩種幀在一個單獨的前向信道上被時分多路復用。下面參照圖10，11和12更詳細地討論本發(fā)明的幀結構。
對于調制而言，在本發(fā)明的前向信道上最好使用兩種類型的調制數(shù)字FM(2階和4階FSK)和AM(SSB或具有導頻載波的QAM)。數(shù)字FM調制被用于兩種幀的同步部分，及控制幀的地址與數(shù)據(jù)字段。AM調制(各邊帶可以被獨立或混合地用在單獨一個消息上)被用于語音幀的語音消息字段。傳輸?shù)臄?shù)字FM部分支持6400BPS(3200波特符號)信令。傳輸?shù)腁M部分支持限帶語音(2800Hz)并且一對語音信號需要6.25KHz。如下所述，通過把整個信道分割成6.25KHz子信道并且把各子信道和AM邊帶用于獨立的消息，協(xié)議利用了縮減的AM帶寬。
本發(fā)明的語音系統(tǒng)最好被設計成在25KHz或50KHz前向信道上進行操作，但其它長度的頻譜也在本發(fā)明的考慮之內。一個25KHz前向信道在控制幀內支持一個單獨的FM控制信號，并且在語音幀的消息部分中支持3個AM子信道(6個獨立信號)。一個50KHz前向信道在控制幀中支持兩個以時間鎖定方式操作的FM控制信號，并且在語音幀的消息部分中支持7個AM子信道(14個獨立信號)。當然，使用不同長度的帶寬，不同數(shù)量的子信道和信號的結構也在本發(fā)明的考慮之內。這里公開的例子只是說明和指出權利要求書潛在的廣闊范圍。
除了通過調制和頻譜子信道化得到的頻譜效率之外，在另一個實施例中，本發(fā)明可以使用一種以1至5倍的因子對語音進行時標變化的與發(fā)話人相關的語音壓縮技術。通過使用相同消息或不同消息的不同部分的子信道的兩個AM邊帶(可選地，兩個QAM分量)，每個子信道的總壓縮系數(shù)為2至10倍。語音質量通常按一個不斷增加的時間壓縮系數(shù)下降。在本發(fā)明的語音系統(tǒng)中最優(yōu)使用的壓縮技術是上述被稱作基于波形相似性的疊加技術(WSOLA)的時標變化技術的改進形式。WSOLA的改進形式依賴于具體的發(fā)話人或所使用的話音，因而下面要討論的“WSOLA-SD”表示“WSOLA-與發(fā)話人相關”。
當反向(向內到達基接收器)信道可用時本發(fā)明的操作得到增強。操作的頻分單工模式是一個被支持的入站操作模式。(均被授權給本發(fā)明的被授權人，摩托羅拉美國專利第4,875,038號和4,882,579號說明了多個確認信號在一個入站信道上的使用，并且上述專利在這里被參考引用)。在頻分單工模式下，提供單獨的專用信道(通常與出站信道配對)進行入站傳輸。在12.5KHz的信道帶寬內考慮使用800至9600BPS的入站數(shù)據(jù)速率。
根據(jù)反向信道的可用性可以在幾種模式中的一個模式上操作本發(fā)明的系統(tǒng)。當沒有可用的反向信道時，最好是以同時廣播模式操作系統(tǒng)進行尋址和語音消息傳輸。當提供一個反向信道時，可以在指定目標消息模式下操作系統(tǒng)，使得只在位于便攜語音單元附近單獨一個或一組發(fā)送器上廣播消息。指定目標消息模式的特征在于同時廣播尋址以確定便攜語音單元的位置。反向信道上便攜語音單元的響應提供出了位置，隨后是針對便攜語音單元的本地化消息傳輸。指定目標消息操作模式的優(yōu)點在于提供了重用子信道的機會；并且這種操作模式可以在許多大型系統(tǒng)中增加系統(tǒng)容量。
圖3圖示了基于本發(fā)明的發(fā)送器300的第一實施例的模塊圖。模擬語音信號被輸入到一個抗混淆低通濾波器301，該濾波器強烈衰減所有高于模數(shù)轉換器(ADC)303的一半采樣速率的頻率，而該轉換器303則與濾波器301相連。ADC303把模擬語音信號轉換成數(shù)字信號，使得能夠使用數(shù)字處理技術進行進一步的信號處理。數(shù)字處理是最優(yōu)模式，但通過模擬技術或模擬與數(shù)字技術的組合也可以實現(xiàn)相同的功能。
與ADC303相連的帶通濾波器305強烈衰減處在其截止頻率之下和之上的頻率。低截止頻率最好是300Hz，該頻率允許有效的語音頻率通過，但衰減較低的會干擾導頻載波的頻率。高截止頻率最好是2800Hz，該頻率允許有效的語音頻率通過，但衰減較高的會干擾相鄰傳輸信道的頻率。最好與濾波器305相連的自動增益控制(AGC)模塊307均衡不同語音的音量水平。
最好與AGC模塊307相連的時間壓縮模塊309縮短了傳輸語音信號所需的時間，同時在帶通濾波器305的輸出上基本保持相同的信號頻譜。時間壓縮方法最好是WSOLA-SD(將在下面解釋)，但也可以使用其它的方法。振幅壓縮模塊311和接收器700(圖7)中對應的振幅擴展模塊720構成壓縮擴展設備，該設備增加接收語音的視在(apparent)信噪比。壓縮擴展比以分貝為單位最好是2比1，但根據(jù)本發(fā)明也可以使用其它的比率。在諸如尋呼系統(tǒng)的通信系統(tǒng)具體實例中，設備301-309可以被包含在尋呼終端(圖1的113)中，并且圖3中其余的分量可以構成一個尋呼發(fā)送器(圖1的102)。在這樣的情況下，通常在尋呼終端和尋呼發(fā)送器之間有一個數(shù)字鏈路。例如，可以使用脈沖編碼調制(PCM)技術對模塊309之后的信號進行編碼，并接著使用PCM進行解碼以減少在尋呼終端和尋呼發(fā)送器之間傳輸?shù)奈粩?shù)。
不管怎樣，與振幅壓縮模塊311相連的第二帶通濾波器308強烈衰減在其截止頻率之下和之上的頻率，從而消除任何由AGC307，時間壓縮模塊309或振幅壓縮模塊311產生的偽頻率分量。低截止頻率最好是300Hz，該頻率允許有效的語音頻率通過，但衰減較低的會干擾導頻載波的頻率。高截止頻率最好是2800Hz，該頻率允許有效的語音頻率通過，但衰減較高的會干擾相鄰傳輸信道的頻率。
時間壓縮語音樣本最好被存儲在緩沖區(qū)313中，直到已經處理完整個語音消息。這樣就允許完整發(fā)送時間壓縮語音消息。這種緩沖方法最好被用于尋呼服務(通常是非實時服務)。其它的緩沖方法對于其它的應用而言可能是最優(yōu)的。例如，對于一個涉及雙向實時對話的應用，這種緩沖所導致的延遲是不可忍受的。在這種情況下最好是把幾個對話的小片段交叉起來。例如，如果時間壓縮比為3∶1，則通過單獨一個信道可以發(fā)送3個實時語音信號。3個傳輸可以在信道上以150毫秒脈沖串的形式相互交叉，并且所導致的延遲是可以接受的。來自緩沖區(qū)313的時間壓縮語音信號被提供給希爾伯特變換濾波器323和時間延遲模塊315，該模塊與希爾伯特變換濾波器具有相同的延遲，但在延遲不同時也不會影響到信號。
時間延遲模塊315的輸出(通過累加電路317)和希爾伯特變換濾波器323的輸出分別構成一個上邊帶(USB)單邊帶(SSB)信號的同相(I)和正交(Q)分量。時間延遲的輸出和希爾伯特變換濾波器的負輸出(325)分別構成一個下邊帶(LSB)單邊帶(SSB)信號的同相(I)和正交(Q)分量。這樣，如點線連接所示，可以在上邊帶或下邊帶上進行傳輸。
通過使用另一個類似的在低邊帶上操作的發(fā)送器，當在使用上邊帶發(fā)送一個時間壓縮語音信號時，可以使用下邊帶同時發(fā)送第二個時間壓縮語音信號。由于有效利用了傳輸帶寬并且有抗串擾能力，SSB是最優(yōu)的調制方法?？梢允褂秒p邊帶調幅(AM)或調頻(FM)，但需要至少兩倍的帶寬以進行傳輸。也可以通過I分量直接發(fā)送一個時間壓縮語音信號，并且通過Q分量直接發(fā)送第二個時間壓縮語音信號，但是在本實施例中，當在接收器上發(fā)生多路徑接收時，本方法會在兩個信號之間產生串擾。
一個直流(DC)信號被加到信號的I分量上以產生導頻載波，該直流信號與信號一起被發(fā)送出去，并且被接收器(700)用來消除傳輸信道中的增益效應，相位改變或衰減。信號的I和Q分量分別被數(shù)模轉換器(DAC)319和327轉換成模擬形式。接著兩個信號分別被低通重構濾波器321和329濾波以消除數(shù)模轉換處理過程產生的偽頻率分量。正交幅度調制(QAM)調制器333把I和Q信號調制成具有低功率電平的射頻(RF)載波。其它的諸如直接合成調制信號的調制方法也可以象DAC(319和327)，重構濾波器(321和329)和QAM調制器333那樣達到相同的目的。最后，線性RF功率放大器335把調制RF信號放大到期望的功率電平，通常為50瓦或更多。接著，RF功率放大器335的輸出被接通到發(fā)送天線。其它的改變基本上可以產生相同的結果。例如，在時間壓縮之前可以進行振幅壓縮，或者均加以省略，而設備則仍然執(zhí)行基本相同的功能。
圖4圖示了基于本發(fā)明的發(fā)送器400的第二實施例的模塊圖。在圖4中，上邊帶和下邊帶均被用來同時發(fā)送相同時間壓縮信號的不同部分。發(fā)送器400最好包括如圖3所示的那樣連接和配置的一個抗混淆濾波器404，一個ADC403，一個帶通濾波器405，一個AGC407，一個時間壓縮模塊409，一個振幅壓縮模塊411，和一個帶通濾波器408。圖4的發(fā)送器的操作與圖3中的始終相同，直到整個語音消息已經被處理并且被存儲在緩沖區(qū)413中。接著存儲在緩沖區(qū)413中的時間壓縮語音樣本被加以分割，從而在上邊帶或下邊帶上被發(fā)送出去。最好是通過一個邊帶發(fā)送第一半時間壓縮語音消息，并且通過其它的邊帶(或直接在I和Q分量上)發(fā)送第二半時間壓縮語音消息。
來自緩沖區(qū)413的第一部分時間壓縮語音信號被提供給第一希爾伯特變換濾波器423和第一時間延遲模塊415，該模塊與希爾伯特變換濾波器具有相同的延遲，但在延遲不同時也不會影響到信號。第一時間延遲模塊的輸出(通過累加電路417)和第一希爾伯特變換濾波器423的輸出(通過累加電路465)是同相(I)和正交(Q)信號分量，當與QAM調制器的I和Q輸入相連時，這些分量產生具有只來自第一部分時間壓縮語音樣本的信息的上邊帶信號。來自緩沖區(qū)413的第二部分時間壓縮語音信號被提供給第二希爾伯特變換濾波器461和第二時間延遲模塊457，該模塊與希爾伯特變換濾波器具有相同的延遲，但在延遲不同時也不會影響到信號。第二時間延遲分量的輸出(通過累加電路459和417)和第二希爾伯特變換濾波器461的負輸出(463)(并且再次通過累加電路465)是同相(I)和正交相位(Q)信號分量，當與QAM調制器的I和Q輸入相連時，這些分量產生具有只來自第二部分時間壓縮語音樣本的信息的上邊帶信號。上邊帶和下邊帶的I分量被加上一個DC導頻載波分量(通過累加電路459)，從而構成一個復合I分量以進行傳輸。上邊帶和下邊帶信號的Q分量被相加(通過累加電路465)，從而構成一個復合Q分量以進行傳輸?？梢岳斫鈫卧?15，423，457，461，417，459，463，465，419，427，421和429構成一個預處理器，該預處理器產生預處理I和Q信號分量，當與QAM調制器453相連時，這些分量產生具有一個副載波FA的低電平子信道信號，該信號具有兩個單邊帶信號，而單邊帶信號在各邊帶上具有獨立的信息。
發(fā)送器400還包括如圖3描述的那樣排列和構造的DAC419和427，重構濾波器421和429，QAM調制器433和RF功率放大器455。圖4的發(fā)送器的其余部分的操作與圖3中的相同。
在圖3和4的發(fā)送器300和400中，最好是只有抗混淆濾波器，重構濾波器，RF功率放大器和可選的模數(shù)轉換器與數(shù)模轉換器是分立的硬件分量。設備的其余部分最好是能夠融入可以在處理器上運行的軟件之中，其中處理器最好是一個數(shù)字信號處理器。
圖7圖示了基于本發(fā)明的接收器700的模塊圖，該接收器最好是與圖3的發(fā)送器配合操作。一個接收天線與接收器模塊702相連。接收器模塊702包括常規(guī)接收器單元，例如RF放大器，混合器，帶通濾波器和中頻(IF)放大器(未示出)。QAM解調器704檢測接收信號的I和Q分量。模數(shù)轉換器(ADC)706把I和Q分量轉換成數(shù)字形式以便進行進一步的處理。數(shù)字處理是最優(yōu)方法，但利用模擬技術或模擬與數(shù)字技術的組合也可以實現(xiàn)相同的功能。象QAM解調器704和ADC706那樣，其它的諸如sigma-delta轉換器的解調方法或直接數(shù)字解調方法可以達到相同的目的。
前向反饋自動增益控制(AGC)模塊708把導頻載波用作一個相位和振幅參考信號以便基本消除在傳輸信道中出現(xiàn)的振幅和相位畸變效應，其中導頻載波和時間壓縮語音信號一起發(fā)送。前向反饋自動增益控制的輸出是接收信號的校正I和Q分量。校正Q分量被提供給希爾伯特變換濾波器712，而校正I分量被提供給時間延遲模塊710，該模塊與希爾伯特變換濾波器712具有相同的延遲，但在延遲不同時也不會影響到信號。
如果在上邊帶上發(fā)送時間壓縮語音信號，則把希爾伯特變換濾波器712的輸出加到(通過累加電路714)時間延遲模塊710的輸出上面，從而產生復原時間壓縮語音信號。如果在下邊帶上發(fā)送時間壓縮語音信號，則把希爾伯特變換濾波器712的輸出從時間延遲模塊710的輸出中減掉(716)，從而產生復原時間壓縮語音信號。復原時間壓縮語音信號最好被存儲在緩沖區(qū)718中，直到整個消息已被接收。其它的緩沖方法也是可以的。(參見對圖3的討論。)振幅擴展模塊720與圖3的振幅壓縮模塊311配合工作完成壓縮擴展功能。時間擴展模塊722與圖3的時間壓縮模塊309配合工作，并且最好是把語音重構成其自然時間幀(針對通過轉換器724的音頻輸出)，或者是重構成其它的應用可能建議的時間幀。一個應用可以有選擇地包括向計算設備726傳遞數(shù)字化語音的操作，其中接收器-計算機接口可以是一個PCMCIA或RS-232接口，或者是任何在現(xiàn)有技術中已知的接口。時間壓縮方法最好是WSOLA-SD，但也可以使用其它的方法，只要在發(fā)送器和接收器中使用了作為補充的方法。其它的結構改變可以產生基本相同的結果。例如，可以在時間壓縮之后進行振幅壓縮，或者是全部省略，而設備仍然會執(zhí)行相同的功能。
圖8圖示了基于本發(fā)明的接收器750的模塊圖，該接收器與圖4的發(fā)送器400配合操作。圖8的接收器包括如圖7描述的那樣排列和構造的一個天線，接收器模塊752，一個QAM調制器754，一個ADC756，一個前向反饋AGC758，一個時間延遲模塊760，和一個希爾伯特變換濾波器762。圖8的接收器的操作直到時間延遲模塊760和希爾伯特變換濾波器762的輸出為止均與圖7的相同。希爾伯特變換濾波器762的輸出被加到時間延遲模塊760的輸出上(通過累加電路764)，從而產生對應于在上邊帶上發(fā)送的第一半語音消息的被復原時間壓縮語音信號。從時間延遲模塊760的輸出中減掉(766)希爾伯特變換濾波器762的輸出，從而產生對應于在下邊帶上發(fā)送的第二半語音消息的被復原時間壓縮語音信號。
兩個恢原時間壓縮語音信號被存儲在相應的上邊帶緩沖區(qū)和下邊帶緩沖區(qū)768或769中，直到接收到整個消息。接著，對應于第一半消息的信號和對應于第二半消息的信號被提供給振幅擴展模塊770。振幅擴展模塊770與圖4的振幅壓縮模塊411配合工作以執(zhí)行壓縮擴展功能。
圖8的接收器的其余部分的操作與圖7類似。時間擴展模塊772與圖4的時間壓縮模塊409配合工作，并且最好是把語音重構成其自然時間幀或其它應用建議或需要的時間幀。時間壓縮方法最好是WSOLA-SD，但也可以使用其它的方法，只要在發(fā)送器和接收器中使用作為補充的方法。其它的結構可以產生基本相同的結果。例如，在時間壓縮之后可以進行振幅壓縮，或者均加以省略，而設備則仍然執(zhí)行基本相同的功能。
象圖3和4的發(fā)送器的實現(xiàn)那樣，圖7和8的許多分量用軟件實現(xiàn)，其中包括，但并不僅限于AGC，單邊帶或QAM解調器，累加電路，振幅擴展模塊，和時間擴展模塊。所有其它的分量最好用硬件實現(xiàn)。
如果本發(fā)明的語音處理，編碼和調制部分被實現(xiàn)成硬件，則可以使用圖5的實現(xiàn)。例如，圖5的發(fā)送器500包括一系列的，被設置到其相應導頻載波(581-583)頻率上的單邊帶激勵器對(571-576)。激勵器571-576和導頻載波581-583對應于各個語音處理路徑。所有這些信號，包括來自FM信號激勵器577(針對用于此前描述的同步，地址和數(shù)據(jù)字段的數(shù)字FM調制)的信號會被饋送到累加放大器570，該信號接著被一個線性放大器580放大并被發(fā)送出去。FM激勵器577的低電平輸出也在累加放大器570中被線性混合。累加放大器570的復合輸出信號被線性RF功率放大器580放大到期望的功率電平，通常為50瓦或更多。線性RF功率放大器580的輸出接著被連接到發(fā)送天線。
其它裝置也可以被用來混合幾個子信道的信號。例如，在圖4的417和465的輸出上得到的幾個數(shù)字基帶I和Q信號可以被頻率轉換到其相應的副載波偏移頻率上，以數(shù)字形式被加以混合，并且接著被轉換成模擬形式以便調制到載波頻率上。
參照圖9，其中說明了基于本發(fā)明的另一個接收器單元900。接收器900另外引入一個檢測并解碼在FLEXTM信令協(xié)議中使用的FM調制控制信號的裝置。模塊902是接收器前端和FM后端。一個數(shù)字自動頻率控制器(DAFC)和自動增益控制器(AGC)被引入模塊902。模塊906包含具有一個支持芯片950的無線處理器，而模塊911，914和916包含所有的輸出設備。模塊904是在處理器906的控制下工作的電池節(jié)能器或電池節(jié)能電路。模塊850是線性解碼器，其后跟有一個模數(shù)轉換器和隨機訪問存儲器(RAM)模塊868。接收器模塊902最好是一個改進型FM接收器，其中增加了一個如美國專利第5,239,306(授權給本發(fā)明的被授權人，并且在這里被參照引用)所述的DAFC，一個為中頻(IF)輸出提供的AGC，該輸出位于接收器最大增益之后，F(xiàn)M解調器之前。
控制Motorola FLEXTM協(xié)議兼容尋呼機的相同處理器完全可以處理本發(fā)明中所有的協(xié)議功能，其中包括FM解調信號的地址識別和消息解碼。另外，根據(jù)一個FM調制地址(或許還有消息指針碼字)，處理器906初始化模數(shù)轉換和RAM模塊868的操作。模塊868分別或全部采樣線性解碼器模塊850的輸出上的I(同相)和Q(正交)線性調制信號。借助一個地址計數(shù)器并根據(jù)處理器906的控制信號，信號樣本被直接寫入RAM。
可以把語音當作占有信道上或等價的I或Q信道上的單個語音帶寬的SSB信號發(fā)送出去。I和Q信號同時占有與兩個模擬單邊帶(SSB)相同的帶寬。語音帶寬處在2.8KHz的等級上，因而在根據(jù)I和Q信道信息恢復出模擬SSB的情況下模數(shù)轉換器需要大約為6.4KHz的信號采樣速率。模數(shù)轉換器以8位精度(盡管10位是最好的)進行采樣。模數(shù)轉換器進行的直接存儲器訪問允許使用速度和功率不是信道數(shù)據(jù)速率的直接函數(shù)的處理器。即一個微處理器可被用于直接存儲器訪問，其中，如果通過微處理器把模數(shù)轉換數(shù)據(jù)讀到存儲器，則需要一個高速率的處理器。
模數(shù)轉換器(A/D)，雙端口RAM和地址計數(shù)器被組成模塊868。第二個RAM I/O端口可以是串行的或并行的，并且以每秒6或12K個樣本的速率進行操作。提供第二個RAM I/O端口以便處理器能夠抽出采樣語音或數(shù)據(jù)，執(zhí)行解調功能，并且擴展壓縮語音或格式化數(shù)據(jù)?；謴统龅恼Z音通過語音處理器914和轉換器916被回放，并且在顯示器911上可以顯示格式化數(shù)據(jù)。
再次參照圖9，一個擴展電路模塊圖被用來更詳細地描述本發(fā)明的雙模式通信接收器的接收器操作。以FM調制格式或以線性調制格式(如SSB)調制并且被發(fā)送的的信息信號被天線802截聽(intercept)，該天線把信息信號連接到接收器部分902，尤其是連接到射頻(RF)放大器806的輸入。消息信息在任何合適的RF信道上被發(fā)送出去，例如VHF頻段和UHF頻段上的信道。RF放大器806放大所接收的信息信號，諸如在930MHz尋呼信道頻率上接收的信號，并且把放大的信息信號連接到第一混合器808的輸入。在本發(fā)明的最優(yōu)實施例中由頻率合成器或本地振蕩器810產生的第一振蕩信號也被連接到第一混合器808。第一混合器808混合被放大的信息信號和第一振蕩信號，從而提供諸如45MHz IF信號的第一中頻或IF信號，該信號被連接到第一IF濾波器812的輸入?？梢岳斫膺€能夠使用其它的IF頻率，尤其是在使用其它尋呼信道頻率的情況下。作為在信道信息信號，IF濾波器812的輸出被連接到第二轉換部分814的輸入，下面將會加以詳細描述。第二轉換部分814使用也由合成器810產生的第二振蕩器信號把在信道信息信號混合成諸如455KHz的低中頻。第二轉換部分814放大所得到的低中頻信號，從而提供適于被連接到FM解調器部分908或線性輸出部分824的第二IF信號。
接收器部分804以類似于常規(guī)FM接收器的方式進行操作，但是與常規(guī)FM接收器不同，本發(fā)明的接收器部分804包括一個自動頻率控制部分816，該部分與第二轉換部分814相連，并且適當?shù)夭蓸拥诙蘒F信號以便提供一個頻率校正信號，該信號被連接到頻率合成器810，從而保持接收器調諧到指定的信道。保持接收器調諧對于正確接收以線性調制格式發(fā)送的QAM(即I和Q分量)和/或SSB信息是很重要的。利用頻率合成器產生第一和第二振蕩器頻率使得接收器能夠在多個操作頻率進行操作選擇，例如在FLEXTM協(xié)議中可以通過編碼存儲器編程和/或通過無線接收的參數(shù)來進行選擇?？梢岳斫庖部梢允褂闷渌恼袷幤麟娐?，諸如固定頻率振蕩器電路，該電路可用來自自動頻率控制部分816的頻率校正信號進行調整。
一個自動增益控制820也與本發(fā)明的雙模式接收器的第二轉換部分814相連。自動增益控制820估測第二IF信號的樣本的能量，并且提供一個被連接到RF放大器806的增益校正信號以維護針對RF放大器806的預定增益。增益校正信號也被連接到第二轉換部分814以便維護針對第二轉換部分814的預定增益。對RF放大器806和第二轉換部分814的增益的維護是正確接收以線性調制格式發(fā)送的高速數(shù)據(jù)信息所需要的，并且還把本發(fā)明的雙模式接收器與常規(guī)FM接收器區(qū)分開來。
正如下面要詳細描述的，當以FM調制格式發(fā)送消息信息或控制數(shù)據(jù)時，第二IF信號被連接到FM解調器部分908。FM解調器部分908以本領域技術人員所熟悉的方式解調第二IF信號，從而提供復原數(shù)據(jù)信號，該信號是對應于以FM調制格式發(fā)送的接收地址和消息信息的二元信息流。復原數(shù)據(jù)信號通過輸入/輸出端口或I/O端口828的一個輸入被連接到微計算機906的輸入，其功能是充當解碼器和控制器。微計算機906提供完全的針對通信接收器900的操作控制，假定這樣的功能是解碼，消息存儲與檢索，顯示控制，報警等等。設備906最好是一個諸如摩托羅拉制造的MC68HC05微計算機的單片機，并且包含進行操作控制的CPU840。內部總線830連接設備906的各個操作單元。I/O端口828(圖9中所示)提供多個控制線和數(shù)據(jù)線，這些線路提供從諸如電池節(jié)能器開關904，音頻處理器914，顯示器911和數(shù)字存儲器868的外部電路到設備906的通信。一個諸如定時器834的定時裝置被用來產生諸如電池節(jié)能器定時，報警定時，消息存儲和顯示定時的通信接收器操作所需要的定時信號。振蕩器832為CPU840提供操作時鐘，并且為定時器834提供參考時鐘。RAM838被用來存儲在執(zhí)行各種控制通信接收器900的操作的固件指令時使用的信息，并且可以被用來存儲諸如數(shù)字消息的短消息。ROM836包含用來控制設備906的操作的固件指令，其中包括對復原數(shù)據(jù)信號進行解碼，進行電池節(jié)能器控制，在數(shù)字存儲部分868中進行消息存儲與檢索，進行尋呼機操作和消息再現(xiàn)的一般控制所需的指令。報警產生器842根據(jù)調制信令信息的解碼提供一個報警信號。編碼存儲器910(未示出)通過I/O端口828連接到微計算機906。編碼存儲器最好是EEPROM(電擦除可編程只讀存儲器)，該存儲器存儲一個或多個與通信接收器900相對應的預定地址。
當接收到FM調制信令信息時，該信息由設備906以本領域技術人員所熟悉的方式解碼，該設備充當一個解碼器。當復原數(shù)據(jù)信號中的信息與存儲的任一預定地址相匹配時，對接收信息進行解碼以確定是否把以FM調制格式調制的附加信息傳遞到接收器，或者是否以線性調制格式調制附加信息。正如下面所要詳細描述的，當以FM調制格式發(fā)送附加信息時，接收復原消息信息并存儲在微計算機RAM838或數(shù)字存儲部分868中，并且為報警產生器842產生一個報警信號。報警信號被連接到驅動轉換器916的音頻處理電路914，從而產生可以聽見的報警音。也可以提供其它形式的諸如觸覺或振動報警的可感知報警方式來通知用戶。
當以線性調制格式(如SSB或“I和Q”)發(fā)送附加信息時，微計算機906對指針信息進行解碼。指針信息包含指示在其上混合信道帶寬內的邊帶(或混合I和Q分量)的接收器的信息，其中在該信道帶寬內發(fā)送附加信息。在發(fā)送高速數(shù)據(jù)期間，設備906維護監(jiān)視和解碼以FM調制格式發(fā)送的信號的操作，直到當前一批信息結束，此時對接收器的功率供應暫停，直到下一批指定的信息到達，或者直到指針所標識的一批信息到達。如下所述，設備906通過I/O端口828產生電池節(jié)能控制信號，該信號被連接到電池節(jié)能控制開關904以暫停對FM解調器908的功率供應，并且向線性輸出部分824，線性解調器850和數(shù)字存儲部分868提供功率。
現(xiàn)在攜帶SSB(或“I和Q”)信息的第二IF輸出信號被連接到線性輸出部分824。線性輸出部分824的輸出被連接到正交檢測器850，特別是被連接到第三混合器852的輸入。第三本地振蕩器也與第三混合器852相連，盡管可以使用其它的頻率，但最好是處在35-150KHz的頻率范圍之內。來自線性輸出部分824的信號與第三振蕩器信號854相混合，從而在第三混合器852的輸出上產生一個第三IF信號，該信號被連接到一個第三IF放大器856。第三IF放大器是一個緩沖來自輸入信號的輸出信號的低增益放大器。第三輸出信號被連接到一個I信道混合器858和一個Q信道混合器860。I/Q振蕩器862提供具有第三振蕩頻率的正交振蕩器信號，該信號在I信道混合器858和Q信道混合器860中與第三輸出信號混合，從而在混合器輸出上提供基帶I信道信號和Q信道信號?；鶐信道信號被連接到低通濾波器864，而基帶Q信道信號被連接到低通濾波器866，從而提供一對表示壓縮和擴展語音信號的基帶音頻信號。
音頻信號被連接到數(shù)字存儲部分868，尤其是被連接到模數(shù)轉換器870的輸入上。A/D轉換器870以至少兩倍于864和866的最高頻率分量的速率對信號進行采樣。采樣速率最好是每個I和Q信道6.4千赫。可以理解，所指出的數(shù)據(jù)采樣速率只是為了舉例，根據(jù)所接收的音頻消息的帶寬可以使用其它的采樣速率。
在發(fā)送高速數(shù)據(jù)的批處理期間，微處理器906提供一個被連接到地址計數(shù)器872的計數(shù)使能信號。A/D轉換器870也能夠允許對信息符號對進行采樣。A/D轉換器870產生被用來給地址計數(shù)器872提供時鐘的高速采樣時鐘信號，地址計數(shù)器接著產生用來通過從轉換器870到RAM874的數(shù)據(jù)線把采樣語音信號裝入雙端口隨機訪問存儲器874的地址。以實時方式高速裝入雙端口RAM874的語音信號在所有語音信號已被接收后被微計算機加以處理，從而通過不需要微計算機906實時處理信息顯著減少了所消耗的能量。微計算機906通過數(shù)據(jù)線和地址線訪問所存儲的數(shù)據(jù)，并且在本發(fā)明的最優(yōu)實施例中，微計算機906處理信息符號對，從而在已經發(fā)送字符數(shù)字數(shù)據(jù)的情況下產生ASCII編碼信息，或在發(fā)送語音的情況下產生數(shù)字化采樣數(shù)據(jù)。數(shù)字化語音樣本可以以其它的，諸如基于BCD，CVSD或LPC形式的格式和所需的類型被加以存儲。在時間壓縮語音信號的情況下，ADC轉換器870采樣的I和Q分量通過雙端口RAM874和I/O 828被CPU840進一步處理，從而(1)對音頻信號進行振幅擴展并且(2)以類似于圖7和8的接收器的操作方式對信號進行時間擴展。接著語音再次被存儲在RAM874中。ASCII編碼或語音數(shù)據(jù)被存儲在雙端口RAM中直到通信接收器用戶請求再現(xiàn)信息。用戶通過使用開關(未示出)選擇和讀出存儲消息來恢復出所存儲的ASCII編碼數(shù)據(jù)。當讀取所存儲的ASCII編碼消息時，用戶選擇要讀取的消息并觸發(fā)一個使微計算機906能夠復原數(shù)據(jù)的讀開關，并且把復原的數(shù)據(jù)提供給諸如液晶顯示器的顯示器911。當要讀取語音消息時，用戶選擇要讀取的消息并觸發(fā)一個使微計算機906能夠從雙端口RAM復原數(shù)據(jù)的讀開關，并且把復原的數(shù)據(jù)提供給音頻處理器914，該處理器把數(shù)字語音信息轉換成模擬語音信號，該信號被連接到一個揚聲器916以便把語音消息再現(xiàn)給用戶。如上所述，微計算機906也可以產生頻率選擇信號，從而能夠選擇不同的頻率，其中該信號被連接到頻率合成器810。
參照圖10，其中說明了一個基于本發(fā)明的最優(yōu)實施例的時序圖，該示了關于圖1的無線通信系統(tǒng)100所使用的出站信令的FLEXTM編碼格式的特性，其中包括控制幀的細節(jié)。控制幀也被分類成數(shù)字幀。信令協(xié)議被分割成協(xié)議段，各協(xié)議段分別是一個小時310，一個周期320，幀330，430，一個模塊340和一個字350。每個小時310發(fā)送多達十五個唯一標識的4分鐘周期。通常，每小時發(fā)送所有十五個周期320。在每個周期320內發(fā)送多達128個唯一標識的1.875秒幀，其中包括數(shù)字幀330和模擬幀430。通常發(fā)送所有128個幀。在每個控制幀330中發(fā)送延續(xù)115毫秒的一個同步與幀信息信號331，和11個唯一標識的160毫秒模塊340。在各控制幀330期間最好使用3200位每秒(bps)或6400bps的位速率。在同步信號331期間各控制幀330中的位速率被傳輸?shù)竭x擇呼叫無線單元106。如圖10所示，當位速率為3200bps時，在各模塊340中包含16個唯一標識的32位字。當位速率為6400bps時，在各模塊340中包含32個唯一標識的32位字(未示出)。在各字中，通過本領域普通技術人員所熟悉的方式，至少有11個位被用于檢錯和糾錯，而21位或更少的位被用于信息。使用本領域普通技術人員所熟悉的技術，以交叉方式發(fā)送各模塊340中的位和字350，從而改進協(xié)議的糾錯能力。
信息被包含在各控制幀330的信息字段中，其中包括模塊信息字段(B)332中的幀結構信息，地址字段(AF)333中的一或多個選擇呼叫地址，以及向量字段(VF)334中的一或多個向量。向量字段334從向量邊界334開始。向量字段334中的各向量對應于地址字段333中的一個地址。模塊信息字段332定義信息字段332，333，334的邊界。根據(jù)諸如同步和幀信息字段331中包含的系統(tǒng)信息類型，地址字段333中包含的地址數(shù)量和向量字段334中包含的向量的數(shù)量和類型的因素，信息字段332，333，334是可變的。
參照圖11，其中說明了一個基于本發(fā)明最優(yōu)實施例的時序圖，該示了圖1的無線通信系統(tǒng)所使用的出站信令協(xié)議傳輸格式的特性，其中包括語音幀430的細節(jié)。語音幀在此也被分類成模擬幀。協(xié)議段小時310，周期320和幀330，430的時延與針對圖10中的控制幀所描述的相同。各模擬幀430具有一個幀頭部分435和一個模擬部分440。同步和幀信息信號331中的信息與控制幀330中的同步信號331相同。如上所述，幀頭部分435被調頻，而幀430的模擬部分440被調幅。在幀頭部分435和模擬部分440之間存在一個過渡部分444。根據(jù)本發(fā)明的最優(yōu)實施例，過渡部分包括針對多達三個子信道的調幅導頻副載波441，442，443。模擬部分440圖示了被同時發(fā)送的三個子信道441，442和443，各子信道均包含一個上邊帶信號401和一個下邊帶信號402(可選地，一個同相信號和一個正交信號)。在圖11所示的例子中，上邊帶信號401包含一個消息片段415，該片段是第一模擬消息的第一片段。下邊帶信號402包含四個質量評估信號420，422，424，426，四個消息段410，412，416，418，和一個分段414(在本例中未用)。兩個分段410，412是第一模擬消息的第二片段的分段。兩個分段416，418是第二模擬消息的第一片段的分段。第一和第二模擬消息是壓縮語音信號，該信號被分段以便被包含在320的周期2的幀一430的第一子信道441中。第一消息的第二片段和第二消息的第一片段均被分割以便包含一個質量評估信號420，426，這種分割在三個子信道441，442，443中的每一個中的下邊帶402中預定位置上重復進行。包含在模擬幀中的消息的最小分段被定義成語音增量450，其中在模擬幀430的各模擬部分440中有88個唯一標識的語音增量。質量評估信號最好被發(fā)送成未調制的副載波導頻信號，最好是延時一個語音增量，并且最好是在一幀的模擬部分內具有不超過420毫秒的間隔?？梢岳斫庠趦蓚€質量評估信號之間會出現(xiàn)多于一個的消息片段，并且消息片段通常以語音增量的整長度改變。
參照圖12，其中說明了一個基于本發(fā)明的最優(yōu)實施例的時序圖，該時序示了圖1的無線通信系統(tǒng)使用的出站信令協(xié)議的一個控制幀330和兩個模擬幀。圖12說明了關于作為一個控制幀330的幀0(圖10)的例子。其中圖示了四個地址510，511，512，513和四個向量520，521，522，523。兩個地址510，511包含一個選擇呼叫無線106地址，另兩個地址512，513則針對第二和第三選擇呼叫無線106。通過在各地址中包含一個指示對應向量的協(xié)議位置(即向量從那里開始并且有多長)的指針，各地址510，511，512，513與向量520，521，522，523中的一個唯一相關。
在圖12所示的例子中，向量520，521，522，523也與一個子信道中的一個消息部分唯一相關。具體地，向量520可以指向子信道441(見圖11)的一個上邊帶，而向量522可以指向子信道441的一個下邊帶。類似地，向量521可以指向子信道442的兩個邊帶。即，在子信道的情況下，該例子可以說明上邊帶和下邊帶傳遞了兩個不同的消息部分。在子信道442的情況下，上邊帶和下邊帶分別傳遞了一個消息部分的兩半。這樣，向量最好包含指示接收器應當在哪個子信道上查找消息的信息，和指示是否從子信道恢復出兩個分別的消息，或者是否恢復出單個消息的第一半和第二半的信息。
通過上邊帶和下邊帶(或I和Q信道)同時發(fā)送兩個不同的消息的實施例的一種用法是一個消息是直接語音尋呼消息，另一個是存儲在尋呼機中的語音郵箱消息。
根據(jù)本發(fā)明的最優(yōu)實施例，通過識別在向量開始的向量邊界335之后的字350的數(shù)量和向量的以字為單位的長度來提供出向量位置?？梢岳斫獾刂泛拖蛄康南鄬ξ恢檬潜舜霜毩⒌摹D中的箭頭說明了其中的關系。通過在各向量中包含一個指示對應向量的協(xié)議位置(即向量從那里開始并且有多長)的指針，各向量520，521，522，523與消息片段550，551，552，553中的一個唯一相關。根據(jù)本發(fā)明的最優(yōu)實施例，通過識別幀430的號數(shù)(從1到127)，子信道441，442，443的號數(shù)(從一到三)，消息片段開始的邊帶401，402(或者是I或Q)與語音增量450，和以語音增量450為單位的消息片段長度來提供出消息片段位置。例如，向量三522包含指示消息二，片段一552位于幀一560的語音增量四十六450(在圖12中未標出語音增量450)的開始處的信息，其中消息二，片段一552是針對具有選擇呼叫地址512的選擇呼叫收發(fā)器106，而向量十三523包含指示消息九，片段一553位于幀五561的語音增量零450(在圖12中未標出語音增量450)的開始處的信息，其中消息九，片段一553是針對具有選擇呼叫地址513的選擇呼叫收發(fā)器106。
可以理解，盡管根據(jù)本發(fā)明的最優(yōu)實施例描述了語音信號，但本發(fā)明也可以兼容其它的諸如調制解調器信號或雙音多頻(DTMF)信號的模擬信號。也應當理解此前描述的幀結構中使用的模塊信息可被用來實現(xiàn)進一步的加強，從而允許更高的通信系統(tǒng)總吞吐量和附加的特性。例如，一個發(fā)送到便攜語音單元的消息可以請求向系統(tǒng)回送一個確認信號，該信號包含標識從中接收其消息的發(fā)送器的信息。這樣，以這種方式，通過使用一個發(fā)送器向給定的便攜語音單元發(fā)送需要到達該便攜語音單元的消息，可以實現(xiàn)同時廣播系統(tǒng)中的頻率重用。另外，一旦系統(tǒng)知道了便攜語音單元的位置，那么自然就實現(xiàn)了目標消息傳輸。
根據(jù)本發(fā)明的另一方面，當與本發(fā)明配合使用時，前面被描述成WSOLA的時標變化技術具有一些固有的缺點。因而，開發(fā)一種技術把WSOLA改進成與發(fā)話人相關的并且被稱作“WSOLA-SD”。為了進一步理解對構成WSOLA-SD的WSOLA的改進，下面簡單描述一下WSOLA。
與其它技術相比，被稱作基于波形相似性的疊加技術(WSOLA)的一種技術可以實現(xiàn)高質量的時標改進，并且比其它的方法更簡單。當用于加速或減慢語音時，即使是使用WSOLA技術，語音質量也不會很好。重構語音包含許多類似回聲，金屬音和背景反射聲的人工聲音。本發(fā)明的這個方面描述了幾種克服該問題并最小化人工聲音的改進。需要優(yōu)化WSOLA算法中的許多參數(shù)以獲得對于指定發(fā)話人和所需壓縮/擴展或時標變化系數(shù)而言盡可能最優(yōu)的質量。本發(fā)明的這個方面涉及確定那些參數(shù)和如何把它們引入語音信號的壓縮/擴展或時標變化以改進復原語音或語音信號的質量。
WSOLA算法令x(n)為要修正的輸入語音信號，y(n)為時標修正信號而α是時標變化參數(shù)。如果α小于1，則及時擴展語音信號。如果α大于1，則及時壓縮語音信號。
參照圖13-17，為了與本發(fā)明的WSOLA-SD的最優(yōu)方法比較，其中說明了針對WSOLA時標變化(壓縮)方法的幾次迭代的時序圖。假定輸入語音信號被數(shù)字化和存儲，圖13圖示了WSOLA方法對未壓縮語音輸入信號的第一次迭代。WSOLA方法需要一個時標系數(shù)α(在此例中假定等于2，如果α＞1則壓縮，如果α＜1則擴展)和一個隨機分析分段長度(Ss)，該長度獨立于輸入語音特性，尤其是獨立于音調。疊加分段長度So被計算成0.5*Ss并且在WSOLA中是固定的。第一Ss樣本被直接復制到如圖14所示的輸出上。令輸出中最后的樣本的索引為Ifl。根據(jù)輸出中最后可用樣本的結束，疊加索引O1被確定成Ss/2個樣本?，F(xiàn)在應被疊加的樣本處在O1和Ifl之間。搜尋索引(S1)被確定成α*O1。在輸入信號的初始部分被復制到輸出上之后，確定來自輸入的樣本的移動窗口。該窗口被確定在搜尋索引S1的附近。令窗口的開始為Si-Loffset而結束為Si+Hoffset。在第一次迭代中i＝1。在窗口中，使用由下式給出的歸一化互相關等式確定最優(yōu)相關So樣本等式，29頁27行確定延遲k＝m，此時歸一化R(k)為最大。最優(yōu)索引Bi由Si+m給定。注意可以使用類似平均幅差函數(shù)(AMDF)和其它相關函數(shù)的其它方案來尋找最優(yōu)匹配波形。在B1開始的So樣本接著與一個上升斜坡函數(shù)相乘(盡管可以使用其它的加權函數(shù))，并且被加到輸出中的最后So樣本上。在相加之前，輸出中的So樣本與一個下降斜坡函數(shù)相乘。相加所得到的樣本將替換輸入中的最后樣本。最后，緊隨當前最優(yōu)匹配So樣本的下一個So樣本被復制到輸出的未端以便用于下一次迭代。這是WSOLA中第一次迭代的結束。
參照針對下一次迭代的圖15和16，需要計算類似于O1的新的疊加索引O2。類似地，象在前面的迭代中所作的那樣確定出新的搜尋索引S2和相應的搜尋窗口。在搜尋窗口內，使用上述互相關等式確定最優(yōu)相關So樣本，其中最優(yōu)樣本的開始確定為B2。在B2開始的So樣本與一個上升斜坡函數(shù)相乘，并且被加到輸出中的最后So樣本中。在相加之前，輸出中的So樣本與一個下降斜坡函數(shù)相乘。相加所得到的樣本將替換輸入中的最后樣本。最后，緊隨當前最優(yōu)匹配So樣本的下一個So樣本被復制到輸出的未端以便用于下一次迭代，其中未來的第i次迭代會具有疊加索引Oi，搜尋索引Si，輸出Ifi中的最后樣本和最優(yōu)索引Bi。
圖17說明了根據(jù)前面針對圖13-16所描述的兩次迭代所得到的輸出。應當注意在兩次迭代之間所得到的輸出信號中沒有重疊。如果以類似的方式連續(xù)使用該方法，WSOLA方法會對整個語音信號進行時標變化(壓縮)，但在各次迭代的結果之間不會有任何重疊。同樣以類似的方式進行WSOLA時標擴展。
通過本發(fā)明(WSOLA-SD)的最優(yōu)實施例，WSOLA的幾個不足或缺點變得清楚了。當你見到圖18-23說明的WSOLA-SD方法的例子時應當記起這些不足。WSOLA的基本不足包括因為把固定分析分段長度(Ss)用于所有輸入并且不管音調特征如何，從而導致不能得到最優(yōu)的時標變化語音質量。例如，如果Ss對于輸入語音信號顯得過大，則在擴展時得到的語音會包含回聲和反射。并且，如果Ss對于輸入語音信號顯得過小，則在擴展時得到的語音會聽起來很刺耳。
當壓縮率(α)大于2時出現(xiàn)WSOLA的第二個顯著不足。在這種情況下，迭代之間的移動窗口間隔會使方法越過明顯的輸入語音分量，從而嚴重影響所得到的輸出語音的可理解性。在迭代期間增加移動窗口的長度以補償非重疊搜尋窗口會導致進一步越過某此作為互相關函數(shù)的結果的輸入語音，并且還導致顯著影響所得到的輸出語音的可變時標變化。
WSOLA方法的第三個不足涉及該方法不能針對給定的具有指定約束的系統(tǒng)為設計者或用戶提供語音質量和計算復雜性方面的靈活性(針對給定的時標變化系數(shù)(α))。因為在WSOLA方法中重疊度(f)被固定在0.5，所以這一點特別明顯。這樣，在需要高質量語音再現(xiàn)的應用中，假定有足夠的處理能力和存儲器，本發(fā)明的WSOLA-SD方法以增加計算復雜性為代價，能夠使用更高的重疊度提供更高質量的語音再現(xiàn)。另一方面，在受到處理能力，存儲器或其它約束限制的應用中，在WSOLA-SD中可以降低重疊度，從而在考慮目前的具體應用約束的情況下只把語音質量犧牲到期望的程度。
圖25圖示了一個關于WSOLA-SD方法的總體模塊圖。在該模塊圖中，根據(jù)是壓縮語音還是擴展語音來計算Ss，f和α。與單純的WSOLA相比，這種WSOLA-SD算法對再現(xiàn)語音的技術有了更大的改進。WSOLA-SD方法是與發(fā)話人相關的，尤其與具體發(fā)話人的音調相關。這樣，在確定(14)分析分段長度之前進行音調確定12。對于給定的f和α(可以根據(jù)音調確定12來修正，提供一個經過修正的alpha(16))，WSOLA-SD對語音進行時標變化(18)。時標變化可以是對輸入信號的擴展或壓縮?？蛇x地，通過在α＞1時以系數(shù)α插入時標變化信號，或者在α＜1時以系數(shù)1/α抽出時標變化信號可以得到頻率定標信號。在抽出的情況下，被抽出的信號的采樣頻率至少應為信號中最有效頻率分量的2/α倍。(在α＝0.5和最有效頻率分量為4000赫茲的情況下，采樣速率最好至少為16000赫茲。)正如Oppenheim和Schaefer在《離散時間信號處理》中描述的那樣，插入和抽出是數(shù)字信號處理中眾所周知的技術。例如，假定以8kHz對2秒的輸入語音進行采樣，其中信號具有在0和4000Hz之間的有效頻率分量。假定以系數(shù)2對輸入語音信號進行時標壓縮。所得到的信號長度為1秒，但仍然具有處在0和4000赫茲之間的有效頻率分量。信號以α＝2的系數(shù)被插入(見Oppenheim和Schaefer)。這樣會產生2秒長的信號，但頻率分量在0和2000赫茲之間。在沒有信息損失的情況下，通過以α＝2的系數(shù)抽出頻率壓縮信號以得到原始時標變化語音(頻率分量在0和4000赫茲之間)，可以回到時標域。
參照圖18-22，其中說明了基于本發(fā)明的WSOLA-SD時標變化(壓縮)方法的幾次迭代的時序圖。假定輸入語音信號被恰當?shù)丶右詳?shù)字化和存儲，圖18圖示了使用WSOLA-SD方法對未壓縮語音輸入信號的第一次迭代。WSOLA-SD方法也需要確定輸入語音信號的語音化部分的近似音調周期。下面簡要描述音調確定和怎樣得到分段長度。1)把輸入語音構造成20ms模塊。2)計算各模塊的能量。3)計算每個模塊的平均能量。4)確定能量閥值以便把語音化的語音當作每模塊平均能量的函數(shù)來檢測。5)使用能量閥值確定長度為至少5個模塊的語音化語音的相鄰模塊。6)在步驟5處發(fā)現(xiàn)的相鄰語音的各個模塊上進行音調分析。使用各種方法可以做到這點，其中包括改進自相關方法，AMDF或限幅自相關方法。7)使用中值濾波器對音調值加以平滑，從而消除估測錯誤。8)對所有的平滑音調值求平均值以得到對發(fā)話人音調的近似估測。9)以下述方式計算分段長度Ss。
如果音調P大于60個樣本Ss＝2*音調如果音調P在40至60個樣本之間Ss＝120如果P小于40個樣本 Ss＝100在上述所有情況下假定采樣速率為8KHz。一個為WSOLA-SD提供克服前面描述WSOLA時所述的某些不足的優(yōu)點的臨界系數(shù)是重疊度f。如果WSOLA-SD中的重疊度f大于0.5，則以更多的復雜性為代價提供了更高的質量。如果WSOLA-SD中的重疊度f小于0.5，則以降低質量為代價減少了算法的復雜性。這樣，用戶在設計和使用其具體應用時具有更多的靈活性和控制能力。
再次參照圖18-23，WSOLA-SD方法需要一個時標系數(shù)α(在此例中假定等于2，如果α＞1則壓縮，如果α＜1則擴展)和一個分析分段長度(Ss)，其中該長度被優(yōu)化成輸入語音特性，即發(fā)話人的音調。疊加分段長度So被計算成f*Ss并且對于給定音調周期和f在WSOLA-SD中是固定的。在所示的例子中，f大于0.5，表明更高質量的輸出語音。第一Ss樣本被直接復制到輸出上。令最后的樣本的索引為Ifl根據(jù)輸出中最后可用樣本的結束，疊加索引O1被確定成Ss/2個樣本。如圖19所示，現(xiàn)在應被疊加的樣本處在O1和Ifl之間。如圖18所示，第一搜尋索引(S1)被確定成α*O1。在輸入信號的初始部分被復制到輸出上之后，確定來自輸入語音信號的樣本的移動窗口。該窗口被確定在搜尋索引S1的附近。在窗口內，使用上述互相關等式確定最優(yōu)相關So樣本，其中所確定的最優(yōu)樣本的開始為B1。在B1開始的So樣本接著與一個上升斜坡函數(shù)相乘(盡管可以使用其它的加權函數(shù))，并且被加到輸出中的最后So樣本上。在相加之前，輸出中的So樣本與一個下降斜坡函數(shù)相乘。相加所得到的樣本將替換輸入中的最后樣本。最后，緊隨當前最優(yōu)匹配So樣本的下一個Ss-So樣本被復制到輸出的未端以便用于下一次迭代。這是WSOLA中第一次迭代的結束。
參照針對下一次迭代的圖20和21，需要計算類似于O1的新的疊加索引O2。類似地，象在前面的迭代中所作的那樣確定出新的搜尋索引S2和相應的搜尋窗口。再一次，在搜尋窗口內，使用上述互相關等式確定最優(yōu)相關So樣本，其中最優(yōu)樣本的開始確定為B2。在B2開始的So樣本與一個上升斜坡函數(shù)相乘，并且被加到輸出中的最后So樣本中。在相加之前，輸出中的So樣本與一個下降斜坡函數(shù)相乘。相加所得到的樣本將替換輸入中的最后樣本。最后，緊隨當前最優(yōu)匹配So樣本的下一個Ss-So樣本被復制到輸出的未端以便用于下一次迭代。
圖22說明了使用WSOLA-SD方法通過兩次迭代所得到的輸出信號。應當注意在所得到的輸出信號中有一個重疊區(qū)域(Ss-So)，與WSOLA方法相比，該區(qū)域保證增加可理解性并防止該方法越過臨界輸入語音分量。
參照圖23和24，其中說明了使用基于本發(fā)明的WSOLA-SD方法進行時標擴展的第ith次迭代的輸入時序圖和輸出時序圖。除了重疊索引Oi比搜尋索引Si移動得要快之外，擴展方法的功能基本上與圖18-22所示的例子類似。為了精確，在擴展期間Oi的移動比Si快α倍。分析分段長度Ss依賴于輸入語音的音調周期。重疊度的范圍可以在0到1之間，但在圖23和24的例子中使用0.7。在該例中，時標變化系數(shù)α是擴展速率的倒數(shù)。假定擴展速率為2，則時標變化系數(shù)α＝0.5。重疊分段長度So應等于f*Ss或重疊度乘上分析分段長度。這樣，通過相加，在最優(yōu)匹配輸入分段上使用上升斜坡函數(shù)并且在輸出重疊分段上使用下降斜坡函數(shù)，在幾次重疊迭代之后，輸入語音信號被擴展成保持所有上述WSOLA-SD的優(yōu)點的輸出語音信號。
通過用該時刻的分段的音調動態(tài)調整WSOLA-SD算法中的分段長度Ss可以得到進一步的改進。通過改進上述方案可以做到這點。如果對未語音化的語音使用Ss＝100(假定采樣速率為8KHz)的短分段長度，則由聲音質量得到改進，而對于語音化的語音，分段長度應為Ss＝2*音調。為了確定是否對語音進行語音化，有必要作一些改動。進行這些改動之后的方法如下所述。1)把輸入語音構造成20ms模塊。2)計算各模塊的能量。3)計算各模塊中的零交叉的數(shù)量。4)計算每個模塊的平均能量。5)確定能量閥值以便把語音化的語音當作每模塊平均能量的函數(shù)來檢測。6)使用能量閥值和零交叉閥值確定長度為至少5個模塊的語音化語音的相鄰模塊。7)在所有的語音化分段上進行音調分析，確定各語音化分段中的平均音調。使用各種方法可以做到這點，其中包括改進自相關方法，AMDF或限幅自相關方法。8)現(xiàn)在把未被標成語音化語音的分段標成暫時未語音化的分段。9)取出‘暫時未語音化分段’中的至少5個幀的相鄰模塊并進行音調分析。確定最大相關系數(shù)和最小相關系數(shù)的比值。如果比值較大，則該分段被定為未語音化的，如果比值較小，則這些分段被標成語音化的，并且確定這些分段的平均音調和語音分段的開始和結束。10)以下述方式確定被分類的語音分段的分段長度Ss。
如果語音化Ss＝2*音調如果未語音化Ss＝120(假定采樣速率為8KHz)11)現(xiàn)在進行了時標變化的WSOLA-SD方法，但是具有不斷改變的分段長度。在這里每次都要確定在處理中使用的輸入語音分段的位置。根據(jù)其位置，在處理中使用已經確定的分段長度Ss。使用這種技術產生了更高質量的時標變化語音信號。
象在我們的通信系統(tǒng)中那樣，如果對相同的語音輸入信號進行壓縮和擴展，那么使用幾種技術針對給定的平均時標系數(shù)還可以再改進重構語音信號的質量。
根據(jù)感性測試，可以發(fā)現(xiàn)，與具有較低基本頻率(較高音調周期)的語音信號相比，在給定語音質量的情況下可以把具有較高基本頻率(較低音調周期)的語音信號壓縮得更多。例如，兒童和女性平均具有較高的基本頻率。在不顯著影響其語音質量的情況下可以把其語音多壓縮/擴展10％。而對于具有較低的基本頻率的男性發(fā)話人，可以把其語音少壓縮/擴展10％。這樣，在具有相等數(shù)量的高基本頻率發(fā)話人和低基本頻率發(fā)話人的典型通信系統(tǒng)中，在與以前相同的壓縮/擴展(時標變化)系數(shù)下得到了在語音再現(xiàn)中總體上改進了的質量。
使用這種技術的擴展和壓縮的另一個特性產生了進一步的增強。例如，可以注意到在語音信號的時標擴展期間在語音中產生了多數(shù)的人工聲音。語音信號被擴展得越多，人工聲音就越多。也可以觀察到，如果語音信號被回放得比原始語音稍快(小于10％)，則速度變化幾乎注意不到，但人工聲音顯著減少。這種性質有助于以較小的擴展系數(shù)擴展語音信號，并且減少人工聲音和改進其質量。例如，如果以時標變化系數(shù)3壓縮輸入語音，則在擴展期間應當以系數(shù)2.7進行擴展，這意味著播放語音要快10％。由于這種語音速率變化不顯著并且減少了人工聲音，在對語音精確度要求不高的應用中應當在本發(fā)明的方法中實現(xiàn)上述改變。
權利要求
1.使用基于波形相似性的疊加技術(WSOLA)的改進版本對語音進行時標校正的方法，該方法包括步驟a)在存儲器中存儲一部分輸入語音信號；b)分析該部分輸入語音信號，提供估測音調值；c)根據(jù)估測音調值確定分段長度；d)根據(jù)確定出的分段長度對輸入語音信號進行時標壓縮。
2.如權利要求1所述的方法，其中確定分段長度的步驟還包括用直接從輸入語音信號確定的音調值動態(tài)調整分段長度的步驟。
3.如權利要求1所述的方法，其中還包括提供等于或大于0.5的為增加輸出語音質量而優(yōu)化的重疊度的步驟。
4.如權利要求1所述的方法，其中還包括提供小于0.5的為降低計算復雜性而優(yōu)化的重疊度的步驟。
5.使用基于波形相似性的疊加技術(WSOLA)的改進版本對語音進行時標校正的方法，該方法包括步驟a)在存儲器中存儲一部分輸入語音信號；b)根據(jù)該部分輸入語音信號確定一個音調周期，提供估測音調值；c)根據(jù)估測音調值確定分段長度；d)根據(jù)確定出的分段長度對輸入語音信號進行時標壓縮。e)對輸入語音信號進行時標擴展。
6.如權利要求5所述的方法，其中確定分段長度的步驟還包括用直接從輸入語音信號確定的音調值動態(tài)調整分段長度的步驟。
7.如權利要求5所述的方法，其中還包括提供等于或大于0.5的為增加輸出語音質量而優(yōu)化的重疊度的步驟。
8.如權利要求5所述的方法，其中還包括提供小于0.5的為降低計算復雜性而優(yōu)化的重疊度的步驟。
9.在有語音能力的設備中使用的，使用基于波形相似性的疊加技術(WSOLA)的改進版本對語音進行時標校正，從而構成輸出信號的方法，該方法包括步驟在輸出設備上a)確定輸入語音信號的音調周期，提供估測音調值；b)根據(jù)估測音調值確定分析分段長度；c)對輸入語音信號進行時標擴展，從而提供輸出語音信號。
10.根據(jù)發(fā)話人的音調周期，使用基于波形相似性的疊加技術(WSOLA)的改進版本對語音進行時標校正的方法，該方法包括步驟a)確定輸入語音信號的音調周期，提供估測音調值；b)確定接近估測音調值的兩倍的分析分段長度；c)在音調低于一個預定閥值的情況下增加時標變化系數(shù)，使之高于平均時標變化系數(shù)；d)在音調高于一個預定閥值的情況下減少時標變化系數(shù)，使之低于平均時標變化系數(shù)；
11.如權利要求10所述的對語音進行時標校正的方法，其中還包括步驟e)根據(jù)在步驟c或d使用的時標變化系數(shù)在語音壓縮期間指定重疊度。
12.如權利要求11所述的對語音進行時標校正的方法，其中還包括步驟f)以小于在步驟c或d使用的時標變化系數(shù)將近10％的系數(shù)擴展語音。
13.在語音通信系統(tǒng)中的具有給定帶寬的語音通信資源內壓縮多個語音信號的方法，其中包括步驟(a)把語音通信資源子信道化，并且把多個語音信號中的至少一個放在一個子信道上；(b)壓縮各子信道內的各個語音信號的時間，其中壓縮各個語音信號的時間的步驟包括步驟c)確定各個語音信號的音調周期，針對各個語音信號提供對應的估測音調值；d)確定接近估測音調值的兩倍的分析分段長度；e)在音調低于一個預定閥值的情況下增加時標變化系數(shù)，使之高于平均時標變化系數(shù)；f)在音調高于一個預定閥值的情況下減少時標變化系數(shù)，使之低于平均時標變化系數(shù)，其中步驟(a)至(f)的結果是提供了壓縮語音信號。
14.如權利要求13所述的對語音進行時標校正的方法，其中還包括步驟g)根據(jù)在步驟e或f使用的時標變化系數(shù)在語音壓縮期間指定重疊度。
15.如權利要求14所述的對語音進行時標校正的方法，其中還包括步驟h)以小于在步驟c或d使用的時標變化系數(shù)將近10％的系數(shù)擴展語音。
16.使用語音壓縮，具有至少一個發(fā)送器基站和多個選擇呼叫接收器的通信系統(tǒng)，其中包括在發(fā)送器基站上一個接收音頻信號的輸入設備；一個使用WSOLA-SD技術和正交幅度調制技術壓縮音頻信號以提供經過處理的信號的處理設備；一個發(fā)送經過處理的信號的正交幅度調制發(fā)送器；在各個選擇呼叫接收器上一個接收被發(fā)送的處理信號的選擇呼叫接收器；一個使用正交幅度解調技術和WSOLA-SD擴展技術對接收的處理信號進行解調以提供一個重構信號的處理設備；一個把重構信號放大成重構音頻信號的放大器。
17.如權利要求16所述的通信系統(tǒng)，其中正交幅度調制是單邊帶調制。
18.如權利要求16所述的通信系統(tǒng)，其中正交幅度調制是同相(I)和正交(Q)調制。
19.如權利要求16所述的通信系統(tǒng)，其中通信系統(tǒng)包括多于一個的發(fā)送器基站，而經過處理的信號包括從至少一個選擇呼叫接收器請求具有確認信號的形式的信息的控制信號，該確認信號允許通信系統(tǒng)通過一個發(fā)送器基站把以后的消息導向至少一個選擇呼叫接收器。
20.如權利要求16所述的通信系統(tǒng)，其中通信系統(tǒng)還包括在發(fā)送器上作為針對因信道偏差而出現(xiàn)的畸變的振幅和相位參考的導頻載波信號產生器；在接收器上一個檢測、濾波并且響應于導頻載波信號產生器產生的振幅和相位參考的接收器電路。
21.一個接收壓縮語音信號的選擇呼叫接收器，其中包括一個接收被發(fā)送的處理信號的選擇呼叫接收器；一個使用單邊帶解調技術和WSOLA-SD擴展技術對接收的處理信號進行解調以提供一個重構信號的處理設備；一個把重構信號放大成重構音頻信號的放大器。
22.一個如權利要求21所述的選擇呼叫接收器，其中選擇呼叫接收器還包括一個在基站的發(fā)送器中檢測，濾波并且響應于導頻載波信號產生器產生的振幅和相位參考的接收器電路。
23.一個在具有預定帶寬的通信資源上發(fā)送選擇呼叫信號的選擇呼叫尋呼基站，其中包括一個接收多個音頻信號的輸入設備；一個把通信資源子信道化成預定數(shù)量的子信道的裝置；一個針對各個子信道的壓縮相應音頻信號的振幅并對相應音頻信號進行濾波的振幅壓縮和濾波模塊；一個壓縮各個子信道的相應音頻信號的時間的WSOLA-SD時間壓縮模塊；一個發(fā)送經過處理的信號的正交振幅調制發(fā)送器。
24.如權利要求23所述的選擇呼叫尋呼基站，其中接收多個音頻信號的輸入設備包括一個接收來自計算設備的電話消息或數(shù)據(jù)消息的尋呼終端。
25.如權利要求23所述的選擇呼叫尋呼基站，其中振幅壓縮和濾波模塊包括一個與模數(shù)轉換器相連的抗混淆濾波器，而模數(shù)轉換器與一個帶通濾波器相連，帶通濾波器與一個自動增益控制器相連。
26.一個接收壓縮語音信號的選擇呼叫接收器單元，其中已經使用WSOLA壓縮技術對該信號進行了壓縮，而該技術使用依賴于語音信號輸入的音調周期的壓縮系數(shù)，該單元包括一個具有一個接收壓縮語音信號并提供數(shù)字化的接收信號的模數(shù)轉換器的接收器，其中壓縮語音信號包括用來根據(jù)在壓縮語音信號時使用的壓縮系數(shù)確定擴展系數(shù)的數(shù)據(jù)；一個處理數(shù)字化接收信號并根據(jù)擴展系數(shù)擴展數(shù)字化接收信號的信號處理器。
27.如權利要求26所述的選擇呼叫接收器，其中擴展系數(shù)被估測得比在壓縮語音信號時使用的壓縮系數(shù)小大約10％。
28.如權利要求26所述的選擇呼叫接收器，其中信號處理器還濾波導頻載波，使用一個前向反饋回路進行自動增益控制，進行單邊帶解調，并且解壓縮擴展數(shù)字化接收信號，從而提供一個經過處理的信號。
29.如權利要求26所述的選擇呼叫接收器，其中信號處理器還濾波導頻載波，使用一個前向反饋回路進行自動增益控制，進行I和Q解調，并且解壓縮擴展數(shù)字化接收信號，從而提供一個經過處理的信號。
30.如權利要求26所述的選擇呼叫接收器，其中選擇呼叫接收器還包括一個數(shù)模轉換器，一個把處理信號轉換成數(shù)字化音頻信號的重構濾波器，和一個放大數(shù)字化音頻信號的放大器。
31.一個使用基于波形相似性的疊加技術(WSOLA)的改進版本對語音進行時標校正的電子設備，該設備包括存儲一部分輸入語音信號的存儲器；分析該部分輸入語音信號以提供一個估測音調值，并且根據(jù)估測音調值確定一個分段長度的處理器；根據(jù)所確定的分段長度對輸入語音信號進行時標變化的裝置。
32.如權利要求31所述的電子設備，其中裝置還根據(jù)從0到1的預定重疊度的范圍進行時標變化。
33.如權利要求31所述的電子設備，其中電子設備包括一個錄音電話設備。
34.如權利要求31所述的電子設備，其中電子設備包括一個應答機。
35.如權利要求31所述的電子設備，其中電子設備包括一個語音郵件系統(tǒng)。
36.使用基于波形相似性的疊加技術(WSOLA)的改進版本對語音進行時標校正和頻標校正的方法，該方法包括步驟a)在存儲器中存儲一部分輸入語音信號；b)分析該部分輸入語音信號，提供一個估測音調值；c)根據(jù)估測音調值確定分段長度；d)根據(jù)確定出的分段長度和預定時標變化系數(shù)對輸入語音信號進行時標壓縮，其中時標變化步驟提供了時標變化信號；e)對時標變化信號進行頻率定標。
37.如權利要求36所述的方法，其中頻率定標步驟包括在時標變化系數(shù)大于1的情況下以等于時標變化系數(shù)的系數(shù)進行插入的步驟。
38.如權利要求36所述的方法，其中頻率定標步驟包括在時標變化系數(shù)小于1的情況下以等于時標變化系數(shù)的倒數(shù)的系數(shù)進行抽取的步驟，其中輸入語音信號的采樣頻率至少是輸入語音信號中的最大可用頻率分量的二(2)除以時標變化系數(shù)倍。
全文摘要
一種使用基于波形相似性的疊加技術(WSOLA)的改進版本的語音時標變化(time－scale)修正方法包括步驟:在存儲器中存儲一部分輸入語音信號,分析該部分輸入語音信號,提供估測音調值(12),根據(jù)估測音調值確定分段長度(14),并且根據(jù)確定出的分段長度,針對給定的時標變化因子對輸入語音信號進行時標變化(18)。
文檔編號G10L11/04GK1176702SQ96192207
公開日1998年3月18日申請日期1996年1月26日優(yōu)先權日1995年2月28日
發(fā)明者薩尼爾·薩特亞穆爾蒂, 克里福德·達納·雷奇, 羅伯特·約漢·施文德曼, 卡茲米爾茲·西維亞克, 威廉·約塞夫·庫茲尼基申請人:摩托羅拉公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：薩尼爾·薩特亞穆爾蒂、克里福德·達納·雷奇、羅伯特·約漢·施文德曼、卡茲米爾茲·西維亞克、威廉·約塞夫·庫茲尼基
技術所有人：摩托羅拉公司
我是此專利的發(fā)明人

上一篇：語音識別的制作方法
上一篇：在電信系統(tǒng)中處理語音編碼參數(shù)的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用與發(fā)話人相關的時標變化技術的通信系統(tǒng)和方法