專利名稱:語音區(qū)分的制作方法
語音區(qū)分
本發(fā)明涉及信號處理領域,特別是語音信號的處理。更具體地,本發(fā) 明涉及一種用于區(qū)分第一和第二話音的方法,和涉及一種用于執(zhí)行該方法 的信號處理器與設備。
例如在電話和電信會議系統(tǒng)中,不同講話人的話音的區(qū)分是一個眾所 周知的問題。例如,在不帶有可視提示的電信會議系統(tǒng)中,遠端收聽者將 很難跟上在多個同時講話的講話人之間的討論。即使僅僅一個講話人在講 話,遠端收聽者可能仍很難識別話音且從而識別誰在講話。在移動電話中,
在嘈雜的環(huán)境下,講話人識別也可能是成問題的,特別是由于這樣的事實 平常的呼叫者由于近的遺傳的和/或社會的語言學關系,往往具有相似的話 音。此外,在其中線路是對于幾個講話人開放的虛擬的工作場所應用中, 快速的和精確的講話人識別可能是重要的。
US 2004/0013252描述了 一種用于改進在電話會議期間收聽者區(qū)分談 話人的方法和設備。該方法使用通過電信系統(tǒng)傳送的信號,該方法包括從 多個談話人中的每個談話人到收聽者的話音,以及指示符向收聽者指示實 際的談話人。US 2004/0013252提到對于原始音頻信號的不同的修改,以 便更好地允許收聽者辨認出談話人。例如,空間區(qū)分,其中例如通過使用 雙耳合成-諸如對于不同的談話人施加不同的與頭部有關的轉移函數 (HRTF)濾波器,而使每個單獨的談話人在聽覺空間中被呈現為在不同的視 在(apparent)方向。這樣做的動機是由于觀察到如果講話人出現在不 同的方向,則語音信號是更容易理解的。此外,US 2004/0013252提到 相似的話音可以以不同的方式稍;微改變,以有助于收聽者進行話音辨另。 提到了基于頻率調制以便提供講話人的話音之 一 的微小頻移的"鼻音 (nasaling)"算法,以允許更好地區(qū)分該話音與另 一個講話人的話音。
在US 2004/0013252中提出的語音區(qū)分解決方案具有許多缺點。為了 空間分開講話人,這樣的方法需要兩個或更多個音頻通道,以便給收聽者 提供所需要的空間印象,因此,這樣的方法不適用于其中僅僅有一個音頻 通道可用的應用,例如,在諸如移動電話那樣的普通電話系統(tǒng)中。在US 2004/0013252中提到的"鼻音"算法可以與空間區(qū)分方法相組合地被使用。然而,該算法產生不自然的發(fā)聲的話音,以及如果41使用來區(qū)分多個相似 的話音,則它不能改進區(qū)分,因為所有經修改的話音都得到感知的
(perceptual)相似的'鼻音,質量。此外,US 2004/0013252未提供用于自 動控制由講話人的話音的屬性所致的'鼻音,效果的手段。
因此,本發(fā)明的目的是提供一種方法,其能夠自動處理語音信號,以 便幫助收聽者立即識別話音,例如在電話中聽到的話音,即,幫助收聽者 區(qū)分多個已知的話音。
在本發(fā)明的第一方面,這個目的和幾個其它目的是通過提供一種用于 區(qū)分第 一和第二話音的方法而得到的,該方法包括以下步驟
1) 分析代表相應的第一和第二話音的第一和第二語音信號的信號屬
性,
2) 確定相應的笫一和第二參數組,其代表相應的笫一和笫二語音信 號的信號屬性的測度,
3) 提取適合于控制話音修改算法的話音區(qū)分模板,該話音區(qū)分模板 被提取以便代表至少笫 一參數組中的至少一個參數的修改,其中該修改用 來在由話音區(qū)分模板控制的修改算法進行處理后,增加在第一和第二話音 之間的相互參數距離。
所謂"話音區(qū)分模板,,被理解為話音修改參數組,用于輸入到話音修改 算法,以便控制它的話音修改函數。優(yōu)選地,話音修改算法能夠執(zhí)行對于 兩個或更多個話音參數的修改,因此話音區(qū)分^^板優(yōu)選地包括這些參數。 話音區(qū)分模板可包括被指配給第 一 和第二話音的每 一 個的不同的話音修 改參數,以及在兩個以上的話音的情形下,話音區(qū)分^t板可包括-波指配給 話音子組或所有話音的話音修改參數。
按照此方法,有可能基于話音特征的屬性而自動地分析代表話音組的 語音信號組,以及達到^L指配給話音組中的一個或多個話音的一個或多個 話音區(qū)分才莫板。通過隨之對于每個話音個別地、相應地應用相關聯(lián)的話音 修改算法,有可能產生具有自然聲音的話音,但在話音之間具有增加的感 知距離,因此幫助收聽者區(qū)分話音。
本方法的效果在于,可以使話音更加不同,而同時仍舊保留話音的自 然聲音。由于話音修改模板是基于信號屬性,即話音本身的特性的事實, 所以如果該方法被自動地執(zhí)行,則這也是可能的。因此,本方法將尋求夸
5大現有的差別或人工地在感覺上增加話音之間的相關差別,而不是施加合 成的聲音效果。
該方法或者是可以對于事件分開地執(zhí)行,所述事件例如是其中對于會 話的每個參加者單獨地選擇話音修改參數的電信會議會話。替換地,它可
以是對于各個呼叫者的話音修改參數的永久設置,其中話音修改參數被存 儲在與每個呼叫者身份(例如,電話號碼)相關聯(lián)的設備中,例如被存儲在 移動電話的電話簿中。
由于所描述的方法僅僅需要單通道音頻信號作為輸入,以及由于它能 夠利用單個輸出通道起作用,所以該方法例如能在各種各樣的通信應用中 被應用,例如,電話,諸如移動電話或基于互聯(lián)網協(xié)議上的話音的電話。 自然,該方法也可以直接被使用于立體聲或多通道音頻通信系統(tǒng)。
優(yōu)選地,話音區(qū)分模板被提取以便代表第 一和第二參數組中的至少一 個參數的修改。因此,優(yōu)選地,第一和第二話音都纟皮修改,或通常優(yōu)選的 是話音區(qū)分模板被提取,以使得被輸入到該方法的所有話音相對于至少一 個參數被修改。然而,在兩個話音之間的相互參數距離超過預定閾值的情 形下,該方法可被安排成拒絕修改這兩個話音。
優(yōu)選地,話音區(qū)分模板被提取以便代表至少第 一參數組中的兩個或更 多個參數的修改。修改參數組中所有的參數可以是優(yōu)選的。因此,通過修 改多個參數,有可能增加在兩個話音之間的距離,而不需要太多地修改話 音的一個參數使得它導致不自然的發(fā)聲的話音。
同樣的過程應用到與上述的提取區(qū)分模板的子方面的組合,以使得多 個、且可能是所有的話音被修改。通過對于大部分話音修改至少大部分的 參數,有可能得到在話音之間的相互感知距離,而不需要太多地修改任何 話音的任何參數使得它導致不自然的聲音。
優(yōu)選地,第 一 和第二語音信號的信號屬性的測度代表信號的感知的重
要的特質(attribute)。最優(yōu)選地,測度包括從以下組中選擇的至少一個測 度,優(yōu)選地是兩個或更多個或所有的測度,即音調、隨時間的音調方差 (pitch variance )、共振峰步貞率(formant frequency)、喉脈沖(glottal pulse ) 形狀、信號幅度、在有聲的和無聲的語音分段之間的能量差、與語音的總 的頻譜輪廓有關的特性、與在長的語音分段中一個或多個測度的動態(tài)變化 有關的特性。
優(yōu)選地,步驟3)包括考慮第一和第二參數組中至少部分的參數來計算相互參數距離,以及其中所計算的距離的類型是表征在兩個參數向量之間
的差值的任何度量,諸如歐幾里得距離或馬哈朗諾比斯距離(Mahalanobis distance,馬氏距離)。雖然歐幾里得型距離是簡單類型的距離,但馬哈朗 諾比斯型距離是考慮參數的變化性一在本申請中是有利的一種屬性一的 智能的方法。然而,應當理解,距離通常可以以許多方式計算。最優(yōu)選地, 相互參數距離是考慮在步驟l)中被確定的所有參數而計算的。應當理解, 計算相互參數距離通常是一個計算n維參數空間中的距離的問題,這樣, 在原理上可以使用能夠獲得這樣的距離的測度的任何方法。
步驟3)可以通過根據對于一個或多個話音的一個或多個參數來提供 修改參數而被執(zhí)行,使得獲得在話音之間的、最終的預定最小估計的相互 參數距離。優(yōu)選地,代表信號屬性的測度的參數被選擇,以使得每個參數 相應于話音區(qū)分模板的參數。
任選地,該方法包括分析代表第三話音的第三語音信號的信號屬性; 確定第三參數組,其代表第三語音信號的信號屬性的測度;以及計算在第 一和第三參數組之間的相互參數距離。應當理解,按照第一方面的教導通 ??蛇m用于在任何數目的輸入語音信號上實行。
任選地,該方法還可包括以下步驟接收用戶輸入和按此調節(jié)話音區(qū) 分模板。這樣的用戶輸入可以是用戶優(yōu)選項,例如用戶可以輸入信息,不 把話音修改應用到他/她的最好的朋友的話音。
優(yōu)選地,話音區(qū)分模板被安排來控制話音修改算法提供單音頻輸出通 道。然而,如果更愿意,該方法可被應用于有兩個或更多個音頻通道可用 的系統(tǒng),因此該方法可以組合地-波使用,例如,用作為加到諸如在本領域 進一步已知的那樣的空間區(qū)分算法的輸入,由此得到進一步的話音區(qū)分。
優(yōu)選地,該方法包括以下步驟通過用由話音區(qū)分模板控制的修改算 法處理音頻信號、并生成代表被處理的音頻信號的經修改的音頻信號,從 而修改代表至少第一話音的音頻信號。修改算法可以從在技術上已知的話 音修改算法中選擇。
所有的提到的方法步驟可以在一個位置上一例如在一個裝備或設備 處被執(zhí)行,包括運行由話音區(qū)分模板控制的修改算法的步驟。然而,還應 當理解,例如,至少步驟1)和2)可以在對修改音頻信號的步驟遠程的位置 處執(zhí)行。因此,步驟l)、 2)和3)可以在個人的個人計算機上執(zhí)行。最終得 到的話音區(qū)分模板然后可以被轉送到另 一個設備,諸如個人的移動電話,在其中執(zhí)行所述運行由話音區(qū)分模板控制的修改算法的步驟。
步驟1)和2)可以或是在線地或是離線地執(zhí)行,即,或者目的在于立即
執(zhí)行步驟3)并執(zhí)行隨后的話音修改,或者步驟l)和2)、以及可能地步驟 3)可以在代表多個話音的訓練的音頻信號組上執(zhí)行,供以后使用。
在所述方法的在線應用中,例如在電信會議應用中,優(yōu)選的可以是步
驟1)、 2)和3)自適應地執(zhí)行,以便適配于所牽涉的個人話音的信號屬性的 長期統(tǒng)計值。在在線應用中,例如電信會議,優(yōu)選的可以是加上初始話音 辨別步驟,以便能夠分離被包含于在一個音頻信道上傳送的單個音頻信號 中的幾個話音。因此,為了把輸入提供到所描述的話音區(qū)分方法,話音辨 別過程可被使用來把音頻信號分割成部分,每個部分只包括一個話音或每 個部分至少主要地只包括一個話音。
在離線應用中,優(yōu)選的可以是對語音信號的長訓練序列運行至少步驟 1),以便能夠考慮話音的長期統(tǒng)計值。這樣的離線應用可以例如在話音區(qū) 分模板的準備期間,連同修改參數一起被指配給個人的電話簿的每個電話 號碼,這將在從給定的電話號碼接收電話呼叫后,允許直接選擇適當的話 音修改參數用于話音修改算法。
應當理解,任何兩個或更多個上述的實施例或第一方面的子方面可以 以任何方式^皮組合。
第二方面,本發(fā)明提供一種信號處理器,其包括
-信號分析器,被安排來分析代表相應的第一和第二話音的第一和第 二語音信號的信號屬性,
-參數生成器,被安排來確定相應的第一和第二參數組,其至少代表 相應的第一和第二語音信號的信號屬性的測度,
-話音區(qū)分模板生成器,被安排來提取適合于控制話音修改算法的話 音區(qū)分模板,該話音區(qū)分模板被提取以便代表至少第 一參數組中的至少一 個參數的修改,其中該修改用來在由話音區(qū)分模板控制的修改算法進行處 理后,增加在第一和第二話音之間的相互參數距離。
應當理解,對于第一方面描述的相同的優(yōu)點和相同類型的實施例也適 用于第二方面。
按照笫二方面的信號處理器優(yōu)選地包括信號處理器單元和關聯(lián)的存 儲器。該信號處理器例如對于集成到獨立的通信設備是有利的,然而,它 也可以是計算機或計算機系統(tǒng)的 一部分。第三方面,本發(fā)明提供一種包括按照第二方面的信號處理器的設備。 該設備可以是話音通信設備,諸如電話——例如移動電話、基于互聯(lián)網協(xié) 議上的話音的通信(VoIP)設備、或電信會議系統(tǒng)。如上所述的相同的優(yōu)點 和實施例也適用于第三方面。
第四方面,本發(fā)明提供一種計算機可執(zhí)行的程序代碼,其適合于執(zhí)行 按照第一方面的方法。該程序代碼可以是通用計算機語言、或是信號處理 器專用的機器語言。如上所述的相同的優(yōu)點和實施例也適用于第四方面。
第五方面,本發(fā)明提供一種計算機可讀的存儲介質,其包括按照第四 方面的計算機可執(zhí)行的程序代碼。該存儲介質可以是記憶棒、存儲卡,它
可以是基于盤的——例如CD、 DVD或基于藍光的盤,或硬盤——例如便 攜式硬盤。如上所述的相同的優(yōu)點和實施例也適用于第五方面。
應當理解,對于第 一 方面提到的優(yōu)點和實施例也適用于本發(fā)明的第 二、第三和第四方面。因此,應當理解,本發(fā)明的任何一個方面,每個都 可以與4壬4可其它方面相組合。
現在參照附圖,僅僅作為例子,
圖1圖示本方法的一個實施例, 個參數來應用于三個話音,以及 圖2圖示設備實施例。
來說明本發(fā)明,其中
其使用代表話音的信號屬性測度的兩
圖1圖示三個講話人A、 B、 C的話音的位置a、 b、 c,這三個講話人 例如是電信會議的三個參加者,其中在x-y平面上的位置a、 b、 c由參數 x和y確定,參數x和y反映涉及到他們的話音的信號屬性的測度,例如, 參數x可以代表基本頻率(例如,平均音調),而參數y代表音調方差。下 面,基于這個例子來說明語音區(qū)分系統(tǒng)的優(yōu)選的功能。
為了簡明起見,假設來自參加者A、 B和C的三個原始語音信號對于 語音區(qū)分系統(tǒng)是可得到的。然后,基于這些信號,執(zhí)行信號分析,并基于 此對于個人A的話音確定參數組(Xa,ya),其代表個人A的話音在x-y平面 上的信號屬性,以及以同樣的方式對于個人B和C確定其參數組。這是通 過音調估計算法完成的,該算法被使用來從語音信號的有聲部分找出音 調。該系統(tǒng)收集音調估計的統(tǒng)計值,包括在某個預定義的持續(xù)時間內的中 值(mean)音調和音調的方差。在某個點,典型地在來自每個參加者的語
9晉
幾分鐘后,確定所收集的統(tǒng)計值對于進行話音之間的比較是足夠可靠
的。正式地,這可以是基于統(tǒng)計變元(argument),諸如收集的音調統(tǒng)計 差的高斯分布。
接著,在圖l上圖解語音信號的比較。在本例中,假設講話人A、 B、 C的話音在兩個參數x、 y方面相對地彼此接近。
因此希望提取話音區(qū)分模板,其要被使用來對于在電信會議上講話人 的話音執(zhí)行話音修改,或換句話說,提供在x-y平面上的映射,這使得講 話人在這些參數方面更加不同——或者說其中在他們的經修改的話音之 間的相互參數距離大于在他們的原始話音之間的相互參數距離。
在本例中,映射l基于基本幾何考慮每個講話人A、 B、 C沿著穿 過中心點(xo,yo)和原始位置的線^f皮從中心點移動更遠到經修改的位置a,、 b,、 c,,即,位置。中心點可以以許多方式被定義。在當前的例子中,它 被定義為由下式給出的講話人A、 B、 C的位置的質心(重心)
其中K是講話人的數目。我們可以通過使用以下的符號把修改表示為在均 勻坐標中的矩陣運算。讓我們定義一個代表談話人k的位置的向量
4
為了通過向量乘法改變位置,方便的是首先把中心點移到原點,
通過以下的映射把質心移到原點 .0 、
vt=a=[x: 乂 if
可以
0 1 _y0 0 0 1
然后,參數的修改可以作為矩陣乘法來執(zhí)行
、0 0_ 0 、 0 00 1
h =脅*
當乘數人x和人y的值大于1時,則認為在任何兩個經修改的談話人——
比如說m、和m,j之間的距離大于在原始參數v、和v,j之間的距離。修改的 幅度(在原始位置與經修改的話音的位置之間的距離)取決于原始點離中心點的距離,以及對于正好在中心點處的談話人,映射沒有影響。這是本方 法的有利的性質,因為中心點可被選擇為使得它正好在某個人一 一 例如親 密的朋友的位置處,因此把他/她的話音保留為未修改的。
為了實施修改,必須把經修改的參數移回到原先的中心點的鄰近區(qū)
域。這可以通過把每個向量乘以矩陣A的逆矩陣(;波表示為A")而完成。 總之,把K個講話人的參數相對于中心點(xo,yo)移動得彼此離開更遠的操 作可被寫為單個矩陣運算
W2 … mj"—'爐h V2 …d(1)
(1 )的矩陣表示式直接被歸納到多維情形,其中每個講話人由兩個以上 參數的向量代表。
在當前的例子中,話音區(qū)分模板包括參數,這將暗示當話音修改算法
在話音區(qū)分模板的控制下被執(zhí)行時,講話人B和C的平均音調增加,但講 話人A的音調減小。然而,與此同時,講話人A和B的音調的方差增加, 而C的音調的方差減小,致使講話人C聽起來像更單調的講話人。
通常,可能是僅僅某些講話人具有互相如此接近以致必須進行修改的 話音參數。因此,在這樣的情形下,語音修改算法只應當僅僅施加到具有 低的相互參數距離的話音的講話人子組。優(yōu)選地,表示講話人之間的相似 性的這樣的相互參數距離通過計算在參數空間中講話人之間的歐幾里得 或馬哈朗諾比斯距離而被確定。
在話音區(qū)分模板提取中,有可能具有一個以上的中心點。例如,可以 對于低音調和高音調的談話人確定分開的中心點。中心點可以通過不同于 計算重心方式的許多替換的方式被確定。例如,中心點可以是根據語聲
(speech sound )的總屬性的某些統(tǒng)計分析的、在參數空間中的預定義位置。 在以上的例子中,參數向量的簡單相乘被使用來提供話音區(qū)分模板。 這是線性修改的例子,然而,替換地,參數的修改也可以通過使用其它類 型的線性或非線性映射而被執(zhí)行。
語音信號的修改可以是基于處理語音信號的不同的可感知特質的幾 種可替換技術和它們的組合。音調是語音信號的重要的屬性。它也可以從 信號的有聲部分被測量,并且也相當容易被修改。許多其它語音修改技術 改變語音信號的總體質量。為了簡明起見,各種這樣的改變被稱為音色改 變,因為它們常??梢耘c聲音的音色的感知的屬性相關聯(lián)。最后,有可能以信號相關的方式控制語音修改,這樣使得其效果是對于語音信號的各部 分分開地控制的。這些效果常常改變語聲的韻律方面。例如,音調的動態(tài) 》務改改變語音的語調。
大體上,用于區(qū)分語聲的優(yōu)選方法可被看作為包括使用表征感知的 重要特征的有意義的測度來分析語音,比較在個體之間的測度值,定義一 組使得話音更加不同的映射,以及最后執(zhí)行話音或語音修改技術以對信號 實施所定義的改變。
用于系統(tǒng)的操作的時標(time scale)在不同的應用中可以是不同的。 在典型的移動電話使用中, 一個可能的情景是在長的時間段內收集分析數 據的統(tǒng)計值,并把它連接到被存儲在電話中的電話簿的個體條目。修改參 數的映射也隨時間,例如以某個規(guī)則的間隔,而被動態(tài)地執(zhí)行。在電信會 議應用中,修改映射可以對于每個會話分開地得出。也可以共同存在兩種 暫時行為(或學習)的方式。
輸入語音信號的分析必然地涉及到信號屬性,其可以由在應用中使用 的語音修改系統(tǒng)修改。典型地,那些屬性可包括音調、在較長時間段上 的音調方差、共振峰頻率、或在語音的有聲和無聲部分之間的能量差。
最后,把每個講話人與用于語音或話音修改算法或系統(tǒng)的參數組相關 聯(lián)。想要的話音修改算法不在本發(fā)明的范圍內,然而,有幾種技術在本領 域是已知的。在以上的例子中,話音修改l基于音調移位算法。由于需要 修改平均音調和音調方差,所以必須通過對來自輸入信號的音調的直接估 計來控制音調修改。
所描述的方法對于在基于互聯(lián)網協(xié)議上的話音的通信中使用是有利 的,其中普遍地,用戶在他們停止談話時不一定關閉連接。音頻連接變?yōu)?在兩個家庭之間的永久通道,而電話會話的概念消失?;ハ噙B接的人們可 能只不過離開房間去做某些其它事情并且有可能以后回來繼續(xù)討論,或只 不過使用它來在晚上在去睡覺時說'晚安!,。因此,用戶可以有幾個同時 的音頻連接打開,其中談話人的識別自然變?yōu)閱栴}。此外,當連接連續(xù)地 打開時,通常不遵循傳統(tǒng)電話的傳統(tǒng)的識別習慣,在傳統(tǒng)的識別習慣中每 當用戶想要說某些事情時呼叫者通常介紹他自己。
優(yōu)選的可以是,對于話音的每個被分析的參數提供預定的最大修改幅 度,以便把對于每個參數的修改的量限制在不導致不自然地發(fā)聲的話音的 水平。總結優(yōu)選的方法,它包括分析話音的感知相關的信號屬性,例如平 均音調和音調方差;確定代表話音的信號屬性的參數組;以及最后提取代
表至少某些話音的經修改的信號屬性的話音修改參數,以便當話音由修改 算法修改時增加在它們之間的相互參數距離,由此增加在話音之間的感知差別。
圖2圖示優(yōu)選的設備(例如移動電話)的信號處理器10的框圖。信
號分析器11相對于多個感知相關的測度來分析代表多個不同的話音的語
音信號。語音信號可以源自于記錄的信號組30,或者它可以是基于進入的 呼叫的音頻部分20。信號分析器11把分析結果提供到參數生成器12,它 作為響應生成對于每個話音的、代表感知相關的測度的參數組。這些參數 組被施加到話音區(qū)分^t板生成器13,它隨之提取話音區(qū)分^t板,該話音區(qū) 分模板生成器按照上述方式運行。
話音區(qū)分模板當然可以直接施加到話音修改器14,然而在圖2上,圖 示為話音區(qū)分模板被存儲在存儲器15中,優(yōu)選地連同與該話音所屬于的 個人相關聯(lián)的電話號碼一起。然后,相關的話音修改參數可被檢索和被輸 入到話音修改器14,以使得對于進入的呼叫的音頻部分20執(zhí)行相關的話 音修改。來自話音修改器14的輸出音頻信號然后呈現給接聽者。
在圖2上,虛線箭頭40表示可替換地,在分開的設備上——例如 在個人計算機或另一個移動電話上——生成的話音區(qū)分模板可被輸入到 存儲器15,或直接輸入到話音修改器14。因此, 一旦個人創(chuàng)建用于朋友 的電話簿的話音區(qū)分模板,這個模板就可被轉送到該個人的不同的通信設 備。
應當理解,以上描述的方法可被使用于除了具體描述的那些產品以外 的幾種其它涉及話音通信的產品。
雖然本發(fā)明是結合特定的實施例被描述的,但并不打算把本發(fā)明限制 于這里闡述的特定形式。而是本發(fā)明的范圍僅僅由所附權利要求來限制。 在權利要求中,術語"包括"不排除其它單元或步驟的存在。另外,雖然相 應特征可能被包括在不同的權利要求中,但這些特征有可能被有利地組 合,且被包括在不同的權利要求中并不意味著特征的組合是不可行的和/ 或不是有利的。此外,單數的引用并不排除多個。因此,"一"、"一個"、 "第一"、"第二,,等等的引用并不排除多個。而且,在權利要求中的參考標 號不應當被解釋為限制范圍。
權利要求
1. 用于區(qū)分第一和第二話音的方法,該方法包括以下步驟1)分析代表相應的第一和第二話音的第一和第二語音信號的信號屬性,2)確定相應的第一和第二參數組,其代表相應的第一和第二語音信號的信號屬性的測度,3)提取適合于控制話音修改算法的話音區(qū)分模板,該話音區(qū)分模板被提取以便代表至少第一參數組中的至少一個參數的修改,其中所述修改用來在由話音區(qū)分模板控制的修改算法進行處理后,增加在第一和第二話音之間的相互參數距離。
2. 按照權利要求1的方法,其中話音區(qū)分模板被提取以便代表第一 和第二參數組兩者中的至少 一 個參數的修改。
3. 按照權利要求1的方法,其中話音區(qū)分模板被提取以便代表至少 第一參數組中的兩個或更多個參數的修改。
4. 按照權利要求1的方法,其中第一和第二語音信號的信號屬性的 測度代表該信號的感知的重要的特質。
5. 按照權利要求4的方法,其中所述測度包括從以下組中選擇的至 少一個測度,即音調、隨時間的音調方差、喉脈沖形狀、信號幅度、共 振峰頻率、在有聲的和無聲的語音分段之間的能量差、與語音的總的頻譜 輪廓有關的特性、與在長的語音分段中一個或多個測度的動態(tài)變化有關的 特性。
6. 按照權利要求1的方法,其中步驟3)包括考慮第一和第二參數組 中至少部分的參數來計算相互參數距離,以及其中所計算的距離的類型是 從由歐幾里得距離和馬哈朗諾比斯距離組成的組中選擇的。
7. 按照權利要求1的方法,還包括以下步驟分析代表第三話音的 第三語音信號的信號屬性;確定第三參數組,其代表第三語音信號的信號 屬性的測度;以及計算在第一和第三參數組之間的相互參數距離。
8. 信號處理器(IO),包括-信號分析器(ll),被安排來分析代表相應的第一和第二話音的第一 和第二語音信號(20,30)的信號屬性,-參數生成器(12),被安排來確定相應的第一和第二參數組,其至少 代表相應的第 一 和第二語音信號(20,3 0)的信號屬性的測度,-話音區(qū)分模板生成器(13),被安排來提取適合于控制話音修改算法 的話音區(qū)分模板,該話音區(qū)分模板被提取以便代表至少第 一參數組中的至 少 一個參數的修改,其中所述修改用來在由話音區(qū)分模板控制的修改算法 進行處理后,增加在第 一和第二話音之間的相互參數距離。
9. 按照權利要求8的信號處理器(IO),其中話音區(qū)分模板生成器(13) 被安排來提取話音區(qū)分模板,以便代表第 一和第二參數組兩者中的至少一 個參數的修改。
10. 按照權利要求8的信號處理器(IO),其中話音區(qū)分模板生成器(13) 被安排來提取話音區(qū)分;f莫板,以便代表至少第一參數組中的兩個或更多個 參數的修改。
11. 按照權利要求8的信號處理器(IO),其中第一和第二語音信號的 信號屬性的測度代表該信號的感知的重要的特質。
12. 按照權利要求11的信號處理器(IO),其中參數生成器(12)被安排 來包括從以下組中選擇的至少一個測度,即音調、隨時間的音調方差、 喉脈沖形狀、信號幅度、共振峰頻率、在有聲的和無聲的語音分段之間的 能量差、與語音的總的頻譜輪廓有關的特性、與在長的語音分段中一個或 多個測度的動態(tài)變化有關的特性。
13. 按照權利要求8的信號處理器(IO),其中話音區(qū)分模板生成器(13) 包括考慮第 一和第二參數組中至少部分的參數來計算相互參數距離,以及 其中所計算的距離的類型是從由歐幾里得距離和馬哈朗諾比斯距離組成的組中選擇的。
14. 按照權利要求8的信號處理器(IO),其中信號分析器(ll)還被安 排來分析代表第三話音的第三語音信號的信號屬性,其中參數生成器(12) 被安排來生成代表第三語音信號的信號屬性的測度的笫三參數組,以及其 中話音區(qū)分模板生成器(13)被安排來計算在第一和第三參數組之間的相互參數距離。
15. 包括按照權利要求8的信號處理器(10)的設備。
16. 計算機可執(zhí)行的程序代碼,其適合于執(zhí)行按照權利要求1的方法。
17. 計算機可讀的存儲介質,其包括按照權利要求16的計算機可執(zhí) 行的程序代碼。
全文摘要
用于區(qū)分話音的方法,包括1)分析話音的感知相關的信號屬性,例如平均音調和音調方差;2)確定代表話音的信號屬性的參數組;以及最后3)提取話音修改參數,其代表至少某些話音的經修改的信號屬性。因此有可能在按照話音修改參數修改了話音時,增加在話音之間的相互參數距離,并由此增加在話音之間的感知的差別。優(yōu)選地,大多數或所有的話音被修改,以便限制對于一個參數的修改量。優(yōu)選的信號屬性測度是音調、隨時間的音調方差、喉脈沖形狀、共振峰頻率、信號幅度、在有聲的和無聲的語音分段之間的能量差、與語音的總的頻譜輪廓有關的特性、與在長的語音分段中一個或多個測度的動態(tài)變化有關的特性。該方法允許具有自然聲音的自動話音區(qū)分,因為它是基于為每個話音確定的信號屬性的修改。
文檔編號G10L21/00GK101460994SQ200780020544
公開日2009年6月17日 申請日期2007年5月15日 優(yōu)先權日2006年6月2日
發(fā)明者A·S·哈馬 申請人:皇家飛利浦電子股份有限公司