聽覺場(chǎng)景中的講話者沖突的制作方法
【專利摘要】在多個(gè)接收的語音信號(hào)中,檢測(cè)信號(hào)區(qū)間,在該信號(hào)區(qū)間中至少在第一語音信號(hào)與第二語音信號(hào)之間存在講話者沖突。處理器接收肯定的檢測(cè)結(jié)果,并且響應(yīng)于此對(duì)語音信號(hào)中的至少一個(gè)進(jìn)行處理,使得該至少一個(gè)語音信號(hào)感知上可辨識(shí)?;旌掀鲗?duì)語音信號(hào)進(jìn)行混合以提供輸出信號(hào),其中經(jīng)處理的信號(hào)代替相應(yīng)的接收信號(hào)。在示例實(shí)施方式中,在頻率上或時(shí)間上將信號(hào)內(nèi)容移動(dòng)遠(yuǎn)離講話者沖突。本發(fā)明在會(huì)議系統(tǒng)中有用。
【專利說明】聽覺場(chǎng)景中的講話者沖突
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求于2012年3月23日提交的序列號(hào)為61/614,577的美國臨時(shí)專利申請(qǐng)的優(yōu)先權(quán),其全部?jī)?nèi)容通過引用合并到本申請(qǐng)中。
【技術(shù)領(lǐng)域】
[0003]本文所公開的本發(fā)明一般地涉及音頻通信技術(shù),并且更確切地涉及使得兩個(gè)或更多個(gè)語音信號(hào)能夠在保持每個(gè)信號(hào)的清晰度的同時(shí)被組合的方法。當(dāng)前意圖將本發(fā)明應(yīng)用于包括會(huì)議端點(diǎn)的下述語音通信設(shè)備:預(yù)期在該語音通信設(shè)備中會(huì)出現(xiàn)講話者沖突。
【背景技術(shù)】
[0004]多方語音通信系統(tǒng),例如數(shù)字語音會(huì)議或模擬語音會(huì)議或視頻會(huì)議系統(tǒng),對(duì)源于不同系統(tǒng)端點(diǎn)的現(xiàn)場(chǎng)信號(hào)進(jìn)行混合(例如組合,具體地通過加性混合)來近似當(dāng)所有通信方出現(xiàn)在一個(gè)位置時(shí)會(huì)被聽到的聲音。通常的經(jīng)驗(yàn)是一并且部分地因?yàn)楦鞣絻H能夠通過聲音或有限的視角進(jìn)行交互一與在現(xiàn)實(shí)談話中相比,語音較難分離并且更難理解。具體地,講話者沖突可能會(huì)更頻繁。
[0005]US2008/144794涉及在在線會(huì)議中分離發(fā)言者的問題。根據(jù)該申請(qǐng),可以通過以下來減輕該問題:在概念上將發(fā)言者置于虛擬環(huán)境中,并且通過根據(jù)發(fā)言者在虛擬環(huán)境中的原點(diǎn)將空間線索添加至語音信號(hào),來模擬發(fā)言者相對(duì)于收聽者的距離、方位角和仰角。在US2008/144794中討論的空間線索(spatial cue)包括:總強(qiáng)度、耳間強(qiáng)度比率、直達(dá)聲與反射聲的比率、頭影方位效果、耳廓引起的頻率濾波(pinna-1nduced frequencyfiltering)以及類似的單耳和雙耳效果。人們所熟知的是,如果發(fā)言者(看上去)在空間中被分離開,則人類的聽覺會(huì)更容易地解決話音沖突。
[0006]期望進(jìn)一步發(fā)展增強(qiáng)混合語音信號(hào)中的話音的清晰度的技術(shù)。
【專利附圖】
【附圖說明】
[0007]現(xiàn)將參考附圖對(duì)本發(fā)明的示例實(shí)施方式進(jìn)行描述,其中:
[0008]圖1是根據(jù)本發(fā)明的示例實(shí)施方式的語音信號(hào)混合器的一般化框圖;
[0009]圖2示出了包括圖1的語音信號(hào)混合器的語音通信系統(tǒng);
[0010]圖3是在正發(fā)生講話者沖突的時(shí)間段內(nèi)所記錄的聲譜圖(0.6秒父21000!0,其中示出了可以用來增加每個(gè)語音的清晰度的三個(gè)校正動(dòng)作;以及
[0011]圖4是示意性示出了具有講話者沖突的時(shí)間段,以及盡管有沖突卻仍易于保持清晰度的兩個(gè)時(shí)移操作的波形圖。
[0012]所有的圖都是示意性的,并且為了闡明本發(fā)明通常僅示出了所需的部分,而其他部分可以被省略或僅被暗示。除非另外指出,否則在不同圖中相同的附圖標(biāo)記指代相同的部分。
【具體實(shí)施方式】
[0013]1.概要
[0014]本發(fā)明的目的在于提高混合信號(hào)中語音信號(hào)的清晰度。具體地,一個(gè)目的在于改善預(yù)計(jì)會(huì)影響收聽者的以下能力的條件:對(duì)混合信號(hào)所攜帶的口頭自然語言進(jìn)行解碼的能力。另一個(gè)目的在于減輕混合語音信號(hào)中的講話者沖突。本發(fā)明的又一個(gè)目的在于減少混合語音信號(hào)中同時(shí)話音的不利影響。
[0015]因此,本發(fā)明的示例實(shí)施方式提供了具有獨(dú)立權(quán)利要求中所提出的特征的方法、設(shè)備和計(jì)算機(jī)程序產(chǎn)品。
[0016]在示例實(shí)施方式中,系統(tǒng)節(jié)點(diǎn)接收具有公共時(shí)間基礎(chǔ)的語音信號(hào)。節(jié)點(diǎn)檢測(cè)其中存在著涉及兩個(gè)或更多個(gè)語音信號(hào)的講話者沖突的信號(hào)區(qū)間。由于公共時(shí)間基礎(chǔ),所以是關(guān)于第一語音信號(hào)還是第二語音信號(hào)還是其他語音信號(hào)之一來表達(dá)所述區(qū)間無關(guān)緊要。如果檢測(cè)到講話者沖突,節(jié)點(diǎn)對(duì)語音信號(hào)之一(在權(quán)利要求中稱為“第一”語音信號(hào))進(jìn)行處理,以使該語音信號(hào)在感知上可辨識(shí)。經(jīng)處理的第一信號(hào)代替所接收的第一信號(hào)作為后續(xù)混合階段的輸入,后續(xù)混合階段提供來自節(jié)點(diǎn)的輸出信號(hào)。
[0017]公共時(shí)間基礎(chǔ)可以與以下數(shù)據(jù)分組結(jié)合:該數(shù)據(jù)分組用于發(fā)送到來的語音信號(hào)的數(shù)據(jù),并且用于攜帶將該數(shù)據(jù)分組與全系統(tǒng)的主時(shí)鐘時(shí)間相關(guān)聯(lián)的時(shí)間戳。因此,可以通過對(duì)攜帶分組的時(shí)間戳的數(shù)據(jù)字段進(jìn)行解析(或讀取)來將特定的分組與時(shí)間基準(zhǔn)中的點(diǎn)或區(qū)間相關(guān)聯(lián)??商娲?,公共時(shí)間基礎(chǔ)由同步信號(hào)來指示。進(jìn)一步可替代地,時(shí)間基準(zhǔn)不依賴于到來的語音信號(hào)中的信息。而是,通過以暗示了信號(hào)之間的同步關(guān)系的連續(xù)方式對(duì)來自每個(gè)語音信號(hào)的等長(zhǎng)的并行段進(jìn)行組合,來混合語音信號(hào)(其中段可以例如與一個(gè)數(shù)據(jù)分組對(duì)應(yīng))。從而,通過選擇開始點(diǎn)(例如,初始數(shù)據(jù)分組)獲取了輸出信號(hào)的每個(gè)不間斷的段,之后在沒有時(shí)間拉伸或時(shí)間壓縮的情況下對(duì)段進(jìn)行正常組合,使得所有段具有相等的長(zhǎng)度,例如20ms。然后,語音信號(hào)段的相對(duì)位置表示公共時(shí)間基礎(chǔ)。
[0018]在分組化的語音信號(hào)中,其中檢測(cè)到講話者沖突的信號(hào)區(qū)間可能與全部數(shù)據(jù)分組的集合相對(duì)應(yīng)。
[0019]節(jié)點(diǎn)可以被配置成:在兩個(gè)或更多個(gè)語音信號(hào)中檢測(cè)同時(shí)語音活動(dòng)。所尋找的同時(shí)語音活動(dòng)相對(duì)于公共時(shí)間基礎(chǔ)同時(shí)發(fā)生。更受限的檢測(cè)準(zhǔn)則可以是在每個(gè)信號(hào)的特定頻率范圍內(nèi)尋找同時(shí)語音活動(dòng)??商娲鼗蛄硗獾兀?jié)點(diǎn)考慮具有同時(shí)語音活動(dòng)的區(qū)間,并且在這些區(qū)間內(nèi)應(yīng)用至少再一個(gè)另外的檢測(cè)準(zhǔn)則,該另外的檢測(cè)準(zhǔn)則是從已知指示清晰度問題的語音信號(hào)特征中選擇的,例如出現(xiàn)音素的某些組合、濁音話音和清音話音的組合等。
[0020]對(duì)第一語音信號(hào)的處理的主要目標(biāo)之一是使信號(hào)更加可辨識(shí)。因此,通過處理,盡管有來自沖突信號(hào)的干擾,但信號(hào)內(nèi)容仍然可能辨別。處理可以包括:以第一信號(hào)與和它沖突的信號(hào)較大程度地不同的方式來改變第一信號(hào)的屬性。可替代地或另外地,它可以包括:以沖突不太嚴(yán)重并且信息丟失變得不太可能的方式來改變信號(hào)內(nèi)容。根據(jù)前一種方法,混合信號(hào)可能包含與未處理時(shí)相同量的講話者沖突(并且具有相同的嚴(yán)重性),但是已經(jīng)提供了以下線索:該線索預(yù)期會(huì)簡(jiǎn)化負(fù)責(zé)將采集的聲波解碼成語言的認(rèn)知處理。與之相反,后一種方法不依賴于人腦的認(rèn)知能力,而是被期望演繹地減少混合信號(hào)中重疊內(nèi)容的量。
[0021]對(duì)第一語音信號(hào)的處理可以僅發(fā)生在包含講話者沖突的信號(hào)區(qū)間內(nèi)??商娲?,處理可以涉及包含該沖突區(qū)間的更大區(qū)間。特別地,如果將特定的效果應(yīng)用于沖突區(qū)間,則處理可以包括:隨著時(shí)間逐漸轉(zhuǎn)變,使得能夠進(jìn)行效果的平滑開始和平滑釋放。
[0022]本示例實(shí)施方式選擇性地應(yīng)用處理,并且因此可以實(shí)現(xiàn)本發(fā)明的至少一個(gè)目的。更確切地講,因?yàn)樘幚肀幌拗朴趯?shí)際上需要該處理的時(shí)間段,所以可以應(yīng)用更有目標(biāo)性的處理。此外,因?yàn)閷?duì)于感知到的音頻品質(zhì)任何不利的副作用被限制在這些區(qū)間中,所以節(jié)點(diǎn)可以使用更激進(jìn)并且可能更高效的處理技術(shù)。
[0023]在進(jìn)一步發(fā)展了前一實(shí)施方式的示例實(shí)施方式中,處理包括:從來自第一信號(hào)的所檢測(cè)的信號(hào)區(qū)間(即,其中發(fā)生講話者沖突)獲得信號(hào)內(nèi)容,并且將該內(nèi)容時(shí)移到第一信號(hào)的不同區(qū)間。下面將會(huì)更加詳細(xì)地論述對(duì)于時(shí)移實(shí)施方式和頻移實(shí)施方式兩者的合適的目標(biāo)位置的選擇。
[0024]在這方面,通過相對(duì)于公共時(shí)間基礎(chǔ)對(duì)信號(hào)內(nèi)容進(jìn)行時(shí)間拉伸就可以實(shí)現(xiàn)時(shí)移。為了實(shí)現(xiàn)前向移動(dòng),延伸到所檢測(cè)的區(qū)間中參考點(diǎn)的近似位置(例如,區(qū)間的開始、中點(diǎn)、結(jié)束)的信號(hào)的段經(jīng)歷負(fù)的時(shí)間拉伸(即,延遲),和/或從所檢測(cè)的區(qū)間中參考點(diǎn)的近似位置起延伸的段經(jīng)歷正的時(shí)間拉伸(即,加速)。為了實(shí)現(xiàn)后向移動(dòng),正的時(shí)間拉伸段先于負(fù)的時(shí)間拉伸段。在任一種情況下,正的拉伸和負(fù)的拉伸可以抵消,使得凈時(shí)間拉伸接近于零。優(yōu)選地,拉伸的量隨時(shí)間逐漸變化,以使處理不太明顯。優(yōu)選地,拉伸不改變第一信號(hào)的音調(diào)。
[0025]可替代地,可以通過將所檢測(cè)的區(qū)間中的信號(hào)內(nèi)容復(fù)制到鄰近的信號(hào)區(qū)間來實(shí)現(xiàn)時(shí)移。該鄰近的信號(hào)區(qū)間無需與所檢測(cè)的信號(hào)區(qū)間相鄰,但是優(yōu)選地位于其附近,正常情況下對(duì)于快的語速(高至大約10個(gè)英語音節(jié)每秒),優(yōu)選地,該鄰近區(qū)間位于距所檢測(cè)的區(qū)間最多50ms。優(yōu)選地,如果預(yù)期更高的語速,則最大持續(xù)時(shí)間被進(jìn)一步減少到例如25ms。對(duì)信號(hào)內(nèi)容的復(fù)制可能伴隨著在所檢測(cè)的區(qū)間中對(duì)該信號(hào)內(nèi)容的去除或衰減(例如,縮減)。優(yōu)選地,衰減是逐漸的,使其最大地縮減的部分位于所檢測(cè)的區(qū)間中,以便避免突然的轉(zhuǎn)變。從所檢測(cè)的區(qū)間中提取的信號(hào)內(nèi)容可以通過加性混合而被復(fù)制到鄰近區(qū)間。例如,在變換編碼的信號(hào)中,可以將變換系數(shù)值添加到已經(jīng)存在于鄰近區(qū)間中的那些。另外地或可替代地,在對(duì)變換系數(shù)增加了所提取的信號(hào)內(nèi)容之前可以對(duì)已經(jīng)存在于鄰近區(qū)間中的信號(hào)內(nèi)容進(jìn)行預(yù)衰減。再次,為了促進(jìn)平滑地轉(zhuǎn)變出入鄰近區(qū)間,所復(fù)制的信號(hào)內(nèi)容的開始和/或釋放,以及鄰近區(qū)間的預(yù)衰減,都隨時(shí)間逐漸進(jìn)行。如果在鄰近區(qū)間和所檢測(cè)的區(qū)間之間第一信號(hào)中沒有顯著的音調(diào)變動(dòng),這種類型的時(shí)移技術(shù)特別有用。,在清音(或無音調(diào)或噪音)話音占優(yōu)勢(shì)的區(qū)間中使用這種技術(shù)也是有利的,例如可以通過缺少占優(yōu)勢(shì)的基本音調(diào)頻率來證明。
[0026]在示例實(shí)施方式中,處理包括:從第一信號(hào)獲得所檢測(cè)的信號(hào)區(qū)間中(即,其中發(fā)生講話者沖突)的信號(hào)內(nèi)容,并且將該內(nèi)容頻移到第一信號(hào)的不同區(qū)間。頻移可以可選地與信號(hào)內(nèi)容的時(shí)移相組合。優(yōu)選地,頻移隨著時(shí)間逐漸地進(jìn)行。例如移動(dòng)可以包括:斜上升(ramp-up)階段、恒定階段和斜下降(ramp-down)階段。在斜上升階段和斜下降階段中,頻移可以隨著時(shí)間以對(duì)數(shù)頻率單位線性地變化。為了防止頻移太明顯,優(yōu)選地,最大頻移不要超過倍頻,并且更優(yōu)選地,小于倍頻的四分之一。
[0027]現(xiàn)在參考包括時(shí)移或頻移的所有上述示例實(shí)施方式。移動(dòng)可以影響所檢測(cè)的信號(hào)區(qū)間中的全部信號(hào)內(nèi)容,或者可替代地可以被限制到有限的頻率范圍或頻率子范圍的并集。特別地,該移動(dòng)可以將信號(hào)內(nèi)容從講話者沖突位置移動(dòng)到第一信號(hào)中的目標(biāo)位置,預(yù)期在該目標(biāo)位置處與其它信號(hào)的信號(hào)內(nèi)容以較小程度發(fā)生沖突。
[0028]另外地或可替代地,根據(jù)由第一語音信號(hào)攜帶的語言結(jié)構(gòu)對(duì)所檢測(cè)的信號(hào)區(qū)間進(jìn)行調(diào)整。特別地,可以將第一信號(hào)分割(例如,在包括所檢測(cè)的信號(hào)區(qū)間的部分中)成音素。用于音素分割的計(jì)算機(jī)輔助方法在自然語言處理中本來就已知。音素分割算法可以用因素邊界來注解第一語音信號(hào);在分組化的語音信號(hào)中,音素邊界可以例如與分組邊界一致?;谠撔畔?,按照所檢測(cè)的信號(hào)區(qū)間僅覆蓋全部音素的方式,對(duì)所檢測(cè)的信號(hào)區(qū)間的左端點(diǎn)進(jìn)行延伸或截?cái)?,以及?duì)所檢測(cè)的信號(hào)區(qū)間的右端點(diǎn)進(jìn)行延伸或截?cái)?。換言之,在上述延伸和/或截?cái)嘀螅鶛z測(cè)的信號(hào)區(qū)間的端點(diǎn)與音素邊界的近似位置一致。此種調(diào)節(jié)被認(rèn)為使得時(shí)移或頻移較不明顯。
[0029]在示例實(shí)施方式中,對(duì)講話者沖突的檢測(cè)基于的是針對(duì)每個(gè)語音信號(hào)每頻帶的能量含量的指示。在表示語音信號(hào)的比特流中可以很容易地獲得能量指示,例如,可以從比特流中的數(shù)據(jù)字段讀取能量指示??商娲兀诒硎菊Z音信號(hào)的量(例如變換系數(shù)序列)來計(jì)算能量指示。指示的計(jì)算可以包括根據(jù)聽覺靈敏度曲線進(jìn)行加權(quán)?;谀芰亢恐甘?,檢測(cè)可以應(yīng)用以下條件:該條件包括在第一語音信號(hào)和第二語音信號(hào)(即,涉及講話者沖突的信號(hào))中具有相當(dāng)?shù)哪芰亢?。發(fā)現(xiàn)這樣的相當(dāng)?shù)哪芰亢康奈恢迷跈?quán)利要求中被稱為講話者沖突位置。例如,它可以被表示為時(shí)間頻率平面中的矩形;優(yōu)選地,它與以下區(qū)域在時(shí)間頻率平面中具有相同的形狀和大小:對(duì)于該區(qū)域,發(fā)現(xiàn)滿足檢測(cè)條件??梢哉J(rèn)為具有相當(dāng)?shù)哪芰亢康臈l件等同于在第一信號(hào)的能量含量指示與第二信號(hào)的能量含量指示之間具有有限的差異。發(fā)明人已經(jīng)意識(shí)到在兩個(gè)混合信號(hào)中相當(dāng)?shù)男盘?hào)能量的出現(xiàn)可能與清晰度減小的位置相對(duì)應(yīng)。
[0030]在上述示例實(shí)施方式的進(jìn)一步發(fā)展中,相當(dāng)能量條件與另外的條件組合,依據(jù)能量含量指示將該另外的條件公式化。該另外的條件可以保證:對(duì)于所有沖突信號(hào),能量含量指示將超過預(yù)定閾值。發(fā)明人意識(shí)到:講話者沖突在信號(hào)功率低的時(shí)間段(的頻率范圍)中一般不太令人煩擾;這樣的講話者沖突可以不被校正,而沒有明顯損害。
[0031]優(yōu)選地,上面提到的能量含量指示取決于頻率。因此,它不僅允許對(duì)總信號(hào)能量值進(jìn)行比較,而且允許對(duì)給定頻帶的信號(hào)能量值單獨(dú)進(jìn)行比較。特別地,語音信號(hào)可以被分割成時(shí)間頻率片(tile)。片可以是信號(hào)的時(shí)間幀中多個(gè)預(yù)定頻率區(qū)(bin)中的一個(gè)。在此上下文中,可以將一個(gè)或更多個(gè)檢測(cè)準(zhǔn)則應(yīng)用于相應(yīng)片的組,即,屬于不同語音信號(hào)并且具有相應(yīng)的時(shí)間坐標(biāo)和頻率坐標(biāo)的片。因此,時(shí)間頻率片是基本檢測(cè)單元,并且因此是檢測(cè)的分辨率。因此,講話者沖突位置由一個(gè)或更多個(gè)時(shí)間頻率片組成。特別地,可以針對(duì)每個(gè)時(shí)間頻率片來計(jì)算能量含量指示的值。
[0032]再參考上述包括時(shí)移或頻移的示例實(shí)施方式。有利地,可以將最小能量含量的條件(例如,根據(jù)上面論述的能量含量指示)用于從涉及講話者沖突的多個(gè)語音信號(hào)中選擇要經(jīng)受處理的語音信號(hào)。發(fā)明人意識(shí)到:該條件能夠產(chǎn)生較不明顯的時(shí)移和/或頻移??商娲兀缃酉聛硪撌龅?,可以通過相對(duì)更有利的目標(biāo)位置的可用性來指導(dǎo)該信號(hào)選擇。
[0033]此外,可以獲取目標(biāo)位置作為檢測(cè)講話者沖突的處理的副產(chǎn)品,其中所檢測(cè)的區(qū)間中的頻譜內(nèi)容被移動(dòng)至該目標(biāo)位置??梢詫⒛繕?biāo)位置表示為第一語音信號(hào)的頻率區(qū)間(或頻率子范圍)和時(shí)間區(qū)間的組合。更確切地講,檢測(cè)處理可以被配置成返回目標(biāo)位置,該目標(biāo)位置接近于講話者沖突位置并且其中檢測(cè)條件未達(dá)成。由于條件未達(dá)成,目標(biāo)位置必然與講話者沖突位置不同。為了使時(shí)移或頻移盡可能不明顯,優(yōu)選地,目標(biāo)位置要被局限在距講話者沖突位置盡可能近的位置。檢測(cè)處理可以被配置成:尋找具有相同時(shí)間區(qū)間(即,純頻移)或具有相同頻率區(qū)間(即,純時(shí)移)的目標(biāo)位置。另外地或可替代地,檢測(cè)處理可以被配置成:考慮具有一致的時(shí)間區(qū)間或一致的頻率區(qū)間的目標(biāo)位置。區(qū)間的一致性可能需要具有相等的長(zhǎng)度。特別地,兩個(gè)頻率區(qū)間的一致性可能需要具有以對(duì)數(shù)頻率單位的相等長(zhǎng)度,例如倍頻(octave)或十倍頻(decade)。
[0034]在與上述段落中描述的類似的背景下,檢測(cè)處理可以返回多于一個(gè)候選目標(biāo)位置。然后,可以使用根據(jù)移動(dòng)距離度量的條件來從候選目標(biāo)位置中選擇目標(biāo)位置,其中將講話者沖突位置移動(dòng)到該目標(biāo)位置是最合適的。移動(dòng)距離度量可以是時(shí)移距離和頻移距離的組合,例如Pythagorean距離。就此而言,可以用線性單位或?qū)?shù)單位來表達(dá)頻移??商娲?,可以對(duì)頻移貢獻(xiàn)進(jìn)行感知地加權(quán),例如,作為被繪制為線性或?qū)?shù)頻率單位的函數(shù)的聽覺靈敏度曲線的相關(guān)片段下面的區(qū)域。考慮到至少如果移動(dòng)量大,則頻移通常計(jì)算上更復(fù)雜并且發(fā)聲不自然,所以與時(shí)移貢獻(xiàn)相比,可以給頻移對(duì)于移動(dòng)距離度量的貢獻(xiàn)相對(duì)較高的權(quán)重??梢詰?yīng)用該條件的簡(jiǎn)化版本來選擇要求正的純時(shí)移(或頻移)的目標(biāo)位置或者要求負(fù)的純時(shí)移(或頻移)的目標(biāo)位置:選擇要求最短移動(dòng)量(按秒、Hz、倍頻程等)的目標(biāo)位置。此外,可以使用目標(biāo)位置的可用性以及它們相關(guān)聯(lián)的移動(dòng)距離度量來從兩個(gè)或更多個(gè)要經(jīng)受處理的沖突語音信號(hào)中選擇語音信號(hào)。換言之,在根據(jù)移動(dòng)距離度量識(shí)別并且評(píng)估了目標(biāo)位置之后,可以分配作為“第一語音信號(hào)”的狀態(tài)。如上面所提到的,移動(dòng)距離度量可以反映對(duì)于與頻移相關(guān)的時(shí)移給予的任何優(yōu)選選擇,使得選擇要經(jīng)受處理的信號(hào)會(huì)考慮到預(yù)期移動(dòng)會(huì)有多明顯。這可能進(jìn)一步促進(jìn)時(shí)移或頻移的感知上的謹(jǐn)慎。
[0035]在示例實(shí)施方式中,通過應(yīng)用諧波激勵(lì)、振蕩效果、震音(tremolo)、顫音(vibrato)、合唱(chorus)、鑲邊(flanging)和移相(phasing)中的一個(gè)對(duì)第一語音信號(hào)進(jìn)行處理,來處理所檢測(cè)到的講話者沖突。處理可能影響多于一個(gè)信號(hào),但是為了提升信號(hào)的清晰度,處理優(yōu)選地不影響所有語音信號(hào)。例如,該實(shí)施方式可以包括形成第一組語音信號(hào)和第二組語音信號(hào),其中第一組而不是第二組要經(jīng)受處理。優(yōu)選地,已經(jīng)檢測(cè)到講話者沖突的兩個(gè)語音信號(hào)被分配到不同的組。因此,由于處理,沖突信號(hào)可以變得更有區(qū)別并且更容易辨識(shí)。
[0036]在示例實(shí)施方式中,用于混合語音信號(hào)同時(shí)減輕講話者沖突的設(shè)備包括沖突檢測(cè)器、處理器和混合器。處理器用于可操作地響應(yīng)于肯定的檢測(cè)結(jié)果而對(duì)一個(gè)或更多個(gè)語音信號(hào)進(jìn)行處理;混合器用于將語音信號(hào)組合成輸出信號(hào)。已經(jīng)經(jīng)過處理的任何語音信號(hào)代替接收的相同語音信號(hào)作為混合器的輸入??蛇x地,設(shè)備包括接收語音信號(hào)的接口 ;進(jìn)一步可選地,設(shè)備包括提供由混合器生成的輸出信號(hào)的接口。
[0037]在示例實(shí)施方式中,將上面描述的特征的組合部署在現(xiàn)場(chǎng)會(huì)議系統(tǒng),即實(shí)時(shí)運(yùn)行的會(huì)議系統(tǒng)中。
[0038]從屬權(quán)利要求限定了本發(fā)明的示例實(shí)施方式,下面將對(duì)其進(jìn)行更詳細(xì)的描述。應(yīng)當(dāng)注意,本發(fā)明涉及特征的所有組合,即使在不同權(quán)利要求中引用所述特征。
[0039]T1.示例實(shí)施方式
[0040]圖1示出了根據(jù)本發(fā)明的示例實(shí)施方式的語音信號(hào)混合裝置100。輸入語音信號(hào)
il、i2、i3、i4在接口 101處被接收。接口 101可以是朝向分組交換網(wǎng)(未示出)的網(wǎng)絡(luò)接口,混合裝置100從接口 101接收作為分組化比特流的輸入語音信號(hào)。在混合裝置100中,將每個(gè)輸入語音信號(hào)il、i2、i3、i4提供給沖突檢測(cè)器102、混合器104和選擇器105,該選擇器105可操作地將所選擇的語音信號(hào)ij轉(zhuǎn)發(fā)到位于選擇器105下游的處理器103。在圖1中,通過多位置單極開關(guān)象征性地示出了選擇器105。本發(fā)明不限于由圖1提出的簡(jiǎn)化情況;例如,可以構(gòu)思出:響應(yīng)于肯定的講話者沖突檢測(cè)結(jié)果,多于一個(gè)輸入語音信號(hào)可以經(jīng)受處理。
[0041]沖突檢測(cè)器102被配置成:檢測(cè)在輸入語音信號(hào)il、i2、i3、i4中兩個(gè)或更多個(gè)之間具有講話者沖突的信號(hào)區(qū)間。為此,如上所述,沖突檢測(cè)器102可以得出(即,計(jì)算或讀取)每個(gè)語音信號(hào)的每個(gè)時(shí)間頻率片的能量含量指示,并且尋找相當(dāng)?shù)闹甘镜闹档耐瑫r(shí)出現(xiàn)。將檢測(cè)結(jié)果提供給處理器103和混合器104。響應(yīng)于肯定的檢測(cè)結(jié)果,處理器103開始對(duì)由ij表示的沖突信號(hào)之一進(jìn)行處理,可以借助于選擇器105選擇該沖突信號(hào)之一。處理器103將處理的信號(hào)Mij)提供給混合器104,在混合器104處所處理的信號(hào)Mij)代替信號(hào)ij作為輸入。因此,為了提供包含來自所有輸入信號(hào)的貢獻(xiàn)的輸出信號(hào),混合器104對(duì)所有j幸k的語音信號(hào)ik進(jìn)行加性混合,就像它們是所接收并處理的語音信號(hào)Mij) —樣。應(yīng)當(dāng)理解,混合器104可以被配置為:也可以產(chǎn)生其他組合。例如,可以期望從意圖用于第m個(gè)端點(diǎn)的專用輸出混合信號(hào)中排除im (和f(im),如果可適用)。
[0042]如圖2所示,上面論述的語音信號(hào)混合裝置100可以形成包括端點(diǎn)201、202、203、204的會(huì)議系統(tǒng)200的一部分??梢越柚诓贾迷诟鱾€(gè)端點(diǎn)201、202、203、204處的換能器(例如,麥克風(fēng))來獲得輸入語音信號(hào)il、i2、i3、i4。在簡(jiǎn)單配置中,混合裝置100為所有端點(diǎn)201、202、203、204提供共用輸出信號(hào)ol,該共用輸出信號(hào)ο I由端點(diǎn)201、202、203、204處的音頻源(例如,擴(kuò)音器)再現(xiàn)。如上所述,可替代地,混合裝置100可以被配置為向端點(diǎn)201、202、203、204的子組提供單獨(dú)的輸出混合信號(hào)。會(huì)議系統(tǒng)200可以是純語音通信系統(tǒng)、視頻通信系統(tǒng)或多媒體通信系統(tǒng)。
[0043]圖3示出了時(shí)移和頻移,它們是由本發(fā)明的示例實(shí)施方式提出的用于減輕講話者沖突影響的兩種校正措施。圖3包含兩個(gè)聲譜圖,每個(gè)聲譜圖覆蓋達(dá)到大約21000Hz的頻率并且延伸大約0.6秒(與大約30個(gè)時(shí)間幀相對(duì)應(yīng),每個(gè)時(shí)間幀20ms),其中上面的聲譜圖與輸入語音信號(hào)il相關(guān),并且下面的聲譜圖與輸入語音信號(hào)i2相關(guān)。聲譜圖的黑色區(qū)域與具有零能量含量的時(shí)間頻率片相對(duì)應(yīng),而較亮的陰影表示非零能量含量。相對(duì)較亮的區(qū)域與相對(duì)較高的能量含量對(duì)應(yīng)。出于說明的目的,用字母CR-OW-D-E-D、F-R-1E-ND-S注釋了每個(gè)聲譜圖,該字母與在所繪的時(shí)間區(qū)間中由語音信號(hào)攜帶的音素相對(duì)應(yīng);需要重復(fù)的是:語音信號(hào)中的音素的知識(shí)不是本發(fā)明的必要特征,音素邊界的位置的知識(shí)也不是本發(fā)明的必要特征。
[0044]在圖3所示的情況中,在第一講話者沖突位置301中檢測(cè)到講話者沖突,第一講話者沖突位置301已經(jīng)被畫在上面的聲譜圖中(il信號(hào));由于沖突是基于滿足依據(jù)兩個(gè)信號(hào)的條件,所以第一講話者沖突位置301可以等同地被畫在下面的聲譜圖(i2信號(hào))中或兩個(gè)聲譜圖中。已經(jīng)發(fā)現(xiàn)將il信號(hào)的譜內(nèi)容在時(shí)間上向前移動(dòng)到第一目標(biāo)位置302是合適的。始于第一講話者沖突位置301的箭頭在大小與方向上與意圖的時(shí)移相對(duì)應(yīng)。出于說明?2信號(hào)在第一目標(biāo)位置處具有低能量含量的目的,已經(jīng)將第一目標(biāo)位置302畫在下面的聲譜圖中。在下面的聲譜圖中畫出第一目標(biāo)位置302的選擇不是意圖暗示:來自第一講話者沖突位置301的譜內(nèi)容要被從il信號(hào)移動(dòng)到i2信號(hào);然而很可能,這對(duì)要產(chǎn)生的最終混合信號(hào)幾乎沒有影響。應(yīng)當(dāng)指出,在圖3中講話者沖突位置301、311、321的形狀是近似的,并且可以被精細(xì)化到準(zhǔn)確位置,在該準(zhǔn)確位置處由沖突檢測(cè)器102發(fā)現(xiàn)檢測(cè)準(zhǔn)則被滿足。在沒有頻率選擇性的簡(jiǎn)化方法中,第一講話者沖突位置301和第一目標(biāo)位置302可以是在圖中分別由Ltl和Lc/表示的兩個(gè)一致的時(shí)間段。
[0045]目標(biāo)位置302可以被選作為時(shí)間頻率平面的區(qū)域,該區(qū)域與檢測(cè)到講話者沖突并且檢測(cè)條件未達(dá)成的區(qū)域一致。該條件可以在目標(biāo)位置302的任何部分都不成立,或者至少在目標(biāo)位置302的預(yù)定百分比部分不成立。優(yōu)選地,目標(biāo)位置302被局限于盡可能靠近講話者沖突位置301處。除非目標(biāo)位置302能被局限于絕對(duì)靠近,即沒有暗示多于大約50ms的時(shí)移或者多于大約倍頻程的一半的頻移,否則語音信號(hào)混合裝置100可以適合于抑制時(shí)移或頻移。如上所述,在特定的情形下這些限制可以被進(jìn)一步收緊,例如,收緊到25ms和倍頻程的四分之一。
[0046]如上所述,處理器104通過應(yīng)用負(fù)的時(shí)移并且然后應(yīng)用正的時(shí)移,可以實(shí)現(xiàn)時(shí)移??商娲?,時(shí)移可以通過剪切-粘貼(或者衰減-粘貼)技術(shù)來實(shí)現(xiàn)。應(yīng)當(dāng)理解,時(shí)移操作可能在語音混合設(shè)備100中經(jīng)受算法延遲。該延遲將會(huì)是最長(zhǎng)的可能的正的時(shí)間拉伸的級(jí)另IJ。因此預(yù)期其不會(huì)明顯地增加會(huì)議系統(tǒng)中總的延遲。
[0047]圖3進(jìn)一步顯示了第二講話者沖突位置311和相關(guān)聯(lián)的目標(biāo)位置312,這些位置包含于時(shí)間段U、L/中。根據(jù)音素,講話者沖突與音素[d]和[s]的同時(shí)實(shí)現(xiàn)相對(duì)應(yīng)。如圖所示,意圖對(duì)第二講話者沖突的糾正是負(fù)的時(shí)移。
[0048]此外,第三譜沖突位置321已經(jīng)被畫在下面的聲譜圖中。在與第三譜沖突位置321相同的時(shí)間段L2中,相關(guān)聯(lián)的第三目標(biāo)位置322已經(jīng)被畫在上面的聲譜圖中,以說明:來自第三譜沖突位置321的信號(hào)內(nèi)容的意圖新位置將會(huì)被移動(dòng)到具有相對(duì)低的能量含量的區(qū)域。如在圖3中能夠看到的,第三譜沖突位置321被以下時(shí)間段包圍:在該時(shí)間段中il信號(hào)在關(guān)注的頻率范圍內(nèi)具有相對(duì)高的能量含量,使得正的時(shí)移和負(fù)的時(shí)移都不適合于解決沖突。
[0049]圖4更詳細(xì)地說明了時(shí)移技術(shù),現(xiàn)在參考與圖3中示出的情形的不同的情形下信號(hào)的取決于時(shí)間的波形圖。在時(shí)間段L1中,第一語音信號(hào)il和第二語音信號(hào)i2兩者都具有高的能量含量,并且確定將語音信號(hào)il的信號(hào)內(nèi)容在時(shí)間上向后移動(dòng)到時(shí)間段L/。時(shí)移可以通過時(shí)間拉伸或使用復(fù)制-粘貼技術(shù)來進(jìn)行。
[0050]所處理的信號(hào)f (il)說明了時(shí)間拉伸方法,其中用加號(hào)來注釋正的拉伸段,而用減號(hào)來注釋負(fù)的拉伸段,并且用L1來注釋譜內(nèi)容的新位置。優(yōu)選地,時(shí)間拉伸是漸進(jìn)的,但是也可以是非漸進(jìn)的??梢詫r(shí)間拉伸應(yīng)用于或者不應(yīng)用于LI中的信號(hào)內(nèi)容。如果不將時(shí)間拉伸應(yīng)用于信號(hào)內(nèi)容,則可以在時(shí)間段LI (或等同地,L/ )開始之前完成正的拉伸。
[0051]所處理的信號(hào)g(il)說明了復(fù)制-粘貼方法,其中在其新位置L/中已經(jīng)用虛線畫出了從段L1中提取的信號(hào)內(nèi)容,在該新位置L/處所提取的信號(hào)內(nèi)容與該區(qū)間中的原始信號(hào)內(nèi)容相加。此外,在段L1中相同的信號(hào)內(nèi)容已經(jīng)被顯著地衰減到其原始幅度的大約25%。
[0052]II1.等同、擴(kuò)展、替代和雜項(xiàng)
[0053]本領(lǐng)域技術(shù)人員在研究了以上描述之后,本發(fā)明的更多的實(shí)施方式將會(huì)變得明顯。盡管本說明書和附圖公開了實(shí)施方式和示例,但是本發(fā)明不限于這些特定的示例。在不脫離由所附權(quán)利要求限定的本發(fā)明的范圍的情況下可以做出許多修改和變型。權(quán)利要求中出現(xiàn)的任何附圖標(biāo)記不應(yīng)被理解為限制其范圍。
[0054]在上文公開的系統(tǒng)和方法可以實(shí)現(xiàn)為軟件、固件、硬件或其組合。在硬件實(shí)現(xiàn)中,在以上描述中提到的功能單元之間的任務(wù)劃分不必與劃分成物理單元相對(duì)應(yīng);相反地,一個(gè)物理部件可以具有多個(gè)功能,并且一個(gè)任務(wù)可以由若干個(gè)物理部件協(xié)作執(zhí)行。某些部件或所有部件可以實(shí)現(xiàn)為由數(shù)字信號(hào)處理器或微處理器執(zhí)行的軟件,或者可以實(shí)現(xiàn)為硬件或?qū)崿F(xiàn)為專用集成電路??梢詫⑦@樣的軟件分布在計(jì)算機(jī)可讀介質(zhì)上,該計(jì)算機(jī)可讀介質(zhì)可以包含計(jì)算機(jī)存儲(chǔ)介質(zhì)(或非暫態(tài)介質(zhì))和通信介質(zhì)(或暫態(tài)介質(zhì))。如本領(lǐng)域技術(shù)人員所熟知的,術(shù)語計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于存儲(chǔ)信息(例如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))的任何方法或技術(shù)來實(shí)現(xiàn)的易失性與非易失性、可移動(dòng)與不可移動(dòng)的介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于:RAM、ROM、EEPR0M、閃存或其他存儲(chǔ)技術(shù)、CD-ROM、數(shù)字通用光盤(DVD)或其它光盤存儲(chǔ)、盒式磁帶、磁帶、磁盤存儲(chǔ)或其它磁存儲(chǔ)設(shè)備,或能夠被用于存儲(chǔ)期望的信息并且能夠被計(jì)算機(jī)存取的任何其它介質(zhì)。此外,本領(lǐng)域技術(shù)人員熟知:通信介質(zhì)通常將計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)實(shí)現(xiàn)在調(diào)制的數(shù)據(jù)信號(hào)(例如載波或其他傳輸機(jī)制)中,并且包括任何信息傳輸介質(zhì)。
【權(quán)利要求】
1.一種在減輕所述語音信號(hào)之間的講話者沖突的同時(shí)混合語音信號(hào)的方法,所述方法包括: 接收具有公共時(shí)間基礎(chǔ)的兩個(gè)或更多個(gè)語音信號(hào)(il,i2, i3, i4); 檢測(cè)信號(hào)區(qū)間(U,L1, L2),在所述信號(hào)區(qū)間(Lci, L1, L2)中存在至少在所述語音信號(hào)的第一語音信號(hào)(il)與第二語音信號(hào)(i2)之間的講話者沖突; 在肯定的檢測(cè)結(jié)果的情況下,以使得所述語音信號(hào)的第一語音信號(hào)在感知上可辨識(shí)為目的,對(duì)所述第一語音信號(hào)進(jìn)行處理;以及 根據(jù)所述公共時(shí)間基礎(chǔ)將至少一個(gè)經(jīng)處理的語音信號(hào)與剩余語音信號(hào)進(jìn)行混合,以獲得輸出信號(hào)(ol)。
2.根據(jù)權(quán)利要求1所述的方法,其中所述處理包括:關(guān)于所述公共時(shí)間基礎(chǔ)對(duì)所述第一語音信號(hào)的所檢測(cè)的信號(hào)區(qū)間的信號(hào)內(nèi)容進(jìn)行時(shí)移。
3.根據(jù)權(quán)利要求2所述的方法,其中所述時(shí)移包括:將關(guān)于所述公共時(shí)間基礎(chǔ)的一系列正時(shí)間拉伸和負(fù)時(shí)間拉伸應(yīng)用于所述第一語音信號(hào)。
4.根據(jù)權(quán)利要求2所述的方法,其中所述時(shí)移包括:衰減所檢測(cè)的信號(hào)區(qū)間的信號(hào)內(nèi)容,并且將所檢測(cè)的信號(hào)區(qū)間的信號(hào)內(nèi)容復(fù)制到鄰近的信號(hào)區(qū)間(U'L/ )。
5.根據(jù)權(quán)利要求1所述的方法,其中所述處理包括:對(duì)所檢測(cè)的信號(hào)的信號(hào)內(nèi)容進(jìn)行頻移。
6.根據(jù)權(quán)利要求5所述的方法,其中所述頻移包括:逐漸開始和/或逐漸釋放。
7.根據(jù)權(quán)利要求2至6中任一項(xiàng)所述的方法,其中所述處理僅影響所檢測(cè)的信號(hào)區(qū)間中的信號(hào)內(nèi)容的頻率子范圍。
8.根據(jù)權(quán)利要求2至7中任一項(xiàng)所述的方法,在移動(dòng)之前還包括: 將所述第一語音信號(hào)的一部分分割成音素;以及 對(duì)所檢測(cè)的信號(hào)區(qū)間進(jìn)行調(diào)整以僅覆蓋全部音素。
9.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述對(duì)講話者沖突的檢測(cè)包括: 得出每個(gè)所述語音信號(hào)的頻率可變能量含量指示;以及 基于所述能量含量指示應(yīng)用檢測(cè)條件,所述檢測(cè)條件包括:在講話者沖突位置處在所述第一語音信號(hào)和所述第二語音信號(hào)中具有相當(dāng)?shù)哪芰亢?,所述講話者沖突位置是信號(hào)區(qū)間中的頻率子范圍。
10.根據(jù)權(quán)利要求9所述的方法,其中所述檢測(cè)條件還包括:在所述講話者沖突位置處在所述第一語音信號(hào)和所述第二語音信號(hào)兩者中具有預(yù)定閾值以上的能量含量。
11.根據(jù)權(quán)利要求9或10所述的方法,其中所述語音信號(hào)被分割成時(shí)間頻率片,每個(gè)時(shí)間頻率片與所述能量含量指示的值相關(guān)聯(lián),并且每個(gè)時(shí)間頻率片是基本檢測(cè)單元。
12.根據(jù)權(quán)利要求9至11中任一項(xiàng)所述的方法,還包括:選擇在所檢測(cè)的信號(hào)區(qū)間中具有最小能量含量的語音信號(hào)作為所述第一信號(hào), 其中所述處理包括:對(duì)所檢測(cè)的信號(hào)區(qū)間的信號(hào)內(nèi)容進(jìn)行時(shí)移或頻移,并且所述處理影響所述第一信號(hào)。
13.根據(jù)權(quán)利要求9至12中任一項(xiàng)所述的方法,其中: 所述檢測(cè)還包括:尋找至少一個(gè)目標(biāo)位置,所述至少一個(gè)目標(biāo)位置是頻率子范圍與信號(hào)區(qū)間的組合,所述目標(biāo)位置靠近所述講話者沖突位置,并且在所述目標(biāo)位置中所述檢測(cè)條件未?兩足;并且 所述處理包括:將所述第一信號(hào)的信號(hào)內(nèi)容時(shí)移或頻移至所述目標(biāo)位置。
14.根據(jù)權(quán)利要求13所述的方法,其中: 所述檢測(cè)還包括:尋找至少兩個(gè)目標(biāo)位置,并且針對(duì)每個(gè)目標(biāo)位置得出度量,所述度量表示關(guān)于所述講話者沖突位置的移動(dòng)距離;并且 所述處理包括:將所述第一信號(hào)的信號(hào)內(nèi)容時(shí)移或頻移至所述度量最小的目標(biāo)位置。
15.根據(jù)權(quán)利要求14所述的方法,其中: 第一目標(biāo)位置與純的正時(shí)移或純的頻移相對(duì)應(yīng),并且第二目標(biāo)位置與純的負(fù)時(shí)移或純的頻移相對(duì)應(yīng);并且 選擇移動(dòng)量最小的目標(biāo)位置。
16.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,還包括通過應(yīng)用包括以下效果的組中的效果來處理所述語音信號(hào)的嚴(yán)格子集: 諧波激勵(lì); 振蕩效果;
Vr.辰曰; 顫音; 合唱; 鑲邊;以及 移相。
17.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,所述方法在現(xiàn)場(chǎng)會(huì)議系統(tǒng)(200)中實(shí)現(xiàn)。
18.一種計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)用于執(zhí)行前述權(quán)利要求中任一項(xiàng)所述的方法的計(jì)算機(jī)可讀指令。
19.一種用于混合語音信號(hào)的裝置(100),包括: 接口(101),用于接收具有公共時(shí)間基礎(chǔ)的一個(gè)或更多個(gè)語音信號(hào)(il,i2,i3,i4);沖突檢測(cè)器(102),用于檢測(cè)信號(hào)區(qū)間,在所述信號(hào)區(qū)間中至少在所述語音信號(hào)的第一語音信號(hào)與第二語音信號(hào)之間存在講話者沖突; 處理器(103),用于接收來自所述沖突檢測(cè)器的檢測(cè)結(jié)果,并且響應(yīng)于肯定的檢測(cè)結(jié)果,以使得所述語音信號(hào)的至少一個(gè)語音信號(hào)在感知上可辨識(shí)為目標(biāo),對(duì)所述至少一個(gè)語音信號(hào)進(jìn)行處理;以及 混合器(104),用于關(guān)于所述公共時(shí)間基礎(chǔ)對(duì)至少一個(gè)所處理的語音信號(hào)和剩余的語音信號(hào)進(jìn)行解析,并且相應(yīng)混合這些信號(hào),以提供輸出信號(hào)(ol)。
【文檔編號(hào)】G10L21/003GK104205212SQ201380015383
【公開日】2014年12月10日 申請(qǐng)日期:2013年3月21日 優(yōu)先權(quán)日:2012年3月23日
【發(fā)明者】加里·施皮特勒, 邁克爾·奧利耶 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司