用于檢測語音的系統(tǒng)、設(shè)備和方法
【專利摘要】一種移動通信系統(tǒng),包括:(a)設(shè)置有觸摸屏的移動通信設(shè)備;以及(b)語音活動分析器,適于從所述觸摸屏接收指示施加到所述觸摸屏的區(qū)域的壓力和所述壓力隨著時間的變化的數(shù)據(jù)。
【專利說明】用于檢測語音的系統(tǒng)、設(shè)備和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及與諸如蜂窩電話之類的通信設(shè)備相關(guān)聯(lián)的觸摸屏的新穎用途,并且涉及為這種用途而設(shè)計的通信設(shè)備。本發(fā)明還涉及通過檢測語音的發(fā)生來操作移動通信設(shè)備。
【背景技術(shù)】
[0002]移動通信設(shè)備在最近十年中已有了實質(zhì)性的發(fā)展,并且這種發(fā)展在許多情況下已經(jīng)導(dǎo)致了諸如PDA之類的便攜式計算機與諸如蜂窩或無繩電話之類的電話設(shè)備之間的區(qū)別的消除。用戶能夠通過具備VoIP或蜂窩能力的PDA進行通信,幾乎就像他們利用蜂窩電話或無繩電話所做的那樣。諸如iPhone和Galaxy之類的產(chǎn)品已完全模糊了在不同類型的設(shè)備之間進行區(qū)分的界線。為了簡單起見,在接下來的描述中在許多情況下將會提到“電話”,應(yīng)當(dāng)理解該術(shù)語涵蓋了所有可能的通信設(shè)備,包括以上提及的那些。
[0003]電話的廣泛使用已使得電話成為了在不同環(huán)境中、在非常不同的條件下以及在用戶從事各種活動時使用的設(shè)備。例如,同一電話可一度在安靜的房間中使用,或者在聚會時的嘈雜環(huán)境中使用,或者在戶外的有風(fēng)條件下使用。另外,電話在用戶從事其他活動并且只有一只空閑的手或者可能沒有空閑的手來執(zhí)行額外的活動(例如按壓電話上的實際按鈕或虛擬按鈕)時被使用。
[0004]一個特別有挑戰(zhàn)性的領(lǐng)域涉及識別用戶的語音活動,這既是為了改善通信的質(zhì)量,尤其是在嘈雜環(huán)境中,又是為了執(zhí)行任何其他以用戶的語音為條件的活動。
[0005]因此,對于檢測通信設(shè)備中與用戶的語音相關(guān)的參數(shù)的方法和裝置存在需求,這些參數(shù)可用來在通信設(shè)備內(nèi)執(zhí)行其它處理。
[0006]本發(fā)明的一個目的是提供一種簡單且相對不昂貴的方式來利用設(shè)置在通信設(shè)備中的觸摸屏,以檢測與通信設(shè)備的用戶的語音相關(guān)聯(lián)的參數(shù)。
[0007]本發(fā)明的另一個目的是提供一種能夠檢測與用戶的語音相關(guān)聯(lián)的參數(shù)的通信設(shè)備。
[0008]本發(fā)明的其他目的和優(yōu)點將隨著描述進行而變得清楚。
【發(fā)明內(nèi)容】
[0009]本發(fā)明的移動通信系統(tǒng)包括:
[0010]a)設(shè)置有觸摸屏的移動通信設(shè)備;以及
[0011]b)語音活動分析器,適于從所述觸摸屏接收指示施加到所述觸摸屏的區(qū)域的壓力和所述壓力隨著時間的變化的數(shù)據(jù)。
[0012]根據(jù)本發(fā)明的一個實施例,語音活動分析器包括:
[0013]A)群集處理器,用于識別群集;
[0014]B)特征提取器,用于從由所述群集處理器識別的群集中提取參數(shù);
[0015]C)特征分析器,分析所述參數(shù);以及[0016]D)語音活動判決裝置元件,適于處理所述參數(shù)以判定用戶是否在講話。
[0017]在本發(fā)明的一個實施例中,語音活動分析器與移動通信設(shè)備是一體的,而根據(jù)本發(fā)明的另一實施例,語音活動分析器位于遠(yuǎn)離移動通信設(shè)備處并且與移動通信設(shè)備通信。語音活動分析器與移動通信設(shè)備之間的通信可以以任何適當(dāng)?shù)姆绞絹韴?zhí)行,并且一般,但不限于,經(jīng)由W1-Fi或藍牙、或者通過任何有線或無線手段來執(zhí)行。
[0018]根據(jù)本發(fā)明的移動通信設(shè)備可以是不同類型的,例如蜂窩電話、無繩電話、PDA等。
[0019]本發(fā)明還涉及一種用于判定配備有觸摸屏的移動通信設(shè)備的用戶是否正在對所述移動通信設(shè)備講話的方法,包括:
[0020](i)從觸摸屏獲得表示由所述觸摸屏與用戶的臉頰之間的接觸產(chǎn)生的網(wǎng)格點的群集的信號;
[0021](ii)分析所述群集的壓力相關(guān)參數(shù)隨著時間的動態(tài)變化;以及
[0022](iii)根據(jù)所述分析判定是否存在語音活動。
[0023]如接下來的描述中將進一步說明的,群集包括像素或像素群組,這些像素或像素群組能夠由這些像素或像素群組在所述觸摸屏上的坐標(biāo)來區(qū)分。可從用戶的臉頰與觸摸屏之間的接觸得出的參數(shù)可以是不同種類的,并且例如是從重心、周長、面積和取向中選擇的,或者是所述參數(shù)中的兩種或更多種的組合。
[0024]本發(fā)明還涵蓋了利用設(shè)置在移動通信設(shè)備中的傳感器來獲得關(guān)于設(shè)備是否被拿到了用戶的耳朵附近的指示的設(shè)備和方法。
【專利附圖】
【附圖說明】
[0025]在附圖中:
[0026]-圖1示意性示出與本發(fā)明相關(guān)的典型情形:
[0027]圖1A示出用戶具有配備有觸摸屏的移動電話,該移動電話被定位為靠著用戶的臉頰。
[0028]圖1B示出示例性的移動電話的正視圖。
[0029]-圖2示意性示出觸摸屏的2維網(wǎng)格表示;
[0030]-圖3示出根據(jù)本發(fā)明的實施例構(gòu)造并操作的適于語音活動檢測(SpeechActivity Detection, SAD)的示例性觸摸屏的元件;
[0031]-圖4示意性示出SAD分析系統(tǒng);以及
[0032]-圖5示出對從觸摸屏獲得的數(shù)據(jù)的分析:
[0033]圖5A是由特征分析器執(zhí)行的時間分析處理的流程圖;
[0034]圖5B示出由特征提取器提取的參數(shù)的輸入。
【具體實施方式】
[0035]在以下詳細(xì)描述中,闡述了許多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。然而,本領(lǐng)域技術(shù)人員將會理解,沒有這些具體細(xì)節(jié)也可實現(xiàn)本發(fā)明。在其他情況下,沒有詳細(xì)描述公知的方法、過程和部件,以便不模糊本發(fā)明。
[0036]當(dāng)一個人利用觸摸屏移動電話講話時,他一般將電話握在他的耳邊,并且通常,電話面板的一部分接觸其臉頰。 申請人:出人意料地發(fā)現(xiàn),可以對由用戶臉頰在電話的觸摸屏上產(chǎn)生的壓力所生成的信號進行分析,以提取可用于從功能上操作電話的參數(shù)。在用戶講話時,由臉頰在觸摸屏上產(chǎn)生的作為語音活動結(jié)果的壓力在量值和位置上都發(fā)生變化。在最簡單的情況下,可從這種壓力得出的參數(shù)可用來判定用戶是否正在講話,并且在更復(fù)雜的情況下,這些參數(shù)提供了關(guān)于講話模式的有價值的信息,例如用戶是正在緩慢地還是快速地講話,響度,等等。從而,根據(jù)本發(fā)明的實施例,觸摸屏可用于語音活動檢測(SAD)。
[0037]現(xiàn)在參考圖1A,圖1A示出用戶10具有配備有觸摸屏的移動電話20,該移動電話20被定位為靠著臉頰30。還參考圖1B,圖1B示出示例性的移動電話20的正視圖,其中示出了被觸摸屏40占據(jù)的表面區(qū)域。對本領(lǐng)域技術(shù)人員來說將會清楚的是,雖然任何商業(yè)尺寸的觸摸屏在觸摸屏與講話人的臉頰接觸時都會生成信號,但希望采用更大尺寸的觸摸屏,例如iPhone4的觸摸屏,雖然本發(fā)明并不限于任何特定的尺寸,并且只要該尺寸足以生成可辨別的信號,本發(fā)明就可被利用。
[0038]將會明白,當(dāng)用戶10講話時,臉頰30可與觸摸屏40接觸并且可對觸摸屏40施加壓力。實際上,這對大多數(shù)用戶來說都是自然的定位。在用戶10用移動電話20講話所花費的整個時間期間,靠著觸摸屏40的臉頰30的壓力和位置可動態(tài)變化,并且在任何一個時亥IJ,臉頰30的不同部分可與屏幕40的不同區(qū)域接觸。在交談期間也可存在用戶10不講話的時段,因此臉頰30可能靜止地靠著屏幕40。
[0039]現(xiàn)在參考圖2,圖2示出屏幕40的2維網(wǎng)格表示。屏幕40上的單個網(wǎng)格元素41(可以是單個像素,或者取決于像素的大小可以是由多個像素構(gòu)成的網(wǎng)格元素)可以用“i”和“j”坐標(biāo)來表示。群集50、60和70示意性地表示在電話交談期間的某個時刻與屏幕40接觸的臉頰30的區(qū)域的快照。術(shù)語“群集”在這里用來指示在同一時間點被施加壓力的多個相鄰網(wǎng)格元素。每個單獨的群集可包含多于一個像素,覆蓋屏幕40的不同表面區(qū)域,并且可檢測對屏幕40施加的不同壓力。還將明白,對任何群集的形狀、動態(tài)變化和取向的分析可提供可用于分析的不同參數(shù),這將在下文中更詳細(xì)地描述。以上使用的術(shù)語“動態(tài)變化”指的是可在給定的時間間隔期間在特定群集中發(fā)生的壓力的變化,這也可導(dǎo)致群集的形狀的變化。
[0040]現(xiàn)在參考圖3,圖3示出根據(jù)本發(fā)明的實施例構(gòu)造并操作的示例性觸摸屏SAD100的元件。系統(tǒng)100包括觸摸屏40、觸摸屏控制器110和應(yīng)用處理器120。應(yīng)用處理器120包括語音活動分析器130。觸摸屏40受控制器110的控制,控制器110進而又向處理器120提供關(guān)于臉頰20對屏幕40施加的壓力的信息。然后,處理器120解釋在任意時刻η在屏幕40上的每個網(wǎng)格元素(i,j)處的壓力P。隨后,P(i,j,n)(在時刻η在點(i,j)處的壓力)經(jīng)由處理器120被提供給語音活動分析器130。對本領(lǐng)域技術(shù)人員來說將會清楚的是,壓力的采樣率當(dāng)然將根據(jù)以下各項而有所不同:所采用的觸摸屏的類型,必須由與語音相關(guān)的參數(shù)啟動或控制的處理的類型,以及具體應(yīng)用所要求的精度水平。一個象征性的采樣率是在每網(wǎng)格元素50-100HZ的范圍中,但取決于預(yù)期的用途當(dāng)然可以使用許多不同的采樣率,并且本領(lǐng)域技術(shù)人員將在每種情況下決定所希望采用的采樣率。本發(fā)明不限于任何特定的采樣率。
[0041]將會明白,對于一些應(yīng)用,知道在時刻k每語音頻率f的語音活動可能是有用的。因此,來自語音活動分析器130的輸出可被表示為PSAD(k,f)。還將會明白,PSAD(k,f)可以被提供為O或I的二進制信號(語音活動=0,沒有語音=1)、或者O到I之間的任何值。該值指示在時刻k在頻率f將會檢測到語音活動的概率。
[0042]不同的方法可用于分析語音活動,并且將參考圖4來圖示一個這樣的方法和系統(tǒng),圖4示意性示出用于分析語音活動的SAD分析系統(tǒng)200。SAD分析系統(tǒng)200可以是語音活動分析器130的一部分,或者可單獨提供,并且在此例示性示例中,SAD分析系統(tǒng)200包括群集處理器210、特征提取器220、特征分析器230和SAD判決裝置240。
[0043]根據(jù)該說明性示例,群集處理器210從觸摸屏控制器40 (圖3)接收P(i,j, η),并且如果用戶正在講話,則識別諸如群集40、50和60的群集的存在。群集處理器210可實現(xiàn)用于二維分割和聚類的任何標(biāo)準(zhǔn)分割聚類算法,作為示例,參見http://en.wikipedia.0rg/wiki/Segmentation_(image_processing)。
[0044]將會明白,針對每個群集可分析形狀、取向和其他特征。特征提取器220可針對每個群集提取不同參數(shù)并且將此信息傳遞給特征分析器230,特征分析器230隨后分析每個參數(shù)的時間特性。特征提取器220要提取的示例性參數(shù)例如包括群集的重心(CoG)、群集的周長、群集的面積以及群集的取向等。
[0045]現(xiàn)在參考圖5A,圖5A是根據(jù)具體示例由特征分析器230 (圖4)對由特征提取器220 (參見圖5B)提取的參數(shù)執(zhí)行的時間分析處理的流程圖。在時刻η提取的參數(shù)的計算值通過帶通濾波器300,以確保只有預(yù)定范圍內(nèi)的參數(shù)被接受。這是要確保不正確的讀數(shù)不被考慮。例如,如果用戶10在沒有講話的時間段期間嚼口香糖,則在觸摸屏40上可能仍會檢測到某種運動。然而,咀嚼通常是低頻率的,從而P(i,j,n)的頻率讀數(shù)可能落在預(yù)定閾值以下,因此在計算中可不被考慮。圖5A示出根據(jù)此具體示例對離開帶通濾波器300的數(shù)據(jù)流301進行的處理。所提取的參數(shù)301根據(jù)參數(shù)301在所選時間段上的變化而被給予得分。例如,特定群集的重心可被監(jiān)視以查看該重心是否隨著時間而不斷地變化。這是因為,如果用戶10在握住屏幕40靠著他的臉頰的同時沒有說話,則雖然屏幕40仍可檢測到壓力,但特定群集的重心可能不會顯著地變化。針對重心參數(shù),并且類似的針對諸如面積和取向之類的其他參數(shù)可計算得分320。然后可計算所有參數(shù)的最終平均得分330,該最終平均得分330被饋送到SAD分析器240中。SAD分析器240隨后做出關(guān)于是否有聲音活動的最終判決。
[0046]將會明白,本發(fā)明的觸摸屏SAD100可以在移動電話20的應(yīng)用處理器中實現(xiàn),或者在任何專用硬件或通用處理器上實現(xiàn)。例如,通過臉頰在觸摸屏上的壓力獲取的數(shù)據(jù)例如可經(jīng)由W1-Fi或藍牙被傳送到遠(yuǎn)方的處理器,該處理器將會執(zhí)行分析并做出判決,并且可將此分析的結(jié)果經(jīng)由相同通道或不同通道反饋給電話20。
[0047]將會明白,如果用戶10在嘈雜環(huán)境中用移動電話20講話,則移動電話的麥克風(fēng)可拾取與周圍環(huán)境噪聲相結(jié)合的語音信號。如果沒有噪聲消除技術(shù)在工作,則即使在用戶10沒有講話時,交談另一端的人也會聽到噪聲。存在許多本領(lǐng)域已知的技術(shù)用于噪聲消除或噪聲抑制,并且許多移動電話和耳機使用各種技術(shù)來減輕背景環(huán)境噪聲的影響。這些技術(shù)中的大多數(shù)要想成功,則知道用戶是否正在講話是重要的。在環(huán)境噪聲較高的情況下,大多數(shù)SAD算法無法提供這方面的可靠判決。
[0048]然而,將會明白,觸摸屏SAD100 —般對于環(huán)境噪聲是不敏感的,因為觸摸屏SAD100只檢測屏幕上的運動和壓力。還將會明白,使用如上所述的觸摸屏SAD100,結(jié)合任何適當(dāng)?shù)囊蕾囉陉P(guān)于用戶是否正在講話的信息的噪聲消除技術(shù),則即使在非常嘈雜的環(huán)境中也可得到高質(zhì)量的語音呼叫。
[0049]還將明白,移動電話使用語音壓縮算法對經(jīng)由移動信道發(fā)送的語音進行壓縮。當(dāng)今使用的更流行的算法之一是自適應(yīng)多速率(AMR—例如參見http://en.wikipedia.0rg/wiki/Adaptive_Mult1-Rate_audio_codec)0此算法也可充當(dāng)靜默檢測器,該檢測器可通過分析語音信號來檢測用戶是否正在講話。當(dāng)用戶沒有說話時,發(fā)送更少的比特,這對于移動電話運營者來說是非常合乎需要的特征,因為這增大了移動電話信道的容量。然而,在嘈雜環(huán)境中,該算法無法區(qū)分語音信號和噪聲信號,靜默檢測器無效,并且發(fā)送的比特的數(shù)目將會較高。將會明白,觸摸屏SAD100即使在嘈雜環(huán)境中也可提供可靠的靜默檢測器,這可大幅提聞經(jīng)由移動/[目道的傳送效率。
[0050]還將明白,在移動電話的使用期間發(fā)射的輻射量可能是一些用戶所關(guān)心的。在本發(fā)明的替換實施例中,觸摸屏SAD100可用于通過判定是否存在P(i,j,n)讀數(shù)來判定用戶10何時讓移動電話20接觸了臉部。如果存在讀數(shù),則根據(jù)此替換實施例,語音活動分析器130通知處理器120 (圖3)。處理器120隨后指示移動電話20的中央處理單元(CPU)降低發(fā)送功率。以相同的方式,處理器120可指示CPU降低CPU功率以便節(jié)省電池使用,因為當(dāng)移動電話200未在發(fā)送時可要求更少的電力。將會明白,觸摸電話SAD100可用作指示器、用作靜默檢測器并且用作減少移動電話發(fā)射和節(jié)省電力的工具。
[0051]本發(fā)明可連同額外的手段一起用在一些情況中。例如,現(xiàn)代通信設(shè)備配備有諸如加速度計的傳感器,適于判定設(shè)備何時被拿到用戶的耳邊,以例如使屏幕上的觸摸命令無效,以便用戶不會無意地用臉頰激活這些觸摸命令。將這種信息與來自觸摸屏的輸入(臉頰交互)相結(jié)合也在本發(fā)明的范圍內(nèi)。
[0052]除非另有具體聲明,否則從以上論述可以清楚的是,要明白在整個說明書中,利用諸如“處理”、“計算”、“運算”、“判定”等術(shù)語的論述指的是計算機、計算系統(tǒng)或類似的電子計算設(shè)備的動作和/或處理,其將被表示為計算系統(tǒng)的寄存器和/或存儲器內(nèi)的物理量(例如電子量)的數(shù)據(jù)操縱和/或變換成被類似地表示為計算系統(tǒng)的存儲器、寄存器或其他這樣的信息存儲設(shè)備、傳送設(shè)備或顯示設(shè)備內(nèi)的物理量的其他數(shù)據(jù)。
[0053]本發(fā)明的實施例可包括用于執(zhí)行這里的操作的裝置。此裝置可以是為期望的目的而專門構(gòu)造的,或者可包括由存儲在計算機中的計算機程序選擇性地激活或重配置的通用計算機。這種計算機程序可存儲在計算機可讀存儲介質(zhì)中,計算機可讀存儲介質(zhì)例如,但不限于,包括軟盤、光盤、磁光盤在內(nèi)的任何類型的盤、只讀存儲器(ROM)、緊湊盤只讀存儲器(⑶-ROM )、隨機訪問存儲器(RAM )、電可編程只讀存儲器(E P ROM )、電可擦除可編程只讀存儲器(EEPR0M)、磁卡或光卡、閃存、或者任何其他類型的適用于存儲電子指令并且能夠被耦合到計算機系統(tǒng)總線的介質(zhì)。
[0054]雖然這里已示出和描述了本發(fā)明的某些特征,但本領(lǐng)域普通技術(shù)人員將清楚許多修改、替換、變化和等同內(nèi)容。因此,要理解,所附權(quán)利要求旨在覆蓋所有屬于本發(fā)明的真實精神內(nèi)的修改和變化。
【權(quán)利要求】
1.一種移動通信系統(tǒng),包括: a)設(shè)置有觸摸屏的移動通信設(shè)備;以及 b)語音活動分析器,適于從所述觸摸屏接收指示施加到所述觸摸屏的區(qū)域的壓力和所述壓力隨著時間的變化的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述語音活動分析器包括: A)群集處理器,用于識別群集; B)特征提取器,用于從由所述群集處理器識別的群集中提取參數(shù); C)特征分析器,分析所述參數(shù);以及 D)語音活動判決裝置元件,適于處理所述參數(shù)以判定用戶是否在講話。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述語音活動分析器與所述移動通信設(shè)備是一體的。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述語音活動分析器位于遠(yuǎn)離所述移動通信設(shè)備處并且與所述移動通信設(shè)備通信。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述語音活動分析器與所述移動通信設(shè)備之間的通信是經(jīng)由W1-Fi或藍牙、或者通過任何有線或無線手段執(zhí)行的。
6.根據(jù)權(quán)利要求3或4所述的系統(tǒng),其中,所述移動通信設(shè)備是蜂窩電話。
7.根據(jù)權(quán)利要求3或4所述的系統(tǒng),其中,所述移動通信設(shè)備是無繩電話。`
8.一種用于判定配備有觸摸屏的移動通信設(shè)備的用戶是否正在對所述移動通信設(shè)備講話的方法,包括: (i)從所述觸摸屏獲得表示由所述觸摸屏與用戶的臉頰之間的接觸產(chǎn)生的網(wǎng)格點的群集的信號; (?)分析所述群集的壓力相關(guān)參數(shù)隨著時間的動態(tài)變化;以及 (iii)根據(jù)所述分析判定是否存在語音活動。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述群集包括像素或像素群組,這些像素或像素群組能夠由這些像素或像素群組在所述觸摸屏上的坐標(biāo)來區(qū)分。
10.根據(jù)權(quán)利要求8所述的方法,其中,所述參數(shù)是從重心、周長、面積和取向中選擇的,或者是所述參數(shù)中的兩種或更多種的組合。
11.根據(jù)權(quán)利要求8所述的方法,還包括:從設(shè)置在所述移動通信設(shè)備中的傳感器獲得關(guān)于所述設(shè)備是否被拿到了用戶的耳朵附近的指示。
【文檔編號】G10L15/02GK103650032SQ201280030692
【公開日】2014年3月19日 申請日期:2012年6月14日 優(yōu)先權(quán)日:2011年6月15日
【發(fā)明者】A·赫爾曼, U·耶胡黛 申請人:骨聲通信有限(以色列)有限公司