保護移動裝置中的音頻數(shù)據(jù)收集隱私的制作方法

文檔序號：2825659閱讀：267來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

保護移動裝置中的音頻數(shù)據(jù)收集隱私的制作方法
【專利摘要】本發(fā)明揭示用于在背景感知應(yīng)用程序使用音頻數(shù)據(jù)作出背景確定之前使用移動裝置的硬件和／或軟件來遮掩所述音頻數(shù)據(jù)中的語音的技術(shù)。明確地說，捕獲連續(xù)音頻流的子集，使得從所搜集的音頻無法可靠地重構(gòu)語音(詞語、短語和句子)。針對音頻特性分析所述子集，且可作出關(guān)于周圍環(huán)境的確定。
【專利說明】保護移動裝置中的音頻數(shù)據(jù)收集隱私
[0001]相關(guān)申請案的交叉引用
[0002]本申請案主張2011年5月23日申請的題為“保護移動裝置中的音頻數(shù)據(jù)收集隱私(PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES) ” 的第 61 /488,927號美國臨時專利申請案(代理人案號111174P1)的優(yōu)先權(quán)，所述申請案的全文出于所有目的特此以引用方式并入本文中。本申請案還主張2011年8月19日申請的題為“保護移動裝置中的音頻數(shù)據(jù)收集隱私(PRESERVING AUDIO DATA COLLECTION PRIVACY INMOBILE DEVICES) ”的第13 / 213，294號美國專利申請案(代理人案號111174)的優(yōu)先權(quán)，所述申請案的全文出于所有目的特此以引用方式并入本文中。
【技術(shù)領(lǐng)域】【背景技術(shù)】
[0003]移動裝置在當(dāng)今社會中極為普遍。舉例來說，人們使用蜂窩式電話、智能電話、個人數(shù)字助理、膝上型計算機、尋呼機、平板計算機等從無數(shù)的位置無線地發(fā)送和接收數(shù)據(jù)。此外，無線通信技術(shù)的進步已極大地增加了當(dāng)今移動裝置的多功能性，使得用戶能夠通過單個便攜式裝置執(zhí)行常規(guī)上需要多個裝置或較大的非便攜式設(shè)備的各種各樣的任務(wù)。
[0004]舉例來說，移動裝置可經(jīng)配置以通過稱作背景確定的過程來確定移動裝置用戶可能處于什么環(huán)境(例如，餐館、汽車、公園、機場等)中。執(zhí)行此些背景確定的背景感知應(yīng)用程序設(shè)法通過利用來自移動裝置的傳感器輸入(例如，GPS, WiFi和Blue Tooth? )的信息來確定移動裝置的環(huán)境。在許多情形中，對來自移動裝置的麥克風(fēng)的音頻進行分類在進行背景確定過程中是非常有價值的，但是收集可能包含語音的音頻的過程可能會引起隱私問題。

【發(fā)明內(nèi)容】

[0005]本文中揭示的技術(shù)用于在背景感知應(yīng)用程序使用音頻數(shù)據(jù)進行背景確定之前使用移動裝置的硬件和/或軟件來遮掩音頻數(shù)據(jù)中的語音。明確地說，捕獲連續(xù)音頻流的子集，使得從所搜集的音頻無法可靠地重構(gòu)語音(詞語、短語和句子)。針對音頻特性分析所述子集，且可作出關(guān)于周圍環(huán)境的確定。
[0006]在一些實施例中，提出一種隱私敏感音頻分析方法。所述方法可包含捕獲連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集。所述連續(xù)音頻流可能含有人類語音。音頻數(shù)據(jù)的所述子集可遮掩所述人類語音的內(nèi)容。所述方法可包含針對音頻特性分析音頻數(shù)據(jù)的所述子集。所述方法可包含至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
[0007]此種方法的實施例可包含以下各項中的一者或一者以上:音頻數(shù)據(jù)的所述子集可包括所述連續(xù)音頻流的計算函數(shù)，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。音頻數(shù)據(jù)的所述子集可包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。所述方法可包含至少部分基于所述音頻特性來作出人員身份的確定。所述多個音頻數(shù)據(jù)段可包括30ms到IOOms之間的所記錄音頻。所述連續(xù)音頻流的每一時間分量的長度可在250ms到2s之間。所述方法可包含在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。隨機地更改所述多個音頻數(shù)據(jù)段的次序可至少部分基于來自以下各項中的一者的信息:全球定位系統(tǒng)(GPS)裝置、來自移動裝置內(nèi)的電路的信號噪聲、來自麥克風(fēng)的信號噪聲，以及來自天線的信號噪聲。
[0008]在一些實施例中，提出一種用于遮掩隱私敏感音頻的裝置。所述裝置可包含麥克風(fēng)。所述裝置可包含通信地耦合到麥克風(fēng)的處理單元。所述處理單元可經(jīng)配置以從所述麥克風(fēng)捕獲以信號表示的連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集。所述連續(xù)音頻流可能含有人類語音。音頻數(shù)據(jù)的所述子集可遮掩所述人類語音的內(nèi)容。所述處理單元可經(jīng)配置以針對音頻特性分析音頻數(shù)據(jù)的所述子集。所述處理單元可經(jīng)配置以至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
[0009]此種裝置的實施例可包含以下各項中的一者或一者以上:音頻數(shù)據(jù)的所述子集可包括所述連續(xù)音頻流的計算函數(shù)，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。音頻數(shù)據(jù)的所述子集可包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。所述處理單元可經(jīng)配置以至少部分基于所述音頻特性來作出人員身份的確定。所述多個音頻數(shù)據(jù)段中的每一者可包括30ms到IOOms之間的所記錄音頻。所述連續(xù)音頻流的每一時間分量的長度可在250ms到2s之間。所述裝置，其中所述處理單元進一步經(jīng)配置以在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。隨機地更改所述多個音頻數(shù)據(jù)段的次序可至少部分基于來自以下各項中的一者的信息:全球定位系統(tǒng)(GPS)裝置、來自移動裝置內(nèi)的電路的信號噪聲、來自麥克風(fēng)的信號噪聲，以及來自天線的信號噪聲。
[0010]在一些實施例中，提出一種用于確定與移動裝置相關(guān)聯(lián)的環(huán)境的系統(tǒng)。所述系統(tǒng)可包含經(jīng)配置以接收連續(xù)音頻流的視頻傳感器。所述系統(tǒng)可包含耦合到所述音頻傳感器的至少一個處理單元。所述處理單元可經(jīng)配置以捕獲所述連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集，使得音頻數(shù)據(jù)的所述子集遮掩所述連續(xù)音頻流中包含的人類語音的內(nèi)容。所述處理單元可經(jīng)配置以針對音頻特性分析音頻數(shù)據(jù)的所述子集。所述處理單元可經(jīng)配置以至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
[0011]此種系統(tǒng)的實施例可包含以下各項中的一者或一者以上:所述系統(tǒng)可包含經(jīng)配置以經(jīng)由網(wǎng)絡(luò)將表示音頻數(shù)據(jù)的所述子集的信息發(fā)送到遠離所述移動裝置的位置的網(wǎng)絡(luò)接口。所述至少一個處理單元可經(jīng)配置以在遠離所述移動裝置的所述位置處作出周圍環(huán)境的確定。音頻數(shù)據(jù)的所述子集可包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。所述至少一個處理單元可經(jīng)配置以至少部分基于所述音頻特性來作出人員身份的確定。所述多個音頻數(shù)據(jù)段中的每一者可包括30ms到IOOms之間的所記錄音頻。所述連續(xù)音頻流的每一時間分量的長度可在250ms到2s之間。所述處理單元可進一步經(jīng)配置以在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。
[0012]在一些實施例中，提出一種駐存在非暫時性處理器可讀媒體上的計算機程序產(chǎn)品。所述非暫時性處理器可讀媒體包含經(jīng)配置以致使處理器捕獲連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集的處理器可讀指令。所述連續(xù)音頻流可能含有人類語音。音頻數(shù)據(jù)的所述子集可遮掩所述人類語音的內(nèi)容。所述處理器可讀指令可經(jīng)配置以致使所述處理器針對音頻特性分析音頻數(shù)據(jù)的所述子集。所述處理器可讀指令可經(jīng)配置以致使所述處理器至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
[0013]此種計算機程序產(chǎn)品的實施例可包含以下各項中的一者或一者以上:音頻數(shù)據(jù)的所述子集可包括所述連續(xù)音頻流的計算函數(shù)，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。音頻數(shù)據(jù)的所述子集可包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。所述處理器可讀指令可經(jīng)配置以致使所述處理器至少部分基于所述音頻特性來作出人員身份的確定。所述多個音頻數(shù)據(jù)段中的每一者可包括30ms到IOOms之間的所記錄音頻。所述連續(xù)音頻流的每一時間分量的長度可在250ms到2s之間。所述處理器可讀指令可經(jīng)配置以在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。用于隨機地更改所述多個音頻數(shù)據(jù)段的次序的處理器可讀指令是至少部分基于來自以下各項中的一者的信息:全球定位系統(tǒng)(GPS)裝置、來自移動裝置內(nèi)的電路的信號噪聲、來自麥克風(fēng)的信號噪聲，以及來自天線的信號噪聲。
[0014]在一些實施例中，提出一種用于遮掩隱私敏感音頻的裝置。所述裝置可包含用于從麥克風(fēng)捕獲以信號表示的連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集的裝置。所述連續(xù)音頻流可能含有人類語音。音頻數(shù)據(jù)的所述子集可遮掩所述人類語音的內(nèi)容。所述裝置可包含用于針對音頻特性分析音頻數(shù)據(jù)的所述子集的裝置。所述裝置可包含用于至少部分基于所述音頻特性來確定周圍環(huán)境的裝置。
[0015]此種裝置的實施例可包含以下各項中的一者或一者以上:所述用于捕獲音頻數(shù)據(jù)的所述子集的裝置可經(jīng)配置以根據(jù)所述連續(xù)音頻流的計算函數(shù)來捕獲音頻數(shù)據(jù)的所述子集，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。所述用于捕獲音頻數(shù)據(jù)的所述子集的裝置可經(jīng)配置以捕獲音頻數(shù)據(jù)的所述子集，使得音頻數(shù)據(jù)的所述子集包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。所述用于確定周圍環(huán)境的裝置可經(jīng)配置以至少部分基于所述音頻特性來作出人員身份的確定。所述用于捕獲音頻數(shù)據(jù)的所述子集的裝置可經(jīng)配置以捕獲音頻數(shù)據(jù)的所述子集，使得所述多個音頻數(shù)據(jù)段中的每一者包括30ms到IOOms之間的所記錄音頻。
[0016]本文中描述的項目和/或技術(shù)可提供以下能力中的一者或一者以上，以及未提及的其它能力。遮掩可能包含在用于背景確定的音頻流中的語音的內(nèi)容，同時對背景確定的準確性具有很少影響或沒有影響。利用可使用最少處理資源實時執(zhí)行的相對簡單的方法。包含上載音頻數(shù)據(jù)的子集(具有被遮掩的語音)以幫助改善背景確定中使用的模型的準確性的能力。雖然已描述了至少一個項目/技術(shù)效果對，但是可以通過除所述之外的裝置實現(xiàn)所述的效果，且所述的項目/技術(shù)可不一定得到所述的效果。
【專利附圖】

【附圖說明】
[0017]通過參考以下諸圖，可促進理解各種實施例的性質(zhì)和優(yōu)點。在附圖中，類似組件或特征可具有相同的參考標(biāo)號。另外，同一類型的各組件可通過在參考標(biāo)號之后附上破折號以及對類似組件進行區(qū)分的第二標(biāo)號來進行區(qū)分。如果說明書中僅使用第一參考標(biāo)號，那么所述描述適用于具有相同的第一參考標(biāo)號的類似組件中的任一者，而不管第二參考標(biāo)號如何。
[0018]圖1是根據(jù)一個實施例的經(jīng)配置以支持背景感知應(yīng)用程序的移動裝置的基本組件的簡化框圖。
[0019]圖2a到2c是用于在沒有性能降級的情況下捕獲足夠的音頻信息來對移動裝置的周圍環(huán)境進行分類同時幫助確保語音隱私的過程的視覺化。
[0020]圖3a和3b是用于提供圖2b和2c中所示的功能性的方法的流程圖。
[0021]圖4是說明計算語音辨識器從由本文所述的某些處理方法產(chǎn)生的音頻數(shù)據(jù)重構(gòu)詞語的η元語法的概率的上限的分析的結(jié)果的圖表。
【具體實施方式】
[0022]參考圖式提供以下描述，其中相同的參考標(biāo)號通篇用以指代相同的元件。雖然本文中描述了一種或一種以上技術(shù)的各種細節(jié)，但是其它技術(shù)也是可能的。在一些情況中，以框圖形式展示眾所周知的結(jié)構(gòu)和裝置，以便促進描述各種技術(shù)。
[0023]可用背景感知應(yīng)用程序來啟用移動裝置，例如個人數(shù)字助理(PDA)、移動電話、平板計算機以及其它個人電子裝置。這些背景感知應(yīng)用程序可確定(例如)移動裝置的用戶身處何處以及用戶可能正在做何事，以及其它。此些背景確定可有助于使得移動裝置能夠向用戶提供額外功能性，例如在確定用戶在車上之后進入汽車模式，或在確定用戶已進入電影院之后進入靜寂模式。
[0024]本文中描述用于保護可能在用于移動裝置的背景確定的音頻中捕獲到的語音中的隱私的技術(shù)。更明確地說，可從可能含有語音的連續(xù)音頻流捕獲音頻數(shù)據(jù)的子集，借此取樣的性質(zhì)遮掩了所述連續(xù)音頻流中可能含有的任何語音。然而，取樣的性質(zhì)還保留了連續(xù)音頻流的某些音頻特性，使得背景確定(例如，關(guān)于移動裝置的特定周圍環(huán)境的確定)的準確性降低很少或不降低。在下文更詳細地描述這些和其它技術(shù)。
[0025]圖1是說明根據(jù)一個實施例的可實現(xiàn)背景感知的移動裝置100的某些組件的簡化框圖。此圖是實例且并非限制性的。舉例來說，移動裝置100可包含為了簡單起見而從圖1省略的額外組件(例如，用戶接口、天線、顯示器等)。另外，取決于移動裝置100的功能性，可將所示組件組合、分離或省略。
[0026]在此實施例中，移動裝置100包含移動網(wǎng)絡(luò)接口 120。此類接口可包含用于與移動運營商通信的硬件、軟件，和/或固件。移動網(wǎng)絡(luò)接口 120可利用高速分組接入(HSPA)JI強型HSPA(HSPA+)、3GPP長期演進(LTE)，和/或移動通信的其它標(biāo)準。移動網(wǎng)絡(luò)接口 120還可提供在背景感知應(yīng)用程序中可為有用的某些信息，例如位置數(shù)據(jù)。
[0027]另外，移動裝置100可包含其它無線接口 170。此些接口可包含IEEE802.11(1丨？丨)、13111(:〖00〖11@,和/或其它無線技術(shù)。這些無線接口 170可向移動裝置100提供可用在背景確定中的信息。舉例來說，無線接口 170可通過確定無線接口 170中的一者或一者以上連接到的無線網(wǎng)絡(luò)的大致位置來提供關(guān)于位置的信息。另外或替代地，無線接口 170可使得移動裝置100能夠與其它裝置(例如，無線耳機和/或麥克風(fēng))通信，所述其它裝置可提供在確定移動裝置100的背景的過程中有用的信息。
[0028]移動裝置100還可包含全球定位系統(tǒng)(GPS)單元160、加速度計130，和/或其它傳感器150。這些額外特征可提供例如位置、定向、移動、溫度、接近度等信息。與無線接口170 一樣，來自這些組件的信息可幫助背景感知應(yīng)用程序作出關(guān)于移動裝置100的背景的背景確定。
[0029]移動裝置100另外可包含分析/確定模塊110。分析/確定模塊110尤其可從其通信地耦合到的各種組件接收傳感器信息。分析/確定模塊110還可執(zhí)行存儲于存儲器180上的軟件(包含背景感知應(yīng)用程序)，所述存儲器可與分析/確定模塊110分離和/或集成到分析/確定模塊110中。此外，分析/確定模塊110可包括一個或多個處理裝置，包含中央處理單元(CPU)、微處理器、數(shù)字信號處理器(DSP)，和/或尤其具有能夠分析音頻數(shù)據(jù)并基于所述分析作出確定的裝置的組件。
[0030]雖然來自無線接口 170、GPS單元160、加速度計130和/或其它傳感器150的信息可在用戶處于戶外、接近可識別的WiFi或藍牙接入點、步行等等時極大地輔助確定位置，但是這些組件具有其局限性。在許多情形中，它們不大可用于確定環(huán)境和處境。舉例來說，來自這些組件的信息不大可用于區(qū)分用戶是在開會還是在他們的辦公室里，或者用戶是在食品雜貨店還是在其緊鄰的健身房里。在這些情形和其它情形中，來自移動裝置100的音頻捕獲模塊140 (例如，麥克風(fēng)和/或其它音頻捕獲裝置)的信息可提供非常有價值的音頻數(shù)據(jù)，所述音頻數(shù)據(jù)可用以幫助對環(huán)境進行分類，以及確定是否存在語音、是否存在多個講話者、講話者的身份等等。
[0031]移動裝置100捕獲音頻數(shù)據(jù)以用于背景確定的過程可包含將音頻數(shù)據(jù)臨時和/或永久地存儲到電話的存儲器180。然而，捕獲包含可理解的語音的音頻數(shù)據(jù)可引起隱私問題。實際上，如果移動裝置100未經(jīng)同意便捕獲來自移動裝置100的用戶或另一人的語音，那么可能會牽涉到聯(lián)邦、州和/或當(dāng)?shù)胤?。通過在捕獲音頻數(shù)據(jù)之前使用移動裝置100的硬件和/或軟件對其進行預(yù)處理，使得無法從所捕獲的音頻數(shù)據(jù)可靠地重構(gòu)語音(詞語、短語和句子)，可以減輕這些問題。此外，所述預(yù)處理仍可允許確定周圍環(huán)境(例如，根據(jù)背景噪聲)和/或音頻數(shù)據(jù)的其它音頻特性，例如語音、音樂、打字聲等等的存在。
[0032]圖2a是用于在沒有性能降級的情況下捕獲足夠的音頻信息來對移動裝置和/或用戶的處境/環(huán)境進行分類的過程的視覺化。另外，所述過程還可幫助確保無法從所捕獲的信息可靠地重構(gòu)語音(詞語、短語和句子)。此過程涉及減少輸入音頻流的維數(shù)。換句話說，減少連續(xù)音頻的輸入流中的位(即，數(shù)字數(shù)據(jù))，使得所得音頻流具有比以可理解的保真度再現(xiàn)連續(xù)音頻流所需的位數(shù)目少的位。減少維數(shù)因此可以是經(jīng)設(shè)計以確保語音不可再現(xiàn)的計算函數(shù)。
[0033]舉例來說，連續(xù)音頻流可包括持續(xù)Twindmt秒的音頻數(shù)據(jù)窗口 210。窗口 210可被視為具有多個音頻數(shù)據(jù)段。更特定來說，窗口 210可包括N個時間分量，或塊220，其中每一塊220持續(xù)Tbltjek秒且包括各Tframe秒的多個幀230?？蓪溈孙L(fēng)信號進行取樣，使得在Tbltjek秒的每個塊中僅收集一個幀230 (具有秒的數(shù)據(jù))。
[0034]Iftcame和Tblock,的值可取決于所要功能性而變化。在一個實施例中，例如，Tframe=50ms且Tbl(K;k=500mS，但這些設(shè)置可發(fā)生相當(dāng)大的變化，且對使用所得音頻信息240-a的背景確定的準確性具有很小的影響。舉例來說，Tftame的范圍可從小于30ms到IOOms或IOOms以上，Tblock的范圍可從小于250ms直到2000ms (2s)或2000ms以上，且Twindw可短至單個塊(例如，每窗口一個塊)，直到一分鐘或一分鐘以上。不同的幀、塊和窗口長度可影響每塊220中貞230的數(shù)目以及每窗口 210塊220的數(shù)目。
[0035]可用不同的方式來實現(xiàn)對幀230的捕獲。舉例來說，分析/確定模塊110可在連續(xù)音頻的窗口 210期間對麥克風(fēng)信號進行連續(xù)取樣，丟棄(即，不存儲)不想要的幀230。因此，在Tframe=50ms且Tblw;k=500ms的上述實例中，處理單元可簡單地丟棄所取樣的每500ms中的450ms。另外或替代地，分析/確定模塊110可在不想要的幀230期間關(guān)閉音頻捕獲模塊140 (例如，在每500ms中的450ms內(nèi)關(guān)閉音頻捕獲模塊140)，由此僅收集將被插入到在背景確定中使用的所得音頻信息240-a中的幀230。
[0036]所得音頻信息240-a是僅包括窗口 210中的連續(xù)音頻流的子集的幀230集合。即便如此，此所得音頻信息240-a可包含可幫助實現(xiàn)背景確定(例如確定周圍環(huán)境)且不會對確定的準確性有重大影響的音頻特性。因此，可將所得音頻信息240-a實時地提供給用于背景分類的應(yīng)用程序，且/或作為一個或一個以上波形存儲在存儲器180中以供稍后分析且/或上載到通信地耦合到移動裝置100的服務(wù)器。
[0037]圖2b和2c是類似于圖2a所示的過程的用于捕獲音頻信息的過程的視覺化。然而，在圖2b和2c中，采取額外步驟來幫助確保可能捕獲到的任何語音的進一步隱私。
[0038]參考圖2b，提供說明對于Twindw秒的每個窗口 210可如何捕獲每一塊220的第一幀230的視覺化。在捕獲了窗口 210的最后一塊220的幀230-1之后，可將窗口 210的所有捕獲到的幀隨機排列(即，隨機洗牌)以提供所得音頻信息240-b。因此，所得音頻信息240-b類似于圖2a的所得音頻信息240-a，其具有包括所得音頻信息240_b的幀經(jīng)隨機化的額外特征，由此進一步減小可以可理解的保真度再現(xiàn)可能包含于所得音頻信息240-b中的任何語音的可能性。
[0039]圖2c說明與圖2b中所示的過程類似的過程，但進一步隨機化針對每一塊220而捕獲到的幀230。更特定來說，不是如圖2a和2b中所示捕獲窗口 210的每一塊220的第一幀230，而是圖2c中所示的過程演示了可改為選擇來自每一塊220的隨機幀230。窗口210的幀230的捕獲以及幀230在所得音頻信息240_c中的排序兩者的隨機化幫助進一步確保窗口 210內(nèi)的連續(xù)音頻流中所含的任何語音被遮掩并且是不可再現(xiàn)的。
[0040]圖2b和2c所示的過程中使用的隨機化可使用以多種方式產(chǎn)生的種子來進行計算。舉例來說，所述種子可基于由GPS單元160提供的GPS時間、來自移動裝置100內(nèi)的電路的噪聲、來自音頻捕獲模塊140的噪聲(或其它信號)、來自天線的噪聲，等等。此外，可丟棄(例如，不存儲)所述排列以幫助確保洗牌效果不可逆轉(zhuǎn)。
[0041]圖2a、2b和2c中所示的過程被提供作為實例且并非限制性的。預(yù)期其它實施例。舉例來說，可在捕獲幀230之前對塊220進行隨機排列。替代地，可貫穿整個窗口 210隨機地捕獲幀230，而非每塊220捕獲一個幀230。
[0042]圖3a是說明用于提供圖2b和2c中所示的功能性的方法300_1的實施例的流程圖。方法300-1可開始于階段310，其中接收來自連續(xù)音頻流的音頻數(shù)據(jù)的塊220。連續(xù)音頻流可為(例如)移動裝置100的音頻捕獲裝置140經(jīng)歷的時間的窗口 210內(nèi)的音頻。
[0043]在階段320處，捕獲音頻數(shù)據(jù)的塊220的幀230。如早先所論述，幀230可為音頻數(shù)據(jù)的每一塊220的預(yù)定幀(例如，第一幀)，或其可隨機地選擇。舉例來說，通過將幀230存儲(臨時或永久地)在移動裝置100的存儲器180中，來捕獲幀230。如先前所論述，幀230的捕獲可包含開啟和關(guān)閉音頻捕獲模塊140且/或?qū)碜砸纛l捕獲模塊140的表示連續(xù)音頻流的信號的某些部分進行取樣。
[0044]在階段330處，確定當(dāng)前窗口 210中是否存在額外的塊220。如果是，那么重復(fù)從塊220捕獲幀230的過程。這可重復(fù)任何數(shù)目次，其取決于所要的功能性。舉例來說，在Tblock=500ms且Twindmt=IO秒的情況中，捕獲幀230的過程將重復(fù)20次，從而產(chǎn)生20個所捕獲的幀230。
[0045]如果已捕獲了來自當(dāng)前窗口 210中的所有塊220的幀230，那么過程移到階段340，其中對所捕獲的幀的次序進行隨機化?？蓪⑦@些經(jīng)隨機化的幀(例如)存儲在由背景感知應(yīng)用程序用于進行分析的音頻文件中。最后，在階段350處，至少部分地基于經(jīng)隨機化的幀的音頻特性來作出周圍環(huán)境的確定(或其它背景確定)。
[0046]方法300-1的不同階段可由移動裝置100的一個或一個以上不同的組件和/或與移動裝置100通信地耦合的其它系統(tǒng)執(zhí)行。此外，階段可由硬件、軟件和/或固件的任何組合執(zhí)行。舉例來說，為幫助確保由移動裝置100執(zhí)行的軟件應(yīng)用程序不能存取整個音頻流(例如，可能具有可辨識語音的音頻流)，可由硬件(例如分析/確定模塊110)執(zhí)行某些階段，例如階段320到340，在將所捕獲的幀存儲在存儲器180上且/或?qū)⑵涮峁┑杰浖?yīng)用程序之前例如在緩沖器上對所捕獲的幀進行隨機化。另外或替代地，一些實施例可使得某些參數(shù)(例如，Twindow, Tblock和/或IftanJ能夠可由軟件至少部分地配置。
[0047]在又其它實施例中，移動裝置100可將包含所捕獲的幀的所得音頻信息240上載到遠程服務(wù)器。在這種情況下，遠程服務(wù)器可作出階段350中的周圍環(huán)境確定。替代地，移動裝置100可上載所得音頻信息240以及由移動裝置100作出的周圍環(huán)境確定。在任一情況下，遠程服務(wù)器可使用所述確定以及所得音頻信息240來修改用以作出周圍環(huán)境確定的現(xiàn)有模型。這使得服務(wù)器能夠維持能夠從由移動裝置100接收到的輸入進行“學(xué)習(xí)”的模型。接著可將經(jīng)修改和/或經(jīng)更新的模型下載到移動裝置100，以幫助改善由移動裝置100作出的周圍環(huán)境確定的準確性。因此，可不斷地改善周圍環(huán)境確定(或其它背景確定)。
[0048]如上文所指示，本文所述的技術(shù)可不僅允許確定周圍環(huán)境和/或其它背景確定，而且也允許確定音頻數(shù)據(jù)的其它音頻特性。這些音頻特性可包含語音、音樂、打字聲以及更多的存在。取決于所包含的音頻特性，可作出不同的確定。
[0049]圖3b是說明方法300-1的實例的流程圖，其包含與圖3的方法300_1類似的階段。然而，圖3b的方法300— 2包含額外階段360，在所述階段中作出關(guān)于講話者身份的確定，所述講話者的語音包含在用以作出周圍環(huán)境確定的所捕獲幀中。與階段350 —樣，階段360中的確定可由移動裝置100和/或所捕獲幀被上載到的遠程服務(wù)器作出。另外，關(guān)于身份的確定可包含使用其它信息和/或模型，例如用以幫助確定講話者的年齡、性別等的模型，以及關(guān)于特定個人的語音的音頻特性的所存儲信息，以及其它數(shù)據(jù)。
[0050]收聽由上文論述的過程產(chǎn)生的所捕獲音頻文件清楚地論證了由此方案無法可靠地重構(gòu)詞語。然而，此觀點可通過執(zhí)行用以計算語音辨識器重構(gòu)詞語的η元語法的概率的上限的分析而在數(shù)學(xué)上進行論證，其中在給出用于開發(fā)商用語音辨識器的來自公眾可得來源的所收集的音頻數(shù)據(jù)的情況下，詞語的η元語法是η個相連詞語的集合。
[0051]圖4是說明此分析的結(jié)果的圖，展示了在給出所收集的音頻的情況下正確地猜出η元語法的概率的上限。展示正確地重構(gòu)I元語法410和2元語法420的結(jié)果，其中對于可變長度的Tbl。。,，Tfraffle=50mso重構(gòu)η元語法的概率隨η增加而直觀地減小。此情況可從圖4中看出，其中，對于Tbl(x;k=500ms，正確地重構(gòu)I元語法410的概率為14%，而正確地重構(gòu)2元語法420的概率為8%。(應(yīng)注意，此分析不包含本文所論述的幀排列，本文所論述的幀排列可更進一步地掩蓋語言，從而將概率減小大約(Twindw / Tblock)階乘倍。)
[0052]盡管減小了重構(gòu)語音的概率，但本文所論述的技術(shù)對分類器(例如，背景感知應(yīng)用程序中使用的概率分類器)鑒別用戶的環(huán)境的能力沒有顯著影響。此在表1中得到論證，表1展示了背景感知分類器的查準率和查全率，其使用具有一個混合分量和兩個混合分量的統(tǒng)計模型，其中Tframe=50ms且Tbltjek是可變的。所使用的數(shù)據(jù)是背景感知應(yīng)用程序中共用的一組環(huán)境(例如，公園內(nèi)、街道上、市場內(nèi)、車內(nèi)、機場內(nèi)等等)的環(huán)境聲音的商業(yè)上采集的音頻數(shù)據(jù)集合。
[0053]表1
[0054]
【權(quán)利要求】
1.一種隱私敏感音頻分析方法，所述方法包括: 捕獲連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集，其中: 所述連續(xù)音頻流含有人類語音，且音頻數(shù)據(jù)的所述子集遮掩了所述人類語音的內(nèi)容；針對音頻特性分析音頻數(shù)據(jù)的所述子集；以及至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
2.根據(jù)權(quán)利要求1所述的隱私敏感音頻分析方法，其中音頻數(shù)據(jù)的所述子集包括所述連續(xù)音頻流的計算函數(shù)，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。
3.根據(jù)權(quán)利要求1所述的隱私敏感音頻分析方法，其中音頻數(shù)據(jù)的所述子集包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的隱私敏感音頻分析方法，其進一步包括至少部分基于所述音頻特性來作出人員身份的確定。
5.根據(jù)權(quán)利要求3所述的隱私敏感音頻分析方法，其中所述多個音頻數(shù)據(jù)段中的每一者包括30ms到IOOms之間的所記錄音頻。
6.根據(jù)權(quán)利要求3所述的隱私敏感音頻分析方法，其中所述連續(xù)音頻流的每一時間分量的長度是在250ms到2s之間。
7.根據(jù)權(quán)利要求3所述的隱私敏感音頻分析方法，其進一步包括在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。
8.根據(jù)權(quán)利要求7所述的隱私敏感音頻分析方法，其中隨機地更改所述多個音頻數(shù)據(jù)段的所述次序是至少部分基于來自以下各項中的一者的信息: 全球定位系統(tǒng)GPS裝置，來自移動裝置內(nèi)的電路的信號噪聲，來自麥克風(fēng)的信號噪聲，以及來自天線的信號噪聲。
9.一種用于遮掩隱私敏感音頻的裝置，所述裝置包括: 麥克風(fēng)；以及處理單元，其通信地耦合到所述麥克風(fēng)且經(jīng)配置以: 從所述麥克風(fēng)捕獲以信號表示的連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集，其中: 所述連續(xù)音頻流含有人類語音，且音頻數(shù)據(jù)的所述子集遮掩了所述人類語音的內(nèi)容；針對音頻特性分析音頻數(shù)據(jù)的所述子集；以及至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
10.根據(jù)權(quán)利要求9所述的用于遮掩隱私敏感音頻的裝置，其中音頻數(shù)據(jù)的所述子集包括所述連續(xù)音頻流的計算函數(shù)，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。
11.根據(jù)權(quán)利要求9所述的用于遮掩隱私敏感音頻的裝置，其中音頻數(shù)據(jù)的所述子集包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。
12.根據(jù)權(quán)利要求11所述的用于遮掩隱私敏感音頻的裝置，其中所述處理單元經(jīng)配置以至少部分基于所述音頻特性來作出人員身份的確定。
13.根據(jù)權(quán)利要求11所述的用于遮掩隱私敏感音頻的裝置，其中所述多個音頻數(shù)據(jù)段中的每一者包括30ms到IOOms之間的所記錄音頻。
14.根據(jù)權(quán)利要求11所述的用于遮掩隱私敏感音頻的裝置，其中所述連續(xù)音頻流的每一時間分量的長度是在250ms到2s之間。
15.根據(jù)權(quán)利要求11所述的用于遮掩隱私敏感音頻的裝置，其中所述處理單元經(jīng)配置以在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。
16.根據(jù)權(quán)利要求15所述的用于遮掩隱私敏感音頻的裝置，其中所述處理單元經(jīng)配置以至少部分基于來自以下各項中的一者的信息來隨機地更改所述多個音頻數(shù)據(jù)段的所述次序: 全球定位系統(tǒng)GPS裝置，來自移動裝置內(nèi)的電路的信號噪聲，來自所述麥克風(fēng)的信號噪聲，以及來自天線的信號噪聲。
17.一種用于確定與移動裝置相關(guān)聯(lián)的環(huán)境的系統(tǒng)，所述系統(tǒng)包括: 音頻傳感器，其經(jīng)配置以接收連續(xù)音頻流；以及至少一個處理單元，其耦合到所述音頻傳感器且經(jīng)配置以: 捕獲所述連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集，使得音頻數(shù)據(jù)的所述子集遮掩了所述連續(xù)音頻流中包含的人類語音的內(nèi)容；針對音頻特性分析音頻數(shù)據(jù)的所述子集；以及至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
18.根據(jù)權(quán)利要求17所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其進一步包括經(jīng)配置以經(jīng)由網(wǎng)絡(luò)將表示音頻數(shù)據(jù)的所述子集的信息發(fā)送到遠離所述移動裝置的位置的網(wǎng)絡(luò)接口。
19.根據(jù)權(quán)利要求18所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其中所述至少一個處理單元經(jīng)配置以在遠離所述移動裝置的所述位置處作出所述周圍環(huán)境的所述確定。
20.根據(jù)權(quán)利要求18所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其中音頻數(shù)據(jù)的所述子集包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。
21.根據(jù)權(quán)利要求20所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其中所述至少一個處理單元經(jīng)配置以至少部分基于所述音頻特性來作出人員身份的確定。
22.根據(jù)權(quán)利要求20所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其中所述多個音頻數(shù)據(jù)段中的每一者包括30ms到100ms之間的所記錄音頻。
23.根據(jù)權(quán)利要求20所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其中所述連續(xù)音頻流的每一時間分量的長度是在250ms到2s之間。
24.根據(jù)權(quán)利要求20所述的用于確定與所述移動裝置相關(guān)聯(lián)的所述環(huán)境的系統(tǒng)，其中所述至少一個處理單元經(jīng)配置以在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。
25.一種計算機程序產(chǎn)品，其駐存在非暫時性處理器可讀媒體上且包括處理器可讀指令，所述處理器可讀指令經(jīng)配置以致使處理器: 捕獲連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集，其中: 所述連續(xù)音頻流含有人類語音，且音頻數(shù)據(jù)的所述子集遮掩了所述人類語音的內(nèi)容；針對音頻特性分析音頻數(shù)據(jù)的所述子集；以及至少部分基于所述音頻特性來作出周圍環(huán)境的確定。
26.根據(jù)權(quán)利要求25所述的計算機程序產(chǎn)品，其中音頻數(shù)據(jù)的所述子集包括所述連續(xù)音頻流的計算函數(shù)，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。
27.根據(jù)權(quán)利要求25所述的計算機程序產(chǎn)品，其中音頻數(shù)據(jù)的所述子集包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。
28.根據(jù)權(quán)利要求27所述的計算機程序產(chǎn)品，其中所述處理器可讀指令經(jīng)配置以致使所述處理器至少部分基于所述音頻特性來作出人員身份的確定。
29.根據(jù)權(quán)利要求27所述的計算機程序產(chǎn)品，其中所述多個音頻數(shù)據(jù)段中的每一者包括30ms到IOOms之間的所記錄音頻。
30.根據(jù)權(quán)利要求27所述的計算機程序產(chǎn)品，其中所述連續(xù)音頻流的每一時間分量的長度是在250ms到2s之間。
31.根據(jù)權(quán)利要求27所述的計算機程序產(chǎn)品，其中所述處理器可讀指令經(jīng)配置以致使所述處理器在分析音頻數(shù)據(jù)的所述子集之前隨機地更改所述多個音頻數(shù)據(jù)段的次序。
32.根據(jù)權(quán)利要求31所述的計算機程序產(chǎn)品，其中所述處理器可讀指令經(jīng)配置以致使所述處理器隨機地更改所述多個音頻數(shù)據(jù)段的所述次序是至少部分基于來自以下各項中的一者的信息: 全球定位系統(tǒng)GPS裝置，來自移動裝置內(nèi)的電路的信號噪聲，來自麥克風(fēng)的信號噪聲，以及來自天線的信號噪聲。
33.一種用于遮掩隱私敏感音頻的裝置，所述裝置包括: 用于從麥克風(fēng)捕獲以信號表示的連續(xù)音頻流中含有的音頻數(shù)據(jù)的子集的裝置，其中: 所述連續(xù)音頻流含有人類語音，且音頻數(shù)據(jù)的所述子集遮掩了所述人類語音的內(nèi)容；用于針對音頻特性分析音頻數(shù)據(jù)的所述子集的裝置；以及用于至少部分基于所述音頻特性來確定周圍環(huán)境的裝置。
34.根據(jù)權(quán)利要求33所述的用于遮掩隱私敏感音頻的裝置，其中所述用于捕獲音頻數(shù)據(jù)的所述子集的裝置經(jīng)配置以根據(jù)所述連續(xù)音頻流的計算函數(shù)來捕獲音頻數(shù)據(jù)的所述子集，所述計算函數(shù)具有比以可理解的保真度再現(xiàn)所述連續(xù)音頻流所需的位數(shù)目少的位。
35.根據(jù)權(quán)利要求33所述的用于遮掩隱私敏感音頻的裝置，其中所述用于捕獲音頻數(shù)據(jù)的所述子集的裝置經(jīng)配置以捕獲音頻數(shù)據(jù)的所述子集，使得音頻數(shù)據(jù)的所述子集包括多個音頻數(shù)據(jù)段，每一音頻數(shù)據(jù)段包括來自所述連續(xù)音頻流的不同時間分量的數(shù)據(jù)。
36.根據(jù)權(quán)利要求35所述的用于遮掩隱私敏感音頻的裝置，其中所述用于確定所述周圍環(huán)境的裝置經(jīng)配置以至少部分基于所述音頻特性來作出人員身份的確定。
37.根據(jù)權(quán)利要求35所述的用于遮掩隱私敏感音頻的裝置，其中所述用于捕獲音頻數(shù)據(jù)的所述子集的裝置經(jīng)配置以捕獲音頻數(shù)據(jù)的所述子集，使得所述多個音頻數(shù)據(jù)段中的每一者包括30ms到100m s之間的所記錄音頻。
【文檔編號】G10L25/78GK103620680SQ201280030290
【公開日】2014年3月5日申請日期:2012年5月14日優(yōu)先權(quán)日:2011年5月23日
【發(fā)明者】里昂納德·H·葛羅科普, 維迪亞·納拉亞南, 詹姆斯·W·多爾特爾, 桑吉夫·南達申請人:高通股份有限公司

完整全部詳細技術(shù)資料下載