音頻信號的信號提取方法與裝置的制造方法
【專利摘要】一種音頻信號的信號提取方法與裝置。轉(zhuǎn)換音頻信號為多個音頻幀,其中上述多個音頻幀依時間順序排列。獲得各音頻幀的頻譜數(shù)據(jù)。依時間順序取出N個音頻幀各自的頻譜數(shù)據(jù),并且對上述N個音頻幀執(zhí)行頻譜相連性運算。最后,將各音頻幀中與相鄰音頻幀之間具有頻譜相連性的信號判定為理想信號。
【專利說明】
音頻信號的信號提取方法與裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種處理音頻信號的方法與裝置,且特別涉及一種音頻信號的信號提取方法與裝置。
【背景技術(shù)】
[0002]—般而言,在進行語音或音樂等音頻信號的處理程序時,會保留音頻信號中的理想信號,并將噪聲從音頻信號中移除。理想信號與噪聲的分割可分成為噪聲檢測和信號提取兩類方法。噪聲檢測方法包括下列幾種:使用振幅、功率頻譜密度(Power SpectralDensity,PSD)、過零率(Zero Crossing Rate,ZCR)等的能量檢測法;使用機率模型(Probability Model)、頻譜特征模型(Spectrum Model)、相似度(Likelihood)等的模型比對法;使用最小均方法(Least Mean Square,LMS)、正規(guī)化最小均方法(NormalizedLeast Mean Square, NLMS)等自動收斂法;使用自適應(yīng)濾波器(Adaptive Filter)、移動平均(Moving Average)、線性預(yù)測編碼(Linear Predictive Coding, LPC)等的適應(yīng)性估計法等。
[0003]而能量檢測法和模型比對法大多在時間軸上區(qū)分理想信號和噪聲。自動收斂法無法獨立出理想信號和噪聲的頻帶來做進一步的分析。而適應(yīng)性估計法,在信噪比較低時,估計就會失準(zhǔn)。
[0004]另外,使用信號提取的方法,大多屬于已知信號類型的判讀和辨識,包含頻譜圖二維遮罩(Spectrogram 2D Masking)、信號模型比對等。此種方法只能提取出期望的信號種類,對于信號種類太多時,相當(dāng)耗費資源。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種音頻信號的信號提取方法與裝置,能夠快速地提取出音頻信號中的理想信號。
[0006]本發(fā)明的音頻信號的信號提取方法,包括下列步驟。轉(zhuǎn)換音頻信號為多個音頻幀,其中上述多個音頻幀依時間順序排列。獲得各音頻幀的頻譜數(shù)據(jù)。分別以各音頻幀作為當(dāng)前音頻幀,依時間順序取出N個音頻幀各自的頻譜數(shù)據(jù),并且對N個音頻幀執(zhí)行頻譜相連性運算。執(zhí)行頻譜相連性運算的步驟包括:基于N個音頻幀各自所包括的頻譜數(shù)據(jù),獲得N個音頻幀各自的信號區(qū)塊列表,其中信號區(qū)塊列表用以記錄存在有信號值的頻譜指數(shù)范圍;以及依據(jù)各音頻幀的信號區(qū)塊列表,尋找各音頻幀與其相鄰的音頻幀之間的頻譜相連性。最后,將各音頻幀中與相鄰音頻幀之間具有頻譜相連性的信號判定為理想信號。
[0007]本發(fā)明的一種音頻信號的信號提取裝置,包括:處理單元以及存儲單元。存儲單元耦接至處理單元,且包括多個模塊。處理單元驅(qū)動上述多個模塊來檢測音頻信號中的理想信號。上述多個模塊包括:轉(zhuǎn)換模塊以及運算模塊。轉(zhuǎn)換模塊用以轉(zhuǎn)換音頻信號為多個音頻幀,其中上述多個音頻幀依時間順序排列。運算模塊用以獲得各音頻幀的頻譜數(shù)據(jù),并且分別以各音頻幀作為當(dāng)前音頻幀,依時間順序取出N個音頻幀各自的頻譜數(shù)據(jù),并且對N個音頻幀執(zhí)行頻譜相連性運算。上述頻譜相連性運算包括:基于N個音頻幀各自所包括的頻譜數(shù)據(jù),獲得N個音頻幀各自的信號區(qū)塊列表,其中信號區(qū)塊列表用以記錄存在有信號值的頻譜指數(shù)范圍;以及依據(jù)各音頻幀的信號區(qū)塊列表,尋找各音頻幀與其相鄰的音頻幀之間的頻譜相連性;以及將各音頻幀中與相鄰音頻幀之間具有頻譜相連性的信號判定為理想信號。
[0008]基于上述,藉由執(zhí)行頻譜相連性運算來找出相連的信號區(qū)塊,藉以排除頻譜上小區(qū)塊孤立的短暫信號,進而可快速區(qū)分出理想信號與噪聲。
[0009]為讓本發(fā)明的上述特征和優(yōu)點能更明顯易懂,下文特舉實施例,并配合附圖作詳細說明如下。
【附圖說明】
[0010]圖1是依照本發(fā)明一實施例所繪示的一種音頻信號的信號提取裝置的方塊圖。
[0011]圖2是依照本發(fā)明一實施例所繪示的一種分離理想信號及噪聲方法的示意圖。
[0012]圖3是依照本發(fā)明一實施例所繪示的一種音頻信號的信號提取方法的流程圖。
[0013]圖4是依照本發(fā)明一實施例的相鄰兩個音頻幀的頻譜數(shù)據(jù)的示意圖。
[0014]圖5是依照本發(fā)明一實施例的頻譜相連性運算的示意圖。
[0015]【符號說明】
[0016]100:信號提取裝置
[0017]110:存儲單元
[0018]120:處理單元
[0019]130:轉(zhuǎn)換模塊
[0020]140:運算模塊
[0021]201:音頻成幀模塊
[0022]203:視窗模塊
[0023]205:FFT 模塊
[0024]207:絕對值模塊
[0025]211:背景估計模塊
[0026]213:相連性搜尋模塊
[0027]221:VAD 模塊
[0028]223:分割模塊
[0029]225:噪聲檔
[0030]227:抑制噪聲模塊
[0031]229:1FFT 模塊
[0032]401?403、411?413:頻譜指數(shù)范圍
[0033]a、b、η ?η+1:音頻幀
[0034]DO?D4:頻譜數(shù)據(jù)
[0035]SBLO?SBL4:信號區(qū)塊列表
[0036]CBL_F0?CBL_F4:第一相連性區(qū)塊列表
[0037]CBL_S0?CBL_S4:第二相連性區(qū)塊列表
[0038]S310?S340:噪聲檢測方法各步驟
[0039]S51?S57:頻譜相連性運算各步驟
【具體實施方式】
[0040]圖1是依照本發(fā)明一實施例所繪示的一種音頻信號的信號提取裝置的方塊圖。信號提取裝置100包括存儲單元110與處理單元120。處理單元120耦接至存儲單元110。處理單元120例如為中央處理單元(Central Processing Unit,CPU)、可編程的微處理器(Microprocessor)、嵌入式控制芯片等。
[0041]存儲單元110例如是任意型式的固定式或可移動式隨機存取存儲器(RandomAccess Memory,RAM)、只讀存儲器(Read-Only Memory,ROM)、快閃存儲器(Flash memory)、硬盤或其他類似裝置或這些裝置的組合。存儲單元110中存儲有多個程序代碼片段,上述程序代碼片段在被安裝后,會由處理單元120來執(zhí)行,以實現(xiàn)音頻信號的信號提取方法,藉此快速且準(zhǔn)確地提取出音頻信號中的理想信號。存儲單元110可存儲音頻信號以及信號提取方法所需的或所產(chǎn)生的各種數(shù)值與數(shù)據(jù)。
[0042]在此,音頻信號例如是將模擬信號格式的原始音頻信號經(jīng)由模擬數(shù)字轉(zhuǎn)換后所產(chǎn)生的數(shù)字信號。上述的原始音頻信號可以是通過麥克風(fēng)所接收的使用者的語音指令,或是由電視、多媒體播放器等電子裝置所發(fā)出的信號。所述噪聲則例如是背景白噪聲或是在特定頻率區(qū)段具有較強幅度的有色噪聲(例如紅噪聲等)。
[0043]存儲單元110包括轉(zhuǎn)換模塊130以及運算模塊140。通過處理單元120來驅(qū)動存儲單元110中的轉(zhuǎn)換模塊130以及運算模塊140,藉以實現(xiàn)音頻信號的信號提取方法。上述轉(zhuǎn)換模塊130用以將音頻信號轉(zhuǎn)換為多個音頻幀(frame),這些音頻幀依照時間順序而排列。運算模塊140用以尋找各音頻幀與其相鄰音頻幀之間的頻譜相連性,進而將具有頻譜相連性的信號判定為理想信號。
[0044]另外,在其他實施例中,轉(zhuǎn)換模塊130以及運算模塊140也可以通過處理器來實現(xiàn)。即,利用多個處理器來分別實現(xiàn)轉(zhuǎn)換模塊130以及運算模塊140的功能。
[0045]下文列舉一例來說明上述信號提取裝置100的其中一種應(yīng)用方式,然而,并不以此來限定其范圍。圖2是依照本發(fā)明一實施例所繪示的一種分離理想信號及噪聲方法的示意圖。在此,理想信號所指為具有頻譜相連性的信號。
[0046]請參照圖1及圖2,在本實施例中,轉(zhuǎn)換模塊130包括音頻成幀模塊201、視窗模塊203、快速傅立葉變換(Fast Fourier Transform, FFT)模塊205以及絕對值模塊207。運算模塊140包括背景估計模塊211以及相連性搜尋模塊213。
[0047]音頻成幀模塊201用以將音頻信號轉(zhuǎn)換為多個音頻幀。音頻成幀模塊201將M個采樣點集合成一個觀測單位,稱為音頻幀。而為了避免相鄰兩個音頻幀的變化過大,因此設(shè)定兩個相鄰音頻幀之間有一段重疊區(qū)域,此重疊區(qū)域包含了 I個采樣點,通常I的值可以是M的1/2或1/3,但不限于1/2或1/3。一般而言,信號處理所用的音頻幀的采樣頻率為SkHz或 16kHz ο
[0048]視窗模塊203用以將每一個音頻幀乘上一個視窗函數(shù)(window funct1n)。這是因為原本完整的音頻信號硬生生被音頻幀截斷,因此在使用傅立葉變換(FourierTransform)分析頻率會產(chǎn)生誤差。為了避免在進行傅立葉變換所產(chǎn)生的誤差,在執(zhí)行傅立葉變換之前先將音頻幀乘上一個視窗函數(shù),以增加音頻幀左端和右端的連續(xù)性。在此,視窗函數(shù)例如為漢明視窗(Hamming window)或韓恩視窗(Hann window)。
[0049]快速傅立葉變換(Fast Fourier Transform, FFT)模塊(下文簡稱FFT模塊)205用以將音頻幀從時域(Time domain)轉(zhuǎn)換至頻域(Frequency domain)。即,音頻幀在乘上視窗函數(shù)后,每個音頻幀還必需再經(jīng)過FFT模塊205以得到在頻譜上的能量分布。而由于經(jīng)由FFT模塊205所獲得的頻譜包括多個頻譜分量,且各頻譜分量包括實部與虛部。因此,再通過絕對值模塊207來求出每一頻譜分量的絕對值。例如,絕對值模塊207計算每一頻譜分量的實部的平方與虛部的平方的總和后再開方根,即可獲得絕對值,并且以此絕對值作為每一頻譜分量的幅度。在此,將經(jīng)由絕對值模塊207的結(jié)果稱為頻域信號fft_abs。
[0050]在獲得頻域信號fft_abs之后,由背景估計模塊211對頻域信號fft_abs執(zhí)行短時區(qū)(short time)背景估計法來獲得一估計值。之后,相連性搜尋模塊213基于估計值,對頻域信號fft_abS執(zhí)行濾除操作,藉以獲得音頻幀的頻譜數(shù)據(jù)。例如,將頻域信號fft_abs中小于或等于估計值的信號值濾除,只保留大于估計值的信號值。
[0051]語音活性檢測(Voice activity detect1n, VAD)模塊221與分割模塊223為選擇性構(gòu)件。使用VAD模塊221與分割模塊223可進一步讓信號提取的準(zhǔn)確率及速度提升,但若不使用VAD模塊221與分割模塊223亦能夠檢測噪聲。藉由VAD模塊221來判斷音頻信號是否為噪聲,若是噪聲,則分割模塊223區(qū)分為噪聲數(shù)據(jù),反之,則為混和信號數(shù)據(jù)。分割模塊223將噪聲數(shù)據(jù)傳送至一噪聲檔(noise prof ile) 225進行更新,并將混和信號數(shù)據(jù)(語音活性檢測結(jié)果)傳送至運算模塊140的相連性搜尋模塊213。
[0052]由于理想信號指的是具有頻譜相連性的信號,所以要再根據(jù)混和信號數(shù)據(jù)中頻譜是否相連的特性,找出理想信號。因此,相連性搜尋模塊213可進一步依據(jù)經(jīng)由VAD模塊221的語音活性檢測結(jié)果以及估計值,對頻域信號fft_abs執(zhí)行信號提取的操作。在其他實施例中,相連性搜尋模塊213也可以只依據(jù)估計值對頻域信號fft_abs執(zhí)行信號提取。相連性搜尋模塊213在獲得各音頻幀的頻譜數(shù)據(jù)后,便可執(zhí)行頻譜相連性搜尋,相關(guān)描述將于下文詳述。而相連性搜尋模塊213在判定音頻幀中哪些信號屬于理想信號后,將不屬于理想信號的數(shù)據(jù)視為噪聲數(shù)據(jù)傳送至噪聲檔225做更新。
[0053]抑制噪聲模塊227則會根據(jù)噪聲檔225及相連性搜尋模塊213的輸出,對FFT模塊205所輸出的信號進行噪聲抑制。之后,逆向(inverse)快速傅立葉變換模塊(IFFT模塊)229針對抑制噪聲模塊227的輸出進行IFFT運算而將音頻幀由頻域轉(zhuǎn)換為時域,進而可獲得去噪聲信號。
[0054]下文再針對噪聲檢測來進行詳細的說明。
[0055]圖3是依照本發(fā)明一實施例所繪示的一種音頻信號的信號提取方法的流程圖。請參照圖1?圖3,在步驟S310中,轉(zhuǎn)換模塊130轉(zhuǎn)換音頻信號為多個音頻幀,而上述多個音頻幀依時間順序排列。例如,通過音頻成幀模塊201來獲得多個音頻幀,并且再經(jīng)由視窗模塊203、FFT模塊205以及絕對值模塊207來獲得各音頻幀的頻域信號fft_abs。
[0056]接著,在步驟S320中,運算模塊140獲得各音頻幀的頻譜數(shù)據(jù)。例如,運算模塊140通過背景估計模塊211執(zhí)行短時區(qū)背景估計法,并通過相連性搜尋模塊213依據(jù)背景估計模塊211的輸出結(jié)果來獲得各音頻幀在頻域上的頻譜數(shù)據(jù)。在此,頻譜數(shù)據(jù)為基于頻譜指數(shù)(spectral index)的數(shù)據(jù)。相連性搜尋模塊213依據(jù)一估計值可將頻域信號fft_abs的各頻譜指數(shù)轉(zhuǎn)換為有信號或無信號。例如,依據(jù)背景估計模塊211所獲得的估計值,將頻域信號fft_abs中小于或等于估計值的信號值濾除(視為無信號),只保留大于估計值的信號值(視為有信號)。
[0057]舉例來說,圖4是依照本發(fā)明一實施例的相鄰兩個音頻幀的頻譜數(shù)據(jù)的示意圖。在此,圖4表示依照時間順序且前后相鄰的音頻幀a與音頻幀b的頻譜數(shù)據(jù)。在音頻幀a中,頻譜指數(shù)范圍401、402、403代表有信號值。在音頻幀b中,頻譜指數(shù)范圍411、412、413代表有信號值。在此,頻譜指數(shù)以O(shè)?127來表示。
[0058]返回圖3,在獲得頻譜數(shù)據(jù)之后,在步驟S330中,運算模塊140通過相連性搜尋模塊213分別以各音頻幀作為當(dāng)前音頻幀,依時間順序來取出N個音頻幀各自的頻譜數(shù)據(jù),并且對這些N個音頻幀執(zhí)行頻譜相連性運算。即,相連性搜尋模塊213每次平移一個音頻幀來采樣,且每次取出時間相連的N個音頻幀來判斷N個音頻幀之間的頻譜相連性。
[0059]步驟S330包括步驟S330_a及步驟S330_b。在步驟S330_a中,相連性搜尋模塊213會先基于所取出的N個音頻幀所包括的頻譜數(shù)據(jù),來獲得各音頻幀的信號區(qū)塊列表。所述信號區(qū)塊列表用以記錄存在有信號值的頻譜指數(shù)范圍。以圖4的音頻幀a而言,音頻幀a的信號區(qū)塊列表記錄有頻譜指數(shù)范圍401、402、403各自的起始點與結(jié)束點。例如,頻譜指數(shù)范圍401的起始點為頻譜指數(shù)3,而結(jié)束點為頻譜指數(shù)4,故,以[3,4]來表示。以此類推,頻譜指數(shù)范圍402、403分別以[9,10], [100,100]來表示。
[0060]接著,在步驟S330_b中,相連性搜尋模塊213依據(jù)各音頻幀的信號區(qū)塊列表,尋找各音頻幀與其相鄰音頻幀之間的頻譜相連性。所謂頻譜相連性指的是,在連續(xù)相鄰的N個音頻幀中的信號在頻譜指數(shù)上具有重復(fù)或相連接的范圍,其中N為大于等于2的整數(shù)。以圖4而言,以連續(xù)相鄰的兩個音頻幀的頻譜相連性為例,音頻幀a的頻譜指數(shù)范圍401 ([3,4])與音頻幀b的頻譜指數(shù)范圍411 ([4,5])兩者的頻譜指數(shù)范圍有重復(fù)的部分,因此具有頻譜相連性。而音頻幀a的頻譜指數(shù)范圍402 ([9,10])與音頻幀b的頻譜指數(shù)范圍412 ([11,11])兩者的頻譜指數(shù)范圍為相連接,因此亦具有頻譜相連性。而音頻幀a的頻譜指數(shù)范圍403([100,100])與音頻幀b的頻譜指數(shù)范圍413([110,110])由于其頻譜指數(shù)范圍并無重復(fù)亦未相連接,因此不具有頻譜相連性。
[0061]之后,在步驟S340中,運算模塊140的相連性搜尋模塊213將各音頻幀中與其相鄰音頻幀之間具有頻譜相連性的信號判定為理想信號。也就是說,各音頻幀中與其相鄰音頻幀之間不具有頻譜相連性的信號為噪聲。以圖4而言,音頻幀a的頻譜指數(shù)范圍403與音頻幀b的頻譜指數(shù)范圍413會被判定為噪聲。
[0062]下文再舉一例來詳細說明上述頻譜相連性運算的其中一種應(yīng)用例。
[0063]圖5是依照本發(fā)明一實施例的頻譜相連性運算的示意圖。在本實施例中,相連性搜尋模塊213逐一以各音頻幀作為當(dāng)前音頻幀,每次取N個音頻幀來執(zhí)行,在此N = 5。BP,先以第I個音頻幀為當(dāng)前音頻幀,取音頻幀I?音頻幀5來執(zhí)行頻譜相連性運算;接著,以第2個音頻幀為當(dāng)前音頻幀,取音頻幀2?音頻幀6來執(zhí)行頻譜相連性運算;而后,以第3個音頻幀為當(dāng)前音頻幀,取音頻幀3?音頻幀7來執(zhí)行頻譜相連性運算,以此類推。據(jù)此,除了第I個音頻幀之外,其他音頻幀會執(zhí)行2次以上的頻譜相連性運算。在本實施例中,由于N為5,因此從第5個音頻幀開始,每個音頻幀會執(zhí)行5次的頻譜相連性運算。在此,以圖5為例來說明每一次的頻譜相連性運算,然并不以此為限。
[0064]下文針對所取出的5個音頻幀(音頻幀η至音頻幀η+4)來執(zhí)行I次的頻譜相連性運算進行說明。相連性搜尋模塊213取出音頻幀η至音頻幀η+4的頻譜數(shù)據(jù)DO?D4。接著,相連性搜尋模塊213基于音頻幀η至音頻幀η+4所包括的頻譜數(shù)據(jù)DO?D4,獲得各音頻幀的信號區(qū)塊列表SBLO?SBL4。以頻譜數(shù)據(jù)DO而言,其在頻譜指數(shù)2、5、7?8、101中存在有信號值,故,其信號區(qū)塊列表SBLO表示為[2,2]、[5,5]、[7,8]、[101,101],其他亦以此類推,而獲得音頻幀η至音頻幀η+4的信號區(qū)塊列表SBLO?SBL4。之后,相連性搜尋模塊213便可根據(jù)信號區(qū)塊列表SBLO?SBL4來找出各音頻幀與其相鄰的音頻幀之間的頻譜相連性。
[0065]具體而言,相連性搜尋模塊213依據(jù)各音頻幀的信號區(qū)塊列表,依照時間順序由后往前,尋找相鄰N個音頻幀之間的頻譜相連性,而獲得上述5個音頻幀各自的第一相連性區(qū)塊列表CBL_F0?CBL_F4。第一相連性區(qū)塊列表CBL_F0?CBL_F4用以記錄時間上由后往前相鄰N個音頻幀之間具有頻譜相連性的頻譜指數(shù)范圍,詳細內(nèi)容參照下述步驟S51?步驟S54。
[0066]在步驟S51中,對音頻幀η+4與其前一個音頻幀η+3進行頻譜相連性的搜尋。先比較音頻幀η+4與音頻幀η+3兩者的信號區(qū)塊列表SBL4與信號區(qū)塊列表SBL3,而分別獲得第一相連性區(qū)塊列表CBL_F4與CBL_F3。在步驟S51中,濾除掉音頻幀η+4的信號區(qū)塊列表SBL4中的頻譜指數(shù)范圍[120,121],而獲得第一相連性區(qū)塊列表CBL_F4 ;同時,在步驟S51中,由于音頻幀η+3的信號區(qū)塊列表SBL3中的頻譜指數(shù)范圍與音頻幀η+4的信號區(qū)塊列表SBL4中的頻譜指數(shù)范圍具相連性,因此不濾除任何的頻譜指數(shù)范圍,即可獲得第一相連性區(qū)塊列表CBL_F3。
[0067]在步驟S52中,對音頻幀η+3與其前一個音頻幀η+2進行頻譜相連性的搜尋。由于音頻幀η+3已與音頻幀η+4進行比對而獲得第一相連性區(qū)塊列表CBL_F3,因此,以音頻幀η+3的第一相連性區(qū)塊列表CBL_F3與音頻幀η+2的信號區(qū)塊列表SBL2來進行比較,進而獲得第一相連性區(qū)塊列表CBL_F2。在步驟S52中,濾除掉音頻幀η+2的信號區(qū)塊列表SBL2中的頻譜指數(shù)范圍[98,101],而獲得第一相連性區(qū)塊列表CBL_F2。
[0068]在步驟S53中,對音頻幀η+2與其前一個音頻幀η+1進行頻譜相連性的搜尋。以音頻幀η+2的第一相連性區(qū)塊列表CBL_F2與音頻幀η+1的信號區(qū)塊列表SBLl來進行比較,進而獲得第一相連性區(qū)塊列表CBL_F1。在步驟S53中,濾除掉音頻幀η+1的信號區(qū)塊列表SBLl中的頻譜指數(shù)范圍[50,50]、[101,101],而獲得第一相連性區(qū)塊列表CBL_F1。
[0069]在步驟S54,對音頻幀η+1與其前一個音頻幀η進行頻譜相連性的搜尋。以音頻幀η+1的第一相連性區(qū)塊列表CBL_F1與音頻幀η的信號區(qū)塊列表SBLO來進行比較,進而獲得第一相連性區(qū)塊列表CBL_F0。在步驟S54中,濾除掉音頻幀η的信號區(qū)塊列表SBLO中的頻譜指數(shù)范圍[101,101],而獲得第一相連性區(qū)塊列表CBL_F0。
[0070]在執(zhí)行步驟S51?步驟S54之后,相連性搜尋模塊213再依據(jù)各音頻幀的第一相連性區(qū)塊列表CBL_F0?CBL_F4,依照時間順序由前往后,尋找相鄰N個音頻幀之間的頻譜相連性,而獲得各音頻幀的第二相連性區(qū)塊列表CBL_S0?CBL_S4。第二相連性區(qū)塊列表CBL_S0?CBL_S4用以記錄時間上由前往后相鄰的N個音頻幀之間具有頻譜相連性的頻譜指數(shù)范圍,詳細內(nèi)容參照下述步驟S55?步驟S57。
[0071]在依照時間順序由前往后,比較相鄰N個音頻幀的過程中,由于音頻幀η與音頻幀η+1在步驟S54中已經(jīng)比較過了,因此直接以其第一相連性區(qū)塊列表CBL_FO與第一相連性區(qū)塊列表CBL_F1作為第二相連性區(qū)塊列表CBL_SO與第二相連性區(qū)塊列表CBL_S1。
[0072]之后,在步驟S55中,對音頻幀η+1與音頻幀η+2進行頻譜相連性的搜尋。以音頻幀η+1的第二相連性區(qū)塊列表CBL_S1與音頻幀η+2的第一相連性區(qū)塊列表CBL_F2來進行比較,進而獲得音頻幀η+2的第二相連性區(qū)塊列表CBL_S2。
[0073]在步驟S56中,對音頻幀η+2與音頻幀η+3進行頻譜相連性的搜尋。以音頻幀η+2的第二相連性區(qū)塊列表CBL_S2與音頻幀η+3的第一相連性區(qū)塊列表CBL_F3來進行比較,進而獲得音頻幀η+3的第二相連性區(qū)塊列表CBL_S3。在步驟S56中,濾除掉音頻幀η+3的第一相連性區(qū)塊列表CBL_F3的頻譜指數(shù)范圍[12,12],而獲得第二相連性區(qū)塊列表CBL_S3 ο
[0074]在步驟S57中,對音頻幀η+3與音頻幀η+4進行頻譜相連性的搜尋。以音頻幀η+3的第二相連性區(qū)塊列表CBL_S3與音頻幀η+4的第一相連性區(qū)塊列表CBL_F4來進行比較,進而獲得音頻幀η+4的第二相連性區(qū)塊列表CBL_S4。
[0075]藉由依時間順序由后往前、再由前往后進行比對,可確實地找出該音頻幀與其相鄰音頻幀之間皆具有頻譜相連性的信號。在本實施例中所舉的范例是先依照時間順序由后往前進行尋找,之后再依照時間順序由前往后進行尋找。而在其他實施例中,也可先依照時間順序由前往后進行尋找,再依照時間順序由后往前進行尋找,在此并不限制。
[0076]之后,相連性搜尋模塊213依據(jù)各音頻幀被取出來執(zhí)行頻譜相連性運算的次數(shù)(即,每個音頻幀執(zhí)行步驟S330的次數(shù)),將每一次所獲得的第二相連性區(qū)塊列表中所記錄的頻譜指數(shù)范圍進行或(OR)邏輯運算,而獲得最終相連性區(qū)塊列表。例如,倘若每次取出5個音頻幀來執(zhí)行頻譜相連性運算,則從第5個音頻幀開始,每個音頻幀總共會執(zhí)行5次的頻譜相連性運算。因此,以第5個音頻幀為例,其具有對應(yīng)的5個第二相連性區(qū)塊列表。而相連性搜尋模塊213會對上述5個第二相連性區(qū)塊列表所記錄的頻譜指數(shù)范圍進行或(OR)邏輯運算,藉此來獲得第5個音頻幀的最終相連性區(qū)塊列表。
[0077]在獲得每一個音頻幀的最終相連性區(qū)塊列表之后,相連性搜尋模塊213依據(jù)各音頻幀的最終相連性區(qū)塊列表中所記錄的頻譜指數(shù)范圍,以提取各音頻幀在頻域上的頻譜數(shù)據(jù),即獲得具有頻譜相連性的信號,并將其判定為理想信號。
[0078]綜上所述,在上述實施例中,使用短時區(qū)背景估計法來找出可能的信號頻帶,之后藉由執(zhí)行頻譜相連性運算來找出相連的信號區(qū)塊,藉以排除頻譜上小區(qū)塊孤立的短暫信號,進而可快速區(qū)分出理想信號與噪聲。
[0079]雖然本發(fā)明已以實施例公開如上,然其并非用以限定本發(fā)明,本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作些許的更動與潤飾,故本發(fā)明的保護范圍當(dāng)視所附權(quán)利要求書界定范圍為準(zhǔn)。
【主權(quán)項】
1.一種音頻信號的信號提取方法,包括: 轉(zhuǎn)換音頻信號為多個音頻幀,其中上述多個音頻幀依時間順序排列; 獲得每一上述音頻幀的頻譜數(shù)據(jù); 分別以每一上述音頻幀作為當(dāng)前音頻幀,依上述時間順序取出N個上述音頻幀各自的上述頻譜數(shù)據(jù),并且對上述N個音頻幀執(zhí)行頻譜相連性運算,包括: 基于每一上述N個音頻幀所包括的上述頻譜數(shù)據(jù),獲得每一上述N個音頻幀的信號區(qū)塊列表,其中上述信號區(qū)塊列表用以記錄存在有信號值的頻譜指數(shù)范圍;以及 依據(jù)每一上述音頻幀的上述信號區(qū)塊列表,尋找每一上述音頻幀與其相鄰的上述音頻幀之間的頻譜相連性;以及 將每一上述音頻幀與相鄰上述音頻幀之間具有上述頻譜相連性的信號判定為理想信號。2.如權(quán)利要求1所述的音頻信號的信號提取方法,其中依據(jù)每一上述音頻幀的上述信號區(qū)塊列表,尋找每一上述音頻幀與其相鄰的上述音頻幀之間的上述頻譜相連性的步驟包括: 依據(jù)上述N個音頻幀各自的上述信號區(qū)塊列表,依照上述時間順序由后往前,尋找相鄰N個上述音頻幀之間的上述頻譜相連性,而獲得上述N個音頻幀各自的第一相連性區(qū)塊列表,其中上述第一相連性區(qū)塊列表用以記錄依照上述時間順序由后往前相鄰N個上述音頻幀之間具有上述頻譜相連性的上述頻譜指數(shù)范圍;以及 依據(jù)上述N個音頻幀各自的上述第一相連性區(qū)塊列表,依照上述時間順序由前往后,尋找相鄰N個上述音頻幀之間的上述頻譜相連性,而獲得上述N個音頻幀各自的第二相連性區(qū)塊列表,其中上述第二相連性區(qū)塊列表用以記錄依照上述時間順序由前往后相鄰的N個上述音頻幀之間具有上述頻譜相連性的上述頻譜指數(shù)范圍。3.如權(quán)利要求2所述的音頻信號的信號提取方法,其中依照上述時間順序由后往前,尋找相鄰N個上述音頻幀之間的上述頻譜相連性的步驟包括: 比較第N個上述音頻幀與第N-1個上述音頻幀兩者的上述信號區(qū)塊列表,而獲得上述第N個音頻幀與上述第N-1個音頻幀各自的上述第一相連性區(qū)塊列表;以及 比較第j個上述音頻幀的上述第一相連性區(qū)塊列表與第j_l個上述音頻幀的上述信號區(qū)塊列表,而獲得上述第j-ι個音頻幀的上述第一相連性區(qū)塊列表,其中,j為正整數(shù)且2 ^ j ^ N-104.如權(quán)利要求3所述的音頻信號的信號提取方法,其中依照上述時間順序由前往后,尋找相鄰N個上述音頻幀之間的上述頻譜相連性的步驟包括: 將上述N個音頻幀中的第I個上述音頻幀與第2個上述音頻幀兩者的上述第一相連性區(qū)塊列表,設(shè)定為上述第I個音頻幀與上述第2個音頻幀各自的上述第二相連性區(qū)塊列表;以及 比較第k個上述音頻幀的上述第二相連性區(qū)塊列表與第k+Ι個上述音頻幀的上述第一相連性區(qū)塊列表,而獲得上述第k+Ι個音頻幀的上述第二相連性區(qū)塊列表,其中k為正整數(shù)且2彡k彡N-105.如權(quán)利要求2所述的音頻信號的信號提取方法,其中在對上述N個音頻幀執(zhí)行上述頻譜相連性運算的步驟之后,還包括: 依據(jù)每一上述音頻幀被取出來執(zhí)行上述頻譜相連性運算的次數(shù),將每一次所獲得的上述第二相連性區(qū)塊列表中所記錄的上述頻譜指數(shù)范圍進行或邏輯運算,而獲得最終相連性區(qū)塊列表。6.如權(quán)利要求5所述的音頻信號的信號提取方法,其中將每一上述音頻幀中與其相鄰上述音頻幀之間具有上述頻譜相連性的信號判定為理想信號的步驟包括: 依據(jù)每一上述音頻幀的上述最終相連性區(qū)塊列表中所記錄的上述頻譜指數(shù)范圍,以提取每一上述音頻幀在頻域上的上述頻譜數(shù)據(jù)中,獲得具有上述頻譜相連性的信號,并將其判定為上述理想信號。7.如權(quán)利要求1所述的音頻信號的信號提取方法,其中獲得每一上述音頻幀的上述頻譜數(shù)據(jù)的步驟包括: 轉(zhuǎn)換每一上述音頻幀為頻域信號; 對每一上述音頻幀的上述頻域信號執(zhí)行短時區(qū)背景估計法來獲得估計值;以及 基于上述估計值,對上述頻域信號執(zhí)行濾除操作,藉以獲得每一上述音頻幀的上述頻譜數(shù)據(jù)。8.如權(quán)利要求7所述的音頻信號的信號提取方法,其中獲得每一上述音頻幀的上述頻譜數(shù)據(jù)的步驟還包括: 對每一上述音頻幀的上述頻域信號執(zhí)行語音活性檢測;以及 基于上述語音活性檢測的結(jié)果以及上述估計值,對上述頻域信號執(zhí)行上述濾除操作,藉以獲得每一上述音頻幀的上述頻譜數(shù)據(jù)。9.一種音頻信號的信號提取裝置,包括: 處理單元;以及 存儲單元,耦接至上述處理單元,且包括多個模塊,其中上述處理單元驅(qū)動上述多個模塊來檢測音頻信號中的理想信號,上述多個模塊包括: 轉(zhuǎn)換模塊,轉(zhuǎn)換上述音頻信號為多個音頻幀,其中上述多個音頻幀依時間順序排列;以及 運算模塊,獲得每一上述音頻幀的頻譜數(shù)據(jù),并且分別以每一上述音頻幀作為當(dāng)前音頻幀,依上述時間順序取出N個上述音頻幀各自的上述頻譜數(shù)據(jù),并且對上述N個音頻幀執(zhí)行一頻譜相連性運算,其中上述頻譜相連性運算包括:基于每一上述N個音頻幀所包括的上述頻譜數(shù)據(jù),獲得每一上述N個音頻幀的信號區(qū)塊列表,其中上述信號區(qū)塊列表用以記錄存在有信號值的頻譜指數(shù)范圍;以及依據(jù)每一上述音頻幀的上述信號區(qū)塊列表,尋找每一上述音頻幀與其相鄰的上述音頻幀之間的頻譜相連性;并且,上述運算模塊將每一上述音頻幀中與相鄰上述音頻幀之間具有上述頻譜相連性的信號判定為上述理想信號。10.如權(quán)利要求9所述的音頻信號的信號提取裝置,其中上述運算模塊依據(jù)上述N個音頻幀各自的上述信號區(qū)塊列表,依照上述時間順序由后往前,尋找相鄰N個上述音頻幀之間的上述頻譜相連性,而獲得上述N個音頻幀各自的第一相連性區(qū)塊列表,其中上述第一相連性區(qū)塊列表用以記錄依照上述時間順序由后往前相鄰的N個上述音頻幀之間具有上述頻譜相連性的上述頻譜指數(shù)范圍;且 上述運算模塊依據(jù)上述N個音頻幀各自的上述第一相連性區(qū)塊列表,依照上述時間順序由前往后,尋找相鄰N個上述音頻幀之間的上述頻譜相連性,而獲得上述N個音頻幀各自的第二相連性區(qū)塊列表,其中上述第二相連性區(qū)塊列表用以記錄依照上述時間順序由前往后相鄰的N個上述音頻幀之間具有上述頻譜相連性的上述頻譜指數(shù)范圍。11.如權(quán)利要求10所述的音頻信號的信號提取裝置,其中 上述運算模塊比較第N個上述音頻幀與第N-1個上述音頻幀兩者的上述信號區(qū)塊列表,而獲得上述第N個音頻幀與上述第N-1個音頻幀各自的上述第一相連性區(qū)塊列表;以及上述運算模塊比較第j個上述音頻幀的上述第一相連性區(qū)塊列表與第j-ι個上述音頻幀的上述信號區(qū)塊列表,而獲得上述第j-ι個音頻幀的上述第一相連性區(qū)塊列表,其中,j為正整數(shù)且2彡j彡N-1 ;且 上述運算模塊將上述N個音頻幀中的第I個上述音頻幀與第2個上述音頻幀兩者的上述第一相連性區(qū)塊列表,設(shè)定為上述第I個音頻幀與上述第2個音頻幀各自的上述第二相連性區(qū)塊列表;以及上述運算模塊比較第k個上述音頻幀的上述第二相連性區(qū)塊列表與第k+Ι個上述音頻幀的上述第一相連性區(qū)塊列表,而獲得上述第k+Ι個音頻幀的上述第二相連性區(qū)塊列表,其中k為正整數(shù)且2彡k彡N-1。12.如權(quán)利要求10所述的音頻信號的信號提取裝置,其中上述運算模塊依據(jù)每一上述音頻幀被取出來執(zhí)行上述頻譜相連性運算的次數(shù),將每一次所獲得的上述第二相連性區(qū)塊列表中所記錄的上述頻譜指數(shù)范圍進行或邏輯運算,而獲得最終相連性區(qū)塊列表。13.如權(quán)利要求12所述的音頻信號的信號提取裝置,其中上述運算模塊依據(jù)每一上述音頻幀的上述最終相連性區(qū)塊列表中所記錄的上述頻譜指數(shù)范圍,以提取每一上述音頻幀在頻域上的上述頻譜數(shù)據(jù)中,獲得具有上述頻譜相連性的信號,并將其判定為上述理想信號。14.如權(quán)利要求9所述的音頻信號的信號提取裝置,其中上述模塊還包括:背景估計模塊,其中, 上述轉(zhuǎn)換模塊轉(zhuǎn)換每一上述音頻幀為頻域信號; 上述背景估計模塊對每一上述音頻幀的上述頻域信號執(zhí)行短時區(qū)背景估計法來獲得估計值; 上述運算模塊基于上述估計值,對上述頻域信號執(zhí)行濾除操作,藉以獲得每一上述音頻幀的上述頻譜數(shù)據(jù)。15.如權(quán)利要求14所述的音頻信號的信號提取裝置,還包括: 語音活性檢測模塊,對每一上述音頻幀的上述頻域信號執(zhí)行語音活性檢測; 其中,上述運算模塊基于上述語音活性檢測結(jié)果以及上述估計值,對上述頻域信號執(zhí)行上述濾除操作,藉以獲得每一上述音頻幀的上述頻譜數(shù)據(jù)。
【文檔編號】G10L25/18GK106098079SQ201510381774
【公開日】2016年11月9日
【申請日】2015年7月2日
【發(fā)明人】許宗奇
【申請人】智原科技股份有限公司