本發(fā)明涉及一種自匹配top-n音頻事件識(shí)別信道自適應(yīng)方法,從應(yīng)用場(chǎng)景的角度講,屬于音頻事件識(shí)別技術(shù)領(lǐng)域;從技術(shù)實(shí)現(xiàn)的角度來(lái)講,亦屬于計(jì)算機(jī)科學(xué)與音頻處理技術(shù)領(lǐng)域。
背景技術(shù):
音頻事件識(shí)別系統(tǒng)在實(shí)際應(yīng)用中經(jīng)常由于錄制環(huán)境、采集設(shè)備、編碼方式的不同而產(chǎn)生信道失配問題,較為常見的一類是編碼差異引入的信道失配,信道自適應(yīng)方法是對(duì)信道失配中發(fā)生畸變的特征參數(shù)進(jìn)行修正,從而更加準(zhǔn)確的反應(yīng)原始語(yǔ)音的特征信息,信道自適應(yīng)通??煞譃樘卣饔蜃赃m應(yīng)、模型域自適應(yīng)和得分域自適應(yīng),可以選擇其中一個(gè)或多個(gè)進(jìn)行自適應(yīng)。
特征域自適應(yīng)是目前應(yīng)用最廣泛的信道自適應(yīng)方法。特征域信道自適應(yīng)方法可分為信道線性自適應(yīng)和信道非線性自適應(yīng),基于信道線性自適應(yīng)的方法一般較多而且效果比較好,通常為音頻識(shí)別系統(tǒng)的標(biāo)準(zhǔn)配置。其中較為典型的信道線性自適應(yīng)方法和信道非線性自適應(yīng)方法有:
1.倒譜均值減
倒譜均值減是一種廣泛應(yīng)用于語(yǔ)音識(shí)別中去除信道卷積噪聲的方法,該方法的本質(zhì)是把頻域上的卷積噪聲變換成倒譜域上的加性噪聲,當(dāng)在倒譜域的倒譜參數(shù)上減去均值時(shí),就可以去除卷積噪聲,在信道畸變模型為線性特性時(shí)該性能尤為突出。但是如果語(yǔ)音時(shí)長(zhǎng)較短或語(yǔ)音段較干凈,使用倒譜均值減方法效果就會(huì)不明顯,甚至有可能導(dǎo)致系統(tǒng)性能下降。而且當(dāng)信道畸變?yōu)榉蔷€性失真的時(shí)候,倒譜均值減的有效性也會(huì)受到一定限制。
2.倒譜均值方差規(guī)整
倒譜方差規(guī)整進(jìn)一步對(duì)倒譜域特征參數(shù)的方差進(jìn)行規(guī)整。倒譜均值減和倒譜方差規(guī)整合在一起,稱為倒譜均值方差規(guī)整。倒譜均值方差規(guī)整思路和實(shí)現(xiàn)方式簡(jiǎn)單,在語(yǔ)音識(shí)別方面取得了較好的成效,但是對(duì)于非線性失真的信道畸變效果不是非常明顯。
3.矢量泰勒級(jí)數(shù)
矢量泰勒級(jí)數(shù)是一種相對(duì)比較實(shí)用的特征補(bǔ)償方法,一般是通過(guò)一個(gè)顯式的模型來(lái)描述帶噪語(yǔ)音信號(hào)的產(chǎn)生,如果純凈語(yǔ)音和噪聲分別服從高斯混合模型和單一高斯分布,利用矢量泰勒展開級(jí)數(shù)方法對(duì)非線性環(huán)境模型進(jìn)行線性化,保證含噪語(yǔ)音也服從高斯混合模型,假設(shè)訓(xùn)練以及測(cè)試語(yǔ)音信號(hào)均平穩(wěn),利用最大期望算法估計(jì)環(huán)境噪聲統(tǒng)計(jì)量,最后利用最小均方誤差準(zhǔn)則估計(jì)出純凈語(yǔ)音特征。矢量泰勒級(jí)數(shù)算法具有良好的抗噪性能,但是該方法一般都是離線完成并且用到的高斯混合模型一般為128甚至更高,不僅迭代次數(shù)多而且計(jì)算量大,一般很難滿足實(shí)時(shí)性要求。需要對(duì)經(jīng)典算法進(jìn)行改進(jìn)來(lái)提升其運(yùn)算效率和實(shí)時(shí)性。
4.特征映射
特征映射方法基于gmm-ubm模型,由說(shuō)話人模型合成方法發(fā)展而來(lái),該方法的目的是將信道相關(guān)的語(yǔ)音特征映射到一個(gè)信道無(wú)關(guān)的空間中,利用信道無(wú)關(guān)的特征向量進(jìn)行模型訓(xùn)練和識(shí)別。主要過(guò)程包括兩個(gè)方面:信道模型訓(xùn)練和特征變換。特征映射方法是目前應(yīng)用最廣泛的信道自適應(yīng)方法之一,作用在特征域,具有很高的靈活性和便捷性。
綜上所述,現(xiàn)有的特征映射方法在特征變換時(shí)只就得分最大的高斯分量進(jìn)行自適應(yīng),當(dāng)m為高斯分量個(gè)數(shù),會(huì)遺漏其余m-1個(gè)高斯分量所包含的信道信息,而且最大得分對(duì)于不同高斯數(shù)目的信道模型往往不同,泛化性一般較差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為解決不同k值信道模型下高斯分量個(gè)數(shù)top-n的選擇性問題和覆蓋信道信息不均勻的問題,提出一種自匹配top-n高斯分量的音頻事件信道自適應(yīng)方法。
本發(fā)明的設(shè)計(jì)原理為:本發(fā)明首先進(jìn)行數(shù)據(jù)預(yù)處理,預(yù)處理過(guò)程包括量化、采樣、預(yù)加重和加窗,然后進(jìn)行特征提取,也就是對(duì)所需音頻底層特征參數(shù)進(jìn)行抽取,之后進(jìn)行特征向量生成,也就是對(duì)提取的特征幀序列按照段長(zhǎng)和段移進(jìn)行壓縮得到段向量,接下來(lái)是特征映射,特征映射是將信道相關(guān)特征段向量映射為信道無(wú)關(guān)特征段向量的過(guò)程,特征映射fm模塊可分為fm訓(xùn)練和fm使用兩個(gè)部分,最后進(jìn)行模型訓(xùn)練和識(shí)別。
本發(fā)明的技術(shù)方案是通過(guò)如下步驟實(shí)現(xiàn)的:
步驟1,音頻識(shí)別的預(yù)處理過(guò)程主要包括預(yù)加重、分幀、加窗。在特征提取之前一般要對(duì)原始語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,提升高頻部分譜值用一階數(shù)字濾波器來(lái)實(shí)現(xiàn),之后需要進(jìn)行分幀,分幀可采用連續(xù)分段或交疊分段方法,但多采用交疊分段以保證相鄰幀之間的平滑性和連貫性,最后進(jìn)行加窗以減小語(yǔ)音幀的截?cái)嘈?yīng),降低語(yǔ)音幀兩端的變化坡度,需要選取合適的窗口長(zhǎng)度。
步驟2,采用mfcc進(jìn)行語(yǔ)音特征提取,將時(shí)域信號(hào)做fft變換,之后對(duì)它的對(duì)數(shù)能量譜依照mel刻度分布的三角濾波器組做卷積,計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量,再對(duì)濾波器組的輸出向量做離散余弦變換。
步驟3,在完成特征參數(shù)提取后,進(jìn)行特征向量生成。將連續(xù)n幀特征向量的每一維特征相加計(jì)算其均值或方差,提取幀特征的共性,弱化幀特征的差異性,相鄰片段間一般有n-m幀的交疊為了提高過(guò)渡的平滑性。
步驟4,基于自匹配top-n高斯分量加權(quán)映射規(guī)則的特征映射。將來(lái)自不同信道的特征通過(guò)某種方式映射到同一個(gè)與信道無(wú)關(guān)的特征空間上,用于解決在實(shí)際音頻事件識(shí)別系統(tǒng)中因?yàn)橛?xùn)練條件和測(cè)試條件不一致導(dǎo)致識(shí)別性能下降的問題。具體實(shí)現(xiàn)方法為:
步驟4.1,使用來(lái)自各類信道的數(shù)據(jù)訓(xùn)練得到一個(gè)與信道無(wú)關(guān)的ubm模型(wi,ui,δi),其中wi表示第i個(gè)高斯概率密度函數(shù)的權(quán)重,ui表示均值,δi表示方差。
步驟4.2,根據(jù)特定的信道情況選擇相對(duì)應(yīng)的訓(xùn)練數(shù)據(jù),然后利用各個(gè)信道的訓(xùn)練特征數(shù)據(jù)逐一應(yīng)用map方法自適應(yīng)出該特定信道下的gmm模型,用(wia,uia,δia)表示在信道a條件下的gmm模型。
步驟4.3,利用整個(gè)識(shí)別系統(tǒng)信道相關(guān)的訓(xùn)練和測(cè)試特征向量進(jìn)行信道模型判定,首先提取出輸入數(shù)據(jù)的特征參數(shù),然后根據(jù)對(duì)數(shù)似然度的大小判定該數(shù)據(jù)從屬的信道,我們假設(shè)該條數(shù)據(jù)屬于自信道a。
步驟4.4,采用自匹配top-n高斯分量加權(quán)的映射規(guī)則進(jìn)行特征變換,根據(jù)來(lái)源于信道a的測(cè)試數(shù)據(jù)的每一幀特征矢量,在信道a的高斯混合模型的數(shù)量m個(gè)高斯分量中選出排名得分前n的高斯分量n(uka,δka)(n<m,k=1,2,...,n),設(shè)定得分閾值為ε(0<ε<1),具體n的個(gè)數(shù)是利用得分閾值自匹配得到的,當(dāng)?shù)梅智皀的高斯分量的分?jǐn)?shù)加和達(dá)到閾值ε時(shí),則取該n值作為自匹配top-n高斯分量加權(quán)映射的個(gè)數(shù):
在n選定之后,分別逐一計(jì)算top-n個(gè)高斯分量在特征變換時(shí)的方差δka和均值uka對(duì)應(yīng)的權(quán)重βk,而且需要滿足
把線性加權(quán)之后的ubm和信道a條件下的gmm的基準(zhǔn)均值和方差分別記為uk*、δk*、uka*、δka*。得到自匹配top-n高斯分量加權(quán)特征映射公式:
步驟5,利用信道無(wú)關(guān)特征向量對(duì)整個(gè)音頻事件進(jìn)行模型的訓(xùn)練及識(shí)別。有益效果
相比于歸一基準(zhǔn)得分最大的方法,本發(fā)明不會(huì)遺漏剩下的m-1個(gè)高斯分量所包含的信道信息。
相比于top-1高斯分量特征映射方法和固定top-n高斯分量加權(quán)的特征映射方法,本發(fā)明有更好的應(yīng)用性和信道自適應(yīng)性能,可為網(wǎng)絡(luò)傳輸編碼差異影響下的音頻事件識(shí)別提供一種更好的信道自適應(yīng)方法。
附圖說(shuō)明
圖1為本發(fā)明的音頻事件識(shí)別系統(tǒng)原理框圖;
圖2為三種信道失配下不同k值的信道識(shí)別率;
圖3為失配1不同k值top-1和自匹配top-n方法信道自適應(yīng)性能;
圖4為失配2不同k值top-1和自匹配top-n方法信道自適應(yīng)性能;
圖5失配3不同k值top-1和自匹配top-n方法信道自適應(yīng)性能。
具體實(shí)施方式
為了更好的說(shuō)明本發(fā)明的目的和優(yōu)點(diǎn),下面結(jié)合實(shí)施例對(duì)本發(fā)明方法的實(shí)施方式做進(jìn)一步詳細(xì)說(shuō)明。
音頻事件數(shù)據(jù)選擇槍聲集作為輸入,設(shè)計(jì)并部署3項(xiàng)測(cè)試:(1)基準(zhǔn)系統(tǒng)參數(shù)選取信道匹配實(shí)驗(yàn)及信道失配性能對(duì)比實(shí)驗(yàn);(2)top-1高斯分量特征映射方法信道自適應(yīng)性能測(cè)試實(shí)驗(yàn);(3)自匹配top-n高斯分量加權(quán)特征映射方法實(shí)驗(yàn)。
下面將對(duì)上述3個(gè)測(cè)試流程逐一進(jìn)行說(shuō)明,所有測(cè)試均在同一臺(tái)計(jì)算機(jī)上完成,具體配置為:intel雙核cpu(主頻2.93ghz),4.00gb內(nèi)存,windows7操作系統(tǒng)。
1.基準(zhǔn)系統(tǒng)信道匹配及信道失配性能對(duì)比實(shí)驗(yàn)
先用信道匹配數(shù)據(jù)也就是某個(gè)信道的訓(xùn)練數(shù)據(jù)和該信道的測(cè)試數(shù)據(jù)對(duì)基準(zhǔn)系統(tǒng)在信道匹配條件下的識(shí)別準(zhǔn)確率進(jìn)行測(cè)試,例如信道1的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),然后用信道失配數(shù)據(jù),主要包括三種失配情況,分別是信道1的訓(xùn)練數(shù)據(jù)和信道2、3、4的測(cè)試數(shù)據(jù),分別測(cè)試基準(zhǔn)系統(tǒng)在這三種信道失配情況下的識(shí)別準(zhǔn)確率。通過(guò)綜合考慮系統(tǒng)的時(shí)間復(fù)雜度、識(shí)別率以及操作是否簡(jiǎn)單等因素,決定選取13維mfcc+2維energy、13維+2維一階差分、13維+2維二階差分共45維音頻特征作為音頻事件識(shí)別系統(tǒng)實(shí)驗(yàn)的基準(zhǔn)特征。
2.top-1高斯分量特征映射方法實(shí)驗(yàn)
2.1top-1高斯分量特征映射方法信道自適應(yīng)性能實(shí)驗(yàn)
首先設(shè)置不同的k值,k即為ubm-gmm信道模型中高斯分量的個(gè)數(shù),分別使用ubm-gmm訓(xùn)練信道模型,進(jìn)行模型判斷,之后利用top-1高斯分量特征映射方法進(jìn)行特征映射,最后采用adaboost對(duì)槍聲集進(jìn)行訓(xùn)練和識(shí)別,其中k值分別取4、8、16、32、64、128、256、512和1024,圖2給出三種信道失配情況下不同k值的系統(tǒng)信道識(shí)別率。
2.2不同top-n高斯分量的信道信息得分及其對(duì)應(yīng)的信道自適應(yīng)性能實(shí)驗(yàn)
首先取信道2下的一個(gè)測(cè)試文件,其中特征提取為許多幀數(shù)據(jù){x1,x2,…xn},在進(jìn)行正確的信道判定之后,計(jì)算在信道2模型下的前十幀數(shù)據(jù)的各個(gè)高斯分量概率輸出得分,列舉出得分最高的前六的概率輸出。如表1所示,高斯分量個(gè)數(shù)k取64。
表1測(cè)試幀數(shù)據(jù)屬于該信道模型下各高斯分量的得分
當(dāng)k=64時(shí),測(cè)試在失配1條件下top-1到top-6不同高斯分量加權(quán)映射下的系統(tǒng)識(shí)別性能,結(jié)果如表2所示。
表2失配1同一k值下不同top-n高斯分量方法的信道自適應(yīng)性能
3.自匹配top-n高斯分量加權(quán)特征映射方法實(shí)驗(yàn)。
基準(zhǔn)系統(tǒng)在實(shí)驗(yàn)1的三種信道失配條件下,分別利用自匹配top-n高斯分量加權(quán)特征映射方法對(duì)不同k值信道模型下的信道失配自適應(yīng)性能進(jìn)行測(cè)試,基準(zhǔn)系統(tǒng)的參數(shù)配置參考top-1高斯分量特征映射方法實(shí)驗(yàn),之后和top-1高斯分量特征映射方法信道自適應(yīng)性能進(jìn)行對(duì)比。自匹配top-n高斯分量加權(quán)的特征映射方法,采用得分閾值法為每幀特征數(shù)據(jù)進(jìn)行自匹配,匹配出對(duì)應(yīng)的特征映射高斯分量個(gè)數(shù)n。設(shè)置實(shí)驗(yàn)閾值ε=0.99999。
測(cè)試結(jié)果
對(duì)于測(cè)試(1),基準(zhǔn)系統(tǒng)一般在信道匹配的條件下有較好的識(shí)別性能,不管在哪種信道失配條件下,受信道失配的影響很大,系統(tǒng)的識(shí)別性能都急劇下降,由此可以得出信道失配自適應(yīng)的必要性。
對(duì)于測(cè)試(2),當(dāng)k值取4、8、16、32時(shí),系統(tǒng)的識(shí)別準(zhǔn)確率呈提升趨勢(shì),但是當(dāng)k=64時(shí),系統(tǒng)的準(zhǔn)確率開始下降,主要原因是訓(xùn)練樣本相對(duì)較少,從而導(dǎo)致k值比較高時(shí)建立的模型不夠精確??偟膩?lái)說(shuō),top-1高斯分量特征映射方法的信道補(bǔ)償效果比較好,甚至在k值合適的情況下能夠達(dá)到或超過(guò)信道匹配時(shí)的系統(tǒng)識(shí)別準(zhǔn)確率。
固定top-n高斯分量加權(quán)特征映射方法相對(duì)于top-1高斯分量特征映射方法的信道自適應(yīng)性能稍微好一些,原因是幀數(shù)據(jù)在特征空間中的分布一般由多個(gè)高斯分量共同決定,雖然多個(gè)高斯分量覆蓋信道信息更廣,但是隨著k值的增加,固定top-n個(gè)高斯分量的輸出得分會(huì)降低,包含的信道信息也會(huì)減少,而且top-n個(gè)數(shù)的選取也不能很好的適應(yīng)不同k值的信道模型,而自匹配top-n高斯分量加權(quán)的特征映射方法不僅避免了上述問題還可保持相當(dāng)?shù)男诺姥a(bǔ)償能力。
對(duì)于測(cè)試(3),自匹配top-n高斯分量加權(quán)特征映射方法能解決不同信道模型下高斯分量個(gè)數(shù)top-n的選擇性問題,而且平均2.0%的片段f值提升及1.36%的時(shí)長(zhǎng)f值提升,獲得比top-1以及固定top-n高斯分量加權(quán)特征映射方法更好的信道自適應(yīng)性能。
本發(fā)明提出一種自匹配top-n高斯分量的音頻事件信道自適應(yīng)方法。在音頻事件信道失配識(shí)別過(guò)程中,自匹配top-n高斯分量加權(quán)的特征映射方法可以解決不同k值信道模型下高斯分量個(gè)數(shù)top-n如何選擇和覆蓋信道信息不均勻的問題,應(yīng)用性和信道自適應(yīng)性能比top-1高斯分量特征映射方法和固定top-n高斯分量加權(quán)的特征映射方法更好,可為網(wǎng)絡(luò)傳輸編碼差異影響下的音頻事件識(shí)別提供一種較好的信道自適應(yīng)方法。