專利名稱:基于內(nèi)容的音頻分析系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明提供基于內(nèi)容的自動音頻分析系統(tǒng)及其方法。更具體地,提供一種從音頻片段中確定特定內(nèi)容的位置信息的音頻分析系統(tǒng)及其方法。
背景技術(shù):
隨著技術(shù)的進步,近年來越來越多的音頻信息以數(shù)字方式儲存。為使這些信息能被有效地應(yīng)用,使人們能夠快速、準確地找到所需要的信息,有必要建立一套有效的音頻檢索系統(tǒng)。
音頻檢索是指從音頻資源中找出滿足用戶需求的特定音頻的過程。目前,對于音頻的檢索大多是基于人工輸入的屬性和描述來進行的,但是隨著音頻資源的豐富以及人們對音頻搜索需求的增長,這種方式搭建的檢索系統(tǒng)已經(jīng)不能很好地完成所需的任務(wù)。因此,需要研究基于內(nèi)容的音頻檢索,其基本思想是通過分析音頻中的音頻特征和上下文聯(lián)系來進行檢索。
發(fā)明內(nèi)容
本發(fā)明提供一種基于內(nèi)容的自動音頻分析系統(tǒng)及其方法。
本發(fā)明的基于內(nèi)容的自動音頻分析系統(tǒng)包括音頻流獲取模塊,用以依據(jù)一定解碼規(guī)則從外部音頻源獲取音頻流;音頻流分段模塊,用以對從音頻流獲取模塊獲取的音頻流進行分段,使得分段后的每個段落具有單一的聲學(xué)特征;音頻流類型判別模塊,用以對從音頻流分段模塊輸出的具有單一聲學(xué)特征的音頻流進行分析,得到其確定的聲學(xué)特征;語音流分析模塊,用以對音頻流類型判別模塊判別出的聲學(xué)特征為語音的音頻流進行識別得到拼音圖;基于拼音序列的關(guān)鍵詞檢索模塊,用以對語音流分析模塊得到的拼音圖進行檢索,對感興趣的關(guān)鍵詞,得到該關(guān)鍵詞在音頻流中的位置。
如圖1所示的基于內(nèi)容的自動音頻分析系統(tǒng),其中,音頻流獲取模塊100,依據(jù)一定解碼規(guī)則從外部音頻源獲取音頻流。外部音頻源可以是音頻文件101,可以是視頻文件102,也可以是音頻輸入設(shè)備103。對于音頻文件和視頻文件,需要按照一定的解碼規(guī)則對文件進行解碼,得到只包含數(shù)據(jù)部分的音頻流;對于音頻輸入設(shè)備,如麥克風(fēng),需要提供該設(shè)備到音頻分析系統(tǒng)的接口,從而得到只包含數(shù)據(jù)部分的音頻流。得到的音頻流送入音頻流分段模塊進行下一階段的處理。
音頻流分段模塊200,對從音頻流獲取模塊獲取的音頻流進行分段。分段后,每個分段都具有單一的聲學(xué)特征。對音頻流分段需要首先通過能量方差201、能量202兩個單元尋找音頻流中的靜音點,靜音點是通過計算音頻信號的能量和能量方差得到的。當音頻信號的能量值小于特定閾值時,系統(tǒng)判定找到音頻流中的靜音點;當音頻信號能量值的方差值小于特定閾值時,系統(tǒng)判定音頻流中存在靜音點,在確定音頻流中存在靜音點后,計算音頻信號能量值的方差,當音頻信號能量值的方差大于特定閾值時,確定音頻流中靜音段結(jié)束,至此確定找到音頻流中的靜音點。201、202兩個單元的輸出的信息經(jīng)過綜合,得出統(tǒng)一的分割點信息。將已知靜音點的音頻流送入音頻特征檢測單元203,以得到更細致的音頻變化點。通過計算在音頻流中取得的相鄰音頻片段的特征差異度值,可以判定音頻特征的變化點。當特征差異度值超過特定閾值后確定音頻特征變化點存在。203單元輸出的每個分段都已具有單一的聲學(xué)特征,但是由于203單元對音頻處理原理的限制,此時得到的分割信息會過于精細,因此需要進行分段點合并單元204。204單元會檢測到相鄰分段中聲學(xué)特性的變化情況,如果發(fā)現(xiàn)相鄰分段的聲學(xué)特性十分相似,則判定這兩個分段應(yīng)該合并。分段后的音頻流被送入音頻流類型判斷模塊以判斷該分段的具體類型。
音頻流類型判別模塊300,對從音頻流分段模塊輸出的具有單一聲學(xué)特征的音頻流進行分析,得到其確定的聲學(xué)特征。分析的方法有兩種,根據(jù)時域特征分類單元301和根據(jù)頻域特征分類單元302分別根據(jù)時域和頻域特征對音頻流的特征進行分析。301單元通過過零率、短時能量、短時能量均方差、靜音幀比、子頻帶能量分布中的一種時域特征或幾種時域特征來判斷單一音頻流的類型;302單元通過線性預(yù)測倒譜系數(shù)、梅爾倒譜系數(shù)中的一種頻域特征或兩種頻域特征來判斷單一音頻流的類型。這兩個單元是并行處理音頻流的,兩個單元輸出的結(jié)果經(jīng)過置信度的判別之后合并,由此確定聲學(xué)特征的類型。具有單一聲學(xué)特性的音頻流經(jīng)過301和302兩個單元的判別,其聲學(xué)特性會被確定。
語音流分析模塊400,對音頻流類型判別模塊判別出的聲學(xué)特征為語音的音頻流進行識別得到拼音圖。在本發(fā)明的系統(tǒng)中的語音流分析模塊,主要對語音流部分進行分析,非語音流部分在經(jīng)過音頻流類型判別模塊后被拋棄,只有語音流被送入語音流分析模塊進行內(nèi)容的分析與識別。語音分析主要是基于分幀后的特征矢量分析進行的,因此,從音頻流類型判別模塊輸入的語音流首先進入特征矢量序列提取單元401,得到可以代表該語音流的特征矢量序列。在模型匹配單元402,該特征矢量序列與拼音的聲學(xué)模型進行匹配,對各個候選拼音序列分別計算拼音的匹配距離。加入拼音間統(tǒng)計依存關(guān)系單元403后,拼音序列的匹配距離被重新計算,得到多候選拼音構(gòu)成的拼音圖。此時的拼音圖還停留在粗化拼音圖404的階段。對粗化拼音圖進行自適應(yīng)修正和平滑修正后,便可以得到細化拼音圖405。405單元被存儲,至此對語音流的分析過程結(jié)束。
基于拼音序列的關(guān)鍵詞檢索模塊500,對語音流分析模塊得到的拼音圖進行檢索。拼音序列單元502存儲待檢索的拼音序列,拼音序列和單元405輸出的拼音圖同時被送入置信度計算單元501,進行置信度的計算。置信度的計算是利用前后向算法,計算拼音串的后驗概率,根據(jù)事先設(shè)定的置信度門限判斷該被檢索的拼音序列是否在該音頻片段中出現(xiàn)。如果經(jīng)判斷,該拼音序列在音頻片段中出現(xiàn),501單元可以同時得到該拼音序列在音頻流中的位置。
圖1表示本發(fā)明的基于內(nèi)容的自動音頻分析系統(tǒng)框圖。
具體實施例方式
參見圖1,對于音頻分析系統(tǒng)來說,音頻流獲取模塊是整個音頻分析的基礎(chǔ),是對數(shù)據(jù)進行預(yù)處理的過程。解碼器會針對不同的音頻流來源采取不同的解碼方式。音頻流的來源有多種,asf/wma/wmv/avi/wav/mpeg/mp3/aiff/pcm/raw/vox都是可能的音頻流來源,而每種來源中的音頻的采樣頻率和采樣位數(shù)都不盡相同例如電話音頻的采樣頻率一般為8000Hz,而CD的采樣頻率一般為44100Hz;采樣位數(shù)也會由于來源的不同從8位變化到24位。通過音頻流獲取模塊后,各種不同來源的音頻流都被統(tǒng)一成一種格式,該統(tǒng)一格式的音頻流具有相同的采樣頻率和采樣位數(shù),并且只包含有數(shù)字化的音頻本身的信息。
對于一段未知屬性的音頻流,需要分析其音頻特性,這時便需要利用音頻分段和音頻類型判別的方法。音頻分段和音頻類型判別是音頻檢索的基礎(chǔ),在語音識別的前端信號處理中有著十分重要的意義。在基于內(nèi)容的語音分析系統(tǒng)中,輸入語音分析模塊的應(yīng)該是聲學(xué)特征單一的音頻片斷。但是,真實環(huán)境下采集的語音流往往不滿足這樣的條件,而是多種特征混雜在一起的。以廣播新聞為例,其聲學(xué)環(huán)境復(fù)雜多變,句子邊界未知,如果不做前端處理便直接送入語音分析模塊,會大大降低語音分析模塊的性能。這就需要對語音流加以預(yù)處理,對語音流進行分割。
停頓作為一個重要的韻律特征,反映了語料的結(jié)構(gòu)信息。句子與句子中間以及語音與非語音中間通常會存在停頓,而停頓是由靜音來表征的,此時的音頻信號僅為背景噪聲。通過檢測靜音可以對連續(xù)音頻流進行分割,達到初步分段的目的。
通過能量的高低來判斷靜音點是否存在是最容易實現(xiàn)的一種方式,在音頻分段模塊中,我們使用能量作為判斷靜音點的依據(jù)之一。但是,由于現(xiàn)實情況中聲學(xué)環(huán)境不是一成不變的,也就是說靜音的能量有高有低,那么,僅僅依靠能量的高低來分段是不夠的,因此考慮使用能量的方差來作為分段的另一依據(jù)。
定義能量方差如下σ=1NΣi=1N(ei-μ)2,]]>其中μ=1NΣi=1Nei;]]>ei為各幀的能量;N為能量的幀數(shù),與停頓的長短有關(guān),即如果設(shè)定最小停頓為300ms,而能量的幀頻率為100時,N為30。
能量e用下式計算e=1TΣt=1Tx2(t),]]>其中x(t)為第t個采樣點,T為每幀包含的總的采樣點數(shù)目。
設(shè)定門限Tvar,以N為窗長計算窗內(nèi)能量方差。門限Tvar的計算方法如下
Tvar=α·log10σglobal,σglobal為整個音頻流范圍內(nèi)的方差,α為比例因子,取值0.7-1.0之間。
若得到的方差值大于設(shè)定的門限,則說明該段音頻中沒有靜音。以一定的步長滑動窗口,重新計算能量方差。若得到的能量方差值小于門限值,則說明窗內(nèi)信號含有靜音點。為了找到靜音的結(jié)束點,不斷增大窗的長度,直到計算出的能量方差大于門限為止,至此找到一個靜音點。之后把窗長重新設(shè)為N,開始下一次查找。如此可以找到音頻流中所有靜音點。各個靜音點則把連續(xù)音頻流分割成各音頻段,之后可以以音頻段為單位進行進一步的處理。
檢測音頻特性的變化點的本質(zhì)是計算兩個模型之間的距離。首先將音頻信號用聲學(xué)特征矢量進行建模,然后計算兩個相鄰窗之間聲學(xué)特征矢量的距離。直接計算聲學(xué)特征矢量的距離是難以進行的,因此需要采取間接的方式。通常認為,這樣得到的聲學(xué)特征矢量滿足高斯分布,所以考慮首先對窗內(nèi)的聲學(xué)特征矢量用高斯分布來擬合,然后計算兩個高斯分布的距離。那么計算聲學(xué)特征矢量的距離便轉(zhuǎn)化為計算統(tǒng)計模型的距離?,F(xiàn)在是計算兩個統(tǒng)計模型的距離,所以有很多度量距離的方法。
假設(shè)現(xiàn)有兩個高斯分布,分別是N(μ1,∑1)和N(μ2,∑2),幾種常見的計算高斯分布距離的方法如下Kullback-Leibler-2 distancedKL=12(μ1-μ2)T(Σ1-1+Σ2-1)(μ1-μ2)+12tr(Σ1-1Σ2+Σ2-1Σ1-2I)]]>Mahalanobis distance
dM=12(μ1-μ2)T(Σ1Σ2)-1(μ1-μ2)]]>Bhattacharyya distancedB=14(μ1-μ2)T(Σ1+Σ2)-1(μ1-μ2)+12log|Σ1+Σ2|2|Σ1Σ2|]]>計算模型距離可以使用但是并不局限使用上面三種方法,在這里我們使用Kullback-Leibler-2距離計算兩個模型之間的距離。
顯然如果兩個分布的距離值很大,則說明很可能是一個聲學(xué)特征跳變點,而分布的距離很小則說明這兩個部分處于相似的聲學(xué)環(huán)境當中,聲學(xué)特性應(yīng)該相同。
在一個連續(xù)的音頻信號流上,用兩個相鄰的窗各取一段信號,將每窗內(nèi)信號特征矢量擬合為一個高斯分布,計算這兩個高斯分布間的距離。然后按一定的步長移動這兩個窗口,再次計算兩窗的距離,從而得到一條距離測度曲線。最后按照一定的門限設(shè)置規(guī)則找出曲線上可能的聲學(xué)變化點。
該模塊對環(huán)境的改變比較敏感,召回率很高,但是同時也會檢測出很多冗余點,造成虛警率過高。正是由于檢測音頻特性變化點單元的這個特性,分段點合并單元的設(shè)置才是有必要的。
分段點合并單元是在已經(jīng)確定分割點的情況下,判斷兩個連續(xù)音頻段是否可以合并。
假設(shè)x1,x2,…xN~N(μ,∑),假設(shè)在音頻片斷中只包含一個分割點,i時刻發(fā)生跳變,把整個音頻段分為前后兩個部分,對分割后的兩個部分,有x1,x2,…xi~N(μ1,∑1)和xi+1,xi+2,…xN~N(μ2,∑2)
∑、∑1、∑2分別是所有音頻數(shù)據(jù)、前i個音頻數(shù)據(jù)、后N-i個音頻數(shù)據(jù)的協(xié)方差矩陣。
那么可以把判斷是否應(yīng)當合并看作是一個模型選擇問題。模型之一是把所有音頻數(shù)據(jù)用一個高斯分布來描述;模型之二是以分割點為界,將音頻數(shù)據(jù)分成兩個部分,分別用一個高斯分布來描述。兩個模型的BIC值可以用下面的式子來表示BIC=Nlog|Σ|-N1log|Σ1|-N2log|Σ2|-12λ(d+12d(d+1)logN)]]>其中,N、N1、N2分別是描述該高斯分布的特征矢量數(shù),d是矢量空間的維數(shù),λ是一個懲罰因子,一般取值為1。
如果BIC值小于0,則認為兩個音頻段是屬于同一分布,應(yīng)該合并,反之則不合并。
對于上式中的懲罰因子λ也可以有不同的取值,這樣可以根據(jù)不同的情況設(shè)定不同的λ值,以期得到更優(yōu)的結(jié)果。
經(jīng)過合并后的分段點顯示了音頻流的特征信息。其中音頻特征為語音的部分供語音流分析模塊分析之用。
在語音流送入語音分析模塊之后,首先要對語音流提取特征矢量序列。語音特征有多種,如LPC系數(shù)、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、感知線性預(yù)測參數(shù)(Perceptual Linear Predictive,PLP)等等。在這里我們并不關(guān)心采用何種參數(shù),本發(fā)明可以適用任何一種特征參數(shù)。在這里我們采用MFCC系數(shù)為例。
這里采用的MFCC系數(shù)為14維,14維MFCC系數(shù)加上相應(yīng)的一階二階差分,以及其對數(shù)能量和對數(shù)能量的一階二階差分構(gòu)成了45維的特征矢量。分幀提取的特征矢量組合在一起構(gòu)成了特征矢量序列。
模型匹配單元可以采用的聲學(xué)模型同樣有多種單音子模型(Monophone)、雙音子模型(Biphone)、三音子模型(Triphone)或者更多音子模型。這里為了敘述的方便采用單音子模型。同時在模型匹配單元中加入音素語言模型,即利用拼音間的統(tǒng)計依存關(guān)系輔助模型匹配,以期得到更好的拼音圖的結(jié)果。
模型匹配單元可以得到粗化的拼音圖。在得到粗化拼音圖之后,可以采用自適應(yīng)方法和平滑方法對拼音圖進行修正,以使得拼音圖可以更好地反映音頻流攜帶的信息。常見的自適應(yīng)方法有最大后驗概率自適應(yīng)(Maximum A Posteriori,MAP)和最大似然線性回歸自適應(yīng)(Maximum Likelihood Linear Regression,MLLR),這里采用MLLR自適應(yīng)方法。這樣便可以得到細化的拼音圖。該拼音圖可以用作關(guān)鍵詞檢索。
關(guān)鍵詞檢索系統(tǒng)一般分為如下兩類一是單階段系統(tǒng),搜索在關(guān)鍵詞模型和非關(guān)鍵詞模型(或者稱為廢料模型)并聯(lián)的網(wǎng)絡(luò)上進行。當關(guān)鍵詞改變時,系統(tǒng)必須對語音流再次進行分析,在對同以音頻流進行多次檢索時,檢索速度相對較慢,因此不適合用戶需要反復(fù)修改查詢條件的場合下使用。
二是兩階段系統(tǒng)。第一階段為預(yù)處理階段,通過語音分析模塊將語音流數(shù)據(jù)轉(zhuǎn)化為拼音圖或者詞圖或者文本,對每段音頻流都只需要運行一次,以后為響應(yīng)用戶的檢索只需在拼音圖或者詞圖或者文本中查找匹配。
本系統(tǒng)中的音頻檢索任務(wù),是在數(shù)據(jù)庫一定的情況下,根據(jù)不同的查詢請求返回相應(yīng)的結(jié)果,因此考慮采取兩階段系統(tǒng)作為系統(tǒng)方案。
前面我們已經(jīng)得到了細化的拼音圖,此時只是需要輸入待檢索的拼音序列,和細化的拼音圖一起處理,便可以得到檢索的結(jié)果。
檢索時,利用前后向算法計算待檢索的拼音序列的后驗概率,從而進行置信度的計算,之后根據(jù)事先設(shè)定的置信度門限判斷該音頻片段中是否出現(xiàn)被檢索的拼音序列。如果存在該拼音序列,可以同時得到待檢索拼音序列在音頻流中的位置。
權(quán)利要求
1.一個基于內(nèi)容的音頻分析系統(tǒng),用以通過對音頻信號的分析,滿足不同的基于內(nèi)容的檢索需求,該系統(tǒng)包括一個音頻流獲取模塊,用以依據(jù)一定解碼規(guī)則從外部音頻源獲取音頻流;一個音頻流分段模塊,用以對從音頻流獲取模塊獲取的音頻流進行分段,使得分段后的每個部分具有單一的聲學(xué)特征;一個音頻流類型判別模塊,用以對從音頻流分段模塊輸出的具有單一聲學(xué)特征的音頻流進行分析,得到其確定的聲學(xué)特征;一個語音流分析模塊,用以對音頻流類型判別模塊判別出的聲學(xué)特征為語音的音頻流進行識別得到拼音圖;一個基于拼音序列的關(guān)鍵詞檢索模塊,用以對語音流分析模塊得到的拼音圖進行檢索,對感興趣的關(guān)鍵詞,得到該關(guān)鍵詞在音頻流中的位置。
2.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流獲取模塊中的外部音頻源是音頻文件、視頻文件、音頻輸入設(shè)備其中之一。
3.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流獲取模塊中的外部音頻源的采樣率范圍從8000Hz到44100Hz。
4.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流獲取模塊中的外部音頻源的采樣位數(shù)的范圍從8位到24位。
5.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流獲取模塊中的一定解碼規(guī)則包括對asf/wma/wmv/avi/wav/mpeg/mp3/aiff/pcm/raw/vox文件的解碼規(guī)則。
6.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流獲取模塊中的音頻流是raw格式數(shù)據(jù)。
7.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流分段模塊包括三個子模塊靜音點檢測子模塊,從音頻流中檢測靜音點,以對音頻流進行分段;音頻特征變換點檢測子模塊,從音頻流中檢測音頻特征變化點以對音頻流進行分段;分段點置信度判斷子模塊,通過BIC準則判斷分段點合理性、去除不合理分段點以對音頻流進行分段。
8.如權(quán)利要求7所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于靜音點檢測子模塊中音頻信號的靜音點,是通過計算音頻信號的能量值得到的;當音頻信號的能量值小于特定閾值時,確定找到音頻流中的靜音點。
9.如權(quán)利要求8所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于靜音點檢測子模塊中音頻信號能量值的特定閾值,是通過對一完整音頻信號片段的能量值估計得到的。
10.如權(quán)利要求7所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于靜音點檢測子模塊中音頻信號的靜音點,還允許通過計算音頻信號能量值的方差值得到,具體方式為當音頻信號能量值的方差值小于特定閾值時,確定音頻流中存在靜音點;在確定音頻流中存在靜音點后,計算音頻信號能量值的方差,當音頻信號能量值的方差大于特定閾值時,確定音頻流中靜音段結(jié)束,確定找到音頻流中的靜音點。
11.權(quán)利要求10中所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于靜音點檢測子模塊中音頻信號能量值的方差值的特定閾值,是通過對一完整音頻信號片段的能量值的方差值估計得到的。
12.如權(quán)利要求7所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻特征變換點檢測子模塊中的音頻特征變化點,是通過在音頻流中取得相鄰音頻片段、計算兩音頻片段的音頻特征矢量序列差異度的值得到的;當差異度的值達到特定閾值后確定音頻特征變化點。
13.如權(quán)利要求12所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻特征變換點檢測子模塊中的輸入音頻段的特征矢量序列,是通過對輸入音頻段提取音頻特征參數(shù)得到的。
14.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于音頻流類型判別模塊包含兩個子模塊時域分析子模塊,通過分析音頻的時域特征對音頻流進行分類;頻域分析子模塊,通過分析音頻的頻域特征對音頻流進行分類。
15.如權(quán)利要求14所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于時域分析子模塊中的音頻的時域特征,包括過零率、短時能量、短時能量均方差、靜音幀比、子頻帶能量分布中的一種時域特征或幾種時域特征。
16.如權(quán)利要求14所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于時域分析子模塊中的音頻的頻域特征,包括線性預(yù)測倒譜系數(shù)、梅爾倒譜系數(shù)中的一種時域特征或兩種頻域特征。
17.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于語音流分析模塊包括三個子模塊特征矢量提取子模塊、模型匹配子模塊、模型更新子模塊。
18.如權(quán)利要求17所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于特征矢量提取子模塊對語音流進行分幀處理,提取語音特征參數(shù)得到語音流的特征矢量序列。
19.如權(quán)利要求17所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于模型匹配子模塊將特征矢量序列和拼音的聲學(xué)模型進行匹配,以得到多候選拼音構(gòu)成的拼音圖。
20.如權(quán)利要求17所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于模型匹配子模塊還利用拼音間統(tǒng)計依存關(guān)系計算拼音序列的匹配距離,并對拼音的匹配距離進行排序,得到粗化拼音圖。
21.如權(quán)利要求17所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于模型更新子模塊對粗化拼音圖進行自適應(yīng)修正和平滑修正,得到細化拼音圖。
22.如權(quán)利要求1所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于基于拼音序列的關(guān)鍵詞檢索模塊,對檢索詞對應(yīng)的拼音序列進行置信度計算。
23.如權(quán)利要求22所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于基于拼音序列的關(guān)鍵詞檢索模塊利用前后向算法計算拼音串的后驗概率,以此來確定檢索詞的置信度。
24.如權(quán)利要求22所述的基于內(nèi)容的音頻分析系統(tǒng),其特征在于基于拼音序列的關(guān)鍵詞檢索模塊還包括根據(jù)不同應(yīng)用需要,確定不同置信度門限。
全文摘要
一個基于內(nèi)容的音頻分析系統(tǒng),用以對音頻信號的內(nèi)容進行深層次的分析,滿足不同的基于內(nèi)容的檢索需要。音頻分析系統(tǒng)包括音頻流獲取模塊、音頻流分段模塊、音頻流類型判別模塊、語音流分析模塊和基于拼音序列的關(guān)鍵詞檢索模塊。音頻流獲取模塊從外界獲取音頻流;獲取的音頻流送入音頻流分段模塊,對音頻流進行分割,使得分割后的每個分段都具有單一的聲學(xué)特征;單一特征的音頻流送入音頻流類型判別模塊進行分析,得到其特征類型;被確定為非語音的音頻片段被拋棄,被確定為語音的音頻片段送入語音流分析模塊進行分析,得到拼音圖;基于拼音序列的關(guān)鍵詞檢索模塊,實現(xiàn)對關(guān)鍵詞的檢索,得到該關(guān)鍵字在音頻流中的位置。
文檔編號G06F17/30GK101021854SQ20061014083
公開日2007年8月22日 申請日期2006年10月11日 優(yōu)先權(quán)日2006年10月11日
發(fā)明者張弛, 蘇磊, 鮑東山 申請人:鮑東山