專利名稱:以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,特別是關(guān)于一種
利用一個同時考慮時間和頻率上變化的人耳聽覺模型來對語音質(zhì)量做客觀的評量。
背景技術(shù):
傳統(tǒng)上最可靠的語音質(zhì)量評量方式,是找來一大群受試者直接來聽各種測試語 音,并把語音質(zhì)量好壞分成五個等級做評分,得到一個主觀的平均意見分數(shù);但顯然的,這 種主觀評估語音質(zhì)量的方式相當耗費人力、金錢與時間,尤其當復雜的通信網(wǎng)路架構(gòu)有一 小部份地方改變了,整個主觀評量語音質(zhì)量好壞的實驗又必須重做一次,所以主觀評量方 式在實行上有相當困難。 在2004年五月,ITU(國際電信聯(lián)盟)發(fā)表了非侵入式的客觀語音質(zhì)量估測方法 的國際標準,P. 563。它將通過通信網(wǎng)路后受到損傷的語音,通過一口腔發(fā)聲模型分析,進而 估測出相對應的可能干凈語音。并將此估測的干凈語音與受損傷的語音送入人耳感知模型 進行分析與比較,估算出損傷語音的質(zhì)量。在超過48個主觀聽測實驗語料庫中,展現(xiàn)出令 人滿意的效能,對于窄頻語音電信網(wǎng)絡(luò)中的大部分語音失真都有良好的評估結(jié)果。
而在2007年,另一算法^肌9皿+也被提出,并被認可為美國在非侵入式的客觀語 音質(zhì)量估測方法的國家標準。它是利用語音在時域上的封包變動,并結(jié)合人耳聽覺對語音 分析的特性和大腦認知兩階段的處理,進而使用類神經(jīng)網(wǎng)絡(luò)反復地去調(diào)整系統(tǒng)中各模型的 參數(shù),由此估算出損傷語音的質(zhì)量。在大量的主觀聽測實驗語料庫中評測,效能甚至直逼 ITU的侵入式客觀語音質(zhì)量評量的國際標準,P. 862 :PESQ。 然而先前這兩個非侵入式的客觀語音質(zhì)量估測方法技術(shù),都有一些令人感到不甚 理想的缺點。在ITU發(fā)表出的國際標準,P.563中,是利用口腔發(fā)聲模型,預估出一相對應 的干凈語音再進行侵入式的客觀語音比較,此種方法的準確度將受限于口腔發(fā)聲模型的好 壞,而且并不近似人對語音質(zhì)量評量時的行為模式。而美國國家標準,ANIQUE+,分別考慮語 音在頻率上的特性以及時域上的封包變動,但大腦對聲音的解析其實是對語音的時、頻域 特性一起考慮,并非分別考慮。 由此可見,上述現(xiàn)有方式仍存在諸多缺失,實非一 良好的設(shè)計,因此亟待加以改良。
發(fā)明內(nèi)容
本發(fā)明的目的即在于提供一種客觀評量語音質(zhì)量好壞的系統(tǒng)以取代耗時及高成 本的主觀評量方式,并通過語音訊號在聽覺感知上的分析與研究,得到準確的語音質(zhì)量評 量分數(shù)。 為達到上述目的,本發(fā)明采取了以下技術(shù)方案 以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,包括以下步驟 步驟一 將輸入語音通過人耳聽覺模型處理,得到在時間軸及對數(shù)頻率軸上分布
7的二維聽覺頻譜圖; 步驟二將上述的二維聽覺頻譜圖經(jīng)過具有不同方向性,不同對數(shù)頻率上的變化率及不同時間上的變化率的二維時頻域脈沖響應的濾波器組后,其輸出得到具有維度分別為時間、對數(shù)頻率、在時間軸上波封的變化率及在對數(shù)頻率軸上波封的變化率的四維特征矩陣,接著在時間和對數(shù)頻率軸上取平均,得到rate-scale 二維圖像; 步驟三取得長時間干凈語音,并依照上述相同步驟計算得到干凈語音的rate-scale 二維圖像; 步驟四將干凈語音及輸入語音的rate-scale 二維圖像相減當做失真矩陣,并將此失真矩陣分割成數(shù)個區(qū)域,這些區(qū)域可以均勻或不均勻分割,然后為每個區(qū)域計算失真和,用來當做失真的特征參數(shù),如此得到一個失真的特征參數(shù)向量; 步驟五將此失真的特征參數(shù)向量經(jīng)過一個轉(zhuǎn)換方式而得到一個估算的主觀語音質(zhì)量分數(shù)。 達成上述發(fā)明目的的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,是先將語音送入一低階的耳蝸模型進行頻譜預估,再送入一高階的大腦皮質(zhì)模型進行頻譜解析。此兩階段組合成一個結(jié)合時域、頻域的人耳聽覺運算模型,本發(fā)明使用此聽覺模型來分析語音訊號并進行語音質(zhì)量預估。此聽覺模型是根據(jù)已知耳蝸的生物物理現(xiàn)象及大腦皮質(zhì)聽覺區(qū)的神經(jīng)反應而建立。這個多重解析的聽覺模型包含低階的聽覺感知現(xiàn)象(例如聽覺頻寬、頻率遮蔽等現(xiàn)象),及大腦皮質(zhì)聽覺區(qū)對頻譜的分析模式。"語音質(zhì)量"本身即是人類認知后的描述,此描述應包含更多重感知維度的描述。本發(fā)明使用其中最重要的三個特征參數(shù),即語音的可理解度(Intelligibility)、清晰度(Clarity)與自然度(Naturalness)。本發(fā)明利用聽覺模型來分析語音,萃取并量化上述三個語音特征參數(shù),賦予不同的權(quán)重來估測語音質(zhì)量。 此外,將代表可理解度、清晰度及自然度的三個特征參數(shù)轉(zhuǎn)換為語音質(zhì)量分數(shù)的方法也可以是用類神經(jīng)網(wǎng)絡(luò)的多層感知機(multilayer perc印trons)來進行這個轉(zhuǎn)換動作。作法是將代表可理解度、清晰度及自然度的三個特征參數(shù)當做一個已經(jīng)訓練好的多層感知機的輸入,再將多層感知機的輸出值當作估算的主觀語音質(zhì)量分數(shù)。所用多層感知機的訓練方式是收集足夠多種受損傷情況的受損傷語音,這些受損傷語音分別經(jīng)過人工標示語音質(zhì)量分數(shù),同時也求出每一個受損傷語音的代表可理解度、清晰度及自然度的三個特
征參數(shù),然后將代表可理解度、清晰度及自然度的三個特征參數(shù)當做輸入,其人工標示的語音質(zhì)量分數(shù)則當做期望輸出而成為一組訓練數(shù)據(jù),用這些訓練資料訓練多層感知機達到收斂條件為止。 本發(fā)明所提供的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,與其它現(xiàn)有技術(shù)相互比較時,更具有下列的優(yōu)點 1.本發(fā)明提供了一種可以取代耗時及高成本的主觀評量方式,通過語音訊號在聽覺感知上的分析與研究,得到準確的語音質(zhì)量評量分數(shù)。 2.本發(fā)明提供了一種套用同時考慮時、頻域特性的人耳聽覺模型去估算語音質(zhì)量,不同于傳統(tǒng)以口腔發(fā)聲模型為主的方法。因此,本發(fā)明亦可對感知編碼后的語音有較近似人類主觀結(jié)果的質(zhì)量估計。 3.本發(fā)明提供了一種在三個感知特征參數(shù)上對人類判斷語音質(zhì)量時的行為模式
8進行分析,以產(chǎn)生近似人類判斷語音質(zhì)量時的結(jié)果,因而將語音質(zhì)量與人類認知行為緊密連接,提供了語音質(zhì)量評估領(lǐng)域一個嶄新而有效的做法。
請參閱以下有關(guān)本發(fā)明較佳實施例的詳細說明及其附圖,將可進一步了解本發(fā)明的技術(shù)內(nèi)容及其目的功效;有關(guān)該實施例的附圖為 圖1為本發(fā)明所提供的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法的人耳聽覺模型中的第一個階段從人耳到中腦的頻譜估計流程圖; 圖2為該以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法的人耳聽覺模型中的大腦皮質(zhì)聽覺區(qū)二維時、頻域脈沖響應(STRF)的例圖; 圖3為該以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法的人耳聽覺模型中的第二個階段從中腦到大腦皮質(zhì)聽覺區(qū)對時域和頻域上的分析流程圖; 圖4為該以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法的人耳聽覺模型應用于非侵入式客觀語音質(zhì)量估測的完整流程圖;以及 圖5為該以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法的人耳聽覺模型應用于侵入式客觀語音質(zhì)量估測的完整流程圖;附圖標記
101基底膜耳蝸濾波器組分析階段102內(nèi)毛發(fā)細胞轉(zhuǎn)導階段103側(cè)向抑制階段104半波整流105時域積分器301二維帶通濾波器302四維401步驟一402步驟二403步驟三404步驟四501步驟一502步驟二503步驟三504步驟四
具體實施例方式
請參閱圖1所示,為本發(fā)明的人耳聽覺模型中的第一個階段從人耳到中腦的頻譜估計流程圖,主要包含三個階段第一個階段為基底膜耳蝸濾波器組分析101階段,是模擬耳蝸的基底膜經(jīng)由行進波的振動針對聲波訊號的頻率進行解析; 第二個階段為內(nèi)毛發(fā)細胞轉(zhuǎn)導102階段,是模擬耳蝸的內(nèi)毛發(fā)細胞將基底膜震動的壓力波轉(zhuǎn)換成神經(jīng)沖動的電位訊號;
第三個階段為側(cè)向抑制103階段,是模擬鄰近的神經(jīng)元彼此壓抑的效果。其中第
一個基底膜耳蝸濾波器組分析階段是做頻率分析,由于耳蝸對聲音頻率的解析呈對數(shù)分
布,因此以一組128個等分于對數(shù)頻率軸上互相重迭的帶通濾波器組來仿真耳蝸解析頻率
的功能。這些濾波器的中心頻率除以頻寬等于一固定常數(shù)Q,例如設(shè)定Q值為4。第二個內(nèi)
毛發(fā)細胞轉(zhuǎn)導階段是描述內(nèi)毛細胞做轉(zhuǎn)導的過程,又可以分為三個步驟 步驟一 用一個高通濾波器做微分將聲音的壓力波(淋巴液的位移)轉(zhuǎn)換成速
度; 步驟二 用一個雙彎曲函式(sigmoid function)模擬內(nèi)毛細胞的轉(zhuǎn)導函式;
步驟三用一個低通濾波器模擬內(nèi)毛細胞的神經(jīng)電流漏損(leakage)現(xiàn)象。
第三個側(cè)向抑制階段是描述耳蝸核(cochlear皿cleus)中鄰近的神經(jīng)元彼此 互相壓抑的現(xiàn)象,在此使用沿著對數(shù)頻率軸上的階差分器來模擬此現(xiàn)象,而后接的半波整 流104則用來模擬此側(cè)向抑制神經(jīng)元的非線性反應。此低階耳蝸模型最后所接的時域 積分器105則在描述中腦對神經(jīng)訊號在時間軸上的變化較遲鈍的現(xiàn)象。此模型最后的 輸出為在時間軸及對數(shù)頻率軸上分布的二維頻譜圖,在此稱之為聽覺頻譜圖(Auditory Spectrogram)。 根據(jù)神經(jīng)生理學的發(fā)現(xiàn),可以假設(shè)大腦皮質(zhì)聽覺區(qū)基本上是把中腦輸出的聽覺頻 譜圖當作二維圖像來進行處理。因此可將大腦神經(jīng)細胞模擬為具有二維時、頻域脈沖響應 (STRF :Spectro-Temporal Rec印tive Field)的濾波器組,不同的神經(jīng)細胞有不同的二維 脈沖響應。這個脈沖響應不但對二維時、頻域圖像在對數(shù)頻率上的變化率(scale)有選擇 性,在時間上的變化率(rate)也有選擇性。除此之外,神經(jīng)細胞對調(diào)頻(FM)信號的方向亦 有選擇性。圖2中展示了兩個STRF,具有左邊STRF的神經(jīng)細胞,將在中心頻率(1CF)對往 下移云力(downward)的FM信號(rate = 16Hz, scale = lcycle/octave)有最大反應。而 具有右邊STRF的神經(jīng)細胞,將在中心頻率(1CF)對往上移動(upward)的FM信號(rate = 32Hz, scale = 2cycle/octave)有最大反應。 請參閱圖3所示,為本發(fā)明的人耳聽覺模型中的第二個階段從中腦到大腦皮質(zhì)聽 覺區(qū)對時域和頻域上的分析流程圖,則描述了高階的大腦皮質(zhì)模型以及最后輸出數(shù)據(jù)的格 式。簡而言之,大腦對于來自中腦的二維圖像,根據(jù)在時間軸及對數(shù)頻率軸上的變化率進行 解析。因此,大腦皮質(zhì)聽覺區(qū)可視為一群個別具有不同rate及scale特性的二維帶通濾波 器301。其中一個二維濾波器(rate = 4Hz, scale = 0. 5cycle/octave)的脈沖響應亦顯 示于圖中。而這個大腦皮質(zhì)模型將產(chǎn)生四維302的輸出,這四個維度分別為time(時間)、 log. frequency (對數(shù)頻率)、rate (在時間軸上波封的變化率)及scale (在對數(shù)頻率軸上 波封的變化率)。此圖中僅畫出在某一特定時間的三維立方體,其余時間的三維立方體則 以...略過。之后,將對其四維輸出在時間和對數(shù)頻率軸上取平均,僅對個別帶通濾波器所 解析出的總能量進行分析,最后得到二維rate-scale的圖像(rate-scale plot)。此圖像 可視為大腦皮質(zhì)聽覺區(qū)受激時的能量分布圖。 請參閱圖4所示,為本發(fā)明的人耳聽覺模型應用于非侵入式客觀語音質(zhì)量估測的 完整流程圖,其步驟包含 步驟一401 :將受損傷的語音送入低階的耳蝸模型(Early Auditory Processing) 產(chǎn)生二維聽覺頻譜 步驟二 402 :將二維聽覺頻譜圖以高階的大腦皮質(zhì)模型 (CorticalSpectro-temporal Modulation Analysis)產(chǎn)生二維rate-scale的圖像;
步驟三403 :將rate-scale二維圖像與長時間平均的干凈語音模板的rate-scale 二維圖像在本發(fā)明所定義與三個特征參數(shù)(可理解度、清晰度與自然度)有高度相關(guān)的不 同的rate-scale區(qū)塊(Rate-scale Region Selection)上做比較(FeatureDistortion Calculation) 5 步驟四404 :將受損傷語音與長時間平均的干凈語音模板在這些rate-scale區(qū)塊 上的差異,通過多變量回歸分析(Multiple Regression)而對應至主觀的語音質(zhì)量分數(shù)。
前述的非侵入式客觀語音質(zhì)量估測方法的一個實施例是將取樣頻率為8000Hz的 受損語音送入人耳聽覺模型上兩個聽覺感知階段進行處理。第一個階段含有128個固定 常數(shù)Q(Q = 4)的帶通濾波器組用以仿真耳蝸對頻率的解析,以及最后所接的時域積分器 的時間常數(shù)設(shè)為0. 5ms用以描述中腦無法對快速的變化實時反應。第二個階段我們使用 108個二維帶通濾波器組來仿真大腦的分析功能,其scale (在對數(shù)頻率軸上波封的變化 率)及rate(在時間軸上波封的變化率)分別為〈0. 25、0. 5、 1、2、4、8〉cycle/octave及 〈2、4、8、16、32、64、128、256、512>Hz和〈downward、 upward〉的組合。最后得到的是time、 log. frequency、 rate及scale四維的輸出,之后對時間和對數(shù)頻率軸上取平均,得到二維 rate-scale的圖像。 將受損傷的語音與經(jīng)長時間平均后所得到的干凈語音模板的rate-scale 二維圖
像計算L2距離,并通過選取特定不同的rate-scale區(qū)塊,抽取出本發(fā)明所定義的三個影響
語音質(zhì)量的特征參數(shù)距離,并通過回歸函式去估算近似出主觀的語音質(zhì)量。 本案是選取2Hz《rate《32Hz禾口 0. 5cycle/oct《scale《4cycle/oct
的區(qū)域,來計算出代表可理解度的特征參數(shù)。另外,本案是選取32《rate《128Hz
和2《scale《8cycle/oct的區(qū)塊,來計算清晰度的特征參數(shù)。最后,本案是選取
128《rate《512Hz和0. 25《scale《8cyc/oct,來計算自然度的特征參數(shù)。 將這三個特征參數(shù),通過雙彎曲函式(sigmoid function)進行正規(guī)化處理,
使其個別失真量介于0與1之間。再使用復回歸分析的方法,將其對真實的主觀平均
意見分數(shù)做對應,由此估計出主觀語音質(zhì)量分數(shù),再由此計算估計值與主觀分數(shù)之間的
cross-correlation (交叉相關(guān)性),去評估此算法的效能。 以ITU-T Supp. 23語料庫中實驗一第一個男性語者語料為例,對可理解度、清晰 度、自然度三個特征參數(shù)的復回歸分析系數(shù)個別選取為0. 26、0. 04、1. 8,而估測的質(zhì)量分數(shù) 可由下列公式算出 5—估測分數(shù)=0.26(可理解度失真量)+0.04(清晰度失真量)+1.8(自然度失真 量)+0. 5 經(jīng)此公式算出的客觀語音質(zhì)量估測分數(shù)與主觀語音質(zhì)量分數(shù)的 cross-correlation可高達0. 85,優(yōu)于ITU標準P. 563對主觀語音質(zhì)量分數(shù)的 cross-correlation( = 0. 77)。 請參閱圖5所示,為本發(fā)明的人耳聽覺模型應用于侵入式客觀語音質(zhì)量估測的完 整流程圖,其步驟包含 步驟一 501 :將干凈語音及其受損傷狀況下的語音分別送入低階的耳蝸模型(Early Auditory Processing)產(chǎn)生聽覺頻譜圖; 步驟二 502 :將聽覺頻譜圖以高階的大腦皮質(zhì)模型(Cortical Spectro-temporalModulation Analysis)產(chǎn)生二維rate-scale的圖像;
步驟四503 :將兩者的rate-scale 二維圖像在本發(fā)明所定義與三個特征參數(shù) (可理解度、清晰度與自然度)有高度相關(guān)的不同的rate-scale區(qū)塊(Rate-scaleRegion Selection)上做比較(Feature Distortion Calculation); 步驟四504 :將兩者在這些rate-scale區(qū)塊上的差異,通過多變量回歸分析 (Multiple Regression)而對應至主觀的語音質(zhì)量分數(shù)。 前述的侵入式客觀語音質(zhì)量估測中的一個實施例,其作法與上述非侵入式客觀語 音質(zhì)量預估的實施例類似,只是其中的干凈語音模板的rate-scale 二維圖像僅用受損傷 的語音的相對參考語音來求取而得。 上列詳細說明乃針對本發(fā)明在以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法的可 行實施例進行具體說明,該實施例并非用以限制本發(fā)明的專利范圍,凡未脫離本發(fā)明的等 效實施或變更,均應包含于本發(fā)明的專利范圍中。
1權(quán)利要求
一種以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于其步驟包括步驟一將輸入語音通過人耳聽覺模型處理,得到在時間軸及對數(shù)頻率軸上分布的二維聽覺頻譜圖;步驟二將上述的二維聽覺頻譜圖經(jīng)過具有不同方向性,不同對數(shù)頻率上的變化率及不同時間上的變化率的二維時頻域脈沖響應的濾波器組后,其輸出得到具有維度分別為時間、對數(shù)頻率、在時間軸上波封的變化率及在對數(shù)頻率軸上波封的變化率的四維特征矩陣,接著在時間和對數(shù)頻率軸上取平均,得到rate-scale二維圖像;步驟三取得長時間干凈語音,并依照上述相同步驟計算得到干凈語音的rate-scale二維圖像;步驟四將干凈語音及輸入語音的rate-scale二維圖像相減當做失真矩陣,并將此失真矩陣分割成數(shù)個區(qū)域,這些區(qū)域可以均勻或不均勻分割,然后為每個區(qū)域計算失真和,用來當做失真的特征參數(shù),如此得到一個失真的特征參數(shù)向量;步驟五將此失真的特征參數(shù)向量經(jīng)過一個轉(zhuǎn)換方式而得到一個估算的主觀語音質(zhì)量分數(shù)。
2. 如權(quán)利要求1所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述步驟五的轉(zhuǎn)換方式的步驟包含步驟一 將失真的特征參數(shù)向量的每個特征參數(shù)各自經(jīng)過其相對應的轉(zhuǎn)換函數(shù); 步驟二 將上述每個特征參數(shù)的轉(zhuǎn)換函數(shù)的輸出各自乘上相對應的權(quán)重值,總和后再 加上一個偏移值而得到一個估算的主觀語音質(zhì)量分數(shù)。
3. 如權(quán)利要求2所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述轉(zhuǎn)換函數(shù)為雙彎曲函式。
4. 如權(quán)利要求1所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述步驟五的轉(zhuǎn)換方式的步驟包含將失真的特征參數(shù)向量的每個特征參數(shù)直接各自乘上相 對應的權(quán)重值,總和后再加上一個偏移值而得到一個估算的主觀語音質(zhì)量分數(shù)。
5. 如權(quán)利要求1所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述步驟五的轉(zhuǎn)換方式的步驟包含將失真的特征參數(shù)向量的每個特征參數(shù)當做一個已經(jīng)訓 練好的多層感知機的輸入,再將多層感知機的輸出值當作估算的主觀語音質(zhì)量分數(shù)。
6. 如權(quán)利要求1所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述步驟一將輸入語音通過人耳聽覺模型處理的步驟包含步驟一 將輸入語音在時域上通過一組分布于對數(shù)頻率軸上互相重迭的帶通濾波器組 來仿真耳蝸解析頻率的功能;步驟二 將帶通濾波器組的輸出各自通過一個高通濾波器做微分,將聲音的壓力波轉(zhuǎn) 換成速度;步驟三將上一步驟的輸出各自通過一個雙彎曲函式模擬內(nèi)毛細胞的轉(zhuǎn)導函式的作用;步驟四將上一步驟的輸出各自通過一個低通濾波器模擬內(nèi)毛細胞的神經(jīng)電流漏損現(xiàn)象;步驟五將上一步驟的輸出各自減去其相鄰頻道的輸出值,以此模擬鄰近的神經(jīng)元側(cè) 向抑制的現(xiàn)象;步驟六將上一步驟的輸出各自經(jīng)過半波整流,用來模擬側(cè)向抑制神經(jīng)元的非線性反應;步驟七將上一步驟的輸出各自通過時域積分器,用來仿真中腦對神經(jīng)訊號在時間軸 上的變化較遲鈍的現(xiàn)象。
7. 如權(quán)利要求1所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述步驟二中二維時頻域脈沖響應的濾波器組的產(chǎn)生步驟包含步驟一 頻域脈沖響應采用以Gaussian函數(shù)的二次微分當實部的單邊頻帶濾波器脈 沖響應;步驟二 時域脈沖響應采用以正弦曲線調(diào)變的Gamma函數(shù)當實部的單邊頻帶濾波器脈 沖響應;步驟三將步驟一的頻域脈沖響應與步驟二的時域脈沖響應相乘后取實部,當做對往 下移動的FM信號有最大反應的STRF ;步驟四將步驟一的頻域脈沖響應與步驟二的時域脈沖響應的共軛虛數(shù)相乘后取實部,當做對往上移動的FM信號有最大反應的STRF。
8. 如權(quán)利要求1所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于所 述步驟四中失真的特征參數(shù)向量,包含可理解度失真的特征參數(shù)、清晰度失真的特征參數(shù) 及自然度失真的特征參數(shù)。
9. 如權(quán)利要求8所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于從二維失真矩陣中,選取低頻帶的區(qū)域計算失真和,用來當做可理解度失真的特征參數(shù),其低頻帶的選擇方式為選取2Hz《rate《32Hz和0. 5cycle/oct《scale《4cycle/oct的 區(qū)塊。
10. 如權(quán)利要求8所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于從 二維失真矩陣中,選取中頻帶的區(qū)域計算失真和,用來當做清晰度失真的特征參數(shù),其中頻 帶的選擇方式為選取32《rate《128Hz和2《scale《8cycle/oct的區(qū)塊。
11. 如權(quán)利要求8所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于從 二維失真矩陣中,選取高頻帶的區(qū)域計算失真和,用來當做自然度失真的特征參數(shù),其高頻 帶的選擇方式為選取128《rate《512Hz和0. 25《scale《8cyc/oct的區(qū)塊。
12. —種以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于其步驟包括 步驟一 將輸入語音通過人耳聽覺模型處理,得到在時間軸及對數(shù)頻率軸上分布的二維聽覺頻譜圖;步驟二 將上述的二維聽覺頻譜圖經(jīng)過具有不同方向性,不同對數(shù)頻率上的變化率及 不同時間上的變化率的二維時頻域脈沖響應的濾波器組后,其輸出得到具有維度分別為時 間、對數(shù)頻率、在時間軸上波封的變化率及在對數(shù)頻率軸上波封的變化率的四維特征矩陣, 接著在時間和對數(shù)頻率軸上取平均,得到rate-scale 二維圖像;步驟三將參考用的干凈語音依照上述相同步驟計算得到干凈語音的rate-scale 二 維圖像;步驟四將參考用干凈語音及輸入語音的rate-scale 二維圖像相減當做失真矩陣,并 將此失真矩陣分割成數(shù)個區(qū)域,這些區(qū)域可以均勻或不均勻分割,然后每個區(qū)域計算失真 和,用來當做失真的特征參數(shù),如此得到一個失真的特征參數(shù)向量;步驟五將此失真的特征參數(shù)向量經(jīng)過一個轉(zhuǎn)換方式而得到一個估算的主觀語音質(zhì)量 分數(shù)。
13. 如權(quán)利要求12所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述步驟五的轉(zhuǎn)換方式的步驟包含步驟一 將失真的特征參數(shù)向量的每個特征參數(shù)各自經(jīng)過其相對應的轉(zhuǎn)換函數(shù); 步驟二 將上述每個特征參數(shù)的轉(zhuǎn)換函數(shù)的輸出各自乘上相對應的權(quán)重值,總和后再 加上一個偏移值而得到一個估算的主觀語音質(zhì)量分數(shù)。
14. 如權(quán)利要求13所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述轉(zhuǎn)換函數(shù)為雙彎曲函式。
15. 如權(quán)利要求12所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述步驟五的轉(zhuǎn)換方式的步驟包含將失真的特征參數(shù)向量的每個特征參數(shù)直接各自乘上 相對應的權(quán)重值,總和后再加上一個偏移值而得到一個估算的主觀語音質(zhì)量分數(shù)。
16. 如權(quán)利要求12所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述步驟五的轉(zhuǎn)換方式的步驟包含將失真的特征參數(shù)向量的每個特征參數(shù)當做一個已經(jīng) 訓練好的多層感知機的輸入,再將多層感知機的輸出值當作估算的主觀語音質(zhì)量分數(shù)。
17. 如權(quán)利要求12所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述步驟一將輸入語音通過人耳聽覺模型處理的步驟包含步驟一 將輸入語音在時域上通過一組分布于對數(shù)頻率軸上互相重迭的帶通濾波器組 來仿真耳蝸解析頻率的功能;步驟二 將帶通濾波器組的輸出各自通過一個高通濾波器做微分,將聲音的壓力波轉(zhuǎn) 換成速度;步驟三將上一步驟的輸出各自通過一個雙彎曲函式模擬內(nèi)毛細胞的轉(zhuǎn)導函式的作用;步驟四將上象;步驟五將上 向抑制的現(xiàn)象;步驟六將上 應;步驟七將上一步驟的輸出各自通過時域積分器,用來仿真中腦對神經(jīng)訊號在時間軸 上的變化較遲鈍的現(xiàn)象。
18. 如權(quán)利要求12所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述步驟二中二維時頻域脈沖響應的濾波器組的產(chǎn)生步驟包含步驟一 頻域脈沖響應采用以Gaussian函數(shù)的二次微分當實部的單邊頻帶濾波器脈 沖響應;步驟二 時域脈沖響應采用以正弦曲線調(diào)變的Gamma函數(shù)當實部的單邊頻帶濾波器脈 沖響應;步驟三將步驟一的頻域脈沖響應與步驟二的時域脈沖響應相乘后取實部,當做對往 下移動的FM信號有最大反應的STRF ;-步驟的輸出各自通過一個低通濾波器模擬內(nèi)毛細胞的神經(jīng)電流漏損現(xiàn) -步驟的輸出各自減去其相鄰頻道的輸出值,以此模擬鄰近的神經(jīng)元側(cè) -步驟的輸出各自經(jīng)過半波整流,用來模擬側(cè)向抑制神經(jīng)元的非線性反步驟四將步驟一的頻域脈沖響應與步驟二的時域脈沖響應的共軛虛數(shù)相乘后取實部當做對往上移動的FM信號有最大反應的STRF。
19. 如權(quán)利要求12所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述步驟四中失真的特征參數(shù)向量,包含可理解度失真的特征參數(shù)、清晰度失真的特征參 數(shù)及自然度失真的特征參數(shù)。
20. 如權(quán)利要求19所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 所述從二維失真矩陣中,選取低頻帶的區(qū)域計算失真和,用來當做可理解度失真的特征參 數(shù),其低頻帶的選擇方式為選取2Hz《rate《32Hz和0. 5cycle/oct《scale《4cycle/ oct的區(qū)塊。
21. 如權(quán)利要求19所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 從二維失真矩陣中,選取中頻帶的區(qū)域計算失真和,用來當做清晰度失真的特征參數(shù),其中 頻帶的選擇方式為選取32《rate《128Hz和2《scale《8cycle/oct的區(qū)塊。
22. 如權(quán)利要求19所述的以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于 從二維失真矩陣中,選取高頻帶的區(qū)域計算失真和,用來當做自然度失真的特征參數(shù),其高 頻帶的選擇方式為選取128《rate《512Hz和0. 25《scale《8cyc/oct的區(qū)塊。
23. —種以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于其步驟包括步驟一將輸入語音通過人耳聽覺模型處理而得到在時間軸及對數(shù)頻率軸上分布的二 維聽覺頻譜圖;步驟二將上述的二維聽覺頻譜圖再經(jīng)過具有不同方向性,不同對數(shù)頻率上的變化率 及不同時間上的變化率的二維時頻域脈沖響應的濾波器組后,其輸出得到具有維度分別為 時間、對數(shù)頻率、在時間軸上波封的變化率及在對數(shù)頻率軸上波封的變化率的四維特征矩 陣,接著在對數(shù)頻率軸上取平均,得到time-rate-scale三維圖像;步驟三將參考用的干凈語音依照上述相同步驟計算得到干凈語音的 time-rate-scale三維圖像;步驟四將參考用干凈語音及輸入語音的time-rate-scale三維圖像在時間軸上對 齊后相減當做失真矩陣,并將此失真矩陣分割成數(shù)個區(qū)域,這些區(qū)域可以均勻或不均勻分 割,然后每個區(qū)域計算失真和,用來當做失真的特征參數(shù),如此得到一個失真的特征參數(shù)向步驟五將此失真的特征參數(shù)向量經(jīng)過一個轉(zhuǎn)換方式而得到一個估算的主觀語音質(zhì)量 分數(shù)。
24. —種以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,其特征在于其步驟包括 步驟一將輸入語音通過人耳聽覺模型處理而得到在時間軸及對數(shù)頻率軸上分布的二維聽覺頻譜圖;步驟二將上述的二維聽覺頻譜圖再經(jīng)過具有不同方向性,不同對數(shù)頻率上的變化率 及不同時間上的變化率的二維時頻域脈沖響應的濾波器組后,其輸出得到具有維度分別為 時間、對數(shù)頻率、在時間軸上波封的變化率及在對數(shù)頻率軸上波封的變化率的四維特征矩 陣;步驟三將參考用的干凈語音依照上述相同步驟計算得到干凈語音的time-log. frequency-rate-scale四維特征矢巨陣;步驟四將參考用干凈語音及輸入語音的time-log. frequency-rate-scale四維特征 矩陣在時間軸上對齊后相減當做失真矩陣,并將此失真矩陣分割成數(shù)個區(qū)域,這些區(qū)域可 以均勻或不均勻分割,然后每個區(qū)域計算失真和,用來當做失真的特征參數(shù),如此得到一個 失真的特征參數(shù)向量;步驟五將此失真的特征參數(shù)向量經(jīng)過一個轉(zhuǎn)換方式而得到一個估算的主觀語音質(zhì)量 分數(shù)。
全文摘要
本發(fā)明公開了一種以感知參數(shù)為基礎(chǔ)的客觀語音質(zhì)量估測方法,利用一個同時考慮時間和頻率上變化的人耳聽覺模型來對語音質(zhì)量做客觀的評量。這個以生理物理及神經(jīng)生理現(xiàn)象建立的聽覺模型,可成功描述人類兩個聽覺感知階段對語音信號分別所做的估計及分析。本發(fā)明由這兩個階段,擷取出在感知上可能影響聽者判斷語音質(zhì)量好壞的三個特征參數(shù),來對語音質(zhì)量做客觀評量。這三個特征參數(shù)分別是可理解度、清晰度和自然度。本發(fā)明進而使用復回歸分析,將三個特征參數(shù)對語音質(zhì)量影響的關(guān)系做結(jié)合,由此估計出主觀的語音質(zhì)量分數(shù),通過這三個基本的特征參數(shù),對語音質(zhì)量的好壞做快速并可靠的評量。
文檔編號G10L19/00GK101727896SQ20091026101
公開日2010年6月9日 申請日期2009年12月8日 優(yōu)先權(quán)日2009年12月8日
發(fā)明者冀泰石, 楊仲捷, 陳建宏, 顏廷宇, 黃冠郎 申請人:中華電信股份有限公司