專利名稱:一種說話者身份識別方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及語音識別技術,尤其涉及一種語音識別技術系統(tǒng),特別是一種說話者身份識別方法。
背景技術:
說話者身份識別是一種非接觸的識別技術,它的應用領域包括銀行、證券、公安司法、保安、證件防偽、信息咨詢等領域。
目前的說話者身份識別技術,其核心是建立在對隨機過程進行統(tǒng)計的隱含馬爾可夫(Hidden Markov Model,HMM)模型基礎上,說到底其本質(zhì)是一種非常技巧化的模式匹配方法,是一種基于概率統(tǒng)計過程的模式匹配方法。而這種方法,絕對不是人類大腦對外界環(huán)境包括語音和視覺圖像進行感知和理解所采用的方法。在應用上,傳統(tǒng)的說話者身份識別技術存在以下幾個方法嚴重的缺陷1.雙向通話問題傳統(tǒng)技術必須對一個相對固定長度的語音進行特征提取,然后對這樣一個特征序列進行訓練和識別。這不僅與人腦的感知不同(人腦是在當前語音輸入下對說話人的即時感知),而且對應用不利。比如,兩個人在對話狀態(tài)下就不能對目標對象進行感知。
2.可學習性問題與不能處理雙向通話問題一樣,由于傳統(tǒng)技術必須對一個相對固定長度的語音進行特征提取,然后對這樣一個特征序列進行訓練。無法隨著樣本的增加而使識別率提高。實際上,由于語音信號的動態(tài)性、復雜性和多變性,一段有限長度的語音特征并不能準確地表征一個說話人的個性特征。
3.識別率和分辨度低識別率是指準確識別目標對象的概率,而分辨度是指對目標對象和非目標對象之間的區(qū)分能力。顯然,分辨度高的情況下一般識別率也高。但是,傳統(tǒng)技術的識別率和分辨度都很低。原因在于兩個方面。首先,傳統(tǒng)方法提取的特征不僅數(shù)目少,而且剛性強,柔性小,使得魯棒性低;其次,基于概率統(tǒng)計的識別模型,各輸出之間的差別非常小,使得難以達到非常高的分辨度,從而使識別率低,特別是從閉集訓練空間擴展到開集識別空間后,虛識率就會非常高。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是目前的說話者身份識別技術,其核心是建立在對隨機過程進行統(tǒng)計的隱含馬爾可夫模型基礎上,說到底其本質(zhì)是一種非常技巧化的模式匹配方法,是一種基于概率統(tǒng)計過程的模式匹配方法。而這種方法,絕對不是人類大腦對外界環(huán)境包括語音和視覺圖像進行感知和理解所采用的方法。在應用上,傳統(tǒng)的說話者身份識別技術存在以下幾個方法嚴重的缺陷1.雙向通話問題2.可學習性問題3.識別率和分辨度低。本發(fā)明為解決已有技術中的上述技術問題所采用的技術方案是提供一種說話者身份識別方法和實現(xiàn)這一方法的系統(tǒng),所述的這種說話者身份識別方法及其系統(tǒng)由語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊和后臺數(shù)據(jù)庫構(gòu)成,其中,所述的語音接收設備接收被識別人的聲音信號,并把聲音信號傳送至所述的語音獲取模塊,所述的語音獲取模塊由高速數(shù)據(jù)采集機構(gòu)成,所述的語音獲取模塊可以將接收到的語音形成語音文件并有秩序地存儲起來以用于所述的語音編輯、預處理模塊的后續(xù)處理,所述的語音編輯、預處理模塊由語音編輯器和語音信號預處理芯片構(gòu)成,所述的語音編輯器對語音文件進行處理,并輸出編輯后的語音,所述的語音信號預處理芯片對語音文件進行語音信號的語音分析處理,并輸出語音的微特征參數(shù),所述的語音信號預處理芯片進一步將語音信息傳遞給所述的識別模塊,所述的識別模塊由聲紋訓練機和聲紋識別機構(gòu)成,所述的聲紋訓練機接收所述的語音編輯器及所述的語音預處理芯片的處理結(jié)果,對語音樣本進行訓練,形成說話人的獨有聲紋編碼,所述的聲紋識別機利用訓練生成的聲紋模板、神經(jīng)網(wǎng)絡算法、以及語音預處理芯片處理得到的說話人語音微特征參數(shù)識別出說話人,所述的后臺數(shù)據(jù)庫為所述的語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊提供數(shù)據(jù)。具體的,所述的語音接收設備可以為話筒、電話、或高速數(shù)據(jù)采集機,所述的語音編輯器對語音文件進行查看、編輯、分割和轉(zhuǎn)換處理,所述的語音信號預處理芯片對語音文件進行語音信號的數(shù)字化、預加重、加窗和加幀分析處理,所述的語音接收設備,實時地獲取將語音數(shù)據(jù)并按語音流文件模式進行存儲,同時以文本方式記錄該通話話單的相關信息,以備所述的識別模塊使用,所述的語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊和后臺數(shù)據(jù)庫系統(tǒng)采用配置文件和從共享目錄獲取話單語音文件的方式進行協(xié)同工作,所述的語音編輯器具有支持毫秒級的精確編輯;可對語音數(shù)據(jù)進行采樣頻率、聲道數(shù)和采樣位數(shù)的轉(zhuǎn)化;可以進行倒轉(zhuǎn)、反向、靜默特效編輯,也可以生成靜默;可以對文件進行分割,所述的聲紋訓練機可以對對象的語音樣本和非對象的語音樣本進行訓練,且所述的聲紋訓練機利用對象的語音樣本和非對象的語音樣本來分割這樣一個多維的頻譜空間,使得對象語音樣本所占據(jù)的頻譜空間被映射到對象的輸出,而非對象語音樣本所占據(jù)的頻譜空間被映射到非對象的輸出,所述的聲紋訓練機可根據(jù)語音訓練的結(jié)果進行反饋式的調(diào)整,所述的聲紋識別機根據(jù)說話人語音的頻譜特征去同步激勵所有待識別對象的輸出,這時只有目標對象的輸出被激勵,而所有非目標對象的輸出被抑制,所述的聲紋識別機利用多層聚類神經(jīng)網(wǎng)絡完成語音信號特征模糊動態(tài)集合的聚類,所述的聲紋識別機利用單層感知機網(wǎng)絡完成已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出。
本發(fā)明與已有技術相對照,效果是積極且明顯的。本發(fā)明一種說話者身份識別方法借鑒或模仿了人類神經(jīng)系統(tǒng)對語音和說話人的感知思想,它是從一個全方位的角度去“感知”相應的說話人,而不是建立在對一些固定參數(shù)的比較。通過人工神經(jīng)系統(tǒng)的感知過程,本發(fā)明的說話者身份識別技術可以對一個動態(tài)的、復雜的頻譜分布軌跡進行綜合的評價,從而映射到所訓練過的對象輸出。這種方法,其最大的優(yōu)點就是可學習性。像人類的學習過程一樣,可以通過不斷地補充樣本來提高識別的性能。這一點非常重要??偟脕碚f,本發(fā)明具有仿生性、增量式訓練、可學習性、識別雙向通話、強分辨能力和識別率、強魯棒性、識別速度快、非語音信號過濾等特點。
本發(fā)明的目的、特征及優(yōu)點將通過實施例結(jié)合附圖進行詳細說明。
圖1是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的功能模塊示意圖。
圖2是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的各模塊邏輯關系示意圖。
圖3是本發(fā)明一種說話者身份識別方法的語音獲取模塊的一個優(yōu)選實施例的實現(xiàn)示意圖。
圖4是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的聲紋訓練原理示意圖。
圖5是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的聲紋訓練流程示意圖。
圖6是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的識別原理示意圖。
圖7是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的識別技術示意圖。
圖8是本發(fā)明一種說話者身份識別方法的一個優(yōu)選實施例的聲紋訓練、識別總流程圖。
具體實施例方式如圖1、圖2所示,本發(fā)明一種說話者身份識別方法,所述的這種說話者身份識別方法,其系統(tǒng)由語音接收設備1,語音獲取模塊2,語音編輯、預處理模塊3,說話人訓練、識別模塊4和后臺數(shù)據(jù)庫構(gòu)成,其特征在于所述的語音接收設備1接收被識別人的聲音信號,并把聲音信號傳送至所述的語音獲取模塊2,所述的語音獲取模塊2由高速數(shù)據(jù)采集機21構(gòu)成,所述的語音獲取模塊2可以將接收到的語音形成語音文件并有秩序地存儲起來以用于所述的語音編輯、預處理模塊3的后續(xù)處理,所述的語音編輯、預處理模塊3由語音編輯器31和語音信號預處理芯片32構(gòu)成,所述的語音編輯器31對語音文件進行處理,并輸出編輯后的語音,所述的語音信號預處理芯片32對語音文件進行語音信號的語音分析處理,并輸出語音的微特征參數(shù),所述的語音信號預處理芯片32進一步將語音信息傳遞給所述的識別模塊4,所述的識別模塊4由聲紋訓練機41和聲紋識別機42構(gòu)成,所述的聲紋訓練機41接收所述的語音編輯器31及所述的語音預處理芯片32的處理結(jié)果,對語音樣本進行訓練,形成說話人的獨有聲紋編碼,所述的聲紋識別機42利用訓練生成的聲紋模板、神經(jīng)網(wǎng)絡算法、以及語音預處理芯片處理得到的說話人語音微特征參數(shù)識別出說話人。
本發(fā)明的工作原理及實現(xiàn)過程結(jié)合圖3、圖4、圖5、圖6、圖7和圖8如下所述在語音接收模塊中可以劃分為兩種語音來源,一種是一般的語音接收設備,如話筒等,接收設備直接將接收到的語音流傳給系統(tǒng)的其它部件,如語音編輯、預處理模塊等;另一種是高速數(shù)據(jù)采集機HDC(High Data Collection,HDC),它以硬件解碼方式,通過信令分析將每路電話的語音數(shù)據(jù)按語音流文件模式存儲每臺HDC內(nèi),同時以文本方式記錄該通話話單的相關信息,以備說話者身份識別機使用。本發(fā)明的優(yōu)選實施例說話者身份識別系統(tǒng)選用同時有9臺HDC機實時地獲取新的話單,當然可以根據(jù)需要增加或減少HDC機的數(shù)目,但是只有一臺電腦在進行識別。
語音識別系統(tǒng)和語音話單輸入處理系統(tǒng)及后臺數(shù)據(jù)庫系統(tǒng)采用配置文件和從共享目錄獲取話單語音文件的方式進行協(xié)同工作。配置文件是純文本文件,每一行表示一個摘機或掛機信號,并記錄此摘機或掛機記錄的其它相關信息,如開始時間,結(jié)束時間,文件名,文件存儲路徑等等,因此此配置文件可被稱為相關信息文件。
語音編輯、預處理模塊包括語音編輯器和語音預處理芯片兩個模塊,參見圖2語音編輯、預處理模塊及與其它模塊的關系圖。其中語音編輯器主要對原始的語音文件進行編輯、分割、轉(zhuǎn)換等,由它編輯好的語音文件成為訓練樣本,供說話人聲紋訓練前的語音預處理使用。語音預處理芯片是做說話人聲紋訓練、識別前的語音分析和聲紋特征提取,語音來源是訓練樣本或采集到的語音文件,語音預處理芯片的輸出為聲紋特征,以供說話人聲紋訓練或識別使用。
下面對語音編輯器和語音預處理芯片做詳細介紹。
一、語音編輯器語音編輯器是一個語音編輯和處理的軟件,可進行語音查看、編輯、分割、轉(zhuǎn)換等操作。程序支持的格式有三種1.wav格式。支持單雙聲道,支持聲卡所能達到的所有頻率,支持8位、16位。
2.raw格式。即A-Law格式。
3.rav格式。此格式是語音編輯器所支持的內(nèi)部格式,它是在A律格式的數(shù)據(jù)前加上頭部信息所組成的,特點是既有頭部信息又保持raw文件的壓縮性。
除了上述一般操作之外,還有以下特殊功能1.支持毫秒級的精確編輯2.對語音數(shù)據(jù)進行采樣頻率、聲道數(shù)和采樣位數(shù)的轉(zhuǎn)化。
3.具有錄放功能,可以進行的循環(huán)、快進、快退等特效播放。
4.可以進行倒轉(zhuǎn)、反向、靜默等特效編輯,也可以生成靜默。
5.可以對文件進行單個或者批量分割。分割時可以輸入要分割的塊數(shù)或者每塊的時長進行分割。
6.A-Law格式的文件單個或者批量轉(zhuǎn)換為wav格式(解壓縮)或者rav格式(不解壓縮)的文件。并有可選表示式。
對象原始語音經(jīng)過處理后,就可以加入到訓練樣本集中作為訓練樣本。從系統(tǒng)要求上說,只需要規(guī)定訓練樣本集的根目錄,所有訓練樣本集的樣本只要位于訓練樣本集根目錄或其下的子目錄都可以。為了維護方便,可以每一個對象的語音樣本存放在一個獨立的子目錄中,當需要增加或刪除一個對象的語音樣本時,只需要拷入或移去相應的子目錄就可以了。根目錄和每一個子目錄名都可以任意命名。以下是各個目錄建立的方法1.原始正相樣本庫的建立和維護每一個訓練對象都應有一個獨立的原始正相樣本庫,該庫也是由用戶手工維護。其中的文件都是原始的A率編碼的RAW格式文件。其文件名直接采用機器(HDC)生成的原始文件名,而且整個語音文件不作任何處理。
原始正相樣本庫的樣本來自(1)初始的原始正相樣本;(2)新增的原始正相樣本。初始原始正相樣本稱為“種子”原始樣本,也就是未經(jīng)語音編輯器編輯的“種子”樣本,這些樣本由系統(tǒng)功能以外的途徑得到。而新增的原始正相樣本由系統(tǒng)識別之后,再經(jīng)人工判別后得到。
保留原始正相樣本的目的在于用于系統(tǒng)自動更新標準豐度,從而可以確定識別閾值;記錄每個正相樣本的來源,方便事后對正相樣本正確性的復查。
2.公共反相樣本庫的建立和維護當系統(tǒng)中存在的對象語音樣本數(shù)目較多時,不同對象之間的樣本可以作為反相樣本,但是如果系統(tǒng)中存在的對象數(shù)目較少時,必須需要額外的反相樣本,這就是公共反相樣本。公共反相樣本庫在系統(tǒng)訓練前建立,包括30~100個反相樣本,每個樣本的長度為標準樣本長度(缺省是30秒)。公共反相樣本庫應該包括系統(tǒng)常見的信號,如不同人的正常語音信號。由于系統(tǒng)采用了非語音信號過濾技術,因此,非語音信號,如傳真音、撥號音、忙音、占線音、上網(wǎng)音則不必加到公共反相樣本中。公共反相樣本的編輯、剪切、轉(zhuǎn)換和附加標簽利用系統(tǒng)提供的語音編輯器操作完成,標簽統(tǒng)一使用“unknown”或“null”,文件的后綴名統(tǒng)一是“.rav”(RAV格式)。公共反相樣本的維護也是由用戶人工操作。
3.訓練樣本集的建立和維護根據(jù)前面介紹,訓練樣本集包括4個子目錄,分別是初始正相樣本子目錄、新增正相樣本子目錄、初始反相樣本子目錄、新增反相樣本子目錄,缺省的具體名稱是ini-pos,new-pos,ini-neg,new-neg。各子目錄的建立和維護見下。
4.初始正相樣本根據(jù)前面的介紹,得到“種子”原始樣本后(未經(jīng)語音編輯器編輯的樣本),利用系統(tǒng)提供的語音編輯工具進行手工處理,主要包括①去掉非對象的語音信號,如傳真音、撥號音、忙音、占線音、上網(wǎng)音則不必加到公共反相樣本中。;②轉(zhuǎn)化為RAV格式;③附加對象的標簽。④將單個文件切割為多個文件,每個文件的長度(近似)為標準長度(目前采用30秒,但可以取其它值);⑤每個切割好的文件存放在該對象的訓練樣本集下的初始正相樣本子目錄中,這些處理的樣本就是“種子”樣本。許多情況下,“種子”樣本可能只有1個,但是要求“種子”樣本的總長度最好在30秒以上。
5.新增正相樣本新增正相樣本的來源(也就是所對應的原始正相樣本)是系統(tǒng)識別中標后,并且通過人工聽辯處理確定為“正識”的語音樣本,具體過程參見“說話人聲紋訓練、識別模塊”部分。對這些樣本的編輯處理和命名原則與初始正相樣本相同。
6.初始反相樣本初始反相樣本是公共反相樣本的子集。在系統(tǒng)得到初始正相樣本(也就是種子樣本)后,首先需要確定初始反相樣本。此時新增反相樣本和新增正相樣本為空。用戶首先將公共反相樣本全部復制到該對象的初始反相樣本子目錄中,然后啟動系統(tǒng)的“篩選反相樣本”功能,系統(tǒng)將自動確定該對象的初始反相樣本,它是公共反相樣本的一個子集,系統(tǒng)將自動刪除不需要的反相樣本。這一個過程在訓練機上完成。在同一時間系統(tǒng)只允許單個對象被訓練,不允許同時訓練兩個以上的對象。
7.新增反相樣本新增反相樣本的來源(也就是所對應的原始語音文件)是系統(tǒng)識別中標后,并且通過人工聽辯處理確定為“虛識”的語音樣本。
一個判定為虛識的語音樣本可以添加到新增反相樣本中,并進行重新訓練。在訓練機上,首先確定訓練對象設置為所指定的對象,然后,啟動系統(tǒng)的“新增反相樣本”功能后選擇這個虛識的語音樣本,系統(tǒng)將自動將這個虛識的反相樣本添加到新增反相樣本庫中(在添加過程中,系統(tǒng)將自動進行剪切、格式轉(zhuǎn)換和添加標簽等操作)。之后,用戶可以重新訓練該對象,也可以等以后積累更多的新增樣本后再訓練。
新增反相樣本的文件名就是原始的文件名,其標簽是“unknown”。
二、語音預處理語音預處理是說話者身份識別的前提和基礎,只有分析出可表示語音信號本質(zhì)特征的參數(shù),才有可能利用這些參數(shù)進行高效的說話者身份識別。本發(fā)明的優(yōu)選實施例采用專門的語音預處理芯片對語音文件進行語音信號分析。
語音預處理芯片主要完成以下任務1.語音信號的數(shù)字化2.語音的信號分析與特征參數(shù)提取其中語音信號的數(shù)字化執(zhí)行的任務包括放大及增益控制、預慮波、采樣、A/D變換及編碼,具體過程如下1.放大及增益控制將語音信號適當增大,以便于之后的其它信號處理。
2.預慮波預慮波的目的是(1)抑制輸入信號各頻域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾。(2)抑制50Hz的電源工頻干擾。這樣,預慮波必須是一個帶通慮波器,其上下截止頻率分別是fH和fL,一般可取fH=3400Hz,fL=60~100Hz,采樣率為fs=8kHz。
3.語音信號經(jīng)預慮波和采樣后,有A/D變換器變換為二進制數(shù)字碼。A/D變換器分為線性和非線性兩類。目前采用的線性A/D變換器多為12位的,而非線性A/D變換器則多為8位的,它與12位線性變換器等效。
語音信號的信號分析與特征參數(shù)提取執(zhí)行的任務包括,預加重、加窗、分幀、倒譜分析等,具體過程如下1.預加重由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,即6dB/oct(2倍頻)或20dB/dec(10倍頻),所以求語音信號頻譜時,頻率越高相應的成分越小,為此要在預處理中進行預加重處理。預加重的目的在于提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。具體方法是用具有6dB、倍頻程的提升高頻特性的預加重數(shù)字慮波器來實現(xiàn),一般為一階數(shù)字慮波器。
進行預加重數(shù)字慮波處理后,接下來要進行加窗和分幀處理。
2.加幀一般每秒的幀數(shù)約為33~100幀,視實際情況而定。分幀雖然可以采用連續(xù)分段的方法,但一般要采用交疊分段的方法,這樣可以使幀與幀之間平滑過度,保持其連續(xù)性。前一幀與后一幀的交疊部分稱為幀移,幀移與幀長比值一般取為0~1/2。分幀的實現(xiàn)是用可移動的有限長度窗口進行加權(quán),即用一定的窗函數(shù)w(n)來乘s(n)從而形成加窗語音信號sw(n)=s(n)*w(n)3.加窗在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗等,為了避免倒譜中的基音峰變得不清晰甚至消失,本優(yōu)選實施例采用漢明窗,漢明窗窗口函數(shù)為 經(jīng)過上面介紹的過程,語音信號就被分割成一幀一幀的加過窗函數(shù)的短信號,在進行處理時,按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,最后得到由每一幀組成參數(shù)組成的語音特征參數(shù)的時間序列。
4.語音特征參數(shù)提取語音的特征參數(shù)是以幀為單位的,每個幀皆可求出一組特征參數(shù)。語音特征參數(shù)的選擇是整個說話者身份識別系統(tǒng)的基礎,對說話者身份識別率有著極其重要的影響,目前較為常用的特征參數(shù)包括線性預測倒譜系數(shù)(Linear PredictionCepstrum Coefficient,簡寫為LPCC)與Mel倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,簡寫為MFCC)等。前者是在利用線性預測編碼(LPC)技術求倒譜系數(shù);后者則直接通過離散傅利葉變換(DFT)求倒譜系數(shù)。由于MFCC參數(shù)將線性頻標轉(zhuǎn)化為Mel頻標,強調(diào)了語音的低頻信息,從而突出了有利于識別的信息,屏蔽了噪聲的干擾,具有優(yōu)良識別能力和抗噪性能,因此本發(fā)明的優(yōu)選實施例采用MFCC參數(shù)。計算MFCC參數(shù)的大致步驟為(1)作快速傅利葉變換(FFT),獲得頻譜分布信息。
(2)將頻域信號通過按Mel頻標分布排列的三角濾波器組,即將線性頻標變換為Mel頻標。
(3)然后將三角濾波器的輸出經(jīng)離散余弦變換(DCT)由(2)變換到倒譜域。
Ck=ΣNlog(Yj)cos[k(j-1/2)π/N],k=1,2,...,P---(2)]]>式中P為MFCC參數(shù)的階數(shù),一般可在8至14間選擇,N為三角濾波器個數(shù),Yj為第j個三角濾波器的輸出{Ck}k=1,2,...,P即為所求的MFCC參數(shù)。本發(fā)明的優(yōu)選實施例為每幀信號計算出16階的MFCC系數(shù),以此作為說話人訓練或識別的特征參數(shù)。
三、說話人聲紋訓練、識別模塊(一)訓練機說話者身份識別系統(tǒng)的主要有兩種工作狀態(tài),分別為訓練和識別兩個過程。所謂訓練過程,就是利用對象的語音樣本(正相樣本)和非對象的語音樣本(反相樣本)來分割這樣一個多維的頻譜空間,使得對象語音樣本所占據(jù)的頻譜空間被映射到對象的輸出,而非對象語音樣本所占據(jù)的頻譜空間被映射到非對象的輸出,也就是將對象和其語音在頻譜空間的分布區(qū)域建立關聯(lián)。從數(shù)學模型上說,就是利用這些語音訓練樣本來調(diào)整一個復雜的神經(jīng)網(wǎng)絡權(quán)值,使得對象的語音樣本映射到對象的激勵輸出,非對象的語音樣本映射到對象的抑制輸出。訓練原理的示意圖如圖4所示,某對象A的語音,經(jīng)語音特征參數(shù)提取,根據(jù)特征參數(shù)值調(diào)整權(quán)值使對象A的輸出受到激勵,同時使非對象A的輸出受到抑制,之后得到對象A的輸出和非對象A的輸出。
當某個對象的正相樣本語音編輯器編輯好以后,就可以通過訓練機對對象進行訓練。具體的訓練步驟如下,并參考圖5的系統(tǒng)訓練過程圖示1.建立訓練集根目錄建立一個空目錄,此目錄將作為訓練對象樣本集根目錄(以下簡稱根目錄)。
2.編輯和建立正相樣本將編輯好的正相樣本復制或轉(zhuǎn)移到訓練集根目錄或根目錄的任意子目錄中。正相樣本的編輯要求是(1)不能出現(xiàn)非對象的語音,非對象的語音應該被剪切掉;(2)每個樣本的長度為訓練樣本標準長度。系統(tǒng)建議為30秒;(3)每個對象樣本的標簽必須和訓練對象的標簽完全一樣,編輯的過程由語音編輯器31完成;3.復制反相樣本從公共反相樣本庫中任意選擇5~10個反相樣本復制到根目錄或任意子目錄中,比如ini-neg子目錄中。反相樣本的編輯要求是(1)不能出現(xiàn)對象的語音;(2)每個樣本的長度為訓練樣本標準長度;(3)每個反相樣本的標簽必須和訓練對象的標簽不相同,建議對于反相樣本的標簽統(tǒng)一取“unknown”或“null”。編輯也由語音編輯器31完成。
4.設置訓練對象如果對象列表中還沒有待訓練對象,應該首先增加相應的對象標簽。將此標簽對應的對象設置為當前訓練對象,并將訓練集根目錄參數(shù)設置為對應的根目錄。
5.啟動首輪訓練啟動“篩選反相樣本”功能,進行首輪訓練。在首輪訓練時,實際上采用的訓練參數(shù)是wfr=0.95,rmax=200。(“wfr”權(quán)值因子衰減因子;“rmax”訓練輪回。對于初始訓練,建議wfr=0.95,rmax=200;對于累加訓練,建議wfr=0.88,rmax=50,或者wfr=0.9,rmax=75。)篩選反相樣本實際上啟動了兩個過程訓練和過濾反相樣本。在訓練過程中,系統(tǒng)從訓練樣本集中隨機地選取一定數(shù)目的反相樣本進行訓練,其數(shù)目等于運行參數(shù)中的“NegSeeds”(篩選反相樣本時參與訓練的反相樣本數(shù))。訓練結(jié)束后,系統(tǒng)立即利用當前的聲紋模板識別沒有參與訓練的反相樣本,將其中輸出較低的反相樣本刪除,留下輸出較高的反相樣本,這個篩選閾值等于“運行參數(shù)”中的“NegTh”(篩選反相樣本或者新增反相樣本的豐度閾值),這個閾值采用的是豐度閾值,豐度閾值是每一個對象的相應識別閾值,可自由設定。通過調(diào)整識別閾值,用戶可以針對對象的重要性來選擇相應的正識率和虛識率。累加的窗口長度為豐度法識別窗口長度。
6.計算標準豐度為當前訓練的聲紋模板計算標準豐度。計算標準豐度時選擇的批量識別目錄必須選擇相應對象的原始正相樣本目錄。
識別閾值等于標準豐度乘閾值系數(shù)。閾值系數(shù)缺省為0.5,但是用戶可以根據(jù)對象的識別策略(或者說對象的重要性)來調(diào)整。
7.識別測試樣本首輪訓練好之后,在上線之前,應該批量識別測試樣本。有兩種測試樣本,分別是正相測試樣本集和反相測試樣本集。正相測試樣本集只包括對象的語音,用來測試該聲紋模板的正識率,由于對象樣本獲取的困難(特別是對于新訓練的對象),正相樣本測試集可能很少,甚至沒有,但即使獲取很容易,也不需要很多,一般在幾個到幾十個范圍。
而反相測試樣本不應該包括對象的語音,用來測試其虛識率。反相測試樣本集最好大一些,一般在100到1000之間。
具體的識別策略如下利用該聲紋模板批量識別這兩個測試集,得到此時的正識率和虛識率,并將閾值系數(shù)調(diào)整到最佳識別效果。所謂最佳效果是指根據(jù)批量識別結(jié)果,在調(diào)整閾值系數(shù)的情況下,最佳可以達到的識別效果。如果此時的最佳識別效果不滿足用戶的要求,如果正識率太低,那么就將輸出最小的正相樣本增加到訓練樣本集;而如果虛識率太高,那么就將輸出最大的反相樣本增加到訓練樣本集。建議每次只增加一至兩個樣本,并且以增加正相樣本優(yōu)先。對于增加到訓練樣本集的正相測試樣本,應該從正相測試樣本集轉(zhuǎn)移到原始正相樣本集。
對于某些新對象,正相樣本可能非常少。這時應該盡量調(diào)低閾值系數(shù),通過增加虛識率來提高正識率。待獲取到新的正相樣本后,將新的正相樣本補充到訓練集重新訓練,幾次之后可以將閾值系數(shù)調(diào)整到正常值。這一策略,特別對于希望采用某種來源的種子樣本來獲取不同來源的新語音時更應該如此。比如,種子樣本來源手機,希望識別固定電話語音,由于手機頻譜和固定電話頻譜響應相差較大,開始時應該盡量降低閾值系數(shù),來盡量保證可以獲取固定電話信號。此時虛識樣本可能較多,但是在實際應用中還是可以通過許多方法來克服這個問題。待獲取到新的語音時進行補充訓練,可以逐漸改善識別效果。
8.訓練并重復識別測試樣本在增加訓練樣本后,需要進行再訓練。此時只要啟動“訓練”功能,也就是正常的訓練功能(另一種特殊的訓練功能就是前述的篩選反相樣本)。對于正常訓練功能,建議采用的訓練參數(shù)是wfr=0.88,rmax=50;或者wfr=0.9,rmax=75。
重復6、7、8,直到正識率和虛識率達到用戶要求。一般需要重復1到3次。
9.再訓練通過測試樣本檢驗合格后,可以進行上線識別。對于新上線的識別對象,在開始的一段時間內(nèi),應該監(jiān)控識別效果,如果識別效果不好,應及時將錯誤識別(包括漏識和虛識)的樣本補充到訓練樣本集進行再訓練。補充新的訓練樣本后,應重復6、7、8,并將最后訓練的聲紋模板上線。
將虛識樣本補充到訓練樣本集比較容易實現(xiàn),系統(tǒng)也可以自動完成對樣本的剪輯工作,而且訓練后一般不需要再次重復6、7、8步;但是將漏識樣本新增為正相訓練樣本則比較復雜。首先,如果系統(tǒng)沒有其它輔助方式進行比較,就根本無法知道是否有漏識。對于這種情況,系統(tǒng)只能根據(jù)對正相測試樣本的識別結(jié)果來估計正識率;如果連正相測試樣本都沒有,那么就只能采用下面方法盡量降低閾值系數(shù)到虛識率剛好可以接受的地步,直到獲取了新的正相樣本并建立了正相測試樣本集。新增正相樣本的第二個復雜的方面是新增正相樣本后,可能會帶來虛識率的提高,因此,新增正相樣本后,重復6、7、8步再補充反相訓練樣本是需要的;第三方面是正相樣本不能自動編輯,必須進行手工編輯,刪除非對象語音信號。不過借助與系統(tǒng)配套語音編輯器,整個編輯過程非??臁?br>
(二)識別機說話人聲紋被訓練成功后,當有新的未知對象的語音樣本進來時,首先得到新語音樣本的頻譜特征,使用這些新的頻譜特征去同步激勵所有待識別對象的輸出,在正確訓練的情況,這時只有目標對象的輸出被激勵,而所有非目標對象的輸出被抑制,從而可以快速地識別出目標對象。這就是識別原理,如圖6所示。
本發(fā)明的優(yōu)選實施例的說話者身份識別技術具體由三個部分構(gòu)成,分別由前端信號處理、多層聚類神經(jīng)網(wǎng)絡和單層感知機網(wǎng)絡所組成。前端信號處理部分完成對輸入語音信號的預處理并通過多種特征提取網(wǎng)絡完成對語音信號特征的提??;建立在一種全新的神經(jīng)網(wǎng)絡算法基礎上的多層聚類神經(jīng)網(wǎng)絡完成語音信號特征模糊動態(tài)集合的聚類;單層感知機網(wǎng)絡完成已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出,如圖7所示。
本發(fā)明的優(yōu)選實施例有兩種中標方法。一種稱為識別肯定度,另一種稱為識別豐度法。在介紹這兩種中標方法以前,首先介紹輸出豐度。
所謂輸出豐度,是指在一定的長度范圍內(nèi),所有正的或負的輸出累加之和。正的輸出累加之后是正相輸出豐度,簡稱為輸出豐度或豐度。而負的輸出累加之后是反相輸出豐度,簡稱反相豐度。因此通常所說的豐度是指正相豐度。所有的豐度值通過內(nèi)部的換算機制其量綱被換算為單位秒,因此豐度值的單位是秒。對輸出進行累加的這個長度范圍被稱為識別窗口。識別窗口單位也是秒。
識別肯定度被定義為(正相豐度-反相豐度)/(正相豐度+反相豐度)
顯然,識別肯定度是一個在〔-1,+1 〕范圍之間的值。+1表明肯定是對象,而-1表明肯定不是對象,0表示不能肯定。
如果在一個識別窗口內(nèi),只包含單個說話人的語音,使用識別肯定度較為有效。但是如果包含兩個人的語音,顯然識別肯定度不能使用。這時只能采用豐度識別法。對于系統(tǒng)要處理雙方通話的應用環(huán)境來說,雖然可以將來、去路語音分離,但由于回波的存在,這種分離并不能徹底,因此,只能采取識別豐度來確定目標對象。
假設為每個識別對象設定一個閾值,只要在任一個識別窗口內(nèi),相應對象的(正相)豐度達到閾值,就認為是該對象中標。這就是豐度識別法。其中識別窗長度被設定為一個固定的標準值,而不是整個文件長度。這就是局部豐度識別法。
局部豐度識別法可以理解為在一段語音范圍內(nèi),對象語音的存在的相對有效時間是否達到了一定的閾值。豐度的量綱是秒,其意義是某個識別對象的加權(quán)激勵時間的總和。系統(tǒng)假定每幀的最大激勵輸出對于輸出豐度的貢獻是幀頻率的倒數(shù),假設幀頻率是100/秒,則每幀最大輸出的豐度是10毫秒,而最大輸出的1/10則只有1毫秒,這就是加權(quán)的含義。將整個識別窗口內(nèi)的每幀輸出豐度累加得到了該窗口內(nèi)的總輸出豐度,它的含義可以理解為在這個窗口內(nèi)該對象的有效語音長度。每個識別對象可以設定不同的豐度識別閾值,比如5秒,10秒等等。比如識別豐度閾值取10秒,其相應的意義表示在一個識別窗口內(nèi),如果某個識別對象出現(xiàn)的加權(quán)時間總和超過10秒(可理解為該對象的有效語音長度超過10秒)就認為該識別對象就是目標對象。
在考慮具體的識別窗口長度以前,我們先定義訓練樣本標準長度。這個標準長度缺省建議值為30秒。在語音文件的編輯處理中,應該將所有參與訓練的正相樣本和反相樣本都剪切到(近似)標準長度。如果標準長度為30秒,也就是說應該將正相樣本和反相樣本都剪切到30秒左右的長度。其中單個人的反相樣本應該只取其中一段,也就是說,假如某個語音文件作為反相樣本,但是這個語音文件可能包括好幾個標準長度,那么只取其中輸出最大的一段作為反相樣本(這個編輯處理將由系統(tǒng)自動完成)。
局部豐度法的窗長度是可變的,但是系統(tǒng)建議窗長度取語音訓練文件的標準長度,缺省建議值是30秒。在識別過程中,系統(tǒng)掃描整個語音文件,并連續(xù)而平滑地移動識別窗口,只要在任一個窗口內(nèi)其輸出豐度達到中標的閾值,就認為是中標,系統(tǒng)就停止掃描,輸出結(jié)果。因此有時可能并不需要掃描整個文件,而在開始的30秒范圍內(nèi)就被識別出是中標。如果文件不足一個窗長度,則按照一個窗長度來處理,而中標閾值并不改變。
為了確定某個識別對象的中標閾值,首先定義一個概念,稱為標準豐度。
標準豐度=所有原始正相樣本的單位識別窗口內(nèi)最大輸出豐度的平均值所謂原始正相樣本,就是未經(jīng)過編輯處理的正相樣本,實際上就是包含雙方通話語音信息(既包含訓練對象也包含其它說話人的語音信息)的正相樣本。而通常所說的正相樣本是指已去掉非訓練對象語音的樣本。因此,所謂某個識別對象的標準豐度,也就是相應說話人的原始正相樣本,在單位的窗長度范圍內(nèi)的平均輸出豐度。
閾值=標準豐度×閾值系數(shù)。
其中閾值系數(shù)是0到1之間的數(shù)值。閾值系數(shù)越大,閾值越接近標準豐度,系統(tǒng)的虛識率越低,但是正識率也可能降低;閾值系數(shù)越小,閾值越接近0,系統(tǒng)的虛識率越高,但是正識率也越高。因此,通過調(diào)整閾值系數(shù),可以控制調(diào)節(jié)識別的效果。對于特別重要的對象,或者聲紋模板與識別的語音環(huán)境有所區(qū)別時(比如利用固定電話語音識別手機語音),建議取較低的閾值系數(shù),以保證足夠高的正識率;而對于不太重要的識別對象,則可以適當提供閾值系數(shù)。
系統(tǒng)缺省的閾值系數(shù)是0.5,也就是閾值等于標準豐度的50%,建議的取值范圍是0.3~0.7。
說話者身份識別系統(tǒng)的結(jié)果輸出包括中標文件的相關信息記錄和中標語音文件本身。類似與語音識別系統(tǒng)與前臺語音獲取系統(tǒng)之間的信息交互過程。
整個說話人聲紋訓練和識別整體流程圖如圖8所示。
本發(fā)明的說話者身份識別方法具有仿生性、增量式訓練、可學習性、識別雙向通話、強分辨能力和識別率、強魯棒性、識別速度快、非語音信號過濾等特點。
權(quán)利要求
1,一種說話者身份識別方法,由語音接收設備,語音獲取模塊,語音編輯、預處理模塊、說話人訓練和識別模塊以及后臺數(shù)據(jù)庫實現(xiàn),其特征在于所述的語音接收設備接收被識別人的聲音信號,并把聲音信號傳送至所述的語音獲取模塊,所述的語音獲取模塊由高速數(shù)據(jù)采集機構(gòu)成,所述的語音獲取模塊可以將接收到的語音形成語音文件并有秩序地存儲起來以用于所述的語音編輯、預處理模塊的后續(xù)處理,所述的語音編輯器對語音文件進行處理,并輸出編輯后的語音,所述的語音信號預處理芯片對語音文件進行語音信號的語音分析處理,并輸出語音的微特征參數(shù),所述的語音信號預處理芯片進一步將語音信息傳遞給所述的識別模塊,所述的識別模塊由聲紋訓練機和聲紋識別機構(gòu)成,所述的聲紋訓練機接收所述的語音編輯器及所述的語音預處理芯片的處理結(jié)果,對語音樣本進行訓練,形成說話人的獨有聲紋模板,所述的聲紋識別機利用訓練生成的聲紋模板、神經(jīng)網(wǎng)絡算法、以及語音預處理芯片處理得到的說話人語音微特征參數(shù)識別出說話人,所述的后臺數(shù)據(jù)庫為所述的語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊提供數(shù)據(jù)支持。
2,實現(xiàn)如權(quán)利要求1所述的說話者身份識別方法的系統(tǒng),其特征在于所述的系統(tǒng)由語音接收設備,語音獲取模塊,語音編輯、預處理模塊、說話人訓練和識別模塊以及后臺數(shù)據(jù)庫構(gòu)成,所述的語音接收設備接收被識別人的聲音信號,并把聲音信號傳送至所述的語音獲取模塊,所述的語音獲取模塊由高速數(shù)據(jù)采集機構(gòu)成,所述的語音編輯、預處理模塊由語音編輯器和語音信號預處理芯片構(gòu)成,所述的識別模塊由聲紋訓練機和聲紋識別機構(gòu)成,所述的語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊對所述的后臺數(shù)據(jù)庫進行數(shù)據(jù)存取。
3,如權(quán)利要求2所述的說話者身份識別系統(tǒng),其特征在于所述的語音接收設備為話筒或?qū)㈦娫捳Z音轉(zhuǎn)換為PCM信號的高速數(shù)據(jù)采集設備。
4,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的語音接收設備,實時地獲取將語音數(shù)據(jù)并按語音流文件模式進行存儲,同時以文本方式記錄該通話話單的相關信息。
5,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的語音編輯器對語音文件進行查看、編輯、分割和轉(zhuǎn)換處理。
6,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的語音編輯器支持毫秒級,并對語音數(shù)據(jù)進行采樣頻率、聲道數(shù)和采樣位數(shù)的轉(zhuǎn)化,并進行倒轉(zhuǎn)、反向、靜默特效編輯,或生成靜默;或?qū)ξ募M行分割。
7,如權(quán)利要求1所述的一種說話者身份識別方法,其特征在于所述的語音信號預處理芯片對語音文件進行語音信號的數(shù)字化、預加重、加窗和加幀分析處理。
8,如權(quán)利要求1所述的一種說話者身份識別方法,其特征在于所述的語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊和后臺數(shù)據(jù)庫系統(tǒng)采用配置文件和從共享目錄獲取話單語音文件的方式進行協(xié)同工作。
9,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的聲紋訓練機對對象的語音樣本和非對象的語音樣本進行訓練,且所述的聲紋訓練機利用對象的語音樣本和非對象的語音樣本來分割這樣一個多維的頻譜空間,使得對象語音樣本所占據(jù)的頻譜空間被映射到對象的輸出,而非對象語音樣本所占據(jù)的頻譜空間被映射到非對象的輸出,所述的聲紋訓練機根據(jù)語音訓練的結(jié)果進行反饋式的調(diào)整。
10,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的聲紋識別機根據(jù)說話人語音的頻譜特征去同步激勵所有待識別對象的輸出。
11,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的聲紋識別機利用多層聚類神經(jīng)網(wǎng)絡完成語音信號特征模糊動態(tài)集合的聚類。
12,如權(quán)利要求1所述的說話者身份識別方法,其特征在于所述的聲紋識別機利用單層感知機網(wǎng)絡完成已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出。
全文摘要
一種說話者身份識別方法和系統(tǒng),其系統(tǒng)由語音接收設備,語音獲取模塊,語音編輯、預處理模塊,說話人訓練、識別模塊和后臺數(shù)據(jù)庫構(gòu)成,其特征在于所述的語音接收設備接收被識別人的聲音信號,所述的語音獲取模塊可以將接收到的語音形成語音文件并有秩序地存儲起來,所述的語音編輯、預處理模塊對語音文件進行處理、語音分析處理,并輸出語音的微特征參數(shù),所述的識別模塊依靠訓練生成的聲紋模板、神經(jīng)網(wǎng)絡算法、以及語音預處理芯片處理得到的說話人語音微特征參數(shù)識別出說話人。本發(fā)明具有仿生性、增量式訓練、可學習性、識別雙向通話、強分辨能力和識別率、強魯棒性、識別速度快、非語音信號過濾等特點。
文檔編號G10L15/00GK1567431SQ0314151
公開日2005年1月19日 申請日期2003年7月10日 優(yōu)先權(quán)日2003年7月10日
發(fā)明者吳田平 申請人:上海優(yōu)浪信息科技有限公司