專利名稱:掌上聲紋驗(yàn)證系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是利用聲紋識別方法,針對掌上電腦平臺實(shí)現(xiàn)的新型身份安全認(rèn)證系統(tǒng)。聲紋識別方法屬于計(jì)算機(jī)語音處理技術(shù)領(lǐng)域,而掌上電腦是移動互聯(lián)環(huán)境的重要設(shè)備,兩者結(jié)合構(gòu)成了一種安全可靠的用于掌上電腦的掌上聲紋驗(yàn)證系統(tǒng)。
背景技術(shù):
信息時代的一大特征就是身份的數(shù)字化和隱性化,如何準(zhǔn)確鑒定身份,保證信息安全呢?信用卡號、銀行帳號、網(wǎng)絡(luò)登錄號,我們可能被生活中過多需要記憶的密碼攪得心煩。如何不用記憶這些密碼而又不用擔(dān)心自己身份無法認(rèn)定呢?已經(jīng)興起的生物認(rèn)證技術(shù)正好可以解決上述問題。聲紋識別是從說話人所發(fā)語音中提取出說話人是誰的信息的過程,為此,需從各個說話人的發(fā)音中找出說話人之間的個性差異,它涉及到說話人發(fā)音器官上的個性差異、發(fā)音聲道之間的個性差異、發(fā)音習(xí)慣之間的個性差異等不同級別上的差異,因此,聲紋識別是交叉運(yùn)用運(yùn)用心理學(xué)、聲學(xué)、語音學(xué)、語言學(xué)、人工智能、數(shù)字信號處理、信息理論、模式識別理論、最優(yōu)化理論、計(jì)算機(jī)科學(xué)等的綜合性課題。隨著數(shù)字信號處理理論和人工智能等學(xué)科的不斷發(fā)展,近年來聲紋識別研究得到了迅速的發(fā)展。
同樣,隨著電子商務(wù)的廣泛推廣,掌上電腦(PDA)日益成為人們必不可少的電子伙伴。掌上電腦上不僅保存著大量的個人或公司的重要資料,也是從事電子商務(wù)的必要手段。如何保證其自身安全以及保障開展電子商務(wù)的安全性,是一個亟待解決的問題。本掌上聲紋驗(yàn)證系統(tǒng)的推出解決了這一燃眉之急,采用語音輸入的身份認(rèn)證方式對用戶而言簡單方便可靠,具有很大的發(fā)展?jié)摿Α?br>
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種用于掌上電腦的掌上聲紋驗(yàn)證系統(tǒng)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案。這種用于掌上電腦的掌上聲紋驗(yàn)證系統(tǒng),利用人的聲音來鑒定身份,根據(jù)說話人的聲紋特征,通過高斯混合模型建立聲紋模型;通過掌上電腦的麥克風(fēng)錄入語音;對聲音進(jìn)行預(yù)處理;對處理后的聲音根據(jù)一定的聲紋模型進(jìn)行聲紋特征提取;用聲紋特征與聲紋模型來識別說話人,進(jìn)行聲紋驗(yàn)證。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。所述的聲音預(yù)處理,對語音數(shù)字濾波、端點(diǎn)檢測、去零漂、預(yù)加重、加漢明窗等處理過程其中端點(diǎn)檢測采用特有的自適應(yīng)雙門限檢定法檢測語音端點(diǎn)。對處理后的聲音進(jìn)行特征提取,是對聲音按照一定聲紋模型建模的過程采用MFCC(Mel倒譜)與LPCC(線性預(yù)測系數(shù)倒譜)進(jìn)行聲紋建模,并通過求取特征一階微分、特征加權(quán)、特征維選擇、特征組合等方式獲取一致的聲紋特征。通過高斯混合模型建立聲紋模型。通過計(jì)算說話人的聲紋特征在高斯混合模型的匹配得分進(jìn)行聲紋驗(yàn)證如果該得分大于設(shè)定的閥值,則驗(yàn)證通過,否則說明該用戶是冒名的,拒絕該用戶。還可設(shè)有聲紋模型管理,包括涉及到聲紋模型的更新與存儲。
本發(fā)明有益的效果是首先,本發(fā)明運(yùn)用于移動的掌上電腦;其次,本發(fā)明使用了自適應(yīng)雙門限檢定法檢測語音端點(diǎn);再次,本發(fā)明適用二次特征提取方式進(jìn)行聲紋特征提??;最后,本發(fā)明采用可更新的聲紋模型管理。采用人們最常用的交流手段“語音”作為輸入源的掌上聲紋驗(yàn)證操作簡單、應(yīng)用靈活、實(shí)現(xiàn)方便、結(jié)果可靠準(zhǔn)確,具有很大的發(fā)展?jié)摿Α?br>
圖1是本發(fā)明的掌上聲紋驗(yàn)證系統(tǒng)框架圖;圖2是本發(fā)明的聲紋驗(yàn)證技術(shù)流程圖;圖3是本發(fā)明的自適應(yīng)雙門限檢定法框圖;圖4是本發(fā)明的二次特征提取框圖;圖5是本發(fā)明的聲紋模型管理框圖;具體實(shí)施方式
下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步描述。這種用于掌上電腦的掌上聲紋驗(yàn)證系統(tǒng)第一,掌上聲紋驗(yàn)證系統(tǒng)(如圖1,2所示)利用聲紋驗(yàn)證技術(shù)在掌上電腦上實(shí)現(xiàn)實(shí)時身份認(rèn)證。其基本工作原理如下(1)用戶通過掌上電腦的麥克風(fēng)錄入語音,系統(tǒng)對語音進(jìn)行預(yù)處理并根據(jù)一定的聲紋模型提取說話人的個性特征。(2)在用戶注冊過程,用戶根據(jù)系統(tǒng)提示錄入一些訓(xùn)練的語音,系統(tǒng)利用這些語料進(jìn)行特征提取,再提取的聲紋特征生成特定的聲紋模型。(3)當(dāng)用戶登錄時,用戶同樣需要說出一段話(注冊與登錄時說的話不必相同),系統(tǒng)將新獲取的聲紋特征與原有的模型匹配比對。如果兩者相似性較大(超過給定閥值),則系統(tǒng)接納該用戶,否則拒絕。顯然,對于聲紋驗(yàn)證系統(tǒng),用戶登錄時需要申明自己的身份,沒有注冊過的用戶將為系統(tǒng)所拒絕。(4)對于被接納的授權(quán)用戶,系統(tǒng)允許其訪問資源。對于企業(yè)用戶,則通過無線網(wǎng)絡(luò)(如藍(lán)牙/紅外)訪問企業(yè)網(wǎng)絡(luò),電子商務(wù)用的業(yè)務(wù)應(yīng)用系統(tǒng)等;對于個人用戶,則系統(tǒng)允許察看一些個人信息,如個人計(jì)劃,記事內(nèi)容等。在這個意義上,掌上聲紋驗(yàn)證系統(tǒng)是一個電子安全門戶,是可以與應(yīng)用系統(tǒng)相集成的支持COM調(diào)用的API,甚而作為開機(jī)口令保護(hù)。
第二,在聲紋識別的信號預(yù)處理中,噪聲是一個不可避免又令人十分頭痛的問題。如圖3為一段語音的能量-時間圖,如何從一段帶噪語音中檢測出“干凈的”語音區(qū)正是端點(diǎn)檢測的重中之重。而由掌上電腦錄取的聲音中更是包含較多的噪聲信號。如圖中可見,語音的能量并非是一直超過平均水平的。清音與濁音之間,噪聲的干擾,聲音的忽高忽低使掌上聲紋驗(yàn)證系統(tǒng)遇到了嚴(yán)峻挑戰(zhàn)。本發(fā)明采用自適應(yīng)雙門限檢定法檢測語音端點(diǎn),門限能量由靜態(tài)能量閥值與動態(tài)能量閥值共同決定,有效的語音要有一個持續(xù)的高能量區(qū)。E1=13·Σi=13Nxi2]]>N為一幀語音的采樣點(diǎn)數(shù),E1為鄰近三幀的平均能量ETH=a·(E1+E0)/2E0為預(yù)設(shè)靜態(tài)能量,a為比例參數(shù),ETH為高閥值ETL=b·(E1+E0)/2b為比例參數(shù),ETL為低閥值第三,采用聲紋特征的二次提取有利于聲紋驗(yàn)證的識別率。如圖4所示,首先是對語音進(jìn)行Mel倒譜(MFCC)與線性預(yù)測系數(shù)倒譜(LPCC)的特征提取。其次分別采用特征組合、特征維選取、特征取一階微分以及特征加權(quán)等方法實(shí)現(xiàn)對聲紋特征的二次提取。
MFCC通過一組帶寬隨濾波器頻率呈對數(shù)增長的數(shù)字濾波器組來計(jì)算一幀語音信號功率譜;然后對數(shù)字濾波器組的輸出值取對數(shù),最后利用離散余弦變換從該對數(shù)功率譜求得表示語音信號譜包絡(luò)的倒譜系數(shù)。數(shù)字濾波器組構(gòu)成人類聽覺系統(tǒng)初始傳導(dǎo)階段的粗糙模型。以下為MFCC的求取公式Mel=2595log10(1+f700)]]>MFCCi=Σk=1MXkcos(i(k-12)πM)]]>i=1,2Λ,P特征加權(quán)是指用加權(quán)系數(shù)增強(qiáng)部分特征維權(quán)重。加權(quán)特征WFEATURE為WMFCCi=MFCCi*aii=1,2...,P;其中ai為加權(quán)系數(shù),ai=0.5+sin(π*i/P),i=1,2,...,P計(jì)算LPCC分兩步,首先采用Durbin遞推算法求解線性預(yù)測系數(shù)LPC,隨后采用求倒譜公式求取LPCC。而LPCC的加權(quán)WLPCC則采用以下方式WLPCCi=LPCCi*aii=1,2...,Q;其中ai為加權(quán)系數(shù),ai=0.25+0.5sin(π*i/Q),i=1,2,...,Q特征一次微分指獲取特征的動態(tài)變化。動態(tài)特征DynFEATURE為DynFEATURE(j)i=FEATURE(j)i-FEATURE(j-1)i其中,i=1,2...,I,表示第i維特征;DynFEATURE(i)表示第j幀特征。此處FEATURE分別為WMFCC或者WLPCC,所以對應(yīng)的DynFEATURE分別是DMFCC與DLPCC。顯然,DMFCC,DLPCC的階數(shù)分別與WMFCC,WLPCC一致。
特征組合指的是將兩種以上特征相結(jié)合而構(gòu)成的新特征。特征組合ComFEATURE形式化表示為 特征維選取是指從原有多維特征中選取部分維度的特征構(gòu)成。特征維選取結(jié)果為SelFEATURE,方法如下SelFEATUREi=ComFEATUREji=1,2...,I;j=1,2,...2P+2Q;i≤j;且當(dāng)j≠k時,ComFEATURE(j)≠ComFEATURE(k)由此完成特征的二次提取。
第四,聲紋模型管理是一個關(guān)于說話人信息的數(shù)據(jù)庫管理。如圖5所示,包括聲紋模型建模、模型保存、模型載入以及說話人資料管理。其中說話人建模過程采用新舊聲紋特征實(shí)現(xiàn)聲紋模型的更新。
至此,整個掌上聲紋驗(yàn)證得以實(shí)現(xiàn)。
權(quán)利要求
1.一種掌上聲紋驗(yàn)證系統(tǒng),其特征在于利用人的聲音來鑒定身份,根據(jù)說話人的聲學(xué)特征,通過高斯混合模型建立聲紋模型;通過掌上電腦的麥克風(fēng)錄入語音;對聲音進(jìn)行預(yù)處理;對處理后的聲音根據(jù)一定的聲學(xué)模型進(jìn)行特征提??;用聲紋特征與聲紋模型來識別說話人,進(jìn)行聲紋驗(yàn)證。
2.根據(jù)權(quán)利要求1所述的掌上聲紋驗(yàn)證系統(tǒng),其特征在于所述的聲音預(yù)處理,對語音數(shù)字濾波、端點(diǎn)檢測、去零漂、預(yù)加重、加漢明窗等處理過程;其中端點(diǎn)檢測采用特有的自適應(yīng)雙門限檢定法檢測語音端點(diǎn)。
3.根據(jù)權(quán)利要求1所述的掌上聲紋驗(yàn)證系統(tǒng),其特征在于對處理后的聲音進(jìn)行二次特征提取,是對聲音按照一定聲學(xué)模型建模的過程采用MFCC與LPCC進(jìn)行聲學(xué)建模,并通過求取特征一階微分、特征加權(quán)、特征維選擇、特征組合等方式獲取一致的聲學(xué)特征。
4.根據(jù)權(quán)利要求1所述的掌上聲紋驗(yàn)證系統(tǒng),其特征在于用聲學(xué)特征與高斯混合模型進(jìn)行聲紋識別,計(jì)算說話人的聲學(xué)特征在高斯混合模型的匹配得分;如果該得分大于設(shè)定的閥值,則驗(yàn)證通過,否則說明該用戶是冒名的,拒絕該用戶。
5.根據(jù)權(quán)利要求1所述的掌上聲紋驗(yàn)證系統(tǒng),其特征在于聲紋模型管理,包括涉及到聲紋模型的更新與存儲。
全文摘要
本發(fā)明是涉及一種用于掌上電腦的掌上聲紋驗(yàn)證系統(tǒng),利用人的聲音來鑒定身份,根據(jù)說話人的聲紋特征,通過高斯混合模型建立聲紋模型;通過掌上電腦的麥克風(fēng)錄入語音;對聲音進(jìn)行預(yù)處理;對處理后的聲音根據(jù)一定的聲紋模型進(jìn)行聲紋特征提取;用聲紋特征與聲紋模型來識別說話人,進(jìn)行聲紋驗(yàn)證。所述的聲音預(yù)處理,對語音數(shù)字濾波、端點(diǎn)檢測、去零漂、預(yù)加重、加漢明窗等處理過程。通過計(jì)算說話人的聲紋特征在高斯混合模型的匹配得分進(jìn)行聲紋驗(yàn)證。本發(fā)明有益的效果是采用人們最常用的交流手段“語音”作為輸入源的掌上聲紋驗(yàn)證操作簡單、應(yīng)用靈活、實(shí)現(xiàn)方便、結(jié)果可靠準(zhǔn)確,具有很大的發(fā)展?jié)摿Α?br>
文檔編號G06F3/16GK1403953SQ02141768
公開日2003年3月19日 申請日期2002年9月6日 優(yōu)先權(quán)日2002年9月6日
發(fā)明者吳朝暉, 楊瑩春, 馬志友 申請人:浙江大學(xué)