專利名稱:拼接語音檢測系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù),特別涉及一種拼接語音檢測系統(tǒng)及方法。
背景技術(shù):
聲紋識別屬于生物識別技術(shù)的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性。常見的聲紋認證系統(tǒng),通常是通過產(chǎn)生一些固定或隨機的文本,讓用戶說出,以識別其聲紋。但是,如果用戶的系統(tǒng)被安裝了一些黑客工具,記錄了用戶以前登陸時說的語音,就可以按照聲紋認證系統(tǒng)生成的文本,將用戶以前登陸時的語音進行切分并拼接,然后用這些拼接的語音冒充用戶說話來登陸。如果用戶每個字的發(fā)音變換很快,將這些語音分割后拼接,可以通過分析拼接后的語音的一些特征(例如能量的變化),來檢測語音是拼接的還是自然發(fā)聲的,但結(jié)果不一定可靠;如果用戶每個字的發(fā)音較慢,將這些語音分割后進行拼接,則現(xiàn)有的方法很難檢測出來,此外,拼接后的語音還可能會加上某些變形,現(xiàn)有的方法更難檢測出來。這樣黑客能通過拼接的語音冒充用戶說話成功登陸用戶的系統(tǒng),從而損害用戶的利益,系統(tǒng)安全性差。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是能準(zhǔn)確地檢測出拼接的語音。為解決上述技術(shù)問題,本發(fā)明提供了一種拼接語音檢測系統(tǒng),包括發(fā)音信息采集模塊、用戶歷史語音數(shù)據(jù)庫、語音比較模塊;所述發(fā)音信息采集模塊,用于采集用戶的語音的發(fā)音信息,并將所采集的用戶的語音的發(fā)音信息存儲到所述用戶歷史語音數(shù)據(jù)庫;所述用戶歷史語音數(shù)據(jù)庫,用于存儲用戶的語音的發(fā)音信息;所述語音比較模塊,用于將所述發(fā)音信息采集模塊當(dāng)前采集到的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫存儲的用戶的歷史語音的發(fā)音信息進行比較,輸出拼接語音識別信號,如果兩者的相似度大于等于一設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為是,如果兩者的相似程度小于所述設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為否。本發(fā)明的拼接語音檢測系統(tǒng)還包括用戶登錄模塊、聲紋識別模塊;所述用戶登錄模塊,用于接收用戶登錄請求信息,當(dāng)接收到用戶登錄請求信息后, 輸出一段文本到所述聲紋識別模塊;所述聲紋識別模塊,根據(jù)所述語音比較模塊輸出的拼接語音識別信號及用戶登錄模塊傳來的所述一段文本對用戶發(fā)出的語音進行聲紋識別,確定是否允許用戶登陸進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為是時,所述聲紋識別模塊拒絕用戶登錄進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為否時,所述聲紋識別模塊根據(jù)所述一段文本對用戶發(fā)出的語音進行聲紋識別,識別通過則允許用戶登陸進入計算機系統(tǒng),否則拒絕用戶登陸進入計算機系統(tǒng)。所述發(fā)音信息可以為原始語音的語音強度和對應(yīng)的時間信息或者從原始語音中提取的語音特征。所述語音特征可以為音頻指紋、頻譜、基頻、共振峰、倒譜系數(shù)中的一種或多種。所述發(fā)音信息可以為音頻指紋。所述語音比較模塊可以采用距離差方法、互相關(guān)算法或動態(tài)規(guī)劃算法將所述發(fā)音信息采集模塊當(dāng)前采集到的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫存儲的用戶的歷史語音的發(fā)音信息進行比較,輸出拼接語音識別信號。為解決上述技術(shù)問題,本發(fā)明還提供了一種拼接語音檢測方法,包括以下步驟一 . 一用戶登錄模塊接收到用戶登錄請求信息;二 . 一發(fā)音信息采集模塊采集用戶的語音的發(fā)音信息,并將所采集的用戶的語音的發(fā)音信息存儲到一用戶歷史語音數(shù)據(jù)庫;三.一語音比較模塊將所述發(fā)音信息采集模塊當(dāng)前采集到的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫存儲的用戶的歷史語音的發(fā)音信息進行比較,輸出拼接語音識別信號,如果兩者的相似度大于等于一設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為是,如果兩者的相似程度小于所述設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為否。所述用戶登錄模塊接收到用戶登錄請求信息后,可以輸出一段文本給用戶,并輸出所述一段文本到一聲紋識別模塊;當(dāng)所述語音比較模塊輸出的拼接語音識別信號為是時,所述聲紋識別模塊拒絕用戶登錄進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為否時,所述聲紋識別模塊根據(jù)所述一段文本對用戶發(fā)出的語音進行聲紋識別,識別通過則允許用戶登陸進入計算機系統(tǒng),否則拒絕用戶登陸進入計算機系統(tǒng)。所述發(fā)音信息可以為原始語音的語音強度和對應(yīng)的時間信息或者從原始語音中提取的語音特征。所述發(fā)音信息可以為音頻指紋。本發(fā)明的拼接語音檢測系統(tǒng)及方法,用戶每次使用語音登陸時,無論是否成功,系統(tǒng)會記錄下此次登陸的語音的發(fā)音信息到一用戶歷史語音數(shù)據(jù)庫中,也就是說用戶歷史語音數(shù)據(jù)庫中保存有用戶的歷史語音的發(fā)音信息。用戶進行登陸時,語音比較模塊會比較用戶此次登陸的語音的發(fā)音信息和用戶歷史語音數(shù)據(jù)庫中用戶以前登陸的歷史語音的發(fā)音信息,根據(jù)兩者的相似度進行判斷,如果認為用戶此次登陸的語音的發(fā)音信息和用戶歷史語音數(shù)據(jù)庫中用戶以前登陸的某段歷史語音的發(fā)音信息一致,則認為用戶此次登陸的語音是用以前的語音拼接而成,從而來實現(xiàn)拼接語音的自動檢測,并且準(zhǔn)確性非常高,對經(jīng)過變換的拼接語音也有很好的檢測效果。
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步的詳細說明。圖1是本發(fā)明的拼接語音檢測系統(tǒng)一實施方式示意圖2是本發(fā)明的拼接語音檢測方法一實施方式流程圖。
具體實施例方式本發(fā)明的拼接語音檢測系統(tǒng)一實施方式如圖1所示,包括用戶登錄模塊、發(fā)音信息采集模塊、用戶歷史語音數(shù)據(jù)庫、語音比較模塊、聲紋識別模塊;所述用戶登錄模塊,用于接收用戶登錄請求信息,當(dāng)接收到用戶登錄請求信息后, 輸出一段文本給用戶,并輸出所述一段文本到所述聲紋識別模塊;所述發(fā)音信息采集模塊,用于采集用戶的語音的發(fā)音信息,并將所采集的用戶的語音的發(fā)音信息存儲到所述用戶歷史語音數(shù)據(jù)庫;所述發(fā)音信息可以為原始語音的語音強度和對應(yīng)的時間信息(原始語音表示為一個數(shù)字序列,序列中的每一個數(shù)字表示語音在某一時刻的強度)或者從原始語音中提取的語音特征(比如頻譜、基頻、共振峰、倒譜系數(shù)、音頻指紋等等);所述用戶歷史語音數(shù)據(jù)庫,用于存儲用戶的語音的發(fā)音信息;所述語音比較模塊,用于將所述發(fā)音信息采集模塊在所述用戶登錄模塊最近一次接收到用戶登錄請求信息之后所采集的用戶的語音的發(fā)音信息(即當(dāng)前采集到的用戶的語音的發(fā)音信息),同所述用戶歷史語音數(shù)據(jù)庫在所述用戶登錄模塊最近一次接收到用戶登錄請求信息之前所存儲的用戶的語音的發(fā)音信息(即用戶的歷史語音的發(fā)音信息)進行比較,輸出拼接語音識別信號,如果兩者的相似度大于等于一設(shè)定閥值,則認為本次登陸的語音包含有用戶歷史語音中的某個片段,是由用戶歷史語音拼接而成,所述語音比較模塊輸出的拼接語音識別信號為是,如果兩者的相似程度小于所述設(shè)定閥值,則認為本次登陸的語音不包含用戶歷史語音中的片段,不是由用戶歷史語音拼接而成,所述語音比較模塊輸出的拼接語音識別信號為否。所述聲紋識別模塊,根據(jù)所述語音比較模塊輸出的拼接語音識別信號及用戶登錄模塊傳來的所述一段文本對用戶發(fā)出的語音進行聲紋識別,確定是否允許用戶登陸進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為是時,所述聲紋識別模塊拒絕用戶登錄進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為否時,所述聲紋識別模塊根據(jù)所述一段文本對用戶發(fā)出的語音進行聲紋識別,識別通過則允許用戶登陸進入計算機系統(tǒng),否則拒絕用戶登陸進入計算機系統(tǒng)。所述語音比較模塊可以通過從原始語音中提取的一種語音特征同所述用戶歷史語音數(shù)據(jù)庫中存儲的用戶的語音的該種語音特征進行比較,根據(jù)兩者的相似度輸出拼接語音識別信號,也可以通過從原始語音中提取的某幾種語音特征的組合同所述用戶歷史語音數(shù)據(jù)庫中存儲的用戶的語音的該幾種語音特征進行比較,根據(jù)兩者的相似度輸出拼接語音識別信號。音頻指紋是可以代表一段音頻的重要聲學(xué)特征的基于內(nèi)容的緊致的數(shù)字串,同樣的音頻經(jīng)過反復(fù)的錄音、數(shù)字化,仍然能夠抽取出相同的音頻指紋,同時不同的音頻抽取的指紋不同。所述語音比較模塊采用距離差方法、互相關(guān)算法或動態(tài)規(guī)劃算法將所述發(fā)音信息采集模塊在所述用戶登錄模塊最近一次接收到用戶登錄請求信息之后所采集的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫在所述用戶登錄模塊最近一次接收到用戶登錄請求信息之前所存儲的用戶的語音的發(fā)音信息進行比較,判斷兩者的相似度,輸出拼接語音識別信號。距離差方法是對原始語音數(shù)據(jù)的語音強度信息或者從原始語音中提取的語音特征來處理,取一個窗函數(shù),計算本次登陸語音中某個時刻的窗函數(shù)中的數(shù)值與用戶歷史語音中某個時刻的窗函數(shù)中的數(shù)值的距離,如果某兩個時刻計算出的距離小于某個閾值,則認為這兩個時刻的發(fā)音是一樣的?;ハ嚓P(guān)算法是對原始語音數(shù)據(jù)的語音強度信息或者從原始語音中提取的語音特征來處理,取一個窗函數(shù),然后計算本次登陸語音中某個時刻的窗函數(shù)中的數(shù)值與用戶歷史語音中某一時刻的窗函數(shù)中的數(shù)值的乘積,如果該結(jié)果大于某個閾值,則認為這兩個時刻的發(fā)音是一樣的。動態(tài)規(guī)劃算法是對原始語音數(shù)據(jù)的語音強度信息或者從原始語音中提取的語音特征來處理,取一個窗函數(shù),然后計算本次登陸語音中某個時刻的窗函數(shù)中的數(shù)值與用戶歷史語音中另一時刻的窗函數(shù)中的數(shù)值的動態(tài)規(guī)劃距離。如果該結(jié)果小于某個閾值,則認為這兩個時刻的發(fā)音是一樣的。以上所說是以某兩個時刻的窗函數(shù)中的數(shù)值來舉例,實際需要計算各個時刻的兩個窗函數(shù)中的數(shù)值的距離。利用本發(fā)明的拼接語音檢測系統(tǒng)進行拼接語音檢測時,如圖2、圖3所示,包括以下步驟一 .用戶登錄模塊接收到用戶登錄請求信息,輸出一段文本給用戶讓用戶朗讀, 并輸出所述一段文本到一聲紋識別模塊;二 . 一發(fā)音信息采集模塊采集用戶的語音的發(fā)音信息(一較佳實施例,為音頻指紋),并將所采集的用戶的語音的發(fā)音信息(一較佳實施例,為音頻指紋)存儲到一用戶歷史語音數(shù)據(jù)庫;三.一語音比較模塊將所述發(fā)音信息采集模塊在所述用戶登錄模塊最近一次接收到用戶登錄請求信息之后所采集的用戶的語音的發(fā)音信息(一較佳實施例,為音頻指紋)同所述用戶歷史語音數(shù)據(jù)庫在所述用戶登錄模塊最近一次接收到用戶登錄請求信息之前所存儲的用戶的語音的發(fā)音信息(一較佳實施例,為音頻指紋)進行比較,輸出拼接語音識別信號,如果兩者的相似度大于等于一設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為是,如果兩者的相似程度小于所述設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為否;五.當(dāng)所述語音比較模塊輸出的拼接語音識別信號為是時,所述聲紋識別模塊拒絕用戶登錄進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為否時,所述聲紋識別模塊根據(jù)所述一段文本對用戶發(fā)出的語音進行聲紋識別,識別通過則允許用戶登陸進入計算機系統(tǒng),否則拒絕用戶登陸進入計算機系統(tǒng)。本發(fā)明的拼接語音檢測系統(tǒng)及方法,用戶每次使用語音登陸時,無論是否成功,系統(tǒng)會記錄下此次登陸的語音的發(fā)音信息到一用戶歷史語音數(shù)據(jù)庫中,也就是說用戶歷史語音數(shù)據(jù)庫中保存有用戶的歷史語音的發(fā)音信息。用戶進行登陸時,語音比較模塊會比較用戶此次登陸的語音的發(fā)音信息和用戶歷史語音數(shù)據(jù)庫中用戶以前登陸的歷史語音的發(fā)音信息,根據(jù)兩者的相似度進行判斷,如果認為用戶此次登陸的語音的發(fā)音信息和用戶歷史語音數(shù)據(jù)庫中用戶以前登陸的某段歷史語音的發(fā)音信息一致,則認為用戶此次登陸的語音是用以前的語音拼接而成,從而來實現(xiàn)拼接語音的自動檢測,并且準(zhǔn)確性非常高,對經(jīng)過變換的拼接語音也有很好的檢測效果。
權(quán)利要求
1.一種拼接語音檢測系統(tǒng),其特征在于,包括發(fā)音信息采集模塊、用戶歷史語音數(shù)據(jù)庫、語音比較模塊;所述發(fā)音信息采集模塊,用于采集用戶的語音的發(fā)音信息,并將所采集的用戶的語音的發(fā)音信息存儲到所述用戶歷史語音數(shù)據(jù)庫;所述用戶歷史語音數(shù)據(jù)庫,用于存儲用戶的語音的發(fā)音信息;所述語音比較模塊,用于將所述發(fā)音信息采集模塊當(dāng)前采集到的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫存儲的用戶的歷史語音的發(fā)音信息進行比較,輸出拼接語音識別信號,如果兩者的相似度大于等于一設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為是,如果兩者的相似程度小于所述設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為否。
2.根據(jù)權(quán)利要求1所述的拼接語音檢測系統(tǒng),其特征在于,還包括用戶登錄模塊、聲紋識別模塊;所述用戶登錄模塊,用于接收用戶登錄請求信息,當(dāng)接收到用戶登錄請求信息后,輸出一段文本到所述聲紋識別模塊;所述聲紋識別模塊,根據(jù)所述語音比較模塊輸出的拼接語音識別信號及用戶登錄模塊傳來的所述一段文本對用戶發(fā)出的語音進行聲紋識別,確定是否允許用戶登陸進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為是時,所述聲紋識別模塊拒絕用戶登錄進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為否時,所述聲紋識別模塊根據(jù)所述一段文本對用戶發(fā)出的語音進行聲紋識別,識別通過則允許用戶登陸進入計算機系統(tǒng),否則拒絕用戶登陸進入計算機系統(tǒng)。
3.根據(jù)權(quán)利要求1所述的拼接語音檢測系統(tǒng),其特征在于,所述發(fā)音信息為原始語音的語音強度和對應(yīng)的時間信息或者從原始語音中提取的語音特征。
4.根據(jù)權(quán)利要求3所述的拼接語音檢測系統(tǒng),其特征在于,所述語音特征為音頻指紋、 頻譜、基頻、共振峰、倒譜系數(shù)中的一種或多種。
5.根據(jù)權(quán)利要求1所述的拼接語音檢測系統(tǒng),其特征在于,所述發(fā)音信息為音頻指紋。
6.根據(jù)權(quán)利要求3所述的拼接語音檢測系統(tǒng),其特征在于,所述語音比較模塊采用距離差方法、互相關(guān)算法或動態(tài)規(guī)劃算法將所述發(fā)音信息采集模塊當(dāng)前采集到的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫存儲的用戶的歷史語音的發(fā)音信息進行比較,輸出拼接語音識別信號。
7.一種拼接語音檢測方法,其特征在于,包括以下步驟一.一用戶登錄模塊接收到用戶登錄請求信息;二 . 一發(fā)音信息采集模塊采集用戶的語音的發(fā)音信息,并將所采集的用戶的語音的發(fā)音信息存儲到一用戶歷史語音數(shù)據(jù)庫;三.一語音比較模塊將所述發(fā)音信息采集模塊當(dāng)前采集到的用戶的語音的發(fā)音信息同所述用戶歷史語音數(shù)據(jù)庫存儲的用戶的歷史語音的發(fā)音信息進行比較,輸出拼接語音識別信號,如果兩者的相似度大于等于一設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為是,如果兩者的相似程度小于所述設(shè)定閥值,所述語音比較模塊輸出的拼接語音識別信號為否。
8.根據(jù)權(quán)利要求7所述的拼接語音檢測方法,其特征在于,用戶登錄模塊接收到用戶登錄請求信息后,輸出一段文本給用戶,并輸出所述一段文本到一聲紋識別模塊;當(dāng)所述語音比較模塊輸出的拼接語音識別信號為是時,所述聲紋識別模塊拒絕用戶登錄進入計算機系統(tǒng);當(dāng)所述語音比較模塊輸出的拼接語音識別信號為否時,所述聲紋識別模塊根據(jù)所述一段文本對用戶發(fā)出的語音進行聲紋識別,識別通過則允許用戶登陸進入計算機系統(tǒng),否則拒絕用戶登陸進入計算機系統(tǒng)。
9.根據(jù)權(quán)利要求7所述的拼接語音檢測系統(tǒng),其特征在于,所述發(fā)音信息為原始語音的語音強度和對應(yīng)的時間信息或者從原始語音中提取的語音特征。
10.根據(jù)權(quán)利要求7所述的拼接語音檢測方法,其特征在于,所述發(fā)音信息為音頻指紋。
全文摘要
本發(fā)明公開了一種拼接語音檢測系統(tǒng),包括發(fā)音信息采集模塊、用戶歷史語音數(shù)據(jù)庫、語音比較模塊;發(fā)音信息采集模塊,用于采集用戶的語音的發(fā)音信息,并將所采集的用戶的語音的發(fā)音信息存儲到所述用戶歷史語音數(shù)據(jù)庫;語音比較模塊,用于將采集的用戶的語音的發(fā)音信息同用戶歷史語音數(shù)據(jù)庫所存儲的用戶的語音的發(fā)音信息進行比較,輸出拼接語音識別信號。本發(fā)明還公開了一種拼接語音檢測方法。本發(fā)明能準(zhǔn)確地檢測出拼接的語音。
文檔編號G10L15/00GK102456346SQ201010511170
公開日2012年5月16日 申請日期2010年10月19日 優(yōu)先權(quán)日2010年10月19日
發(fā)明者張峰, 蔡洪斌, 黃偉 申請人:盛樂信息技術(shù)(上海)有限公司