專利名稱:一種基于聲紋和語音的防錄音假冒身份識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)及信息服務(wù)技術(shù)領(lǐng)域,特別涉及通過語音中的人類的聲紋信息和語音內(nèi)容對(duì)其聲稱的身份進(jìn)行識(shí)別的方法及系統(tǒng)。
背景技術(shù):
聲紋識(shí)別技術(shù)聲紋識(shí)別(Voiceprint Recognition, VPR)技術(shù)屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù),來識(shí)別語音話者身份的技術(shù)。由于每個(gè)人的發(fā)聲器官(舌、牙齒、喉頭、肺、鼻腔)在尺寸和形態(tài)方面不盡相同,因此聲紋也就成為一種鑒別說話人身份的識(shí)別手段。
聲紋識(shí)別系統(tǒng)是以說話人的語音作為輸入,用訓(xùn)練得到的特定人聲紋模型來識(shí)別待測語音的話者身份。聲紋識(shí)別系統(tǒng)一般包括兩個(gè)步驟聲紋建模(Voiceprint Modeling)和聲紋驗(yàn)證(Voiceprint Verif ication)。聲紋識(shí)別系統(tǒng)在實(shí)際應(yīng)用時(shí),常常會(huì)面臨一個(gè)兩難選擇問題,即如何確定聲紋識(shí)別系統(tǒng)的錯(cuò)誤拒絕率和錯(cuò)誤接受率。錯(cuò)誤拒絕率是指拒絕合法說話人而造成的錯(cuò)誤,錯(cuò)誤接受率是指接受非法說話人而造成的錯(cuò)誤,二者與閾值的設(shè)定相關(guān)。在實(shí)際應(yīng)用環(huán)境下,兩者無法同時(shí)達(dá)到最小,需要調(diào)整系統(tǒng)閾值來滿足不同應(yīng)用的需求。例如在強(qiáng)調(diào)“易用性”的情況下,可以讓錯(cuò)誤拒絕率低一些,此時(shí)錯(cuò)誤接受率會(huì)增力口,從而導(dǎo)致安全性有所降低;在強(qiáng)調(diào)“安全性”的情況下,可以讓錯(cuò)誤接受率低一些,此時(shí)錯(cuò)誤拒絕率會(huì)增加,從而導(dǎo)致系統(tǒng)的易用性有所降低。前者可以概括為“寧錯(cuò)勿漏”,而后者則是“寧漏勿錯(cuò)”。通常,系統(tǒng)的閾值會(huì)在開發(fā)前根據(jù)實(shí)際環(huán)境的語音調(diào)優(yōu)得到,在系統(tǒng)投入實(shí)際應(yīng)用后,還需要根據(jù)實(shí)際數(shù)據(jù)再做一下調(diào)整,以便更好的貼近實(shí)際情況。聲紋識(shí)別技術(shù)有著非常廣闊的應(yīng)用前景(I)它可以作為個(gè)人身份核查和安全檢查的一種手段;(2)它可以作為特定人群的一種識(shí)別手段;(3)它可以作為一種同一說話人的鑒別手段。在現(xiàn)有技術(shù)中,聲紋識(shí)別方法包括聲紋建模和聲紋驗(yàn)證兩個(gè)部分。其中,聲紋建模方法的流程,如圖1(a)所示,包括以下步驟采集用戶語音并提取聲紋特征;基于提取出的聲紋特征,訓(xùn)練聲紋模型,即建立該用戶的聲紋模型;聲紋建模時(shí)用到的方法可采用任何已有的方法(如MAP、MLLR、EigenVoice等)。聲紋驗(yàn)證方法的流程如圖I (b)所示,包括以下步驟從采集的待識(shí)別語音中提取聲紋特征;讀取指定的待比對(duì)聲紋模型;將提取出的聲紋特征,與讀取的聲紋模型進(jìn)行匹配比較(如計(jì)算概率似然得分等),得到匹配得分Score;將匹配得分Score與系統(tǒng)設(shè)定的閾值相比對(duì),如果大于閾值,則聲紋驗(yàn)證成功,認(rèn)為待識(shí)別語音的話者身份與指定的聲紋模型對(duì)應(yīng)的話者身份相同,是同一個(gè)說話人,結(jié)束;否則,聲紋驗(yàn)證失敗,認(rèn)為待識(shí)別語音的話者身份與指定的聲紋模型對(duì)應(yīng)的話者身份不相同,是不同的說話人,結(jié)束。所述的閾值是指,在大量的聲紋識(shí)別測試的匹配得分Score中,得到的一個(gè)參考值。該值用于界定待識(shí)別語音與指定的聲紋模型是否出自同一個(gè)說話人。語音識(shí)別技術(shù)ASR是自動(dòng)語音識(shí)別(Automatic Speech Recognition)的縮寫,是一種讓計(jì)算機(jī)通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),即“音”到“字”的轉(zhuǎn)換。語音識(shí)別按照任務(wù)種類和應(yīng)用可以分為(1)孤立詞識(shí)別(Isolated Word Recognition),或命令詞識(shí)別。它的任務(wù)是識(shí)別事先已知的命令詞,如“開機(jī)”、“關(guān)機(jī)”等;(2)關(guān)鍵詞識(shí)別或關(guān)鍵詞檢出(Keyword Spotting)。它的任務(wù)不是識(shí)別全部的文字,而是檢測語音信號(hào)中是否出現(xiàn)預(yù)設(shè)詞表里的關(guān)鍵詞,如在語音中檢測是否出現(xiàn)“計(jì)算機(jī)”這個(gè)詞;(3)連續(xù)語音識(shí)別。它的任務(wù)是識(shí)別語音中的全部文字。
·
語音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,常見的應(yīng)用系統(tǒng)有(I)語音輸入系統(tǒng),相對(duì)于鍵盤輸入方法,它更符合人的日常習(xí)慣,也更自然、更高效;(2)語音控制系統(tǒng),即用語音來控制設(shè)備的運(yùn)行,相對(duì)于手動(dòng)控制來說更加快捷、方便,可以用在諸如工業(yè)控制、語音撥號(hào)系統(tǒng)、智能家電、聲控智能玩具等許多領(lǐng)域;(3)智能對(duì)話查詢系統(tǒng),根據(jù)客戶的語音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)庫檢索服務(wù),例如家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等等。已有的語音識(shí)別方法的應(yīng)用流程如圖2所示,包括以下步驟采集用戶的語音并提取聲學(xué)特征;讀取特定人或非特定人的語音模型(包括但不限于聲學(xué)模型和語言模型);用語音模型對(duì)提取的聲學(xué)特征進(jìn)行匹配搜索(如Viterbi解碼、幀同步算法、雙層搜索網(wǎng)絡(luò)等),解碼出語音對(duì)應(yīng)的文本內(nèi)容。中國發(fā)明專利申請(qǐng)“基于聲紋識(shí)別和語音識(shí)別的防錄音假冒的身份確認(rèn)方法”,公開號(hào)為102142254A,公開了以下內(nèi)容本發(fā)明涉及基于聲紋識(shí)別和語音識(shí)別的防錄音假冒身份的確認(rèn)方法,屬于計(jì)算機(jī)及信息服務(wù)技術(shù)領(lǐng)域。該方法包括從采集的已知說話人的語音中提取特征;訓(xùn)練聲紋模型,建立聲紋模型庫;從采集的待識(shí)別的人的語音中提取特征與從聲紋模型庫中讀取一指定的聲紋模型進(jìn)行匹配比較,如果大于閾值,則隨機(jī)選取文本,引導(dǎo)待識(shí)別人跟讀,采集該識(shí)別人語音;檢測該識(shí)別人所說的內(nèi)容,如果檢測得出待識(shí)別人所說內(nèi)容與隨機(jī)選取的文本一致,則語音識(shí)別成功,即待識(shí)別人的身份確認(rèn),結(jié)束。本發(fā)明可以在很大程度上,防止說話人語音被錄音冒用的情況,完成說話人身份雙重驗(yàn)證,實(shí)現(xiàn)雙重保護(hù),使遠(yuǎn)程身份確認(rèn)更穩(wěn)定可靠。其存在如下問題(I)聲紋識(shí)別采用隨機(jī)文本,無法保證穩(wěn)定的識(shí)別性能;(2)語音識(shí)別使用隨機(jī)文本,由于口音差異,識(shí)別性能很差;(3)由于聲紋識(shí)別使用隨機(jī)文本,建模和驗(yàn)證都要求較長的語音(如建模需要至少20秒,驗(yàn)證需要至少10秒),用戶體驗(yàn)性較差;
(4)將聲紋識(shí)別和語音識(shí)別分成兩個(gè)步驟,起不到防錄音假冒的作用;因?yàn)榉欠ǚ肿涌梢韵扔娩浺敉ㄟ^聲紋識(shí)別,然后自己跟讀隨機(jī)文本來通過語音識(shí)別;(5)由于采用隨機(jī)文本跟讀方式,實(shí)際操作時(shí),如果隨機(jī)文本過長,用戶很難跟上,導(dǎo)致用戶體驗(yàn)差,并且影響到聲紋識(shí)別和語音識(shí)別的性能。(6)只公開了身份確認(rèn)方法,還缺少可以實(shí)現(xiàn)該方法的系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題就是提供一種用戶體驗(yàn)好,識(shí)別性能穩(wěn)定的基于聲紋和語音的防錄音假冒身份識(shí)別方法及系統(tǒng)。本發(fā)明采用如下技術(shù)方案—種基于聲紋和語音的防錄音假冒身份識(shí)別方法,包括如下步驟
·
(I)根據(jù)用戶讀取帶用戶ID的固定文本的語音建立用戶的聲紋模型和語音模型,并保存該帶用戶ID的固定文本和聲紋模型及語音模型;(2)提示文本生成(21)帶用戶ID的固定文本讀??;(22)隨機(jī)文本生成;(23)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本;(3)在待識(shí)別人讀出上述步驟(2)生成的提示文本時(shí),采集待識(shí)別人的語音;(4)對(duì)采集的待識(shí)別人語音與上述步驟(I)中保存的用戶聲紋模型進(jìn)行識(shí)別,并根據(jù)保存的語音模型對(duì)待識(shí)別人語音進(jìn)行識(shí)別,如果聲紋識(shí)別和語音識(shí)別都成功,則接受待識(shí)別人身份,否則不接受。在一個(gè)優(yōu)選實(shí)施例中,上述的步驟(I)又包括(11)生成帶用戶ID的固定文本;(12)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本;(13)采集用戶讀取提示文本的語音;(14)判斷步驟(13)中的語音是否滿足生成聲紋模型和語音模型的長度,如滿足則轉(zhuǎn)到步驟(15),否則返回步驟(12);(15)建立用戶的聲紋模型和語音模型,并保存帶用戶ID的固定文本和聲紋模型及語音模型。所述的帶用戶ID的固定文本為4-7個(gè)漢字。在一個(gè)優(yōu)選實(shí)施例中,上述的步驟(2)中的隨機(jī)文本為3-6個(gè)隨機(jī)數(shù)字。在一個(gè)優(yōu)選實(shí)施例中,上述的步驟(4)中的聲紋識(shí)別包括(4al)從步驟(3)中采集到的待識(shí)別人語音中提取出特征參數(shù),與保存的用戶聲紋模型進(jìn)行匹配比較,得到待識(shí)別人語音與用戶聲紋模型的匹配得分Score ;(4a2)將步驟(4al)得到的匹配得分Score與系統(tǒng)設(shè)定的閾值相比對(duì),如果大于閾值,則聲紋識(shí)別成功,否則,聲紋識(shí)別失敗。在一個(gè)優(yōu)選實(shí)施例中,上述的步驟⑷中的語音識(shí)別包括(4bl)用步驟(I)保存的用戶語音模型對(duì)步驟(3)采集的待識(shí)別人語音進(jìn)行語音識(shí)別,檢測該語音的內(nèi)容,即實(shí)現(xiàn)語音到文字的轉(zhuǎn)換;
(4b2)根據(jù)步驟(4bl)檢測出的語音內(nèi)容,若與步驟(2)中的提示文本一致,則語音識(shí)別成功,否則,語音識(shí)別失敗。一種基于聲紋和語音的防錄音假冒身份識(shí)別系統(tǒng),該系統(tǒng)包括用于顯示提示文本的顯示模塊;用于接收語音信號(hào)的語音輸入模塊;用于對(duì)語音信號(hào)進(jìn)行聲紋模型建立和/或識(shí)別的聲紋模塊;用于對(duì)語音信號(hào)進(jìn)行語音模型建立和/或識(shí)別的語音模塊;用于存儲(chǔ)帶用戶ID的固定文本和聲紋模型及語音模型的存儲(chǔ)模塊;用于控制各模塊工作的處理器模塊;各模塊之間的連接關(guān)系是與電源連接的處理器模塊從存儲(chǔ)模塊調(diào)取帶用戶ID的固定文本后與隨機(jī)文本拼接成提示文本,顯示模塊顯示該提示文本;聲紋模塊和語音模塊分別根據(jù)語音輸入模塊接收到的語音信號(hào)進(jìn)行聲紋模型建立和/或識(shí)別以及語音模型建立和/或識(shí)別,并把建立的模型存入存儲(chǔ)模塊,識(shí)別的結(jié)果輸入處理器模塊。 本發(fā)明的有益效果是(I)提示文本由帶用戶ID的固定文本和隨機(jī)文本兩部分組成;(2)由于建模和驗(yàn)證時(shí)的語音內(nèi)容相似,聲紋識(shí)別能夠達(dá)到很好的識(shí)別性能;(3)采取帶用戶ID的固定文本加隨機(jī)文本的方式,可以在保障識(shí)別性能的前提下,大大減少聲紋建模和聲紋驗(yàn)證所要求的語音長度,方便用戶使用;(4)聲紋識(shí)別的閾值調(diào)整方便,可按不同的應(yīng)用需求調(diào)整閾值,使系統(tǒng)滿足應(yīng)用要求;(5)對(duì)已有的聲紋識(shí)別技術(shù)與語音識(shí)別技術(shù)的具體方法不用作改動(dòng),只是將兩者結(jié)合起來作為一個(gè)整體方案,完成語音的雙重驗(yàn)證,實(shí)現(xiàn)雙重保護(hù),使得身份驗(yàn)證更穩(wěn)定可
O(6)由于提示文本的隨機(jī)性,非法錄音的內(nèi)容與當(dāng)前系統(tǒng)給出的提示文本不太可能完全一致,因此,本發(fā)明可以在很大程度上,有效防止錄音假冒的闖入情況。本發(fā)明可用于金融、養(yǎng)老社保、呼叫中心、電子銀行、網(wǎng)上銀行、電話銀行等遠(yuǎn)程身份認(rèn)證領(lǐng)域。
圖1(a)是現(xiàn)有技術(shù)中聲紋建模方法的流程圖;圖I (b)是現(xiàn)有技術(shù)中聲紋驗(yàn)證方法的流程圖;圖2是現(xiàn)有技術(shù)中語音識(shí)別方法的流程圖;圖3是本發(fā)明實(shí)施例I的方法流程圖;圖4是本發(fā)明實(shí)施例2的方法流程圖。圖5是本發(fā)明所公開的身份識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
實(shí)施例1,請(qǐng)參見圖3,本實(shí)施例公開了一種基于聲紋和語音的防錄音假冒身份識(shí)別方法,包括如下步驟(I)根據(jù)用戶讀取提示文本的語音建立用戶的聲紋模型和語音模型,,具體為(11)生成帶用戶ID的固定文本;(12)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本;(13)采集用戶讀取提示文本的語音;(14)判斷步驟(13)中的語音是否滿足生成聲紋模型和語音模型的長度,如滿足則轉(zhuǎn)到步驟(15),否則返回步驟(12);(15)建立用戶的聲紋模型和語音模型,并保存帶用戶ID的固定文本和聲紋模型 及語音模型。例如,所述的帶用戶ID的固定文本為4-7個(gè)漢字,優(yōu)選4字或者7字詞組、成語或
者歇后語。在出現(xiàn)待識(shí)別人時(shí)(2)提示文本生成,具體為(21)帶用戶ID的固定文本讀??;(22)隨機(jī)文本生成,例如,隨機(jī)文本可以是3-6個(gè)隨機(jī)數(shù)字,(23)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本,按照以上的例子,一個(gè)提示文本最長為7個(gè)漢字+6個(gè)數(shù)字,用戶跟讀一遍大概需要3秒左右。這使得驗(yàn)證的時(shí)候,用戶不需要過長的驗(yàn)證流程,提高用戶的體驗(yàn)性。(3)在待識(shí)別人讀出上述步驟(2)生成的提示文本時(shí),采集待識(shí)別人的語音;(4)對(duì)采集的待識(shí)別人語音與上述步驟(I)中保存的用戶聲紋模型進(jìn)行識(shí)別,具體為(4al)從步驟(3)中采集到的待識(shí)別人語音中提取出特征參數(shù),與保存的用戶聲紋模型進(jìn)行匹配比較,得到待識(shí)別人語音與用戶聲紋模型的匹配得分Score ;(4a2)將步驟(4al)得到的匹配得分Score與系統(tǒng)設(shè)定的閾值相比對(duì),如果大于閾值,則聲紋識(shí)別成功,否則,聲紋識(shí)別失敗。根據(jù)保存的語音模型對(duì)待識(shí)別人語音進(jìn)行識(shí)別,具體為(4bl)用步驟(I)保存的用戶語音模型對(duì)步驟(3)采集的待識(shí)別人語音進(jìn)行語音識(shí)別,檢測該語音的內(nèi)容,即實(shí)現(xiàn)語音到文字的轉(zhuǎn)換;(4b2)根據(jù)步驟(4bl)檢測出的語音內(nèi)容,若與步驟(2)中的提示文本一致,則語音識(shí)別成功,否則,語音識(shí)別失敗。如果聲紋識(shí)別和語音識(shí)別都成功,則接受待識(shí)別人身份,否則不接受。實(shí)施例2,請(qǐng)參見圖4,本實(shí)施例公開了一種基于聲紋和語音的防錄音假冒身份識(shí)別方法,包括如下步驟(I)根據(jù)用戶讀取提示文本的語音建立用戶的聲紋模型和語音模型,具體為(11)生成帶用戶ID的固定文本;(12)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本;(13)采集用戶讀取提示文本的語音;(14)判斷步驟(13)中的語音是否滿足生成聲紋模型和語音模型的長度,如滿足則轉(zhuǎn)到步驟(15),否則返回步驟(12);(15)建立用戶的聲紋模型和語音模型,并保存帶用戶ID的固定文本和聲紋模型及語音模型。例如,所述的帶用戶ID的固定文本為4-7個(gè)漢字,優(yōu)選4字或者7字詞組、成語或
者歇后語。在出現(xiàn)待識(shí)別人時(shí)(2)提示文本生成,具體為(21)帶用戶ID的固定文本讀??;(22)隨機(jī)文本生成,例如,隨機(jī)文本為3-6個(gè)隨機(jī)數(shù)字,
·
(23)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本,按照以上的例子,一個(gè)提示文本最長為7個(gè)漢字+6個(gè)數(shù)字,用戶跟讀一遍大概需要3秒左右。這使得驗(yàn)證的時(shí)候,用戶不需要過長的驗(yàn)證流程,提高用戶的體驗(yàn)性。(3)在待識(shí)別人讀出上述步驟(2)生成的提示文本時(shí),采集待識(shí)別人的語音;(4)根據(jù)保存的語音模型對(duì)待識(shí)別人語音進(jìn)行識(shí)別,具體為(4bl)用步驟(I)保存的用戶語音模型對(duì)步驟(3)采集的待識(shí)別人語音進(jìn)行語音識(shí)別,檢測該語音的內(nèi)容,即實(shí)現(xiàn)語音到文字的轉(zhuǎn)換;(4b2)根據(jù)步驟(4bl)檢測出的語音內(nèi)容,若與步驟(2)中的提示文本一致,則語音識(shí)別成功,否則,語音識(shí)別失敗。對(duì)采集的待識(shí)別人語音與上述步驟(I)中保存的用戶聲紋模型進(jìn)行識(shí)別,具體為(4al)從步驟(3)中采集到的待識(shí)別人語音中提取出特征參數(shù),與保存的用戶聲紋模型進(jìn)行匹配比較,得到待識(shí)別人語音與用戶聲紋模型的匹配得分Score ;(4a2)將步驟(4al)得到的匹配得分Score與系統(tǒng)設(shè)定的閾值相比對(duì),如果大于閾值,則聲紋識(shí)別成功,否則,聲紋識(shí)別失敗。如果語音識(shí)別和聲紋識(shí)別都成功,則接受待識(shí)別人身份,否則不接受。如圖5所示,本發(fā)明還公開了一種基于聲紋和語音的防錄音假冒身份識(shí)別系統(tǒng),該系統(tǒng)包括用于顯示提示文本的顯示模塊;用于接收語音信號(hào)的語音輸入模塊;用于對(duì)語音信號(hào)進(jìn)行聲紋模型建立和/或識(shí)別的聲紋模塊;用于對(duì)語音信號(hào)進(jìn)行語音模型建立和/或識(shí)別的語音模塊;用于存儲(chǔ)帶用戶ID的固定文本和聲紋模型及語音模型的存儲(chǔ)模塊;用于控制各模塊工作的處理器模塊;各模塊之間的連接關(guān)系是與電源連接的處理器模塊從存儲(chǔ)模塊調(diào)取帶用戶ID的固定文本后與隨機(jī)文本拼接成提示文本,顯示模塊顯示該提示文本;聲紋模塊和語音模塊分別根據(jù)語音輸入模塊接收到的語音信號(hào)進(jìn)行聲紋模型建立和/或識(shí)別以及語音模型建立和/或識(shí)別,并把建立的模型存入存儲(chǔ)模塊,識(shí)別的結(jié)果輸入處理器模塊。如果聲紋識(shí)別和語音識(shí)別都成功,則身份識(shí)別系統(tǒng)接受待識(shí)別人身份,否則不接受。
權(quán)利要求
1.一種基于聲紋和語音的防錄音假冒身份識(shí)別方法,其特征在于,包括如下步驟 (1)根據(jù)用戶讀取帶用戶ID的固定文本的語音建立用戶的聲紋模型和語音模型,并保存該帶用戶ID的固定文本和聲紋模型及語音模型; (2)提示文本生成 (21)帶用戶ID的固定文本讀取; (22)隨機(jī)文本生成; (23)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本; (3)在待識(shí)別人讀出上述步驟(2)生成的提示文本時(shí),采集待識(shí)別人的語音; (4)對(duì)采集的待識(shí)別人語音與上述步驟(I)中保存的用戶聲紋模型進(jìn)行識(shí)別,并根據(jù)保存的語音模型對(duì)待識(shí)別人語音進(jìn)行識(shí)別,如果聲紋識(shí)別和語音識(shí)別都成功,則接受待識(shí)別人身份,否則不接受。
2.根據(jù)權(quán)利要求I所述的基于聲紋和語音的防錄音假冒身份識(shí)別方法,其特征在于,上述的步驟(I)又包括 (11)生成帶用戶ID的固定文本; (12)把帶用戶ID的固定文本和隨機(jī)文本拼接為提示文本; (13)采集用戶讀取提示文本的語音; (14)判斷步驟(13)中的語音是否滿足生成聲紋模型和語音模型的長度,如滿足則轉(zhuǎn)到步驟(15),否則返回步驟(12); (15)建立用戶的聲紋模型和語音模型,并保存帶用戶ID的固定文本和聲紋模型及語音模型。
3.根據(jù)權(quán)利要求2所述的基于聲紋和語音的防錄音假冒身份識(shí)別方法,其特征在于所述的帶用戶ID的固定文本為4-7個(gè)漢字。
4.根據(jù)權(quán)利要求I所述的基于聲紋和語音的防錄音假冒身份識(shí)別方法,其特征在于上述的步驟(2)中的隨機(jī)文本為3-6個(gè)隨機(jī)數(shù)字。
5.根據(jù)權(quán)利要求I所述的基于聲紋和語音的防錄音假冒身份識(shí)別方法,其特征在于上述的步驟(4)中的聲紋識(shí)別包括 (4al)從步驟(3)中采集到的待識(shí)別人語音中提取出特征參數(shù),與保存的用戶聲紋模型進(jìn)行匹配比較,得到待識(shí)別人語音與用戶聲紋模型的匹配得分Score ; (4a2)將步驟(4al)得到的匹配得分Score與系統(tǒng)設(shè)定的閾值相比對(duì),如果大于閾值,則聲紋識(shí)別成功,否則,聲紋識(shí)別失敗。
6.根據(jù)權(quán)利要求I所述的基于聲紋和語音的防錄音假冒身份識(shí)別方法,其特征在于上述的步驟(4)中的語音識(shí)別包括 (4bl)用步驟(I)保存的用戶語音模型對(duì)步驟(3)采集的待識(shí)別人語音進(jìn)行語音識(shí)別,檢測該語音的內(nèi)容,即實(shí)現(xiàn)語音到文字的轉(zhuǎn)換; (4b2)根據(jù)步驟(4bl)檢測出的語音內(nèi)容,若與步驟(2)中的提示文本一致,則語音識(shí)別成功,否則,語音識(shí)別失敗。
7.一種基于聲紋和語音的防錄音假冒身份識(shí)別系統(tǒng),其特征在于, 該系統(tǒng)包括用于顯示提示文本的顯示模塊;用于接收語音信號(hào)的語音輸入模塊;用于對(duì)語音信號(hào)進(jìn)行聲紋模型建立和/或識(shí)別的聲紋模塊;用于對(duì)語音信號(hào)進(jìn)行語音模型建立和/或識(shí)別的語音模塊;用于存儲(chǔ)帶用戶ID的固定文本和聲紋模型及語音模型的存儲(chǔ)模塊;用于控制各模塊工作的處理器模塊; 各模塊之間的連接關(guān)系是與電源連接的處理器模塊從存儲(chǔ)模塊調(diào)取帶用戶ID的固定文本后與隨機(jī)文本拼接成提示文本,顯示模塊顯示該提示文本; 聲紋模塊和語音模塊分別根據(jù)語音輸入模塊接收到的語音信號(hào)進(jìn)行聲紋模型建立和 /或識(shí)別以及語音模型建立和/或識(shí)別,并把建立的模型存入存儲(chǔ)模塊,識(shí)別的結(jié)果輸入處理器模塊。
全文摘要
本發(fā)明公開了一種基于聲紋和語音的防錄音假冒身份識(shí)別方法,包括如下步驟根據(jù)用戶讀取帶用戶ID的固定文本的語音建立用戶的聲紋模型和語音模型,并保存該帶用戶ID的固定文本和聲紋模型及語音模型;提示文本生成;在待識(shí)別人讀出提示文本時(shí),采集待識(shí)別人的語音;對(duì)采集的待識(shí)別人語音與保存的用戶聲紋模型進(jìn)行識(shí)別,并根據(jù)保存的語音模型對(duì)待識(shí)別人語音進(jìn)行識(shí)別,如果聲紋識(shí)別和語音識(shí)別都成功,則接受待識(shí)別人身份,否則不接受。本發(fā)明采取帶用戶ID的固定文本加隨機(jī)文本的方式,可以在保障識(shí)別性能的前提下,大大減少聲紋建模和聲紋驗(yàn)證所要求的語音長度,方便用戶使用。
文檔編號(hào)G10L15/28GK102708867SQ20121017269
公開日2012年10月3日 申請(qǐng)日期2012年5月30日 優(yōu)先權(quán)日2012年5月30日
發(fā)明者成波 申請(qǐng)人:北京正鷹科技有限責(zé)任公司