專利名稱:語音認證設備的制作方法
技術領域:
本發(fā)明涉及一種對使用語音的個人的認證技術。
技術背景已經(jīng)提出了一種傳統(tǒng)的語音認證技術,該技術通過將預先從認 可用戶獲得的語音(以下稱為"基準語音"或"登記語音")的特征 量與從要被認證的人(以下稱為"被測者")獲得的語音(以下稱為 "采樣語音"或"認證語音")的特征量之間的差異與一個閾值進行比較來確定對被測者的認證。日本專利申請公開第2003-248661號專 利參考描述了一種構造,其中根據(jù)認證目的或根據(jù)認證所需的精確水 平來改變所述閾值。圖8是用于評估語音認證的曲線圖。圖8中的誤拒絕率(FRR)表示即使被測者為認可用戶時在認證期間對被測者的認證將被拒絕 的概率(用戶拒絕率),而誤接受率(FAR)表示即使被測者不是認可用戶時在認證期間對被測者的認證將被接受的概率(陌生人接受 率)。從圖8中可以看出,如果認證中所使用的閾值被設為圖8中的 值"a",則拒絕未授權被測者的概率被保持在足夠高的水平,而拒 絕認可用戶的概率被充分降低。然而,由于認證噪音會影響認證語音的特性,所以認證語音與 登記語音之間的差異會根據(jù)認證期間產(chǎn)生的環(huán)境聲音(以下稱為"采 樣噪音"或"認證噪音")而改變。因此,圖8中FRR和FAR每一個 的曲線都依照認證噪音的特性來平行于水平軸(差異)移動。例如, 如果圖8中的實線示出的FAR改變?yōu)樘摼€Ll,則錯誤地接受陌生人 的認證的概率會增加(即,認證的精確水平會降低),并且如果圖8 中的FRR改變?yōu)樘摼€L2,則拒絕認可用戶的認證的概率會增加(即 認證的方便性會降低)。也就是說,傳統(tǒng)語音認證會有這樣的問題, 即由于認證噪音特性而破壞認證精確性和認證方便性之間的平衡。即使如日本專利申請公開第2003-248661號專利參考中那樣根 據(jù)認證目的或所需精確水平來改變閾值,也無法解決該問題。在使用 以移動電話為代表的便攜式電子裝置來執(zhí)行認證時,由于驗證噪音的 特性根據(jù)電子裝置的使用環(huán)境而以許多方式發(fā)生改變,該問題會變得 更加嚴重。發(fā)明內(nèi)容考慮到這樣的環(huán)境而作出本發(fā)明,并且本發(fā)明的一個目的是不 考慮采樣噪音的影響而解決在保持認證精確性和認證方便性之間的 平衡中所出現(xiàn)的問題。為了解決上述問題,根據(jù)本發(fā)明一個方面的語音認證設備包括 特性分析裝置,其對在被測者產(chǎn)生用于被測者認證的采樣語音或認證 語音時在該被測者周圍所產(chǎn)生的采樣噪音或認證噪音的特性進行分 析;第一設置裝置(例如,圖1中的設置器51),其根據(jù)由特性分 析裝置分析的認證噪音的特性來設置第一校正值(例如,圖l中的校 正值Aa);校正裝置,其根據(jù)第一設置裝置所設置的第一校正值來 校正指標值(例如,圖1中的差異D0),該指標值指示了提前登記 的基準語音或登記語音的特征量與從被測者獲得的認證語音的特征 量之間的相似程度;以及確定器,其通過對校正裝置校正過的指標值 與預定閾值進行比較來確定對被測者的認證。根據(jù)這個方面,在根據(jù)認證噪音的特性對指標值進行校正之后, 將指示了登記語音是否類似于認證語音的指標值與預定閾值進行比 較,從而維持了認證方便性與認證精確性之間的平衡,而不受認證噪 音的影響。所述預定閾值可以是固定值或可變值。在本發(fā)明的優(yōu)選實施例中,第一設置裝置根據(jù)認證噪音以及登 記語音與在對登記語音進行登記期間產(chǎn)生的登記噪音之間的聲級比 (例如,圖4中的聲級比EN—SN) 二者來確定第一校正值,以使得該 第一校正值被設置為預定閾值與一個變量(例如,圖4中的閾值TH) 之間的差,該變量是結合認證噪音的特性以及登記語音與登記噪音之
間的聲級比二者而確定的。例如,第一設置裝置將第一校正值設置為預定閾值與隨著登記 語音與登記噪音之間的聲級比而沿著對應于認證噪音特性的直線或 曲線變化的變量之間的差。更具體的說,第一設置裝置根據(jù)登記語音與登記噪音之間的聲 級比和認證噪音的特性二者來設置第一校正值,給出所述第一校正值 來作為登記語音和登記噪音之間的聲級比與認證語音和認證噪音之 間的聲級比(例如,聲級比V—SN)之間的聲級比之差(例如,圖4中的聲級比差DIF—SN1 DIF_SN3)。本實施例可以通過簡單的處理來保持認證方便性和認證精確性 之間的平衡,而不會受到登記噪音或認證噪音的特性的影響。第一設 置裝置可以根據(jù)定義了第一校正值與在登記語音和登記噪音之間的 聲級比以及認證噪音特性(具體地說為登記語音和登記噪音之間的聲 級比與認證語音和認證噪音之間的聲級比之間的聲級比之差)之間的 關系的表來設置第一校正值,并且還可以通過使用表示了這些值之間 關系的等式進行計算來設置第一校正值。表的內(nèi)容或等式可以根據(jù)例 如來自用戶的指令而適當?shù)刈鞒龈淖?。根?jù)本發(fā)明實施例的一種語音認證設備還包括第二設置裝置 (例如,圖1中的設置器52),其根據(jù)認證噪音和登記噪音之間的 差(例如,圖6中的關系值N0ISE—DIF)來設置第二校正值(例如, 圖1中的校正值Ab),其中所述校正裝置根據(jù)第一和第二校正值來 校正指標值。根據(jù)本實施例,即使當?shù)怯浽胍?即,基準噪音)與實際認證 期間的認證噪音(即,采樣噪音)之間的實際關系不同于登記噪音與 當確定了第一校正值與登記噪音和登記語音的關系時所假設的認證 噪音之間的原始關系的時候,也可以根據(jù)依照實際認證噪音與登記噪 音之間差值的第二校正值來校正指標值,從而有效地維持認證方便性 與認證精確性之間的平衡。第二設置裝置可以根據(jù)定義了第二校正值 與在認證噪音和登記噪音之間的差值之間的關系的表來設置第二校 正值,并且還可以通過使用表示了這些關系的等式進行計算來設置第
二校正值。表的內(nèi)容或等式可以根據(jù)例如來自用戶的指令而適當?shù)刈?出改變。根據(jù)本發(fā)明一個實施例的語音認證設備還包括第三設置裝置 (例如,圖1中的設置器53),其根據(jù)認證語音(即,采樣語音) 或登記語音(即,基準語音)的持續(xù)時間(例如,圖7中的語言長度EN—SPEECH—LEN或V_SPEECH—LEN)來設置第三校正值(例如,圖1 中的校正值Ac),其中所述校正裝置根據(jù)第一和第三校正值來校正 指標值。根據(jù)本實施例,即使當?shù)怯浾Z音或認證語音的語言長度(或持 續(xù)時間)與當確定了第一校正值與登記噪音和登記語音的關系時所假 設的語言長度不相同的時候,也可以根據(jù)依照認證語音或登記語音的 第三校正值來校正指標值,從而有效地維持認證方便性與認證精確性 之間的平衡。第三設置裝置可以根據(jù)定義了第三校正值與認證語音或 登記語音的持續(xù)時間之間的關系的表來設置第三校正值,并且還可以 通過使用表示了這些關系的等式進行計算來設置第三校正值。表的內(nèi) 容或等式可以根據(jù)例如來自用戶的指令而適當?shù)刈鞒龈淖?。用作基礎來確定用來校正指標值的校正值的參數(shù)并不限于認證 語音或登記語音的持續(xù)時間以及認證噪音與登記噪音之間的差。例 如,語音認證設備還可以包括這樣的設置裝置,其根據(jù)包括在登記語 音或認證語音中的語音與非語音聲音的持續(xù)時間之間的比來設置校 正值,或者還可以包括這樣的設置裝置,其根據(jù)登記語音或認證語音 的音節(jié)數(shù)來設置校正值。在這些實施例的任意一個中采用了如上所述 根據(jù)表或等式來確定校正值的配置,或者采用了表的內(nèi)容或等式可變 的配置。本發(fā)明的特征還在于一種語音認證方法,其對按照上述實施例 的每一個的語音認證設備進行控制。根據(jù)本發(fā)明一個實施例的一種語音認證方法包括分析認證噪音的特性,該認證噪音是在被測者產(chǎn)生 用于被測者認證的認證語音時在該被測者周圍產(chǎn)生的;根據(jù)分析出的 認證噪音的特性來設置校正值;根據(jù)所設置的校正值來校正指標值, 該指標值指示了提前登記的登記語音的特征量與從被測者獲得的認證語音的特征量之間的相似程度;以及通過對校正過的指標值與預定 閾值進行比較來確定被測者的可靠性。該方法實現(xiàn)了與根據(jù)本發(fā)明的 語音認證設備相同的作用和好處。根據(jù)上述實施例的每一個的語音認證設備通過專用于每個處理 的諸如數(shù)字信號處理器(DSP)之類的硬件(電路)來實現(xiàn),并且還 通過程序與中央處理單元(CPU)之類的通用處理單元之間的協(xié)作來 實現(xiàn)。根據(jù)本發(fā)明的一個程序使得計算機執(zhí)行以下處理特性分析處 理,用來對當被測者產(chǎn)生用于被測者認證的采樣語音同時在該被測者 周圍產(chǎn)生的認證噪音的特性進行分析;設置處理,用來根據(jù)在特性分 析處理中分析出的認證噪音的特性來設置校正值;校正處理,用來根 據(jù)在設置處理中所設置的校正值來校正指標值,該指標值指示了提前 登記的登記語音的特征量與從被測者獲得的認證語音的特征量之間 的相似程度;以及確定處理,用來通過對校正過的指標值與預定閾值 進行比較來確定對被測者的認證。該處理也實現(xiàn)了與根據(jù)以上每個實 施例的語音認證設備相同的作用和好處。本發(fā)明的程序是以存儲在如 CD-R0M之類的機器可讀介質(zhì)或便攜記錄介質(zhì)中并隨后安裝在計算機 上的形式被提供給用戶的,并且還可采用以通過網(wǎng)絡的發(fā)布方式從服 務器設備提供并安裝在計算機上。
圖1是示出根據(jù)本發(fā)明一個實施例的語音認證設備的配置的框圖。圖2是由輸入單元產(chǎn)生的聲音信號的波形圖。圖3是示出由校正值控制器執(zhí)行的處理過程的流程圖。圖4是示出校正值Aa與聲級比EN一SN和聲級比之差DIF一SN的關系的曲線圖。圖5是示出用于確定校正值Aa的表的內(nèi)容的概念圖。圖6是示出關系值NOISE—DIF與校正值Ab之間關系的曲線圖。圖7是示出語言長度EN—SPEECH—LEN與校正值Ac之間關系的曲線圖。 圖8是示出閾值與FAR和FRR之間關系的曲線圖。
具體實施方式
<A:語音認證設備的配置〉圖1是示出根據(jù)本發(fā)明一個實施例的語音認證設備的配置的框圖。語音認證設備100是一個根據(jù)被測者說出特定詞時產(chǎn)生的語音來對該被測者的認證進行判定(即,判定該被測者是否為一個己被提前登記的正式用戶)的裝置。語音認證設備ioo被安裝在如移動電話或 信息處理設備之類的多種電子設備中。圖1中示出的特性分析器20、 認證器40、或校正值控制器50每一個都可以是例如作為由CPU之類 的處理單元執(zhí)行的程序來實現(xiàn)的,并且也可以通過DSP之類的硬件電 路來實現(xiàn)。語音認證設備100的操作被分成最初登記和認證。最初登記是 在認證之前對認可用戶說出的語音(登記語音)進行登記的操作。認 證是通過將登記語音與被測者說出的語音(認證語音)進行對比來對 該被測者的認證進行判定的操作。操作單元IO包括由用戶操作的多 個操作器。用戶可通過對操作單元IO進行適當操作來指示語音認證 設備100開始最初登記或認證。圖1中的輸入單元15和特性分析器20用于檢測在執(zhí)行認證時 語音認證設備100的認證語音或環(huán)境噪音(認證噪音)的特性,并且 用于檢測如圖1中的虛線R所示在執(zhí)行最初登記時語音認證設備100 的登記語音或環(huán)境噪音(登記噪音)的特性。輸入單元15是一個依照環(huán)境聲音(語音和噪音)來產(chǎn)生聲音信 號S的聲音收集器。如圖2所示,聲音信號S被分為未說話部分P1 和說話部分P2。說話部分P2是其中認可用戶在最初登記期間說出登 記語音的部分或是其中被測者在認證期間說出認證語音的部分。另一 方面,未說話部分Pl是其中沒有說出登記或認證語音的部分。由于 在語音認證設備IOO安裝的環(huán)境中可能產(chǎn)生各種噪音,所以未說話部 分Pl并非完全安靜的(即,在未說話部分Pl中聲音信號S的幅度不 為零),并且輸入單元15收集未說話部分P1中的登記噪音或認證噪 由輸入單元15產(chǎn)生的聲音信號S被提供到圖1的特性分析器20。特性分析器20是用來分析由輸入單元15收集到的聲音的裝置。 特性分析器20包括部分檢測器22、開關23、噪音分析器25、語音 分析器26、和特征分析器28。部分檢測器22辨別未說話部分P1和 說話部分P2。例如,部分檢測器22檢測聲音信號S的幅度不連續(xù)地 增加或減少的時刻來作為未說話部分P1和說話部分P2間的分界???采用各種已知技術來辨別未說話部分Pl和說話部分P2。開關23是用來切換由輸入單元15產(chǎn)生的聲音信號S的供給目 標的裝置。這使得被部分檢測器22確認為未說話部分Pl的一部分聲 音信號S被提供到噪音分析器25,并且使得被部分檢測器22確認為 說話部分P2的一部分聲音信號S被提供到語音分析器26和特征分析 器28。噪音分析器25是用于根據(jù)未說話部分Pl中的聲音信號S來分 析登記噪音或認證噪音的特性的裝置。本實施例中的噪音分析器25 在未說話部分Pl中周期性地對聲音信號S的特性進行分析。當對操 作單元10進行操作來指示語音認證設備100開始最初登記或認證時, 噪音分析器25確定在該指示時刻之前的預定時刻開始并在該指示時 刻結束的部分P (稱為檢測部分)的被分析的特性為圖2中示出的登 記噪音或認證噪音的特性。在以下的描述中,與登記噪音或登記語音 相關的項由包括"EN" ( "enroll (登記)"的縮寫)的符號表示, 而與認證噪音或認證語音有關的項由包括"V" ( "verify (驗證)"的縮寫)的符號表示。如圖l所示,本實施例中的噪音分析器25在執(zhí)行最初登記時計 算登記噪音的頻率特性EN—NOISE—FC和噪音聲級EN—NOISE—LEVEL, 并在執(zhí)行認證時計算認證噪音的頻率特性V一NOISE一FC和噪音聲級 V—NOISE—LEVEL。每個噪音聲級EN—NOISE—LEVEL和V_N0ISE—LEVEL 是未說話部分Pl的檢測部分P中在聲音信號S的分量當中包含于特 定頻帶中的分量的平均量(聲壓)。頻率特性EN—NOISE—FC或 V—NOISE—FC是表示將檢測部分P中的聲音信號S分成的多個頻帶的
分量的各個量的信息。因此,噪音分析器25例如包括了具有不同通頻帶的多個帶通濾波器(濾波器組)。頻率特性EN—N0ISE_FC和 V一N0ISE—FC的信息只需反映登記噪音或認證噪音的特性。例如,噪 音分析器25可以是用來通過快速傅立葉變換(FFT)之類的頻率分析 來計算作為頻率特性EN—NOISE—FC和V—N0ISE一FC的頻譜的裝置。語音分析器26根據(jù)說話部分P2中的聲音信號S來分析登記語 音或認證語音的特性。本實施例中的語音分析器26在執(zhí)行最初登記 時計算登記語音的語言聲級EN一SPEECH一LEVEL和語言長度(或持續(xù)時 間)EN—SPEECH—LEN,并在執(zhí)行認證時計算認證語音的語言聲級 V—SPEECH_LEVEL和語言長度V一SPEECH—LEN 。每 一 個語言聲級 EN—SPEECH—LEVEL和V一SPEECH一LEVEL都是在說話部分P2的聲音信號 S中特定頻帶所包括的分量的平均量。每一個語言長度 EN—SPEECH—LEN和V—SPEECH—LEN都表示說話部分P2的持續(xù)時間(即, 說話所持續(xù)的時間段)。檢測從聲音信號S的幅度迅速增大(對應于 說話部分P2的開始)時刻到聲音信號S的幅度迅速減小(對應于說 話部分P2的結束)時刻的時間段來作為語言長度EN—SPEECH—LEN和 V—SPEECH—LEN。特征分析器28是用來分析登記語音或認證語音的特征的裝置。 本實施例中的特征分析器28在執(zhí)行最初登記時計算登記語音的特征 量EN—DATA,并在執(zhí)行認證時計算認證語音的特征量V—DATA。每一個 特征量EN_D AT A和V—D AT A都是由說話部分P 2中的聲音信號S計算出 的倒頻譜向量的時間序列。因此,用于執(zhí)行包括頻率分析(例如FFT 處理)的各種計算的裝置被優(yōu)選地用作特征分析器28。存儲裝置32是用于存儲認證中所使用的各種信息的裝置。例如, 如圖1所示,存儲裝置32作為認證數(shù)據(jù)庫存儲了特性分析器20針對 登記語音和登記噪音指定的各種信息。具體地說,在執(zhí)行認證之前, 在存儲裝置32中存儲了由噪音分析器25指定的頻率特性 EN—NOISE_FC和噪音聲級EN_NOISE_LEVEL、由語音分析器26指定的 語言聲級EN—SPEECH—LEVEL和語言長度EN_SPEECH—LEN、以及由特征 分析器28指定的特征量EN—DATA。存儲裝置32可以是固定到語音認
證設備100上的裝置,也可以是可拆卸地接到語音認證設備100上的 便攜裝置(存儲器)。認證器40是用于通過將認證語音與登記語音進行對比來確定被測者的可靠性的裝置。認證器40包括差異計算器42、校正器44、以 及確定器46。差異計算器42計算存儲在存儲裝置32中的特征量 EN_DATA與特征分析器28針對認證語音產(chǎn)生的特征量V一DATA之間的 差異DO。差異計算器42使用各種圖形匹配技術來計算差異D0,例如 用來計算特征量EN—DATA與V—DATA的向量順序之間的標準化差異的 DP匹配。差異DO越小,認證語音與登記語音越相似(即,被測者是認可用戶的可能性越大)。校正器44是用于根據(jù)校正值A (Aa、 Ab、和Ac)來校正由差異 計算器42計算出的差異DO的裝置。本實施例中的校正器44通過從 差異D0中減去由校正值控制器50設置的每個校正值Aa、 Ab、和Ac 來計算校正差異D1。確定器46通過將校正器44校正過的差異Dl與閾值THO進行比 較來判定被測者的可靠性。具體地講,如果差異D1低于閾值THO(即, 如果登記語音與認證語音相似),則確定器46接受被測者的可靠性, 而如果差異D1高于閾值TH0 (即,如果登記語音不同于認證語音), 則確定器46拒絕被測者的可靠性。閾值THO是預定的固定值。確定 器46的判定結果通過輸出單元60輸出。例如,輸出一個指示了認證 結果的圖像的顯示器或者輸出一個指示了認證結果的聲音的音頻輸 出裝置優(yōu)選地被用作輸出單元60。校正值控制器50是用來設置在由校正器44所進行的校正中所 使用的校正值A (Aa、 Ab、和Ac)的裝置。校正值控制器50包括設 置器51、 52、和53。設置器51根據(jù)初始登記和認證期間特性分析器 20產(chǎn)生的信息來設置校正值Aa。設置器52根據(jù)認證噪音的特性與登 記噪音的特性之間的差異來設置校正值Ab。設置器53根據(jù)初始登記 期間的語言長度EN—SPEECH—LEN來設置校正值Ac。校正值控制器50 的詳細操作將在下文進行描述。圖1中的存儲單元35存儲了校正值 控制器50用來設置校正值A的表。存儲裝置32中的指定存儲區(qū)可被 用作存儲單元35。<B:語音認證設置的操作〉現(xiàn)在將描述語音認證設備100的詳細操作,其中集中描述認證期間校正值控制器50設置校正值Aa、 Ab、和Ac的處理過程。校正 值控制器50在每次需要認證時執(zhí)行圖3的處理。需要認證的時刻的 示例包括當包括了語音認證設備100的電子裝置隨著施加了電源而 開始工作時,以及當電子裝置開始一指定操作(例如,訪問特定信息 的操作)時。當對認證初始化時,在通過對操作單元IO進行操作來 發(fā)出語言開始指令之后,被測者對輸入單元15說出指定單詞。噪音 分析器25由對操作單元10進行操作時結束的檢測部分P中的聲音信 號S來指定頻率特性V一NOISE一FC和噪音聲級V—NOISE—LEVEL,并且 由檢測部分P之后的講話部分P2中的聲音信號S來指定語言聲級 V—SPEECH—LEVEL和語言長度V—SPEECH—LEN。如圖3所示,校正值控制器50計算登記語音和登記噪音之間的 聲級比EN一SN (步驟S10)。該聲級比EN—SN是存儲在存儲裝置32 中的語言聲級EN—SPEECH—LEVEL和噪音聲級EN—NOISE—LEVEL之間的 比。例如,使用公式(1)來計算聲級比EN一SN。EN—SN=Log(EN—SPEECH—LEVEL/EN一NOISE—LEVEL)......(1)之后,校正值控制器50計算認證語音和認證噪音之間的聲級比 V一SN(步驟Sll)。該聲級比V—SN是噪音分析器25所提供的噪音聲 級V_NOISE—LEVEL和語音分析器26所提供的語音聲級 V—SPEECH—LEVEL之間的比。類似于聲級比EN—SN,聲級比V—SN使用 公式(2)來計算。V—SN=Log(V—SPEECH—LEVEL/V—NOISE—LEVEL)......(2)接下來,在步驟S12,校正值控制器50計算在步驟S10計算出 的初始登記中的聲級比EISN與在步驟S11計算出的認證中的聲級比 V—SN之間的差DIF—SN (DIF—SN=V_SN-EN_SN)。在下面,差DIF—SN 將被稱作"聲級比差"。校正值控制器50計算表示了登記噪音特性 與認證噪音特性之間的相互關系的關系值NOISE—DIF (步驟S13)。 這里,相互關系是例如登記噪音和認證噪音各自的頻譜形狀是否相 似。例如使用公式(3)來計算關系值NOISE一DIF。<formula>formula see original document page 15</formula>3)公式(3)中的值EN一MAG(i)是在多個頻帶中由變量i指定的一 個頻帶中的登記噪音量,而從值E^MAG(i)中減去的值EN—MAG—AVG 是在變量i指定的頻帶中的登記噪音的平均量。類似的,公式(3) 中的值V—MAG(i)是變量i所指定的一個頻帶中的認證噪音量,而從 值V—MAG(i)中減去的值V一MAG—AVG是在該頻帶中的認證噪音的平均 量。因此,如果登記噪音與認證噪音精確匹配則關系值NOISE一DIF 為1,并且關系值N0ISE—DIF隨兩個噪音特性間差異的增大而減小(-1 《N0ISE—DIF《1)。之后,校正值控制器50的設置器51根據(jù)在步驟IO計算的聲級 比EN—SN和在步驟S12計算的聲級比差DIF—SN來設置校正值Aa (步 驟S14)。校正值Aa與聲級比EN—SN和聲級比差DIF—SN之間的關系 用以下方式確定。首先,考慮的是根據(jù)差異計算器42所計算的差異D0是大于還 是小于閾值TH來確定被測者可靠性的情況。通過傳導測試,本申請 的發(fā)明人發(fā)現(xiàn)保持高水平的認證精確性的閾值TH滿足與聲級比 EN—SN和聲級比差DIF—SN的指定關系。具體的,如圖4所示,設置 閾值TH使得針對每一種情況認證精確性都能滿足指定的條件(如, 使得FRR和FAR每一個都低于指定水平),所述的每一情況為聲級比 EN—SN的值變?yōu)樾碌闹挡㈦S后垂直軸上的閾值TH相對水平軸上的每 個對應聲級比EN—SN來被描繪。當描繪的點經(jīng)過統(tǒng)計學上的處理時, 它們趨于沿著聲級比差DIF一SN的線來分布。例如,當聲級比差DIF—SN 被設置為值DIF_SN1時,滿足指定條件的閾值TH隨著沿具有如斜率 和截距之類對應于值DIF—SN1的屬性的線的聲級比EN—SN而變化。另 夕卜,如圖4所示,保持認證精確性在一個期望水平的閾值TH隨聲級 比EN一SN或聲級比差DIF—SN (DIF—SN1〉DIF—SN2〉DIF—SN3)的增加而 增加。因此,如果針對在步驟S10計算的聲級比EN一SN來設置閾值TH 以使閾值TH和聲級比EN—SN滿足對應于在步驟S12計算出的聲級比 差DIF一SN的直線關系,則可將認證保持在一個期望的精確度水平。 例如,在聲級比EN—SN被計算為圖4中的值SNa的情況下,如果聲級 比差DIF—SN為DIF_SN1,則將閾值TH設置為THa,而如果聲級比差 DIF_SN為DIF—SN2,則將閾值TH設置為THb。由于在認證期間確定了所述差異是大于還是小于閾值,所以用 于通過指定值來改變要與差異DO進行比較的閾值TH的處理等同于用 于在閾值TH固定為THO時通過指定值Aa來校正差異DO的處理。因 此,本實施例的設置器51將預定閾值THO與閾值TH之間的差異設置 為校正值Aa,所述閾值TH滿足對應于聲級比差DIF—SN的直線與聲 級比EN—SN的關系。即,例如當在步驟S10把聲級比EN一SN計算為值 SNa時,如圖4所示,如果聲級比差DIF—SN在步驟S12被計算為 DIF—SNl,則閾值THO與值THa之間的差al被設置為校正值Aa,并 且如果聲級比差DIF—SN在步驟S12被計算為DIF一SN2,則閾值THO 與值THb之間的差a2被設置為校正值Aa。通過用差異DO減去以此 方式設置的校正值Aa而計算出的差異Dl在確定器46處被與閾值TH0 進行比較,從而將本實施例的認證保持在期望的精確性水平。具體的,本實施例的設置器51根據(jù)所創(chuàng)建的用來滿足上述條件 的表來從聲級比EN—SN和聲級比差DIF一SN確定校正值Aa。圖5是示 出步驟S14所使用的表的內(nèi)容的概念圖。如圖5所示,對應于不同聲 級比差DIF—SN (DIF—SNl、 DIF—SN2、 DIF—SN3…)的多個表被存儲 在存儲單元35中。在每個表中,每個聲級比Er^SN與滿足圖4中與 聲級比EN_SN的關系相對應的校正值Aa相關。即,在對應于聲級比 差DIF一SN的表中,每個聲級比EISN與相應校正值Aa相關,從而通 過將校正值Aa加到閾值THO而獲得的閾值TH具有對應于聲級比差 DIF一SN的直線與聲級比EN_SN的關系。在步驟S14,設置器51搜索對應于在步驟S12計算出的聲級比 差DIF—SN的表,并且輸出與在步驟S10計算出的聲級比EN—SN對應
的校正值Aa,該校正值Aa包括在對校正器44恢復的表中。如果不 存在對應于在步驟S12計算出的聲級比差DIF一SN的表,則設置器51 根據(jù)來自于與所計算的聲級比差DIF—SN之前和之后的聲級比差 DIF—SN相對應的表中的聲級比EN—SN來指定校正值Aa,并且通過在 指定校正值Aa之間進行插值來計算要被實際應用于校正器44的校正 的校正值Aa。因此,例如,如果聲級比差DIF—SN在步驟S12被計算 為是值DIF_SN1和值DIF一SN2的平均值,則將校正值Aa計算為是對 應于值DIF—SN1的校正值Aa (值al)與對應于值DIF一SN2的校正值 Aa (值a2)的平均值。然而,例如假定了登記噪音的特性與認證噪音的特性是一致的, 則閾值TH與聲級比EN一SN和聲級比差DIF一SN之間的關系是確定的。 然而在許多情況下,登記噪音的特性是不同于認證噪音的特性的。因 此,設置器52計算出一個校正值Ab來根據(jù)登記噪音與認證噪音間的 關系值NOISE—DIF對差異D0進行校正(步驟S15)。校正器44從差 異DO中減去校正值Ab。圖6是示出關系值N0ISE一DIF與校正值Ab間關系的曲線圖。由 公式(3)計算出的關系值NOISE一DIF根據(jù)登記噪音和認證噪音間的 相互關系而在從"-1"到"1"的范圍內(nèi)變化。當兩個噪音的特性完 全一致時關系值N0ISE_DIF為"1"。如果當?shù)怯浽胍襞c認證噪音間 的關系與圖4中的那些關系被確定了時的關系等同時(如果在本實施 例中兩個噪音一致),則無需根據(jù)關系值NOISE—DIF來校正差異DO。 當?shù)怯浽胍襞c認證噪音間的關系與圖4中的那些關系被確定了時的 關系越不相同時,必須對差異DO進行越大程度的校正。因此,設置 器52在關系值N0ISE_DIF為"1"時將校正值Ab設置為0 (即,不 校正差異D0),并隨著關系值NOISE—DIF減小到小于"1"而將校正 值Ab設置為越來越大。具體的說,存儲單元35存儲了一個表,在該 表中,每一個關系值NOISE—DIF都與滿足與關系值NOISE—DIF的這種 關系的對應校正值Aa相關聯(lián),并且設置器52根據(jù)該表來確定校正值 Ab。另外,例如基于當在特定持續(xù)時間(時間長度)L0連續(xù)說出登 記語音時收集到的數(shù)據(jù),圖4中示出的閾值TH與聲級比EN一SN和聲 級比差DIF—SN之間的關系是確定的。然而,實際初始登記中登記語 音的語言長度EN—SPEECH—LEN是不同的。因此,設置器53根據(jù)該語 言長度EN—SPEECH一LEN計算一個校正值Ac來校正差異DO(步驟S16)。 校正器44從差異DO中減去校正值Ac。圖7是示出語言長度EN—SPEECH—LEN與校正值Ac之間關系的曲 線圖。如果當圖4的關系被確定了時語言長度EN—SPEECH—LEN與時間 段L0—致,則無需根據(jù)語言長度EN—SPEECH—LEN來校正差異DO。因 此,如果存儲在存儲單元32中的語言長度EN—SPEECH—LEN與時間段 LO —致,則設置器53將校正值Ac設置為"0"。隨著語言長度 EN一SPEECH—LEN的增加,登記語音的語言更加穩(wěn)定,從而特征量 E^U)ATA更可靠地反映認可用戶的固有基本特性,因此增加了差異DO 的精確度。因此,即使為了減少對陌生人的認證被接受的可能性來與 差異DO相關地降低了閾值THO,也不會太過增加拒絕認可用戶的可 能性。因此,如果語言長度EN—SPEECH—LEN大于時間段L0,則設置器 53根據(jù)語言長度EN一SPEECH一LEN選擇一個負值作為校正值Ac。由于 校正器44從差異DO中減去了校正值Ac,所以如果校正值Ac為負值 則校正差異Dl大于差異D0。也就是說,由于與差異DO相關地減小 了閾值THO,從而對陌生人的認證被錯誤接受的可能性減小了。相反, 如果語言長度EN—SPEECH—LEN小于時間段L0,則設置器53根據(jù)語言 長度EN—SPEECH—LEN選擇一個正值作為校正值Ac。設置器53例如根 據(jù)其中每個語言長度EN_SPEECH—LEN都與對應校正值Ac相關的表來 確定校正值Ac。如上所述,在本實施例中,由于根據(jù)認證噪音與認證語音(V—SN) 之間的關系或者登記噪音與登記語音(EN一SN)之間的關系來校正了 差異D0,因此可以將認證保持在期望的精確度水平,而不用考慮認 證噪音的特性或登記噪音的特性。也就是說,可以實現(xiàn)方便性的增加 (FRR的減少)和認證精確性的增加(FAR的減少),而不受認證噪 音或登記噪音的影響。
特別是在本實施例中,根據(jù)閾值TH與滿足期望條件的聲級比EN一SN具有對應于聲級比差DIF一SN的線性關系的知識來調(diào)整校正值 Aa。因此,本實施例的優(yōu)點在于可以指定高精確性的理想校正值Aa, 同時充分減少設置校正值Aa所需的變量數(shù)目。由于根據(jù)關系值 NOISE—DIF或語言長度EN—SPEECH—LEN校正了差異DO,所以還可以通 過全面考慮語音認證設備100在初始登記或認證中的環(huán)境來實現(xiàn)高 精確度的認證。
〈C:改進實施例〉可以通過各種方式來修改上述實施例。以下說明了特定修改的 實施例。以下改進實施例的組合也是可行的。(1) 改進實施例1 盡管上述實施例中描述的構造使用了存儲在存儲單元35中的表,通過使用預定等式的計算處理來計算校正值A (Aa、 Ab、和Ac) 的配置也是可能的。例如,存儲單元35存儲多個公式來分別表示依 照聲級比差(DIF_SN)的直線(即,圖4的直線,每一個都定義了聲 級比EN一SN與閾值TH之間的關系),并且設置器51通過將步驟S10 中計算出的聲級比EN—SN帶入對應于步驟S12中計算出的聲級比差 DIF—SN的等式來計算閾值TH,并且通過從計算出的閾值TH中減去閾 值TH0來計算校正值Aa。該實例還利用了這樣的構造,其中設置器 52根據(jù)表示了關系值N0ISE—DIF與校正值Ab間關系的等式來計算校 正值Ab,或者其中設置器53根據(jù)表示了語言長度EN一SPEECH—LEN與 校正值Ac間關系的等式來計算校正值Ac。(2) 改進實施例2確定差異DO的校正范圍的變量并不限于關系值NOISE—DIF和語 言長度EN—SPEECH—LEN。例如,可以取代根據(jù)語言長度EN_SPEECH—LEN 設置校正值Ab的配置或者結合該配置來使用這樣一種配置,即根據(jù) 認證語音的語言長度V一SPEECH一LEN來計算校正值Ab,或者根據(jù)語言 長度EN—SPEECH—LEN和語言長度V—SPEECH—LEN的平均值來計算校正 值Ab。例如,設置校正值Ab從而使校正差異Dl隨語言長度 V—SPEECN_LEN的增加而增加,類似于校正值Ab與語言長度 EN一SPEECH—LEN間的關系。還使用了這樣的配置,即校正值控制器50根據(jù)上述變量以外的 其他變量來確定每個校正值。例如,可以根據(jù)登記語音或認證語音(在 說話部分P2中)中所包括的語音聲音和非語音聲音的持續(xù)時間之間 的比來設置每個校正值。隨著語音聲音的比例增加,特征量EN一DATA 和V—DATA的值更可靠地反映了講話者的特性,從而增加了差異DO 的精確度。因此,即使差異D1比差異DO有所增加也不會使FRR過度 地增加。所以,使用了這樣的配置,即設置每個校正值以使差異Dl 隨登記語音或認證語音中語音聲音的比例增加而增加。另外,使用這 樣的配置,即設置每個校正值以使差異Dl隨登記語音或認證語音的 音節(jié)數(shù)目的增加而增加,這是因為差異DO的精確度是隨著登記語音 或認證語音的音節(jié)數(shù)目的增加而增加的。(3) 改進實施例3 還使用了其中的變量與校正值間的關系可變的配置。例如,可以提供這樣的配置,其中通過對依照操作單元10的操作的表進行更 新來改變校正值Aa與聲級比EN—SN或聲級比差DIF一SN的關系。類似 地,可以根據(jù)對操作單元10的操作來修改對應于關系值NOISE—DIF 的校正值Ab或?qū)谡Z言長度EN—SPEECH—LEN的校正值Ac。這些配 置可以按照用戶的期望來實現(xiàn)認證。在其中的校正值A Ua、 Ab、和 Ac)是通過改進實施例1中說明的等式的計算而被算出的配置中,可 以根據(jù)對操作單元10的操作來修改每個等式的內(nèi)容(例如,變量的 系數(shù))。(4) 改進實施例4 雖然在上述實施例中說明的配置在認證中使用了差異D0 (校正差異Dl),但是指示了登記語音與認證語音間相似度的值并不限于 差異D0。例如,可以使用這樣的配置,其根據(jù)各種變量(即,任何 指標值)來執(zhí)行認證,所述變量的值隨著登記語音與認證語音的特性 彼此接近而增大。在此配置中,根據(jù)每個變量的校正值A (Aa、 Ab、 和Ac)中的增大和減小與上述實施例相比是相反的。例如,與圖4 的配置相反,該配置中的校正值Aa隨聲級比EN—SN的增大而減小。
(5) 改進實施例5雖然在上述實施例中所說明的配置中三種校正值Aa、 Ab、和Ac 被各自輸出到校正器44,但是也可以使用其中的校正值控制器50將 校正值Aa、 Ab、和Ac的總和輸出到校正器44這樣的配置。此外, 可以對用來校正差異D0的校正器44的計算操作進行適當?shù)男薷?。?如,使用了這樣的配置,其中校正器44將每個校正值A (Aa、 Ab、 和Ac)加到差異DO或者用差異DO乘每個校正值A(Aa、 Ab、和Ac)。 在其中通過將每個校正值A加到差異DO而計算出差異Dl的配置中, 每個校正值A的符號與圖1的配置相反。(6) 改進實施例6 雖然上述實施例中所說明的配置計算了預定閾值THO與隨聲級比EN一SN線性變化的變量(閾值)TH之間的差來作為校正值Aa,聲 級比EN—SN與閾值TH之間的關系也可以做適當?shù)母淖儭@?,本?施例使用了這樣的配置,其中根據(jù)聲級比EN_SN和聲級比差DIF—SN 來指定了閾值TH以使聲級比EN—SN與閾值TH滿足對應于聲級比差 DIF一SN的曲線的關系(即,以使閾值TH沿對應于聲級比差DIF—SN 的曲線而隨聲級比EN—SN改變),并且其中閾值TH與閾值THO之間 的差被確定為校正值Aa。根據(jù)認證噪音來設置閾值TH以使閾值TH 與聲級比EN一SN具有不同關系(典型地,根據(jù)聲級比差DIF_SN的直 線或曲線關系)就足夠了。適當改變聲級比EN—SN與對應于一個聲級 比差DIF—SN的閾值TH之間的特定關系,例如根據(jù)測試結果得出這些 變量間的關系,或者根據(jù)測試結果的統(tǒng)計學處理結果。因此,本發(fā)明 優(yōu)選實施例中的校正值Aa將被確定為預定閾值THO與閾值TH間的 差,其中閾值TH滿足根據(jù)認證噪音與聲級比EN—SN的關系。(7) 改進實施例7 雖然在上述實施例中說明了語音認證設備100被用于在認可用戶和陌生人之間作出分辨的情況,但是根據(jù)上述實施例的語音認證設 備100也可被用于語音口令認證,該語音口令認證判定認證語音所指 定的口令是否與基于認可用戶的語言而提前登記的口令相符。
權利要求
1. 一種語音認證設備,包括特性分析裝置,其對在被測者產(chǎn)生用于被測者認證的采樣語音 時在所述被測者周圍所產(chǎn)生的采樣噪音的特性進行分析;第一設置裝置,其根據(jù)由所述特性分析裝置分析的所述采樣噪 音的特性來設置第一校正值;校正裝置,其根據(jù)所述第一設置裝置設置的第一校正值來校正 指標值,所述指標值指示了己提前登記的基準語音的特征量與從被測 者獲得的采樣語音的特征量之間的相似程度;以及確定器,其通過對所述校正裝置校正過的指標值與預定閾值進 行比較來確定對所述被測者的認證。
2. 如權利要求1所述的語音認證設備,其中,所述第一設置裝 置根據(jù)采樣噪音的特性以及基準語音與登記基準語音期間產(chǎn)生的基 準噪音之間的聲級比二者來設置所述第一校正值,以使得所述第一校 正值被設置為預定閾值與一個變量之間的差,所述變量是結合采樣噪 音的特性以及基準語音與基準噪音之間的聲級比二者而確定的。
3. 如權利要求2所述的語音認證設備,其中所述第一設置裝置 將所述第一校正值設置為所述預定閾值與隨著基準語音與基準噪音 之間的聲級比而沿著對應于采樣噪音特性的直線或曲線變化的變量 之間的差。
4. 如權利要求2或3所述的語音認證設備,其中所述第一設置 裝置根據(jù)基準語音與基準噪音之間的聲級比和采樣噪音的特性二者 來設置第一校正值,給出所述第一校正值來作為基準語音和基準噪音 間的聲級比與采樣語音和采樣噪音間的聲級比這兩個聲級比之間的 聲級比差。
5. 如權利要求2所述的語音認證設備,進一步包括第二設置裝 置,其根據(jù)采樣噪音和基準噪音之間的差來設置第二校正值,其中所述校正裝置根據(jù)所述第一校正值和第二校正值來校正指 標值。
6. 如權利要求1所述的語音認證設備,進一步包括第三設置裝 置,其根據(jù)采樣語音或基準語音的持續(xù)時間來設置第三校正值,其中所述校正裝置根據(jù)所述第一校正值和第三校正值來校正指 標值。
7. —種語音認證方法,包括步驟分析采樣噪音的特性,該采樣噪音是在被測者產(chǎn)生用于對被測 者進行認證的采樣語音時在該被測者周圍產(chǎn)生的;根據(jù)分析出的采樣噪音的特性來設置校正值;根據(jù)所設置的校正值來校正指標值,該指標值指示了提前登記 的基準語音的特征量與從被測者獲得的采樣語音的特征量之間的相 似程度;以及通過對校正過的指標值與預定閾值進行比較來確定被測者的可 靠性。
8. —種用于計算機的機器可讀介質(zhì),所述介質(zhì)包含有計算機可 執(zhí)行的程序指令,用以執(zhí)行以下處理特性分析處理,用來對在被測者產(chǎn)生用于對被測者進行認證的 采樣語音時在該被測者周圍產(chǎn)生的采樣噪音的特性進行分析;設置處理,用來根據(jù)在特性分析處理中分析出的采樣噪音的特 性來設置校正值;校正處理,用來根據(jù)在設置處理中所設置的校正值來校正指標 值,該指標值指示了提前登記的基準語音的特征量與從被測者獲得的 采樣語音的特征量之間的相似程度;以及確定處理,用來通過對校正過的指標值與預定閾值進行比較來確定被測者的可靠性。
全文摘要
一種語音認證設備,其中特性分析裝置對在被測者產(chǎn)生用于被測者認證的采樣語音時在所述被測者周圍所產(chǎn)生的采樣噪音的特性進行分析。設置裝置根據(jù)由所述特性分析器分析的所述采樣噪音的特性來設置校正值。校正裝置根據(jù)所設置的校正值來校正指標值,所述指標值指示了已提前登記的基準語音的特征量與從被測者獲得的采樣語音的特征量之間的相似程度。確定器通過對校正過的指標值與預定閾值進行比較來確定對所述被測者的認證。
文檔編號G10L15/00GK101145342SQ20071015410
公開日2008年3月19日 申請日期2007年9月12日 優(yōu)先權日2006年9月14日
發(fā)明者吉岡靖雄, 川原毅彥 申請人:雅馬哈株式會社