專利名稱:并發(fā)進行語音識別、說話者分段和分類的方法和裝置的制作方法
本申請是序列號為09/288,724的美國專利申請(1999年4月9日提交,它被授予本發(fā)明的受讓人并包括在這里作為參考)的部分繼續(xù)。
一般而言,本發(fā)明涉及聲音信息分類系統(tǒng),更具體而言,涉及轉(zhuǎn)換聲音信息和在聲音文件中標識說話者的方法和裝置。
許多組織,如廣播新聞組織和信息檢索(retrieve)服務(wù)部分,為了存儲和檢索(retrieve)的目的,必須處理大量聲音信息。常常是這些聲音信息必須按主題或說話者名字或按二者進行分類。為了按主題對聲音信息分類,語音識別系統(tǒng)首先把聲音信息轉(zhuǎn)換成文本供自動分類或編索引。然后,該索引能被用于完成詢問報告匹配(query-document matching)以向使用者返回相關(guān)報告。
這樣,對聲音信息的分類過程已基本上成為完全自動的。然而,按說話者對聲音信息進行分類的過程往往留下需要大量人力的任務(wù),特別是對于實時應(yīng)用,如廣播新聞。盡管已提出了若干需要大量計算的離線(off-line)技術(shù)。利用說話者登錄信息根據(jù)聲音源自動識別說話者,但說話者分類過程最經(jīng)常的是由操作人員定成,他辨識每次說話者變化并提供相應(yīng)的說話者辨識結(jié)果。
本發(fā)明的父申請說明了基于聲音內(nèi)容(主題)檢索(retrieve)聲音信息以及辨識說話者的方法和裝置。一個編索引系統(tǒng)對聲音信息進行轉(zhuǎn)換和編索引以創(chuàng)建有時間標記的內(nèi)容索引文件和說話者索引文件。所產(chǎn)生的內(nèi)容索引和說話者索引在其后能用于根據(jù)聲音內(nèi)容和說話者標識完成詢問報告匹配。需要一種方法和裝置,它能實時地從聲音源自動轉(zhuǎn)換聲音信息并同時辨認說話者。還需要一種裝置和方法,它提供改進的說話者分段和基于貝葉斯信息判據(jù)(BIC)的集群。
一般而言,說明了一種方法和裝置,用于從音頻-視頻源自動轉(zhuǎn)換聲音信息同時并發(fā)地辨識說話者。所說明的聲音轉(zhuǎn)換和說話者分類系統(tǒng)包括一個語音識別系統(tǒng)、一個說話者分段系統(tǒng)和一個說話者辨識系統(tǒng)。根據(jù)本發(fā)明的一個方面,聲音信息在一個多線程環(huán)境中由語音識別系統(tǒng)、說話者分段系統(tǒng)和說話者辨識系統(tǒng)沿平行分支進行處理。
語音識別系統(tǒng)產(chǎn)生一個抄本(transcript),對抄本中的每個詞按時間對位。說話者分段系統(tǒng)分開各說話者并識別出存在非同一語音部分之間段邊界的所有可能幀(frame)。然后說話者辯識系統(tǒng)使用登錄的說話者數(shù)據(jù)庫對每個識別出的段落賦予一個說話者。
本發(fā)明利用公共前端處理來計算特征矢量,這些特征矢量由語音識別系統(tǒng)、說話者分段系統(tǒng)和說話者辨識系統(tǒng)在一多線程環(huán)境中沿平行分支進行處理。一般而言,這些特征矢量可以分配給這三個多重處理線程,例如使用類似于服務(wù)器方式工作的共享存儲器結(jié)構(gòu)把計算出的特征矢量分配到每個通道(對應(yīng)于每個處理線程)。
根據(jù)本發(fā)明的另一方面,來自音頻-視頻源的聲音信息同時地被轉(zhuǎn)換和分段以識別出段邊界。一旦由分段系統(tǒng)識別出語音段,說話者辨識系統(tǒng)便把一個說話者標簽賦予轉(zhuǎn)換后文本的每個部分。
所說明的分段過程,在與轉(zhuǎn)換引擎同樣的通過聲音數(shù)據(jù)的路徑上識別出存在與說話者變化相對應(yīng)的段邊界的所有可能幀。一幀代表給定時間段上的語音特征。分段過程使用比較兩模型的模型選擇判據(jù),確定在一給定幀i是否存在一個段邊界。第一模型使用單個滿協(xié)方差高斯分布,假定在一個樣本窗(x1,…,xn)內(nèi)不存在段邊界。第二模型使用兩個滿協(xié)方差高斯分布,以(x1,…,xi)取自第一高斯分布,而(xi+1,…,xn)取自第二高斯分布,假定在樣本窗(x1,…xn)內(nèi)存在段邊界。
所說明的說話者辨識系統(tǒng)使用登錄的說話者的數(shù)據(jù)庫,對每個識別出的段賦予一個說話者標簽。說話者辨識過程接收由分段過程識別出的轉(zhuǎn)折點,以及由共享前端產(chǎn)生的特征矢量。通常,說話者辨識系統(tǒng)把這段的語調(diào)(utlerance)與登錄的說話者的數(shù)據(jù)庫進行比較,并找出“最接近的”說話者。為說話者識別系統(tǒng)提供了基于模型方案和基于幀方案。
本發(fā)明的結(jié)果能直接輸出給使用者,例如提供每段的轉(zhuǎn)換后文本加上賦予的說話者標簽。此外,本發(fā)明的結(jié)果還能記錄在一個或多個數(shù)據(jù)庫中和由聲音檢索系統(tǒng)使用,例如在父申請中說明的聲音檢索系統(tǒng),它把內(nèi)容和說話者查詢方法的結(jié)果結(jié)合起來,以提供基于聲音內(nèi)容及說話者標識對聲音信息(和間接地對視頻)的訪問。
通過參考下面的詳細描述和圖件將能得到對本發(fā)明的更完整的理解和本發(fā)明的其他特點和優(yōu)點。
附圖簡述
圖1是根據(jù)本發(fā)明構(gòu)成的聲音轉(zhuǎn)換和說話者分類系統(tǒng)的框圖;圖2是取自圖1的有時間標記的詞數(shù)據(jù)庫的表;圖3是取自圖1的說話者轉(zhuǎn)折點數(shù)據(jù)庫的表;圖4說明根據(jù)本發(fā)明的有代表性的說話者登錄過程;圖5是流程圖,描述由圖1的聲音轉(zhuǎn)換和說話者分類系統(tǒng)完成的并發(fā)轉(zhuǎn)換、分段和說話者辨識過程的示例;圖6是流程圖,描述由圖1的聲音轉(zhuǎn)換和說話者分類系統(tǒng)完成的分段過程的示例;以及圖7是流程圖,描述由圖1的聲音轉(zhuǎn)換和說話者分類系統(tǒng)完成的說話者辨識過程的示例。
圖1顯示根據(jù)本發(fā)明構(gòu)成的聲音轉(zhuǎn)換和說話者辨識系統(tǒng)100,它自動轉(zhuǎn)換來自音頻-視頻源的聲音信息同時并發(fā)地辯識說話者。音頻-視頻源文件可以是例如聲音記錄或來自例如廣播新聞節(jié)目的實況饋送。音頻-視頻源首先被轉(zhuǎn)換同時并發(fā)地被處理以識別出所有可能的幀,其中存在指示說話者變化的段邊界。
聲音轉(zhuǎn)換和說話者分類系統(tǒng)100包括語音識別系統(tǒng)、說話者分段系統(tǒng)和說話者分類系統(tǒng)。語音識別系統(tǒng)產(chǎn)生抄本,對抄本中的每個詞按時間對位。說話者分段系統(tǒng)分開各說話者并識別出存在段邊界的所有可能幀。段是與一給定說話者相關(guān)聯(lián)的聲音源連續(xù)部分。然后說話者辨識系統(tǒng)對每段賦一個說話者標簽。
圖1的框圖顯示根據(jù)本發(fā)明的一個聲音轉(zhuǎn)換和說話者分類系統(tǒng)示例100的結(jié)構(gòu)。聲音轉(zhuǎn)換和說話者分類系統(tǒng)100可以作為一個通用計算系統(tǒng)來實現(xiàn),如圖1所示的通用計算系統(tǒng)。聲音轉(zhuǎn)換和說話者辨識系統(tǒng)100包括處理器110和相關(guān)的存儲器,如數(shù)據(jù)存儲裝置120,它可以是分布式的或本地的。處理器110可以作為單個處理器實現(xiàn),或作為平行操作的多個本地或分布式處理器實現(xiàn)。數(shù)據(jù)存儲裝置120和/或只讀存儲器(ROM)可操作以存儲一個或多個指令,處理器110可操作以檢索、解釋和執(zhí)行這些指令。
數(shù)據(jù)存儲裝置120最好包括聲音大全(corpus)數(shù)據(jù)庫150,用于存儲一個或多個預(yù)先記錄的或?qū)崨r的音頻或視頻文件(或二者),它們能根據(jù)本發(fā)明被實時處理。數(shù)據(jù)存儲裝置120還存有帶時間標記的詞數(shù)據(jù)庫200,下文中將結(jié)合圖2作進一步討論,它由語音識別系統(tǒng)產(chǎn)生,包括一組帶時間標記的詞。說話者轉(zhuǎn)折點數(shù)據(jù)庫300,下文中將結(jié)合圖3作進一步討論,是由說話者辨識系統(tǒng)結(jié)合說話者分段系統(tǒng)一起產(chǎn)生的,它指出每段的起始時間,以及一個或多個相應(yīng)的建議的說話者標簽。說話者數(shù)據(jù)庫420由說話者登錄過程410產(chǎn)生,下文中將結(jié)合圖4討論,它包括每個登錄的說話者的條目。應(yīng)該指出,一種在線實現(xiàn)可能不需要圖1所示實施例中顯示的所產(chǎn)生的數(shù)據(jù)庫200和300,在這個在線實現(xiàn)中,本發(fā)明的結(jié)果實時地顯示給使用者,不需要用于其后的訪問。
此外,如將結(jié)合圖5和圖6進一步討論的那樣,數(shù)據(jù)存儲裝置120包括一個并發(fā)轉(zhuǎn)換、分段和說話者辨識過程500,轉(zhuǎn)換引擎515,分段過程600和說話者辯識過程700。并發(fā)轉(zhuǎn)換、分段和說話者辯識過程500協(xié)調(diào)轉(zhuǎn)換引擎515、分段過程600及說話者辯識過程700的執(zhí)行。并發(fā)轉(zhuǎn)換、分段和說話者辯識過程500分析聲音大全數(shù)據(jù)庫150中的一個或多個聲音文件并實時產(chǎn)生該聲音信息的轉(zhuǎn)換,它指出與每段相關(guān)段的說話者。分段過程600分開各說話者并識別出存在段邊界的所有可能幀。說話者辯識過程700使用登錄的使用者的數(shù)據(jù)庫對每段賦予一個說話者標簽。
圖2顯示一個帶時間標記的詞的數(shù)據(jù)庫示例200,它由語音識別系統(tǒng)產(chǎn)生并包括一組帶時間標記的詞。這個帶時間標記的詞的數(shù)據(jù)庫200保持多個記錄,如記錄211至214,每個與所示實施例中的一個不同的詞相關(guān)聯(lián)。對于在字段220中標識的每個詞,帶標記的詞的數(shù)據(jù)庫200在字段230中指出該詞的起始時間。
圖3顯示說話者轉(zhuǎn)折點數(shù)據(jù)庫示例300,它由說話者辨識系統(tǒng)結(jié)合說話者分段系統(tǒng)一起產(chǎn)生,它指出每段的起始時間,以及一個或多個相應(yīng)的建議的說話者標簽。說話者轉(zhuǎn)折點數(shù)據(jù)庫300保持多個記錄,如記錄305至308,每個與所示實施例中的一個不同段相關(guān)聯(lián)。對于由字段320中的段號標識的每段,說話者轉(zhuǎn)折點數(shù)據(jù)庫300在字段330中指出該段的相對于聲音源文件起始時間的起始時間。此外,說話者轉(zhuǎn)折點數(shù)據(jù)庫300在字段340中標識出與每段本關(guān)聯(lián)的說話者,在字段350中為相應(yīng)的說話者得分(score)。在一個實現(xiàn)中,說話者轉(zhuǎn)折點數(shù)據(jù)庫300還在字段360中標識出與每段相關(guān)聯(lián)的一個或多個可替代的說話者(次最好的猜想),并在字段370中給出相應(yīng)的可替代的說話者得分。
說話者登錄過程圖4顯示已知的用于登錄或注冊說話者的過程。如圖4所示,對于每個登錄的說話者,說話者的名字與一說話者訓(xùn)練文件,如脈沖編碼調(diào)制(PCM)文件,一起提供給說話者登錄過程410。說話者登錄過程410分析說話者訓(xùn)練文件,并在說話者數(shù)據(jù)庫420中為每個說話者建立一個條目。把說話者的聲音樣本添加到說話者數(shù)據(jù)庫420的過程稱作登錄。這種登錄過程是離線進行的,說話者辨識系統(tǒng)假定對所有感興趣的說話者都存在這樣的數(shù)據(jù)庫。一般需要從來自包括多種聲音條件的多通道和送話器的第弟說話者得到大約1分鐘有用聲音。登錄的說話者的訓(xùn)練數(shù)據(jù)或數(shù)據(jù)庫被用一個分層結(jié)構(gòu)存儲,從而使訪問模型最佳化以利于有效地識別和檢索。
過程如前面指出的那樣,圖5所示的并發(fā)轉(zhuǎn)換、分段和說話者辯識過程500協(xié)調(diào)轉(zhuǎn)換引擎515、分段過程600(圖6)和說話者辯識過程700(圖7)的執(zhí)行。并發(fā)轉(zhuǎn)換、分段和說話者辯識過程500分析聲音大全數(shù)據(jù)庫150中的一個或多個聲音文件并實時產(chǎn)生聲音信息的轉(zhuǎn)換結(jié)果,它指出與每個段相關(guān)聯(lián)的說話者。如圖5中所示,并發(fā)轉(zhuǎn)換、分段和說話者辯識過程500在步驟510中以已知的方式從聲音文件中取出倒譜(cepstral)特征。一般地說,步驟510把聲音信號的域從時間域改變成頻率域,分析各頻段的信號能量,再應(yīng)用另一種變換把信號域改變成倒譜域。
如圖5中所示,步驟510為轉(zhuǎn)換引擎515、分段過程600(圖6)和說話者辯識過程700(圖7)提供公共前端處理。一般而言,在步驟510中計算出的特征矢量可分配給與轉(zhuǎn)換引擎515、分段過程600(圖6)和說話者辯識過程700(圖7)相對應(yīng)的三個多重處理線程。這些特征矢量可以分配給這三個多重處理線程,例如使用類似于服務(wù)器方式工作的共享存儲器結(jié)構(gòu)把計算出的特征矢量分配到每個通道(對應(yīng)于每個處理線程)。
在步驟510中產(chǎn)生的特征矢量在多線程環(huán)境中沿平行分支進行處理。如圖5所示和下文討論的那樣,用多線程將所產(chǎn)生的特征矢量應(yīng)用于(ⅰ)在步驟515中的轉(zhuǎn)換引擎;(ⅱ)在步驟530中的說話者分段過程600,下文中將結(jié)合圖6討論;以及(ⅲ)在步驟560中的說話者辯識過程700,下文中將結(jié)合圖7討論。
在步驟515中,所產(chǎn)生的特征矢量應(yīng)用于轉(zhuǎn)換引擎,后者例如市場上可從IBM公司,Armonk,NY得到的via VoiceTM語音識別系統(tǒng),以產(chǎn)生帶有時間標記的詞的轉(zhuǎn)換后文件。其后,在步驟520中這些帶時間標記的詞可任選地收集到一個帶時間標記詞數(shù)據(jù)庫200中。此外,在步驟540,這些帶時間標記的詞應(yīng)用于一個交叉存取器(interleaver),這將在下文中討論。
在步驟530中,所產(chǎn)生的特征矢量應(yīng)用于分段過程600,下文中將結(jié)合圖6進一步討論。一般而言,分段過程600把各說話者分開,并識別出所有可能的存在非同一語言部分之間分段邊界的幀。存在段邊界的每個幀稱作轉(zhuǎn)折點(turn),每個同一段應(yīng)對應(yīng)于單一說話者的語音。一旦由分段過程600劃定界限,每個段便能被分類為是由一特定說話者說過的(假定該段滿足說話者識別系統(tǒng)所要求的最小段長度要求)。
在步驟560中,由分段過程600識別出的轉(zhuǎn)折點與步驟510中產(chǎn)生的特征矢量一起應(yīng)用于說話者辯識過程700,下文中將結(jié)合圖7進一步討論,以使用登錄的說話者數(shù)據(jù)庫420把一說話者標簽賦予每個段。一般而言,說話者辯識系統(tǒng)把該段語調(diào)與說話者數(shù)據(jù)庫420(圖4)進行比較,并找出“最接近”的說話者。由說話者辯識過程700產(chǎn)生的賦予的說話者標簽應(yīng)用于步驟550,這將在下文中討論。
由轉(zhuǎn)換引擎在步驟515中產(chǎn)生的帶時間標記的詞與分段過程600在步驟530中識別出的說話者轉(zhuǎn)折點一起在步驟540中加到交叉存取器,以把轉(zhuǎn)折點與帶時間標記詞交叉,產(chǎn)生被隔離的語音段。然后,這被隔離的語音段和說話者辯識系統(tǒng)在步驟560中產(chǎn)生的說話者標識在步驟550中顯示給使用者。
在一個實施例中,被隔離語音段是在它們由交叉存取器在步驟540中產(chǎn)生的時候?qū)崟r顯示的。此外,在所示實施例中,說話者辨識系統(tǒng)所要求的最小段長度是8秒。這樣,通常在被隔離語音段的開頭首次出現(xiàn)之后大約8秒鐘,說話者標識標簽將附加在轉(zhuǎn)換后的文本之后。應(yīng)該指出,如果被隔離語音段比說話者要求的最小段長度短,可對該段賦予一個如“無結(jié)論”的說話者標簽。
貝葉斯信息判據(jù)(BIC)背景如前面指出的,圖6所示分段過程600分開各說話者,并識別出所有可能的存在非同一語言部分之間分段邊界的幀。存在段邊界的每個幀稱作轉(zhuǎn)折點,每個同一段應(yīng)對應(yīng)于單一說話者的語音。一旦由分段過程600劃定界限,每個段便能被分類為是由一特定說話者說過的(假定該段滿足說話者識別系統(tǒng)所要求的最小段長度要求)。分段過程是基于貝葉斯信息判據(jù)(BIC)模型選擇判據(jù)。BIC是一種漸近最佳貝葉斯模型選擇判據(jù),用于決定p個參數(shù)模型中哪一個能最好地代表n個數(shù)據(jù)樣本x1,…,xn,xi∈Rd。每個模型Mj的參數(shù)個數(shù)為Kj。樣本xi假定為獨立的。
對于BIC理論的詳細討論,請見例如G.Schwarz的“估計模型維數(shù)”一文,The Annals of Statistics(統(tǒng)計學(xué)年刊),Vol.6,461-464(1978),這里納入作為參考。根據(jù)BIC理論,對于足夠大的n,該數(shù)據(jù)的最好模型是使BICj=log Lj(x1,…,xn)-1/2λKjlogn 式(1)達到極大的那一個模型,這里λ1,Lj是在模型Mj下數(shù)據(jù)的最大似然值(換句話說,是對于Mj的Kj個參數(shù)具有最大似然值的數(shù)據(jù)的似然值)。當只有兩個模型時,一個簡單的測試用于模型選擇。具體地說,如果△BIC=BIC1-BIC2是正值,則選擇模型M1而不是模型M2。類似地,如果△BIC=BIC1-BIC2是負值,則選擇模型M2而不選模型M1。
說話者分段圖6所示分段過程600識別出存在段邊界的所有可能幀。不失一般性,考慮一個連續(xù)數(shù)據(jù)樣本窗口(x1,…xn),其中最多有一個段邊界。
在幀i是否存在一個段邊界的基本問題可以歸結(jié)為在以下兩個模型之間的模型選擇問題模型M1,這里(x1,…xn)是從單個滿協(xié)方差高斯分布中取出的,模型M2,這里(x1,…xn)是從兩個滿協(xié)方差高斯分布中取出的,其中,(x1,…xi)取自第一高斯分布,((Xi+1,…xn)取自第二高斯分布。
由于xi∈Rd,模型M1有K1=d+d(d+1)/2個參數(shù),而模型M2的參數(shù)個數(shù)為其2倍(K2=2K1)??梢钥闯?,如果表達式ΔBICi=-n2log|Σw|+i2log|Σf|+n-i2log|Σs|+12λ(d+d(d+1)2)logn]]>為負值,由第i幀是一個段邊界的好的候選對象,這里|∑w|是整個窗口(即全部n幀)的協(xié)方差的行列式,|∑f|是該窗口的第一子段的協(xié)方差的行列式,|∑s|是該窗口第二子段的協(xié)方差的行列式。
這樣,在步驟610,由連續(xù)數(shù)據(jù)樣本窗口(x1,…xn)建立了兩個子段(x1,…xi)和(Xi+1,…xn)。分段過程600在步驟615至628中進行若干測試以去掉窗口中一些BIC測試,如果這些測試對應(yīng)的位置極不可能檢測到邊界的話。具體地說,在步驟615使變量α的值初始化為n/r-1,這里r是檢測分辯率(按幀計算)。然后在步驟620進行一個測試確定α值是否超過一最大值αmax。如果在步驟620確定α值超過一最大值αmax,則在步驟624將計數(shù)器i置為值(α-αmax+1)r。然而,如果在步驟620確定α值不超過最大值αmax,則在步驟628將計數(shù)器i置為值r。其后,在步驟630使用前文中提出的等式計算BIC值之差。
在步驟640進行一個測試以確定i值是否等于n-r。換句話說,是否窗口中的所有可能樣本都已評價過。如果在步驟640中確定i值尚未等于n-r,則在步驟650中i值增加r,以在步驟630繼續(xù)處理下一個樣本。然而,如果在步驟640中確定i值等于n-r,則在步驟660進行進一步測試以確定BIC值的最小差(△BICi0)是否為負值。如果在步驟660中確定BIC值的最小差非負值,則在返回步驟610以上述方式考慮新窗口之前,在步驟665中增大窗口大小。這樣,只有當對一個窗口中的所有i值已計算了△BIC值而且其中沒有一個導(dǎo)致負△BIC值時,窗口大小n才被增大。
然而,如果在步驟660中確定BIC值的最小差為負值,則在步驟670中把i0選作段邊界。其后,在程序控制返回步驟610以前述方式考慮新窗口之前,在步驟675中將新窗口起點移到i0+1,并把窗口大小設(shè)為No。
這樣,對所有可能的i值進行了BIC差值測試,并提i0選為具有最負△BICi的那個i值。如果△BICi0<0,則可在該窗口中幀i處檢測到一個段邊界,于是Xi0對應(yīng)于一個段邊界。如果測試失敗,則在步驟660按下述方式把更多的數(shù)據(jù)樣本加到當前窗口(通過增大參數(shù)n),然后過程將以這新的數(shù)據(jù)樣本窗口重復(fù)進行,直至所有特征矢量均已被分段為止。通常,窗口大小是按特征矢量個數(shù)擴展的,而從一個窗口擴展到另一個窗口擴展時它本身在增大。然而,窗口按特征矢量個數(shù)擴展時,其擴展值決不會大于某一最大值。當在步驟670中發(fā)現(xiàn)一段邊界時,窗口擴展值取其最小值(N0)。
可變窗口方案根據(jù)本發(fā)明的又一特征,提出了一個新的窗口選擇方案,它改善了總體準確性,特別是在小段上。對于在其上進行分段過程600的窗口大小的選擇是很重要的。如果所選窗口包含太多矢量,則某些邊界可能會漏掉。另一方面,如果所選窗口太小,則信息不足將造成高斯分布對數(shù)據(jù)的代表性差。
已經(jīng)提議,如果沒有發(fā)現(xiàn)段邊界,則把固定數(shù)量的數(shù)據(jù)加到當前窗口。這種方案沒有利用“上下文關(guān)系”信息來改善準確性即不論是否剛剛發(fā)現(xiàn)了一個段邊界還是長時間一直未發(fā)現(xiàn)段邊界,都加上相同數(shù)量的數(shù)據(jù)。
本發(fā)明的改進的分段過程考慮在很可能發(fā)生新邊界的區(qū)域中較少量的數(shù)據(jù),而當不大可能發(fā)生邊界時更大方地增大窗口大小。開始時,考慮一個小的矢量窗口(通常100幀語音)、如果在當前窗口上沒發(fā)現(xiàn)段邊界,則窗口的大小增加△Ni幀。如果在這新窗口中沒發(fā)現(xiàn)邊界,則幀數(shù)增加△Ni+1,其△Ni=△Ni+1+δi,這里δi=2δi+1,直至發(fā)現(xiàn)了段邊界,或窗口擴展已達到一最大值為止(以避免出現(xiàn)邊界時出現(xiàn)準確性問題)。這保證當窗口仍小時窗口增大得相當慢,而當窗口變大時窗口增大加速。當在一個窗口中發(fā)現(xiàn)段邊界時,下一個窗口從被檢測到的邊界之后開始,使用最小窗口大小。
改善BIC測試效率根據(jù)本發(fā)明的另一特征,通過更好地選擇進行BIC測試的位置,能改善總處理時間。當該窗口中的某些BIC測試所對應(yīng)的位置很不可能檢測到邊界時,這些BIC測試可被隨意去掉。首先,在每個窗口的邊界處不進行BIC測試,因為它們必定代表有極少數(shù)據(jù)的高斯分布(這是在段檢測過程中顯然的小增益在重復(fù),而且實際上沒有可忽略的性能影響)。
再有,當當前窗大時,如果進行所有的BIC測試,則在窗開始部分的BIC計算將要進行多次,每次加入一些新信息。例如,如果在一個10秒窗中的頭5秒內(nèi)沒有發(fā)現(xiàn)段邊界,那么相當不可能假定把當前10秒窗擴展后會在頭5秒內(nèi)發(fā)現(xiàn)邊界。這樣,通過忽略當前窗口開始部分中的BIC計算(當前窗口是在一窗口擴展之后),能減少BIC計算次數(shù)。事實上,現(xiàn)在BIC計算最多次數(shù)是可調(diào)節(jié)的參數(shù),由所需要的速度/準確性(圖3中的αmax)決定。
這樣,分段過程600允許在對分段信息有某種反饋之前知道它要用的最大時間。因為即使尚未發(fā)現(xiàn)邊界,如果窗口足夠大,則知道在頭一些幀中不存在段。這一信息可用于對這一部分語音信號進行其他處理。
BIC補償權(quán)重BIC公式利用一補償權(quán)重參數(shù)λ,以補償理論與認判據(jù)實踐應(yīng)用之間的差異。已經(jīng)發(fā)現(xiàn),在漏失率和誤報率之間給出好的折衷的最佳λ值是1.3。關(guān)于λ對廣播新聞轉(zhuǎn)換分段準確性影響的更深入研究見A.Tritschler的碩士論文“利用BIC允許進行分段的語音識別應(yīng)用”,Institut Eurecom(法國,1998),這里納入作為參考。
盡管在原則上因子λ是依賴任務(wù)的,而且對每個新任務(wù)得要重新調(diào)優(yōu),但在實踐中該算法已應(yīng)用于不同數(shù)據(jù)類型,而且使用相同的λ值在性能方面沒有明顯的改變。
說話者辯識過程如前文指出的那樣,并發(fā)轉(zhuǎn)換、分段和說話者辯識過程500在步驟560中執(zhí)行圖7所示的說話者辯識過程700,以使用登錄的說話者數(shù)據(jù)庫420對每個段賦予一個說話者標簽。如圖7所示,說話者辯識過程700接收由分段過程600識別出的轉(zhuǎn)折點以及由公共前端處理器在步驟510中產(chǎn)生的特征矢量。一般而言,說話者辨識系統(tǒng)把段語調(diào)與說話者數(shù)據(jù)庫420(圖4)進行比較并找出“最接近的”說話者。
在步驟710處理轉(zhuǎn)折點和特征矢量,以形成段語調(diào),包含由單一說話者造成的大量語音。在步驟720,段語調(diào)應(yīng)用于說話者辯識系統(tǒng)。對于說話者辨識系統(tǒng)的討論,請見例如H.S.M.Beigi等的“IBM基于模型和逐幀的說話者識別”(說話者識別及其在商業(yè)和法庭上的應(yīng)用論文集,Avignon,法國,1998)。一般而言,說話者辨識系統(tǒng)把段語調(diào)與說話者數(shù)據(jù)庫420(圖4)進行比較并找出“最接近的”說話者。
說話者辨識系統(tǒng)有兩種不同的實現(xiàn)途徑,一是基于模型的途徑,另一個是基于幀的途徑,各伴有長處的短處。引擎是不依賴于文本和語言二者的,以利于諸如廣播新聞之類材料的實況聲音編索引。
說話者辯識-基于模型的途徑為了給數(shù)據(jù)庫中的大量說話者建立一套訓(xùn)練模型,根據(jù)M幀語音序列對第i個說話者計算出具有d維特征矢量{f→m}m=1,...,M]]>的模型Mi。當選擇高斯分布時,這些模型是利用其統(tǒng)計參數(shù)來存儲的,例如{U→i,j,Σi,j,C→i,j}j=1···ni]]>它由均值矢量、協(xié)方差矩陣和計數(shù)構(gòu)成。每個說話者i可以以包含ni分布的模型結(jié)束。
使用H.S.M.Beigi等在分布集合之間的距離測定及其對說話者識別的應(yīng)用(ICASSP98論文集,Seattle,WA,1998)中建議的距離測量來比較這樣兩個模型的,建立一個分層結(jié)構(gòu),以設(shè)計出具有多種不同能力的說話者辨識系統(tǒng),這些能力包括說話者辯識(發(fā)表一聲明)、說話者分類(賦予一說話者)、說話者確認(通過把標簽與其特征和加標簽說話者的特征相匹配的“一群”說話者加以比較,以第二輪確認其分類)、以及說話者集群。
為說話者辯識設(shè)計的距離測定允許計算具有不同分布數(shù)ni的兩個模型之問的可接受距離。只根據(jù)其模型的參數(shù)表示來比較兩個說話者免去了把那些特征帶來帶來的需要,使比較兩說話者的任務(wù)的計算量大大減少。然而,辯識階段的這一距離測定的短處在于得要使用整個語音段去構(gòu)建測試個體(申請者)模型,然后才能開始比較計算。逐幀途徑緩解了這一問題。
說話者辯識-逐幀途徑設(shè)Mi為對應(yīng)于第i個登錄的說話者的模型。Mi完全由參數(shù)集{U→i,j,Σi,j,p→i,j}j=1···ni]]>定義,其中包括均值失量、協(xié)方差矩陣、以及說話者的高斯混合模型(GMM)的ni個分量每一個的混合權(quán)重。這些模型是使用包含M幀語音序列的訓(xùn)練數(shù)據(jù)創(chuàng)建的,如前一段所述,它具有d維特征矢量{f→m}m=1,...,M]]>。如果說話者群體的大小為Np,那么模型總體集合是{Mi}i=1,…,Np?;灸繕耸钦页鰅,使Mi最好地解釋測試,表示為N幀序色{f→n}]]>n=1,…,N的測試數(shù)據(jù),或作出這些模型中沒有一個能適當?shù)孛枋鰯?shù)據(jù)的決定。下述基于幀的加權(quán)似然距離測量值di,n用于作出這一決定。di,n=-log[Σj=1nipi,jp(fn|jthcomponentof→Mi)]]]>這里使用正態(tài)分布表達式p(f→n|•)=1(2π)d/2|Σi,j|1/2e12(f→n-μ→i,j)1Σi,j-1(f→n-μ→i,j)]]>然后,模型Mi距測試數(shù)據(jù)的總距離Di取為對測試幀總數(shù)的所有距離之和。
為了分類,選取與該語音段距離最小的模型。通過把最小距離與一背景模型的距離進行比較,能提供一種方法指出原始模型中沒有一個能很好地匹配。另一種作法是可以使用投票技術(shù)來計算總距離。
為了確認,將構(gòu)成被標簽說話者“同伙”的預(yù)先確定的一組成員用各種背景模型增強。使用這一組作為模型整體,通過測試是否申請者模型有最小距離來確認測試數(shù)據(jù);否則它被拒絕。
這一距離測定不用于訓(xùn)練之中,因為各語音幀得保留用于計算各說話者之間的距離。所以,使用前述基于模型的技術(shù)進行訓(xùn)練。
在步驟720中產(chǎn)生的被賦的說話者標簽?zāi)芸蛇x地臨時提供給塊550(圖5)供輸出給使用者,其提供方式如下述。在步驟730通過對說話者分類結(jié)果進行第二輪檢驗來確認所賦予的說話者標簽。如果在步驟730中確認了說話者辯識結(jié)果,則把說話者標簽提供給塊550(圖5)供輸出給使用者。再有,在步驟740中能可選地在說話者轉(zhuǎn)折點數(shù)據(jù)庫300中建立一個條目,指出其最佳選擇,以及所賦予的指出從原始登錄的說話者模型到聲音測試段的距離的評分,如果希望的話還加上其他選擇。
應(yīng)該理解,這里所顯示和描述的實施例和變體只用于說明本發(fā)明的原理,本領(lǐng)域技術(shù)人員可實現(xiàn)各種修改而不離開本發(fā)明的范圍和實質(zhì)。
權(quán)利要求
1.從一個或多個聲音源轉(zhuǎn)換聲音信息的方法,所述方法包含以下步驟轉(zhuǎn)換所述聲音源以建立該聲音源的文本版本;與所述轉(zhuǎn)換步驟基本上并發(fā)地在所述聲音源中辯識可能的段邊界;以及對每個識別出的段賦予一個說話者標簽。
2.權(quán)利要求1的方法,這里所述轉(zhuǎn)換步驟產(chǎn)生所述聲音源中每個詞的有時間對位的轉(zhuǎn)換副本。
3.權(quán)利要求1的方法,這里所述辯識步驟辯識存在非同一語音部分之間的段邊界的所有可能幀。
4.權(quán)利要求1的方法,這里所述賦予步驟利用登錄的說話者數(shù)據(jù)庫將說話者標簽賦予每個識別出的段。
5.權(quán)利要求1的方法,這里所述賦予步驟還包含賦予一評分的步驟,所述評分指出對所述賦予的說話者標簽的置信度。
6.權(quán)利要求1的方法,這里所述賦予步驟還包含對所述賦予的說話者標簽再賦予至少一個另一種選擇的步驟。
7.權(quán)利要求1的方法,這里所述轉(zhuǎn)換、辯識和賦予步驟在一個多線程環(huán)境中的平行處理分支上進行。
8.權(quán)利要求1的方法,這里所述辯識步驟使用BIC模型選擇判據(jù)以辯識段邊界。
9.從一個或多個聲音源轉(zhuǎn)換聲音信息的方法,所述方法包含以下步驟由所述聲音信息計算特征矢量;以及把所述特征矢量應(yīng)用于三個平行處理分支,以轉(zhuǎn)換所述聲音源以建立該聲音源的文本版本;在所述聲音源中辯識可能的段邊界;以及對每個識別出的段賦予一個說話者標簽。
10.權(quán)利要求9的方法,這里將所述特征矢量應(yīng)用于使用共享存儲器結(jié)構(gòu)的所述平行分支。
11.權(quán)利要求10的方法,這里所述共享存儲器結(jié)構(gòu)把計算出的特征矢量分配給與所述平行處理分支中每一個相對應(yīng)的一個通道。
12.權(quán)利要求9的方法,這里所述轉(zhuǎn)換步驟產(chǎn)生所述聲音源中每個詞的有時間對位的轉(zhuǎn)換付本。
13.權(quán)利要求9的方法,這里所述辯識步驟辯識存在非同一語音部分之間的段邊界的所有可能幀。
14.權(quán)利要求9的方法,這里所述賦予步驟利用登錄的說話者數(shù)據(jù)庫將說話者標簽賦予每個識別出的段。
15.權(quán)利要求9的方法,這里所述賦予步驟還包含賦予一評分的步驟,該評分指出對所述賦予的說話者標簽的置信度。
16.權(quán)利要求9的方法,這里所述賦予步驟還包含對所述賦予的說話者標簽再賦予至少一個另一種選擇的步驟。
17.權(quán)利要求9的方法,這里所述辯識步驟使用BIC模型選擇判據(jù)以辯識段邊界。
18.從一個或多個聲音源轉(zhuǎn)換聲音信息的系統(tǒng),包含存儲計算機可讀代碼的存儲器;以及在操作上與所述存儲器相連的處理器,所述處理器配置成實現(xiàn)所述計算機可讀代碼,所述計算機可讀代碼配置成以轉(zhuǎn)換所述聲音源以建立該聲音源的文本版本;與所述轉(zhuǎn)換步驟基本上并發(fā)地在所述聲音源中辯識可能的段邊界;以及對每個識別出的段賦予一個說話者的標簽。
19.一種制造產(chǎn)品,包含一種計算機可讀介質(zhì),在其上實現(xiàn)計算機可讀代碼裝置,所述計算機可讀程序代碼裝置包含轉(zhuǎn)換所述聲音源以建立該聲音源的文本版本的步驟,與所述轉(zhuǎn)換步驟基本上并發(fā)地在所述聲音源中辯識可能的段邊界的步驟;以及對每個識別出的段賦予一個說話者標簽的步驟。
20.從一個或多個聲音源轉(zhuǎn)換聲音信息的系統(tǒng),包含存儲計算機可讀代碼的存儲器;以及在操作上與所述存儲器相連的處理器,所述處理器配置成實現(xiàn)所述計算機可讀代碼,所述計算機可讀代碼配置成由所述聲音信息計算特征矢量;以及把所述特征矢量應(yīng)用于三個平行處理分支,以(ⅰ)轉(zhuǎn)換所述聲音源以建立該聲音源的文本版本;(ⅱ)在所述聲音源中辯識可能的段邊界;以及(ⅲ)對每個識別出的段賦予一個說話者標簽。
21.一種制造產(chǎn)品,包含一種計算機可讀介質(zhì),在其上實現(xiàn)計算機可讀代碼裝置,所述計算機可讀程序代碼裝置包含由所述聲音信息計算特征矢量的步驟;以及把所述特征矢量應(yīng)用于三個平行處理分支的步驟,以(ⅰ)轉(zhuǎn)換所述聲音源以建立該聲音源的文本副本;(ⅱ)在所述聲音源中辯識可能的段邊界;以及(ⅲ)對每個識別出的段賦予一個說話者標簽。
22.從一個或多個聲音源轉(zhuǎn)換聲音信息的方法,所述方法包含以下步驟轉(zhuǎn)換所述聲音源以建立該聲音源的文本版本;在所述聲音源中辯識出可能的段邊界;對每個識別出的段賦予一個說話者標簽;以及基本上與所述轉(zhuǎn)換、賦予和賦予步驟同時地提交所述文本版本和所述賦予的說話者標簽。
23.從一個或多個聲音源轉(zhuǎn)換聲音信息的方法,所述方法包含以下步驟由所述聲音信息計算特征矢量;把所述特征矢量應(yīng)用于三個平行處理分支,以(ⅰ)轉(zhuǎn)換所述聲音源以建立該聲音源的文本付本;(ⅱ)在所述聲音源中辯識可能的段邊界;以及(ⅲ)對每個識別出的段賦予一個說話者標簽;以及基本上與所述轉(zhuǎn)換、賦予和賦予步驟同時地提交所述文本版本和所述賦予的說話者標簽。
全文摘要
說明了一種方法和裝置,用于從音頻-視頻源自動轉(zhuǎn)換聲音信息及并發(fā)地辨識說話者。所說明的聲音轉(zhuǎn)換和說話者分類系統(tǒng)包括一個語音識別系統(tǒng)、一個說話者分段系統(tǒng)和一個說話者辨識系統(tǒng)。一個公共前端處理器計算特征矢量,這些特征矢量由語音識別系統(tǒng)、說話者分段系統(tǒng)和說話者分類系統(tǒng)在一個多線程環(huán)境中沿平行分支進行處理,例如使用一個共享存儲器結(jié)構(gòu),它以類似于服務(wù)器的方式工作,把計算出的特征矢量分配給與每個平行分支對應(yīng)的通道。
文檔編號G10L15/22GK1279462SQ00118388
公開日2001年1月10日 申請日期2000年6月14日 優(yōu)先權(quán)日1999年6月30日
發(fā)明者赫馬永·薩德·莫哈馬德·貝吉, 阿蘭·查爾斯·露易斯·特里西勒, 馬赫西·維斯瓦納山 申請人:國際商業(yè)機器公司