一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音信號處理及模式識別領(lǐng)域,尤其涉及一種基于語言識別系統(tǒng)的語 言距離關(guān)系的獲取方法。
【背景技術(shù)】
[0002] 有關(guān)語種識別的研究始于20世紀(jì)70年代,它是一個機(jī)器根據(jù)未知說話人所講的一 段語音的聲波信號來辨認(rèn)所講語音的語言種類的過程。隨著當(dāng)前全球各國交流增多,各種 語言之間的通信需求增加,這就對語種識別提出了新的挑戰(zhàn),在機(jī)器能夠懂得語音含義之 前,必須識別出使用了哪種語言。與語音識別和說話人識別不同的是,語種識別利用的是語 音信號中的語言學(xué)信息,而不考慮語音中的字詞意思,不考慮說話人的個性。語種識別在信 息檢索和機(jī)器翻譯領(lǐng)域都有著很重要的應(yīng)用,包括自動轉(zhuǎn)換服務(wù)、多語種信息檢索等。隨著 信息時代的到來以及互聯(lián)網(wǎng)的發(fā)展,語種識別越來越顯現(xiàn)出其應(yīng)用價值,國際上也一直進(jìn) 行著卓有成效的研究和系統(tǒng)開發(fā)。
[0003] 語種識別主要有兩種方法,第一種是音位結(jié)構(gòu)學(xué)方法,第二種是聲學(xué)方法。自1996 年NIST組織語種識別系統(tǒng)評測開始,MIT林肯實驗室提交的基于音素識別和語言語言模型 的系統(tǒng):PRLM(Phone Recognition and Language Modeling)、PPRLM(Parallel PRLM)和 PPR(Parallel Phone Recognition)均取得了突出的識別性能。音位結(jié)構(gòu)學(xué)方法對信道和 噪聲的魯棒性好,但是存在著較為明顯的缺陷:需要專業(yè)的語言學(xué)知識以建立合適的各種 語種特點的音素集合;需要有大量人工標(biāo)記的語料來訓(xùn)練音素識別器;龐大的運算量不適 合實時系統(tǒng)的開發(fā);系統(tǒng)擴(kuò)展性差。聲學(xué)方法由于其簡單、易于實現(xiàn)得到了廣泛的應(yīng)用。在 聲學(xué)方法中,輸入的語言特征直接采用高斯混合模型(GMM)、支持向量機(jī)(SVM)等建模。GMM 是一個生成模型,比較依賴于對數(shù)據(jù)的分布假設(shè),魯棒性較差;而針對大規(guī)模樣本,SVM的運 算復(fù)雜度很高。
[0004] 語言距離關(guān)系的研究是語言學(xué)的范疇,世界語系的劃分基本上是根據(jù)語言的某些 語音、詞匯、語法規(guī)則之間的對應(yīng)關(guān)系,而關(guān)于語言距離的衡量標(biāo)準(zhǔn),有很多不同的方法。美 國語言學(xué)家Swadesh提出了語言年代學(xué)(glottochronology),將兩種語言所共有的具有共 同歷史淵源的詞匯的百分比作為語言之間的距離度量,Ben Hamed等人通過兩種語言之間 的元音系統(tǒng)的對應(yīng)關(guān)系來衡量兩種語言的距離。而這些方法均需要較多語言學(xué)知識的支 撐,實現(xiàn)起來復(fù)雜度很高。
【發(fā)明內(nèi)容】
[0005] 針對目前語言距離關(guān)系研究領(lǐng)域內(nèi)現(xiàn)有技術(shù)的不足,提出了一種基于語種識別系 統(tǒng)的語言距離關(guān)系的獲取方法,該方法簡單以實現(xiàn),并且具有很好的魯棒性,最終生成的語 目關(guān)系圖基本與實際一致。
[0006] 為實現(xiàn)上述技術(shù)目的,本發(fā)明采用的技術(shù)方案如下:一種基于語種識別系統(tǒng)的語 言距離關(guān)系的獲取方法,包含語種識別過程和語言關(guān)系圖生成過程;
[0007] 所述語種識別過程包括以下步驟:
[0008] (1)訓(xùn)練過程,該步驟包括以下子步驟:
[0009] (1.1)獲取語音樣本特征:通過OpenEar工具箱里的底層特征提取模塊(Low Level Descriptors)提取訓(xùn)練集語音信號的基本聲學(xué)特征,然后對這些基本聲學(xué)特征進(jìn)行統(tǒng)計分 析,將得到的統(tǒng)計值以及統(tǒng)計值的一階和二階差分值構(gòu)成一個維數(shù)是6552維的特征向量, 并將該特征向量歸一化到[0,1 ]區(qū)間;
[0010] (1 · 2)初始化訓(xùn)練集的權(quán)值分布Dt( i) = 1/m,其中,t是迭代次數(shù),Dt是第t次迭代過 程中訓(xùn)練集的權(quán)值分布,i = l,2,. . .,m,m是訓(xùn)練集的樣本個數(shù);
[0011] (1.3)訓(xùn)練弱分類器ht,包括以下子步驟:
[0012] (1.3.1)使用權(quán)值分布Dt(i)訓(xùn)練弱分類器集h:X-{-l,l},其中,h是弱分類器集, X是訓(xùn)練樣本的特征向量集,-1和1表示樣本標(biāo)簽;
[0013] (1.3.2)根據(jù)步驟(1.3.1)得到的弱分類器集h,將弱分類器h代入式(1)中,其中, hjeh,j = l,2,. . .,n,n是弱分類器集h中弱分類器的個數(shù),計算得到h在訓(xùn)練數(shù)據(jù)集上的分 類誤差根據(jù)式(2)得到ht,其中h t是分類誤差最小時對應(yīng)的弱分類器;
[0016] 其中X1EX是第i個訓(xùn)練樣本的特征向量,yi是第i個訓(xùn)練樣本的標(biāo)簽,且
[0017] γ?^{-1,1};
[0018] (1.3.3)根據(jù)步驟(1.3.2)得到的ht,由式(3)更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布,
[0020]其中,Dt+1是第t+Ι次迭代過程中訓(xùn)練集的權(quán)值分布,Zt是規(guī)范化因子,規(guī)范化因子 Zt由式(4)得到:
[0022] (1.3.4)重復(fù)步驟(1.3.1)_步驟(1.3.3),直到迭代次數(shù)t達(dá)到最大迭代次數(shù)T,T為 大于等于100的正整數(shù);
[0023] (1.4)根據(jù)步驟(1.3)得到的弱分類器ht,由式(5)得到最終的強分類器H,
[0025] (2)識別過程,該步驟包括以下子步驟:
[0026] (2.1)根據(jù)步驟(1.1)得到的歸一化到[0,1]區(qū)間的特征向量,將該特征向量作為 待測語音樣本的特征向量XteSt ;
[0027] (2.2)根據(jù)式(5)計算強分類器H(X)對待測語音樣本的特征向量Xtest的輸出,若輸 出為正值,則該測試樣本屬于標(biāo)簽為1的類;若輸出為負(fù)值,則該測試樣本屬于標(biāo)簽為-1的 類;
[0028] 語言關(guān)系圖生成過程包括以下步驟:
[0029] (1)根據(jù)語種識別過程中的步驟(1)得到多類語言中兩兩語言的強分類器,根據(jù)多 類語言中兩兩語言的強分類器計算兩兩語言的識別率,將兩兩語言的識別率作為兩兩語言 之間的初始化距離,從而得到多類語言的初始化距離矩陣;
[0030] (2)根據(jù)多類語言的初始化距離矩陣,計算各種語言的坐標(biāo),該步驟包括以下子步 驟:
[0031] (2.1)初始化兩個集合SjPS2,其中,S1中的元素是語言關(guān)系圖上坐標(biāo)未定的語言 編號,S 2中的元素是坐標(biāo)已定的語言編號,取S1=U, 2,. ..,m},其中m為語言類別數(shù), S2 = {0\ ;
[0032] (2.2)選擇初始化距離矩陣中距離值最小的兩種語言,定義其中一種語言的坐標(biāo) 為(〇,〇),另一種語言的X坐標(biāo)是這兩種語言之間的距離,y坐標(biāo)為〇;假設(shè)選定的兩種語言編 號為1 和2,則S1=Bj,. · ·,m},S2={l,2};
[0033] (2.3)根據(jù)初始化距離矩陣中兩兩語言的距離值,在S1*選擇出能夠與S 2中兩個點 構(gòu)成三角形并且三邊之和最小的語言,并計算出該語言的坐標(biāo),同時更新集合S1, S2;
[0034] (2.4)在5!中選擇能與S2中所有點構(gòu)成三角形個數(shù)最多的語言,如果三角形個數(shù)的 最大值存在多種語言,那么選擇第一種,并根據(jù)該語言與S2中的點所構(gòu)成的三角形,計算出 該語言所有可能的坐標(biāo),選擇使得總距離誤差最小的坐標(biāo)作為該語言最終的坐標(biāo);總距離 誤差E error 的定義如下:
[0036]其中,Cc(i)表示用語言的坐標(biāo)計算的第i個三角形的周長,C(i)表示用距離矩陣 中的距離作為第i個三角形的邊長計算出的周長,η表示三角形的個數(shù);更新集合S1, S2;
[0037] (2.5)重復(fù)步驟(2. 4),直到岑={0};
[0038] (2.6)依次更新S2中每個點的坐標(biāo);在更新一個點時,固定其余各點的坐標(biāo);通過 要更新的點與其余各點構(gòu)成的三角形,計算出該點所有可能的坐標(biāo),并將總距離誤差最小 的坐標(biāo)作為該點的新坐標(biāo);
[0039] (2.7)重復(fù)步驟(2.6),直到達(dá)到最大迭代次數(shù)或者總的距離誤差收斂;
[0040] (3)根據(jù)步驟(2)中得到的各語言的坐標(biāo)繪制語言關(guān)系圖,從而獲得語言之間的距 離關(guān)系。
[0041] 本發(fā)明的有益效果是:
[0042] 1、將語音信號的多種聲學(xué)特征融合在一起,并且加入了更多時序信息以及時域頻 域的統(tǒng)計量,有效增強了特征的有效性和魯棒性。
[0043] 2、在訓(xùn)練語種識別系統(tǒng)的分類器時,采用Gentle AdaBoost算法,有效避免了過擬 合,并且提高了語種識別率。
[0044] 3、首次提出基于語種識別系統(tǒng)的語言距離獲取方法,并且取得了和實際基本一致 的結(jié)果,為語言距離關(guān)系的研究提供了一種新的思路。
【附圖說明】
[0045] 圖1為本發(fā)明方法中多語種識別系統(tǒng)框架圖;
[0046] 圖2為本發(fā)明方法在OGI-TS數(shù)據(jù)庫用十種語言生成的語言關(guān)系圖。
【具體實施方式】
[0047]下面結(jié)合實施例和說明書附圖對本發(fā)明作進(jìn)一步地說明。
[0048]本發(fā)明提供了一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法,包括語種識別 過程和語言關(guān)系圖生成過程。
[0049] 語言識別過程包括以下步驟:
[0050] 1.將OGI-TS數(shù)據(jù)庫中的十種語言(英語、德語、日語、韓語、漢語、波斯語、北印度 語、西班牙語、泰米爾語和越南語)的語音樣本根據(jù)不同的說話人,分為訓(xùn)練集和測試集兩 部分;由于每種語言均包含100個不同的說話人,隨機(jī)選取其中70個說話人的語音樣本作為 訓(xùn)練集,其余30個說話人的語音樣本作為測試集;
[0051] 2.采用Gentle AdaBoost算法訓(xùn)練語種識別分類器,由于該算法主要針對二分類 問題,在多類語言分類問題中,采用一對一的策略,即訓(xùn)練十種語言的兩兩分類器,該步驟 包括以下子步驟:
[0052] 2.1根據(jù)步驟1中的方法獲取兩兩語言的訓(xùn)練集和測試集,以下如無特殊說明,所 有的訓(xùn)練集和測試集都表示兩兩語言的訓(xùn)練集和測試集;
[0053] 2.2獲取語音樣本特征:通過OpenEar工具箱里的56個底層特征提取模塊(Low Level Descriptors)提取訓(xùn)練集語音信號的基本聲學(xué)特征,然后將這些特征通過39種統(tǒng)計 函數(shù)進(jìn)行統(tǒng)計分析,將得到的統(tǒng)計值以及統(tǒng)計值的一階和二階差分值構(gòu)成一個維數(shù)是6552 維的特征向量,并將該特征向量歸一化到[0,1]區(qū)間;表1中給出了 56個底層特征提取模塊 的詳細(xì)信息,表2中羅列了 39種統(tǒng)計函數(shù)的詳細(xì)信息;
[0057] 表 2
[0058] 2.3初始化訓(xùn)練集的權(quán)值分布Dt( i) = 1/m,其中,t是迭代次數(shù),Dt是第t次迭代過程 中訓(xùn)練集的權(quán)值分布,i = l,2,. . .,m,m是訓(xùn)練集的樣本個數(shù);
[0059] 2.4訓(xùn)練弱分類器ht包括以下子步驟:
[0060] 2.4.1使用權(quán)值分布Dt(i)訓(xùn)練弱分類器集h:X-{-