一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法

文檔序號：9867706閱讀：738來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音信號處理及模式識別領(lǐng)域，尤其涉及一種基于語言識別系統(tǒng)的語言距離關(guān)系的獲取方法。
【背景技術(shù)】
[0002] 有關(guān)語種識別的研究始于20世紀(jì)70年代，它是一個機(jī)器根據(jù)未知說話人所講的一段語音的聲波信號來辨認(rèn)所講語音的語言種類的過程。隨著當(dāng)前全球各國交流增多，各種語言之間的通信需求增加，這就對語種識別提出了新的挑戰(zhàn)，在機(jī)器能夠懂得語音含義之前，必須識別出使用了哪種語言。與語音識別和說話人識別不同的是，語種識別利用的是語音信號中的語言學(xué)信息，而不考慮語音中的字詞意思，不考慮說話人的個性。語種識別在信息檢索和機(jī)器翻譯領(lǐng)域都有著很重要的應(yīng)用，包括自動轉(zhuǎn)換服務(wù)、多語種信息檢索等。隨著信息時代的到來以及互聯(lián)網(wǎng)的發(fā)展，語種識別越來越顯現(xiàn)出其應(yīng)用價值，國際上也一直進(jìn) 行著卓有成效的研究和系統(tǒng)開發(fā)。
[0003] 語種識別主要有兩種方法，第一種是音位結(jié)構(gòu)學(xué)方法，第二種是聲學(xué)方法。自1996 年NIST組織語種識別系統(tǒng)評測開始，MIT林肯實驗室提交的基于音素識別和語言語言模型的系統(tǒng)：PRLM(Phone Recognition and Language Modeling)、PPRLM(Parallel PRLM)和 PPR(Parallel Phone Recognition)均取得了突出的識別性能。音位結(jié)構(gòu)學(xué)方法對信道和噪聲的魯棒性好，但是存在著較為明顯的缺陷：需要專業(yè)的語言學(xué)知識以建立合適的各種語種特點的音素集合；需要有大量人工標(biāo)記的語料來訓(xùn)練音素識別器;龐大的運算量不適合實時系統(tǒng)的開發(fā);系統(tǒng)擴(kuò)展性差。聲學(xué)方法由于其簡單、易于實現(xiàn)得到了廣泛的應(yīng)用。在聲學(xué)方法中，輸入的語言特征直接采用高斯混合模型(GMM)、支持向量機(jī)(SVM)等建模。GMM 是一個生成模型，比較依賴于對數(shù)據(jù)的分布假設(shè)，魯棒性較差;而針對大規(guī)模樣本，SVM的運算復(fù)雜度很高。
[0004] 語言距離關(guān)系的研究是語言學(xué)的范疇，世界語系的劃分基本上是根據(jù)語言的某些語音、詞匯、語法規(guī)則之間的對應(yīng)關(guān)系，而關(guān)于語言距離的衡量標(biāo)準(zhǔn)，有很多不同的方法。美國語言學(xué)家Swadesh提出了語言年代學(xué)(glottochronology)，將兩種語言所共有的具有共同歷史淵源的詞匯的百分比作為語言之間的距離度量，Ben Hamed等人通過兩種語言之間的元音系統(tǒng)的對應(yīng)關(guān)系來衡量兩種語言的距離。而這些方法均需要較多語言學(xué)知識的支撐，實現(xiàn)起來復(fù)雜度很高。

【發(fā)明內(nèi)容】

[0005] 針對目前語言距離關(guān)系研究領(lǐng)域內(nèi)現(xiàn)有技術(shù)的不足，提出了一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法，該方法簡單以實現(xiàn)，并且具有很好的魯棒性，最終生成的語目關(guān)系圖基本與實際一致。
[0006] 為實現(xiàn)上述技術(shù)目的，本發(fā)明采用的技術(shù)方案如下：一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法，包含語種識別過程和語言關(guān)系圖生成過程；
[0007] 所述語種識別過程包括以下步驟：
[0008] (1)訓(xùn)練過程，該步驟包括以下子步驟：
[0009] (1.1)獲取語音樣本特征:通過OpenEar工具箱里的底層特征提取模塊(Low Level Descriptors)提取訓(xùn)練集語音信號的基本聲學(xué)特征，然后對這些基本聲學(xué)特征進(jìn)行統(tǒng)計分析，將得到的統(tǒng)計值以及統(tǒng)計值的一階和二階差分值構(gòu)成一個維數(shù)是6552維的特征向量，并將該特征向量歸一化到[0，1 ]區(qū)間；
[0010] (1 · 2)初始化訓(xùn)練集的權(quán)值分布Dt( i) = 1/m，其中，t是迭代次數(shù)，Dt是第t次迭代過程中訓(xùn)練集的權(quán)值分布，i = l，2,. . .，m，m是訓(xùn)練集的樣本個數(shù)；
[0011] (1.3)訓(xùn)練弱分類器ht，包括以下子步驟：
[0012] (1.3.1)使用權(quán)值分布Dt(i)訓(xùn)練弱分類器集h:X-{-l，l}，其中，h是弱分類器集， X是訓(xùn)練樣本的特征向量集，-1和1表示樣本標(biāo)簽；
[0013] (1.3.2)根據(jù)步驟(1.3.1)得到的弱分類器集h，將弱分類器h代入式（1)中，其中， hjeh，j = l，2,. . .，n，n是弱分類器集h中弱分類器的個數(shù)，計算得到h在訓(xùn)練數(shù)據(jù)集上的分類誤差根據(jù)式(2)得到ht，其中h t是分類誤差最小時對應(yīng)的弱分類器；
[0016] 其中X1EX是第i個訓(xùn)練樣本的特征向量，yi是第i個訓(xùn)練樣本的標(biāo)簽，且
[0017] γ?^{-1,1}；
[0018] (1.3.3)根據(jù)步驟(1.3.2)得到的ht，由式(3)更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布，
[0020]其中，Dt+1是第t+Ι次迭代過程中訓(xùn)練集的權(quán)值分布，Zt是規(guī)范化因子，規(guī)范化因子 Zt由式(4)得到：
[0022] (1.3.4)重復(fù)步驟(1.3.1)_步驟(1.3.3)，直到迭代次數(shù)t達(dá)到最大迭代次數(shù)T，T為大于等于100的正整數(shù)；
[0023] (1.4)根據(jù)步驟(1.3)得到的弱分類器ht，由式(5)得到最終的強分類器H，
[0025] (2)識別過程，該步驟包括以下子步驟：
[0026] (2.1)根據(jù)步驟（1.1)得到的歸一化到[0，1]區(qū)間的特征向量，將該特征向量作為待測語音樣本的特征向量XteSt ;
[0027] (2.2)根據(jù)式(5)計算強分類器H(X)對待測語音樣本的特征向量Xtest的輸出，若輸出為正值，則該測試樣本屬于標(biāo)簽為1的類;若輸出為負(fù)值，則該測試樣本屬于標(biāo)簽為-1的類；
[0028] 語言關(guān)系圖生成過程包括以下步驟：
[0029] (1)根據(jù)語種識別過程中的步驟（1)得到多類語言中兩兩語言的強分類器，根據(jù)多類語言中兩兩語言的強分類器計算兩兩語言的識別率，將兩兩語言的識別率作為兩兩語言之間的初始化距離，從而得到多類語言的初始化距離矩陣；
[0030] (2)根據(jù)多類語言的初始化距離矩陣，計算各種語言的坐標(biāo)，該步驟包括以下子步驟：
[0031] (2.1)初始化兩個集合SjPS2,其中，S1中的元素是語言關(guān)系圖上坐標(biāo)未定的語言編號，S 2中的元素是坐標(biāo)已定的語言編號，取S1=U, 2，. ..，m}，其中m為語言類別數(shù)， S2 = {0\ ；
[0032] (2.2)選擇初始化距離矩陣中距離值最小的兩種語言，定義其中一種語言的坐標(biāo) 為(〇,〇)，另一種語言的X坐標(biāo)是這兩種語言之間的距離，y坐標(biāo)為〇;假設(shè)選定的兩種語言編號為1 和2,則S1=Bj,. · ·，m}，S2={l，2};
[0033] (2.3)根據(jù)初始化距離矩陣中兩兩語言的距離值，在S1*選擇出能夠與S 2中兩個點構(gòu)成三角形并且三邊之和最小的語言，并計算出該語言的坐標(biāo)，同時更新集合S1, S2;
[0034] (2.4)在5!中選擇能與S2中所有點構(gòu)成三角形個數(shù)最多的語言，如果三角形個數(shù)的最大值存在多種語言，那么選擇第一種，并根據(jù)該語言與S2中的點所構(gòu)成的三角形，計算出該語言所有可能的坐標(biāo)，選擇使得總距離誤差最小的坐標(biāo)作為該語言最終的坐標(biāo);總距離誤差E error 的定義如下：
[0036]其中，Cc(i)表示用語言的坐標(biāo)計算的第i個三角形的周長，C(i)表示用距離矩陣中的距離作為第i個三角形的邊長計算出的周長，η表示三角形的個數(shù);更新集合S1, S2;
[0037] (2.5)重復(fù)步驟(2. 4)，直到岑={0};
[0038] (2.6)依次更新S2中每個點的坐標(biāo);在更新一個點時，固定其余各點的坐標(biāo);通過要更新的點與其余各點構(gòu)成的三角形，計算出該點所有可能的坐標(biāo)，并將總距離誤差最小的坐標(biāo)作為該點的新坐標(biāo)；
[0039] (2.7)重復(fù)步驟(2.6)，直到達(dá)到最大迭代次數(shù)或者總的距離誤差收斂；
[0040] (3)根據(jù)步驟(2)中得到的各語言的坐標(biāo)繪制語言關(guān)系圖，從而獲得語言之間的距離關(guān)系。
[0041] 本發(fā)明的有益效果是：
[0042] 1、將語音信號的多種聲學(xué)特征融合在一起，并且加入了更多時序信息以及時域頻域的統(tǒng)計量，有效增強了特征的有效性和魯棒性。
[0043] 2、在訓(xùn)練語種識別系統(tǒng)的分類器時，采用Gentle AdaBoost算法，有效避免了過擬合，并且提高了語種識別率。
[0044] 3、首次提出基于語種識別系統(tǒng)的語言距離獲取方法，并且取得了和實際基本一致的結(jié)果，為語言距離關(guān)系的研究提供了一種新的思路。
【附圖說明】
[0045] 圖1為本發(fā)明方法中多語種識別系統(tǒng)框架圖；
[0046] 圖2為本發(fā)明方法在OGI-TS數(shù)據(jù)庫用十種語言生成的語言關(guān)系圖。
【具體實施方式】
[0047]下面結(jié)合實施例和說明書附圖對本發(fā)明作進(jìn)一步地說明。
[0048]本發(fā)明提供了一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法，包括語種識別過程和語言關(guān)系圖生成過程。
[0049] 語言識別過程包括以下步驟：
[0050] 1.將OGI-TS數(shù)據(jù)庫中的十種語言（英語、德語、日語、韓語、漢語、波斯語、北印度語、西班牙語、泰米爾語和越南語）的語音樣本根據(jù)不同的說話人，分為訓(xùn)練集和測試集兩部分；由于每種語言均包含100個不同的說話人，隨機(jī)選取其中70個說話人的語音樣本作為訓(xùn)練集，其余30個說話人的語音樣本作為測試集；
[0051] 2.采用Gentle AdaBoost算法訓(xùn)練語種識別分類器，由于該算法主要針對二分類問題，在多類語言分類問題中，采用一對一的策略，即訓(xùn)練十種語言的兩兩分類器，該步驟包括以下子步驟：
[0052] 2.1根據(jù)步驟1中的方法獲取兩兩語言的訓(xùn)練集和測試集，以下如無特殊說明，所有的訓(xùn)練集和測試集都表示兩兩語言的訓(xùn)練集和測試集；
[0053] 2.2獲取語音樣本特征：通過OpenEar工具箱里的56個底層特征提取模塊（Low Level Descriptors)提取訓(xùn)練集語音信號的基本聲學(xué)特征，然后將這些特征通過39種統(tǒng)計函數(shù)進(jìn)行統(tǒng)計分析，將得到的統(tǒng)計值以及統(tǒng)計值的一階和二階差分值構(gòu)成一個維數(shù)是6552 維的特征向量，并將該特征向量歸一化到[0，1]區(qū)間；表1中給出了 56個底層特征提取模塊的詳細(xì)信息，表2中羅列了 39種統(tǒng)計函數(shù)的詳細(xì)信息；

[0057] 表 2
[0058] 2.3初始化訓(xùn)練集的權(quán)值分布Dt( i) = 1/m，其中，t是迭代次數(shù)，Dt是第t次迭代過程中訓(xùn)練集的權(quán)值分布，i = l，2,. . .，m，m是訓(xùn)練集的樣本個數(shù)；
[0059] 2.4訓(xùn)練弱分類器ht包括以下子步驟：
[0060] 2.4.1使用權(quán)值分布Dt(i)訓(xùn)練弱分類器集h:X-{-

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡浩基;孫樂;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

遠(yuǎn)距離身份識別系統(tǒng)相關(guān)技術(shù)

語種識別相關(guān)技術(shù)

語種識別接口相關(guān)技術(shù)

文本語種識別相關(guān)技術(shù)

語種識別工具相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于語種識別系統(tǒng)的語言距離關(guān)系的獲取方法