語句出現(xiàn)量較少,對于中文詞的矢量生成多有干擾。另外,需要統(tǒng)計分詞后的訓練文 本詞頻數(shù),該信息將用于詞矢量分類后的篩選。
[0043] 2、獲取詞矢量:詞矢量從圖2所示的C矩陣獲得,公式(1)所示為C的矩陣表示, η表示η元模型,m表示最終的詞矢量的維度,矩陣中的每一列即為每個詞的詞矢量。η和 m取值越大,模型會相對更精確,但由于參數(shù)增多,訓練時間也會增加。在實際使用中,我們 使用的詞典大小為48K個詞,選用參數(shù)為η = 5, m = 200。
[0045] 3、詞矢量分類:分類采用算法復雜度低的K均值法,矢量間的相似程度用余弦相 似度來統(tǒng)計。分類后得到粗糙的詞類,還需進一步篩選。篩選分為一下幾步完成:a.對人工 標注的詞生成列表,不含有列表中的詞的詞類直接刪去,減少后續(xù)工作的計算量。b.為保證 矢量可信度,刪去訓練不充分的詞。在處理訓練文本時,已獲得詞頻信息,對于詞頻過低的 詞從類中刪去。c.刪去詞類中的單字詞,因為單字本身詞義較復雜,不適合用于擴展,只有 兩字及以上的詞詞義才較明確。d.在保證可信度的同時還需要保證相似度,在每一類中,計 算人工標注詞與其它詞的余弦相似度,小于一定閾值則說明該詞與人工標注詞不夠相似, 需要刪去。閾值可根據(jù)實際情況在0到1中選擇,閾值越大,則保留下來的同類詞越少。由 于要進行下一步篩選,我們實驗中選取閾值接近〇 (對應夾角度數(shù)為90° ),相當于只濾除 一些有反向相似趨勢的詞。e.經(jīng)過以上四步,剩余詞類中詞的總和已大幅度減少。再對剩 余詞標注詞性,詞性標注可利用開源工具獲得,大量詞有多種詞性,所有詞性均保留。將人 工標注詞詞性與同類中其它詞比較,沒有相同詞性的詞刪除。經(jīng)過以上五步篩選,完成了分 類的過程。
[0046] 4、擴展人工標注:經(jīng)過第三步后,將詞典分為了若干詞類,每一類中的詞,可認為 詞義、詞性及用法相似,可以相互替換使用。對于句子中屬于某類的詞用該類其他詞替代, 得到新的句子。在擴展過程中,為避免新產(chǎn)生的文法組合被句子中無改動的部分稀釋,實際 操作不是生成文本,而是直接累加上新的文法組合的個數(shù)。一般用于語音識別的語言模型 為三元文法模型,我們以3-gram為例,具體說明擴展過程。假設人工標注中,有以下句子 (已分詞)"我們都喜歡吃西瓜",與"喜歡"在同一詞類中的詞是"喜愛",那么對于這句話, 以下文法組合的詞頻統(tǒng)計都要加一。
[0047] 三元組合:"我們都喜愛";"都喜愛吃";"喜愛吃西瓜"
[0048] 二元組合:"都喜愛";"喜愛吃"
[0049] -元組合:"喜愛"
[0050] 更多的詞類替換都按照以上規(guī)則進行。
[0051] 5、生成新語言模型:人工標注與標注擴展各生成η元文法模型,再進行模型插值。 考慮到人工標注的質量高于標注擴展的質量,插值系數(shù)的分配還是應突出人工標注的地 位。
[0052] b.聲學模型
[0053] 目前常用的聲學建模技術在本發(fā)明所述系統(tǒng)中均可使用,如多高斯隱馬爾科夫模 型以及深度神經(jīng)網(wǎng)絡聲學模型等,并配合各種自適應技術。
[0054] 二、語音特征提取
[0055] 將語音轉換為具有區(qū)分度的,易于計算機存儲和處理的特征序列0。常用的語音特 征在本發(fā)明所述系統(tǒng)中均可使用,如梅爾頻率倒譜系數(shù),以及在此基礎上的梅爾倒譜感知 線形預測系數(shù)。
[0056] 二、語首識別
[0057] 用聲學模型和語言模型構建起搜索網(wǎng)絡,作用于解碼器,即搭建起了識別系統(tǒng)。將 提取的語音特征作為輸入,在搜索網(wǎng)絡上,解碼器對于該輸入搜尋出最佳路徑,即可得到對 應的識別結果。
[0058] 綜上所述本發(fā)明提供一種語音識別系統(tǒng),如圖3所示,所述系統(tǒng)包含:特征提取模 塊、聲學模型和語言模型,以及解碼器;
[0059] 特征提取模塊,用于將音頻格式的語音文件轉換為特征序列0的二進制文件;
[0060] 聲學模型,用于模擬語音特征和語言層之間的關系,進而為解碼器的識別提供聲 學概率;
[0061] 語言模型,用于提供語言學信息進而為解碼器的識別提供詞串先驗概率,該語言 模型即采用所述η元文法模型;
[0062] 解碼器,用于依據(jù)特征提取模塊輸出的特征序列,和聲學模型及語言模型提供的 相關概率值進行語音識別,進而輸出識別結果文本。
[0063] 最后所應說明的是,以上實施例僅用以說明本發(fā)明的技術方案而非限制。盡管參 照實施例對本發(fā)明進行了詳細說明,本領域的普通技術人員應當理解,對本發(fā)明的技術方 案進行修改或者等同替換,都不脫離本發(fā)明技術方案的精神和范圍,其均應涵蓋在本發(fā)明 的權利要求范圍當中。
【主權項】
1. 一種用于語音識別的η元文法模型構造方法,所述方法包含: 步驟101)通過神經(jīng)網(wǎng)絡語言模型訓練得到詞矢量,再對詞矢量進行分類以及多層篩 選,最終得到詞類; 步驟102)利用直接統(tǒng)計詞頻的方法擴充人工標注,即同類詞替換時,直接統(tǒng)計與原句 有變化的1至η元文法組合,進而得到擴充部分的η元文法模型; 步驟103)人工標注生成初步的η元文法模型,再與擴充部分的η元文法模型進行模型 插值,得到最終的η元文法模型。2. 根據(jù)權利要求1所述的用于語音識別的η元文法模型構造方法,其特征在于,所述步 驟101)進一步包含: 步驟101-1)輸入標注及訓練文本; 步驟101-2)通過神經(jīng)網(wǎng)絡語言模型訓練得到詞典中的詞的相應詞矢量; 步驟101-3)用Κ均值法對詞矢量分類,其中詞矢量間的相似程度用余弦相似度進行統(tǒng) 計; 步驟101-4)對分類結果進行多層篩選,最終得到詞類。3. 根據(jù)權利要求1或2所述的用于語音識別的η元文法模型構造方法,其特征在于,所 述步驟102)進一步包含: 步驟102-1)將標注文本中的詞對應至步驟101)得到的詞類,由相應分類中的詞替 換; 步驟102-2)替換過程中,對與替換部分有關聯(lián)的1至η元文法組合進行詞頻信息的統(tǒng) 計; 步驟102-3)根據(jù)詞頻信息生成標注擴充部分的η元文法語言模型Β。4. 根據(jù)權利要求1或2所述的用于語音識別的η元文法模型構造方法,其特征在于,所 述步驟103)進一步包含: 步驟103-1)生成人工標注部分的η元文法語言模型A; 步驟103-2)計算模型A和模型B在開發(fā)集上的最佳插值系數(shù),根據(jù)該系數(shù)插值模型A和模型B,得到最終模型。5. -種語音識別系統(tǒng),所述方法基于權利要求1-4任意一條權利要求記載的η元文法 模型,其特征在于,所述系統(tǒng)包含:特征提取模塊、聲學模型和語言模型,以及解碼器; 特征提取模塊,用于將音頻格式的語音文件轉換為特征序列〇的二進制文件; 聲學模型,用于模擬語音特征和語言層之間的關系,進而為解碼器的識別提供聲學概 率; 語言模型,用于提供語言學信息,進而為解碼器的識別提供詞串先驗概率,該語言模型 即采用所述包含標注擴展內(nèi)容的η元文法模型; 解碼器,用于依據(jù)特征提取模塊輸出的特征序列,和聲學模型及語言模型提供的相關 概率值進行語音識別,進而輸出識別結果文本。
【專利摘要】本發(fā)明提供一種用于語音識別的n元文法模型構造方法及語音識別系統(tǒng),所述方法包含:步驟101)通過神經(jīng)網(wǎng)絡語言模型訓練得到詞矢量,再對詞矢量進行分類以及多層篩選,最終得到詞類;步驟102)利用直接統(tǒng)計詞頻的方法擴充人工標注,即同類詞替換時,直接統(tǒng)計與原句有變化的1至n元文法組合,進而得到擴充部分的n元文法模型;步驟103)人工標注生成初步的n元文法模型,再與擴充部分的n元文法模型進行模型插值,得到最終的n元文法模型。所述步驟101)進一步包含:步驟101-1)輸入標注及訓練文本;步驟101-2)通過神經(jīng)網(wǎng)絡語言模型訓練得到詞典中的詞的相應詞矢量;步驟101-3)用K均值法對詞矢量分類;步驟101-4)對分類結果進行多層篩選,最終得到詞類。
【IPC分類】G10L15/06, G10L15/16
【公開號】CN105261358
【申請?zhí)枴緾N201410342840
【發(fā)明人】張晴晴, 陳夢喆, 潘接林, 顏永紅
【申請人】中國科學院聲學研究所, 北京中科信利技術有限公司
【公開日】2016年1月20日
【申請日】2014年7月17日