一種針對停頓的語音識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別的技術(shù)領(lǐng)域,特別是涉及一種針對停頓的語音識別方法和一 種針對停頓的語音識別裝置。
【背景技術(shù)】
[0002] 目前,移動互聯(lián)網(wǎng)的快速發(fā)展帶動了如手機、平板電腦等移動設備的廣泛普及,而 作為移動設備上人機交互最方便自然的方式之一,語音輸入正逐漸被廣大用戶所接受。
[0003] 基于用戶行為習慣,用戶在說話時,經(jīng)常會出現(xiàn)停頓。
[0004] 現(xiàn)有的大規(guī)模非特定人連續(xù)語音識別大多使用WFST(WeightedFinite-state Transducer,加權(quán)有限狀態(tài)轉(zhuǎn)換器)構(gòu)建的網(wǎng)絡進行解碼,對于包含長停頓的輸入語音,基 于WFST的解碼器往往表現(xiàn)不佳,相比于不包含長停頓的語音輸入來講,識別準確率會有較 大幅度的下降。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種針對停頓的語音識別方法和相應的一種針對停頓的語音識別裝置。
[0006] 依據(jù)本發(fā)明的一個方面,提供了一種針對停頓的語音識別方法,包括:
[0007] 接收一幀或多幀語音信號;
[0008] 識別所述一幀或多幀語音信號中的靜音信號;
[0009] 當識別成功時,去除所述靜音信號;
[0010] 對去除靜音信號的一幀或多幀語音信號進行語音識別,獲得識別結(jié)果。
[0011] 可選地,所述識別所述一幀或多幀語音信號中的靜音信號的步驟包括:
[0012] 查找預先基于靜音信號生成的聲學模型;
[0013] 判斷所述語音信號與所述聲學模型是否匹配;若是,則確定所述語音信號為靜音 信號。
[0014] 可選地,所述聲學模型表征為多個狀態(tài);
[0015] 所述判斷所述語音信號與聲學模型是否匹配的步驟包括:
[0016] 提取所述語音信號的語音特征;
[0017] 計算所述語音特征屬于所述狀態(tài)的后驗概率;
[0018] 當所述后驗概率大于預設的概率閾值時,確認所述語音信號與所述聲學模型匹 配。
[0019] 可選地,所述聲學模型為隱馬爾可夫模型,所述隱馬爾可夫模型具有5個狀態(tài);
[0020] 所述計算所述語音特征屬于所述狀態(tài)的后驗概率的步驟包括:
[0021] 計算所述語音特征屬于第2個狀態(tài)、第3個狀態(tài)和第4個狀態(tài)中的至少一個狀態(tài) 的后驗概率。
[0022] 可選地,所述語音特征為濾波器組特征;
[0023] 所述計算所述語音特征屬于第2個狀態(tài)、第3個狀態(tài)和第4個狀態(tài)中的至少一個 狀態(tài)的后驗概率的步驟包括:
[0024] 將所述濾波器組特征輸入預設的深度神經(jīng)網(wǎng)絡模型,計算所述濾波器組特征屬于 第2個狀態(tài)、第3個狀態(tài)和第4個狀態(tài)中的至少一個狀態(tài)的后驗概率。
[0025] 根據(jù)本發(fā)明的另一方面,提供了一種針對停頓的語音識別裝置,包括:
[0026] 語音信號接收模塊,適于接收一幀或多幀語音信號;
[0027] 靜音信號識別模塊,適于識別所述一幀或多幀語音信號中的靜音信號;
[0028] 靜首?目號去除模塊,適于在識別成功時,去除所述靜首?目號;
[0029] 語音識別模塊,適于對去除靜音信號的一幀或多幀語音信號進行語音識別,獲得 識別結(jié)果。
[0030] 可選地,所述靜音信號識別模塊還適于:
[0031] 查找預先基于靜音信號生成的聲學模型;
[0032] 判斷所述語音信號與所述聲學模型是否匹配;若是,則確定所述語音信號為靜音 信號。
[0033] 可選地,所述聲學模型表征為多個狀態(tài);
[0034] 所述靜音信號識別模塊還適于:
[0035] 提取所述語音信號的語音特征;
[0036] 計算所述語音特征屬于所述狀態(tài)的后驗概率;
[0037] 當所述后驗概率大于預設的概率閾值時,確認所述語音信號與所述聲學模型匹 配。
[0038] 可選地,所述聲學模型為隱馬爾可夫模型,所述隱馬爾可夫模型具有5個狀態(tài);
[0039] 所述靜音信號識別模塊還適于:
[0040] 計算所述語音特征屬于第2個狀態(tài)、第3個狀態(tài)和第4個狀態(tài)中的至少一個狀態(tài) 的后驗概率。
[0041] 可選地,所述語音特征為濾波器組特征;
[0042] 所述靜音信號識別模塊還適于:
[0043] 將所述濾波器組特征輸入預設的深度神經(jīng)網(wǎng)絡模型,計算所述濾波器組特征屬于 第2個狀態(tài)、第3個狀態(tài)和第4個狀態(tài)中的至少一個狀態(tài)的后驗概率。
[0044] 本發(fā)明實施例去除語音信號之中的靜音信號,再進行語音識別,從而減弱了靜音 對于語音識別的影響,增加了語音識別解碼器的健壯性,提高了語音識別的準確率。
[0045] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0046] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0047]圖1示出了根據(jù)本發(fā)明一個實施例的一種針對停頓的語音識別方法實施例的步 驟流程圖;
[0048] 圖2示出了根據(jù)本發(fā)明一個實施例的一種HMM狀態(tài)的示例圖;
[0049] 圖3示出了根據(jù)本發(fā)明一個實施例的一種語音識別的流程示例圖;以及
[0050] 圖4示出了根據(jù)本發(fā)明一個實施例的一種針對停頓的語音識別裝置實施例的結(jié) 構(gòu)框圖。
【具體實施方式】
[0051] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達給本領(lǐng)域的技術(shù)人員。
[0052] 參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種針對停頓的語音識別方法實施例 的步驟流程圖,具體可以包括如下步驟:
[0053] 步驟101,接收一幀或多幀語音信號;
[0054] 在具體實現(xiàn)中,用戶可以通過配置有麥克風等聲卡設備的電子設備輸入語言信 號。
[0055] 其中,該電子設備可以為移動設備,如手機、平板電腦、個人數(shù)字助理、穿戴設備 (如眼鏡、手表等)等等,也可以為固定設備,如個人電腦、智能電視、智能家居/家電(如空 調(diào)、電飯煲)等等,本發(fā)明實施例對此不加以限制。
[0056] 基于用戶行為習慣,用戶在說話時,經(jīng)常會出現(xiàn)停頓(silience),產(chǎn)生靜音信號, 因此,所輸入的語言信號通常為包含靜音信號的語音信號。
[0057]當電子設備接收到聲卡設備轉(zhuǎn)換的語言信號時,可以在本地去除其中的靜音信 號,也可以發(fā)送至服務器去除其中的靜音信號,本發(fā)明實施例對此不加以限制。
[0058] 步驟102,識別所述一幀或多幀語音信號中的靜音信號;
[0059] 在具體實現(xiàn)中,由停頓(silience)所產(chǎn)生靜音信號,是無效的信號,因此,可以識 別靜音信號,從而提高語音識別的準確率。
[006