專利名稱:語音模糊檢索方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別領(lǐng)域和檢索領(lǐng)域,尤其涉及一種語音模糊檢索方法 及裝置。
語音模糊檢索作為多媒體檢索技術(shù)中的一個分支,與傳統(tǒng)的文本檢索和 音頻檢索不同,它解決的不是文本之于文本庫的檢索或音頻之于音頻庫的檢 索,而是音頻之于文本庫的檢索,即如何根據(jù)用戶提交的一段語音信號,在 文本庫中檢索出與之內(nèi)容相關(guān)的文本信息。
語音識別技術(shù)可以將語音信號轉(zhuǎn)換為文字內(nèi)容,若利用轉(zhuǎn)換后的文字并 借鑒文本檢索方法,便可實現(xiàn)音頻之于文本庫的檢索,然而,語音識別技術(shù)
不能做到百分之百準(zhǔn)確,特別是對于口語語音,識別準(zhǔn)確率通常低于90%, 可以想象,用非準(zhǔn)確的文本來檢索海量文本條目庫, 一企索結(jié)果是更加不準(zhǔn)確 的。
發(fā)明內(nèi)容
本發(fā)明提供一種語音模糊檢索方法及裝置,以解決現(xiàn)有語音識別技術(shù)存 在的檢索不準(zhǔn)確的問題。
為此,本發(fā)明實施例采用如下技術(shù)方案
一種語音模糊檢索方法,包括
利用預(yù)置的聲學(xué)模型及語言模型對獲取的語音信號進(jìn)行語音識別,得到 識別結(jié)果;
背景技術(shù):
利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行檢索, 得到初選條目;
將所述初選條目與所述識別結(jié)果進(jìn)行字符串模糊匹配,選取匹配度在預(yù)
置的匹配度閾值范圍內(nèi)的精選條目,同時記錄匹配位置;
計算精選條目匹配部分文本與所述語音信號間的后—驗概率,利用后—險概 率以及通過所述匹配位置獲得的匹配比例選擇若干個條目作為語音信號的檢 索結(jié)果。
該方法還包4舌
根據(jù)待檢索的文本條目以音節(jié)、字或詞為索引單元建立所述索引表,用 以進(jìn)行一級或多級索引。
該方法還包括
所述語言模型全部或部分利用所述預(yù)置的文本條目庫訓(xùn)練得到。
所述識別結(jié)果的形式包括語音信號對應(yīng)的最可能文字串、語音信號對應(yīng) 的最有可能的多種文字串,以及語音信號對應(yīng)的詞圖。
所述利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行才企 索得到初選條目的具體過程為
利用預(yù)置的索引表對識別結(jié)果中的每個字/詞進(jìn)行投票,選取投票數(shù)高于 預(yù)置的投票數(shù)閾值的條目作為所述初選條目;
其中,所述投票是指用識別結(jié)果中的字/詞查找索引表的索引項,查詢到 索引項后,將該索引所包括的每個條目投票數(shù)都加1。
所述模糊匹配的匹配算法采用基于混淆矩陣的文本間編輯距離動態(tài)規(guī)劃 計算方法,其中,所述混淆矩陣通過訓(xùn)練得到或者預(yù)先設(shè)定,對替換、插入、 刪除代價進(jìn)行優(yōu)化。
一種語音模糊檢索裝置,包括
其中:語音信號獲取單元,用于獲取語音信號;
識別單元,用于利用預(yù)置的聲學(xué)模型及語言模型對獲取的語音信號進(jìn)行
語音識別,得到識別結(jié)果;
;險索單元,用于利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目 庫中進(jìn)行-險索,得到初選條目;
模糊匹配單元,用于將所述初選條目與所述識別結(jié)果進(jìn)行字符串模糊匹 配,選取匹配度在預(yù)置的匹配度閾值范圍內(nèi)的精選條目,并記錄匹配位置;
結(jié)果確定單元,用于計算精選條目的匹配部分與所述語音信號間的后驗 概率,利用后驗概率以及通過所述匹配位置獲得的匹配比例選擇若干個條目 作為語音信號的檢索結(jié)果。
該裝置還包括
索引表建立單元,用于根據(jù)待檢索的預(yù)置的文本條目庫以音節(jié)、字或詞 為索引單元建立所述索引表,所述索引表用以進(jìn)行一級或多級索引。
該裝置還包括
語言模型建立單元,用于利用所述預(yù)置的文本條目庫訓(xùn)練得到所述語言 模型的部分或全部。
所述檢索單元包括
索引投票子單元,用于利用預(yù)置的索引表對識別結(jié)果中的每個字/詞進(jìn)行 投票,其中,所述投票是指用識別結(jié)果中的字/詞查找索引表的索引項,查詢 倒索引項后,將該索引所包括的每個條目投票數(shù)都加1;
初選條目選取子單元,用于選取投票數(shù)高于預(yù)置的投票數(shù)閾值的條目作 為所述初選條目。
可見,本發(fā)明提出了一種全新的語音模糊檢索模式,它通過應(yīng)用相關(guān)的 語言模型、索引投票、字符串模糊匹配、精選條目與語音信號的后驗概率計 算等步驟,克服了不完全正確的語音識別結(jié)果對文本庫檢索的不利影響,實 現(xiàn)了語音信號在海量文本條目庫上的快速準(zhǔn)確;險索。
圖1為本發(fā)明語音模糊檢索方法流程圖2為本發(fā)明方法實施例流程圖3為本發(fā)明語音模糊檢索裝置結(jié)構(gòu)示意圖。
具體實施例方式
本發(fā)明提供的語音模糊檢索方案,在識別時加入合適的語言模型以提高 準(zhǔn)確率,在利用識別結(jié)果作為文本檢索時進(jìn)行字符串模糊匹配以減小識別錯 誤的影響,并且,計算候選關(guān)鍵詞為音頻內(nèi)容的后驗概率進(jìn)行驗證,從而大 幅度提高檢索的準(zhǔn)確性和可靠性。
參見圖1,為本發(fā)明語音模糊檢索方法流程圖,包括以下步驟
S101:利用預(yù)置的聲學(xué)模型以及語言模型對獲取的語音信號進(jìn)行語音識 別,得到識別結(jié)果;
S102:利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行 檢索,得到初選條目;
其中,所述預(yù)置的文本條目庫一般是海量的文本條目庫,包括大量的文 本條目信息。
S103:將所述初選條目與所述識別結(jié)果進(jìn)行字符串模糊匹配,選取匹配 度在預(yù)置的匹配度閾值范圍內(nèi)的精選條目,同時記錄匹配位置;
S104:計算精選條目的匹配部分與所述語音信號間的后驗概率,利用所 述后驗概率以及通過所述匹配位置獲得的匹配比例選擇若干個條目作為語音 信號的檢索結(jié)果。
下面結(jié)合具體實例,對本發(fā)明進(jìn)行詳細(xì)介紹。
參見圖2,為利用語音模糊檢索技術(shù)進(jìn)行語音檢索海量文本條目庫的具體 實施例方法流程圖,包括
S201:獲取用戶輸入的語音信號;S202:利用預(yù)先建立的聲學(xué)模型以及語言模型對獲取的語音信號進(jìn)行語 音識別,得到識別結(jié)果;
S203:利用預(yù)置的索引表根據(jù)識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行快速 檢索,得到初選條目;
在開始構(gòu)建語音模糊檢索系統(tǒng)之前,需要預(yù)先建立合適的語音模型和海 量文本條目庫的索引表。
因為要在海量文本條目庫中檢索包含語音內(nèi)容的文本,所以語音內(nèi)容極 有可能是海量文本條目庫中存在的,是其中的某個條目或某個條目的一部分, 因此,根據(jù)海量文本條目庫為語料庫訓(xùn)練出的語言模型是應(yīng)用相關(guān)的語言模 型,它能更好地適應(yīng)^^索任務(wù)。
對于預(yù)置的索引表,它包括兩部分組成索引項以及索引項對應(yīng)的內(nèi)容。 本發(fā)明中索引表的索引項為字或詞,索引項對應(yīng)的內(nèi)容是海量文本條目庫中 包含該字或詞的文本,通常一個索引項對應(yīng)多個文本。例如,索引項"中"對應(yīng) 的內(nèi)容包括"中國共產(chǎn)黨"、"中國人民共和國"以及"我們的大中國"等等。
由此,在S202中對輸入語音進(jìn)行語音識別時,加入S203中訓(xùn)練的應(yīng)用 相關(guān)的語言模型,可以很好地提高識別的準(zhǔn)確率,在S202中得到準(zhǔn)確率高的 識別結(jié)果。
識別結(jié)果是語音信號經(jīng)解碼后的字符表現(xiàn)形式,常用的形式有輸入語 音信號對應(yīng)的最可能文字串(即只有一種識別結(jié)果,例如"中華人民共和國")、 最有可能的是N種文字串(即多種識別結(jié)果,例如3種識別結(jié)果"中國共產(chǎn) 黨"、"中國人民共和國"以及"我們的大中國")、語音信號對應(yīng)的詞圖,所謂詞 圖是指以有向無環(huán)圖的方式表示所有可能的文字串,詞圖是最高效的識別結(jié) 果表現(xiàn)形式,它包含的信息量也是最豐富的。
在S203中,對S202中得到的識別結(jié)果中的每個字/詞,利用預(yù)置的索 引表進(jìn)行索引投票。所謂投票也就是說,用識別結(jié)果中的字/詞查找索引表的 索引項,查詢倒索引項后,對應(yīng)的文本投票數(shù)加1。例如,識別結(jié)果中包含"中" 字,則所有包含"中"的文本,如中國共產(chǎn)黨"、"中國人民共和國"以及"我們的大中國"等對應(yīng)的投票數(shù)加1。投票數(shù)越高的文本,與識別結(jié)果的匹配程度越 高。保留投票數(shù)高于鬧值的文本作為初選條目。
S204:對初選條目與識別結(jié)果進(jìn)行字符串模糊匹配,依據(jù)匹配度從高到 低排序匹配的條目,且只保留匹配度在匹配度閾值范圍內(nèi)的精選條目;
由于語音識別技術(shù)不能保證百分百的正確率,導(dǎo)致識別結(jié)果中存在一定 的錯誤,而且,索引表只記錄了文本中含有那些字/詞,并沒有字/詞的位置信 息,因此索引出的初選條目不能直接作為檢索結(jié)果。
因此,利用字符串模糊匹配技術(shù),得到初選條目與識別結(jié)果中的匹配度。 相對于字符串精度匹配而言,模糊匹配允許子串與主串不完全相同。目前字 符串模糊匹配的兩個主要方法是位向量方法和過濾方法,本發(fā)明可以采用現(xiàn) 有的方法進(jìn)行。最簡單的模糊匹配算法是基于動態(tài)規(guī)劃的編輯距離,匹配中 存在刪除、插入和替代三種錯誤,每種錯誤可以依據(jù)實際應(yīng)用定義不同的錯 誤代價,對于正確匹配的部分,通常定義錯誤代價為零。本發(fā)明中,識別結(jié) 果和海量文本條目庫中的文本都可以看作是某種字符表現(xiàn)形式,且子串是識 別結(jié)果,主串是海量文本條目庫中的條目。匹配度與錯誤代價程反比。由于 用戶輸入的語音信號可能是海量文本條目庫中的文本片段,字符串模糊匹配 在給出匹配程度的同時,還給定了最可能的匹配位置。
S205:對每個符合條件的精選條目計算其為輸入音頻內(nèi)容的后驗概率; 同時,記錄匹配位置;
由于步驟S204得到的精選條目是與識別結(jié)果在字符層面進(jìn)行比較得來 的,而識別結(jié)果本身含有一定錯誤,因此匹配程度高并不一定代表其為語音 實際內(nèi)容的可能性大。因此在S205中,計算了給定語音信號條件下精選條目 的后驗概率。該后驗概率是0到1之間的數(shù)值,所有精選條目的后驗概率之 和為1。后驗概率越大,其對應(yīng)的條目確為語音內(nèi)容的可能性就越大。后驗概 率是指在得到"結(jié)果"的信息后重新修正的概率,如貝葉斯公式中的,是'孰果尋 因"問題中的"因",先驗概率與后驗概率有不可分割的聯(lián)系,后驗概率的計算 要以先驗概率為基礎(chǔ)。有關(guān)后驗概率的計算方法為成熟的現(xiàn)有技術(shù),此處不 作多描述。S206:利用所述后驗概率以及通過所述匹配位置獲得的匹配比例,選擇 若干個條目作為語音信號的檢索結(jié)果,然后結(jié)束流程。
其中,可通過對后-驗;f既率和匹配比例加一又處理的方式,最終選擇出后-驗 概率和匹配比例相對較高的條目作為檢索結(jié)果。
與上述方法相對應(yīng),本發(fā)明提供一種語音模糊檢索裝置,該裝置可以由 軟件、硬件或軟硬件結(jié)合方式實現(xiàn)。
參見圖3,為該裝置內(nèi)部結(jié)構(gòu)示意圖,包括語音信號獲取單元300、識 別單元301、檢索單元302、模糊匹配單元303以及結(jié)果確定單元304,其 中
語音信號獲取單元300,用于獲取語音信號;
識別單元301,用于利用預(yù)置的聲學(xué)模型以及語言模型對語音信號獲取 單元300獲取的語音信號進(jìn)行語音識別,得到識別結(jié)果;
檢索單元302,用于利用預(yù)置的索引表根據(jù)識別單元301得到的識別結(jié) 果在預(yù)置的文本條目庫中進(jìn)行檢索,得到初選條目;
模糊匹配單元303,用于將檢索單元302得到的初選條目與識別單元301 得到的識別結(jié)果進(jìn)行字符串模糊匹配,選取匹配度在預(yù)置的匹配度閾值范圍 內(nèi)的精選條目,同時記錄匹配位置;
結(jié)果確定單元304,用于計算模糊匹配單元303匹配的精選條目與語音 信號間的后驗概率,利用所述后驗概率以及通過所述匹配位置獲得的匹配比 例,選擇若干個條目作為語音信號的檢索結(jié)果。
優(yōu)選地,該裝置還包括
索引表建立單元305,用于根據(jù)所述預(yù)置的文本條目以音節(jié)、字或詞為 索引單元建立索引表。
優(yōu)選地,該裝置還包括
語言模型建立單元306,用于利用所述預(yù)置的文本條目庫訓(xùn)練得到語言 模型。
10優(yōu)選地,檢索單元302進(jìn)一步包括
索引投票子單元(圖中未示出),用于利用預(yù)置的索引表對識別結(jié)果中的 每個字/詞進(jìn)行投票,其中,所述投票是指用識別結(jié)果中的字/詞查找索引表的 索引項,查詢倒索引項后,將該索引所包括的每個條目投票數(shù)都加1;
初選條目選取子單元(圖中未示出),用于選取投票數(shù)高于預(yù)置的投票數(shù) 閾值的條目作為所述初選條目。
對于本發(fā)明提供裝置的實現(xiàn)細(xì)節(jié)可參見方法實施例,此處不再贅述。
可見,本發(fā)明提出了一種全新的語音模糊檢索方案,它通過應(yīng)用相關(guān)的 語言模型、索引投票、字符串模糊匹配、候選文本與語音信號的后驗概率計 算等步驟,克服了不完全正確的語音識別結(jié)果對文本庫^r索的不利影響,實 現(xiàn)了語音信號在海量文本條目庫上的快速準(zhǔn)確檢索。
本領(lǐng)域普通技術(shù)人員可以理解,實現(xiàn)上述實施例的方法的過程可以通過 程序指令相關(guān)的硬件來完成,所述的程序可以存儲于可讀取存儲介質(zhì)中,該 程序在執(zhí)行時執(zhí)行上述方法中的對應(yīng)步驟。所述的存儲介質(zhì)可以如 ROM/RAM 、磁碟、光盤等。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普 通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤 飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種語音模糊檢索方法,其特征在于,包括利用預(yù)置的聲學(xué)模型及語言模型對獲取的語音信號進(jìn)行語音識別,得到識別結(jié)果;利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行檢索,得到初選條目;將所述初選條目與所述識別結(jié)果進(jìn)行字符串模糊匹配,選取匹配度在預(yù)置的匹配度閾值范圍內(nèi)的精選條目,同時記錄匹配位置;計算精選條目匹配部分文本與所述語音信號間的后驗概率,利用后驗概率以及通過所述匹配位置獲得的匹配比例選擇若干個條目作為語音信號的檢索結(jié)果。
2、 根據(jù)權(quán)利要求1所述方法,其特征在于,還包括根據(jù)待檢索的文本條目以音節(jié)、字或詞為索引單元建立所述索引表,用以進(jìn)行一級或多級索引。
3、 根據(jù)權(quán)利要求2所述方法,其特征在于,還包括所述語言模型全部或部分利用所述預(yù)置的文本條目庫訓(xùn)練得到。
4、 根據(jù)權(quán)利要求1所述方法,其特征在于,所述識別結(jié)果的形式包括語音信號對應(yīng)的最可能文字串、語音信號對應(yīng)的最有可能的多種文字串,以及語音信號對應(yīng)的詞圖。
5、 根據(jù)權(quán)利要求1所述方法,其特征在于,所述利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行檢索得到初選條目的具體過程為利用預(yù)置的索引表對識別結(jié)果中的每個字/詞進(jìn)行投票,選取投票數(shù)高于預(yù)置的投票數(shù)閾值的條目作為所述初選條目;其中,所述投票是指用識別結(jié)果中的字/詞查找索引表的索引項,查詢到索引項后,將該索引所包括的每個條目投票數(shù)都加1。
6、 根據(jù)權(quán)利要求1所述方法,其特征在于,所述模糊匹配的匹配算法采用基于混淆矩陣的文本間編輯距離動態(tài)規(guī)劃計算方法,其中,所述混淆矩陣通過訓(xùn)練得到或者預(yù)先設(shè)定,對替換、插入、刪除代價進(jìn)行優(yōu)化。
7、 一種語音模糊檢索裝置,其特征在于,包括語音信號獲取單元,用于獲取語音信號;識別單元,用于利用預(yù)置的聲學(xué)模型及語言模型對獲取的語音信號進(jìn)行語音識別,得到識別結(jié)果;檢索單元,用于利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行檢索,得到初選條目;模糊匹配單元,用于將所述初選條目與所述識別結(jié)果進(jìn)行字符串^^莫糊匹配,選取匹配度在預(yù)置的匹配度閾值范圍內(nèi)的精選條目,并記錄匹配位置;結(jié)果確定單元,用于計算精選條目的匹配部分與所述語音信號間的后驗概率,利用后驗概率以及通過所述匹配位置獲得的匹配比例選擇若干個條目作為語音信號的檢索結(jié)果。
8、 根據(jù)權(quán)利要求7所述裝置,其特征在于,還包括索引表建立單元,用于根據(jù)待檢索的預(yù)置的文本條目庫以音節(jié)、字或詞為索引單元建立所述索引表,所述索引表用以進(jìn)行一級或多級索引。
9、 根據(jù)權(quán)利要求8所述裝置,其特征在于,還包括語言模型建立單元,用于利用所述預(yù)置的文本條目庫訓(xùn)練得到所述語言模型的部分或全部。
10、 根據(jù)權(quán)利要求7、 8或9所述裝置,其特征在于,所述檢索單元包括:索引投票子單元,用于利用預(yù)置的索引表對識別結(jié)果中的每個字/詞進(jìn)行投票,其中,所述投票是指用識別結(jié)果中的字/詞查找索引表的索引項,查詢倒索引項后,將該索引所包括的每個條目投票數(shù)都加1;初選條目選取子單元,用于選取投票數(shù)高于預(yù)置的投票數(shù)閾值的條目作為所述初選條目。
全文摘要
本發(fā)明公開了一種語音模糊檢索方法及裝置,其中方法包括以下步驟利用預(yù)置的聲學(xué)模型及語言模型對獲取的語音信號進(jìn)行語音識別,得到識別結(jié)果;利用預(yù)置的索引表根據(jù)所述識別結(jié)果在預(yù)置的文本條目庫中進(jìn)行檢索,得到初選條目;將所述初選條目與所述識別結(jié)果進(jìn)行字符串模糊匹配,選取匹配度在預(yù)置的匹配度閾值范圍內(nèi)的條目作為精選條目,同時記錄各條目的匹配位置;計算精選條目匹配部分文本與所述語音信號間的后驗概率,最終利用后驗概率以及通過所述匹配位置得到的匹配比例選擇若干個條目作為語音信號的檢索結(jié)果。采用本發(fā)明,可實現(xiàn)基于語音信號在海量文本條目庫上的快速準(zhǔn)確檢索到與語音信號相匹配的文本條目。
文檔編號G06F17/30GK101464896SQ20091000116
公開日2009年6月24日 申請日期2009年1月23日 優(yōu)先權(quán)日2009年1月23日
發(fā)明者劉慶峰, 萍 呂, 及 吳, 吳曉如, 王仁華, 王智國, 郁 胡, 胡國平, 勝 錢, 陳志剛 申請人:安徽科大訊飛信息科技股份有限公司