一種用于根據(jù)語料序列訓(xùn)練語言模型的方法與設(shè)備的制作方法
【專利摘要】本發(fā)明的目的是提供一種根據(jù)語料序列訓(xùn)練語言模型的方法與設(shè)備;通過獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;設(shè)置該目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合該目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下操作,直至該當(dāng)前訓(xùn)練階數(shù)超過該最高階數(shù)信息:根據(jù)該當(dāng)前訓(xùn)練階數(shù),確定與該目標(biāo)語言模型相對應(yīng)的平滑算法;根據(jù)該語料序列,通過該平滑算法,對該目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的目標(biāo)語言模型;更新該當(dāng)前訓(xùn)練階數(shù)。與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)不同階語言模型的特性,對不同階語言模型采用不同的平滑算法,發(fā)揮不同平滑算法的優(yōu)勢,得到更好的建模效果;進(jìn)一步地,還可與語音識別相結(jié)合,提高了語音識別的準(zhǔn)確率。
【專利說明】一種用于根據(jù)語料序列訓(xùn)練語言模型的方法與設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理【技術(shù)領(lǐng)域】,尤其涉及一種用于根據(jù)語料序列訓(xùn)練語言模 型的技術(shù)。
【背景技術(shù)】
[0002]語言模型建模主要通過統(tǒng)計文本語料中的文法分布,獲得對于語言的統(tǒng)計模型, 用于描述一個文本串成為自然語言的概率。在語言模型訓(xùn)練中,為了描述對零次的文法賦 予一定的概率,通常采用平滑算法,利用“劫富濟(jì)貧”的思想,將高頻文法平滑部分概率到低 頻文法。
[0003]目前,語言模型的平滑算法很多,例如katz平滑算法、KN平滑(Kneser-Ney平滑) 算法、加一平滑算法,wb平滑(Witten-Bell平滑)算法等,比較常用的是katz平滑算法和 KN平滑算法。每種平滑算法都有其不同的特性,也都存在不同的問題。根據(jù)調(diào)研發(fā)現(xiàn),katz 平滑在訓(xùn)練數(shù)據(jù)比較充足,然后進(jìn)行相對熵裁剪后的性能比KN平滑算法效果更好。KN平滑 算法則在數(shù)據(jù)相對稀疏時,性能較好。因此在現(xiàn)有技術(shù)中,基本上是從以上二者,或者其他 候選平滑算法中選取一種平滑算法,來對語言模型進(jìn)行訓(xùn)練。然而,在語言模型訓(xùn)練中,不 同階語言模型的特性是不盡相同的,而對不同階文法采用同一種平滑算法,并不能夠取得 最好的效果。
[0004]因此,如何克服上述不同階語言模型的特性不同的問題,實現(xiàn)對語言模型的訓(xùn)練, 得到更好的建模效果,成為本領(lǐng)域技術(shù)人員亟需解決的問題之一。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種用于根據(jù)語料序列訓(xùn)練語言模型的方法與設(shè)備。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種用于根據(jù)語料序列訓(xùn)練語言模型的方法,其 中,該方法包括以下步驟:
[0007]a獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;
[0008]b設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目 標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階 數(shù)信息:
[0009]bl根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法;
[0010]b2根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以 獲得更新后的所述目標(biāo)語言模型;
[0011]b3更新所述當(dāng)前訓(xùn)練階數(shù)。
[0012]根據(jù)本發(fā)明的另一方面,還提供了一種用于根據(jù)語料序列訓(xùn)練語言模型的模型訓(xùn) 練設(shè)備,其中,該設(shè)備包括:
[0013]序列獲取裝置,用于獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;
[0014]迭代執(zhí)行裝置,用于設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下裝置所執(zhí)行的操作,直至所述 當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息:
[0015]算法確定裝置,用于根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的 平滑算法;
[0016]模型訓(xùn)練裝置,用于根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型 進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型;
[0017]階數(shù)更新裝置,用于更新所述當(dāng)前訓(xùn)練階數(shù)。
[0018]與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)不同階語言模型的特性,對不同階語言模型采用不 同的平滑算法,發(fā)揮不同平滑算法的優(yōu)勢,得到更好的建模效果;進(jìn)一步地,本發(fā)明還可與 語音識別相結(jié)合,提高了語音識別的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0019]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它 特征、目的和優(yōu)點將會變得更明顯:
[0020]圖1示出根據(jù)本發(fā)明一個方面的用于根據(jù)語料序列訓(xùn)練語言模型的設(shè)備示意圖;
[0021]圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于根據(jù)語料序列訓(xùn)練語言模型的設(shè)備 示意圖;
[0022]圖3示出根據(jù)本發(fā)明另一個方面的用于根據(jù)語料序列訓(xùn)練語言模型的方法流程 圖;
[0023]圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于根據(jù)語料序列訓(xùn)練語言模型的方法 流程圖。
[0024]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實施方式】
[0025]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0026]圖1示出根據(jù)本發(fā)明一個方面的用于根據(jù)語料序列訓(xùn)練語言模型的設(shè)備示意圖。 模型訓(xùn)練設(shè)備I包括序列獲取裝置101、迭代執(zhí)行裝置102、算法確定裝置103、模型訓(xùn)練裝 置104和階數(shù)更新裝置105。
[0027]其中,序列獲取裝置101獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列。具體地,序列 獲取裝置101例如通過調(diào)用語料庫所提供的應(yīng)用程序接口(API)等方式,自該語料庫獲取 擬用于訓(xùn)練目標(biāo)語言模型的語料序列;或者,序列獲取裝置101例如通過調(diào)用語料庫所提 供的應(yīng)用程序接口(API)等方式,獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息,再通過 切詞處理、中文轉(zhuǎn)換處理等方式,對該語料信息進(jìn)行預(yù)處理,獲得擬用于訓(xùn)練目標(biāo)語言模型 的語料序列。
[0028]在此,該語料庫中存儲有大量擬用于訓(xùn)練目標(biāo)語言模型的語料序列或語料信息, 該語料庫可位于該模型訓(xùn)練設(shè)備I中,或與該模型訓(xùn)練設(shè)備I通過網(wǎng)絡(luò)相連接的第三方設(shè) 備中。
[0029]本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取語料序列的方式僅為舉例,其他現(xiàn)有的或今后 可能出現(xiàn)的獲取語料序列的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0030]迭代執(zhí)行裝置102設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下算法確定裝置103、模型訓(xùn)練裝置104和階數(shù)更新裝置105所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信
肩、O
[0031]具體地,迭代執(zhí)行裝置102設(shè)置該目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),如設(shè)置該目標(biāo)語音模型的初始階數(shù)信息為1,將該階數(shù)I作為當(dāng)前訓(xùn)練階數(shù),并結(jié)合該目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下算法確定裝置103、模型訓(xùn)練裝置104和階數(shù)更新裝置105所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息,如該目標(biāo)語音模型為4階語言模型,則該目標(biāo)語言模型的最高階數(shù)信息為4,迭代執(zhí)行裝置102從當(dāng)前訓(xùn)練階數(shù)I開始,迭代執(zhí)行算法確定裝置103、模型訓(xùn)練裝置104和階數(shù)更新裝置105所執(zhí)行的操作,直至該階數(shù)更新裝置105將該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)更新為超過該最聞階數(shù)彳目息4。
[0032]本領(lǐng)域技術(shù)人員應(yīng)能理解上述迭代執(zhí)行操作的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的迭代執(zhí)行操作的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0033]算法確定裝置103根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,算法確定裝置103確定與該目標(biāo)語言模型相對應(yīng)的平滑算法的方式包括但不限于:
[0034]I)直接根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定與該目標(biāo)語言模型相對應(yīng)的平滑算法。例如,當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)低于三階,將katz平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。又如,當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)高于二階,將KN平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。
[0035]2)根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定該語料序列在該當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息,再根據(jù)該數(shù)據(jù)特征信息,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法。例如,當(dāng)該語料序列在該當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息高于預(yù)定的第一數(shù)據(jù)數(shù)量閾值,將katz平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。又如,當(dāng)該語料序列在該當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息低于預(yù)定的第二數(shù)據(jù)數(shù)量閾值,將KN平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。
[0036]本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定與目標(biāo)語言模型相對應(yīng)的平滑算法的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定與目標(biāo)語言模型相對應(yīng)的平滑算法的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0037]模型訓(xùn)練裝置104根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型。具體地,模型訓(xùn)練裝置104根據(jù)序列獲取裝置101所獲取的語料序列,通過該算法確定裝置103所確定的平滑算法,對該目標(biāo)語言模型進(jìn)行訓(xùn)練處理,例如,先計算確定該語料序列的概率值,再通過平滑算法,確定未出現(xiàn)在該語料序列中的目標(biāo)序列的平滑概率值,再將該語料序列與概率值、該目標(biāo)序列與平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。[0038]例如,假設(shè)序列獲取裝置101所獲取的語料序列包括A、B,其中,A出現(xiàn)了兩次;目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為1,算法確定裝置103確定與該一階目標(biāo)語言模型相對應(yīng)的平滑算法為katz平滑算法;模型訓(xùn)練裝置104首先計算該語料序列A、B的概率值,如該語料序列A、B的概率值分別為2/3、1/3,再將上述語料序列與詞庫進(jìn)行比較,并結(jié)合該一階目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),獲得在當(dāng)前訓(xùn)練階數(shù)為一階的情況下,在該詞庫中出現(xiàn)而未在該語料序列中出現(xiàn)的一階序列C,并將該一階序列作為在一階目標(biāo)語言模型中的待平滑處理的一階目標(biāo)序列C,通過該katz平滑算法,平滑計算該語料序列A、B的概率值,該一階目標(biāo)序列C的平滑概率值,如,該語料序列A的概率值被平滑為1/2、語料序列B的概率值被平滑為1/3,該一階目標(biāo)序列C的平滑概率值為1/6 ;進(jìn)而,再將該語料序列A、B與其概率值、該一階目標(biāo)序列C與其平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。
[0039]本領(lǐng)域技術(shù)人員應(yīng)能理解,在此,本發(fā)明所舉的語料序列的數(shù)量及字母表示、語料序列的概率值、目標(biāo)序列的概率值等僅為示例,不應(yīng)對本發(fā)明產(chǎn)生任何限制。
[0040]本領(lǐng)域技術(shù)人員應(yīng)能理解上述訓(xùn)練目標(biāo)語言模型的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的訓(xùn)練目標(biāo)語言模型的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0041]階數(shù)更新裝置105更新所述當(dāng)前訓(xùn)練階數(shù)。具體地,當(dāng)前述算法確定裝置103、模型訓(xùn)練裝置104完成其對應(yīng)的操作,階數(shù)更新裝置105更新該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),如將該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)加1、加2等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述更新當(dāng)前訓(xùn)練階數(shù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新當(dāng)前訓(xùn)練階數(shù)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0042]以下用一實施例對上述裝置的操作進(jìn)行詳細(xì)描述:
[0043]例如,假設(shè)序列獲取裝置101所獲取的語料序列包括A、B、C、AB、ABC,目標(biāo)語言模型的最高階數(shù)信息為3,即,該目標(biāo)語言模型為3階語言模型,迭代執(zhí)行裝置102設(shè)置該目標(biāo)語言模型的初始階數(shù)信息為1,以作為其當(dāng)前訓(xùn)練階數(shù);接著,算法確定裝置103根據(jù)該當(dāng)前訓(xùn)練階數(shù)為1,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如katz平滑算法;隨后,模型訓(xùn)練裝置104根據(jù)該語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,如根據(jù)當(dāng)前訓(xùn)練階數(shù)1,計算A、B和C的概率值,再將該語料序列與詞庫進(jìn)行比較,確定在詞庫中存在而未出現(xiàn)在該語料序列中的目標(biāo)序列D,該目標(biāo)序列D即為待平滑處理的目標(biāo)序列,隨后,該模型訓(xùn)練裝置104采用katz平滑算法,確定該目標(biāo)序列D的平滑概率值,分別將該A、B和C的概率值及D的平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型;接著,階數(shù)更新裝置105更新該當(dāng)前訓(xùn)練階數(shù),將該當(dāng)前訓(xùn)練階數(shù)更新為2。
[0044]隨后,迭代執(zhí)行裝置102判斷該當(dāng)前訓(xùn)練階數(shù)2未超過最高階數(shù)信息3,遂迭代執(zhí)行算法確定裝置103的操作,即,根據(jù)該當(dāng)前訓(xùn)練階數(shù)為2,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如katz平滑算法;模型訓(xùn)練裝置104根據(jù)當(dāng)前訓(xùn)練階數(shù)2,計算AB的概率值,再將該語料序列與詞庫進(jìn)行比較,確定在詞庫中存在而未出現(xiàn)在該語料序列中的目標(biāo)序列BE,該目標(biāo)序列BE即為待平滑處理的目標(biāo)序列,隨后,該模型訓(xùn)練裝置104采用katz平滑算法,確定該目標(biāo)序列BE的平滑概率值,分別將該AB的概率值及BE的平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型;接著,階數(shù)更新裝置105繼續(xù)更新該當(dāng)前訓(xùn)練階數(shù),將該當(dāng)前訓(xùn)練階數(shù)更新為3。
[0045]然后,迭代執(zhí)行裝置102繼續(xù)判斷該當(dāng)前訓(xùn)練階數(shù)3未超過最高階數(shù)信息3,遂繼續(xù)迭代執(zhí)行算法確定裝置103的操作,即,根據(jù)該當(dāng)前訓(xùn)練階數(shù)3,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如KN平滑算法;模型訓(xùn)練裝置104根據(jù)當(dāng)前訓(xùn)練階數(shù)3,計算ABC的概率值,再將該語料序列與詞庫進(jìn)行比較,確定在詞庫中存在而未出現(xiàn)在該語料序列中的目標(biāo)序列ABF,該目標(biāo)序列ABF即為待平滑處理的目標(biāo)序列,隨后,該模型訓(xùn)練裝置104采用KN平滑算法,確定該目標(biāo)序列ABF的平滑概率值,并分別將該ABC的概率值及ABF的平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型;接著,階數(shù)更新裝置105繼續(xù)更新該當(dāng)前訓(xùn)練階數(shù),將該當(dāng)前訓(xùn)練階數(shù)更新為4。
[0046]最后,迭代執(zhí)行裝置102判斷該當(dāng)前訓(xùn)練階數(shù)4已經(jīng)超過該目標(biāo)語言模型的最高階數(shù)信息3,遂停止執(zhí)行迭代操作。
[0047]在此,本發(fā)明根據(jù)不同階語言模型的特性,對不同階語言模型采用不同的平滑算法,發(fā)揮不同平滑算法的優(yōu)勢,得到更好的建模效果。
[0048]優(yōu)選地,模型訓(xùn)練設(shè)備I的各個裝置之間是持續(xù)不斷工作的。具體地,序列獲取裝置101獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;迭代執(zhí)行裝置102設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下裝置所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息:算法確定裝置103根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法;模型訓(xùn)練裝置104根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型;階數(shù)更新裝置105更新所述當(dāng)前訓(xùn)練階數(shù)。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指模型訓(xùn)練設(shè)備I的各裝置分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進(jìn)行語料序列的獲取、初始階數(shù)信息的設(shè)置、平滑算法的確定、目標(biāo)語言模型的訓(xùn)練處理及當(dāng)前訓(xùn)練階數(shù)的更新,直至該模型訓(xùn)練設(shè)備I在較長時間內(nèi)停止獲取語料序列。
[0049]優(yōu)選地,算法確定裝置103還包括特征確定單元(未示出)和算法確定單元(未示出)。該特征確定單元根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定所述語料序列在所述當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息;算法確定單元根據(jù)所述數(shù)據(jù)特征信息,確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,特征確定單元根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定該語料序列在所述當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息,如該語料序列的數(shù)據(jù)量較為充足、較為稀疏等;算法確定單元根據(jù)該語料序列的數(shù)據(jù)特征信息,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如當(dāng)該語料序列的數(shù)據(jù)量較為充足,則采用katz平滑算法,當(dāng)該語料序列的數(shù)據(jù)量較為稀疏,則采用KN平滑算法。
[0050]例如,對于一階目標(biāo)語言模型,語料序列在該一階目標(biāo)語言模型中的一階語料序列的數(shù)據(jù)量較為充足,則算法確定單元將katz平滑算法作為與該一階目標(biāo)語言模型相對應(yīng)的平滑算法。對于三階目標(biāo)語言模型,其中,該語料序列在該三階目標(biāo)語言模型中的三階語料序列的數(shù)據(jù)量較為稀疏,則算法確定單元將KN平滑算法作為與該三階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0051]例如,對于語料信息AB⑶E,序列獲取裝置101通過對該語料信息進(jìn)行切詞處理,獲得一階語料序列A、B、C、D和E,獲得二階語料序列AB、BC、⑶和DE,獲得三階語料序列ABC、BCD和CDE,則特征確定單元確定上述一階語料序列在一階目標(biāo)語言模型中的數(shù)據(jù)量較為充足,上述二階語料序列在二階目標(biāo)語言模型中的數(shù)據(jù)量也較為充足,則算法確定單元確定將katz平滑算法作為與該一階目標(biāo)語言模型、二階目標(biāo)語言模型相對應(yīng)的平滑算法;相似地,特征確定單元確定上述三階語料序列在三階目標(biāo)語言模型中的數(shù)據(jù)量較為稀疏,則算法確定單元確定將KN平滑算法作為與該三階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0052]更優(yōu)選地,該算法確定單元當(dāng)所述數(shù)據(jù)特征信息高于預(yù)定的第一數(shù)據(jù)數(shù)量閾值,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,模型訓(xùn)練設(shè)備I可以設(shè)置第一數(shù)據(jù)數(shù)量閾值,該第一數(shù)據(jù)數(shù)量閾值用于判斷語料序列在目標(biāo)語言模型中的數(shù)據(jù)特征信息是否充足,當(dāng)該語料序列在該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息高于該預(yù)定的第一數(shù)據(jù)數(shù)量閾值,如該語料序列的數(shù)據(jù)量高于該第一數(shù)據(jù)數(shù)量閾值,算法確定單元將katz平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。
[0053]例如,假設(shè)第一數(shù)據(jù)數(shù)量閾值為10萬,即使對于三階語料序列,當(dāng)該三階語料序列在三階目標(biāo)語言模型中的數(shù)據(jù)特征信息高于10萬時,算法確定單元仍將katz平滑算法作為與該三階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0054]更優(yōu)選地,該算法確定單元當(dāng)所述數(shù)據(jù)特征信息低于預(yù)定的第二數(shù)據(jù)數(shù)量閾值,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,模型訓(xùn)練設(shè)備I可以設(shè)置第二數(shù)據(jù)數(shù)量閾值,該第二數(shù)據(jù)數(shù)量閾值用于判斷語料序列在目標(biāo)語言模型中的數(shù)據(jù)特征信息是否稀疏,當(dāng)該語料序列在該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息低于該預(yù)定的第二數(shù)據(jù)數(shù)量閾值,算法確定單元將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
[0055]例如,假設(shè)第二數(shù)據(jù)數(shù)量閾值為5萬,即使對于一階語料序列,當(dāng)該一階語料序列在一階目標(biāo)語言模型中的數(shù)據(jù)特征信息低于5萬時,算法確定單元仍將KN平滑算法作為與該一階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0056]優(yōu)選地,算法確定裝置103當(dāng)所述當(dāng)前訓(xùn)練階數(shù)低于三階,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,算法確定裝置103還可以直接根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定對應(yīng)的平滑算法,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)低于三階,算法確定裝置103直接將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
[0057]優(yōu)選地,算法確定裝置103當(dāng)所述當(dāng)前訓(xùn)練階數(shù)高于二階,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,算法確定裝置103還可以直接根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定對應(yīng)的平滑算法,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)高于二階,算法確定裝置103直接將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
[0058]優(yōu)選地,模型訓(xùn)練裝置104根據(jù)所述語料序列與詞庫的比較結(jié)果,并結(jié)合所述當(dāng)前訓(xùn)練階數(shù),確定待平滑處理的目標(biāo)序列;通過所述平滑算法,確定所述目標(biāo)序列的平滑概率值;根據(jù)所述平滑概率值,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型。具體地,模型訓(xùn)練裝置104根據(jù)序列獲取裝置101所獲取的語料序列,將該語料序列與詞庫進(jìn)行比較,獲得在該詞庫中出現(xiàn)而未在該語料序列中出現(xiàn)的序列,再根據(jù)該序列,并結(jié)合該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定待平滑處理的目標(biāo)序列,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為1,則將上述比較獲得的序列中的一階序列作為待平滑處理的目標(biāo)序列;隨后,該模型訓(xùn)練裝置104再通過與該目標(biāo)語言模型相對應(yīng)的平滑算法,確定該待平滑處理的目標(biāo)序列的平滑概率值;將該平滑概率值存入該目標(biāo)語言模型中,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。
[0059]例如,對于語料信息AB⑶E,序列獲取裝置101通過對該語料信息進(jìn)行切詞處理,獲得一階語料序列A、B、C、D和E,獲得二階語料序列AB、BC、⑶和DE,獲得三階語料序列ABC、B⑶和⑶E,模型訓(xùn)練裝置104將上述語料序列與詞庫進(jìn)行比較,并結(jié)合目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),獲得在當(dāng)前訓(xùn)練階數(shù)為一階的情況下,在該詞庫中出現(xiàn)而未在該語料序列中出現(xiàn)的一階序列F、G,并將該一階序列作為在一階目標(biāo)語言模型中的待平滑處理的一階目標(biāo)序列F、G,相似地,獲得二階目標(biāo)語言模型中的待平滑處理的二階目標(biāo)序列AF、BH,獲得三階目標(biāo)語言模型中的待平滑處理的三階目標(biāo)序列BCI等。隨后,該模型訓(xùn)練裝置104再通過與該目標(biāo)語言模型相對應(yīng)的平滑算法,確定該待平滑處理的目標(biāo)序列的平滑概率值,如采用katz算法,確定一階目標(biāo)序列F、G及二階目標(biāo)序列BH的平滑概率值,采用KN算法,確定三階目標(biāo)序列BCI的平滑概率值;進(jìn)一步地,將上述各目標(biāo)序列與平滑概率值的映射關(guān)系存入該目標(biāo)語言模型中,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語目模型。
[0060]在此,詞庫中存儲有大量的各個階數(shù)的序列,該詞庫可位于模型訓(xùn)練設(shè)備I中,也可位于與該模型訓(xùn)練設(shè)備I通過網(wǎng)絡(luò)相連接的第三方設(shè)備中。
[0061]在一優(yōu)選實施例中,序列獲取裝置101獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息;對所述語料信息進(jìn)行預(yù)處理,以獲得所述語料序列;其中,所述預(yù)處理包括以下至少任一項:
[0062]-切詞處理;
[0063]-中文轉(zhuǎn)換處理。
[0064]具體地,序列獲取裝置101例如通過調(diào)用語料庫所提供的應(yīng)用程序接口(API)等方式,自該語料庫獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息,該語料信息例如未經(jīng)切詞處理或未經(jīng)中文轉(zhuǎn)換處理的一整段文字信息,或未經(jīng)中文轉(zhuǎn)換處理的多個語料序列;隨后,該序列獲取裝置101對所述語料信息進(jìn)行預(yù)處理,如切詞處理、中文轉(zhuǎn)換處理等,以獲得擬用于訓(xùn)練所述目標(biāo)語言模型的語料序列。
[0065]例如,當(dāng)該語料信息為未經(jīng)切詞處理一整段文字信息,序列獲取裝置101對該段文字信息進(jìn)行切詞處理,以獲得與該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)相對應(yīng)的語料序列,作為擬用于訓(xùn)練該目標(biāo)語言模型的語料序列,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為I時,序列獲取裝置101通過對該段文字信息進(jìn)行切詞處理,獲得一階語料序列,作為擬用于訓(xùn)練該一階目標(biāo)語言模型的語料序列;當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為2時,序列獲取裝置101通過對該段文字信息進(jìn)行切詞處理,獲得二階語料序列等,作為擬用于訓(xùn)練該二階目標(biāo)語言模型的語料序列。
[0066]又如,當(dāng)該語料信息為未經(jīng)切詞處理及未經(jīng)中文轉(zhuǎn)換處理的一整段文字信息,序列獲取裝置101首先對該段文字信息進(jìn)行中文轉(zhuǎn)換處理,將其中包含的英文序列、阿拉伯?dāng)?shù)字等非中文的序列轉(zhuǎn)換成中文序列,再對該段經(jīng)中文轉(zhuǎn)換處理后得到的文字信息進(jìn)行切詞處理,以獲得與該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)相對應(yīng)的語料序列,作為擬用于訓(xùn)練該目標(biāo)語言模型的語料序列。
[0067]再如,當(dāng)該語料信息為未經(jīng)中文轉(zhuǎn)換處理的多個語料序列,該多個語料序列中存在非中文的序列,如英文序列、阿拉伯?dāng)?shù)字等,該序列獲取裝置101通過中文轉(zhuǎn)換處理,將該非中文的序列轉(zhuǎn)換成中文序列,以將該經(jīng)中文轉(zhuǎn)換處理后的多個語料序列作為擬用于訓(xùn)練該目標(biāo)語言模型的語料序列。
[0068]在此,本發(fā)明對語料信息進(jìn)行預(yù)處理,獲得擬用于訓(xùn)練目標(biāo)語言模型的語料序列,再根據(jù)該經(jīng)預(yù)處理后的語料序列,對語言模型進(jìn)行訓(xùn)練處理,獲得更好的建模效果。
[0069]本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0070]圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于根據(jù)語料序列訓(xùn)練語言模型的設(shè)備示意圖。該模型訓(xùn)練設(shè)備I還包括語音獲取裝置206、序列確定裝置207和信息提供裝置208。以下對該優(yōu)選實施例進(jìn)行詳細(xì)描述:具體地,序列獲取裝置201獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;迭代執(zhí)行裝置202設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下裝置所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息:算法確定裝置203根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法;模型訓(xùn)練裝置204根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型;階數(shù)更新裝置205更新所述當(dāng)前訓(xùn)練階數(shù);語音獲取裝置206獲取用戶為目標(biāo)應(yīng)用輸入的語音序列;序列確定裝置207根據(jù)所述更新后的目標(biāo)語言模型,確定與所述語音序列相對應(yīng)的字符序列;信息提供裝置208將與所述字符序列相對應(yīng)的信息提供給所述用戶。其中,序列獲取裝置201、迭代執(zhí)行裝置202、算法確定裝置203、模型訓(xùn)練裝置204和階數(shù)更新裝置205與圖1所示對應(yīng)裝置相同或基本相同,故此處不再贅述,并通過弓I用的方式包含于此。
[0071]其中,語音獲取裝置206獲取用戶為目標(biāo)應(yīng)用輸入的語音序列。具體地,用戶例如通過與用戶設(shè)備的語音采集裝置的交互,在目標(biāo)應(yīng)用中輸入語音序列,語音獲取裝置206例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取該用戶為目標(biāo)應(yīng)用所輸入的語音序列。
[0072]序列確定裝置207根據(jù)所述更新后的目標(biāo)語言模型,確定與所述語音序列相對應(yīng)的字符序列。具體地,序列確定裝置207根據(jù)該語音獲取裝置206所獲取的語音序列,通過語音識別處理,確定該語音序列的發(fā)音信息,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列。例如,用戶通過與用戶設(shè)備的語音采集裝置的交互,輸入了語音序列“weibo”,語音獲取裝置206例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取了該用戶輸入的語音序列“weibo”;隨后,序列確定裝置207根據(jù)該語音序列“weibo”,通過語音識別處理,確定該語音序列的發(fā)音信息“weibo”,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列“圍脖”、“微博”、“微波”、“微薄”等。優(yōu)選地,序列確定裝置207根據(jù)該更新后的目標(biāo)語言模型,確定與該語音序列相對應(yīng)的多個候選字符序列之后,還可以根據(jù)該多個候選字符序列的概率值或平滑概率值,選擇對應(yīng)的字符序列,如選擇概率值或平滑概率值大于預(yù)定概率閾值的候選字符序列,作為與該語音序列對應(yīng)的字符序列,或者,按照概率值或平滑概率值從大到小的順序,為該多個候選字符序列進(jìn)行排序,將排在前列的候選字符序列作為與該語音序列對應(yīng)的字符序列,如將排在前五位的候選字符序列作為與該語音序列對應(yīng)的字符序列。
[0073]信息提供裝置208將與所述字符序列相對應(yīng)的信息提供給所述用戶。例如,當(dāng)該目標(biāo)應(yīng)用為語音輸入應(yīng)用,該信息提供裝置208通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將所述字符序列作為語音輸入候選詞條提供給該用戶;當(dāng)該目標(biāo)應(yīng)用為語音搜索應(yīng)用;該信息提供裝置208通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將根據(jù)該字符序列搜索獲得的一個或多個搜索結(jié)果提供給該用戶。
[0074]在此,本發(fā)明與語音識別相結(jié)合,提高了語音識別的準(zhǔn)確率。
[0075]優(yōu)選地,該目標(biāo)應(yīng)用為語音輸入應(yīng)用;其中,該信息提供裝置208將所述字符序列作為語音輸入候選詞條提供給所述用戶。例如,當(dāng)該目標(biāo)應(yīng)用為語音輸入應(yīng)用,用戶通過與用戶設(shè)備的語音采集裝置的交互,在語音輸入應(yīng)用中輸入了語音序列“weibo”,語音獲取裝置206例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取了該用戶輸入的語音序列“weibo” ;隨后,序列確定裝置207根據(jù)該語音序列“weibo”,通過語音識別處理,確定該語音序列的發(fā)音信息“weibo”,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列“圍脖”、“微博”、“微波”、“微薄”等;進(jìn)而,信息提供裝置208通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將上述字符序列“圍脖”、“微博”、“微波”、“微薄”等作為語音輸入候選詞條提供給該用戶,以供該用戶選擇輸入。
[0076]優(yōu)選地,該目標(biāo)應(yīng)用為語音搜索應(yīng)用;其中,該設(shè)備還包括搜索獲取裝置(未示出),該搜索獲取裝置將所述字符序列作為所述用戶的查詢序列,獲取與所述查詢序列相對應(yīng)的一個或多個搜索結(jié)果;其中,所述信息提供裝置208將所述一個或多個搜索結(jié)果提供給所述用戶。具體地,當(dāng)該目標(biāo)應(yīng)用為語音搜索應(yīng)用,序列確定裝置207根據(jù)該更新后的目標(biāo)語言模型,確定與該語音序列相對應(yīng)的字符序列;搜索獲取裝置根據(jù)該序列確定裝置207所確定的字符序列,將該字符序列作為該用戶的查詢序列,進(jìn)行匹配查詢,獲取與該查詢序列相對應(yīng)的一個或多個搜索結(jié)果;隨后,信息提供裝置208通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將該一個或多個搜索結(jié)果提供給該用戶。
[0077]例如,當(dāng)該目標(biāo)應(yīng)用為語音搜索應(yīng)用,用戶通過與用戶設(shè)備的語音采集裝置的交互,在語音輸入應(yīng)用中輸入了語音序列“weibo”,語音獲取裝置206例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取了該用戶輸入的語音序列“weibo”;隨后,序列確定裝置207根據(jù)該語音序列“weibo”,通過語音識別處理,確定該語音序列的發(fā)音信息“weibo”,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列“圍脖”、“微博”、“微波”、“微薄”;進(jìn)而,搜索獲取裝置根據(jù)該序列確定裝置207所確定的字符序列,將該字符序列“圍脖”、“微博”、“微波”、“微薄”作為該用戶的查詢序列,進(jìn)行匹配查詢,獲取與該查詢序列相對應(yīng)的一個或多個搜索結(jié)果;隨后,信息提供裝置208通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將與該字符序列“圍脖”、“微博”、“微波”、“微薄”相對應(yīng)的一個或多個搜索結(jié)果提供給該用戶,供該用戶瀏覽。
[0078]圖3示出根據(jù)本發(fā)明另一個方面的用于根據(jù)語料序列訓(xùn)練語言模型的方法流程圖。
[0079]在步驟S301中,模型訓(xùn)練設(shè)備I獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列。具體地,在步驟S301中,模型訓(xùn)練設(shè)備I例如通過調(diào)用語料庫所提供的應(yīng)用程序接口(API)等方式,自該語料庫獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;或者,在步驟S301中,模型訓(xùn)練設(shè)備I例如通過調(diào)用語料庫所提供的應(yīng)用程序接口(API)等方式,獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息,再通過切詞處理、中文轉(zhuǎn)換處理等方式,對該語料信息進(jìn)行預(yù)處理,獲得擬用于訓(xùn)練目標(biāo)語言模型的語料序列。
[0080]在此,該語料庫中存儲有大量擬用于訓(xùn)練目標(biāo)語言模型的語料序列或語料信息,該語料庫可位于該模型訓(xùn)練設(shè)備I中,或與該模型訓(xùn)練設(shè)備I通過網(wǎng)絡(luò)相連接的第三方設(shè)備中。
[0081]本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取語料序列的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取語料序列的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0082]在步驟S302中,模型訓(xùn)練設(shè)備I設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下步驟S303、S304和S305所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息。
[0083]具體地,在步驟S302中,模型訓(xùn)練設(shè)備I設(shè)置該目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),如設(shè)置該目標(biāo)語音模型的初始階數(shù)信息為I,將該階數(shù)I作為當(dāng)前訓(xùn)練階數(shù),并結(jié)合該目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下步驟S303、S304和S305所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息,如該目標(biāo)語音模型為4階語言模型,則該目標(biāo)語言模型的最高階數(shù)信息為4,在步驟S302中,模型訓(xùn)練設(shè)備I從當(dāng)前訓(xùn)練階數(shù)I開始,迭代執(zhí)行步驟S303、S304和S305所執(zhí)行的操作,直至在步驟S305中,模型訓(xùn)練設(shè)備I將該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)更新為超過該最高階數(shù)信息4。
[0084]本領(lǐng)域技術(shù)人員應(yīng)能理解上述迭代執(zhí)行操作的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的迭代執(zhí)行操作的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0085]在步驟S303中,模型訓(xùn)練設(shè)備I根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,在步驟S303中,模型訓(xùn)練設(shè)備I確定與該目標(biāo)語言模型相對應(yīng)的平滑算法的方式包括但不限于:
[0086]I)直接根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定與該目標(biāo)語言模型相對應(yīng)的平滑算法。例如,當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)低于三階,將katz平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。又如,當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)高于二階,將KN平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。
[0087]2)根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定該語料序列在該當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息,再根據(jù)該數(shù)據(jù)特征信息,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法。例如,當(dāng)該語料序列在該當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息高于預(yù)定的第一數(shù)據(jù)數(shù)量閾值,將katz平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。又如,當(dāng)該語料序列在該當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息低于預(yù)定的第二數(shù)據(jù)數(shù)量閾值,將KN平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。[0088]本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定與目標(biāo)語言模型相對應(yīng)的平滑算法的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定與目標(biāo)語言模型相對應(yīng)的平滑算法的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0089]在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型。具體地,在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)在步驟S301中所獲取的語料序列,通過在步驟S303中所確定的平滑算法,對該目標(biāo)語言模型進(jìn)行訓(xùn)練處理,例如,先計算確定該語料序列的概率值,再通過平滑算法,確定未出現(xiàn)在該語料序列中的目標(biāo)序列的平滑概率值,再將該語料序列與概率值、該目標(biāo)序列與平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。
[0090]例如,假設(shè)在步驟S301中,模型訓(xùn)練設(shè)備I所獲取的語料序列包括A、B,其中,A出現(xiàn)了兩次;目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為1,在步驟S303中,模型訓(xùn)練設(shè)備I確定與該一階目標(biāo)語言模型相對應(yīng)的平滑算法為katz平滑算法;在步驟S304中,模型訓(xùn)練設(shè)備I首先計算該語料序列A、B的概率值,如該語料序列A、B的概率值分別為2/3、1/3,再將上述語料序列與詞庫進(jìn)行比較,并結(jié)合該一階目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),獲得在當(dāng)前訓(xùn)練階數(shù)為一階的情況下,在該詞庫中出現(xiàn)而未在該語料序列中出現(xiàn)的一階序列C,并將該一階序列作為在一階目標(biāo)語言模型中的待平滑處理的一階目標(biāo)序列C,通過該katz平滑算法,平滑計算該語料序列A、B的概率值,該一階目標(biāo)序列C的平滑概率值,如,該語料序列A的概率值被平滑為1/2、語料序列B的概率值被平滑為1/3,該一階目標(biāo)序列C的平滑概率值為1/6 ;進(jìn)而,再將該語料序列A、B與其概率值、該一階目標(biāo)序列C與其平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。
[0091]本領(lǐng)域技術(shù)人員應(yīng)能理解,在此,本發(fā)明所舉的語料序列的數(shù)量及字母表示、語料序列的概率值、目標(biāo)序列的概率值等僅為示例,不應(yīng)對本發(fā)明產(chǎn)生任何限制。
[0092]本領(lǐng)域技術(shù)人員應(yīng)能理解上述訓(xùn)練目標(biāo)語言模型的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的訓(xùn)練目標(biāo)語言模型的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0093]在步驟S305中,模型訓(xùn)練設(shè)備I更新所述當(dāng)前訓(xùn)練階數(shù)。具體地,當(dāng)前述步驟S303、S304完成其對應(yīng)的操作,在步驟S305中,模型訓(xùn)練設(shè)備I更新該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),如將該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)加1、加2等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述更新當(dāng)前訓(xùn)練階數(shù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新當(dāng)前訓(xùn)練階數(shù)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0094]以下用一實施例對上述步驟的操作進(jìn)行詳細(xì)描述:
[0095]例如,假設(shè)在步驟S301中,模型訓(xùn)練設(shè)備I所獲取的語料序列包括A、B、C、AB、ABC,目標(biāo)語言模型的最高階數(shù)信息為3,即,該目標(biāo)語言模型為3階語言模型,在步驟S302中,模型訓(xùn)練設(shè)備I設(shè)置該目標(biāo)語言模型的初始階數(shù)信息為1,以作為其當(dāng)前訓(xùn)練階數(shù);接著,在步驟S303中,模型訓(xùn)練設(shè)備I根據(jù)該當(dāng)前訓(xùn)練階數(shù)為I,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如katz平滑算法;隨后,在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)該語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,如根據(jù)當(dāng)前訓(xùn)練階數(shù)1,計算A、B和C的概率值,再將該語料序列與詞庫進(jìn)行比較,確定在詞庫中存在而未出現(xiàn)在該語料序列中的目標(biāo)序列D,該目標(biāo)序列D即為待平滑處理的目標(biāo)序列,隨后,該在步驟S304中,模型訓(xùn)練設(shè)備I采用katz平滑算法,確定該目標(biāo)序列D的平滑概率值,分別將該A、B和C的概率值及D的平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型;接著,在步驟S305中,模型訓(xùn)練設(shè)備I更新該當(dāng)前訓(xùn)練階數(shù),將該當(dāng)前訓(xùn)練階數(shù)更新為2。
[0096]隨后,在步驟S302中,模型訓(xùn)練設(shè)備I判斷該當(dāng)前訓(xùn)練階數(shù)2未超過最高階數(shù)信息3,遂迭代執(zhí)行步驟S303的操作,即,根據(jù)該當(dāng)前訓(xùn)練階數(shù)為2,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如katz平滑算法;在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)當(dāng)前訓(xùn)練階數(shù)2,計算AB的概率值,再將該語料序列與詞庫進(jìn)行比較,確定在詞庫中存在而未出現(xiàn)在該語料序列中的目標(biāo)序列BE,該目標(biāo)序列BE即為待平滑處理的目標(biāo)序列,隨后,在步驟S304中,模型訓(xùn)練設(shè)備I采用katz平滑算法,確定該目標(biāo)序列BE的平滑概率值,分別將該AB的概率值及BE的平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型;接著,在步驟S305中,模型訓(xùn)練設(shè)備I繼續(xù)更新該當(dāng)前訓(xùn)練階數(shù),將該當(dāng)前訓(xùn)練階數(shù)更新為3。
[0097]然后,在步驟S302中,模型訓(xùn)練設(shè)備I繼續(xù)判斷該當(dāng)前訓(xùn)練階數(shù)3未超過最高階數(shù)信息3,遂繼續(xù)迭代執(zhí)行步驟S303的操作,即,根據(jù)該當(dāng)前訓(xùn)練階數(shù)3,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如KN平滑算法;在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)當(dāng)前訓(xùn)練階數(shù)3,計算ABC的概率值,再將該語料序列與詞庫進(jìn)行比較,確定在詞庫中存在而未出現(xiàn)在該語料序列中的目標(biāo)序列ABF,該目標(biāo)序列ABF即為待平滑處理的目標(biāo)序列,隨后,在步驟S304中,模型訓(xùn)練設(shè)備I采用KN平滑算法,確定該目標(biāo)序列ABF的平滑概率值,并分別將該ABC的概率值及ABF的平滑概率值存入該目標(biāo)語言模型,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型;接著,在步驟S305中,模型訓(xùn)練設(shè)備I繼續(xù)更新該當(dāng)前訓(xùn)練階數(shù),將該當(dāng)前訓(xùn)練階數(shù)更新為4。
[0098]最后,在步驟S302中,模型訓(xùn)練設(shè)備I判斷該當(dāng)前訓(xùn)練階數(shù)4已經(jīng)超過該目標(biāo)語言模型的最高階數(shù)信息3,遂停止執(zhí)行迭代操作。
[0099]在此,本發(fā)明根據(jù)不同階語言模型的特性,對不同階語言模型采用不同的平滑算法,發(fā)揮不同平滑算法的優(yōu)勢,得到更好的建模效果。
[0100]優(yōu)選地,模型訓(xùn)練設(shè)備I的各個步驟之間是持續(xù)不斷工作的。具體地,在步驟S301中,模型訓(xùn)練設(shè)備I獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;在步驟S302中,模型訓(xùn)練設(shè)備I設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下步驟所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息:在步驟S303中,模型訓(xùn)練設(shè)備I根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法;在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型;在步驟S305中,模型訓(xùn)練設(shè)備I更新所述當(dāng)前訓(xùn)練階數(shù)。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指模型訓(xùn)練設(shè)備I的各步驟分別按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求進(jìn)行語料序列的獲取、初始階數(shù)信息的設(shè)置、平滑算法的確定、目標(biāo)語言模型的訓(xùn)練處理及當(dāng)前訓(xùn)練階數(shù)的更新,直至該模型訓(xùn)練設(shè)備I在較長時間內(nèi)停止獲取語料序列。
[0101]優(yōu)選地,步驟S303還包括子步驟S3031 (未示出)和子步驟S3032(未示出)。在子步驟S3031中,模型訓(xùn)練設(shè)備I根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定所述語料序列在所述當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息;在子步驟S3032中,模型訓(xùn)練設(shè)備I根據(jù)所述數(shù)據(jù)特征信息,確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,在子步驟S3031中,模型訓(xùn)練設(shè)備I根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定該語料序列在所述當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息,如該語料序列的數(shù)據(jù)量較為充足、較為稀疏等;在子步驟S3032中,模型訓(xùn)練設(shè)備I根據(jù)該語料序列的數(shù)據(jù)特征信息,確定與該目標(biāo)語言模型相對應(yīng)的平滑算法,如當(dāng)該語料序列的數(shù)據(jù)量較為充足,則采用katz平滑算法,當(dāng)該語料序列的數(shù)據(jù)量較為稀疏,則采用KN平滑算法。
[0102]例如,對于一階目標(biāo)語言模型,語料序列在該一階目標(biāo)語言模型中的一階語料序列的數(shù)據(jù)量較為充足,則在子步驟S3032中,模型訓(xùn)練設(shè)備I將katz平滑算法作為與該一階目標(biāo)語言模型相對應(yīng)的平滑算法。對于三階目標(biāo)語言模型,其中,該語料序列在該三階目標(biāo)語言模型中的三階語料序列的數(shù)據(jù)量較為稀疏,則在子步驟S3032中,模型訓(xùn)練設(shè)備I將KN平滑算法作為與該三階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0103]例如,對于語料信息AB⑶E,在步驟S301中,模型訓(xùn)練設(shè)備I通過對該語料信息進(jìn)行切詞處理,獲得一階語料序列A、B、C、D和E,獲得二階語料序列AB、BC、⑶和DE,獲得三階語料序列ABC、BCD和CDE,則在子步驟S3031中,模型訓(xùn)練設(shè)備I確定上述一階語料序列在一階目標(biāo)語言模型中的數(shù)據(jù)量較為充足,上述二階語料序列在二階目標(biāo)語言模型中的數(shù)據(jù)量也較為充足,則在子步驟S3032中,模型訓(xùn)練設(shè)備I確定將katz平滑算法作為與該一階目標(biāo)語言模型、二階目標(biāo)語言模型相對應(yīng)的平滑算法;相似地,在子步驟S3031中,模型訓(xùn)練設(shè)備I確定上述三階語料序列在三階目標(biāo)語言模型中的數(shù)據(jù)量較為稀疏,則在子步驟S3032中,模型訓(xùn)練設(shè)備I確定將KN平滑算法作為與該三階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0104]更優(yōu)選地,在子步驟S3032中,模型訓(xùn)練設(shè)備I當(dāng)所述數(shù)據(jù)特征信息高于預(yù)定的第一數(shù)據(jù)數(shù)量閾值,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,模型訓(xùn)練設(shè)備I可以設(shè)置第一數(shù)據(jù)數(shù)量閾值,該第一數(shù)據(jù)數(shù)量閾值用于判斷語料序列在目標(biāo)語言模型中的數(shù)據(jù)特征信息是否充足,當(dāng)該語料序列在該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息高于該預(yù)定的第一數(shù)據(jù)數(shù)量閾值,如該語料序列的數(shù)據(jù)量高于該第一數(shù)據(jù)數(shù)量閾值,在子步驟S3032中,模型訓(xùn)練設(shè)備I將katz平滑算法作為與該目標(biāo)語言模型相對應(yīng)的平滑算法。
[0105]例如,假設(shè)第一數(shù)據(jù)數(shù)量閾值為10萬,即使對于三階語料序列,當(dāng)該三階語料序列在三階目標(biāo)語言模型中的數(shù)據(jù)特征信息高于10萬時,在子步驟S3032中,模型訓(xùn)練設(shè)備I仍將katz平滑算法作為與該三階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0106]更優(yōu)選地,在子步驟S3032中,模型訓(xùn)練設(shè)備I當(dāng)所述數(shù)據(jù)特征信息低于預(yù)定的第二數(shù)據(jù)數(shù)量閾值,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,模型訓(xùn)練設(shè)備I可以設(shè)置第二數(shù)據(jù)數(shù)量閾值,該第二數(shù)據(jù)數(shù)量閾值用于判斷語料序列在目標(biāo)語言模型中的數(shù)據(jù)特征信息是否稀疏,當(dāng)該語料序列在該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息低于該預(yù)定的第二數(shù)據(jù)數(shù)量閾值,在子步驟S3032中,模型訓(xùn)練設(shè)備I將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
[0107]例如,假設(shè)第二數(shù)據(jù)數(shù)量閾值為5萬,即使對于一階語料序列,當(dāng)該一階語料序列在一階目標(biāo)語言模型中的數(shù)據(jù)特征信息低于5萬時,在子步驟S3032中,模型訓(xùn)練設(shè)備I仍將KN平滑算法作為與該一階目標(biāo)語言模型相對應(yīng)的平滑算法。
[0108]優(yōu)選地,在步驟S303中,模型訓(xùn)練設(shè)備I當(dāng)所述當(dāng)前訓(xùn)練階數(shù)低于三階,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,在步驟S303中,模型訓(xùn)練設(shè)備I還可以直接根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定對應(yīng)的平滑算法,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)低于三階,在步驟S303中,模型訓(xùn)練設(shè)備I直接將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
[0109]優(yōu)選地,在步驟S303中,模型訓(xùn)練設(shè)備I當(dāng)所述當(dāng)前訓(xùn)練階數(shù)高于二階,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。具體地,在步驟S303中,模型訓(xùn)練設(shè)備I還可以直接根據(jù)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定對應(yīng)的平滑算法,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)高于二階,在步驟S303中,模型訓(xùn)練設(shè)備I直接將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
[0110]優(yōu)選地,在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)所述語料序列與詞庫的比較結(jié)果,并結(jié)合所述當(dāng)前訓(xùn)練階數(shù),確定待平滑處理的目標(biāo)序列;通過所述平滑算法,確定所述目標(biāo)序列的平滑概率值;根據(jù)所述平滑概率值,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型。具體地,在步驟S304中,模型訓(xùn)練設(shè)備I根據(jù)在步驟S301中所獲取的語料序列,將該語料序列與詞庫進(jìn)行比較,獲得在該詞庫中出現(xiàn)而未在該語料序列中出現(xiàn)的序列,再根據(jù)該序列,并結(jié)合該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),確定待平滑處理的目標(biāo)序列,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為1,則將上述比較獲得的序列中的一階序列作為待平滑處理的目標(biāo)序列;隨后,在步驟S304中,模型訓(xùn)練設(shè)備I再通過與該目標(biāo)語言模型相對應(yīng)的平滑算法,確定該待平滑處理的目標(biāo)序列的平滑概率值;將該平滑概率值存入該目標(biāo)語言模型中,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。
[0111]例如,對于語料信息AB⑶E,在步驟S301中,模型訓(xùn)練設(shè)備I通過對該語料信息進(jìn)行切詞處理,獲得一階語料序列A、B、C、D和E,獲得二階語料序列AB、BC、⑶和DE,獲得三階語料序列ABC、BCD和CDE,在步驟S304中,模型訓(xùn)練設(shè)備I將上述語料序列與詞庫進(jìn)行比較,并結(jié)合目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù),獲得在當(dāng)前訓(xùn)練階數(shù)為一階的情況下,在該詞庫中出現(xiàn)而未在該語料序列中出現(xiàn)的一階序列F、G,并將該一階序列作為在一階目標(biāo)語言模型中的待平滑處理的一階目標(biāo)序列F、G,相似地,獲得二階目標(biāo)語言模型中的待平滑處理的二階目標(biāo)序列AF、BH,獲得三階目標(biāo)語言模型中的待平滑處理的三階目標(biāo)序列BCI等。隨后,在步驟S304中,模型訓(xùn)練設(shè)備I再通過與該目標(biāo)語言模型相對應(yīng)的平滑算法,確定該待平滑處理的目標(biāo)序列的平滑概率值,如采用katz算法,確定一階目標(biāo)序列F、G及二階目標(biāo)序列BH的平滑概率值,采用KN算法,確定三階目標(biāo)序列BCI的平滑概率值;進(jìn)一步地,將上述各目標(biāo)序列與平滑概率值的映射關(guān)系存入該目標(biāo)語言模型中,以實現(xiàn)對該目標(biāo)語言模型的訓(xùn)練處理,獲得更新后的目標(biāo)語言模型。
[0112]在此,詞庫中存儲有大量的各個階數(shù)的序列,該詞庫可位于模型訓(xùn)練設(shè)備I中,也可位于與該模型訓(xùn)練設(shè)備I通過網(wǎng)絡(luò)相連接的第三方設(shè)備中。
[0113]在一優(yōu)選實施例中,在步驟S301中,模型訓(xùn)練設(shè)備I獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息;對所述語料信息進(jìn)行預(yù)處理,以獲得所述語料序列;其中,所述預(yù)處理包括以下至少任一項:[0114]-切詞處理;
[0115]-中文轉(zhuǎn)換處理。
[0116]具體地,在步驟S301中,模型訓(xùn)練設(shè)備I例如通過調(diào)用語料庫所提供的應(yīng)用程序接口(API)等方式,自該語料庫獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息,該語料信息例如未經(jīng)切詞處理或未經(jīng)中文轉(zhuǎn)換處理的一整段文字信息,或未經(jīng)中文轉(zhuǎn)換處理的多個語料序列;隨后,在步驟S301中,模型訓(xùn)練設(shè)備I對所述語料信息進(jìn)行預(yù)處理,如切詞處理、中文轉(zhuǎn)換處理等,以獲得擬用于訓(xùn)練所述目標(biāo)語言模型的語料序列。
[0117]例如,當(dāng)該語料信息為未經(jīng)切詞處理一整段文字信息,在步驟S301中,模型訓(xùn)練設(shè)備I對該段文字信息進(jìn)行切詞處理,以獲得與該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)相對應(yīng)的語料序列,作為擬用于訓(xùn)練該目標(biāo)語言模型的語料序列,如當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為I時,在步驟S301中,模型訓(xùn)練設(shè)備I通過對該段文字信息進(jìn)行切詞處理,獲得一階語料序列,作為擬用于訓(xùn)練該一階目標(biāo)語言模型的語料序列;當(dāng)該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)為2時,在步驟S301中,模型訓(xùn)練設(shè)備I通過對該段文字信息進(jìn)行切詞處理,獲得二階語料序列等,作為擬用于訓(xùn)練該二階目標(biāo)語言模型的語料序列。
[0118]又如,當(dāng)該語料信息為未經(jīng)切詞處理及未經(jīng)中文轉(zhuǎn)換處理的一整段文字信息,在步驟S301中,模型訓(xùn)練設(shè)備I首先對該段文字信息進(jìn)行中文轉(zhuǎn)換處理,將其中包含的英文序列、阿拉伯?dāng)?shù)字等非中文的序列轉(zhuǎn)換成中文序列,再對該段經(jīng)中文轉(zhuǎn)換處理后得到的文字信息進(jìn)行切詞處理,以獲得與該目標(biāo)語言模型的當(dāng)前訓(xùn)練階數(shù)相對應(yīng)的語料序列,作為擬用于訓(xùn)練該目標(biāo)語言模型的語料序列。
[0119]再如,當(dāng)該語料信息為未經(jīng)中文轉(zhuǎn)換處理的多個語料序列,該多個語料序列中存在非中文的序列,如英文序列、阿拉伯?dāng)?shù)字等,在步驟S301中,模型訓(xùn)練設(shè)備I通過中文轉(zhuǎn)換處理,將該非中文的序列轉(zhuǎn)換成中文序列,以將該經(jīng)中文轉(zhuǎn)換處理后的多個語料序列作為擬用于訓(xùn)練該目標(biāo)語言模型的語料序列。
[0120]在此,本發(fā)明對語料信息進(jìn)行預(yù)處理,獲得擬用于訓(xùn)練目標(biāo)語言模型的語料序列,再根據(jù)該經(jīng)預(yù)處理后的語料序列,對語言模型進(jìn)行訓(xùn)練處理,獲得更好的建模效果。
[0121]本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0122]圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于根據(jù)語料序列訓(xùn)練語言模型的方法流程圖。以下對該優(yōu)選實施例進(jìn)行詳細(xì)描述:具體地,在步驟S401中,模型訓(xùn)練設(shè)備I獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;在步驟S402中,模型訓(xùn)練設(shè)備I設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下步驟S403、S404和S405所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息:在步驟S403中,模型訓(xùn)練設(shè)備I根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法;在步驟S404中,模型訓(xùn)練設(shè)備I根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型;在步驟S405中,模型訓(xùn)練設(shè)備I更新所述當(dāng)前訓(xùn)練階數(shù);在步驟S406中,模型訓(xùn)練設(shè)備I獲取用戶為目標(biāo)應(yīng)用輸入的語音序列;在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)所述更新后的目標(biāo)語言模型,確定與所述語音序列相對應(yīng)的字符序列;在步驟S408中,模型訓(xùn)練設(shè)備I將與所述字符序列相對應(yīng)的信息提供給所述用戶。其中,步驟S401-S405與圖3所示對應(yīng)步驟相同或基本相同,故此處不再贅述,并通過引用的方式包含于此。
[0123]在步驟S406中,模型訓(xùn)練設(shè)備I獲取用戶為目標(biāo)應(yīng)用輸入的語音序列。具體地,用戶例如通過與用戶設(shè)備的語音采集裝置的交互,在目標(biāo)應(yīng)用中輸入語音序列,在步驟S406中,模型訓(xùn)練設(shè)備I例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取該用戶為目標(biāo)應(yīng)用所輸入的語音序列。
[0124]在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)所述更新后的目標(biāo)語言模型,確定與所述語音序列相對應(yīng)的字符序列。具體地,在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)在步驟S406中所獲取的語音序列,通過語音識別處理,確定該語音序列的發(fā)音信息,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列。例如,用戶通過與用戶設(shè)備的語音采集裝置的交互,輸入了語音序列“weibo”,在步驟S406中,模型訓(xùn)練設(shè)備I例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取了該用戶輸入的語音序列“weibo” ;隨后,在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)該語音序列“weibo”,通過語音識別處理,確定該語音序列的發(fā)音信息“weibo”,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列“圍脖”、“微博”、“微波”、“微薄”等。優(yōu)選地,在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)該更新后的目標(biāo)語言模型,確定與該語音序列相對應(yīng)的多個候選字符序列之后,還可以根據(jù)該多個候選字符序列的概率值或平滑概率值,選擇對應(yīng)的字符序列,如選擇概率值或平滑概率值大于預(yù)定概率閾值的候選字符序列,作為與該語音序列對應(yīng)的字符序列,或者,按照概率值或平滑概率值從大到小的順序,為該多個候選字符序列進(jìn)行排序,將排在前列的候選字符序列作為與該語音序列對應(yīng)的字符序列,如將排在前五位的候選字符序列作為與該語音序列對應(yīng)的字符序列。
[0125]在步驟S408中,模型訓(xùn)練設(shè)備I將與所述字符序列相對應(yīng)的信息提供給所述用戶。例如,當(dāng)該目標(biāo)應(yīng)用為語音輸入應(yīng)用,在步驟S408中,模型訓(xùn)練設(shè)備I通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將所述字符序列作為語音輸入候選詞條提供給該用戶;當(dāng)該目標(biāo)應(yīng)用為語音搜索應(yīng)用;在步驟S408中,模型訓(xùn)練設(shè)備I通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將根據(jù)該字符序列搜索獲得的一個或多個搜索結(jié)果提供給該用戶。
[0126]在此,本發(fā)明與語音識別相結(jié)合,提高了語音識別的準(zhǔn)確率。
[0127]優(yōu)選地,該目標(biāo)應(yīng)用為語音輸入應(yīng)用;其中,在步驟S408中,模型訓(xùn)練設(shè)備I將所述字符序列作為語音輸入候選詞條提供給所述用戶。例如,當(dāng)該目標(biāo)應(yīng)用為語音輸入應(yīng)用,用戶通過與用戶設(shè)備的語音采集裝置的交互,在語音輸入應(yīng)用中輸入了語音序列“weibo”,在步驟S406中,模型訓(xùn)練設(shè)備I如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取了該用戶輸入的語音序列“weibo”;隨后,在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)該語音序列“weibo”,通過語音識別處理,確定該語音序列的發(fā)音信息“weibo”,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列“圍脖”、“微博”、“微波”、“微薄”等;進(jìn)而,在步驟S408中,模型訓(xùn)練設(shè)備I通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將上述字符序列“圍脖”、“微博”、“微波”、“微薄”等作為語音輸入候選詞條提供給該用戶,以供該用戶選擇輸入。
[0128]優(yōu)選地,該目標(biāo)應(yīng)用為語音搜索應(yīng)用;其中,該方法還包括步驟S409 (未示出),在步驟S409中,模型訓(xùn)練設(shè)備I將所述字符序列作為所述用戶的查詢序列,獲取與所述查詢序列相對應(yīng)的一個或多個搜索結(jié)果;隨后,在步驟S408中,模型訓(xùn)練設(shè)備I將所述一個或多個搜索結(jié)果提供給所述用戶。具體地,當(dāng)該目標(biāo)應(yīng)用為語音搜索應(yīng)用,在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)該更新后的目標(biāo)語言模型,確定與該語音序列相對應(yīng)的字符序列;在步驟S409中,模型訓(xùn)練設(shè)備I根據(jù)在步驟S407中所確定的字符序列,將該字符序列作為該用戶的查詢序列,進(jìn)行匹配查詢,獲取與該查詢序列相對應(yīng)的一個或多個搜索結(jié)果;隨后,在步驟S408中,模型訓(xùn)練設(shè)備I通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將該一個或多個搜索結(jié)果提供給該用戶。
[0129]例如,當(dāng)該目標(biāo)應(yīng)用為語音搜索應(yīng)用,用戶通過與用戶設(shè)備的語音采集裝置的交互,在語音輸入應(yīng)用中輸入了語音序列“weibo”,在步驟S406中,模型訓(xùn)練設(shè)備I例如通過調(diào)用該用戶設(shè)備所提供的應(yīng)用程序接口(API)等方式,獲取了該用戶輸入的語音序列“weibo”;隨后,在步驟S407中,模型訓(xùn)練設(shè)備I根據(jù)該語音序列“weibo”,通過語音識別處理,確定該語音序列的發(fā)音信息“weibo”,進(jìn)而,根據(jù)該發(fā)音信息,在該更新后的目標(biāo)語言模型中進(jìn)行匹配查詢,確定與該語音序列相對應(yīng)的字符序列“圍脖”、“微博”、“微波”、“微薄”;進(jìn)而,在步驟S409中,模型訓(xùn)練設(shè)備I根據(jù)在步驟S407中所確定的字符序列,將該字符序列“圍脖”、“微博”、“微波”、“微薄”作為該用戶的查詢序列,進(jìn)行匹配查詢,獲取與該查詢序列相對應(yīng)的一個或多個搜索結(jié)果;隨后,在步驟S408中,模型訓(xùn)練設(shè)備I通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將與該字符序列“圍脖”、“微博”、“微波”、“微薄”相對應(yīng)的一個或多個搜索結(jié)果提供給該用戶,供該用戶瀏覽。
[0130]本發(fā)明的軟件程序可以通過處理器執(zhí)行以實現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲器,磁或光驅(qū)動器或軟磁盤及類似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來實現(xiàn),例如,作為與處理器配合從而執(zhí)行各個功能或步驟的電路。
[0131]另外,本發(fā)明的一部分可被應(yīng)用為計算機(jī)程序產(chǎn)品,例如計算機(jī)程序指令,當(dāng)其被計算機(jī)執(zhí)行時,通過該計算機(jī)的操作,可以調(diào)用或提供根據(jù)本發(fā)明的方法和/或技術(shù)方案。而調(diào)用本發(fā)明的方法的程序指令,可能被存儲在固定的或可移動的記錄介質(zhì)中,和/或通過廣播或其他信號承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲在根據(jù)所述程序指令運行的計算機(jī)設(shè)備的工作存儲器中。在此,根據(jù)本發(fā)明的一個實施例包括一個裝置,該裝置包括用于存儲計算機(jī)程序指令的存儲器和用于執(zhí)行程序指令的處理器,其中,當(dāng)該計算機(jī)程序指令被該處理器執(zhí)行時,觸發(fā)該裝置運行基于前述根據(jù)本發(fā)明的多個實施例的方法和/或技術(shù)方案。
[0132]對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
【權(quán)利要求】
1.一種用于根據(jù)語料序列訓(xùn)練語言模型的方法,其中,該方法包括以下步驟: a獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;b設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù),并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信bl根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法; b2根據(jù)所述語料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型; b3更新所述當(dāng)前訓(xùn)練階數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟bl包括:bll根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定所述語料序列在所述當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信bl2根據(jù)所述數(shù)據(jù)特征信息,確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟bl2包括:-當(dāng)所述數(shù)據(jù)特征信息高于預(yù)定的第一數(shù)據(jù)數(shù)量閾值,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
4.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟bl2包括:-當(dāng)所述數(shù)據(jù)特征信息低于預(yù)定的第二數(shù)據(jù)數(shù)量閾值,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中,所述步驟bl包括:-當(dāng)所述當(dāng)前訓(xùn)練階數(shù)低于三階,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
6.根據(jù)權(quán)利要求1至5中任一項所述的方法,其中,所述步驟bl包括:-當(dāng)所述當(dāng)前訓(xùn)練階數(shù)高于二`階,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
7.根據(jù)權(quán)利要求1至6中任一項所述的方法,其中,所述步驟b2還包括:-根據(jù)所述語料序列與詞庫的比較結(jié)果,并結(jié)合所述當(dāng)前訓(xùn)練階數(shù),確定待平滑處理的目標(biāo)序列;-通過所述平滑算法,確定所述目標(biāo)序列的平滑概率值;-根據(jù)所述平滑概率值,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語目模型。
8.根據(jù)權(quán)利要求1至7中任一項所述的方法,其中,所述步驟a包括:-獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息;-對所述語料信息進(jìn)行預(yù)處理,以獲得所述語料序列;其中,所述預(yù)處理包括以下至少任一項:-切詞處理;-中文轉(zhuǎn)換處理。
9.根據(jù)權(quán)利要求1至8中任一項所述的方法,其中,該方法還包括:-獲取用戶為目標(biāo)應(yīng)用輸入的語音序列;-根據(jù)所述更新后的目標(biāo)語言模型,確定與所述語音序列相對應(yīng)的字符序列;X將與所述字符序列相對應(yīng)的信息提供給所述用戶。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述目標(biāo)應(yīng)用為語音輸入應(yīng)用;其中,所述步驟X包括:-將所述字符序列作為語音輸入候選詞條提供給所述用戶。
11.根據(jù)權(quán)利要求9所述的方法,其中,所述目標(biāo)應(yīng)用為語音搜索應(yīng)用;其中,該方法還包括:-將所述字符序列作為所述用戶的查詢序列,獲取與所述查詢序列相對應(yīng)的一個或多個搜索結(jié)果;其中,所述步驟X包括:-將所述一個或多個搜索結(jié)果提供給所述用戶。
12.一種用于根據(jù)語料序列訓(xùn)練語言模型的模型訓(xùn)練設(shè)備,其中,該設(shè)備包括:序列獲取裝置,用于獲取擬用于訓(xùn)練目標(biāo)語言模型的語料序列;迭代執(zhí)行裝置,用于設(shè)置所述目標(biāo)語言模型的初始階數(shù)信息以作為其當(dāng)前訓(xùn)練階數(shù), 并結(jié)合所述目標(biāo)語言模型的最高階數(shù)信息,迭代執(zhí)行以下裝置所執(zhí)行的操作,直至所述當(dāng)前訓(xùn)練階數(shù)超過所述最高階數(shù)信息:算法確定裝置,用于根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法;模型訓(xùn)練裝置,用于根據(jù)所述語 料序列,通過所述平滑算法,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語言模型;階數(shù)更新裝置,用于更新所述當(dāng)前訓(xùn)練階數(shù)。
13.根據(jù)權(quán)利要求12所述的模型訓(xùn)練設(shè)備,其中,所述算法確定裝置還包括:特征確定單元,用于根據(jù)所述當(dāng)前訓(xùn)練階數(shù),確定所述語料序列在所述當(dāng)前訓(xùn)練階數(shù)下的數(shù)據(jù)特征信息;算法確定單元,用于根據(jù)所述數(shù)據(jù)特征信息,確定與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
14.根據(jù)權(quán)利要求13所述的模型訓(xùn)練設(shè)備,其中,所述算法確定單元用于:-當(dāng)所述數(shù)據(jù)特征信息高于預(yù)定的第一數(shù)據(jù)數(shù)量閾值,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
15.根據(jù)權(quán)利要求13所述的模型訓(xùn)練設(shè)備,其中,所述算法確定單元用于:-當(dāng)所述數(shù)據(jù)特征信息低于預(yù)定的第二數(shù)據(jù)數(shù)量閾值,將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
16.根據(jù)權(quán)利要求12至15中任一項所述的模型訓(xùn)練設(shè)備,其中,所述算法確定裝置用于:-當(dāng)所述當(dāng)前訓(xùn)練階數(shù)低于三階,將katz平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
17.根據(jù)權(quán)利要求12至16中任一項所述的模型訓(xùn)練設(shè)備,其中,所述算法確定裝置用于:-當(dāng)所述當(dāng)前訓(xùn)練階數(shù)高于二階, 將KN平滑算法作為與所述目標(biāo)語言模型相對應(yīng)的平滑算法。
18.根據(jù)權(quán)利要求12至17中任一項所述的模型訓(xùn)練設(shè)備,其中,所述模型訓(xùn)練裝置用于:-根據(jù)所述語料序列與詞庫的比較結(jié)果,并結(jié)合所述當(dāng)前訓(xùn)練階數(shù),確定待平滑處理的目標(biāo)序列;-通過所述平滑算法,確定所述目標(biāo)序列的平滑概率值;-根據(jù)所述平滑概率值,對所述目標(biāo)語言模型進(jìn)行訓(xùn)練處理,以獲得更新后的所述目標(biāo)語目模型。
19.根據(jù)權(quán)利要求12至18中任一項所述的模型訓(xùn)練設(shè)備,其中,所述序列獲取裝置用于:-獲取擬用于訓(xùn)練所述目標(biāo)語言模型的語料信息;-對所述語料信息進(jìn)行預(yù)處理,以獲得所述語料序列;其中,所述預(yù)處理包括以下至少任一項:-切詞處理;-中文轉(zhuǎn)換處理。
20.根據(jù)權(quán)利要求12至19中任一項所述的模型訓(xùn)練設(shè)備,其中,該設(shè)備還包括: 語音獲取裝置,用于獲取用戶為目標(biāo)應(yīng)用輸入的語音序列;序列確定裝置,用于根據(jù)所`述更新后的目標(biāo)語言模型,確定與所述語音序列相對應(yīng)的字符序列;信息提供裝置,用于將與所述字符序列相對應(yīng)的信息提供給所述用戶。
21.根據(jù)權(quán)利要求20所述的模型訓(xùn)練設(shè)備,其中,所述目標(biāo)應(yīng)用為語音輸入應(yīng)用;其中,所述信息提供裝置用于:-將所述字符序列作為語音輸入候選詞條提供給所述用戶。
22.根據(jù)權(quán)利要求20所述的模型訓(xùn)練設(shè)備,其中,所述目標(biāo)應(yīng)用為語音搜索應(yīng)用;其中,該設(shè)備還包括:搜索獲取裝置,用于將所述字符序列作為所述用戶的查詢序列,獲取與所述查詢序列相對應(yīng)的一個或多個搜索結(jié)果;其中,所述信息提供裝置用于:-將所述一個或多個搜索結(jié)果提供給所述用戶。
【文檔編號】G06F17/30GK103514230SQ201210226931
【公開日】2014年1月15日 申請日期:2012年6月29日 優(yōu)先權(quán)日:2012年6月29日
【發(fā)明者】萬廣魯 申請人:北京百度網(wǎng)訊科技有限公司