用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)的制作方法

文檔序號(hào)：2826227閱讀：435來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)。所述方法包括：將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表。所述方法還包括從得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并；從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并，然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表，其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。本發(fā)明可提高語(yǔ)音識(shí)別準(zhǔn)確率，且減少用戶的修正操作。
【專利說(shuō)明】用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別【技術(shù)領(lǐng)域】，特別涉及一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別技術(shù)是一種利用計(jì)算機(jī)和數(shù)字信號(hào)處理技術(shù)準(zhǔn)確地識(shí)別出人類語(yǔ)音內(nèi)容的技術(shù)。目前，面向特殊應(yīng)用的中小詞匯量語(yǔ)音識(shí)別技術(shù)已得到實(shí)際應(yīng)用。然而，由于受到背景噪音、方言口音、口語(yǔ)化的自然語(yǔ)音以及語(yǔ)義理解等因素的限制，大詞匯量說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音識(shí)別技術(shù)還無(wú)法滿足真實(shí)應(yīng)用的需求。因此，對(duì)識(shí)別結(jié)果中的識(shí)別錯(cuò)誤進(jìn)行修正是不可缺少的。為提高人工修正錯(cuò)誤的效率，相關(guān)文獻(xiàn)(如專利ZL201010269306.9)提出了對(duì)語(yǔ)音識(shí)別系統(tǒng)的中間識(shí)別結(jié)果進(jìn)行處理以生成候選列表，將候選列表作為識(shí)別結(jié)果呈現(xiàn)給用戶，并且采用相應(yīng)的交互界面接收用戶在候選列表中的選擇操作。通過(guò)這種方式，用戶只需通過(guò)選擇操作就可以修正大量錯(cuò)誤，相對(duì)于鍵盤輸入方式來(lái)說(shuō)大大提高了效率，減輕了工作量。
[0003]當(dāng)前技術(shù)中，導(dǎo)致語(yǔ)音識(shí)別準(zhǔn)確率較低的主要原因是語(yǔ)音識(shí)別系統(tǒng)內(nèi)部采用的聲學(xué)模型和語(yǔ)言模型與待識(shí)別的語(yǔ)音的特點(diǎn)不一致。由于聲學(xué)模型、語(yǔ)言模型以及訓(xùn)練語(yǔ)料之間的差異，對(duì)于相同的語(yǔ)音，不同語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果也會(huì)有較大不同。在某一場(chǎng)景下，識(shí)別效果較好的語(yǔ)音識(shí)別系統(tǒng)(或者引擎)不一定在另一場(chǎng)景下取得相同的效果。通過(guò)融合多個(gè)系統(tǒng)的識(shí)別結(jié)果，可有效地提高場(chǎng)景適應(yīng)性，提升識(shí)別的準(zhǔn)確率和用戶體驗(yàn)。然而，當(dāng)前已有的系統(tǒng)融合方法其融合結(jié)果為語(yǔ)音對(duì)應(yīng)的唯一的識(shí)別文本，無(wú)法采用基于候選列表的用戶修正方法，仍然需要較多的時(shí)間和人力進(jìn)行錯(cuò)誤修正。
[0004]因此，需要一種能夠融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果生成候選列表的方法及系統(tǒng)，以提高語(yǔ)音識(shí)別的準(zhǔn)確率，且減少用戶的修正操作。

【發(fā)明內(nèi)容】

[0005]根據(jù)本發(fā)明的一個(gè)實(shí)施例，提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法，包括:
[0006]步驟I)、將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表；
[0007]步驟2)、從步驟I)得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并；從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并，然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表；其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
[0008]在一個(gè)實(shí)施例中，所述候選列表是候選列的序列，所述候選列是一組候選字及其概率的集合。
[0009]在一個(gè)實(shí)施例中，所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)文本。[0010]在一個(gè)實(shí)施例中，步驟I)包括:
[0011]步驟11)、將所述多個(gè)文本按字?jǐn)?shù)劃分為不同的組，其中字?jǐn)?shù)相同的文本為一組；
[0012]步驟12)、對(duì)每個(gè)組新建一個(gè)候選列個(gè)數(shù)為該組每個(gè)文本的字?jǐn)?shù)的候選列表，將該候選列表中每個(gè)候選列的候選字集合設(shè)為該組所有文本對(duì)應(yīng)位置的字集合，且將每個(gè)候選字的概率設(shè)為該候選字在所述多個(gè)文本的對(duì)應(yīng)位置出現(xiàn)的頻率；
[0013]步驟13)、從步驟12)得到的所有組的候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并，用所得到的候選列表代替所述兩個(gè)候選列表；然后重復(fù)這一過(guò)程直到該集合中只剩一個(gè)候選列表。
[0014]在一個(gè)實(shí)施例中,在步驟13)中,對(duì)齊兩個(gè)候選列表包括:
[0015]步驟i)、設(shè)置二維數(shù)組d[n+l] [m+1],其中,η是候選列表L= (C1, C2,, Cn)的候選列個(gè)數(shù)，m是另一候選列表L’ = (C’ i，C’ 2，...，C’m)的候選列個(gè)數(shù)，d[i] [j]表示兩個(gè)子候選列表(CuCwMCi)與(C’dC、...，(:’」)之間的編輯距離，i e [l，n]，j e [l，m]，d[i]
[0]=i, d[0] [j]=j ；
[0016]步驟ii)、對(duì)于i從I到n，j從I到m,根據(jù)下式依次計(jì)算d[i] [j]:
[0017]d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost}
[0018]其中，cost是候選列Ci與C’ j之間的替換代價(jià)，其取值為O或I ;若選擇為d[i][j]+cost且COSt=O,則候選列Ci匹配成功；若選擇為d[i] [j]+cost且cost=l ;則在Ci處存在替換錯(cuò)誤；若選擇為d[i_l] [j]+1，則在Ci處存在刪除錯(cuò)誤；若選擇為d[i] [j_l]+l，則在Ci處存在插入錯(cuò)誤；
[0019]步驟iii)、對(duì)于i從η到0，j從m到0，若候選項(xiàng)Ci匹配成功或存在替換錯(cuò)誤，則將i和j的值都減I ;若在Ci處存在插入錯(cuò)誤，則在候選列表L的第i個(gè)候選列之后插入一個(gè)候選列，該候選列包含一個(gè)空字符的候選字，其概率設(shè)為I，將j的值減I ;若在Ci處存在刪除錯(cuò)誤，則在候選列表L’的第j個(gè)候選列之后插入一個(gè)候選列，該候選列包含一個(gè)空字符的候選字，其概率設(shè)為1，將i的值減I。
[0020]在進(jìn)一步的實(shí)施例中,根據(jù)以下步驟計(jì)算候選列Ci與C’ j之間的替換代價(jià)cost:
[0021]步驟a)、比較Ci與C’ j的第I個(gè)候選字Wm與w’ J； 1；如果wi;1與w’ ^拼音相同則設(shè)Cost=O,否則執(zhí)行步驟b)；
[0022]步驟b)、依次計(jì)算C’ j的所有候選字卜^乂”…^^^的拼音與^的拼音之間
的相似度，如果其中最大的相似度大于預(yù)定閾值則設(shè)cost=0，否則設(shè)cost=l，其中為C’ j中的候選字個(gè)數(shù)。
[0023]在個(gè)實(shí)施例中，在步驟13)中，合并對(duì)齊后的兩個(gè)候選列表包括:
[0024]新建一個(gè)候選列表L—其候選列個(gè)數(shù)與對(duì)齊后的兩個(gè)候選列表L和L’的候選列個(gè)數(shù)相同；
[0025]將Lmwge中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L和L’在該候選列的所有候選字的集合；以及
[0026]根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
[0027]Pmerge (W) = λ lPl (w) + λ 2p2 (w)
[0028]其中，P1 (W)和ρ2 (W)分別是w在對(duì)齊后的L和L’中該候選列的概率；λ 1和入2為合并系數(shù)。[0029]在進(jìn)一步的實(shí)施例中，根據(jù)下式計(jì)算合并系數(shù)λ i和λ 2:
,_ nI, _ η2
[0030]Λι = ——— ? Λι =———
+ η2η, + n2
[0031]其中，如果L、L’是未合并的候選列表，則Iipn2分別是L、L’對(duì)應(yīng)的組中的文本個(gè)數(shù)；如果L、L’是已合并的候選列表，則ηι、η2分別是用于合并生成L、L’的候選列表對(duì)應(yīng)的組中的文本個(gè)數(shù)之和。
[0032]在一個(gè)實(shí)施例中，所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本。
[0033]在進(jìn)一步的實(shí)施例中，步驟I)包括:
[0034]新建一個(gè)候選列個(gè)數(shù)為文本字?jǐn)?shù)的候選列表；
[0035]將該候選列表中每個(gè)候選列的候選字設(shè)為該文本對(duì)應(yīng)位置的字，且將其概率設(shè)為
1
[0036]在一個(gè)實(shí)施例中，所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括詞網(wǎng)格。
[0037]在一個(gè)實(shí)施例中,在步驟2)中,合并對(duì)齊后的任選的兩個(gè)候選列表包括:
[0038]新建一個(gè)候選列表Lm?ge，其候選列個(gè)數(shù)與對(duì)齊后的候選列表L1和L2的候選列個(gè)數(shù)相同；
[0039]將Lmwge中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L1和L2在該候選列的所有候選字的集合；以及
[0040]根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
[0041 ] Pmerge (W)[0042]其中，P1 (w)和p2(w)分別為w在對(duì)齊后的L1和L2中該候選列的概率；λ i和λ 2為融合系數(shù)。
[0043]在一個(gè)實(shí)施例中，在步驟2)中，合并對(duì)齊后集合中任選的一個(gè)候選列表與已融合候選列表包括:
[0044]新建一個(gè)候選列表Lnewjiwge,其候選列個(gè)數(shù)與對(duì)齊后的未融合候選列表Li和已融合候選列表Lmwge的候選列個(gè)數(shù)相同，其中i e [3，k]，k為所有候選列表的個(gè)數(shù)；
[0045]將Lmw 中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的Lmwge和Li在該候選列的所有候選字的集合；以及
[0046]根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
[0047]Pnew merge (w) =Pmerge (W) + λ iPi (w)
[0048]其中，PmCTge (w)為W在對(duì)齊后的LmOTge;中該候選列的概率，Pi (W)為W在對(duì)齊后的Li中該候選列的概率；λ i為融合系數(shù)。
[0049]在進(jìn)一步的實(shí)施例中，融合系數(shù)由在一個(gè)開發(fā)數(shù)據(jù)集上各語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率來(lái)指定。
[0050]在一個(gè)實(shí)施例中，步驟2 )之后還包括:
[0051]步驟3)、根據(jù)下式調(diào)整融合系數(shù):
[0052]λ.new=A.0ld+0 -PRi
[0053]其中，λ Mld為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果對(duì)應(yīng)的更新前的融合系數(shù)，i e [l，k]，Θ為縮放因子，PRi為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率。[0054]在一個(gè)實(shí)施例中，步驟3 )之后還包括:
[0055]對(duì)融合系數(shù)進(jìn)行歸一化處理。
[0056]在一個(gè)實(shí)施例中，所述識(shí)別結(jié)果的準(zhǔn)確率為正確的字?jǐn)?shù)與正確文本中字?jǐn)?shù)的比值。
[0057]根據(jù)本發(fā)明的一個(gè)實(shí)施例，還提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的系統(tǒng)，包括:
[0058]轉(zhuǎn)換模塊，用于將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表；
[0059]融合模塊，用于從所述轉(zhuǎn)換模塊得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并；從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并，然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表；其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
[0060]采用本發(fā)明可融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果，生成候選列表。在提高語(yǔ)音識(shí)別準(zhǔn)確率的同時(shí)，減少了用戶的修正操作。
【專利附圖】

【附圖說(shuō)明】
[0061]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法的流程圖；
[0062]圖2是候選列表的一個(gè)實(shí)施例的不意圖；
[0063]圖3是對(duì)語(yǔ)音進(jìn)行識(shí)別得到的詞網(wǎng)格的一個(gè)實(shí)施例的示意圖；
[0064]圖4a_4c是對(duì)多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果生成多個(gè)候選列表的一個(gè)實(shí)施例的示意圖；
[0065]圖5a和5b是分別對(duì)多個(gè)可能的文本的字?jǐn)?shù)相同組生成候選列表的一個(gè)實(shí)施例的示意圖；
[0066]圖6是圖5a和5b中的候選列表對(duì)齊結(jié)果的不意圖；以及
[0067]圖7是融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果得到的最終候選列表的一個(gè)實(shí)施例的示意圖。
【具體實(shí)施方式】
[0068]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚，以下結(jié)合附圖及實(shí)施例，對(duì)本發(fā)明提供的用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0069]在一個(gè)方面，本發(fā)明提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法。在該方法中，融合的結(jié)果以候選列表的形式呈現(xiàn)，即融合后生成新的、優(yōu)于單個(gè)系統(tǒng)結(jié)果的候選列表。簡(jiǎn)要而言，該方法包括:將所有待融合的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果表示為候選列表的形式；以及，將所有已表示為候選列表形式的識(shí)別結(jié)果進(jìn)行融合，得到融合后的候選列表。
[0070]現(xiàn)參考圖1且具體描述用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法:
[0071]步驟1、將所有待融合的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果表示為候選列表的形式
[0072]目前，語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果(包括中間結(jié)果)主要是如下幾種形式之一:[0073]I)、所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本；
[0074]2)、所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本；
[0075]3)、語(yǔ)音識(shí)別系統(tǒng)對(duì)所識(shí)別語(yǔ)音進(jìn)行識(shí)別后生成的詞網(wǎng)格；
[0076]4 )、所識(shí)別語(yǔ)音對(duì)應(yīng)的候選列表。
[0077]在一個(gè)實(shí)施例中，可將候選列表表示為一個(gè)候選列的序列LKC1, C2, , Cn)，其中η為候選列的個(gè)數(shù)，Ci (i=l,...，η)為第i個(gè)候選列。一個(gè)候選列C是一組候選字及其概率的集合，即 C=Kw1, P1), (w2, P2),...，(wm, pm)},其中 m 為候選字的個(gè)數(shù),Wj (j=l, 2,..., m)為第j個(gè)候選字，Pj (」=1，2，...，111)為％對(duì)應(yīng)的概率，《1—《111的和可為1。圖2示出了候選列表的一個(gè)不例。
[0078]在一些實(shí)施例中，對(duì)于上述識(shí)別結(jié)果形式I) 一3)，要將其分別表示為候選列表的形式，可分別采用以下方式①一③:
[0079]①如果識(shí)別結(jié)果為所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本，則將該文本切分為字的序列。新建一個(gè)候選列表作為該識(shí)別結(jié)果對(duì)應(yīng)的候選列表，將該候選列表的候選列個(gè)數(shù)設(shè)為切分出的字序列中字的個(gè)數(shù)；將候選列表中的每一個(gè)候選列設(shè)為只包含一個(gè)候選字，即切分出的字序列中對(duì)應(yīng)位置的字，并將該候選字的概率設(shè)為I。
[0080]②如果識(shí)別結(jié)果為所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本，則對(duì)這些文本進(jìn)行處理，生成對(duì)應(yīng)的候選列表。在一個(gè)實(shí)施例中，其具體步驟可以包括:
[0081]步驟a)，將所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本按照文本的字?jǐn)?shù)劃分成若干組，每一組由字?jǐn)?shù)相同的文本構(gòu)成。假設(shè)分為η組,得到集合S=Iset1, set2,...，setj ,set； = ’...，卿 M,} Ui 為 Seti 中文本的個(gè)數(shù))，其中 Seti (i=l, 2,...,η)中的每一條文本SeniJU=I,..., Iii)的字?jǐn)?shù)都是相同的。
[0082]步驟b)，對(duì)上述生成的每一個(gè)包含相同字?jǐn)?shù)的文本的組，生成一個(gè)候選列表。即對(duì)S中的每一個(gè)集合Seti,生成一個(gè)候選列表Li。這樣對(duì)S可生成一個(gè)對(duì)應(yīng)的候選列表的集合 LS= (L1, L2,..., LnI ο
[0083]生成Li的方法可以為:將1^中候選列的列數(shù)設(shè)為Seti中每個(gè)文本的字?jǐn)?shù)；將1^中第j個(gè)候選列中的候選字集合設(shè)為Seti中所有文本的第j個(gè)字的集合，將各候選字的概率設(shè)為該候選字在所有文本的第j列中出現(xiàn)的頻率。
[0084]步驟C)，將任意兩個(gè)組對(duì)應(yīng)的候選列表進(jìn)行對(duì)齊與合并，生成一個(gè)新候選列表，并替換原來(lái)的兩個(gè)候選列表。重復(fù)這一過(guò)程直到只剩一個(gè)候選列表，即為由所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本轉(zhuǎn)換得到的候選列表。
[0085]也就是說(shuō)，對(duì)LS中的任意兩個(gè)候選列表L和L’進(jìn)行對(duì)齊與合并，生成一個(gè)新候選列表Lm_ ;在LS中加入L—?jiǎng)h除L和L?！貜?fù)這一過(guò)程直到LS中只剩一個(gè)候選列表，即為由所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本轉(zhuǎn)換得到的候選列表。
[0086]將L和L ’進(jìn)行對(duì)齊是指在兩個(gè)候選列表的候選列之間建立對(duì)應(yīng),若兩個(gè)候選列表的候選列數(shù)不同，則需根據(jù)對(duì)齊結(jié)果進(jìn)行適當(dāng)調(diào)整，使其列數(shù)相同。在一個(gè)實(shí)施例中，對(duì)齊的方法可采用基于改進(jìn)的編輯距離對(duì)齊的方法。編輯距離又稱Levenshtein距離，用于衡量?jī)蓚€(gè)字符串之間的差異性及對(duì)齊字符串。本發(fā)明中要對(duì)齊的對(duì)象是候選列表，因此，對(duì)編輯距離算法進(jìn)行了改進(jìn)。設(shè)L=(Ci，C2,, Cn)，其中η為候選列的個(gè)數(shù)，Ci(i=l，...,η)
為第i個(gè)候選列，(wl2,pl2),...,)}，其中Iii為Ci中候選字的個(gè)數(shù)；L’ = (C，ρ C’ 2，...，C’m)，其中m為候選列的個(gè)數(shù)，C’ j (j=l,...，m)為第j個(gè)候選列，
…，('、.，~,《^，其中~為^中候選字的個(gè)數(shù)?；诟倪M(jìn)
的編輯距離對(duì)齊的方法如下:
[0087]i)，設(shè)置二維數(shù)組d[n+l] [m+1]用于記錄動(dòng)態(tài)規(guī)劃對(duì)齊(即改進(jìn)的編輯距離對(duì)齊)的中間結(jié)果，其中d[i] [j] (i=l,..., n; j=l,...，m)表示兩個(gè)子候選列表(C1, C2,, Ci)與(C，u C' 2,...,C' j)之間的編輯距離。初始化 d[i] [0]=i, d[0] [j]=j ；
[0088]ii),對(duì)于 i=l,...，n, j=l,...，m,根據(jù)以下公式依次計(jì)算 d[i] [j]:
[0089]d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost}
[0090]其中，min{}表示求最小值的操作，cost是Ci與C’ j之間的替換代價(jià)，其取值為O或I。記錄求最小值操作的選擇。以L為基準(zhǔn),若選擇為d[i] [j]+cost,且cost=0,則稱候選列Ci匹配成功；若選擇為d[i] [j]+cost,且cost=l,則稱在Ci處存在替換錯(cuò)誤；若選擇為d[1-l] [j]+l，則稱在Ci處存在刪除錯(cuò)誤；若選擇為d[i] [j_l]+l，則稱在Ci處存在插入錯(cuò)誤。
[0091]在進(jìn)一步的實(shí)施例中，替換代價(jià)cost的計(jì)算方法如下:比較Ci與C’ j的第I個(gè)候選字，即Wiil與w’ j，i，如果這兩個(gè)字拼音(不帶聲調(diào))相同，則令COSt=O ;否則，依次計(jì)算C’ J的所有候選字{ %,U %'2，.., 乂的拼音與Wm的拼音之間的相似度，如果最大的相似度大于某個(gè)預(yù)先設(shè)定的閾值T,則令COSt=O,否則令cost=l。
[0092]在進(jìn)一步的實(shí)施例中，拼音之間的相似度計(jì)算可以采用當(dāng)前已有的多種方法，例如:采用音節(jié)混淆矩陣。音節(jié)混淆矩陣是一個(gè)漢語(yǔ)音節(jié)(可認(rèn)為是拼音)之間混淆概率的矩陣，矩陣中的值(即兩個(gè)音節(jié)的混淆概率)由語(yǔ)料訓(xùn)練得到，即采用一批語(yǔ)音數(shù)據(jù)，經(jīng)語(yǔ)音識(shí)別系統(tǒng)識(shí)別后，將語(yǔ)音對(duì)應(yīng)的正確文本與相應(yīng)識(shí)別結(jié)果中的字對(duì)齊，然后統(tǒng)計(jì)任一音節(jié)被識(shí)別為另一任意音節(jié)的頻率，將其作為兩個(gè)音節(jié)的混淆概率。
[0093]iii)，利用計(jì)算編輯距離的過(guò)程中保存的求最小值操作時(shí)的選擇對(duì)候選列表L與L’進(jìn)行對(duì)齊與候選列調(diào)整。方法如下:從i=n，j=m開始向后回溯，具體規(guī)則為:考察計(jì)算d[i] [j]時(shí)求最小值操作時(shí)的選擇，以L為基準(zhǔn)，若候選列Ci匹配成功或存在替換錯(cuò)誤，則將i和j的值都減I ;若Ci處存在插入錯(cuò)誤，則將j的值減I ;若Ci處存在刪除錯(cuò)誤，則將I的值減I。如此重復(fù)，直到i與j的值均為O。對(duì)上述回溯過(guò)程中的每一對(duì)(i，j)，根據(jù)計(jì)算d[i][j]時(shí)求最小值操作時(shí)的選擇，調(diào)整L與L’的候選列:以L為基準(zhǔn)，若Ci處存在插入錯(cuò)誤，則在L的第i個(gè)候選列之后插入一個(gè)候選列，該候選列只包含一個(gè)候選字，為空字符，其概率設(shè)為I ;若Ci處存在刪除錯(cuò)誤，則在L’的第j個(gè)候選列之后插入一個(gè)候選列，該候選列只包含一個(gè)候選字，為空字符，其概率設(shè)為I。
[0094]經(jīng)上述對(duì)齊過(guò)程后，L與L’中包含的候選列個(gè)數(shù)相等，并且相同位置的候選列
--對(duì)應(yīng)。
[0095]在將L與L’對(duì)齊后,在一個(gè)實(shí)施例中,可以米用插值的方法將兩個(gè)候選列表進(jìn)行合并，生成一個(gè)新的候選列表Lm?ge。生成的方法為:設(shè)經(jīng)對(duì)齊調(diào)整后L和L’的候選列數(shù)均為1，對(duì)于i=l，2，...，1，將L和L’中第i個(gè)候選列中的所有候選字均加入Lnrew的第i個(gè)候選列，其中任一候選字w的概率為:
[0096]Pmerge (W) = λ lPl (w) + λ 2p2 (w)[0097]其中,P1 (w)和p2(w)分別為w在L和L’的第i個(gè)候選列中的概率,若w不在L的第i個(gè)候選列中，則P1 (W) =0,同理,若w不在L’的第i個(gè)候選列中，則P2 (w) =0 ; λ i和λ 2為合并系數(shù)，計(jì)算方法為:
[0098]
[0099]其中，H1, n2分別為L(zhǎng)和L’對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)。一個(gè)候選列表對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)定義為:若候選列表由步驟b)生成，尚未經(jīng)過(guò)合并，則其對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)為步驟b)中生成該候選列表的識(shí)別結(jié)果文本組中所含文本的個(gè)數(shù)；若候選列表由兩個(gè)候選列表在步驟c)中合并而成，則其對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)為合并生成該候選列表的兩個(gè)候選列表各自對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)之和。
[0100]在另一個(gè)實(shí)施例中，還可以使用按出現(xiàn)次數(shù)投票的方法來(lái)合并兩個(gè)候選列表。
[0101]應(yīng)理解，如果識(shí)別結(jié)果為所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本，還可以用其他方式將其轉(zhuǎn)換為候選列表的形式。例如，可將識(shí)別結(jié)果回溯為詞網(wǎng)格，再將詞網(wǎng)格轉(zhuǎn)換為候選列表的形式(如下文所述)。
[0102]③如果識(shí)別結(jié)果為語(yǔ)音識(shí)別系統(tǒng)對(duì)所識(shí)別語(yǔ)音進(jìn)行識(shí)別后生成的詞網(wǎng)格，則將詞網(wǎng)格轉(zhuǎn)換為候選列表。轉(zhuǎn)換的方法可采用當(dāng)前已有方法，如采用專利ZL201010269306.9(名稱為一種交互式語(yǔ)音識(shí)別系統(tǒng)和方法)中的“候選生成與錯(cuò)誤修正模塊”從詞網(wǎng)格生成候選列表。
[0103]步驟2)、將所有已表示為候選列表形式的識(shí)別結(jié)果進(jìn)行融合，得到融合后的候選列表。
[0104]在一個(gè)實(shí)施例中，假設(shè)所有識(shí)別結(jié)果對(duì)應(yīng)的候選列表分別為L(zhǎng)1, L2, , Lk，融合的方法包括:
[0105]首先，采用基于改進(jìn)的編輯距離對(duì)齊的方法將L1與L2對(duì)齊，并將其合并生成新的候選列表Lmwgei。在生成時(shí),將L1與L2中對(duì)應(yīng)候選列中的所有候選字加入Lmwgei的相應(yīng)候選列，其中任一候選字w的概率為:
[0106]Pmerge (W) = λ lPl (w) + λ 2p2 (w)
[0107]其中，P1(W)和p2(w)分別為w在L1與L2中的概率(若w不在L1或L2中則相應(yīng)概率為O), λ工和λ 2為融合系數(shù)；
[0108]然后，依次將Lnrew與L3,...，Lk對(duì)齊合并，即每次合并的結(jié)果作為新的Lmwge與后續(xù)候選列表進(jìn)行合并。對(duì)齊時(shí)可采用基于改進(jìn)的編輯距離對(duì)齊的方法，合并時(shí)，將原有Lmew與Li (i=3,...，k)對(duì)應(yīng)候選列中的所有候選字加入新列表Lnrat 的相應(yīng)候選列，其中任一候選字w的概率為:
[0109]Pnew merge (w) =Pmerge (W) + λ iPi (w)
[0110]其中，Pmerge (w)為w在原有Lmwge的概率，Pi (W)為w在Li中的概率(若w不在Lmwge或Li中則相應(yīng)概率為OXXi為融合系數(shù)。
[0111]最終得到的Lnew mew即為多個(gè)識(shí)別結(jié)果的融合結(jié)果，形式為一個(gè)候選列表。
[0112]上述過(guò)程中，基于改進(jìn)的編輯距離對(duì)齊的方法與上文描述相同。λ” X2，...，Ak
為融合系數(shù)，其滿足ΣΙλ =I在一個(gè)實(shí)施例中，在初始時(shí)，可根據(jù)在一個(gè)開發(fā)數(shù)據(jù)集上各識(shí)別結(jié)果的準(zhǔn)確率情況人工來(lái)指定融合系數(shù)。
[0113]在進(jìn)一步的實(shí)施例中，可在語(yǔ)音識(shí)別過(guò)程中利用用戶修正信息動(dòng)態(tài)調(diào)整各個(gè)識(shí)別引擎的識(shí)別結(jié)果在融合時(shí)的融合系數(shù)，使得識(shí)別準(zhǔn)確率高的識(shí)別引擎對(duì)應(yīng)的融合系數(shù)增大，識(shí)別準(zhǔn)確率低的識(shí)別引擎對(duì)應(yīng)的融合系數(shù)減小，從而提高融合后的識(shí)別結(jié)果的準(zhǔn)確率。具體方法為:
[0114]在每識(shí)別完一句話，并將多個(gè)識(shí)別結(jié)果融合為一個(gè)候選列表顯示在屏幕上后，可通過(guò)用戶交互模塊獲取用戶對(duì)識(shí)別結(jié)果的修正，從而得到這句話對(duì)應(yīng)的正確文本。用戶交互模塊支持用戶通過(guò)鼠標(biāo)或觸摸屏點(diǎn)擊選擇候選、通過(guò)鼠標(biāo)或鍵盤刪除錯(cuò)誤的字、通過(guò)鍵盤或手寫板輸入正確的字。在獲得這句話對(duì)應(yīng)的正確文本后，可以和各個(gè)識(shí)別引擎的原始識(shí)別結(jié)果比較，計(jì)算出各個(gè)識(shí)別引擎識(shí)別結(jié)果的準(zhǔn)確率，然后根據(jù)其準(zhǔn)確率調(diào)整該引擎的識(shí)別結(jié)果對(duì)應(yīng)的融合系數(shù)。設(shè)有k個(gè)語(yǔ)音識(shí)別引擎，其識(shí)別結(jié)果在融合時(shí)對(duì)應(yīng)的融合系數(shù)分別為λ2，...，λ k，其識(shí)別結(jié)果的準(zhǔn)確率分別為PR1, PR2,...，PRk，則根據(jù)下式調(diào)整融合系數(shù):
【權(quán)利要求】
1.一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法，包括: 步驟I)、將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表；步驟2)、從步驟I)得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并；從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并，然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表；其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
2.根據(jù)權(quán)利要求1所述的方法，其中，所述候選列表是候選列的序列，所述候選列是一組候選字及其概率的集合。
3.根據(jù)權(quán)利要求2所述的方法，其中，所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)文本。
4.根據(jù)權(quán)利要求3所述的方法，其中，步驟I)包括: 步驟11)、將所述多個(gè)文本按字?jǐn)?shù)劃分為不同的組，其中字?jǐn)?shù)相同的文本為一組；步驟12)、對(duì)每個(gè)組新建一個(gè)候選列個(gè)數(shù)為該組每個(gè)文本的字?jǐn)?shù)的候選列表，將該候選列表中每個(gè)候選列的候選字集合設(shè)為該組所有文本對(duì)應(yīng)位置的字集合，且將每個(gè)候選字的概率設(shè)為該候選字在所述多個(gè)文本的對(duì)應(yīng)位置出現(xiàn)的頻率；步驟13)、從步驟12)得到的所有組的候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并，用所得到的候選列表代替所述兩個(gè)候選列表；然后重復(fù)這一過(guò)程直到該集合中只剩一個(gè)候選列表。
5.根據(jù)權(quán)利要求4所述的方法，步驟13)中，對(duì)齊兩個(gè)候選列表包括: 步驟i)、設(shè)置二維數(shù)組d[n+l] [m+1],其中，η是候選列表L= (C1, C2,, Cn)的候選列個(gè)數(shù)，m是另一候選列表m)的候選列個(gè)數(shù)，d[i] [j]表示兩個(gè)子候選列表((；，(:2，...，(；)與((^，(:’2，...，(:’」)之間的編輯距離，i e [I, n], j e [l,m], d[i][0]=i, d[0] [j]=j ；步驟ii)、對(duì)于i從I到n，j從I到m,根據(jù)下式依次計(jì)算d[i] [j]: d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost} 其中，cost是候選列Ci與C’ ^之間的替換代價(jià)，其取值為O或I ;若選擇為d[i][j]+cost且COSt=O,則候選列Ci匹配成功；若選擇為d[i] [j]+cost且cost=l ;則在Ci處存在替換錯(cuò)誤；若選擇為d[1-l] [j]+1，則在Ci處存在刪除錯(cuò)誤；若選擇為d[i] [j_l]+l，則在Ci處存在插入錯(cuò)誤；步驟iii)、對(duì)于i從η到0，j從m到0，若候選項(xiàng)Ci匹配成功或存在替換錯(cuò)誤，則將i和j的值都減I ;若在Ci處存在插入錯(cuò)誤，則在候選列表L的第i個(gè)候選列之后插入一個(gè)候選列，該候選列包含一個(gè)空字符的候選字，其概率設(shè)為1，將j的值減I ;若在Ci處存在刪除錯(cuò)誤，則在候選列表L’的第j個(gè)候選列之后插入一個(gè)候選列，該候選列包含一個(gè)空字符的候選字，其概率設(shè)為1，將i的值減I。
6.根據(jù)權(quán)利要求5所述的方法，其中，根據(jù)以下步驟計(jì)算候選列Ci與C’j之間的替換代價(jià)cost: 步驟a)、比較Ci與C’ j的第I個(gè)候選字Wm與w’ J-1；如果Wm與w’ J；1拼音相同則設(shè)Cost=O,否則執(zhí)行步驟b)；步驟b )、依次計(jì)算C’ j的所有候選字{ Wja，,..., Wjjnf }的拼音與Wi, I的拼音之間的相似度，如果其中最大的相似度大于預(yù)定閾值則設(shè)
7.根據(jù)權(quán)利要求4所述的方法，步驟13)中，合并對(duì)齊后的兩個(gè)候選列表包括: 新建一個(gè)候選列表L—其候選列個(gè)數(shù)與對(duì)齊后的兩個(gè)候選列表L和L’的候選列個(gè)數(shù)相同；將Lnrew中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L和L’在該候選列的所有候選字的集合；以及根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
8.根據(jù)權(quán)利要求7所述的方法，其中，根據(jù)下式計(jì)算合并系數(shù)入1和λ2:
9.根據(jù)權(quán)利要求2所述的方法，其中，所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本。
10.根據(jù)權(quán)利要求9所述的方法，其中，步驟I)包括: 新建一個(gè)候選列個(gè)數(shù)為文本字?jǐn)?shù)的候選列表；將該候選列表中每個(gè)候選列的候選字設(shè)為該文本對(duì)應(yīng)位置的字，且將其概率設(shè)為I。
11.根據(jù)權(quán)利要求1所述的方法，其中，所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括詞網(wǎng)格。
12.根據(jù)權(quán)利要求1-11中任何一個(gè)所述的方法，步驟2)中，合并對(duì)齊后的任選的兩個(gè)候選列表包括: 新建一個(gè)候選列表Lmwgei,其候選列個(gè)數(shù)與對(duì)齊后的候選列表L1和L2的候選列個(gè)數(shù)相同；將中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L1和L2在該候選列的所有候選字的集合；以及根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
13.根據(jù)權(quán)利要求12所述的方法，步驟2)中，合并對(duì)齊后的集合中任選的一個(gè)候選列表與已融合候選列表包括: 新建一個(gè)候選列表LnOT—mOTge;,其候選列個(gè)數(shù)與對(duì)齊后的未融合候選列表Li和已融合候選列表的候選列個(gè)數(shù)相同，其中i e [3，k]，k為所有候選列表的個(gè)數(shù)；將Lrewjiwgei中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的Lmwgei和Li在該候選列的所有候選字的集合；以及根據(jù)下式計(jì)算在該候選列的每個(gè)候選字W的概率:
Pnew_merge (?) =Pmerge (?) + 入 iPi (W) 其中，Pmerge (W)為W在對(duì)齊后的LmOTge;中該候選列的概率，Pi (W)為W在對(duì)齊后的Li中該候選列的概率；λ i為融合系數(shù)。
14.根據(jù)權(quán)利要求13所述的方法，其中，融合系數(shù)由在一個(gè)開發(fā)數(shù)據(jù)集上各語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率來(lái)指定。
15.根據(jù)權(quán)利要求14所述的方法，其中，步驟2)之后還包括: 步驟3)、根據(jù)下式調(diào)整融合系數(shù):
入 i，new_ 入 i，old+ ^.P^i 其中，λ ^old為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果對(duì)應(yīng)的更新前的融合系數(shù)，i e [I, k]，Θ為縮放因子，PRi為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率。
16.根據(jù)權(quán)利要求15所述的方法，其中，步驟3)之后還包括: 對(duì)融合系數(shù)進(jìn)行歸一化處理。
17.根據(jù)權(quán)利要求15所述的方法，其中，所述識(shí)別結(jié)果的準(zhǔn)確率為正確的字?jǐn)?shù)與正確文本中字?jǐn)?shù)的比值。
18.一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的系統(tǒng)，包括: 轉(zhuǎn)換模塊，用于將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表；融合模塊，用于從所述轉(zhuǎn)換模塊得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并；從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并，然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表；其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
【文檔編號(hào)】G10L15/26GK103474069SQ201310413628
【公開日】2013年12月25日申請(qǐng)日期:2013年9月12日優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】王向東, 楊陽(yáng), 錢躍良申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載