用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)。所述方法包括:將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表。所述方法還包括從得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并;從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并,然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表,其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。本發(fā)明可提高語(yǔ)音識(shí)別準(zhǔn)確率,且減少用戶的修正操作。
【專利說(shuō)明】用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別【技術(shù)領(lǐng)域】,特別涉及一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別技術(shù)是一種利用計(jì)算機(jī)和數(shù)字信號(hào)處理技術(shù)準(zhǔn)確地識(shí)別出人類語(yǔ)音內(nèi)容的技術(shù)。目前,面向特殊應(yīng)用的中小詞匯量語(yǔ)音識(shí)別技術(shù)已得到實(shí)際應(yīng)用。然而,由于受到背景噪音、方言口音、口語(yǔ)化的自然語(yǔ)音以及語(yǔ)義理解等因素的限制,大詞匯量說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音識(shí)別技術(shù)還無(wú)法滿足真實(shí)應(yīng)用的需求。因此,對(duì)識(shí)別結(jié)果中的識(shí)別錯(cuò)誤進(jìn)行修正是不可缺少的。為提高人工修正錯(cuò)誤的效率,相關(guān)文獻(xiàn)(如專利ZL201010269306.9)提出了對(duì)語(yǔ)音識(shí)別系統(tǒng)的中間識(shí)別結(jié)果進(jìn)行處理以生成候選列表,將候選列表作為識(shí)別結(jié)果呈現(xiàn)給用戶,并且采用相應(yīng)的交互界面接收用戶在候選列表中的選擇操作。通過(guò)這種方式,用戶只需通過(guò)選擇操作就可以修正大量錯(cuò)誤,相對(duì)于鍵盤輸入方式來(lái)說(shuō)大大提高了效率,減輕了工作量。
[0003]當(dāng)前技術(shù)中,導(dǎo)致語(yǔ)音識(shí)別準(zhǔn)確率較低的主要原因是語(yǔ)音識(shí)別系統(tǒng)內(nèi)部采用的聲學(xué)模型和語(yǔ)言模型與待識(shí)別的語(yǔ)音的特點(diǎn)不一致。由于聲學(xué)模型、語(yǔ)言模型以及訓(xùn)練語(yǔ)料之間的差異,對(duì)于相同的語(yǔ)音,不同語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果也會(huì)有較大不同。在某一場(chǎng)景下,識(shí)別效果較好的語(yǔ)音識(shí)別系統(tǒng)(或者引擎)不一定在另一場(chǎng)景下取得相同的效果。通過(guò)融合多個(gè)系統(tǒng)的識(shí)別結(jié)果,可有效地提高場(chǎng)景適應(yīng)性,提升識(shí)別的準(zhǔn)確率和用戶體驗(yàn)。然而,當(dāng)前已有的系統(tǒng)融合方法其融合結(jié)果為語(yǔ)音對(duì)應(yīng)的唯一的識(shí)別文本,無(wú)法采用基于候選列表的用戶修正方法,仍然需要較多的時(shí)間和人力進(jìn)行錯(cuò)誤修正。
[0004]因此,需要一種能夠融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果生成候選列表的方法及系統(tǒng),以提高語(yǔ)音識(shí)別的準(zhǔn)確率,且減少用戶的修正操作。
【發(fā)明內(nèi)容】
[0005]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法,包括:
[0006]步驟I)、將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表;
[0007]步驟2)、從步驟I)得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并;從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并,然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表;其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
[0008]在一個(gè)實(shí)施例中,所述候選列表是候選列的序列,所述候選列是一組候選字及其概率的集合。
[0009]在一個(gè)實(shí)施例中,所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)文本。[0010]在一個(gè)實(shí)施例中,步驟I)包括:
[0011]步驟11)、將所述多個(gè)文本按字?jǐn)?shù)劃分為不同的組,其中字?jǐn)?shù)相同的文本為一組;
[0012]步驟12)、對(duì)每個(gè)組新建一個(gè)候選列個(gè)數(shù)為該組每個(gè)文本的字?jǐn)?shù)的候選列表,將該候選列表中每個(gè)候選列的候選字集合設(shè)為該組所有文本對(duì)應(yīng)位置的字集合,且將每個(gè)候選字的概率設(shè)為該候選字在所述多個(gè)文本的對(duì)應(yīng)位置出現(xiàn)的頻率;
[0013]步驟13)、從步驟12)得到的所有組的候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并,用所得到的候選列表代替所述兩個(gè)候選列表;然后重復(fù)這一過(guò)程直到該集合中只剩一個(gè)候選列表。
[0014]在一個(gè)實(shí)施例中,在步驟13)中,對(duì)齊兩個(gè)候選列表包括:
[0015]步驟i)、設(shè)置二維數(shù)組d[n+l] [m+1],其中,η是候選列表L= (C1, C2,, Cn)的候選列個(gè)數(shù),m是另一候選列表L’ = (C’ i,C’ 2,...,C’m)的候選列個(gè)數(shù),d[i] [j]表示兩個(gè)子候選列表(CuCwMCi)與(C’dC、...,(:’」)之間的編輯距離,i e [l,n],j e [l,m],d[i]
[0]=i, d[0] [j]=j ;
[0016]步驟ii)、對(duì)于i從I到n,j從I到m,根據(jù)下式依次計(jì)算d[i] [j]:
[0017]d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost}
[0018]其中,cost是候選列Ci與C’ j之間的替換代價(jià),其取值為O或I ;若選擇為d[i][j]+cost且COSt=O,則候選列Ci匹配成功;若選擇為d[i] [j]+cost且cost=l ;則在Ci處存在替換錯(cuò)誤;若選擇為d[i_l] [j]+1,則在Ci處存在刪除錯(cuò)誤;若選擇為d[i] [j_l]+l,則在Ci處存在插入錯(cuò)誤;
[0019]步驟iii)、對(duì)于i從η到0,j從m到0,若候選項(xiàng)Ci匹配成功或存在替換錯(cuò)誤,則將i和j的值都減I ;若在Ci處存在插入錯(cuò)誤,則在候選列表L的第i個(gè)候選列之后插入一個(gè)候選列,該候選列包含一個(gè)空字符的候選字,其概率設(shè)為I,將j的值減I ;若在Ci處存在刪除錯(cuò)誤,則在候選列表L’的第j個(gè)候選列之后插入一個(gè)候選列,該候選列包含一個(gè)空字符的候選字,其概率設(shè)為1,將i的值減I。
[0020]在進(jìn)一步的實(shí)施例中,根據(jù)以下步驟計(jì)算候選列Ci與C’ j之間的替換代價(jià)cost:
[0021]步驟a)、比較Ci與C’ j的第I個(gè)候選字Wm與w’ J; 1;如果wi;1與w’ ^拼音相同則設(shè)Cost=O,否則執(zhí)行步驟b);
[0022]步驟b)、依次計(jì)算C’ j的所有候選字卜^乂”…^^^的拼音與^的拼音之間
的相似度,如果其中最大的相似度大于預(yù)定閾值則設(shè)cost=0,否則設(shè)cost=l,其中為C’ j中的候選字個(gè)數(shù)。
[0023]在個(gè)實(shí)施例中,在步驟13)中,合并對(duì)齊后的兩個(gè)候選列表包括:
[0024]新建一個(gè)候選列表L—其候選列個(gè)數(shù)與對(duì)齊后的兩個(gè)候選列表L和L’的候選列個(gè)數(shù)相同;
[0025]將Lmwge中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L和L’在該候選列的所有候選字的集合;以及
[0026]根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
[0027]Pmerge (W) = λ lPl (w) + λ 2p2 (w)
[0028]其中,P1 (W)和ρ2 (W)分別是w在對(duì)齊后的L和L’中該候選列的概率;λ 1和入2為合并系數(shù)。[0029]在進(jìn)一步的實(shí)施例中,根據(jù)下式計(jì)算合并系數(shù)λ i和λ 2:
,_ nI, _ η2
[0030]Λι = ——— ? Λι =———
+ η2η, + n2
[0031]其中,如果L、L’是未合并的候選列表,則Iipn2分別是L、L’對(duì)應(yīng)的組中的文本個(gè)數(shù);如果L、L’是已合并的候選列表,則ηι、η2分別是用于合并生成L、L’的候選列表對(duì)應(yīng)的組中的文本個(gè)數(shù)之和。
[0032]在一個(gè)實(shí)施例中,所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本。
[0033]在進(jìn)一步的實(shí)施例中,步驟I)包括:
[0034]新建一個(gè)候選列個(gè)數(shù)為文本字?jǐn)?shù)的候選列表;
[0035]將該候選列表中每個(gè)候選列的候選字設(shè)為該文本對(duì)應(yīng)位置的字,且將其概率設(shè)為
1
[0036]在一個(gè)實(shí)施例中,所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括詞網(wǎng)格。
[0037]在一個(gè)實(shí)施例中,在步驟2)中,合并對(duì)齊后的任選的兩個(gè)候選列表包括:
[0038]新建一個(gè)候選列表Lm?ge,其候選列個(gè)數(shù)與對(duì)齊后的候選列表L1和L2的候選列個(gè)數(shù)相同;
[0039]將Lmwge中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L1和L2在該候選列的所有候選字的集合;以及
[0040]根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
[0041 ] Pmerge (W)[0042]其中,P1 (w)和p2(w)分別為w在對(duì)齊后的L1和L2中該候選列的概率;λ i和λ 2為融合系數(shù)。
[0043]在一個(gè)實(shí)施例中,在步驟2)中,合并對(duì)齊后集合中任選的一個(gè)候選列表與已融合候選列表包括:
[0044]新建一個(gè)候選列表Lnewjiwge,其候選列個(gè)數(shù)與對(duì)齊后的未融合候選列表Li和已融合候選列表Lmwge的候選列個(gè)數(shù)相同,其中i e [3,k],k為所有候選列表的個(gè)數(shù);
[0045]將Lmw 中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的Lmwge和Li在該候選列的所有候選字的集合;以及
[0046]根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
[0047]Pnew merge (w) =Pmerge (W) + λ iPi (w)
[0048]其中,PmCTge (w)為W在對(duì)齊后的LmOTge;中該候選列的概率,Pi (W)為W在對(duì)齊后的Li中該候選列的概率;λ i為融合系數(shù)。
[0049]在進(jìn)一步的實(shí)施例中,融合系數(shù)由在一個(gè)開發(fā)數(shù)據(jù)集上各語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率來(lái)指定。
[0050]在一個(gè)實(shí)施例中,步驟2 )之后還包括:
[0051]步驟3)、根據(jù)下式調(diào)整融合系數(shù):
[0052]λ.new=A.0ld+0 -PRi
[0053]其中,λ Mld為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果對(duì)應(yīng)的更新前的融合系數(shù),i e [l,k],Θ為縮放因子,PRi為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率。[0054]在一個(gè)實(shí)施例中,步驟3 )之后還包括:
[0055]對(duì)融合系數(shù)進(jìn)行歸一化處理。
[0056]在一個(gè)實(shí)施例中,所述識(shí)別結(jié)果的準(zhǔn)確率為正確的字?jǐn)?shù)與正確文本中字?jǐn)?shù)的比值。
[0057]根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的系統(tǒng),包括:
[0058]轉(zhuǎn)換模塊,用于將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表;
[0059]融合模塊,用于從所述轉(zhuǎn)換模塊得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并;從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并,然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表;其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
[0060]采用本發(fā)明可融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果,生成候選列表。在提高語(yǔ)音識(shí)別準(zhǔn)確率的同時(shí),減少了用戶的修正操作。
【專利附圖】
【附圖說(shuō)明】
[0061]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法的流程圖;
[0062]圖2是候選列表的一個(gè)實(shí)施例的不意圖;
[0063]圖3是對(duì)語(yǔ)音進(jìn)行識(shí)別得到的詞網(wǎng)格的一個(gè)實(shí)施例的示意圖;
[0064]圖4a_4c是對(duì)多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果生成多個(gè)候選列表的一個(gè)實(shí)施例的示意圖;
[0065]圖5a和5b是分別對(duì)多個(gè)可能的文本的字?jǐn)?shù)相同組生成候選列表的一個(gè)實(shí)施例的示意圖;
[0066]圖6是圖5a和5b中的候選列表對(duì)齊結(jié)果的不意圖;以及
[0067]圖7是融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果得到的最終候選列表的一個(gè)實(shí)施例的示意圖。
【具體實(shí)施方式】
[0068]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明提供的用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法及系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0069]在一個(gè)方面,本發(fā)明提供一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法。在該方法中,融合的結(jié)果以候選列表的形式呈現(xiàn),即融合后生成新的、優(yōu)于單個(gè)系統(tǒng)結(jié)果的候選列表。簡(jiǎn)要而言,該方法包括:將所有待融合的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果表示為候選列表的形式;以及,將所有已表示為候選列表形式的識(shí)別結(jié)果進(jìn)行融合,得到融合后的候選列表。
[0070]現(xiàn)參考圖1且具體描述用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法:
[0071]步驟1、將所有待融合的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果表示為候選列表的形式
[0072]目前,語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果(包括中間結(jié)果)主要是如下幾種形式之一:[0073]I)、所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本;
[0074]2)、所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本;
[0075]3)、語(yǔ)音識(shí)別系統(tǒng)對(duì)所識(shí)別語(yǔ)音進(jìn)行識(shí)別后生成的詞網(wǎng)格;
[0076]4 )、所識(shí)別語(yǔ)音對(duì)應(yīng)的候選列表。
[0077]在一個(gè)實(shí)施例中,可將候選列表表示為一個(gè)候選列的序列LKC1, C2, , Cn),其中η為候選列的個(gè)數(shù),Ci (i=l,...,η)為第i個(gè)候選列。一個(gè)候選列C是一組候選字及其概率的集合,即 C=Kw1, P1), (w2, P2),...,(wm, pm)},其中 m 為候選字的個(gè)數(shù),Wj (j=l, 2,..., m)為第j個(gè)候選字,Pj (」=1,2,...,111)為%對(duì)應(yīng)的概率,《1—《111的和可為1。圖2示出了候選列表的一個(gè)不例。
[0078]在一些實(shí)施例中,對(duì)于上述識(shí)別結(jié)果形式I) 一3),要將其分別表示為候選列表的形式,可分別采用以下方式①一③:
[0079]①如果識(shí)別結(jié)果為所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本,則將該文本切分為字的序列。新建一個(gè)候選列表作為該識(shí)別結(jié)果對(duì)應(yīng)的候選列表,將該候選列表的候選列個(gè)數(shù)設(shè)為切分出的字序列中字的個(gè)數(shù);將候選列表中的每一個(gè)候選列設(shè)為只包含一個(gè)候選字,即切分出的字序列中對(duì)應(yīng)位置的字,并將該候選字的概率設(shè)為I。
[0080]②如果識(shí)別結(jié)果為所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本,則對(duì)這些文本進(jìn)行處理,生成對(duì)應(yīng)的候選列表。在 一個(gè)實(shí)施例中,其具體步驟可以包括:
[0081]步驟a),將所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本按照文本的字?jǐn)?shù)劃分成若干組,每一組由字?jǐn)?shù)相同的文本構(gòu)成。假設(shè)分為η組,得到集合S=Iset1, set2,...,setj ,set; = ’...,卿 M,} Ui 為 Seti 中文本的個(gè)數(shù)),其中 Seti (i=l, 2,...,η)中的每一條文本SeniJU=I,..., Iii)的字?jǐn)?shù)都是相同的。
[0082]步驟b),對(duì)上述生成的每一個(gè)包含相同字?jǐn)?shù)的文本的組,生成一個(gè)候選列表。即對(duì)S中的每一個(gè)集合Seti,生成一個(gè)候選列表Li。這樣對(duì)S可生成一個(gè)對(duì)應(yīng)的候選列表的集合 LS= (L1, L2,..., LnI ο
[0083]生成Li的方法可以為:將1^中候選列的列數(shù)設(shè)為Seti中每個(gè)文本的字?jǐn)?shù);將1^中第j個(gè)候選列中的候選字集合設(shè)為Seti中所有文本的第j個(gè)字的集合,將各候選字的概率設(shè)為該候選字在所有文本的第j列中出現(xiàn)的頻率。
[0084]步驟C),將任意兩個(gè)組對(duì)應(yīng)的候選列表進(jìn)行對(duì)齊與合并,生成一個(gè)新候選列表,并替換原來(lái)的兩個(gè)候選列表。重復(fù)這一過(guò)程直到只剩一個(gè)候選列表,即為由所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本轉(zhuǎn)換得到的候選列表。
[0085]也就是說(shuō),對(duì)LS中的任意兩個(gè)候選列表L和L’進(jìn)行對(duì)齊與合并,生成一個(gè)新候選列表Lm_ ;在LS中加入L—?jiǎng)h除L和L?!貜?fù)這一過(guò)程直到LS中只剩一個(gè)候選列表,即為由所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本轉(zhuǎn)換得到的候選列表。
[0086]將L和L ’進(jìn)行對(duì)齊是指在兩個(gè)候選列表的候選列之間建立對(duì)應(yīng),若兩個(gè)候選列表的候選列數(shù)不同,則需根據(jù)對(duì)齊結(jié)果進(jìn)行適當(dāng)調(diào)整,使其列數(shù)相同。在一個(gè)實(shí)施例中,對(duì)齊的方法可采用基于改進(jìn)的編輯距離對(duì)齊的方法。編輯距離又稱Levenshtein距離,用于衡量?jī)蓚€(gè)字符串之間的差異性及對(duì)齊字符串。本發(fā)明中要對(duì)齊的對(duì)象是候選列表,因此,對(duì)編輯距離算法進(jìn)行了改進(jìn)。設(shè)L=(Ci,C2,, Cn),其中η為候選列的個(gè)數(shù),Ci(i=l,...,η)
為第i個(gè)候選列,(wl2,pl2),...,)},其中Iii為Ci中候選字的個(gè)數(shù);L’ = (C,ρ C’ 2,...,C’m),其中m為候選列的個(gè)數(shù),C’ j (j=l,...,m)為第j個(gè)候選列,
…,('、.,~,《^,其中~為^中候選字的個(gè)數(shù)?;诟倪M(jìn)
的編輯距離對(duì)齊的方法如下:
[0087]i),設(shè)置二維數(shù)組d[n+l] [m+1]用于記錄動(dòng)態(tài)規(guī)劃對(duì)齊(即改進(jìn)的編輯距離對(duì)齊)的中間結(jié)果,其中d[i] [j] (i=l,..., n; j=l,...,m)表示兩個(gè)子候選列表(C1, C2,, Ci)與(C,u C' 2,...,C' j)之間的編輯距離。初始化 d[i] [0]=i, d[0] [j]=j ;
[0088]ii),對(duì)于 i=l,...,n, j=l,...,m,根據(jù)以下公式依次計(jì)算 d[i] [j]:
[0089]d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost}
[0090]其中,min{}表示求最小值的操作,cost是Ci與C’ j之間的替換代價(jià),其取值為O或I。記錄求最小值操作的選擇。以L為基準(zhǔn),若選擇為d[i] [j]+cost,且cost=0,則稱候選列Ci匹配成功;若選擇為d[i] [j]+cost,且cost=l,則稱在Ci處存在替換錯(cuò)誤;若選擇為d[1-l] [j]+l,則稱在Ci處存在刪除錯(cuò)誤;若選擇為d[i] [j_l]+l,則稱在Ci處存在插入錯(cuò)誤。
[0091]在進(jìn)一步的實(shí)施例中,替換代價(jià)cost的計(jì)算方法如下:比較Ci與C’ j的第I個(gè)候選字,即Wiil與w’ j,i,如果這兩個(gè)字拼音(不帶聲調(diào))相同,則令COSt=O ;否則,依次計(jì)算C’ J的所有候選字{ %,U %'2,.., 乂的拼音與Wm的拼音之間的相似度,如果最大的相似度大于某個(gè)預(yù)先設(shè)定的閾值T,則令COSt=O,否則令cost=l。
[0092]在進(jìn)一步的實(shí)施例中,拼音之間的相似度計(jì)算可以采用當(dāng)前已有的多種方法,例如:采用音節(jié)混淆矩陣。音節(jié)混淆矩陣是一個(gè)漢語(yǔ)音節(jié)(可認(rèn)為是拼音)之間混淆概率的矩陣,矩陣中的值(即兩個(gè)音節(jié)的混淆概率)由語(yǔ)料訓(xùn)練得到,即采用一批語(yǔ)音數(shù)據(jù),經(jīng)語(yǔ)音識(shí)別系統(tǒng)識(shí)別后,將語(yǔ)音對(duì)應(yīng)的正確文本與相應(yīng)識(shí)別結(jié)果中的字對(duì)齊,然后統(tǒng)計(jì)任一音節(jié)被識(shí)別為另一任意音節(jié)的頻率,將其作為兩個(gè)音節(jié)的混淆概率。
[0093]iii),利用計(jì)算編輯距離的過(guò)程中保存的求最小值操作時(shí)的選擇對(duì)候選列表L與L’進(jìn)行對(duì)齊與候選列調(diào)整。方法如下:從i=n,j=m開始向后回溯,具體規(guī)則為:考察計(jì)算d[i] [j]時(shí)求最小值操作時(shí)的選擇,以L為基準(zhǔn),若候選列Ci匹配成功或存在替換錯(cuò)誤,則將i和j的值都減I ;若Ci處存在插入錯(cuò)誤,則將j的值減I ;若Ci處存在刪除錯(cuò)誤,則將I的值減I。如此重復(fù),直到i與j的值均為O。對(duì)上述回溯過(guò)程中的每一對(duì)(i,j),根據(jù)計(jì)算d[i][j]時(shí)求最小值操作時(shí)的選擇,調(diào)整L與L’的候選列:以L為基準(zhǔn),若Ci處存在插入錯(cuò)誤,則在L的第i個(gè)候選列之后插入一個(gè)候選列,該候選列只包含一個(gè)候選字,為空字符,其概率設(shè)為I ;若Ci處存在刪除錯(cuò)誤,則在L’的第j個(gè)候選列之后插入一個(gè)候選列,該候選列只包含一個(gè)候選字,為空字符,其概率設(shè)為I。
[0094]經(jīng)上述對(duì)齊過(guò)程后,L與L’中包含的候選列個(gè)數(shù)相等,并且相同位置的候選列
--對(duì)應(yīng)。
[0095]在將L與L’對(duì)齊后,在一個(gè)實(shí)施例中,可以米用插值的方法將兩個(gè)候選列表進(jìn)行合并,生成一個(gè)新的候選列表Lm?ge。生成的方法為:設(shè)經(jīng)對(duì)齊調(diào)整后L和L’的候選列數(shù)均為1,對(duì)于i=l,2,...,1,將L和L’中第i個(gè)候選列中的所有候選字均加入Lnrew的第i個(gè)候選列,其中任一候選字w的概率為:
[0096]Pmerge (W) = λ lPl (w) + λ 2p2 (w)[0097]其中,P1 (w)和p2(w)分別為w在L和L’的第i個(gè)候選列中的概率,若w不在L的第i個(gè)候選列中,則P1 (W) =0,同理,若w不在L’的第i個(gè)候選列中,則P2 (w) =0 ; λ i和λ 2為合并系數(shù),計(jì)算方法為:
[0098]
[0099]其中,H1, n2分別為L(zhǎng)和L’對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)。一個(gè)候選列表對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)定義為:若候選列表由步驟b)生成,尚未經(jīng)過(guò)合并,則其對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)為步驟b)中生成該候選列表的識(shí)別結(jié)果文本組中所含文本的個(gè)數(shù);若候選列表由兩個(gè)候選列表在步驟c)中合并而成,則其對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)為合并生成該候選列表的兩個(gè)候選列表各自對(duì)應(yīng)的識(shí)別結(jié)果文本的個(gè)數(shù)之和。
[0100]在另一個(gè)實(shí)施例中,還可以使用按出現(xiàn)次數(shù)投票的方法來(lái)合并兩個(gè)候選列表。
[0101]應(yīng)理解,如果識(shí)別結(jié)果為所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)可能的文本,還可以用其他方式將其轉(zhuǎn)換為候選列表的形式。例如,可將識(shí)別結(jié)果回溯為詞網(wǎng)格,再將詞網(wǎng)格轉(zhuǎn)換為候選列表的形式(如下文所述)。
[0102]③如果識(shí)別結(jié)果為語(yǔ)音識(shí)別系統(tǒng)對(duì)所識(shí)別語(yǔ)音進(jìn)行識(shí)別后生成的詞網(wǎng)格,則將詞網(wǎng)格轉(zhuǎn)換為候選列表。轉(zhuǎn)換的方法可采用當(dāng)前已有方法,如采用專利ZL201010269306.9(名稱為一種交互式語(yǔ)音識(shí)別系統(tǒng)和方法)中的“候選生成與錯(cuò)誤修正模塊”從詞網(wǎng)格生成候選列表。
[0103]步驟2)、將所有已表示為候選列表形式的識(shí)別結(jié)果進(jìn)行融合,得到融合后的候選列表。
[0104]在一個(gè)實(shí)施例中,假設(shè)所有識(shí)別結(jié)果對(duì)應(yīng)的候選列表分別為L(zhǎng)1, L2, , Lk,融合的方法包括:
[0105]首先,采用基于改進(jìn)的編輯距離對(duì)齊的方法將L1與L2對(duì)齊,并將其合并生成新的候選列表Lmwgei。在生成時(shí),將L1與L2中對(duì)應(yīng)候選列中的所有候選字加入Lmwgei的相應(yīng)候選列,其中任一候選字w的概率為:
[0106]Pmerge (W) = λ lPl (w) + λ 2p2 (w)
[0107]其中,P1(W)和p2(w)分別為w在L1與L2中的概率(若w不在L1或L2中則相應(yīng)概率為O), λ工和λ 2為融合系數(shù);
[0108]然后,依次將Lnrew與L3,...,Lk對(duì)齊合并,即每次合并的結(jié)果作為新的Lmwge與后續(xù)候選列表進(jìn)行合并。對(duì)齊時(shí)可采用基于改進(jìn)的編輯距離對(duì)齊的方法,合并時(shí),將原有Lmew與Li (i=3,...,k)對(duì)應(yīng)候選列中的所有候選字加入新列表Lnrat 的相應(yīng)候選列,其中任一候選字w的概率為:
[0109]Pnew merge (w) =Pmerge (W) + λ iPi (w)
[0110]其中,Pmerge (w)為w在原有Lmwge的概率,Pi (W)為w在Li中的概率(若w不在Lmwge或Li中則相應(yīng)概率為OXXi為融合系數(shù)。
[0111]最終得到的Lnew mew即為多個(gè)識(shí)別結(jié)果的融合結(jié)果,形式為一個(gè)候選列表。
[0112]上述過(guò)程中,基于改進(jìn)的編輯距離對(duì)齊的方法與上文描述相同。λ” X2,...,Ak
為融合系數(shù),其滿足ΣΙλ =I在一個(gè)實(shí)施例中,在初始時(shí),可根據(jù)在一個(gè)開發(fā)數(shù)據(jù)集上各識(shí)別結(jié)果的準(zhǔn)確率情況人工來(lái)指定融合系數(shù)。
[0113]在進(jìn)一步的實(shí)施例中,可在語(yǔ)音識(shí)別過(guò)程中利用用戶修正信息動(dòng)態(tài)調(diào)整各個(gè)識(shí)別引擎的識(shí)別結(jié)果在融合時(shí)的融合系數(shù),使得識(shí)別準(zhǔn)確率高的識(shí)別引擎對(duì)應(yīng)的融合系數(shù)增大,識(shí)別準(zhǔn)確率低的識(shí)別引擎對(duì)應(yīng)的融合系數(shù)減小,從而提高融合后的識(shí)別結(jié)果的準(zhǔn)確率。具體方法為:
[0114]在每識(shí)別完一句話,并將多個(gè)識(shí)別結(jié)果融合為一個(gè)候選列表顯示在屏幕上后,可通過(guò)用戶交互模塊獲取用戶對(duì)識(shí)別結(jié)果的修正,從而得到這句話對(duì)應(yīng)的正確文本。用戶交互模塊支持用戶通過(guò)鼠標(biāo)或觸摸屏點(diǎn)擊選擇候選、通過(guò)鼠標(biāo)或鍵盤刪除錯(cuò)誤的字、通過(guò)鍵盤或手寫板輸入正確的字。在獲得這句話對(duì)應(yīng)的正確文本后,可以和各個(gè)識(shí)別引擎的原始識(shí)別結(jié)果比較,計(jì)算出各個(gè)識(shí)別引擎識(shí)別結(jié)果的準(zhǔn)確率,然后根據(jù)其準(zhǔn)確率調(diào)整該引擎的識(shí)別結(jié)果對(duì)應(yīng)的融合系數(shù)。設(shè)有k個(gè)語(yǔ)音識(shí)別引擎,其識(shí)別結(jié)果在融合時(shí)對(duì)應(yīng)的融合系數(shù)分別為λ2,...,λ k,其識(shí)別結(jié)果的準(zhǔn)確率分別為PR1, PR2,...,PRk,則根據(jù)下式調(diào)整融合系數(shù):
【權(quán)利要求】
1.一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的方法,包括: 步驟I)、將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表; 步驟2)、從步驟I)得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并;從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并,然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表;其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述候選列表是候選列的序列,所述候選列是一組候選字及其概率的集合。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的多個(gè)文本。
4.根據(jù)權(quán)利要求3所述的方法,其中,步驟I)包括: 步驟11)、將所述多個(gè)文本按字?jǐn)?shù)劃分為不同的組,其中字?jǐn)?shù)相同的文本為一組; 步驟12)、對(duì)每個(gè)組新建一個(gè)候選列個(gè)數(shù)為該組每個(gè)文本的字?jǐn)?shù)的候選列表,將該候選列表中每個(gè)候選列的候選字集合設(shè)為該組所有文本對(duì)應(yīng)位置的字集合,且將每個(gè)候選字的概率設(shè)為該候選字在所述多個(gè)文本的對(duì)應(yīng)位置出現(xiàn)的頻率; 步驟13)、從步驟12)得到的所有組的候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并,用所得到的候選列表代替所述兩個(gè)候選列表;然后重復(fù)這一過(guò)程直到該集合中只剩一個(gè)候選列表。
5.根據(jù)權(quán)利要求4所述的方法,步驟13)中,對(duì)齊兩個(gè)候選列表包括: 步驟i)、設(shè)置二維數(shù)組d[n+l] [m+1],其中,η是候選列表L= (C1, C2,, Cn)的候選列個(gè)數(shù),m是另一候選列表m)的候選列個(gè)數(shù),d[i] [j]表示兩個(gè)子候選列表((;,(:2,...,(;)與((^,(:’2,...,(:’」)之間的編輯距離,i e [I, n], j e [l,m], d[i][0]=i, d[0] [j]=j ; 步驟ii)、對(duì)于i從I到n,j從I到m,根據(jù)下式依次計(jì)算d[i] [j]: d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost} 其中,cost是候選列Ci與C’ ^之間的替換代價(jià),其取值為O或I ;若選擇為d[i][j]+cost且COSt=O,則候選列Ci匹配成功;若選擇為d[i] [j]+cost且cost=l ;則在Ci處存在替換錯(cuò)誤;若選擇為d[1-l] [j]+1,則在Ci處存在刪除錯(cuò)誤;若選擇為d[i] [j_l]+l,則在Ci處存在插入錯(cuò)誤; 步驟iii)、對(duì)于i從η到0,j從m到0,若候選項(xiàng)Ci匹配成功或存在替換錯(cuò)誤,則將i和j的值都減I ;若在Ci處存在插入錯(cuò)誤,則在候選列表L的第i個(gè)候選列之后插入一個(gè)候選列,該候選列包含一個(gè)空字符的候選字,其概率設(shè)為1,將j的值減I ;若在Ci處存在刪除錯(cuò)誤,則在候選列表L’的第j個(gè)候選列之后插入一個(gè)候選列,該候選列包含一個(gè)空字符的候選字,其概率設(shè)為1,將i的值減I。
6.根據(jù)權(quán)利要求5所述的方法,其中,根據(jù)以下步驟計(jì)算候選列Ci與C’j之間的替換代價(jià)cost: 步驟a)、比較Ci與C’ j的第I個(gè)候選字Wm與w’ J-1;如果Wm與w’ J;1拼音相同則設(shè)Cost=O,否則執(zhí)行步驟b);步驟b )、依次計(jì)算C’ j的所有候選字{ Wja,,..., Wjjnf }的拼音與Wi, I的拼音之間的相似度,如果其中最大的相似度大于預(yù)定閾值則設(shè)
7.根據(jù)權(quán)利要求4所述的方法,步驟13)中,合并對(duì)齊后的兩個(gè)候選列表包括: 新建一個(gè)候選列表L—其候選列個(gè)數(shù)與對(duì)齊后的兩個(gè)候選列表L和L’的候選列個(gè)數(shù)相同; 將Lnrew中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L和L’在該候選列的所有候選字的集合;以及 根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
8.根據(jù)權(quán)利要求7所述的方法,其中,根據(jù)下式計(jì)算合并系數(shù)入1和λ2:
9.根據(jù)權(quán)利要求2所述的方法,其中,所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括所識(shí)別語(yǔ)音對(duì)應(yīng)的唯一文本。
10.根據(jù)權(quán)利要求9所述的方法,其中,步驟I)包括: 新建一個(gè)候選列個(gè)數(shù)為文本字?jǐn)?shù)的候選列表; 將該候選列表中每個(gè)候選列的候選字設(shè)為該文本對(duì)應(yīng)位置的字,且將其概率設(shè)為I。
11.根據(jù)權(quán)利要求1所述的方法,其中,所述語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果包括詞網(wǎng)格。
12.根據(jù)權(quán)利要求1-11中任何一個(gè)所述的方法,步驟2)中,合并對(duì)齊后的任選的兩個(gè)候選列表包括: 新建一個(gè)候選列表Lmwgei,其候選列個(gè)數(shù)與對(duì)齊后的候選列表L1和L2的候選列個(gè)數(shù)相同; 將中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的L1和L2在該候選列的所有候選字的集合;以及 根據(jù)下式計(jì)算在該候選列的每個(gè)候選字w的概率:
13.根據(jù)權(quán)利要求12所述的方法,步驟2)中,合并對(duì)齊后的集合中任選的一個(gè)候選列表與已融合候選列表包括: 新建一個(gè)候選列表LnOT—mOTge;,其候選列個(gè)數(shù)與對(duì)齊后的未融合候選列表Li和已融合候選列表的候選列個(gè)數(shù)相同,其中i e [3,k],k為所有候選列表的個(gè)數(shù); 將Lrewjiwgei中每個(gè)候選列的候選字集合設(shè)為對(duì)齊后的Lmwgei和Li在該候選列的所有候選字的集合;以及 根據(jù)下式計(jì)算在該候選列的每個(gè)候選字W的概率:
Pnew_merge (?) =Pmerge (?) + 入 iPi (W) 其中,Pmerge (W)為W在對(duì)齊后的LmOTge;中該候選列的概率,Pi (W)為W在對(duì)齊后的Li中該候選列的概率;λ i為融合系數(shù)。
14.根據(jù)權(quán)利要求13所述的方法,其中,融合系數(shù)由在一個(gè)開發(fā)數(shù)據(jù)集上各語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率來(lái)指定。
15.根據(jù)權(quán)利要求14所述的方法,其中,步驟2)之后還包括: 步驟3)、根據(jù)下式調(diào)整融合系數(shù):
入 i,new_ 入 i,old+ ^.P^i 其中,λ ^old為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果對(duì)應(yīng)的更新前的融合系數(shù),i e [I, k],Θ為縮放因子,PRi為第i個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的準(zhǔn)確率。
16.根據(jù)權(quán)利要求15所述的方法,其中,步驟3)之后還包括: 對(duì)融合系數(shù)進(jìn)行歸一化處理。
17.根據(jù)權(quán)利要求15所 述的方法,其中,所述識(shí)別結(jié)果的準(zhǔn)確率為正確的字?jǐn)?shù)與正確文本中字?jǐn)?shù)的比值。
18.一種用于融合多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果的系統(tǒng),包括: 轉(zhuǎn)換模塊,用于將多個(gè)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果分別表示為相應(yīng)的候選列表; 融合模塊,用于從所述轉(zhuǎn)換模塊得到的所有候選列表集合中任選兩個(gè)候選列表進(jìn)行對(duì)齊且合并;從該集合中剩下的候選列表中任選一個(gè)與已融合候選列表進(jìn)行對(duì)齊且合并,然后重復(fù)這一過(guò)程直到處理完該集合中所有候選列表;其中通過(guò)對(duì)齊且合并操作得到的候選列表為已融合候選列表。
【文檔編號(hào)】G10L15/26GK103474069SQ201310413628
【公開日】2013年12月25日 申請(qǐng)日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】王向東, 楊陽(yáng), 錢躍良 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所