[0096]在修正后,可以將修正后的樣本訓(xùn)練集內(nèi)的詞條組成分詞訓(xùn)練集。
[0097]可以理解的是,修正的次數(shù)不限于一次,可以多次修正。例如,該方法還可以包括:
[0098]S34:判斷是否需要繼續(xù)修正,若是,重復(fù)執(zhí)行S31及其后續(xù)步驟,否則,執(zhí)行S35。
[0099]其中,是否需要繼續(xù)修正可以根據(jù)預(yù)先條件確定。例如,當(dāng)在修正后的樣本訓(xùn)練集內(nèi),剩余的粒度不同的分詞結(jié)果的數(shù)量小于預(yù)設(shè)值時,不需要繼續(xù)修正,否則需要繼續(xù)修
IHo
[0100]通過批量替換的方式,將樣本訓(xùn)練集中的詞條進(jìn)行一遍修正,實(shí)現(xiàn)了對粒度不同的分詞結(jié)果的降噪處理。在完成一遍修正后,可以再重新訓(xùn)練CRF模型,反復(fù)迭代若干次,使得樣本訓(xùn)練集中的詞條粒度都趨于統(tǒng)一。
[0101]S35:生成分詞訓(xùn)練集。
[0102]當(dāng)在樣本訓(xùn)練集內(nèi),將粒度不準(zhǔn)確的詞條統(tǒng)一替換為粒度準(zhǔn)確的詞條后,可以將完成替換的樣本訓(xùn)練集內(nèi)的詞條組成分詞訓(xùn)練集。
[0103]在生成分詞訓(xùn)練集后,可以采用該分詞訓(xùn)練集進(jìn)行分詞模型訓(xùn)練,得到分詞模型,在分詞處理時,可以采用該分詞模型。進(jìn)一步的,在語音合成時,由于分詞是語音合成的基礎(chǔ),可以采用基于該分詞模型的分詞處理流程。由于本實(shí)施例的分詞訓(xùn)練集準(zhǔn)確度高,從而可以提升分詞處理以及語音合成等的效果。
[0104]本實(shí)施例中,通過對訓(xùn)練語料進(jìn)行分詞,并根據(jù)分詞結(jié)果得到分詞訓(xùn)練集,可以實(shí)現(xiàn)分詞訓(xùn)練集的自動生成,避免人工標(biāo)注,降低分詞訓(xùn)練集生成的時間和花費(fèi),實(shí)現(xiàn)成本降低及效果提高。具體的,本實(shí)施例的時間成本非常低,在50萬語料規(guī)模的訓(xùn)練集上只需花費(fèi)一天左右的時間就可完成一次迭代。訓(xùn)練集的分詞粒度可根據(jù)需要自行控制,適用于不同的應(yīng)用問題。經(jīng)驗(yàn)證,這樣實(shí)現(xiàn)的分詞器性能優(yōu)于基于詞表分詞器,召回率可提高約6個百分點(diǎn)。通過提升分詞性能,也可以提升語音合成系統(tǒng)整體的性能,改善了用戶在使用tts時的主觀體驗(yàn)感受。
[0105]圖4是本發(fā)明另一實(shí)施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖,該裝置40包括:
[0106]分詞模塊41,用于獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進(jìn)行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果;
[0107]其中,可以對已有的文本數(shù)據(jù)(如新聞文本數(shù)據(jù))進(jìn)行收集,得到訓(xùn)練語料。訓(xùn)練語料是指未分詞前的數(shù)據(jù),通常是一句話,例如,你好北京,北京大學(xué),人生命中的對比。
[0108]在得到訓(xùn)練語料后,可以采用分詞器進(jìn)行分詞。分詞器是已有的分詞器,不限定具體的分詞算法,例如,分詞器可以包括基于詞典匹配算法的分詞器,或者,基于學(xué)習(xí)算法的分詞器等。另外,在每種算法中,也可以采用不同的分詞器,例如,基于詞典匹配算法的分詞器,可以采用基于不同詞典的分詞器。
[0109]由于分詞器不同,對同一個訓(xùn)練語料進(jìn)行分詞后,可能得到相同或不同的分詞結(jié)果O
[0110]劃分模塊42,用于將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果;
[0111]可以通過比較不同分詞器得到的分詞結(jié)果,實(shí)現(xiàn)對分詞結(jié)果的劃分。
[0112]根據(jù)分詞結(jié)果的相同或者不同,不同分詞器的分詞結(jié)果可以存在如下關(guān)系:
[0113]第一種關(guān)系:精確匹配。
[0114]例如,對于同一個訓(xùn)練語料“你好北京”,兩個分詞器的分詞結(jié)果分別是:
[0115]你好北京
[0116]你好北京
[0117]由于兩個分詞器得到的分詞結(jié)果是相同的,因此,這類分詞結(jié)果可以稱為精確匹配的分詞結(jié)果。
[0118]當(dāng)分詞結(jié)果不是精確匹配的分詞結(jié)果時,可以統(tǒng)稱為非精確匹配的分詞結(jié)果。并且,非精確匹配的分詞結(jié)果可以進(jìn)一步分為:
[0119]第二種關(guān)系:粒度不同。
[0120]例如,對于同一個訓(xùn)練語料“北京大學(xué)”,兩個分詞器的分詞結(jié)果分別是:
[0121]北京大學(xué)
[0122]北京大學(xué)
[0123]由于兩個分詞結(jié)果中,總的邊界相同但單個詞條的長度不同,因此,這類分詞結(jié)果可以稱為粒度不同的分詞結(jié)果。
[0124]第三種關(guān)系:歧義錯誤。
[0125]例如,對于同一個訓(xùn)練語料“人生命中的對比”,兩個分詞器的分詞結(jié)果分別是:
[0126]人生命中的對比
[0127]人生命中的對比
[0128]由于兩個分詞器得到的分詞結(jié)果中存在邊界不一致的詞條,因此,這類分詞結(jié)果可以稱為歧義錯誤的分詞結(jié)果。
[0129]生成模塊43,用于根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進(jìn)行降噪處理,得到分詞訓(xùn)練集。
[0130]如果分詞訓(xùn)練集和真正符合語言現(xiàn)象的正確答案相比較,存在很多錯誤,那么用這樣的分詞訓(xùn)練集訓(xùn)練的分詞模型的效果就會很差,從而影響分詞效果以及語音合成效果。為了提高分詞訓(xùn)練集的準(zhǔn)確性,需要在分詞訓(xùn)練集中盡量避免非精確匹配的分詞結(jié)果。
[0131]由于非精確匹配的分詞結(jié)果可以分為:歧義錯誤的分詞結(jié)果和粒度不同的分詞結(jié)果,因此,可以分別對歧義錯誤的分詞結(jié)果進(jìn)行降噪處理,以及對粒度不同的分詞結(jié)果進(jìn)行降噪處理。
[0132]另一實(shí)施例中,參見圖5,所述非精確匹配的分詞結(jié)果包括:粒度不同的分詞結(jié)果和歧義錯誤的分詞結(jié)果,所述生成模塊43包括:
[0133]第一降噪模塊431,用于在獲取的訓(xùn)練語料中,刪除歧義錯誤的分詞結(jié)果對應(yīng)的訓(xùn)練語料,得到保留的訓(xùn)練語料,并獲取所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果;
[0134]例如,獲取的訓(xùn)練語料包括:你好北京,北京大學(xué),人生命中的對比,由于“人生命中的對比”被兩個分詞器分詞后得到的分詞結(jié)果屬于歧義錯誤的分詞結(jié)果,因此,在獲取的訓(xùn)練語料中刪除“人生命中的對比”,從而得到的保留的訓(xùn)練語料包括:你好北京,北京大學(xué)。
[0135]在確定出保留的訓(xùn)練語料后,可以獲取相應(yīng)的分詞結(jié)果,例如,你好,北京,北京大學(xué),北京,大學(xué)。
[0136]針對歧義錯誤的分詞結(jié)果:由于采用的分詞器是基于不同算法或基于不同訓(xùn)練數(shù)據(jù)得到的,不容易出現(xiàn)完全一樣的歧義錯誤。因此,通過比較不同的分詞器得到的分詞結(jié)果,可以容易地查找到歧義錯誤的分詞結(jié)果。
[0137]具體的查找歧義錯誤的方法如下:
[0138]分詞結(jié)果1:人生命中的對比
[0139]分詞結(jié)果2:人生命中的對比
[0140]以第一個分詞結(jié)果為基準(zhǔn),當(dāng)遍歷到第二個詞塊“生命中”時,與第二個分詞結(jié)果進(jìn)行比較發(fā)現(xiàn),“生”屬于第二個分詞結(jié)果的第一個詞,而“命中”屬于第二個分詞結(jié)果的第二個詞,并且“生”和“命中”組合起來在第二個分詞結(jié)果中不是兩個單獨(dú)的詞塊,這樣的情況一定是發(fā)生了歧義錯誤。通過這樣的相互校驗(yàn),就可以把訓(xùn)練集中的絕大部分歧義錯誤找出來。
[0141]由于語料池很大,可將出現(xiàn)歧義錯誤的句子直接從訓(xùn)練集中刪除掉,最終仍然能夠保證對語言現(xiàn)象進(jìn)行比較全面的覆蓋。通過刪除可以完成歧義錯誤的降噪工作。
[0142]選擇模塊432,用于在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇樣本詞條,并由所述樣本詞條組成樣本訓(xùn)練集;
[0143]由于訓(xùn)練語料比較龐大,保留的訓(xùn)練語料也比較龐大,并且每一種分詞結(jié)果會包括一個或多個詞條,因此,會造成保留的詞條數(shù)量很大。為了簡化運(yùn)算,可以在這些詞條中進(jìn)行選擇,以獲取樣本詞條。
[0144]可選的,所述選擇模塊432具體用于:
[0145]在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇出現(xiàn)頻率大于預(yù)設(shè)值的詞條,確定為樣本詞條。
[0146]在詞條選擇時,可以根據(jù)設(shè)置的選擇算法進(jìn)行。例如,可以設(shè)置一個閾值,當(dāng)一個詞條的出現(xiàn)頻率大于該閾值時,確定該詞條是樣本詞條。
[0147]在得到樣本詞條后,這些樣本詞條組成的詞條集合可以稱為樣本訓(xùn)練集。例如,北京,大學(xué),北京大學(xué)的出現(xiàn)頻率都超過預(yù)設(shè)閾值,則樣本訓(xùn)練集中包括北京,大學(xué),北京大學(xué)這三個詞條。
[0148]第二降噪模塊433,用于在所述樣本訓(xùn)練集內(nèi),對粒度不同的分詞結(jié)果進(jìn)行降噪處理,得到分詞訓(xùn)練集。
[0149]通過對歧義錯誤的分詞結(jié)果對應(yīng)的訓(xùn)練數(shù)據(jù)進(jìn)行刪除,可以完成第一次降噪處理。該步驟中對粒度不同的分詞結(jié)果進(jìn)行降噪處理可以完成第二次降噪處理。
[0150]不同分詞器的粒度不一致,很難通過簡單比較不同分詞結(jié)果的方式解決,因?yàn)椴荒苷f哪種粒度一定是對的。對應(yīng)不同的具體應(yīng)用問題,把“北京大學(xué)”這樣的詞條不切分開,或者切分成:“北京大學(xué)”,都是有一定道理的。關(guān)鍵是在要生成的分詞訓(xùn)練集中,出現(xiàn)的詞條的粒度應(yīng)該保持統(tǒng)一。