,從而可以提升分詞處理以及語音合成等的效果。
[0193]本實施例中,通過對訓(xùn)練語料進行分詞,并根據(jù)分詞結(jié)果得到分詞訓(xùn)練集,可以實現(xiàn)分詞訓(xùn)練集的自動生成,避免人工標注,降低分詞訓(xùn)練集生成的時間和花費,實現(xiàn)成本降低及效果提高。具體的,本實施例的時間成本非常低,在50萬語料規(guī)模的訓(xùn)練集上只需花費一天左右的時間就可完成一次迭代。訓(xùn)練集的分詞粒度可根據(jù)需要自行控制,適用于不同的應(yīng)用問題。經(jīng)驗證,這樣實現(xiàn)的分詞器性能優(yōu)于基于詞表分詞器,召回率可提高約6個百分點。通過提升分詞性能,也可以提升語音合成系統(tǒng)整體的性能,改善了用戶在使用tts時的主觀體驗感受。
[0194]需要說明的是,在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是指至少兩個。
[0195]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0196]應(yīng)當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0197]本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0198]此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
[0199]上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0200]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
[0201]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修正、替換和變型。
【主權(quán)項】
1.一種分詞訓(xùn)練集的生成方法,其特征在于,包括: 獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果; 將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果; 根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述非精確匹配的分詞結(jié)果包括:粒度不同的分詞結(jié)果和歧義錯誤的分詞結(jié)果,所述根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集,包括: 在獲取的訓(xùn)練語料中,刪除歧義錯誤的分詞結(jié)果對應(yīng)的訓(xùn)練語料,得到保留的訓(xùn)練語料,并獲取所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果; 在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇樣本詞條,并由所述樣本詞條組成樣本訓(xùn)練集; 在所述樣本訓(xùn)練集內(nèi),對粒度不同的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述樣本訓(xùn)練集內(nèi),對粒度不同的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集,包括: 對所述樣本訓(xùn)練集進行模型訓(xùn)練,生成多個特征函數(shù),并獲取每個特征函數(shù)的權(quán)重; 計算每個特征函數(shù)的模型樣本期望差,根據(jù)每個特征函數(shù)的權(quán)重和所述模型樣本期望差,確定每個特征函數(shù)的加權(quán)期望差,并根據(jù)所述加權(quán)期望差對所述特征函數(shù)進行排序;根據(jù)排序后的特征函數(shù),對粒度不同的分詞結(jié)果進行修正。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述在所述樣本訓(xùn)練集內(nèi),對粒度不同的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集,還包括: 判斷是否需要繼續(xù)修正; 如果需要,重新進行模型訓(xùn)練以及修正; 如果不需要,將修正后的樣本訓(xùn)練集內(nèi)的詞條組成分詞訓(xùn)練集。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,當按照加權(quán)期望差從大到小的順序排序時,所述根據(jù)排序后的特征函數(shù),對粒度不同的分詞結(jié)果進行修正,包括: 在樣本訓(xùn)練集內(nèi),對應(yīng)粒度不同的分詞結(jié)果,將排序在前的特征函數(shù)對應(yīng)的詞條,統(tǒng)一替換為排序在后的特征函數(shù)對應(yīng)的詞條。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇樣本詞條,包括: 在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇出現(xiàn)頻率大于預(yù)設(shè)值的詞條,確定為樣本詞條。
7.一種分詞訓(xùn)練集的生成裝置,其特征在于,包括: 分詞模塊,用于獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果; 劃分模塊,用于將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果; 生成模塊,用于根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述非精確匹配的分詞結(jié)果包括:粒度不同的分詞結(jié)果和歧義錯誤的分詞結(jié)果,所述生成模塊包括: 第一降噪模塊,用于在獲取的訓(xùn)練語料中,刪除歧義錯誤的分詞結(jié)果對應(yīng)的訓(xùn)練語料,得到保留的訓(xùn)練語料,并獲取所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果; 選擇模塊,用于在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇樣本詞條,并由所述樣本詞條組成樣本訓(xùn)練集; 第二降噪模塊,用于在所述樣本訓(xùn)練集內(nèi),對粒度不同的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二降噪模塊包括: 第一單元,用于對所述樣本訓(xùn)練集進行模型訓(xùn)練,生成多個特征函數(shù),并獲取每個特征函數(shù)的權(quán)重; 第二單元,用于計算每個特征函數(shù)的模型樣本期望差,根據(jù)每個特征函數(shù)的權(quán)重和所述模型樣本期望差,確定每個特征函數(shù)的加權(quán)期望差,并根據(jù)所述加權(quán)期望差對所述特征函數(shù)進彳丁排序; 第三單元,用于根據(jù)排序后的特征函數(shù),對粒度不同的分詞結(jié)果進行修正。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第二降噪模塊還包括: 第四單元,用于判斷是否需要繼續(xù)修正;如果需要,觸發(fā)重新進行模型訓(xùn)練以及修正; 第五單元,用于如果不需要,將修正后的樣本訓(xùn)練集內(nèi)的詞條組成分詞訓(xùn)練集。
11.根據(jù)權(quán)利要求9或10所述的裝置,其特征在于,當按照加權(quán)期望差從大到小的順序排序時,所述第三單元具體用于: 在樣本訓(xùn)練集內(nèi),對應(yīng)粒度不同的分詞結(jié)果,將排序在前的特征函數(shù)對應(yīng)的詞條,統(tǒng)一替換為排序在后的特征函數(shù)對應(yīng)的詞條。
12.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述選擇模塊具體用于: 在所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果中,選擇出現(xiàn)頻率大于預(yù)設(shè)值的詞條,確定為樣本詞條。
【專利摘要】本發(fā)明提出一種分詞訓(xùn)練集的生成方法和裝置,該分詞訓(xùn)練集的生成方法包括獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果;將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果;根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。該方法能夠降低分詞訓(xùn)練集生成的時間和花費,實現(xiàn)成本降低及效果提高。
【IPC分類】G06F17-27
【公開號】CN104866472
【申請?zhí)枴緾N201510329109
【發(fā)明人】白潔, 李秀林, 肖朔
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開日】2015年8月26日
【申請日】2015年6月15日