欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分詞訓(xùn)練集的生成方法和裝置的制造方法

文檔序號(hào):8543672閱讀:642來(lái)源:國(guó)知局
分詞訓(xùn)練集的生成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,尤其涉及一種分詞訓(xùn)練集的生成方法和裝置。
【背景技術(shù)】
[0002]語(yǔ)音合成,又稱(chēng)文語(yǔ)轉(zhuǎn)換(Text to Speech,TTS),能將文字信息實(shí)時(shí)轉(zhuǎn)換為語(yǔ)音朗讀出來(lái),相當(dāng)于給機(jī)器裝上了人工嘴巴。對(duì)于語(yǔ)音合成系統(tǒng),首先需要對(duì)輸入的文本進(jìn)行處理,其中包括分詞處理。分詞算法主要有兩類(lèi),一種是基于詞典匹配的算法,另一種是基于訓(xùn)練語(yǔ)料的學(xué)習(xí)算法。
[0003]現(xiàn)有技術(shù)中,條件隨機(jī)場(chǎng)(Condit1nal Random Field,CRF)模型是一種主流的基于訓(xùn)練語(yǔ)料的學(xué)習(xí)算法。但是,CRF模型是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,需要大量的人工標(biāo)注數(shù)據(jù)作為支撐。使用人力做數(shù)據(jù)標(biāo)注的工作無(wú)論從經(jīng)濟(jì)上還是時(shí)間花費(fèi)的角度都是非常昂貴的。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0005]為此,本發(fā)明的一個(gè)目的在于提出一種分詞訓(xùn)練集的生成方法,該方法可以降低分詞訓(xùn)練集生成的時(shí)間和花費(fèi),實(shí)現(xiàn)成本降低及效果提高。
[0006]本發(fā)明的另一個(gè)目的在于提出一種分詞訓(xùn)練集的生成裝置。
[0007]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的分詞訓(xùn)練集的生成方法,包括:獲取訓(xùn)練語(yǔ)料,并采用不同的分詞器分別對(duì)相同的訓(xùn)練語(yǔ)料進(jìn)行分詞,得到對(duì)應(yīng)不同分詞器的分詞結(jié)果;將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果;根據(jù)所述分詞結(jié)果,對(duì)所述非精確匹配的分詞結(jié)果進(jìn)行降噪處理,得到分詞訓(xùn)練集。
[0008]本發(fā)明第一方面實(shí)施例提出的分詞訓(xùn)練集的生成方法,通過(guò)對(duì)訓(xùn)練語(yǔ)料進(jìn)行分詞,并根據(jù)分詞結(jié)果得到分詞訓(xùn)練集,可以實(shí)現(xiàn)分詞訓(xùn)練集的自動(dòng)生成,避免人工標(biāo)注,降低分詞訓(xùn)練集生成的時(shí)間和花費(fèi),實(shí)現(xiàn)成本降低及效果提高。
[0009]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的分詞訓(xùn)練集的生成裝置,包括:分詞模塊,用于獲取訓(xùn)練語(yǔ)料,并采用不同的分詞器分別對(duì)相同的訓(xùn)練語(yǔ)料進(jìn)行分詞,得到對(duì)應(yīng)不同分詞器的分詞結(jié)果;劃分模塊,用于將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果;生成模塊,用于根據(jù)所述分詞結(jié)果,對(duì)所述非精確匹配的分詞結(jié)果進(jìn)行降噪處理,得到分詞訓(xùn)練集。
[0010]本發(fā)明第二方面實(shí)施例提出的分詞訓(xùn)練集的生成裝置,通過(guò)對(duì)訓(xùn)練語(yǔ)料進(jìn)行分詞,并根據(jù)分詞結(jié)果得到分詞訓(xùn)練集,可以實(shí)現(xiàn)分詞訓(xùn)練集的自動(dòng)生成,避免人工標(biāo)注,降低分詞訓(xùn)練集生成的時(shí)間和花費(fèi),實(shí)現(xiàn)成本降低及效果提高。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實(shí)施例提出的分詞訓(xùn)練集的生成方法的流程示意圖;
[0014]圖2是本發(fā)明實(shí)施例中S13的具體實(shí)現(xiàn)流程示意圖;
[0015]圖3是本發(fā)明實(shí)施例中S23的具體實(shí)現(xiàn)流程示意圖;
[0016]圖4是本發(fā)明另一實(shí)施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖;
[0017]圖5是本發(fā)明另一實(shí)施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖;
[0018]圖6是本發(fā)明另一實(shí)施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的模塊或具有相同或類(lèi)似功能的模塊。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修正和等同物。
[0020]圖1是本發(fā)明一實(shí)施例提出的分詞訓(xùn)練集的生成方法的流程示意圖,該方法包括:
[0021]Sll:獲取訓(xùn)練語(yǔ)料,并采用不同的分詞器分別對(duì)相同的訓(xùn)練語(yǔ)料進(jìn)行分詞,得到對(duì)應(yīng)不同分詞器的分詞結(jié)果。
[0022]其中,可以對(duì)已有的文本數(shù)據(jù)(如新聞文本數(shù)據(jù))進(jìn)行收集,得到訓(xùn)練語(yǔ)料。訓(xùn)練語(yǔ)料是指未分詞前的數(shù)據(jù),通常是一句話(huà),例如,你好北京,北京大學(xué),人生命中的對(duì)比。
[0023]在得到訓(xùn)練語(yǔ)料后,可以采用分詞器進(jìn)行分詞。分詞器是已有的分詞器,不限定具體的分詞算法,例如,分詞器可以包括基于詞典匹配算法的分詞器,或者,基于學(xué)習(xí)算法的分詞器等。另外,在每種算法中,也可以采用不同的分詞器,例如,基于詞典匹配算法的分詞器,可以采用基于不同詞典的分詞器。
[0024]由于分詞器不同,對(duì)同一個(gè)訓(xùn)練語(yǔ)料進(jìn)行分詞后,可能得到相同或不同的分詞結(jié)果O
[0025]S12:將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果。
[0026]可以通過(guò)比較不同分詞器得到的分詞結(jié)果,實(shí)現(xiàn)對(duì)分詞結(jié)果的劃分。
[0027]根據(jù)分詞結(jié)果的相同或者不同,不同分詞器的分詞結(jié)果可以存在如下關(guān)系:
[0028]第一種關(guān)系:精確匹配。
[0029]例如,對(duì)于同一個(gè)訓(xùn)練語(yǔ)料“你好北京”,兩個(gè)分詞器的分詞結(jié)果分別是:
[0030]你好北京
[0031]你好北京
[0032]由于兩個(gè)分詞器得到的分詞結(jié)果是相同的,因此,這類(lèi)分詞結(jié)果可以稱(chēng)為精確匹配的分詞結(jié)果。
[0033]當(dāng)分詞結(jié)果不是精確匹配的分詞結(jié)果時(shí),可以統(tǒng)稱(chēng)為非精確匹配的分詞結(jié)果。并且,非精確匹配的分詞結(jié)果可以進(jìn)一步分為:
[0034]第二種關(guān)系:粒度不同。
[0035]例如,對(duì)于同一個(gè)訓(xùn)練語(yǔ)料“北京大學(xué)”,兩個(gè)分詞器的分詞結(jié)果分別是:
[0036]北京大學(xué)
[0037]北京大學(xué)
[0038]由于兩個(gè)分詞結(jié)果中,總的邊界相同但單個(gè)詞條的長(zhǎng)度不同,因此,這類(lèi)分詞結(jié)果可以稱(chēng)為粒度不同的分詞結(jié)果。
[0039]第三種關(guān)系:歧義錯(cuò)誤。
[0040]例如,對(duì)于同一個(gè)訓(xùn)練語(yǔ)料“人生命中的對(duì)比”,兩個(gè)分詞器的分詞結(jié)果分別是:
[0041]人生命中的對(duì)比
[0042]人生命中的對(duì)比
[0043]由于兩個(gè)分詞器得到的分詞結(jié)果中存在邊界不一致的詞條,因此,這類(lèi)分詞結(jié)果可以稱(chēng)為歧義錯(cuò)誤的分詞結(jié)果。
[0044]S13:根據(jù)所述分詞結(jié)果,對(duì)所述非精確匹配的分詞結(jié)果進(jìn)行降噪處理,得到分詞訓(xùn)練集。
[0045]如果分詞訓(xùn)練集和真正符合語(yǔ)言現(xiàn)象的正確答案相比較,存在很多錯(cuò)誤,那么用這樣的分詞訓(xùn)練集訓(xùn)練的分詞模型的效果就會(huì)很差,從而影響分詞效果以及語(yǔ)音合成效果。為了提高分詞訓(xùn)練集的準(zhǔn)確性,需要在分詞訓(xùn)練集中盡量避免非精確匹配的分詞結(jié)果。
[0046]由于非精確匹配的分詞結(jié)果可以分為:歧義錯(cuò)誤的分詞結(jié)果和粒度不同的分詞結(jié)果,因此,可以分別對(duì)歧義錯(cuò)誤的分詞結(jié)果進(jìn)行降噪處理,以及對(duì)粒度不同的分詞結(jié)果進(jìn)行降噪處理。
[0047]可選的,參見(jiàn)圖2,所述根據(jù)所述分詞結(jié)果,對(duì)所述非精確匹配的分詞結(jié)果進(jìn)行降噪處理,得到分詞訓(xùn)練集,包括:
[0048]S21:在獲取的訓(xùn)練語(yǔ)料中,刪除歧義錯(cuò)誤的分詞結(jié)果對(duì)應(yīng)的訓(xùn)練語(yǔ)料,得到保留的訓(xùn)練語(yǔ)料,并獲取所述保留的訓(xùn)練語(yǔ)料對(duì)應(yīng)的分詞結(jié)果。
[0049]例如,獲取的訓(xùn)練語(yǔ)料包括:你好北京,北京大學(xué),人生命中的對(duì)比,由于“人生命中的對(duì)比”被兩個(gè)分詞器分詞后得到的分詞結(jié)果屬于歧義錯(cuò)誤的分詞結(jié)果,因此,在獲取的訓(xùn)練語(yǔ)料中刪除“人生命中的對(duì)比”,從而得到的保留的訓(xùn)練語(yǔ)料包括:你好北京,北京大學(xué)。
[0050]在確定出保留的訓(xùn)練語(yǔ)料后,可以獲取相應(yīng)的分詞結(jié)果,例如,你好,北京,北京大學(xué),北京,大學(xué)。
[0051]針對(duì)歧義錯(cuò)誤的分詞結(jié)果:由于采用的分詞器是基于不同算法或基于不同訓(xùn)練數(shù)據(jù)得到的,不容易出現(xiàn)完全一樣的歧義錯(cuò)誤。因此,通過(guò)比較不同的分詞器得到的分詞結(jié)果,可以容易地查找到歧義錯(cuò)誤的分詞結(jié)果。
[0052]具體的查找歧義錯(cuò)誤的方法如下:
[0053]分詞結(jié)果1:人生命中的對(duì)比
[0054]分詞結(jié)果2:人生命中的對(duì)比
[0055]以第一個(gè)分詞結(jié)果為基準(zhǔn),當(dāng)遍歷到第二個(gè)詞塊“生命中”時(shí),與第二個(gè)分詞結(jié)果進(jìn)行比較發(fā)現(xiàn),“生”屬于第二個(gè)分詞結(jié)果的第一個(gè)詞,而“命中”屬于第二個(gè)分詞結(jié)果的第二個(gè)詞,并且“生”和“命中”組合起來(lái)在第二個(gè)分詞結(jié)果中不是兩個(gè)單獨(dú)的詞塊,這樣的情況一定是發(fā)生了歧義錯(cuò)誤。通過(guò)這樣的相互校驗(yàn),就可以把訓(xùn)
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
屏边| 威宁| 英山县| 盐亭县| 平邑县| 唐海县| 门头沟区| 屏东市| 林西县| 运城市| 宁武县| 平顺县| 永寿县| 绥芬河市| 南通市| 乌兰察布市| 岑巩县| 明水县| 阳江市| 乌鲁木齐县| 汤原县| 安平县| 大田县| 内黄县| 鱼台县| 神池县| 汉沽区| 宁津县| 理塘县| 江山市| 吴川市| 长春市| 莱芜市| 双峰县| 隆德县| 芜湖县| 娄烦县| 凭祥市| 云浮市| 古丈县| 汽车|