欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

訓(xùn)練語料獲取方法及裝置的制造方法

文檔序號:9471438閱讀:1216來源:國知局
訓(xùn)練語料獲取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別地涉及一種訓(xùn)練語料獲取方法及裝置。
【背景技術(shù)】
[0002]意圖識(shí)別,即識(shí)別一種行為的意圖。例如在問答對話中,提問者每句話都帶有一定的意圖,應(yīng)答方根據(jù)對方的意圖進(jìn)行回答。意圖識(shí)別在搜索引擎、聊天機(jī)器人等場景下有廣泛的應(yīng)用。
[0003]現(xiàn)有的意圖識(shí)別方法主要是獲取一批語料,人工標(biāo)注每條語料的意圖從而得到訓(xùn)練數(shù)據(jù)。通過訓(xùn)練數(shù)據(jù)結(jié)合特定的算法訓(xùn)練出概率分類模型,并使用所得概率分類模型對新的語料進(jìn)行意圖識(shí)別。由于初始人工標(biāo)注的語料較少,在線上使用過程中會(huì)出現(xiàn)一些錯(cuò)誤用例,也就是說模型預(yù)測效果一般。為了擴(kuò)展和優(yōu)化模型,需要獲得更多的訓(xùn)練語料。
[0004]目前主要是人工發(fā)現(xiàn)錯(cuò)誤用例,進(jìn)行人工標(biāo)注后并加入訓(xùn)練語料庫。該方法所有數(shù)據(jù)都需要人工提取,只能發(fā)現(xiàn)一個(gè)問題解決一個(gè),很多錯(cuò)誤問題因?yàn)槿肆υ虮贿z漏,解決一個(gè)錯(cuò)誤用例的代價(jià)也較大。因此新的訓(xùn)練語料獲取速度慢,導(dǎo)致模型優(yōu)化速度也很慢。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本發(fā)明提供一種訓(xùn)練語料獲取方法及裝置,具有自動(dòng)化程度高、獲取速度快等優(yōu)點(diǎn)。
[0006]為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種訓(xùn)練語料獲取方法,包括:獲取第一初始訓(xùn)練語料和第二初始訓(xùn)練語料;利用根據(jù)所述第一初始訓(xùn)練語料構(gòu)建的概率分類模型對可選訓(xùn)練語句進(jìn)行預(yù)測,得到第一預(yù)測結(jié)果;利用根據(jù)所述第一初始訓(xùn)練語料和第二初始訓(xùn)練語料構(gòu)建的概率分類模型對所述可選訓(xùn)練語句進(jìn)行預(yù)測,得到第二預(yù)測結(jié)果;比較所述第一預(yù)測結(jié)果和第二預(yù)測結(jié)果,若所述第一預(yù)測結(jié)果與第二預(yù)測結(jié)果中的分類信息不一致,或者所述第一預(yù)測結(jié)果與第二預(yù)測結(jié)果中的分類信息一致且所述第一預(yù)測結(jié)果中的預(yù)測概率小于所述第二預(yù)測結(jié)果中的預(yù)測概率,將所述可選訓(xùn)練語句和第二預(yù)測結(jié)果中的分類信息作為訓(xùn)練語料輸出。
[0007]可選地,所述可選訓(xùn)練語句來自線上對話日志。
[0008]可選地,所述第一初始訓(xùn)練語料和第二初始訓(xùn)練語料是經(jīng)過人工標(biāo)注的訓(xùn)練語料。
[0009]可選地,所述訓(xùn)練語料用于新建訓(xùn)練語料庫,或者用于擴(kuò)展和優(yōu)化所述第一初始訓(xùn)練語料和第二初始訓(xùn)練語料所屬的原有的訓(xùn)練語料庫。
[0010]為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種訓(xùn)練語料獲取裝置,包括:獲取模塊,用于獲取第一初始訓(xùn)練語料和第二初始訓(xùn)練語料;第一預(yù)測模塊,用于利用根據(jù)所述第一初始訓(xùn)練語料構(gòu)建的概率分類模型對可選訓(xùn)練語句進(jìn)行預(yù)測,得到第一預(yù)測結(jié)果;第二預(yù)測模塊,用于利用根據(jù)所述第一初始訓(xùn)練語料和第二初始訓(xùn)練語料構(gòu)建的概率分類模型對所述可選訓(xùn)練語句進(jìn)行預(yù)測,得到第二預(yù)測結(jié)果;輸出模塊,用于比較所述第一預(yù)測結(jié)果和第二預(yù)測結(jié)果,若所述第一預(yù)測結(jié)果與第二預(yù)測結(jié)果的分類信息不一致,或者所述第一預(yù)測結(jié)果與第二預(yù)測結(jié)果的分類信息一致且所述第一預(yù)測結(jié)果的預(yù)測概率小于所述第二預(yù)測結(jié)果的預(yù)測概率,將所述可選訓(xùn)練語句和第二預(yù)測結(jié)果中的分類信息作為訓(xùn)練語料輸出。
[0011 ] 可選地,所述可選訓(xùn)練語句來自線上對話日志。
[0012]可選地,所述第一初始訓(xùn)練語料和第二初始訓(xùn)練語料是經(jīng)過人工標(biāo)注的訓(xùn)練語料。
[0013]可選地,所述訓(xùn)練語料用于新建訓(xùn)練語料庫,或者用于擴(kuò)展和優(yōu)化所述第一初始訓(xùn)練語料和第二初始訓(xùn)練語料所屬的原有的訓(xùn)練語料庫。
[0014]根據(jù)本發(fā)明的技術(shù)方案,對可選訓(xùn)練語句進(jìn)行兩次預(yù)測并比較預(yù)測結(jié)果。若兩次預(yù)測結(jié)果中分類信息不一致,意味著第二次預(yù)測是對第一次預(yù)測的結(jié)果進(jìn)行了修正,應(yīng)以第二次預(yù)測結(jié)果的分類信息為準(zhǔn)。若兩次預(yù)測結(jié)果中的分類信息一致且概率變大,意味著第二次預(yù)測是對第一次預(yù)測的結(jié)果進(jìn)行了確認(rèn),此時(shí)兩次預(yù)測結(jié)果中的分類信息是可信度較高的。通過這樣的方式,可以快速地獲得訓(xùn)練語料,具有自動(dòng)化程度高等優(yōu)點(diǎn)。
【附圖說明】
[0015]附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
[0016]圖1是根據(jù)本發(fā)明實(shí)施例的訓(xùn)練語料獲取方法的基本步驟的示意圖;
[0017]圖2是根據(jù)本發(fā)明實(shí)施例的訓(xùn)練語料獲取裝置的主要模塊的示意圖。
【具體實(shí)施方式】
[0018]以下結(jié)合附圖對本發(fā)明的示范性實(shí)施例做出說明,其中包括本發(fā)明實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)至IJ,可以對這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
[0019]圖1是根據(jù)本發(fā)明實(shí)施例的訓(xùn)練語料獲取方法的基本步驟的示意圖。如圖1所示,該訓(xùn)練語料獲取方法可以包括如下的步驟Sll至步驟S14。
[0020]步驟Sll:獲取第一初始訓(xùn)練語料和第二初始訓(xùn)練語料。
[0021]可選地,第一初始訓(xùn)練語料和第二初始訓(xùn)練語料是經(jīng)過人工標(biāo)注的訓(xùn)練語料。第一初始訓(xùn)練語料和第二初始訓(xùn)練語料可以包括多個(gè)句子以及對應(yīng)的分類標(biāo)識(shí)。
[0022]步驟S12:利用根據(jù)第一初始訓(xùn)練語料構(gòu)建的概率分類模型對可選訓(xùn)練語句進(jìn)行預(yù)測,得到第一預(yù)測結(jié)果。
[0023]步驟S13:利用根據(jù)第一初始訓(xùn)練語料和第二初始訓(xùn)練語料構(gòu)建的概率分類模型對可選訓(xùn)練語句進(jìn)行預(yù)測,得到第二預(yù)測結(jié)果。
[0024]需要說明的是,步驟S12和步驟S13中構(gòu)建概率分類模型的具體方式不受限制,本領(lǐng)域技術(shù)人員可以采用任意的現(xiàn)有技術(shù)來獲得模型。可選訓(xùn)練語句僅僅是一個(gè)句子,并不附帶分類標(biāo)識(shí)等信息。利用模型對可選訓(xùn)練語句進(jìn)行預(yù)測,即找出該可選訓(xùn)練語句的可能所屬的分類以及對應(yīng)的概率??蛇x地,可選訓(xùn)練語句來自線上對話日志。
[0025]步驟S14:比較第一預(yù)測結(jié)果和第二預(yù)測結(jié)果。若第一預(yù)測結(jié)果與第二預(yù)測結(jié)果中的分類信息不一致,或者第一預(yù)測結(jié)果與第二預(yù)測結(jié)果中的分類信息一致且第一預(yù)測結(jié)果中的預(yù)測概率小于第二預(yù)測結(jié)果中的預(yù)測概率,將可選訓(xùn)練語句和第二預(yù)測結(jié)果中的分類信息作為訓(xùn)練語料輸出。
[0026]需要說明的是,在第一預(yù)測結(jié)果與第二預(yù)測結(jié)果的分類一致且第一預(yù)測結(jié)果的預(yù)測概率大于第二預(yù)測結(jié)果的預(yù)測概率的情況下,仍不能夠準(zhǔn)確判斷該可選訓(xùn)練語句所屬的分類,該可選訓(xùn)練語句不能作為訓(xùn)練語料輸出,而應(yīng)當(dāng)被舍棄。
[0027]可選地,步驟S14所得到的訓(xùn)練語料用于新建訓(xùn)練語料庫,或者用于擴(kuò)展和優(yōu)化第一初始訓(xùn)練語料和第二初始訓(xùn)練語料所屬的原有的訓(xùn)練語料庫。
[0028]由上可知,根據(jù)本發(fā)明的實(shí)施例的訓(xùn)練語料獲取方法,對可選訓(xùn)練語句進(jìn)行兩次預(yù)測并比較預(yù)測結(jié)果。若兩次預(yù)測結(jié)果中分類信息不一致,意味著第二次預(yù)測是對第一次預(yù)測的結(jié)果進(jìn)行了修正,應(yīng)以第二次預(yù)測結(jié)果的分類信息為準(zhǔn)。若兩次預(yù)測結(jié)果中的分類信息一致且概率變大,意味著第二次預(yù)測是對第一次預(yù)測的結(jié)果進(jìn)行了確認(rèn),此時(shí)兩次預(yù)測結(jié)果中的分類信息是可信度較高的。因此,該方法可以快速地獲得訓(xùn)練語料,具有自動(dòng)化程度高等優(yōu)點(diǎn)。
[0029]圖2是根據(jù)本發(fā)明實(shí)施例的訓(xùn)練語料獲取裝置的主要模塊的示意圖。如圖2所示,該訓(xùn)練語料獲取裝置20包括:獲取模塊21、第一預(yù)測模塊22、第二預(yù)測模塊23和輸出模塊24。
[0030]獲取模塊21用于獲取第一初始訓(xùn)練語料和第二初始訓(xùn)練語料。可選地,第一初始訓(xùn)練語料和第二初始訓(xùn)練語料是經(jīng)過人工標(biāo)注的訓(xùn)練語料。第一初始訓(xùn)練語料和第二初始訓(xùn)練語料可以包括多個(gè)句子以及對應(yīng)的分類標(biāo)識(shí)。
[0031]第一預(yù)測模塊22用于利用根據(jù)第一初始訓(xùn)練語料構(gòu)建的概率分類模型對可選訓(xùn)練語句進(jìn)行預(yù)測,得到第一預(yù)測結(jié)果。
[0032]第二預(yù)測模塊23用于利用根據(jù)第一初始訓(xùn)練語料和第二初始訓(xùn)練語料構(gòu)建的概率分類模型對可選訓(xùn)練語句進(jìn)行預(yù)測,得到第二預(yù)測結(jié)果。
[0033]需要說明的是,步驟S12和步驟S13中構(gòu)建概率分類模型的具體方式不受限制
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
宁强县| 天气| 建宁县| 重庆市| 安阳市| 桃园市| 新巴尔虎右旗| 阜阳市| 临猗县| 襄垣县| 沁水县| 青海省| 秭归县| 曲沃县| 纳雍县| 藁城市| 凉山| 红原县| 长顺县| 吉林省| 六安市| 田阳县| 易门县| 临沂市| 墨江| 尼勒克县| 湘潭县| 泰兴市| 喀什市| 延川县| 扬州市| 济宁市| 河曲县| 宁明县| 阳泉市| 周宁县| 长春市| 青海省| 常宁市| 桃园市| 兴义市|