本發(fā)明涉及的是一種分類(lèi)模型訓(xùn)練方法。
背景技術(shù):
目前,在機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的框架下,訓(xùn)練分類(lèi)模型需要預(yù)先收集一組帶有標(biāo)注信息的數(shù)據(jù)樣本。所收集訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量直接決定了分類(lèi)模型的泛化性能。在傳統(tǒng)的訓(xùn)練數(shù)據(jù)收集過(guò)程中,需要具有專(zhuān)業(yè)領(lǐng)域知識(shí)的專(zhuān)家提供數(shù)據(jù)樣本對(duì)應(yīng)的唯一正確標(biāo)注信息,用于保證訓(xùn)練所得的分類(lèi)模型具有良好的泛化性能。
這一傳統(tǒng)做法面臨的挑戰(zhàn)在于,現(xiàn)實(shí)任務(wù)中具有專(zhuān)業(yè)背景的人員較少,獲取樣本標(biāo)注信息的花費(fèi)較高、時(shí)間較長(zhǎng)。因而,隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,利用眾包技術(shù)為訓(xùn)練樣本快速獲取大量廉價(jià)標(biāo)注信息,成為降低標(biāo)注獲取過(guò)程中的時(shí)間和經(jīng)濟(jì)代價(jià)的有效途徑之一。
眾包環(huán)境下,訓(xùn)練數(shù)據(jù)的標(biāo)注獲取任務(wù)并非由傳統(tǒng)的專(zhuān)業(yè)人員來(lái)完成,而是以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)來(lái)完成的,即非專(zhuān)業(yè)個(gè)人或開(kāi)源個(gè)體以獨(dú)立或協(xié)作的方式快速低價(jià)地完成標(biāo)注任務(wù)。由于基于眾包技術(shù)獲取的標(biāo)注信息來(lái)自多個(gè)在線的網(wǎng)絡(luò)用戶,因此難以保證所收集標(biāo)注信息的質(zhì)量,同時(shí),由于缺少專(zhuān)業(yè)人士提供的正確標(biāo)注信息作為“金標(biāo)準(zhǔn)”,也難以對(duì)這些用戶的經(jīng)驗(yàn)及其完成標(biāo)注任務(wù)的準(zhǔn)確度進(jìn)行衡量。直接使用眾包標(biāo)注信息訓(xùn)練分類(lèi)模型,會(huì)嚴(yán)重影響分類(lèi)模型的泛化性能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種能夠克服低質(zhì)量標(biāo)注信息對(duì)模型訓(xùn)練過(guò)程的影響,保證在眾包環(huán)境下以最小標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型的基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
在所收集到的m個(gè)樣本及由k個(gè)用戶提供的眾包標(biāo)注信息為
步驟一,從所收集的樣本及其眾包標(biāo)注數(shù)據(jù)中隨機(jī)抽取n個(gè)樣本及其對(duì)應(yīng)的眾包標(biāo)注信息
步驟二,構(gòu)建訓(xùn)練數(shù)據(jù)集
步驟三,在訓(xùn)練數(shù)據(jù)集
步驟四,第j個(gè)用戶在類(lèi)別c上提供的一組標(biāo)注信息
其中,
步驟五,根據(jù)為樣本xi提供標(biāo)注信息的多個(gè)用戶的標(biāo)注水平,該樣本用于訓(xùn)練的標(biāo)注信息通過(guò)下式估計(jì)
步驟五,使用分類(lèi)模型對(duì)剩余m-n個(gè)樣本所屬類(lèi)別進(jìn)行預(yù)測(cè),并計(jì)算每個(gè)樣本對(duì)應(yīng)的分類(lèi)模型期望誤差,如下
其中,u表示剩余樣本組成的集合,i(d,x)表示將樣本加入訓(xùn)練集后分類(lèi)模型的誤差;
步驟六,選擇p(y|x*;w)>0.5對(duì)應(yīng)的類(lèi)別,并將該類(lèi)別上標(biāo)注水平最高的用戶為樣本x*提供的標(biāo)注信息y*加入訓(xùn)練數(shù)據(jù)集
步驟七,重復(fù)進(jìn)行步驟三至步驟六,直至分類(lèi)模型的泛化精度或者訓(xùn)練樣本的數(shù)量達(dá)到既定標(biāo)準(zhǔn)為止。
本發(fā)明還可以包括:
1、第j個(gè)用戶在類(lèi)別c上的標(biāo)注水平
在訓(xùn)練樣本及其眾包標(biāo)注集合
其中
p(yi|xi;w)為分類(lèi)模型對(duì)訓(xùn)練樣本所屬類(lèi)別的概率估計(jì)值,根據(jù)所估計(jì)的
2、將樣本加入訓(xùn)練集后分類(lèi)模型的誤差i(d,x)的計(jì)算方法為:
其中,u'表示將該樣本從剩余樣本集刪除后的樣本集合;同時(shí),當(dāng)樣本x添加標(biāo)注信息并加入訓(xùn)練集后,學(xué)習(xí)所得的分類(lèi)模型對(duì)該樣本的預(yù)測(cè)概率為
本發(fā)明提出了一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法。從單個(gè)用戶提供的標(biāo)注信息中估計(jì)該用戶的標(biāo)注水平,根據(jù)多個(gè)用戶提供標(biāo)注信息的質(zhì)量來(lái)確定訓(xùn)練分類(lèi)模型所使用的標(biāo)注信息,降低低水平用戶提供低質(zhì)量標(biāo)注信息對(duì)分類(lèi)模型訓(xùn)練的負(fù)面影響。選擇部分樣本構(gòu)建訓(xùn)練數(shù)據(jù)集,提高分類(lèi)模型的泛化性能,保證了實(shí)際任務(wù)中分類(lèi)模型的應(yīng)用效果。
本發(fā)明的目的是利用眾包技術(shù)獲取的多個(gè)低質(zhì)量標(biāo)注信息,以最小的標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型。本發(fā)明的有益效果:本發(fā)明利用了眾包用戶為訓(xùn)練樣本提供的多個(gè)標(biāo)注信息來(lái)估計(jì)單個(gè)用戶在每個(gè)類(lèi)別上提供標(biāo)注的水平,將多個(gè)用戶的標(biāo)注水平作為先驗(yàn)知識(shí),估計(jì)訓(xùn)練分類(lèi)模型使用的樣本標(biāo)注信息,克服了低質(zhì)量標(biāo)注信息對(duì)模型訓(xùn)練過(guò)程的影響。根據(jù)分類(lèi)模型對(duì)剩余樣本的類(lèi)別預(yù)測(cè)結(jié)果,選擇使分類(lèi)模型期望誤差最小的樣本加入訓(xùn)練樣本集,同時(shí),選擇選擇該類(lèi)別上標(biāo)注水平最高的用戶提供的標(biāo)注信息加入訓(xùn)練標(biāo)注信息集,克服了低質(zhì)量樣本對(duì)分類(lèi)模型訓(xùn)練的干擾。從而,保證了在眾包環(huán)境下以最小標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型。
附圖說(shuō)明
圖1為本發(fā)明的流程圖;
圖2為本發(fā)明與使用正確標(biāo)注訓(xùn)練分類(lèi)模型的精度比較結(jié)果;
圖3為本發(fā)明估計(jì)的用戶標(biāo)注水平與用戶真實(shí)標(biāo)注水平的比較結(jié)果。
具體實(shí)施方式
下面舉例對(duì)本發(fā)明做更詳細(xì)的描述。
根據(jù)本發(fā)明中基于眾包技術(shù)的分類(lèi)模型訓(xùn)練過(guò)程的流程圖,具體步驟如下:
1)從所收集數(shù)據(jù)中隨機(jī)抽取n(n<m)個(gè)樣本及對(duì)應(yīng)的眾包標(biāo)注信息
2)確定訓(xùn)練樣本xi對(duì)應(yīng)的標(biāo)注信息yi,當(dāng)
3)在使用訓(xùn)練樣本及其標(biāo)注信息學(xué)習(xí)一個(gè)參數(shù)為w的分類(lèi)模型。
4)在訓(xùn)練樣本及其眾包標(biāo)注集合
其中,
其中:
p(yi|xi;w)為分類(lèi)模型對(duì)訓(xùn)練樣本所屬類(lèi)別的概率估計(jì)值。根據(jù)所估計(jì)的
5)根據(jù)為樣本xi提供標(biāo)注信息的多個(gè)用戶的標(biāo)注水平,更新該樣本用于訓(xùn)練的標(biāo)注信息:
6)根據(jù)使用分類(lèi)模型對(duì)剩余m-n個(gè)樣本所屬類(lèi)別進(jìn)行預(yù)測(cè),并計(jì)算每個(gè)樣本的對(duì)應(yīng)的分類(lèi)模型期望誤差,如下:
其中:
u表示剩余樣本組成的集合,u'表示將該樣本從剩余樣本集刪除后的樣本集合。同時(shí),當(dāng)樣本x添加標(biāo)注信息并加入訓(xùn)練集后,學(xué)習(xí)所得的分類(lèi)模型對(duì)該樣本的預(yù)測(cè)概率為
7)選擇p(y|x*;w)>0.5對(duì)應(yīng)的類(lèi)別,并將該類(lèi)別上標(biāo)注水平最高的用戶為樣本x*提供的標(biāo)注信息y*加入訓(xùn)練數(shù)據(jù)集
8)重復(fù)進(jìn)行步驟三至步驟六,直至分類(lèi)模型的泛化精度或者訓(xùn)練樣本的數(shù)量達(dá)到既定標(biāo)準(zhǔn)為止。
由于在分類(lèi)模型的訓(xùn)練過(guò)程中,所選取的樣本的眾包標(biāo)注信息僅由該類(lèi)別上標(biāo)注水平最高的標(biāo)注者提供,隨后使用標(biāo)注者的水平作為先驗(yàn)知識(shí),校正了訓(xùn)練樣本所使用的標(biāo)注信息,保證了訓(xùn)練分類(lèi)模型時(shí)所使用標(biāo)注信息的質(zhì)量,降低了低水平標(biāo)注者所提供標(biāo)注信息對(duì)分類(lèi)模型訓(xùn)練過(guò)程的負(fù)面影響。其次,在分類(lèi)模型訓(xùn)練過(guò)程中,針對(duì)分類(lèi)模型來(lái)選取所用訓(xùn)練樣本,保證了分類(lèi)模型可以充分利用樣本包含的信息。
在對(duì)本算法的仿真過(guò)程中,共使用了5個(gè)用戶來(lái)模擬眾包標(biāo)注信息,訓(xùn)練數(shù)據(jù)集包含了40個(gè)訓(xùn)練樣本,未標(biāo)注數(shù)據(jù)集中包含了1000個(gè)未標(biāo)注樣本,測(cè)試數(shù)據(jù)集中包含了1000條樣本。圖2顯示的是所提出眾包標(biāo)注條件下和正確標(biāo)注條件下分別學(xué)習(xí)分類(lèi)模型的roc精度比較結(jié)果。圖3顯示的是所提出的方法根據(jù)眾包標(biāo)注信息估計(jì)得到的用戶水平和用戶真實(shí)水平的比較結(jié)果。
雖然已經(jīng)結(jié)合了具體實(shí)施方式對(duì)本發(fā)明的一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法進(jìn)行了說(shuō)明,但是本發(fā)明不限于此。在本發(fā)明的精神和原理下做出的各種變型均應(yīng)包含在本發(fā)明的權(quán)利要求書(shū)限定的范圍之內(nèi)。