欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法與流程

文檔序號(hào):11323822閱讀:977來(lái)源:國(guó)知局
一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法與流程

本發(fā)明涉及的是一種分類(lèi)模型訓(xùn)練方法。



背景技術(shù):

目前,在機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的框架下,訓(xùn)練分類(lèi)模型需要預(yù)先收集一組帶有標(biāo)注信息的數(shù)據(jù)樣本。所收集訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量直接決定了分類(lèi)模型的泛化性能。在傳統(tǒng)的訓(xùn)練數(shù)據(jù)收集過(guò)程中,需要具有專(zhuān)業(yè)領(lǐng)域知識(shí)的專(zhuān)家提供數(shù)據(jù)樣本對(duì)應(yīng)的唯一正確標(biāo)注信息,用于保證訓(xùn)練所得的分類(lèi)模型具有良好的泛化性能。

這一傳統(tǒng)做法面臨的挑戰(zhàn)在于,現(xiàn)實(shí)任務(wù)中具有專(zhuān)業(yè)背景的人員較少,獲取樣本標(biāo)注信息的花費(fèi)較高、時(shí)間較長(zhǎng)。因而,隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,利用眾包技術(shù)為訓(xùn)練樣本快速獲取大量廉價(jià)標(biāo)注信息,成為降低標(biāo)注獲取過(guò)程中的時(shí)間和經(jīng)濟(jì)代價(jià)的有效途徑之一。

眾包環(huán)境下,訓(xùn)練數(shù)據(jù)的標(biāo)注獲取任務(wù)并非由傳統(tǒng)的專(zhuān)業(yè)人員來(lái)完成,而是以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)來(lái)完成的,即非專(zhuān)業(yè)個(gè)人或開(kāi)源個(gè)體以獨(dú)立或協(xié)作的方式快速低價(jià)地完成標(biāo)注任務(wù)。由于基于眾包技術(shù)獲取的標(biāo)注信息來(lái)自多個(gè)在線的網(wǎng)絡(luò)用戶,因此難以保證所收集標(biāo)注信息的質(zhì)量,同時(shí),由于缺少專(zhuān)業(yè)人士提供的正確標(biāo)注信息作為“金標(biāo)準(zhǔn)”,也難以對(duì)這些用戶的經(jīng)驗(yàn)及其完成標(biāo)注任務(wù)的準(zhǔn)確度進(jìn)行衡量。直接使用眾包標(biāo)注信息訓(xùn)練分類(lèi)模型,會(huì)嚴(yán)重影響分類(lèi)模型的泛化性能。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種能夠克服低質(zhì)量標(biāo)注信息對(duì)模型訓(xùn)練過(guò)程的影響,保證在眾包環(huán)境下以最小標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型的基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法。

本發(fā)明的目的是這樣實(shí)現(xiàn)的:

在所收集到的m個(gè)樣本及由k個(gè)用戶提供的眾包標(biāo)注信息為的條件下,按照如下步驟進(jìn)行:

步驟一,從所收集的樣本及其眾包標(biāo)注數(shù)據(jù)中隨機(jī)抽取n個(gè)樣本及其對(duì)應(yīng)的眾包標(biāo)注信息

步驟二,構(gòu)建訓(xùn)練數(shù)據(jù)集其中,當(dāng)時(shí),yi=1,否則,yi=0;

步驟三,在訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)一個(gè)參數(shù)為w的分類(lèi)模型;

步驟四,第j個(gè)用戶在類(lèi)別c上提供的一組標(biāo)注信息上的標(biāo)注水平

其中,分別表示該用戶給出正確標(biāo)注和錯(cuò)誤標(biāo)注的次數(shù);

步驟五,根據(jù)為樣本xi提供標(biāo)注信息的多個(gè)用戶的標(biāo)注水平,該樣本用于訓(xùn)練的標(biāo)注信息通過(guò)下式估計(jì)

步驟五,使用分類(lèi)模型對(duì)剩余m-n個(gè)樣本所屬類(lèi)別進(jìn)行預(yù)測(cè),并計(jì)算每個(gè)樣本對(duì)應(yīng)的分類(lèi)模型期望誤差,如下

其中,u表示剩余樣本組成的集合,i(d,x)表示將樣本加入訓(xùn)練集后分類(lèi)模型的誤差;

步驟六,選擇p(y|x*;w)>0.5對(duì)應(yīng)的類(lèi)別,并將該類(lèi)別上標(biāo)注水平最高的用戶為樣本x*提供的標(biāo)注信息y*加入訓(xùn)練數(shù)據(jù)集

步驟七,重復(fù)進(jìn)行步驟三至步驟六,直至分類(lèi)模型的泛化精度或者訓(xùn)練樣本的數(shù)量達(dá)到既定標(biāo)準(zhǔn)為止。

本發(fā)明還可以包括:

1、第j個(gè)用戶在類(lèi)別c上的標(biāo)注水平的計(jì)算方法為:

在訓(xùn)練樣本及其眾包標(biāo)注集合上,初始化樣本xi對(duì)應(yīng)的標(biāo)注信息yi,即當(dāng)時(shí),yi=1,否則,yi=0;根據(jù)標(biāo)注信息yi,初始化多個(gè)用戶的標(biāo)注水平集θ,將其作為先驗(yàn)分布,對(duì)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息估計(jì)如下:

其中

p(yi|xi;w)為分類(lèi)模型對(duì)訓(xùn)練樣本所屬類(lèi)別的概率估計(jì)值,根據(jù)所估計(jì)的更新用戶標(biāo)注水平,并重新訓(xùn)練分類(lèi)模型;重復(fù)估計(jì)和更新用戶標(biāo)注水平,直至似然函數(shù)收斂,此過(guò)程結(jié)束。

2、將樣本加入訓(xùn)練集后分類(lèi)模型的誤差i(d,x)的計(jì)算方法為:

其中,u'表示將該樣本從剩余樣本集刪除后的樣本集合;同時(shí),當(dāng)樣本x添加標(biāo)注信息并加入訓(xùn)練集后,學(xué)習(xí)所得的分類(lèi)模型對(duì)該樣本的預(yù)測(cè)概率為xu∈u′,yu∈{0,1}。

本發(fā)明提出了一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法。從單個(gè)用戶提供的標(biāo)注信息中估計(jì)該用戶的標(biāo)注水平,根據(jù)多個(gè)用戶提供標(biāo)注信息的質(zhì)量來(lái)確定訓(xùn)練分類(lèi)模型所使用的標(biāo)注信息,降低低水平用戶提供低質(zhì)量標(biāo)注信息對(duì)分類(lèi)模型訓(xùn)練的負(fù)面影響。選擇部分樣本構(gòu)建訓(xùn)練數(shù)據(jù)集,提高分類(lèi)模型的泛化性能,保證了實(shí)際任務(wù)中分類(lèi)模型的應(yīng)用效果。

本發(fā)明的目的是利用眾包技術(shù)獲取的多個(gè)低質(zhì)量標(biāo)注信息,以最小的標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型。本發(fā)明的有益效果:本發(fā)明利用了眾包用戶為訓(xùn)練樣本提供的多個(gè)標(biāo)注信息來(lái)估計(jì)單個(gè)用戶在每個(gè)類(lèi)別上提供標(biāo)注的水平,將多個(gè)用戶的標(biāo)注水平作為先驗(yàn)知識(shí),估計(jì)訓(xùn)練分類(lèi)模型使用的樣本標(biāo)注信息,克服了低質(zhì)量標(biāo)注信息對(duì)模型訓(xùn)練過(guò)程的影響。根據(jù)分類(lèi)模型對(duì)剩余樣本的類(lèi)別預(yù)測(cè)結(jié)果,選擇使分類(lèi)模型期望誤差最小的樣本加入訓(xùn)練樣本集,同時(shí),選擇選擇該類(lèi)別上標(biāo)注水平最高的用戶提供的標(biāo)注信息加入訓(xùn)練標(biāo)注信息集,克服了低質(zhì)量樣本對(duì)分類(lèi)模型訓(xùn)練的干擾。從而,保證了在眾包環(huán)境下以最小標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型。

附圖說(shuō)明

圖1為本發(fā)明的流程圖;

圖2為本發(fā)明與使用正確標(biāo)注訓(xùn)練分類(lèi)模型的精度比較結(jié)果;

圖3為本發(fā)明估計(jì)的用戶標(biāo)注水平與用戶真實(shí)標(biāo)注水平的比較結(jié)果。

具體實(shí)施方式

下面舉例對(duì)本發(fā)明做更詳細(xì)的描述。

根據(jù)本發(fā)明中基于眾包技術(shù)的分類(lèi)模型訓(xùn)練過(guò)程的流程圖,具體步驟如下:

1)從所收集數(shù)據(jù)中隨機(jī)抽取n(n<m)個(gè)樣本及對(duì)應(yīng)的眾包標(biāo)注信息

2)確定訓(xùn)練樣本xi對(duì)應(yīng)的標(biāo)注信息yi,當(dāng)時(shí),yi=1,否則,yi=0。

3)在使用訓(xùn)練樣本及其標(biāo)注信息學(xué)習(xí)一個(gè)參數(shù)為w的分類(lèi)模型。

4)在訓(xùn)練樣本及其眾包標(biāo)注集合上,根據(jù)標(biāo)注信息yi,估計(jì)多個(gè)用戶對(duì)應(yīng)的標(biāo)注水平集θ,其中,給定第j個(gè)用戶在類(lèi)別c上提供的一組標(biāo)注信息該用戶相應(yīng)的標(biāo)注水平為:

其中,分別表示該用戶給出正確標(biāo)注和錯(cuò)誤標(biāo)注的次數(shù)。將其作為先驗(yàn)分布,對(duì)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息估計(jì)如下:

其中:

p(yi|xi;w)為分類(lèi)模型對(duì)訓(xùn)練樣本所屬類(lèi)別的概率估計(jì)值。根據(jù)所估計(jì)的更新用戶標(biāo)注水平,并重新訓(xùn)練分類(lèi)模型。重復(fù)估計(jì)和更新用戶標(biāo)注水平,直至似然函數(shù)收斂,此過(guò)程結(jié)束。

5)根據(jù)為樣本xi提供標(biāo)注信息的多個(gè)用戶的標(biāo)注水平,更新該樣本用于訓(xùn)練的標(biāo)注信息:

6)根據(jù)使用分類(lèi)模型對(duì)剩余m-n個(gè)樣本所屬類(lèi)別進(jìn)行預(yù)測(cè),并計(jì)算每個(gè)樣本的對(duì)應(yīng)的分類(lèi)模型期望誤差,如下:

其中:

u表示剩余樣本組成的集合,u'表示將該樣本從剩余樣本集刪除后的樣本集合。同時(shí),當(dāng)樣本x添加標(biāo)注信息并加入訓(xùn)練集后,學(xué)習(xí)所得的分類(lèi)模型對(duì)該樣本的預(yù)測(cè)概率為xu∈u′,yu∈{0,1}。

7)選擇p(y|x*;w)>0.5對(duì)應(yīng)的類(lèi)別,并將該類(lèi)別上標(biāo)注水平最高的用戶為樣本x*提供的標(biāo)注信息y*加入訓(xùn)練數(shù)據(jù)集

8)重復(fù)進(jìn)行步驟三至步驟六,直至分類(lèi)模型的泛化精度或者訓(xùn)練樣本的數(shù)量達(dá)到既定標(biāo)準(zhǔn)為止。

由于在分類(lèi)模型的訓(xùn)練過(guò)程中,所選取的樣本的眾包標(biāo)注信息僅由該類(lèi)別上標(biāo)注水平最高的標(biāo)注者提供,隨后使用標(biāo)注者的水平作為先驗(yàn)知識(shí),校正了訓(xùn)練樣本所使用的標(biāo)注信息,保證了訓(xùn)練分類(lèi)模型時(shí)所使用標(biāo)注信息的質(zhì)量,降低了低水平標(biāo)注者所提供標(biāo)注信息對(duì)分類(lèi)模型訓(xùn)練過(guò)程的負(fù)面影響。其次,在分類(lèi)模型訓(xùn)練過(guò)程中,針對(duì)分類(lèi)模型來(lái)選取所用訓(xùn)練樣本,保證了分類(lèi)模型可以充分利用樣本包含的信息。

在對(duì)本算法的仿真過(guò)程中,共使用了5個(gè)用戶來(lái)模擬眾包標(biāo)注信息,訓(xùn)練數(shù)據(jù)集包含了40個(gè)訓(xùn)練樣本,未標(biāo)注數(shù)據(jù)集中包含了1000個(gè)未標(biāo)注樣本,測(cè)試數(shù)據(jù)集中包含了1000條樣本。圖2顯示的是所提出眾包標(biāo)注條件下和正確標(biāo)注條件下分別學(xué)習(xí)分類(lèi)模型的roc精度比較結(jié)果。圖3顯示的是所提出的方法根據(jù)眾包標(biāo)注信息估計(jì)得到的用戶水平和用戶真實(shí)水平的比較結(jié)果。

雖然已經(jīng)結(jié)合了具體實(shí)施方式對(duì)本發(fā)明的一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法進(jìn)行了說(shuō)明,但是本發(fā)明不限于此。在本發(fā)明的精神和原理下做出的各種變型均應(yīng)包含在本發(fā)明的權(quán)利要求書(shū)限定的范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
潜江市| 泾川县| 牡丹江市| 兴隆县| 道孚县| 金门县| 华容县| 商丘市| 城固县| 商河县| 什邡市| 安阳市| 宣威市| 汉沽区| 遂溪县| 汉中市| 南宁市| 阿拉善左旗| 罗定市| 五河县| 泊头市| 青浦区| 靖西县| 桑植县| 罗山县| 万宁市| 马鞍山市| 清丰县| 武乡县| 乐山市| 平潭县| 锦屏县| 桃园县| 荆州市| 自治县| 沾化县| 株洲县| 巴彦淖尔市| 临夏县| 丘北县| 麻栗坡县|