一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法與流程

文檔序號(hào)：11323822閱讀：977來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及的是一種分類(lèi)模型訓(xùn)練方法。

背景技術(shù)：

目前，在機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的框架下，訓(xùn)練分類(lèi)模型需要預(yù)先收集一組帶有標(biāo)注信息的數(shù)據(jù)樣本。所收集訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量直接決定了分類(lèi)模型的泛化性能。在傳統(tǒng)的訓(xùn)練數(shù)據(jù)收集過(guò)程中，需要具有專(zhuān)業(yè)領(lǐng)域知識(shí)的專(zhuān)家提供數(shù)據(jù)樣本對(duì)應(yīng)的唯一正確標(biāo)注信息，用于保證訓(xùn)練所得的分類(lèi)模型具有良好的泛化性能。

這一傳統(tǒng)做法面臨的挑戰(zhàn)在于，現(xiàn)實(shí)任務(wù)中具有專(zhuān)業(yè)背景的人員較少，獲取樣本標(biāo)注信息的花費(fèi)較高、時(shí)間較長(zhǎng)。因而，隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展，利用眾包技術(shù)為訓(xùn)練樣本快速獲取大量廉價(jià)標(biāo)注信息，成為降低標(biāo)注獲取過(guò)程中的時(shí)間和經(jīng)濟(jì)代價(jià)的有效途徑之一。

眾包環(huán)境下，訓(xùn)練數(shù)據(jù)的標(biāo)注獲取任務(wù)并非由傳統(tǒng)的專(zhuān)業(yè)人員來(lái)完成，而是以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)來(lái)完成的，即非專(zhuān)業(yè)個(gè)人或開(kāi)源個(gè)體以獨(dú)立或協(xié)作的方式快速低價(jià)地完成標(biāo)注任務(wù)。由于基于眾包技術(shù)獲取的標(biāo)注信息來(lái)自多個(gè)在線的網(wǎng)絡(luò)用戶，因此難以保證所收集標(biāo)注信息的質(zhì)量，同時(shí)，由于缺少專(zhuān)業(yè)人士提供的正確標(biāo)注信息作為“金標(biāo)準(zhǔn)”，也難以對(duì)這些用戶的經(jīng)驗(yàn)及其完成標(biāo)注任務(wù)的準(zhǔn)確度進(jìn)行衡量。直接使用眾包標(biāo)注信息訓(xùn)練分類(lèi)模型，會(huì)嚴(yán)重影響分類(lèi)模型的泛化性能。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種能夠克服低質(zhì)量標(biāo)注信息對(duì)模型訓(xùn)練過(guò)程的影響，保證在眾包環(huán)境下以最小標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型的基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法。

本發(fā)明的目的是這樣實(shí)現(xiàn)的：

在所收集到的m個(gè)樣本及由k個(gè)用戶提供的眾包標(biāo)注信息為的條件下，按照如下步驟進(jìn)行：

步驟一，從所收集的樣本及其眾包標(biāo)注數(shù)據(jù)中隨機(jī)抽取n個(gè)樣本及其對(duì)應(yīng)的眾包標(biāo)注信息

步驟二，構(gòu)建訓(xùn)練數(shù)據(jù)集其中，當(dāng)時(shí)，yi＝1，否則，yi＝0；

步驟三，在訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)一個(gè)參數(shù)為w的分類(lèi)模型；

步驟四，第j個(gè)用戶在類(lèi)別c上提供的一組標(biāo)注信息上的標(biāo)注水平為

其中，和分別表示該用戶給出正確標(biāo)注和錯(cuò)誤標(biāo)注的次數(shù)；

步驟五，根據(jù)為樣本xi提供標(biāo)注信息的多個(gè)用戶的標(biāo)注水平，該樣本用于訓(xùn)練的標(biāo)注信息通過(guò)下式估計(jì)

步驟五，使用分類(lèi)模型對(duì)剩余m-n個(gè)樣本所屬類(lèi)別進(jìn)行預(yù)測(cè)，并計(jì)算每個(gè)樣本對(duì)應(yīng)的分類(lèi)模型期望誤差，如下

其中，u表示剩余樣本組成的集合，i(d,x)表示將樣本加入訓(xùn)練集后分類(lèi)模型的誤差；

步驟六，選擇p(y|x^*；w)＞0.5對(duì)應(yīng)的類(lèi)別，并將該類(lèi)別上標(biāo)注水平最高的用戶為樣本x^*提供的標(biāo)注信息y^*加入訓(xùn)練數(shù)據(jù)集

步驟七，重復(fù)進(jìn)行步驟三至步驟六，直至分類(lèi)模型的泛化精度或者訓(xùn)練樣本的數(shù)量達(dá)到既定標(biāo)準(zhǔn)為止。

本發(fā)明還可以包括：

1、第j個(gè)用戶在類(lèi)別c上的標(biāo)注水平的計(jì)算方法為：

在訓(xùn)練樣本及其眾包標(biāo)注集合上，初始化樣本xi對(duì)應(yīng)的標(biāo)注信息yi，即當(dāng)時(shí)，yi＝1，否則，yi＝0；根據(jù)標(biāo)注信息yi，初始化多個(gè)用戶的標(biāo)注水平集θ，將其作為先驗(yàn)分布，對(duì)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息估計(jì)如下：

其中

p(yi|xi；w)為分類(lèi)模型對(duì)訓(xùn)練樣本所屬類(lèi)別的概率估計(jì)值，根據(jù)所估計(jì)的更新用戶標(biāo)注水平，并重新訓(xùn)練分類(lèi)模型；重復(fù)估計(jì)和更新用戶標(biāo)注水平，直至似然函數(shù)收斂，此過(guò)程結(jié)束。

2、將樣本加入訓(xùn)練集后分類(lèi)模型的誤差i(d,x)的計(jì)算方法為：

其中，u'表示將該樣本從剩余樣本集刪除后的樣本集合；同時(shí)，當(dāng)樣本x添加標(biāo)注信息并加入訓(xùn)練集后，學(xué)習(xí)所得的分類(lèi)模型對(duì)該樣本的預(yù)測(cè)概率為xu∈u′，yu∈{0,1}。

本發(fā)明提出了一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法。從單個(gè)用戶提供的標(biāo)注信息中估計(jì)該用戶的標(biāo)注水平，根據(jù)多個(gè)用戶提供標(biāo)注信息的質(zhì)量來(lái)確定訓(xùn)練分類(lèi)模型所使用的標(biāo)注信息，降低低水平用戶提供低質(zhì)量標(biāo)注信息對(duì)分類(lèi)模型訓(xùn)練的負(fù)面影響。選擇部分樣本構(gòu)建訓(xùn)練數(shù)據(jù)集，提高分類(lèi)模型的泛化性能，保證了實(shí)際任務(wù)中分類(lèi)模型的應(yīng)用效果。

本發(fā)明的目的是利用眾包技術(shù)獲取的多個(gè)低質(zhì)量標(biāo)注信息，以最小的標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型。本發(fā)明的有益效果：本發(fā)明利用了眾包用戶為訓(xùn)練樣本提供的多個(gè)標(biāo)注信息來(lái)估計(jì)單個(gè)用戶在每個(gè)類(lèi)別上提供標(biāo)注的水平，將多個(gè)用戶的標(biāo)注水平作為先驗(yàn)知識(shí)，估計(jì)訓(xùn)練分類(lèi)模型使用的樣本標(biāo)注信息，克服了低質(zhì)量標(biāo)注信息對(duì)模型訓(xùn)練過(guò)程的影響。根據(jù)分類(lèi)模型對(duì)剩余樣本的類(lèi)別預(yù)測(cè)結(jié)果，選擇使分類(lèi)模型期望誤差最小的樣本加入訓(xùn)練樣本集，同時(shí)，選擇選擇該類(lèi)別上標(biāo)注水平最高的用戶提供的標(biāo)注信息加入訓(xùn)練標(biāo)注信息集，克服了低質(zhì)量樣本對(duì)分類(lèi)模型訓(xùn)練的干擾。從而，保證了在眾包環(huán)境下以最小標(biāo)注代價(jià)學(xué)習(xí)一個(gè)高泛化能力的分類(lèi)模型。

附圖說(shuō)明

圖1為本發(fā)明的流程圖；

圖2為本發(fā)明與使用正確標(biāo)注訓(xùn)練分類(lèi)模型的精度比較結(jié)果；

圖3為本發(fā)明估計(jì)的用戶標(biāo)注水平與用戶真實(shí)標(biāo)注水平的比較結(jié)果。

具體實(shí)施方式

下面舉例對(duì)本發(fā)明做更詳細(xì)的描述。

根據(jù)本發(fā)明中基于眾包技術(shù)的分類(lèi)模型訓(xùn)練過(guò)程的流程圖，具體步驟如下：

1)從所收集數(shù)據(jù)中隨機(jī)抽取n(n＜m)個(gè)樣本及對(duì)應(yīng)的眾包標(biāo)注信息

2)確定訓(xùn)練樣本xi對(duì)應(yīng)的標(biāo)注信息yi，當(dāng)時(shí)，yi＝1，否則，yi＝0。

3)在使用訓(xùn)練樣本及其標(biāo)注信息學(xué)習(xí)一個(gè)參數(shù)為w的分類(lèi)模型。

4)在訓(xùn)練樣本及其眾包標(biāo)注集合上，根據(jù)標(biāo)注信息yi，估計(jì)多個(gè)用戶對(duì)應(yīng)的標(biāo)注水平集θ，其中，給定第j個(gè)用戶在類(lèi)別c上提供的一組標(biāo)注信息該用戶相應(yīng)的標(biāo)注水平為：

其中，和分別表示該用戶給出正確標(biāo)注和錯(cuò)誤標(biāo)注的次數(shù)。將其作為先驗(yàn)分布，對(duì)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注信息估計(jì)如下：

其中：

p(yi|xi；w)為分類(lèi)模型對(duì)訓(xùn)練樣本所屬類(lèi)別的概率估計(jì)值。根據(jù)所估計(jì)的更新用戶標(biāo)注水平，并重新訓(xùn)練分類(lèi)模型。重復(fù)估計(jì)和更新用戶標(biāo)注水平，直至似然函數(shù)收斂，此過(guò)程結(jié)束。

5)根據(jù)為樣本xi提供標(biāo)注信息的多個(gè)用戶的標(biāo)注水平，更新該樣本用于訓(xùn)練的標(biāo)注信息：

6)根據(jù)使用分類(lèi)模型對(duì)剩余m-n個(gè)樣本所屬類(lèi)別進(jìn)行預(yù)測(cè)，并計(jì)算每個(gè)樣本的對(duì)應(yīng)的分類(lèi)模型期望誤差，如下：

其中：

u表示剩余樣本組成的集合，u'表示將該樣本從剩余樣本集刪除后的樣本集合。同時(shí)，當(dāng)樣本x添加標(biāo)注信息并加入訓(xùn)練集后，學(xué)習(xí)所得的分類(lèi)模型對(duì)該樣本的預(yù)測(cè)概率為xu∈u′，yu∈{0,1}。

7)選擇p(y|x^*；w)＞0.5對(duì)應(yīng)的類(lèi)別，并將該類(lèi)別上標(biāo)注水平最高的用戶為樣本x^*提供的標(biāo)注信息y^*加入訓(xùn)練數(shù)據(jù)集

8)重復(fù)進(jìn)行步驟三至步驟六，直至分類(lèi)模型的泛化精度或者訓(xùn)練樣本的數(shù)量達(dá)到既定標(biāo)準(zhǔn)為止。

由于在分類(lèi)模型的訓(xùn)練過(guò)程中，所選取的樣本的眾包標(biāo)注信息僅由該類(lèi)別上標(biāo)注水平最高的標(biāo)注者提供，隨后使用標(biāo)注者的水平作為先驗(yàn)知識(shí)，校正了訓(xùn)練樣本所使用的標(biāo)注信息，保證了訓(xùn)練分類(lèi)模型時(shí)所使用標(biāo)注信息的質(zhì)量，降低了低水平標(biāo)注者所提供標(biāo)注信息對(duì)分類(lèi)模型訓(xùn)練過(guò)程的負(fù)面影響。其次，在分類(lèi)模型訓(xùn)練過(guò)程中，針對(duì)分類(lèi)模型來(lái)選取所用訓(xùn)練樣本，保證了分類(lèi)模型可以充分利用樣本包含的信息。

在對(duì)本算法的仿真過(guò)程中，共使用了5個(gè)用戶來(lái)模擬眾包標(biāo)注信息，訓(xùn)練數(shù)據(jù)集包含了40個(gè)訓(xùn)練樣本，未標(biāo)注數(shù)據(jù)集中包含了1000個(gè)未標(biāo)注樣本，測(cè)試數(shù)據(jù)集中包含了1000條樣本。圖2顯示的是所提出眾包標(biāo)注條件下和正確標(biāo)注條件下分別學(xué)習(xí)分類(lèi)模型的roc精度比較結(jié)果。圖3顯示的是所提出的方法根據(jù)眾包標(biāo)注信息估計(jì)得到的用戶水平和用戶真實(shí)水平的比較結(jié)果。

雖然已經(jīng)結(jié)合了具體實(shí)施方式對(duì)本發(fā)明的一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法進(jìn)行了說(shuō)明，但是本發(fā)明不限于此。在本發(fā)明的精神和原理下做出的各種變型均應(yīng)包含在本發(fā)明的權(quán)利要求書(shū)限定的范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳偉寧
技術(shù)所有人：哈爾濱工程大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種吸螺器的制造方法與工藝
上一篇：一種具有篩選功能的蝦類(lèi)分選裝置的制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于眾包技術(shù)的分類(lèi)模型訓(xùn)練方法與流程