本公開(kāi)的實(shí)施例涉及計(jì)算機(jī),具體涉及一種數(shù)據(jù)標(biāo)注方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、數(shù)據(jù)標(biāo)注是指對(duì)語(yǔ)音、圖片、文本、視頻等數(shù)據(jù)提供注釋?zhuān)D(zhuǎn)換為機(jī)器學(xué)習(xí)算法可識(shí)別信息的過(guò)程。利用數(shù)據(jù)標(biāo)注可以使機(jī)器學(xué)習(xí)算法建立對(duì)現(xiàn)實(shí)世界環(huán)境和條件的準(zhǔn)確理解。
2、現(xiàn)有技術(shù)中,實(shí)現(xiàn)數(shù)據(jù)標(biāo)注的方法可以分為人工標(biāo)注和自動(dòng)標(biāo)注。人工標(biāo)注是指由標(biāo)注人員手動(dòng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,自動(dòng)標(biāo)注是指機(jī)器學(xué)習(xí)模型通過(guò)預(yù)測(cè)數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行標(biāo)注??梢岳斫獾氖牵捎萌斯?biāo)注,雖然數(shù)據(jù)標(biāo)注質(zhì)量較高,但是同時(shí)會(huì)產(chǎn)生大量的標(biāo)注費(fèi)用和人力成本,而采用自動(dòng)標(biāo)注,雖然標(biāo)注質(zhì)量相比人工標(biāo)注較低,但是可以降低標(biāo)注費(fèi)用和人力成本,并且,由于數(shù)據(jù)的安全性等問(wèn)題,對(duì)于不同的標(biāo)注任務(wù)其標(biāo)注需求也不同,需要選擇的數(shù)據(jù)標(biāo)注方法也不同,因此,如何選擇數(shù)據(jù)標(biāo)注的方法以及如何對(duì)數(shù)據(jù)標(biāo)注質(zhì)量、標(biāo)注效率以及人力成本等多個(gè)目標(biāo)之間進(jìn)行平衡是至關(guān)重要的。
3、因此,有必要提出一種新的數(shù)據(jù)標(biāo)注方法,以解決上述至少一個(gè)技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)的實(shí)施例提出了一種數(shù)據(jù)標(biāo)注方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
2、第一方面,本公開(kāi)提供了一種數(shù)據(jù)標(biāo)注方法,包括:
3、接收數(shù)據(jù)標(biāo)注請(qǐng)求,上述數(shù)據(jù)標(biāo)注請(qǐng)求包括至少一個(gè)標(biāo)注任務(wù)和每個(gè)標(biāo)注任務(wù)所對(duì)應(yīng)的任務(wù)類(lèi)型、標(biāo)注數(shù)據(jù)、約束以及標(biāo)注指標(biāo)值,上述標(biāo)注數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)項(xiàng),上述約束包括至少一個(gè)約束條件;
4、根據(jù)上述每個(gè)標(biāo)注任務(wù)的上述標(biāo)注指標(biāo)值確定目標(biāo)標(biāo)注任務(wù);
5、根據(jù)上述約束將上述目標(biāo)標(biāo)注任務(wù)的上述標(biāo)注數(shù)據(jù)分割為自動(dòng)標(biāo)注數(shù)據(jù)和人工標(biāo)注數(shù)據(jù);
6、根據(jù)待標(biāo)注任務(wù)的任務(wù)類(lèi)型、標(biāo)注質(zhì)量和節(jié)約成本至少之一確定目標(biāo)自動(dòng)標(biāo)注策略;
7、通過(guò)上述目標(biāo)自動(dòng)標(biāo)注策略對(duì)上述自動(dòng)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
8、在一些可選的實(shí)施方式中,上述根據(jù)待標(biāo)注任務(wù)的任務(wù)類(lèi)型、標(biāo)注質(zhì)量和節(jié)約成本至少之一確定目標(biāo)自動(dòng)標(biāo)注策略,包括:
9、根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型確定是否存在與上述目標(biāo)標(biāo)注任務(wù)對(duì)應(yīng)的歷史自動(dòng)標(biāo)注策略;
10、若存在,將上述歷史自動(dòng)標(biāo)注策略確定為目標(biāo)歷史自動(dòng)標(biāo)注策略,判斷上述目標(biāo)歷史自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo);
11、若不滿足,根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型獲取自動(dòng)標(biāo)注策略集,上述自動(dòng)標(biāo)注策略集包括至少一個(gè)自動(dòng)標(biāo)注策略;
12、基于至少一個(gè)自動(dòng)標(biāo)注策略,確定目標(biāo)自動(dòng)標(biāo)注策略。
13、在一些可選的實(shí)施方式中,上述基于至少一個(gè)自動(dòng)標(biāo)注策略,確定目標(biāo)自動(dòng)標(biāo)注策略,包括:
14、計(jì)算每個(gè)自動(dòng)標(biāo)注策略的標(biāo)注質(zhì)量和節(jié)約成本;
15、根據(jù)上述標(biāo)注質(zhì)量和上述節(jié)約成本確定第一自動(dòng)標(biāo)注策略;
16、判斷上述第一自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo);
17、若滿足,確定上述第一自動(dòng)標(biāo)注策略為上述目標(biāo)自動(dòng)標(biāo)注策略。
18、在一些可選的實(shí)施方式中,上述根據(jù)上述每個(gè)標(biāo)注任務(wù)的上述標(biāo)注指標(biāo)值確定目標(biāo)標(biāo)注任務(wù),包括:
19、根據(jù)上述每個(gè)標(biāo)注任務(wù)的上述標(biāo)注指標(biāo)值計(jì)算上述每個(gè)標(biāo)注任務(wù)主導(dǎo)剩余標(biāo)注任務(wù)的第一數(shù)量,上述剩余標(biāo)注任務(wù)是指在上述至少一個(gè)標(biāo)注任務(wù)中選擇任一標(biāo)注任務(wù)后剩余的標(biāo)注任務(wù);
20、根據(jù)上述第一數(shù)量對(duì)上述至少一個(gè)標(biāo)注任務(wù)進(jìn)行優(yōu)先級(jí)排序,將上述第一數(shù)量最高的標(biāo)注任務(wù)確定為上述目標(biāo)標(biāo)注任務(wù)。
21、在一些可選的實(shí)施方式中,上述根據(jù)上述約束將上述目標(biāo)標(biāo)注任務(wù)的上述標(biāo)注數(shù)據(jù)分割為自動(dòng)標(biāo)注數(shù)據(jù)和人工標(biāo)注數(shù)據(jù),包括:
22、分別判斷上述標(biāo)注數(shù)據(jù)中的每一個(gè)數(shù)據(jù)項(xiàng)是否滿足上述目標(biāo)標(biāo)注任務(wù)所對(duì)應(yīng)的上述約束的每一個(gè)約束條件;
23、若滿足,將上述標(biāo)注數(shù)據(jù)的數(shù)據(jù)項(xiàng)確定為自動(dòng)標(biāo)注數(shù)據(jù);
24、若不滿足,將上述標(biāo)注數(shù)據(jù)的數(shù)據(jù)項(xiàng)確定為人工標(biāo)注數(shù)據(jù)。
25、在一些可選的實(shí)施方式中,上述將上述標(biāo)注數(shù)據(jù)的數(shù)據(jù)項(xiàng)確定為人工標(biāo)注數(shù)據(jù),還包括:
26、根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型確定目標(biāo)預(yù)過(guò)濾策略;
27、根據(jù)上述目標(biāo)預(yù)過(guò)濾策略分別判斷上述人工標(biāo)注數(shù)據(jù)中的每一個(gè)數(shù)據(jù)項(xiàng)是否滿足目標(biāo)預(yù)過(guò)濾策略閾值;
28、若滿足,將上述數(shù)據(jù)項(xiàng)發(fā)送至人工標(biāo)注數(shù)據(jù)項(xiàng)隊(duì)列;
29、若不滿足,將上述數(shù)據(jù)項(xiàng)確定為負(fù)例進(jìn)行丟棄。
30、在一些可選的實(shí)施方式中,上述根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型確定目標(biāo)預(yù)過(guò)濾策略,包括:
31、獲取預(yù)過(guò)濾策略集,上述預(yù)過(guò)濾策略集包括至少一個(gè)預(yù)過(guò)濾策略,上述每個(gè)預(yù)過(guò)濾策略對(duì)應(yīng)可過(guò)濾標(biāo)注任務(wù)的任務(wù)類(lèi)型,上述預(yù)過(guò)濾策略用于丟棄上述人工標(biāo)注數(shù)據(jù)中的負(fù)例;
32、將上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型和上述預(yù)過(guò)濾策略對(duì)應(yīng)可過(guò)濾標(biāo)注任務(wù)的任務(wù)類(lèi)型進(jìn)行匹配,確定上述預(yù)過(guò)濾策略對(duì)應(yīng)的可過(guò)濾標(biāo)注任務(wù)的任務(wù)類(lèi)型中是否存在上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型;
33、若存在,則將上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型對(duì)應(yīng)的上述預(yù)過(guò)濾策略確定為目標(biāo)預(yù)過(guò)濾策略。
34、在一些可選的實(shí)施方式中,上述根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型確定是否存在與上述目標(biāo)標(biāo)注任務(wù)對(duì)應(yīng)的歷史自動(dòng)標(biāo)注策略,包括:
35、獲取歷史自動(dòng)標(biāo)注策略集,上述歷史自動(dòng)標(biāo)注策略集包括至少一個(gè)歷史自動(dòng)標(biāo)注策略,每個(gè)上述歷史自動(dòng)標(biāo)注策略對(duì)應(yīng)可標(biāo)注任務(wù)的任務(wù)類(lèi)型;上述歷史自動(dòng)標(biāo)注策略用于對(duì)自動(dòng)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注;
36、將上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型和上述歷史自動(dòng)標(biāo)注策略對(duì)應(yīng)的可標(biāo)注任務(wù)的任務(wù)類(lèi)型進(jìn)行匹配;
37、根據(jù)上述歷史自動(dòng)標(biāo)注策略對(duì)應(yīng)的可標(biāo)注任務(wù)的任務(wù)類(lèi)型中是否存在上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型確定是否存在與上述目標(biāo)標(biāo)注任務(wù)對(duì)應(yīng)的上述歷史自動(dòng)標(biāo)注策略。
38、在一些可選的實(shí)施方式中,上述根據(jù)上述歷史自動(dòng)標(biāo)注策略對(duì)應(yīng)的可標(biāo)注任務(wù)的任務(wù)類(lèi)型中是否存在上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型確定是否存在與上述目標(biāo)標(biāo)注任務(wù)對(duì)應(yīng)的上述歷史自動(dòng)標(biāo)注策略,還包括:
39、若不存在,則將上述自動(dòng)標(biāo)注數(shù)據(jù)確定為人工標(biāo)注數(shù)據(jù)。
40、在一些可選的實(shí)施方式中,上述判斷上述目標(biāo)歷史自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo),包括:
41、在上述自動(dòng)標(biāo)注數(shù)據(jù)中隨機(jī)抽取預(yù)設(shè)質(zhì)檢比例的數(shù)據(jù),將上述預(yù)設(shè)質(zhì)檢比例的數(shù)據(jù)確定為質(zhì)檢數(shù)據(jù);
42、使用上述目標(biāo)歷史自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)進(jìn)行標(biāo)注;
43、獲取上述目標(biāo)歷史自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果;
44、根據(jù)上述目標(biāo)歷史自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果判斷上述目標(biāo)歷史自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo)。
45、在一些可選的實(shí)施方式中,上述第一質(zhì)量評(píng)估指標(biāo)包括召回率、精確率、準(zhǔn)確率、假陽(yáng)性率和假陰性率;以及
46、上述根據(jù)上述目標(biāo)歷史自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果判斷目標(biāo)歷史自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo),包括:
47、根據(jù)上述目標(biāo)歷史自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果計(jì)算上述召回率、上述精確率、上述準(zhǔn)確率、上述假陽(yáng)性率和上述假陰性率;
48、根據(jù)上述召回率、上述精確率、上述準(zhǔn)確率、上述假陽(yáng)性率和上述假陰性率是否分別大于召回率閾值、精確率閾值、準(zhǔn)確率閾值、假陽(yáng)性率閾值和假陰性率閾值判斷目標(biāo)歷史自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo);
49、若上述召回率、上述精確率、上述準(zhǔn)確率、上述假陽(yáng)性率和上述假陰性率分別大于上述召回率閾值、上述精確率閾值、上述準(zhǔn)確率閾值、上述假陽(yáng)性率閾值和上述假陰性率閾值,則確定上述目標(biāo)歷史自動(dòng)標(biāo)注策略滿足第一質(zhì)量評(píng)估指標(biāo);
50、若上述召回率、上述精確率、上述準(zhǔn)確率、上述假陽(yáng)性率和上述假陰性率中存在至少一個(gè)不大于上述召回率閾值、上述精確率閾值、上述準(zhǔn)確率閾值、上述假陽(yáng)性率閾值和上述假陰性率閾值,則確定上述目標(biāo)歷史自動(dòng)標(biāo)注策略不滿足第一質(zhì)量評(píng)估指標(biāo)。
51、在一些可選的實(shí)施方式中,上述判斷上述目標(biāo)歷史自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo),還包括:
52、若滿足,使用上述目標(biāo)歷史自動(dòng)標(biāo)注策略對(duì)上述自動(dòng)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
53、在一些可選的實(shí)施方式中,上述根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型獲取自動(dòng)標(biāo)注策略集,包括:
54、根據(jù)上述目標(biāo)標(biāo)注任務(wù)的任務(wù)類(lèi)型從預(yù)定義的特征提取模型庫(kù)和分類(lèi)器模型庫(kù)中分別選取x個(gè)特征提取模型和y個(gè)分類(lèi)器模型,x和y均為正整數(shù);
55、將上述x個(gè)特征提取模型中的任一特征提取模型和上述y個(gè)分類(lèi)器模型中的任一分類(lèi)器模型進(jìn)行排列組合獲得自動(dòng)標(biāo)注策略集。
56、在一些可選的實(shí)施方式中,上述計(jì)算每個(gè)自動(dòng)標(biāo)注策略的標(biāo)注質(zhì)量和節(jié)約成本,包括:
57、分別使用每個(gè)上述自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)進(jìn)行標(biāo)注;
58、根據(jù)每個(gè)上述自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果計(jì)算每個(gè)上述自動(dòng)標(biāo)注策略的標(biāo)注質(zhì)量;
59、獲取上述目標(biāo)標(biāo)注任務(wù)的任務(wù)特性,上述任務(wù)特性包括上述自動(dòng)標(biāo)注數(shù)據(jù)的數(shù)據(jù)項(xiàng)數(shù)量和人工標(biāo)注上述自動(dòng)標(biāo)注數(shù)據(jù)的單個(gè)數(shù)據(jù)項(xiàng)的平均成本;
60、根據(jù)上述任務(wù)特征和每個(gè)上述自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果分別計(jì)算每個(gè)上述自動(dòng)標(biāo)注策略的節(jié)約成本。
61、在一些可選的實(shí)施方式中,上述根據(jù)每個(gè)上述自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果計(jì)算每個(gè)上述自動(dòng)標(biāo)注策略的標(biāo)注質(zhì)量,包括:
62、根據(jù)每個(gè)上述自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果分別計(jì)算每個(gè)上述自動(dòng)標(biāo)注策略的上述召回率、上述精確率、上述準(zhǔn)確率和正確識(shí)別的負(fù)例比例。
63、將上述召回率、上述精確率、上述準(zhǔn)確率和上述正確識(shí)別的負(fù)例比例進(jìn)行線性加權(quán)獲得每個(gè)上述自動(dòng)標(biāo)注策略的標(biāo)注質(zhì)量。
64、在一些可選的實(shí)施方式中,上述根據(jù)上述標(biāo)注質(zhì)量和上述節(jié)約成本確定第一自動(dòng)標(biāo)注策略,包括:
65、基于上述標(biāo)注質(zhì)量及上述節(jié)約成本,計(jì)算任意兩個(gè)上述自動(dòng)標(biāo)注策略之間的帕累托支配關(guān)系;
66、基于上述帕累托支配關(guān)系,確定第一自動(dòng)標(biāo)注策略。
67、在一些可選的實(shí)施方式中,上述基于上述標(biāo)注質(zhì)量及上述節(jié)約成本,計(jì)算任意兩個(gè)上述自動(dòng)標(biāo)注策略之間的帕累托支配關(guān)系,包括:
68、建立上述自動(dòng)標(biāo)注策略的標(biāo)注質(zhì)量集合和節(jié)約成本集合;
69、獲取上述自動(dòng)標(biāo)注策略集中的上述自動(dòng)標(biāo)注策略的策略數(shù)量;
70、判斷上述策略數(shù)量是否小于等于策略數(shù)量閾值;
71、若小于,遍歷上述標(biāo)注質(zhì)量集合和上述節(jié)約成本集合,計(jì)算任意兩個(gè)上述自動(dòng)標(biāo)注策略之間的帕累托支配關(guān)系。
72、在一些可選的實(shí)施方式中,上述基于上述帕累托支配關(guān)系,確定第一自動(dòng)標(biāo)注策略,包括:
73、根據(jù)上述帕累托支配關(guān)系計(jì)算每個(gè)上述自動(dòng)標(biāo)注策略主導(dǎo)剩余自動(dòng)標(biāo)注策略的第二數(shù)量,上述剩余自動(dòng)標(biāo)注策略是指在上述自動(dòng)標(biāo)注策略集中選擇任一上述自動(dòng)標(biāo)注策略后剩余的上述自動(dòng)標(biāo)注策略;
74、根據(jù)上述第二數(shù)量對(duì)上述自動(dòng)標(biāo)注策略集中的上述自動(dòng)標(biāo)注策略進(jìn)行優(yōu)先級(jí)排序,將上述第二數(shù)量最高的上述自動(dòng)標(biāo)注策略確定為上述第一自動(dòng)標(biāo)注策略;
75、若不小于,以上述自動(dòng)標(biāo)注策略集為遺傳算法的決策空間,通過(guò)上述遺傳算法獲得上述第一自動(dòng)標(biāo)注策略。
76、在一些可選的實(shí)施方式中,上述判斷上述第一自動(dòng)標(biāo)注策略是否滿足第一質(zhì)量評(píng)估指標(biāo),包括:
77、使用上述第一自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)進(jìn)行標(biāo)注;
78、根據(jù)上述第一自動(dòng)標(biāo)注策略對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果和人工對(duì)上述質(zhì)檢數(shù)據(jù)的標(biāo)注結(jié)果判斷上述第一自動(dòng)標(biāo)注策略是否大于第一質(zhì)量評(píng)估指標(biāo)的質(zhì)量控制閾值;
79、若是,確定上述第一自動(dòng)標(biāo)注策略滿足第一質(zhì)量評(píng)估指標(biāo);
80、若否,確定上述第一自動(dòng)標(biāo)注策略不滿足第一質(zhì)量評(píng)估指標(biāo)。
81、在一些可選的實(shí)施方式中,上述確定上述第一自動(dòng)標(biāo)注策略不滿足第一質(zhì)量評(píng)估指標(biāo),還包括:
82、將上述目標(biāo)標(biāo)注任務(wù)的自動(dòng)標(biāo)注數(shù)據(jù)確定為未標(biāo)注數(shù)據(jù);
83、對(duì)上述未標(biāo)注數(shù)據(jù)執(zhí)行如下抽樣及標(biāo)注操作,以實(shí)現(xiàn)對(duì)上述第一自動(dòng)標(biāo)注策略進(jìn)行更新直至上述第一自動(dòng)標(biāo)注策略的帕累托目標(biāo)值收斂:
84、在上述未標(biāo)注數(shù)據(jù)中進(jìn)行隨機(jī)抽樣獲得隨機(jī)抽樣數(shù)據(jù);
85、計(jì)算上述隨機(jī)抽樣數(shù)據(jù)中各數(shù)據(jù)項(xiàng)對(duì)多目標(biāo)優(yōu)化模型的貢獻(xiàn)值,上述多目標(biāo)優(yōu)化模型用于計(jì)算上述第一自動(dòng)標(biāo)注策略的帕累托最優(yōu)目標(biāo)值;
86、根據(jù)上述隨機(jī)抽樣數(shù)據(jù)中各數(shù)據(jù)項(xiàng)的貢獻(xiàn)值,在上述隨機(jī)抽樣數(shù)據(jù)中選取數(shù)據(jù)項(xiàng)以形成高貢獻(xiàn)值抽樣數(shù)據(jù);
87、對(duì)上述高貢獻(xiàn)值抽樣數(shù)據(jù)進(jìn)行人工標(biāo)注以獲得相應(yīng)人工標(biāo)注結(jié)果;
88、根據(jù)上述高貢獻(xiàn)值抽樣數(shù)據(jù)及相應(yīng)人工標(biāo)注結(jié)果,重新計(jì)算上述第一自動(dòng)標(biāo)注策略的帕累托最優(yōu)目標(biāo)值,基于上述高貢獻(xiàn)值抽樣數(shù)據(jù)及相應(yīng)人工標(biāo)注結(jié)果對(duì)上述第一自動(dòng)標(biāo)注策略進(jìn)行更新,以及根據(jù)上述高貢獻(xiàn)值抽樣數(shù)據(jù)及相應(yīng)人工標(biāo)注結(jié)果對(duì)上述未標(biāo)注數(shù)據(jù)進(jìn)行更新,通過(guò)更新后的上述未標(biāo)注數(shù)據(jù)繼續(xù)執(zhí)行上述抽樣及標(biāo)注操作直至上述帕累托目標(biāo)值收斂。
89、第二方面,本公開(kāi)提供了一種數(shù)據(jù)標(biāo)注裝置,包括:
90、接收單元,用于接收數(shù)據(jù)標(biāo)注請(qǐng)求,上述數(shù)據(jù)標(biāo)注請(qǐng)求包括至少一個(gè)標(biāo)注任務(wù)和每個(gè)標(biāo)注任務(wù)所對(duì)應(yīng)的任務(wù)類(lèi)型、標(biāo)注數(shù)據(jù)、約束以及標(biāo)注指標(biāo)值,上述標(biāo)注數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)項(xiàng),上述約束包括至少一個(gè)約束條件;
91、確定單元,用于根據(jù)上述每個(gè)標(biāo)注任務(wù)的上述標(biāo)注指標(biāo)和上述標(biāo)注指標(biāo)值確定目標(biāo)標(biāo)注任務(wù);
92、分割單元,用于根據(jù)上述約束將上述目標(biāo)標(biāo)注任務(wù)的上述標(biāo)注數(shù)據(jù)分割為自動(dòng)標(biāo)注數(shù)據(jù)和人工標(biāo)注數(shù)據(jù);
93、確定單元,還用于根據(jù)待標(biāo)注任務(wù)的任務(wù)類(lèi)型、標(biāo)注質(zhì)量和節(jié)約成本至少之一確定目標(biāo)自動(dòng)標(biāo)注策略;
94、標(biāo)注單元,用于通過(guò)上述目標(biāo)自動(dòng)標(biāo)注策略對(duì)上述自動(dòng)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
95、第三方面,本公開(kāi)提供了一種電子設(shè)備,包括:
96、一個(gè)或多個(gè)處理器;
97、存儲(chǔ)裝置,其上存儲(chǔ)有一個(gè)或多個(gè)程序,
98、當(dāng)上述一個(gè)或多個(gè)程序被上述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得上述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如本公開(kāi)第一方面任一實(shí)施方式描述的方法。
99、第四方面,本公開(kāi)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,上述計(jì)算機(jī)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)如本公開(kāi)第一方面任一實(shí)施方式描述的方法。
100、本公開(kāi)的實(shí)施例提供的數(shù)據(jù)標(biāo)注方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),接收數(shù)據(jù)標(biāo)注請(qǐng)求,數(shù)據(jù)標(biāo)注請(qǐng)求包括至少一個(gè)標(biāo)注任務(wù)和每個(gè)標(biāo)注任務(wù)所對(duì)應(yīng)的任務(wù)類(lèi)型、標(biāo)注數(shù)據(jù)、約束以及標(biāo)注指標(biāo)值,標(biāo)注數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)項(xiàng),約束包括至少一個(gè)約束條件。根據(jù)每個(gè)標(biāo)注任務(wù)的標(biāo)注指標(biāo)值確定目標(biāo)標(biāo)注任務(wù)。根據(jù)約束將目標(biāo)標(biāo)注任務(wù)的標(biāo)注數(shù)據(jù)分割為自動(dòng)標(biāo)注數(shù)據(jù)和人工標(biāo)注數(shù)據(jù)。根據(jù)待標(biāo)注任務(wù)的任務(wù)類(lèi)型、標(biāo)注質(zhì)量和節(jié)約成本至少之一確定目標(biāo)自動(dòng)標(biāo)注策略。通過(guò)目標(biāo)自動(dòng)標(biāo)注策略對(duì)自動(dòng)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。通過(guò)先確定目標(biāo)標(biāo)注任務(wù),再根據(jù)約束將目標(biāo)標(biāo)注任務(wù)分割為自動(dòng)標(biāo)注數(shù)據(jù)和人工標(biāo)注數(shù)據(jù),進(jìn)一步,根據(jù)待標(biāo)注任務(wù)的任務(wù)類(lèi)型、標(biāo)注質(zhì)量和節(jié)約成本至少之一確定目標(biāo)自動(dòng)標(biāo)注策略,通過(guò)目標(biāo)自動(dòng)標(biāo)注策略對(duì)自動(dòng)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。通過(guò)動(dòng)態(tài)的平衡數(shù)據(jù)標(biāo)注質(zhì)量、標(biāo)注效率以及人力成本等多個(gè)目標(biāo)值,實(shí)現(xiàn)了更好的資源分配和對(duì)每個(gè)標(biāo)注任務(wù)進(jìn)行個(gè)性化的數(shù)據(jù)標(biāo)注配置。