本申請(qǐng)涉及計(jì)算機(jī),尤其涉及一種樣本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù):
1、目前,互聯(lián)網(wǎng)電商應(yīng)用的興起,極大地改變了傳統(tǒng)零售的格局,近年來(lái),電商企業(yè)仍在不斷尋求新的技術(shù)手段,幫助電商平臺(tái)更好地理解和滿足消費(fèi)者需求。人工智能作為一項(xiàng)前沿技術(shù),正在電商領(lǐng)域發(fā)揮著越來(lái)越重要的作用。人工智能已經(jīng)成為推動(dòng)電商行業(yè)創(chuàng)新和增長(zhǎng)的核心要素,特別是深度學(xué)習(xí)吸收生物神經(jīng)的工作機(jī)理,使機(jī)器模仿視聽(tīng)和思考等人類(lèi)的活動(dòng),解決了很多傳統(tǒng)機(jī)器學(xué)習(xí)難題,使得人工智能相關(guān)技術(shù)在電商領(lǐng)域取得了很大進(jìn)步。人工智能在非常多的電商場(chǎng)景,如計(jì)算機(jī)視覺(jué)cv商品圖片審核、搜索技術(shù)sr商品詞相關(guān)性匹配、用戶興趣數(shù)據(jù)挖掘dt、智能客戶服務(wù)(自然語(yǔ)言處理mlp,語(yǔ)音)、商品推薦和個(gè)性化技術(shù)服務(wù)等相關(guān)場(chǎng)景都取得了一些重大成果。深度監(jiān)督學(xué)習(xí)(superviselearning)領(lǐng)域是機(jī)器學(xué)習(xí)一個(gè)非常重要的分支。幾乎所有深度監(jiān)督學(xué)習(xí)方案在應(yīng)用這些數(shù)據(jù)之前,必須為這些海量的數(shù)據(jù)打上相關(guān)的學(xué)習(xí)標(biāo)簽。要完成這些數(shù)據(jù)的打標(biāo)任務(wù),非常耗費(fèi)成本(人力、物力、財(cái)力),標(biāo)記效率低。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)實(shí)施例提供一種樣本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì),能夠解決現(xiàn)有的樣本數(shù)據(jù)標(biāo)記成本高、效率低的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種樣本數(shù)據(jù)處理方法,包括:
3、初始化主動(dòng)學(xué)習(xí)的抽取數(shù)據(jù),獲取抽取數(shù)據(jù)中的未標(biāo)記樣本數(shù)據(jù);
4、將未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到各個(gè)聚類(lèi)簇;
5、確定各個(gè)聚類(lèi)簇中的未標(biāo)記樣本數(shù)據(jù)的信息熵,基于信息熵和主動(dòng)學(xué)習(xí)周期,確定待標(biāo)記樣本數(shù)據(jù);
6、對(duì)待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù);
7、基于標(biāo)記樣本數(shù)據(jù)更新標(biāo)記數(shù)據(jù)集,使用更新后的標(biāo)記數(shù)據(jù)集訓(xùn)練目標(biāo)模型。
8、可選地,將未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到各個(gè)聚類(lèi)簇,包括:
9、基于預(yù)設(shè)的屬性類(lèi)別對(duì)未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到與預(yù)設(shè)的屬性類(lèi)型對(duì)應(yīng)的各個(gè)聚類(lèi)簇。
10、可選地,基于信息熵和主動(dòng)學(xué)習(xí)周期,確定待標(biāo)記樣本數(shù)據(jù),包括:
11、在每個(gè)主動(dòng)學(xué)習(xí)周期,從各個(gè)聚類(lèi)簇中篩選得到信息熵最低的預(yù)設(shè)數(shù)量的未標(biāo)記樣本數(shù)據(jù)以作為待標(biāo)記樣本數(shù)據(jù)。
12、可選地,預(yù)設(shè)數(shù)量基于每個(gè)主動(dòng)學(xué)習(xí)周期的標(biāo)記預(yù)算而確定。
13、可選地,對(duì)待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù),包括:
14、將待標(biāo)記樣本數(shù)據(jù)發(fā)送至線下標(biāo)記節(jié)點(diǎn),并向線下標(biāo)記節(jié)點(diǎn)推送標(biāo)記待辦提示信息,以使得線下標(biāo)記節(jié)點(diǎn)對(duì)待標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù)。
15、可選地,對(duì)待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù),包括:
16、將待標(biāo)記樣本數(shù)據(jù)與標(biāo)記數(shù)據(jù)集中的標(biāo)記樣本數(shù)據(jù)進(jìn)行相似度匹配,根據(jù)匹配結(jié)果數(shù)據(jù)確定待標(biāo)記樣本數(shù)據(jù)的標(biāo)簽;
17、基于標(biāo)簽對(duì)相應(yīng)的待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù)。
18、可選地,基于標(biāo)記樣本數(shù)據(jù)更新標(biāo)記數(shù)據(jù)集,包括:
19、將標(biāo)記樣本數(shù)據(jù)添加至標(biāo)記數(shù)據(jù)集中,以得到更新后的標(biāo)記數(shù)據(jù)集。
20、另外,本申請(qǐng)還提供了一種樣本數(shù)據(jù)處理裝置,包括:
21、獲取單元,被配置成初始化主動(dòng)學(xué)習(xí)的抽取數(shù)據(jù),獲取抽取數(shù)據(jù)中的未標(biāo)記樣本數(shù)據(jù);
22、聚類(lèi)單元,被配置成將未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到各個(gè)聚類(lèi)簇;
23、待標(biāo)記樣本數(shù)據(jù)確定單元,被配置成確定各個(gè)聚類(lèi)簇中的未標(biāo)記樣本數(shù)據(jù)的信息熵,基于信息熵和主動(dòng)學(xué)習(xí)周期,確定待標(biāo)記樣本數(shù)據(jù);
24、標(biāo)記單元,被配置成對(duì)待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù);
25、更新單元,被配置成基于標(biāo)記樣本數(shù)據(jù)更新標(biāo)記數(shù)據(jù)集,使用更新后的標(biāo)記數(shù)據(jù)集訓(xùn)練目標(biāo)模型。
26、可選地,聚類(lèi)單元進(jìn)一步被配置成:
27、基于預(yù)設(shè)的屬性類(lèi)別對(duì)未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到與預(yù)設(shè)的屬性類(lèi)型對(duì)應(yīng)的各個(gè)聚類(lèi)簇。
28、可選地,待標(biāo)記樣本數(shù)據(jù)確定單元進(jìn)一步被配置成:
29、在每個(gè)主動(dòng)學(xué)習(xí)周期,從各個(gè)聚類(lèi)簇中篩選得到信息熵最低的預(yù)設(shè)數(shù)量的未標(biāo)記樣本數(shù)據(jù)以作為待標(biāo)記樣本數(shù)據(jù)。
30、可選地,預(yù)設(shè)數(shù)量基于每個(gè)主動(dòng)學(xué)習(xí)周期的標(biāo)記預(yù)算而確定。
31、可選地,標(biāo)記單元進(jìn)一步被配置成:
32、將待標(biāo)記樣本數(shù)據(jù)發(fā)送至線下標(biāo)記節(jié)點(diǎn),并向線下標(biāo)記節(jié)點(diǎn)推送標(biāo)記待辦提示信息,以使得線下標(biāo)記節(jié)點(diǎn)對(duì)待標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù)。
33、可選地,標(biāo)記單元進(jìn)一步被配置成:
34、將待標(biāo)記樣本數(shù)據(jù)與標(biāo)記數(shù)據(jù)集中的標(biāo)記樣本數(shù)據(jù)進(jìn)行相似度匹配,根據(jù)匹配結(jié)果數(shù)據(jù)確定待標(biāo)記樣本數(shù)據(jù)的標(biāo)簽;
35、基于標(biāo)簽對(duì)相應(yīng)的待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù)。
36、可選地,更新單元進(jìn)一步被配置成:
37、將標(biāo)記樣本數(shù)據(jù)添加至標(biāo)記數(shù)據(jù)集中,以得到更新后的標(biāo)記數(shù)據(jù)集。
38、另外,本申請(qǐng)還提供了一種樣本數(shù)據(jù)處理電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上述的樣本數(shù)據(jù)處理方法。
39、另外,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述的樣本數(shù)據(jù)處理方法。
40、為實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)實(shí)施例的又一個(gè)方面,提供了一種計(jì)算機(jī)程序產(chǎn)品。
41、本申請(qǐng)實(shí)施例的一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的樣本數(shù)據(jù)處理方法。
42、上述發(fā)明中的一個(gè)實(shí)施例具有如下優(yōu)點(diǎn)或有益效果:本申請(qǐng)通過(guò)初始化主動(dòng)學(xué)習(xí)的抽取數(shù)據(jù),獲取抽取數(shù)據(jù)中的未標(biāo)記樣本數(shù)據(jù);將未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到各個(gè)聚類(lèi)簇;確定各個(gè)聚類(lèi)簇中的未標(biāo)記樣本數(shù)據(jù)的信息熵,基于信息熵和主動(dòng)學(xué)習(xí)周期,確定待標(biāo)記樣本數(shù)據(jù);對(duì)待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù);基于標(biāo)記樣本數(shù)據(jù)更新標(biāo)記數(shù)據(jù)集,使用更新后的標(biāo)記數(shù)據(jù)集訓(xùn)練目標(biāo)模型。降低樣本數(shù)據(jù)標(biāo)記處理成本,提高樣本數(shù)據(jù)標(biāo)記處理效率。
43、上述的非慣用的可選方式所具有的進(jìn)一步效果將在下文中結(jié)合具體實(shí)施方式加以說(shuō)明。
1.一種樣本數(shù)據(jù)處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述未標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類(lèi),以得到各個(gè)聚類(lèi)簇,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述信息熵和主動(dòng)學(xué)習(xí)周期,確定待標(biāo)記樣本數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)設(shè)數(shù)量基于每個(gè)主動(dòng)學(xué)習(xí)周期的標(biāo)記預(yù)算而確定。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述待標(biāo)記樣本數(shù)據(jù)進(jìn)行標(biāo)記,以得到標(biāo)記樣本數(shù)據(jù),包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述標(biāo)記樣本數(shù)據(jù)更新標(biāo)記數(shù)據(jù)集,包括:
8.一種樣本數(shù)據(jù)處理裝置,其特征在于,包括:
9.一種樣本數(shù)據(jù)處理電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的方法。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的方法。