本公開涉及數(shù)據(jù)挖掘,尤其涉及一種樣本確定方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著自然語言處理技術(shù)的不斷發(fā)展,提升模型性能成為關(guān)鍵問題。數(shù)據(jù)增強(qiáng)作為一種強(qiáng)有效的模型性能提升方案,在自然語言處理任務(wù)中發(fā)揮著重要作用。
2、然而如果生成樣本的豐富度不足,則難以滿足自然語言處理任務(wù)對多樣化樣本的需求,并且,它們對領(lǐng)域知識存在依賴,需要技術(shù)人員非常熟悉領(lǐng)域知識。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種樣本確定方法、裝置、電子設(shè)備及存儲介質(zhì),以至少解決現(xiàn)有技術(shù)中存在的以上技術(shù)問題。
2、根據(jù)本公開的第一方面,提供了一種樣本確定方法,包括:
3、確定待處理數(shù)據(jù)對應(yīng)的高維向量;
4、基于所述高維向量以及所述高維向量的類別數(shù)量,確定目標(biāo)采樣點(diǎn);
5、基于所述目標(biāo)采樣點(diǎn),在向量空間中確定至少一個采樣向量;
6、確認(rèn)所述至少一個采樣向量對應(yīng)的采樣數(shù)據(jù),為所述待處理數(shù)據(jù)的樣本。
7、上述方案中,所述確定待處理數(shù)據(jù)對應(yīng)的向量,由向量編碼器實(shí)現(xiàn),所述方法還包括:
8、基于數(shù)據(jù)訓(xùn)練集訓(xùn)練所述向量編碼器,使相同類別的訓(xùn)練數(shù)據(jù)對應(yīng)的高維向量,在向量空間中的距離小于第一閾值,使不同類別的訓(xùn)練數(shù)據(jù)對應(yīng)的高維向量,在向量空間中的距離大于第二閾值;
9、所述確定待處理數(shù)據(jù)對應(yīng)的高維向量包括:
10、將所述待處理數(shù)據(jù)輸入至向量編碼器中,確認(rèn)所述向量編碼器的輸出為所述待處理數(shù)據(jù)對應(yīng)的高維向量。
11、上述方案中,所述基于所述高維向量以及所述高維向量的類別數(shù)量,確定目標(biāo)采樣點(diǎn),包括以下之一:
12、響應(yīng)于所述待處理數(shù)據(jù)的類別數(shù)量為1,則所述目標(biāo)采樣點(diǎn)為所述高維向量所在的位置;
13、響應(yīng)于所述待處理數(shù)據(jù)的類別數(shù)量為2,則所述目標(biāo)采樣點(diǎn)在兩個高維向量對應(yīng)的連線上;
14、其中,若所述目標(biāo)采樣點(diǎn)在兩個高維向量對應(yīng)的連線上,且所述采樣向量所對應(yīng)的類別與兩個高維向量中第一高維向量的類別相近,則所述目標(biāo)采樣點(diǎn)與第一高維向量之間的距離最短。
15、上述方案中,所述基于所述待處理數(shù)據(jù)對應(yīng)的高維向量,確定目標(biāo)采樣點(diǎn),包括:
16、響應(yīng)于所述待處理數(shù)據(jù)的類別數(shù)量大于或等于3,則所述目標(biāo)采樣點(diǎn)在所述待處理數(shù)據(jù)對應(yīng)高維向量所圍成區(qū)域中;
17、其中,若所述采樣向量所對應(yīng)的類別與所述待處理數(shù)據(jù)對應(yīng)高維向量中第二高維向量的類別相近,則所述目標(biāo)采樣點(diǎn)與第二高維向量之間的距離最短。
18、上述方案中,響應(yīng)于所述待處理數(shù)據(jù)的類別數(shù)量為1,則向量空間中,所述至少一個采樣向量位于,以所述高維向量為球心,預(yù)設(shè)距離為半徑的球形內(nèi);
19、響應(yīng)于所述待處理數(shù)據(jù)的類別數(shù)量為2,則向量空間中,所述至少一個采樣向量位于兩個高維向量之間的空間中;
20、響應(yīng)于所述待處理數(shù)據(jù)的類別數(shù)量大于或等于3,則向量空間中,所述至少一個采樣向量位于,所述待處理數(shù)據(jù)對應(yīng)高維向量之間的空間中。
21、上述方案中,所述確認(rèn)所述至少一個采樣向量對應(yīng)的采樣數(shù)據(jù),為所述待處理數(shù)據(jù)的樣本,包括:
22、將所述至少一個采樣向量輸入至向量譯碼器,確認(rèn)所述向量譯碼器的輸出,為所述待處理數(shù)據(jù)的樣本。
23、上述方案中,所述確認(rèn)所述至少一個采樣向量對應(yīng)的采樣數(shù)據(jù),為所述待處理數(shù)據(jù)的樣本之后,所述方法還包括:
24、基于第一條件對所述待處理數(shù)據(jù)的樣本進(jìn)行過濾,確認(rèn)過濾后的樣本為所述待處理數(shù)據(jù)的目標(biāo)樣本;
25、所述第一條件包括類別相同、表達(dá)相同和語義通順中至少之一。
26、根據(jù)本公開的第二方面,提供一種樣本確定裝置,所述裝置包括:
27、向量編碼單元,用于確定待處理數(shù)據(jù)對應(yīng)的高維向量;
28、目標(biāo)采樣點(diǎn)確認(rèn)單元,用于基于所述高維向量以及所述高維向量的類別數(shù)量,確定目標(biāo)采樣點(diǎn);
29、采樣單元,用于基于所述目標(biāo)采樣點(diǎn),在向量空間中確定至少一個采樣向量;
30、向量解碼單元,用于確認(rèn)所述至少一個采樣向量對應(yīng)的采樣數(shù)據(jù),為所述待處理數(shù)據(jù)的樣本。
31、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:
32、至少一個處理器;以及
33、與所述至少一個處理器通信連接的存儲器;其中,
34、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本公開所述的方法。
35、根據(jù)本公開的第四方面,提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),所述計算機(jī)指令用于使所述計算機(jī)執(zhí)行本公開所述的方法。
36、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種樣本確定方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,所述確定待處理數(shù)據(jù)對應(yīng)的向量,由向量編碼器實(shí)現(xiàn),所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,所述基于所述高維向量以及所述高維向量的類別數(shù)量,確定目標(biāo)采樣點(diǎn),包括以下之一:
4.根據(jù)權(quán)利要求1所述的方法,所述基于所述待處理數(shù)據(jù)對應(yīng)的高維向量,確定目標(biāo)采樣點(diǎn),包括:
5.根據(jù)權(quán)利要求3或4所述的方法,
6.根據(jù)權(quán)利要求1所述的方法,所述確認(rèn)所述至少一個采樣向量對應(yīng)的采樣數(shù)據(jù),為所述待處理數(shù)據(jù)的樣本,包括:
7.根據(jù)權(quán)利要求1或6所述的方法,所述確認(rèn)所述至少一個采樣向量對應(yīng)的采樣數(shù)據(jù),為所述待處理數(shù)據(jù)的樣本之后,所述方法還包括:
8.一種樣本確定裝置,所述裝置包括:
9.一種電子設(shè)備,包括:
10.一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)指令用于使計算機(jī)執(zhí)行根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法。