本技術(shù)涉及計算機,具體涉及深度學(xué)習(xí),尤其涉及一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、目前,在通過樣本對訓(xùn)練模型時,可以采用批處理訓(xùn)練方式,如可以將一個訓(xùn)練批次內(nèi)的樣本對中的某個樣本作為錨點樣本,通過錨點樣本的正樣本和負(fù)樣本確定模型損失值,以訓(xùn)練模型。其中,可以是通過一個訓(xùn)練批次內(nèi)的所有錨點樣本對于模型的損失值確定一個訓(xùn)練批次對于模型的模型損失值。其中,具體可以是通過一個錨點樣本(如樣本a)、樣本a的正樣本和在訓(xùn)練批次內(nèi)的所有負(fù)樣本確定樣本a對于模型的損失值。
2、然而,一個錨點樣本的所有負(fù)樣本數(shù)量較多,其中可能會包含大量簡單負(fù)樣本。這些簡單負(fù)樣本包含的信息量非常有限,模型學(xué)習(xí)到的特征較少,在模型學(xué)習(xí)樣本的特征信息時可能會帶來一些影響,使得模型訓(xùn)練效果低。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì),可以通過篩選負(fù)樣本數(shù)據(jù)提高模型訓(xùn)練效果。
2、一方面,本技術(shù)實施例提供了一種數(shù)據(jù)處理方法,該方法包括:
3、獲取用于輸入初始模型的n個樣本對;一個樣本對包括一個第一樣本數(shù)據(jù)和一個第二樣本數(shù)據(jù);n為大于1的正整數(shù);初始模型用于確定第一樣本數(shù)據(jù)的樣本特征以及第二樣本數(shù)據(jù)的樣本特征;
4、從n個樣本對中獲取樣本對i,將樣本對i中的第一樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù),將與錨點樣本數(shù)據(jù)在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的正樣本數(shù)據(jù),將與錨點樣本數(shù)據(jù)不在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù);i為小于或等于n的正整數(shù);
5、基于錨點樣本數(shù)據(jù)的樣本特征,以及正樣本數(shù)據(jù)的樣本特征、負(fù)樣本數(shù)據(jù)的樣本特征以及與負(fù)樣本數(shù)據(jù)相關(guān)聯(lián)的樣本篩選間隔確定負(fù)樣本數(shù)據(jù)針對錨點樣本數(shù)據(jù)的特征距離損失以及權(quán)重?fù)p失;
6、將負(fù)樣本數(shù)據(jù)中,特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù),作為錨點樣本數(shù)據(jù)的復(fù)雜負(fù)樣本數(shù)據(jù);
7、通過復(fù)雜負(fù)樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本數(shù)據(jù)的特征距離損失進(jìn)行損失加權(quán),得到錨點樣本數(shù)據(jù)針對初始模型的訓(xùn)練損失;
8、基于錨點樣本數(shù)據(jù)的訓(xùn)練損失確定用于訓(xùn)練初始模型的模型損失值。
9、另一方面,本技術(shù)實施例提供了一種數(shù)據(jù)處理方法,該方法包括:
10、獲取用于輸入目標(biāo)模型的第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù);目標(biāo)模型是由針對初始模型的模型損失值對初始模型進(jìn)行訓(xùn)練得到的;模型損失值是通過錨點樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本的特征距離損失進(jìn)行損失加權(quán)所得到的;復(fù)雜負(fù)樣本是錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù)中,特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù);錨點樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)從用于訓(xùn)練初始模型的n個樣本對中獲取;n為大于1的正整數(shù);
11、將第一目標(biāo)數(shù)據(jù)輸入目標(biāo)模型,得到第一目標(biāo)數(shù)據(jù)的目標(biāo)特征,將第二目標(biāo)數(shù)據(jù)輸入目標(biāo)模型,得到第二目標(biāo)數(shù)據(jù)的目標(biāo)特征;
12、其中,第一目標(biāo)數(shù)據(jù)的目標(biāo)特征和第二目標(biāo)數(shù)據(jù)的目標(biāo)特征用于確定第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)之間的特征相似度。
13、一方面,本技術(shù)實施例提供了一種數(shù)據(jù)處理裝置,該裝置包括:
14、樣本獲取模塊,用于獲取用于輸入初始模型的n個樣本對;一個樣本對包括一個第一樣本數(shù)據(jù)和一個第二樣本數(shù)據(jù);n為大于1的正整數(shù);初始模型用于確定第一樣本數(shù)據(jù)的樣本特征以及第二樣本數(shù)據(jù)的樣本特征;
15、樣本獲取模塊,還用于從n個樣本對中獲取樣本對i,將樣本對i中的第一樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù),將與錨點樣本數(shù)據(jù)在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的正樣本數(shù)據(jù),將與錨點樣本數(shù)據(jù)不在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù);i為小于或等于n的正整數(shù);
16、特征損失確定模塊,用于基于錨點樣本數(shù)據(jù)的樣本特征,以及正樣本數(shù)據(jù)的樣本特征、負(fù)樣本數(shù)據(jù)的樣本特征以及與負(fù)樣本數(shù)據(jù)相關(guān)聯(lián)的樣本篩選間隔確定負(fù)樣本數(shù)據(jù)針對錨點樣本數(shù)據(jù)的特征距離損失以及權(quán)重?fù)p失;
17、樣本篩選模塊,用于將負(fù)樣本數(shù)據(jù)中,特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù),作為錨點樣本數(shù)據(jù)的復(fù)雜負(fù)樣本數(shù)據(jù);
18、訓(xùn)練損失確定模塊,用于通過復(fù)雜負(fù)樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本數(shù)據(jù)的特征距離損失進(jìn)行損失加權(quán),得到錨點樣本數(shù)據(jù)針對初始模型的訓(xùn)練損失;
19、訓(xùn)練損失確定模塊,還用于基于錨點樣本數(shù)據(jù)的訓(xùn)練損失確定用于訓(xùn)練初始模型的模型損失值。
20、另一方面,本技術(shù)實施例提供了一種數(shù)據(jù)處理裝置,該裝置包括:
21、數(shù)據(jù)獲取模塊,用于獲取用于輸入目標(biāo)模型的第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù);目標(biāo)模型是由針對初始模型的模型損失值對初始模型進(jìn)行訓(xùn)練得到的;模型損失值是通過錨點樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本的特征距離損失進(jìn)行損失加權(quán)所得到的;復(fù)雜負(fù)樣本是錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù)中,特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù);錨點樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)從用于訓(xùn)練初始模型的n個樣本對中獲取;n為大于1的正整數(shù);
22、模型處理模塊,用于將第一目標(biāo)數(shù)據(jù)輸入目標(biāo)模型,得到第一目標(biāo)數(shù)據(jù)的目標(biāo)特征,將第二目標(biāo)數(shù)據(jù)輸入目標(biāo)模型,得到第二目標(biāo)數(shù)據(jù)的目標(biāo)特征;
23、其中,第一目標(biāo)數(shù)據(jù)的目標(biāo)特征和第二目標(biāo)數(shù)據(jù)的目標(biāo)特征用于確定第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)之間的特征相似度。
24、一方面,本技術(shù)實施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器和存儲器,其中,存儲器用于存儲計算機程序,該計算機程序包括程序指令,處理器被配置用于調(diào)用該程序指令,執(zhí)行上述方法中的部分或全部步驟。
25、一方面,本技術(shù)實施例提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲有計算機程序,該計算機程序包括程序指令,該程序指令被處理器執(zhí)行時,用于執(zhí)行上述方法中的部分或全部步驟。
26、相應(yīng)地,根據(jù)本技術(shù)的一個方面,提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品存儲有計算機程序,該計算機程序包括程序指令,該程序指令被處理器執(zhí)行時可實現(xiàn)上述方法中的部分或全部步驟。
27、本技術(shù)實施例中,可以獲取用于輸入初始模型的n個樣本對,并從n個樣本對的樣本對i中獲取錨點樣本數(shù)據(jù),以及得到該錨點樣本數(shù)據(jù)的正樣本數(shù)據(jù)和在n個樣本對中的所有負(fù)樣本數(shù)據(jù)。此時可以通過初始模型確定錨點樣本數(shù)據(jù)的樣本特征、正樣本數(shù)據(jù)的樣本特征和負(fù)樣本數(shù)據(jù)的樣本特征,基于前述多種樣本特征以及與負(fù)樣本數(shù)據(jù)相關(guān)聯(lián)的樣本篩選間隔確定負(fù)樣本數(shù)據(jù)針對錨點樣本數(shù)據(jù)的特征距離損失和權(quán)重?fù)p失,該特征距離損失可用于衡量負(fù)樣本數(shù)據(jù)的復(fù)雜度,進(jìn)而可以根據(jù)特征距離損失篩選負(fù)樣本數(shù)據(jù),具體可以是將特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的復(fù)雜負(fù)樣本數(shù)據(jù)??梢愿鶕?jù)復(fù)雜負(fù)樣本數(shù)據(jù)的權(quán)重?fù)p失和特征距離損失確定出錨點樣本數(shù)據(jù)針對初始模型的訓(xùn)練損失,由此得到用于訓(xùn)練初始模型的模型損失值。可以理解,特征距離損失小于或等于距離損失閾值的負(fù)樣本即為簡單負(fù)樣本,通過復(fù)雜負(fù)樣本數(shù)據(jù)來訓(xùn)練初始模型,可以使得初始模型不會被簡單負(fù)樣本所干擾,可以更好的學(xué)習(xí)到復(fù)雜負(fù)樣本數(shù)據(jù)中的特征信息,可以提升對不同特征之間的距離度量的敏感度,從而使得模型可以學(xué)習(xí)出更加分散的特征分布空間,以及提升模型的表征能力,進(jìn)而提升模型訓(xùn)練效果。