數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號：40531259發(fā)布日期：2024-12-31 13:45閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及計算機，具體涉及深度學(xué)習(xí)，尤其涉及一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、目前，在通過樣本對訓(xùn)練模型時，可以采用批處理訓(xùn)練方式，如可以將一個訓(xùn)練批次內(nèi)的樣本對中的某個樣本作為錨點樣本，通過錨點樣本的正樣本和負(fù)樣本確定模型損失值，以訓(xùn)練模型。其中，可以是通過一個訓(xùn)練批次內(nèi)的所有錨點樣本對于模型的損失值確定一個訓(xùn)練批次對于模型的模型損失值。其中，具體可以是通過一個錨點樣本(如樣本a)、樣本a的正樣本和在訓(xùn)練批次內(nèi)的所有負(fù)樣本確定樣本a對于模型的損失值。

2、然而，一個錨點樣本的所有負(fù)樣本數(shù)量較多，其中可能會包含大量簡單負(fù)樣本。這些簡單負(fù)樣本包含的信息量非常有限，模型學(xué)習(xí)到的特征較少，在模型學(xué)習(xí)樣本的特征信息時可能會帶來一些影響，使得模型訓(xùn)練效果低。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供了一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)，可以通過篩選負(fù)樣本數(shù)據(jù)提高模型訓(xùn)練效果。

2、一方面，本技術(shù)實施例提供了一種數(shù)據(jù)處理方法，該方法包括：

3、獲取用于輸入初始模型的n個樣本對；一個樣本對包括一個第一樣本數(shù)據(jù)和一個第二樣本數(shù)據(jù)；n為大于1的正整數(shù)；初始模型用于確定第一樣本數(shù)據(jù)的樣本特征以及第二樣本數(shù)據(jù)的樣本特征；

4、從n個樣本對中獲取樣本對i，將樣本對i中的第一樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)，將與錨點樣本數(shù)據(jù)在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的正樣本數(shù)據(jù)，將與錨點樣本數(shù)據(jù)不在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù)；i為小于或等于n的正整數(shù)；

5、基于錨點樣本數(shù)據(jù)的樣本特征，以及正樣本數(shù)據(jù)的樣本特征、負(fù)樣本數(shù)據(jù)的樣本特征以及與負(fù)樣本數(shù)據(jù)相關(guān)聯(lián)的樣本篩選間隔確定負(fù)樣本數(shù)據(jù)針對錨點樣本數(shù)據(jù)的特征距離損失以及權(quán)重?fù)p失；

6、將負(fù)樣本數(shù)據(jù)中，特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù)，作為錨點樣本數(shù)據(jù)的復(fù)雜負(fù)樣本數(shù)據(jù)；

7、通過復(fù)雜負(fù)樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本數(shù)據(jù)的特征距離損失進(jìn)行損失加權(quán)，得到錨點樣本數(shù)據(jù)針對初始模型的訓(xùn)練損失；

8、基于錨點樣本數(shù)據(jù)的訓(xùn)練損失確定用于訓(xùn)練初始模型的模型損失值。

9、另一方面，本技術(shù)實施例提供了一種數(shù)據(jù)處理方法，該方法包括：

10、獲取用于輸入目標(biāo)模型的第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)；目標(biāo)模型是由針對初始模型的模型損失值對初始模型進(jìn)行訓(xùn)練得到的；模型損失值是通過錨點樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本的特征距離損失進(jìn)行損失加權(quán)所得到的；復(fù)雜負(fù)樣本是錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù)中，特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù)；錨點樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)從用于訓(xùn)練初始模型的n個樣本對中獲取；n為大于1的正整數(shù)；

11、將第一目標(biāo)數(shù)據(jù)輸入目標(biāo)模型，得到第一目標(biāo)數(shù)據(jù)的目標(biāo)特征，將第二目標(biāo)數(shù)據(jù)輸入目標(biāo)模型，得到第二目標(biāo)數(shù)據(jù)的目標(biāo)特征；

12、其中，第一目標(biāo)數(shù)據(jù)的目標(biāo)特征和第二目標(biāo)數(shù)據(jù)的目標(biāo)特征用于確定第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)之間的特征相似度。

13、一方面，本技術(shù)實施例提供了一種數(shù)據(jù)處理裝置，該裝置包括：

14、樣本獲取模塊，用于獲取用于輸入初始模型的n個樣本對；一個樣本對包括一個第一樣本數(shù)據(jù)和一個第二樣本數(shù)據(jù)；n為大于1的正整數(shù)；初始模型用于確定第一樣本數(shù)據(jù)的樣本特征以及第二樣本數(shù)據(jù)的樣本特征；

15、樣本獲取模塊，還用于從n個樣本對中獲取樣本對i，將樣本對i中的第一樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)，將與錨點樣本數(shù)據(jù)在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的正樣本數(shù)據(jù)，將與錨點樣本數(shù)據(jù)不在同一樣本對的第二樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù)；i為小于或等于n的正整數(shù)；

16、特征損失確定模塊，用于基于錨點樣本數(shù)據(jù)的樣本特征，以及正樣本數(shù)據(jù)的樣本特征、負(fù)樣本數(shù)據(jù)的樣本特征以及與負(fù)樣本數(shù)據(jù)相關(guān)聯(lián)的樣本篩選間隔確定負(fù)樣本數(shù)據(jù)針對錨點樣本數(shù)據(jù)的特征距離損失以及權(quán)重?fù)p失；

17、樣本篩選模塊，用于將負(fù)樣本數(shù)據(jù)中，特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù)，作為錨點樣本數(shù)據(jù)的復(fù)雜負(fù)樣本數(shù)據(jù)；

18、訓(xùn)練損失確定模塊，用于通過復(fù)雜負(fù)樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本數(shù)據(jù)的特征距離損失進(jìn)行損失加權(quán)，得到錨點樣本數(shù)據(jù)針對初始模型的訓(xùn)練損失；

19、訓(xùn)練損失確定模塊，還用于基于錨點樣本數(shù)據(jù)的訓(xùn)練損失確定用于訓(xùn)練初始模型的模型損失值。

20、另一方面，本技術(shù)實施例提供了一種數(shù)據(jù)處理裝置，該裝置包括：

21、數(shù)據(jù)獲取模塊，用于獲取用于輸入目標(biāo)模型的第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)；目標(biāo)模型是由針對初始模型的模型損失值對初始模型進(jìn)行訓(xùn)練得到的；模型損失值是通過錨點樣本數(shù)據(jù)的權(quán)重?fù)p失對復(fù)雜負(fù)樣本的特征距離損失進(jìn)行損失加權(quán)所得到的；復(fù)雜負(fù)樣本是錨點樣本數(shù)據(jù)的負(fù)樣本數(shù)據(jù)中，特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù)；錨點樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)從用于訓(xùn)練初始模型的n個樣本對中獲取；n為大于1的正整數(shù)；

22、模型處理模塊，用于將第一目標(biāo)數(shù)據(jù)輸入目標(biāo)模型，得到第一目標(biāo)數(shù)據(jù)的目標(biāo)特征，將第二目標(biāo)數(shù)據(jù)輸入目標(biāo)模型，得到第二目標(biāo)數(shù)據(jù)的目標(biāo)特征；

23、其中，第一目標(biāo)數(shù)據(jù)的目標(biāo)特征和第二目標(biāo)數(shù)據(jù)的目標(biāo)特征用于確定第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)之間的特征相似度。

24、一方面，本技術(shù)實施例提供了一種電子設(shè)備，該電子設(shè)備包括處理器和存儲器，其中，存儲器用于存儲計算機程序，該計算機程序包括程序指令，處理器被配置用于調(diào)用該程序指令，執(zhí)行上述方法中的部分或全部步驟。

25、一方面，本技術(shù)實施例提供了一種計算機可讀存儲介質(zhì)，該計算機可讀存儲介質(zhì)存儲有計算機程序，該計算機程序包括程序指令，該程序指令被處理器執(zhí)行時，用于執(zhí)行上述方法中的部分或全部步驟。

26、相應(yīng)地，根據(jù)本技術(shù)的一個方面，提供了一種計算機程序產(chǎn)品，該計算機程序產(chǎn)品存儲有計算機程序，該計算機程序包括程序指令，該程序指令被處理器執(zhí)行時可實現(xiàn)上述方法中的部分或全部步驟。

27、本技術(shù)實施例中，可以獲取用于輸入初始模型的n個樣本對，并從n個樣本對的樣本對i中獲取錨點樣本數(shù)據(jù)，以及得到該錨點樣本數(shù)據(jù)的正樣本數(shù)據(jù)和在n個樣本對中的所有負(fù)樣本數(shù)據(jù)。此時可以通過初始模型確定錨點樣本數(shù)據(jù)的樣本特征、正樣本數(shù)據(jù)的樣本特征和負(fù)樣本數(shù)據(jù)的樣本特征，基于前述多種樣本特征以及與負(fù)樣本數(shù)據(jù)相關(guān)聯(lián)的樣本篩選間隔確定負(fù)樣本數(shù)據(jù)針對錨點樣本數(shù)據(jù)的特征距離損失和權(quán)重?fù)p失，該特征距離損失可用于衡量負(fù)樣本數(shù)據(jù)的復(fù)雜度，進(jìn)而可以根據(jù)特征距離損失篩選負(fù)樣本數(shù)據(jù)，具體可以是將特征距離損失大于距離損失閾值的負(fù)樣本數(shù)據(jù)作為錨點樣本數(shù)據(jù)的復(fù)雜負(fù)樣本數(shù)據(jù)?？梢愿鶕?jù)復(fù)雜負(fù)樣本數(shù)據(jù)的權(quán)重?fù)p失和特征距離損失確定出錨點樣本數(shù)據(jù)針對初始模型的訓(xùn)練損失，由此得到用于訓(xùn)練初始模型的模型損失值。可以理解，特征距離損失小于或等于距離損失閾值的負(fù)樣本即為簡單負(fù)樣本，通過復(fù)雜負(fù)樣本數(shù)據(jù)來訓(xùn)練初始模型，可以使得初始模型不會被簡單負(fù)樣本所干擾，可以更好的學(xué)習(xí)到復(fù)雜負(fù)樣本數(shù)據(jù)中的特征信息，可以提升對不同特征之間的距離度量的敏感度，從而使得模型可以學(xué)習(xí)出更加分散的特征分布空間，以及提升模型的表征能力，進(jìn)而提升模型訓(xùn)練效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳誠,蔡力坤,李若琦,張道鑫
技術(shù)所有人：小紅書科技有限公司
我是此專利的發(fā)明人

上一篇：一種磷酸鈣連續(xù)纖維及其制備方法與應(yīng)用
上一篇：一種高壓管道焊接裝置及其焊接方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程