合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

文檔序號：40522910發(fā)布日期：2024-12-31 13:32閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

本技術(shù)涉及數(shù)據(jù)處理，尤其涉及一種合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。

背景技術(shù)：

1、目前自動駕駛領(lǐng)域與具身智能行業(yè)開發(fā)所需的訓(xùn)練數(shù)據(jù)通常來源于真實物理環(huán)境采集的真實數(shù)據(jù)、以及通過數(shù)據(jù)孿生仿真技術(shù)生成的虛擬環(huán)境仿真數(shù)據(jù)，其中，真實數(shù)據(jù)的采集成本高且受限于實際條件，限制了其廣泛應(yīng)用，數(shù)據(jù)孿生仿真技術(shù)所生成的仿真數(shù)據(jù)可以在一定程度彌補真實數(shù)據(jù)不足的問題。

2、然而，該仿真數(shù)據(jù)的當(dāng)前生成過程難以在不改變場景整體語義的前提下，對部分靜態(tài)或動態(tài)元素進行精確控制，該合成數(shù)據(jù)生產(chǎn)場景生成的不可控性，影響了合成數(shù)據(jù)的多樣性和質(zhì)量。例如，對于道路類型、天氣條件、時間變化等靜態(tài)環(huán)境元素、以及車輛類型和運動軌跡等動態(tài)交通元素，現(xiàn)有仿真技術(shù)難以在保持場景連貫性和一致性的同時，實現(xiàn)這些元素的精確調(diào)整和多樣化組合。

技術(shù)實現(xiàn)思路

1、有鑒于此，為解決上述技術(shù)問題，本技術(shù)提供一種合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。

2、具體地，本技術(shù)是通過如下技術(shù)方案實現(xiàn)的：

3、根據(jù)本技術(shù)實施例的第一方面，提供一種合成數(shù)據(jù)生成方法，該方法包括：

4、獲取用戶需求數(shù)據(jù)對應(yīng)的初始圖像特征；

5、獲取所述初始圖像特征中各個對象實例所在的第一子區(qū)域的第一圖像特征，并對所述第一圖像特征添加所述對象實例的可學(xué)習(xí)的類別提示，得到第二圖像特征；

6、根據(jù)預(yù)配置的第一權(quán)重矩陣對所述第二圖像特征進行線性變換，并應(yīng)用自注意力機制，得到所述第一子區(qū)域的自注意力輸出；

7、根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理，生成目標(biāo)合成數(shù)據(jù)。

8、可選地，所述方法還包括：

9、獲取所述初始圖像特征中不包含任何對象實例的第二子區(qū)域的第三圖像特征，并對所述第三圖像特征添加可學(xué)習(xí)的空實例提示，得到第四圖像特征；

10、根據(jù)預(yù)配置的第二權(quán)重矩陣對所述第四圖像特征進行線性變換，并應(yīng)用所述自注意力機制，得到所述第二子區(qū)域的自注意力輸出；

11、所述根據(jù)任務(wù)需求對所述自注意力輸出進行解碼處理，包括：

12、根據(jù)所述任務(wù)需求，對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理。

13、可選地，所述根據(jù)所述任務(wù)需求對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理，包括：

14、根據(jù)所述初始圖像特征中的所述第一子區(qū)域與所述第二子區(qū)域的掩碼信息，合并所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出，得到對應(yīng)的合并注意力輸出；

15、根據(jù)所述任務(wù)需求對所述合并注意力輸出進行解碼處理。

16、可選地，所述方法還包括：

17、獲取所述對象實例的包圍框，并將所述包圍框與所述對象實例的類別作編碼處理生成隱藏向量；

18、通過門控機制與自注意力機制將所述隱藏向量與所述初始圖像特征進行整合，構(gòu)建合并圖像特征；

19、所述根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理，包括：

20、根據(jù)所述任務(wù)需求，對所述第一子區(qū)域的自注意力輸出和所述合并圖像特征進行解碼處理。

21、可選地，所述將所述包圍框與所述對象實例的類別作編碼處理生成隱藏向量，包括：

22、將所述對象實例的包圍框的位置信息轉(zhuǎn)換為高維特征空間的第一表示向量，并將所述對象實例的類別轉(zhuǎn)換為第二表示向量；

23、將所述第一表示向量與所述第二表示向量進行連接得到組合向量；

24、利用神經(jīng)網(wǎng)絡(luò)的非線性變換，將所述組合向量映射到隱藏空間，生成所述隱藏向量。

25、可選地，所述通過門控機制與自注意力機制將所述隱藏向量與所述初始圖像特征進行整合，構(gòu)建合并圖像特征，包括：

26、將所述隱藏向量與所述初始圖像特征進行特征連接得到第一特征表示；

27、根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換，并應(yīng)用所述自注意力機制，得到所述第一特征表示的自注意力輸出；

28、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制，生成所述合并圖像特征；所述視覺標(biāo)記選擇操作用于從所述第一特征表示的自注意力輸出中選擇出與所述任務(wù)需求最相關(guān)的標(biāo)記。

29、可選地，所述對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制，生成所述合并圖像特征，包括：

30、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作，得到第二特征表示；

31、對所述第二特征表示應(yīng)用門控機制，并將對應(yīng)的門控機制輸出與所述初始圖像特征進行相加，生成所述合并圖像特征；所述門控機制通過可學(xué)習(xí)的門控參數(shù)和雙曲正切函數(shù)，調(diào)整所述第二特征表示對所述初始圖像特征的貢獻程度。

32、可選地，所述根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換，并應(yīng)用所述自注意力機制，得到所述第一特征表示的自注意力輸出，包括：

33、獲取任務(wù)自適應(yīng)嵌入；所述任務(wù)自適應(yīng)嵌入包括與所述初始圖像特征相同維度的多個可學(xué)習(xí)嵌入的任務(wù)自適應(yīng)提示；

34、將所述第一特征表示與所述任務(wù)自適應(yīng)嵌入沿著空間維度進行特征連接，得到合并特征表示；

35、利用生成查詢向量的第三權(quán)重矩陣，將所述第一特征表示線性變換生成第一查詢向量，并利用生成鍵向量和值向量的第三權(quán)重矩陣，將所述合并特征表示線性變換生成第一鍵向量和第一值向量；

36、對所述第一查詢向量、第一鍵向量和所述第一值向量應(yīng)用自注意力機制，得到所述第一特征表示的自注意力輸出。

37、可選地，所述方法還包括：

38、獲取所述任務(wù)需求關(guān)聯(lián)的條件嵌入；所述條件嵌入包括特定的生成條件信息編碼得到的嵌入向量；

39、將所述條件嵌入與所述合并特征表示沿著空間維度進行特征連接，得到更新后的合并特征表示。

40、可選地，所述根據(jù)預(yù)配置的第一權(quán)重矩陣對所述第二圖像特征進行線性變換，并應(yīng)用自注意力機制，得到所述第一子區(qū)域的自注意力輸出，包括：

41、分別利用生成查詢向量、鍵向量和值向量的權(quán)重矩陣，對所述第二圖像特征進行線性變換，生成所述對象實例的目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值；

42、針對所述目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值應(yīng)用所述自注意力機制，得到所述第一子區(qū)域的自注意力輸出。

43、可選地，所述根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理，生成目標(biāo)合成數(shù)據(jù)，包括：

44、從預(yù)先設(shè)置的多種解碼器架構(gòu)中，確定用于實現(xiàn)所述任務(wù)需求的目標(biāo)解碼器；

45、將所述第一子區(qū)域的自注意力輸出輸入至所述目標(biāo)解碼器，得到所述目標(biāo)解碼器輸出的目標(biāo)合成數(shù)據(jù)。

46、根據(jù)本技術(shù)實施例的第二方面，提供一種合成數(shù)據(jù)生成裝置，所述裝置包括：

47、初始圖像特征獲取模塊，用于獲取用戶需求數(shù)據(jù)對應(yīng)的初始圖像特征；

48、實例類別提示添加模塊，用于獲取所述初始圖像特征中各個對象實例所在的第一子區(qū)域的第一圖像特征，并對所述第一圖像特征添加所述對象實例的可學(xué)習(xí)的類別提示，得到第二圖像特征；

49、實例注意力輸出模塊，用于根據(jù)預(yù)配置的第一權(quán)重矩陣對所述第二圖像特征進行線性變換，并應(yīng)用自注意力機制，得到所述第一子區(qū)域的自注意力輸出；

50、合成數(shù)據(jù)生成模塊，用于根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理，生成目標(biāo)合成數(shù)據(jù)。

51、可選地，所述裝置還包括：

52、獲取所述初始圖像特征中不包含任何對象實例的第二子區(qū)域的第三圖像特征，并對所述第三圖像特征添加可學(xué)習(xí)的空實例提示，得到第四圖像特征；

53、根據(jù)預(yù)配置的第二權(quán)重矩陣對所述第四圖像特征進行線性變換，并應(yīng)用所述自注意力機制，得到所述第二子區(qū)域的自注意力輸出；

54、所述合成數(shù)據(jù)生成模塊具體用于：根據(jù)所述任務(wù)需求，對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理。

55、可選地，所述合成數(shù)據(jù)生成模塊在用于根據(jù)所述任務(wù)需求，對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理時，包括：

56、根據(jù)所述初始圖像特征中的所述第一子區(qū)域與所述第二子區(qū)域的掩碼信息，合并所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出，得到對應(yīng)的合并注意力輸出；根據(jù)所述任務(wù)需求對所述合并注意力輸出進行解碼處理。

57、可選地，所述裝置還包括：

58、編碼模塊，用于獲取所述對象實例的包圍框，并將所述包圍框與所述對象實例的類別作編碼處理生成隱藏向量；

59、整合模塊，用于通過門控機制與自注意力機制將所述隱藏向量與所述初始圖像特征進行整合，構(gòu)建合并圖像特征；

60、所述合成數(shù)據(jù)生成模塊具體用于：根據(jù)所述任務(wù)需求，對所述第一子區(qū)域的自注意力輸出和所述合并圖像特征進行解碼處理。

61、可選地，所述編碼模塊具體用于：

62、將所述對象實例的包圍框的位置信息轉(zhuǎn)換為高維特征空間的第一表示向量，并將所述對象實例的類別轉(zhuǎn)換為第二表示向量；將所述第一表示向量與所述第二表示向量進行連接得到組合向量；利用神經(jīng)網(wǎng)絡(luò)的非線性變換，將所述組合向量映射到隱藏空間，生成所述隱藏向量。

63、可選地，所述整合模塊具體用于：

64、將所述隱藏向量與所述初始圖像特征進行特征連接得到第一特征表示；

65、根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換，并應(yīng)用所述自注意力機制，得到所述第一特征表示的自注意力輸出；

66、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制，生成所述合并圖像特征；所述視覺標(biāo)記選擇操作用于從所述第一特征表示的自注意力輸出中選擇出與所述任務(wù)需求最相關(guān)的標(biāo)記。

67、可選地，所述整合模塊在用于對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制，生成所述合并圖像特征時，包括：

68、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作，得到第二特征表示；對所述第二特征表示應(yīng)用門控機制，并將對應(yīng)的門控機制輸出與所述初始圖像特征進行相加，生成所述合并圖像特征；所述門控機制通過可學(xué)習(xí)的門控參數(shù)和雙曲正切函數(shù)，調(diào)整所述第二特征表示對所述初始圖像特征的貢獻程度。

69、可選地，所述整合模塊在用于根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換，并應(yīng)用所述自注意力機制，得到所述第一特征表示的自注意力輸出時，包括：

70、獲取任務(wù)自適應(yīng)嵌入；所述任務(wù)自適應(yīng)嵌入包括與所述初始圖像特征相同維度的多個可學(xué)習(xí)嵌入的任務(wù)自適應(yīng)提示；

71、將所述第一特征表示與所述任務(wù)自適應(yīng)嵌入沿著空間維度進行特征連接，得到合并特征表示；

72、利用生成查詢向量的第三權(quán)重矩陣，將所述第一特征表示線性變換生成第一查詢向量，并利用生成鍵向量和值向量的第三權(quán)重矩陣，將所述合并特征表示線性變換生成第一鍵向量和第一值向量；

73、對所述第一查詢向量、第一鍵向量和所述第一值向量應(yīng)用自注意力機制，得到所述第一特征表示的自注意力輸出。

74、可選地，所述裝置還包括：

75、獲取所述任務(wù)需求關(guān)聯(lián)的條件嵌入；所述條件嵌入包括特定的生成條件信息編碼得到的嵌入向量；將所述條件嵌入與所述合并特征表示沿著空間維度進行特征連接，得到更新后的合并特征表示。

76、可選地，所述實例注意力輸出模塊具體用于：

77、分別利用生成查詢向量、鍵向量和值向量的權(quán)重矩陣，對所述第二圖像特征進行線性變換，生成所述對象實例的目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值；針對所述目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值應(yīng)用所述自注意力機制，得到所述第一子區(qū)域的自注意力輸出。

78、可選地，所述合成數(shù)據(jù)生成模塊具體用于：

79、從預(yù)先設(shè)置的多種解碼器架構(gòu)中，確定用于實現(xiàn)所述任務(wù)需求的目標(biāo)解碼器；將所述第一子區(qū)域的自注意力輸出輸入至所述目標(biāo)解碼器，得到所述目標(biāo)解碼器輸出的目標(biāo)合成數(shù)據(jù)。

80、根據(jù)本技術(shù)實施例的第三方面，提供一種電子設(shè)備，所述電子設(shè)備包括：存儲器和處理器；所述存儲器，用于存儲計算機程序；所述處理器，用于通過調(diào)用所述計算機程序，執(zhí)行上述合成數(shù)據(jù)生成方法。

81、根據(jù)本技術(shù)實施例的第四方面，提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述程序被處理器執(zhí)行時實現(xiàn)上述合成數(shù)據(jù)生成方法。

82、本技術(shù)實施例提供的技術(shù)方案可以包括以下有益效果：

83、在上述本技術(shù)提供的技術(shù)方案中，基于用戶的需求數(shù)據(jù)生成初始圖像特征，進而從該初始特向特征中分離出每個對象實例的圖像特征，并將每個對象實例的類別信息嵌入至該對象實例所在區(qū)域的圖像特征中，聯(lián)合線性變換與自注意力機制獲取添加類別信息的圖像特征的自注意力輸出，以用來生成合成數(shù)據(jù)，使得合成數(shù)據(jù)生成過程中能夠區(qū)分不同類別的對象實例并精準(zhǔn)控制其特征表示變化，用戶可以根據(jù)需求調(diào)整相應(yīng)的場景元素，從而實現(xiàn)了合成數(shù)據(jù)生成過程中場景的高度可控性。

84、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細節(jié)描述僅是示例性的和解釋性的，并不能限制本技術(shù)。此外，本技術(shù)中的任一實施例并不需要達到上述的全部效果。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周熙欽,俞春存,張展華,崔迎杰,梁振寶,陳勇,王敏,于猛,符茂磊
技術(shù)所有人：浙江吉利控股集團有限公司
我是此專利的發(fā)明人

上一篇：稀土熔鹽電解爐陰極提升裝置的制作方法
上一篇：一種推土機鏟刀加工用組焊裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程

合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)與流程