本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、目前自動駕駛領(lǐng)域與具身智能行業(yè)開發(fā)所需的訓(xùn)練數(shù)據(jù)通常來源于真實物理環(huán)境采集的真實數(shù)據(jù)、以及通過數(shù)據(jù)孿生仿真技術(shù)生成的虛擬環(huán)境仿真數(shù)據(jù),其中,真實數(shù)據(jù)的采集成本高且受限于實際條件,限制了其廣泛應(yīng)用,數(shù)據(jù)孿生仿真技術(shù)所生成的仿真數(shù)據(jù)可以在一定程度彌補真實數(shù)據(jù)不足的問題。
2、然而,該仿真數(shù)據(jù)的當(dāng)前生成過程難以在不改變場景整體語義的前提下,對部分靜態(tài)或動態(tài)元素進行精確控制,該合成數(shù)據(jù)生產(chǎn)場景生成的不可控性,影響了合成數(shù)據(jù)的多樣性和質(zhì)量。例如,對于道路類型、天氣條件、時間變化等靜態(tài)環(huán)境元素、以及車輛類型和運動軌跡等動態(tài)交通元素,現(xiàn)有仿真技術(shù)難以在保持場景連貫性和一致性的同時,實現(xiàn)這些元素的精確調(diào)整和多樣化組合。
技術(shù)實現(xiàn)思路
1、有鑒于此,為解決上述技術(shù)問題,本技術(shù)提供一種合成數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)。
2、具體地,本技術(shù)是通過如下技術(shù)方案實現(xiàn)的:
3、根據(jù)本技術(shù)實施例的第一方面,提供一種合成數(shù)據(jù)生成方法,該方法包括:
4、獲取用戶需求數(shù)據(jù)對應(yīng)的初始圖像特征;
5、獲取所述初始圖像特征中各個對象實例所在的第一子區(qū)域的第一圖像特征,并對所述第一圖像特征添加所述對象實例的可學(xué)習(xí)的類別提示,得到第二圖像特征;
6、根據(jù)預(yù)配置的第一權(quán)重矩陣對所述第二圖像特征進行線性變換,并應(yīng)用自注意力機制,得到所述第一子區(qū)域的自注意力輸出;
7、根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理,生成目標(biāo)合成數(shù)據(jù)。
8、可選地,所述方法還包括:
9、獲取所述初始圖像特征中不包含任何對象實例的第二子區(qū)域的第三圖像特征,并對所述第三圖像特征添加可學(xué)習(xí)的空實例提示,得到第四圖像特征;
10、根據(jù)預(yù)配置的第二權(quán)重矩陣對所述第四圖像特征進行線性變換,并應(yīng)用所述自注意力機制,得到所述第二子區(qū)域的自注意力輸出;
11、所述根據(jù)任務(wù)需求對所述自注意力輸出進行解碼處理,包括:
12、根據(jù)所述任務(wù)需求,對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理。
13、可選地,所述根據(jù)所述任務(wù)需求對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理,包括:
14、根據(jù)所述初始圖像特征中的所述第一子區(qū)域與所述第二子區(qū)域的掩碼信息,合并所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出,得到對應(yīng)的合并注意力輸出;
15、根據(jù)所述任務(wù)需求對所述合并注意力輸出進行解碼處理。
16、可選地,所述方法還包括:
17、獲取所述對象實例的包圍框,并將所述包圍框與所述對象實例的類別作編碼處理生成隱藏向量;
18、通過門控機制與自注意力機制將所述隱藏向量與所述初始圖像特征進行整合,構(gòu)建合并圖像特征;
19、所述根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理,包括:
20、根據(jù)所述任務(wù)需求,對所述第一子區(qū)域的自注意力輸出和所述合并圖像特征進行解碼處理。
21、可選地,所述將所述包圍框與所述對象實例的類別作編碼處理生成隱藏向量,包括:
22、將所述對象實例的包圍框的位置信息轉(zhuǎn)換為高維特征空間的第一表示向量,并將所述對象實例的類別轉(zhuǎn)換為第二表示向量;
23、將所述第一表示向量與所述第二表示向量進行連接得到組合向量;
24、利用神經(jīng)網(wǎng)絡(luò)的非線性變換,將所述組合向量映射到隱藏空間,生成所述隱藏向量。
25、可選地,所述通過門控機制與自注意力機制將所述隱藏向量與所述初始圖像特征進行整合,構(gòu)建合并圖像特征,包括:
26、將所述隱藏向量與所述初始圖像特征進行特征連接得到第一特征表示;
27、根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換,并應(yīng)用所述自注意力機制,得到所述第一特征表示的自注意力輸出;
28、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制,生成所述合并圖像特征;所述視覺標(biāo)記選擇操作用于從所述第一特征表示的自注意力輸出中選擇出與所述任務(wù)需求最相關(guān)的標(biāo)記。
29、可選地,所述對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制,生成所述合并圖像特征,包括:
30、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作,得到第二特征表示;
31、對所述第二特征表示應(yīng)用門控機制,并將對應(yīng)的門控機制輸出與所述初始圖像特征進行相加,生成所述合并圖像特征;所述門控機制通過可學(xué)習(xí)的門控參數(shù)和雙曲正切函數(shù),調(diào)整所述第二特征表示對所述初始圖像特征的貢獻程度。
32、可選地,所述根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換,并應(yīng)用所述自注意力機制,得到所述第一特征表示的自注意力輸出,包括:
33、獲取任務(wù)自適應(yīng)嵌入;所述任務(wù)自適應(yīng)嵌入包括與所述初始圖像特征相同維度的多個可學(xué)習(xí)嵌入的任務(wù)自適應(yīng)提示;
34、將所述第一特征表示與所述任務(wù)自適應(yīng)嵌入沿著空間維度進行特征連接,得到合并特征表示;
35、利用生成查詢向量的第三權(quán)重矩陣,將所述第一特征表示線性變換生成第一查詢向量,并利用生成鍵向量和值向量的第三權(quán)重矩陣,將所述合并特征表示線性變換生成第一鍵向量和第一值向量;
36、對所述第一查詢向量、第一鍵向量和所述第一值向量應(yīng)用自注意力機制,得到所述第一特征表示的自注意力輸出。
37、可選地,所述方法還包括:
38、獲取所述任務(wù)需求關(guān)聯(lián)的條件嵌入;所述條件嵌入包括特定的生成條件信息編碼得到的嵌入向量;
39、將所述條件嵌入與所述合并特征表示沿著空間維度進行特征連接,得到更新后的合并特征表示。
40、可選地,所述根據(jù)預(yù)配置的第一權(quán)重矩陣對所述第二圖像特征進行線性變換,并應(yīng)用自注意力機制,得到所述第一子區(qū)域的自注意力輸出,包括:
41、分別利用生成查詢向量、鍵向量和值向量的權(quán)重矩陣,對所述第二圖像特征進行線性變換,生成所述對象實例的目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值;
42、針對所述目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值應(yīng)用所述自注意力機制,得到所述第一子區(qū)域的自注意力輸出。
43、可選地,所述根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理,生成目標(biāo)合成數(shù)據(jù),包括:
44、從預(yù)先設(shè)置的多種解碼器架構(gòu)中,確定用于實現(xiàn)所述任務(wù)需求的目標(biāo)解碼器;
45、將所述第一子區(qū)域的自注意力輸出輸入至所述目標(biāo)解碼器,得到所述目標(biāo)解碼器輸出的目標(biāo)合成數(shù)據(jù)。
46、根據(jù)本技術(shù)實施例的第二方面,提供一種合成數(shù)據(jù)生成裝置,所述裝置包括:
47、初始圖像特征獲取模塊,用于獲取用戶需求數(shù)據(jù)對應(yīng)的初始圖像特征;
48、實例類別提示添加模塊,用于獲取所述初始圖像特征中各個對象實例所在的第一子區(qū)域的第一圖像特征,并對所述第一圖像特征添加所述對象實例的可學(xué)習(xí)的類別提示,得到第二圖像特征;
49、實例注意力輸出模塊,用于根據(jù)預(yù)配置的第一權(quán)重矩陣對所述第二圖像特征進行線性變換,并應(yīng)用自注意力機制,得到所述第一子區(qū)域的自注意力輸出;
50、合成數(shù)據(jù)生成模塊,用于根據(jù)任務(wù)需求對所述第一子區(qū)域的自注意力輸出進行解碼處理,生成目標(biāo)合成數(shù)據(jù)。
51、可選地,所述裝置還包括:
52、獲取所述初始圖像特征中不包含任何對象實例的第二子區(qū)域的第三圖像特征,并對所述第三圖像特征添加可學(xué)習(xí)的空實例提示,得到第四圖像特征;
53、根據(jù)預(yù)配置的第二權(quán)重矩陣對所述第四圖像特征進行線性變換,并應(yīng)用所述自注意力機制,得到所述第二子區(qū)域的自注意力輸出;
54、所述合成數(shù)據(jù)生成模塊具體用于:根據(jù)所述任務(wù)需求,對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理。
55、可選地,所述合成數(shù)據(jù)生成模塊在用于根據(jù)所述任務(wù)需求,對所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出進行解碼處理時,包括:
56、根據(jù)所述初始圖像特征中的所述第一子區(qū)域與所述第二子區(qū)域的掩碼信息,合并所述第一子區(qū)域與所述第二子區(qū)域的自注意力輸出,得到對應(yīng)的合并注意力輸出;根據(jù)所述任務(wù)需求對所述合并注意力輸出進行解碼處理。
57、可選地,所述裝置還包括:
58、編碼模塊,用于獲取所述對象實例的包圍框,并將所述包圍框與所述對象實例的類別作編碼處理生成隱藏向量;
59、整合模塊,用于通過門控機制與自注意力機制將所述隱藏向量與所述初始圖像特征進行整合,構(gòu)建合并圖像特征;
60、所述合成數(shù)據(jù)生成模塊具體用于:根據(jù)所述任務(wù)需求,對所述第一子區(qū)域的自注意力輸出和所述合并圖像特征進行解碼處理。
61、可選地,所述編碼模塊具體用于:
62、將所述對象實例的包圍框的位置信息轉(zhuǎn)換為高維特征空間的第一表示向量,并將所述對象實例的類別轉(zhuǎn)換為第二表示向量;將所述第一表示向量與所述第二表示向量進行連接得到組合向量;利用神經(jīng)網(wǎng)絡(luò)的非線性變換,將所述組合向量映射到隱藏空間,生成所述隱藏向量。
63、可選地,所述整合模塊具體用于:
64、將所述隱藏向量與所述初始圖像特征進行特征連接得到第一特征表示;
65、根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換,并應(yīng)用所述自注意力機制,得到所述第一特征表示的自注意力輸出;
66、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制,生成所述合并圖像特征;所述視覺標(biāo)記選擇操作用于從所述第一特征表示的自注意力輸出中選擇出與所述任務(wù)需求最相關(guān)的標(biāo)記。
67、可選地,所述整合模塊在用于對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作和門控機制,生成所述合并圖像特征時,包括:
68、對所述第一特征表示的自注意力輸出應(yīng)用視覺標(biāo)記選擇操作,得到第二特征表示;對所述第二特征表示應(yīng)用門控機制,并將對應(yīng)的門控機制輸出與所述初始圖像特征進行相加,生成所述合并圖像特征;所述門控機制通過可學(xué)習(xí)的門控參數(shù)和雙曲正切函數(shù),調(diào)整所述第二特征表示對所述初始圖像特征的貢獻程度。
69、可選地,所述整合模塊在用于根據(jù)預(yù)置的第三權(quán)重矩陣對所述第一特征表示進行線性變換,并應(yīng)用所述自注意力機制,得到所述第一特征表示的自注意力輸出時,包括:
70、獲取任務(wù)自適應(yīng)嵌入;所述任務(wù)自適應(yīng)嵌入包括與所述初始圖像特征相同維度的多個可學(xué)習(xí)嵌入的任務(wù)自適應(yīng)提示;
71、將所述第一特征表示與所述任務(wù)自適應(yīng)嵌入沿著空間維度進行特征連接,得到合并特征表示;
72、利用生成查詢向量的第三權(quán)重矩陣,將所述第一特征表示線性變換生成第一查詢向量,并利用生成鍵向量和值向量的第三權(quán)重矩陣,將所述合并特征表示線性變換生成第一鍵向量和第一值向量;
73、對所述第一查詢向量、第一鍵向量和所述第一值向量應(yīng)用自注意力機制,得到所述第一特征表示的自注意力輸出。
74、可選地,所述裝置還包括:
75、獲取所述任務(wù)需求關(guān)聯(lián)的條件嵌入;所述條件嵌入包括特定的生成條件信息編碼得到的嵌入向量;將所述條件嵌入與所述合并特征表示沿著空間維度進行特征連接,得到更新后的合并特征表示。
76、可選地,所述實例注意力輸出模塊具體用于:
77、分別利用生成查詢向量、鍵向量和值向量的權(quán)重矩陣,對所述第二圖像特征進行線性變換,生成所述對象實例的目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值;針對所述目標(biāo)查詢、目標(biāo)鍵和目標(biāo)值應(yīng)用所述自注意力機制,得到所述第一子區(qū)域的自注意力輸出。
78、可選地,所述合成數(shù)據(jù)生成模塊具體用于:
79、從預(yù)先設(shè)置的多種解碼器架構(gòu)中,確定用于實現(xiàn)所述任務(wù)需求的目標(biāo)解碼器;將所述第一子區(qū)域的自注意力輸出輸入至所述目標(biāo)解碼器,得到所述目標(biāo)解碼器輸出的目標(biāo)合成數(shù)據(jù)。
80、根據(jù)本技術(shù)實施例的第三方面,提供一種電子設(shè)備,所述電子設(shè)備包括:存儲器和處理器;所述存儲器,用于存儲計算機程序;所述處理器,用于通過調(diào)用所述計算機程序,執(zhí)行上述合成數(shù)據(jù)生成方法。
81、根據(jù)本技術(shù)實施例的第四方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)上述合成數(shù)據(jù)生成方法。
82、本技術(shù)實施例提供的技術(shù)方案可以包括以下有益效果:
83、在上述本技術(shù)提供的技術(shù)方案中,基于用戶的需求數(shù)據(jù)生成初始圖像特征,進而從該初始特向特征中分離出每個對象實例的圖像特征,并將每個對象實例的類別信息嵌入至該對象實例所在區(qū)域的圖像特征中,聯(lián)合線性變換與自注意力機制獲取添加類別信息的圖像特征的自注意力輸出,以用來生成合成數(shù)據(jù),使得合成數(shù)據(jù)生成過程中能夠區(qū)分不同類別的對象實例并精準(zhǔn)控制其特征表示變化,用戶可以根據(jù)需求調(diào)整相應(yīng)的場景元素,從而實現(xiàn)了合成數(shù)據(jù)生成過程中場景的高度可控性。
84、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的和解釋性的,并不能限制本技術(shù)。此外,本技術(shù)中的任一實施例并不需要達到上述的全部效果。