本申請(qǐng)涉及人工智能及金融,尤其涉及一種圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、圖像信息描述是一種將圖像內(nèi)容轉(zhuǎn)化為文字描述的技術(shù),可以應(yīng)用于多種場(chǎng)景,例如在金融領(lǐng)域場(chǎng)景中,用于對(duì)海量金融圖像進(jìn)行圖像信息描述,建立圖像信息庫,能夠提升圖像檢索的效率與準(zhǔn)確性。
2、目前,主要采用機(jī)器學(xué)習(xí)模型直接對(duì)圖像進(jìn)行圖像信息生成,然而在實(shí)際應(yīng)用過程中,由于圖像的類型繁多,機(jī)器學(xué)習(xí)模型無法精準(zhǔn)識(shí)別每一幅圖像中的核心內(nèi)容并準(zhǔn)確描述圖像信息,從而影響了圖像描述的準(zhǔn)確性。
3、因此,如何提高圖像描述的準(zhǔn)確性,成為了亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的主要目的在于提出一種圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高圖像描述的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第一方面提出了一種圖像描述方法,所述方法包括:
3、獲取原始圖像數(shù)據(jù)和原始圖像指示信息;
4、對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息;
5、對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征;
6、對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征;
7、將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;
8、根據(jù)所述目標(biāo)信息嵌入特征對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像描述,得到目標(biāo)圖像描述信息。
9、在一些實(shí)施例,所述將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征,包括:
10、對(duì)所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征拼接,得到圖文拼接特征;
11、對(duì)所述圖文拼接特征進(jìn)行矩陣變換,得到圖文變換矩陣;
12、對(duì)所述圖文變換矩陣進(jìn)行注意力計(jì)算,得到所述目標(biāo)信息嵌入特征。
13、在一些實(shí)施例,所述對(duì)所述圖文變換矩陣進(jìn)行注意力計(jì)算,得到所述目標(biāo)信息嵌入特征,包括:
14、對(duì)所述圖文變換矩陣進(jìn)行映射變換,得到目標(biāo)圖像映射矩陣;其中,所述目標(biāo)圖像映射矩陣包括查詢映射矩陣、鍵映射矩陣和值映射矩陣;
15、對(duì)所述查詢映射矩陣和所述鍵映射矩陣進(jìn)行聚合計(jì)算,得到注意力分?jǐn)?shù);
16、對(duì)所述注意力分?jǐn)?shù)進(jìn)行歸一化計(jì)算,得到注意力權(quán)重;
17、對(duì)所述注意力權(quán)重與所述值映射矩陣進(jìn)行聚合計(jì)算,得到所述目標(biāo)信息嵌入特征。
18、在一些實(shí)施例,所述對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征,包括:
19、對(duì)所述初始圖像指示信息進(jìn)行文本清洗,得到目標(biāo)圖像指示信息;
20、對(duì)所述目標(biāo)圖像指示信息進(jìn)行分詞處理,得到指示信息分詞序列;
21、對(duì)所述指示信息分詞序列進(jìn)行文本編碼處理,得到所述文本嵌入特征。
22、在一些實(shí)施例,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征,包括:
23、對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像預(yù)處理,得到目標(biāo)圖像數(shù)據(jù);其中,所述目標(biāo)圖像數(shù)據(jù)包括多個(gè)目標(biāo)子圖像數(shù)據(jù);
24、針對(duì)每一所述目標(biāo)子圖像數(shù)據(jù),對(duì)所述目標(biāo)子圖像數(shù)據(jù)進(jìn)行圖像編碼處理,得到子圖像編碼特征;
25、獲取每一所述目標(biāo)子圖像數(shù)據(jù)的圖像位置信息;其中,所述圖像位置信息用于表征所述目標(biāo)子圖像數(shù)據(jù)在所述目標(biāo)圖像數(shù)據(jù)中的位置;
26、基于所述圖像位置信息對(duì)多個(gè)所述子圖像編碼特征進(jìn)行特征融合,得到所述圖像嵌入特征。
27、在一些實(shí)施例,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像預(yù)處理,得到目標(biāo)圖像數(shù)據(jù),包括:
28、對(duì)所述原始圖像數(shù)據(jù)進(jìn)行去噪處理,得到去噪圖像數(shù)據(jù);
29、對(duì)所述去噪圖像數(shù)據(jù)進(jìn)行采樣處理,得到初始圖像數(shù)據(jù);
30、對(duì)所述初始圖像數(shù)據(jù)進(jìn)行圖像增強(qiáng),得到增強(qiáng)圖像數(shù)據(jù);
31、對(duì)所述增強(qiáng)圖像數(shù)據(jù)進(jìn)行圖像分割,得到所述目標(biāo)圖像數(shù)據(jù)。
32、在一些實(shí)施例,所述對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息,包括:
33、對(duì)所述原始圖像指示信息進(jìn)行規(guī)范化處理,得到規(guī)范圖像指示信息;
34、通過預(yù)設(shè)的文本擴(kuò)寫模型對(duì)所述規(guī)范圖像指示信息進(jìn)行文本擴(kuò)寫,得到原始圖像指示信息;
35、基于所述規(guī)范圖像指示信息對(duì)所述原始圖像指示信息進(jìn)行校驗(yàn),得到所述初始圖像指示信息。
36、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第二方面提出了一種圖像描述裝置,所述裝置包括:
37、圖像數(shù)據(jù)獲取模塊,用于獲取原始圖像數(shù)據(jù)和原始圖像指示信息;
38、指示信息擴(kuò)寫模塊,用于對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息;
39、圖像特征提取模塊,用于對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征;
40、文本特征提取模塊,用于對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征;
41、特征融合模塊,用于將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;
42、描述信息生成模塊,用于根據(jù)所述目標(biāo)信息嵌入特征對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像描述,得到目標(biāo)圖像描述信息。
43、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
44、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
45、本申請(qǐng)?zhí)岢龅膱D像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過對(duì)原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息,豐富了描述文本的語義細(xì)節(jié);接著,對(duì)原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征,對(duì)初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征,捕捉了圖像中的視覺內(nèi)容和文本中的語言特性;將圖像嵌入特征和文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;最后,根據(jù)目標(biāo)信息嵌入特征對(duì)原始圖像數(shù)據(jù)進(jìn)行圖像描述,生成了既準(zhǔn)確又富含細(xì)節(jié)的目標(biāo)圖像描述信息,充分利用圖像數(shù)據(jù)與圖像指示信息的互補(bǔ)性,不僅提高了圖像描述的準(zhǔn)確性,還增強(qiáng)了圖像描述的豐富性和可讀性,使得生成的圖像描述更加貼近人類的理解和表達(dá)習(xí)慣。
1.一種圖像描述方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述圖文變換矩陣進(jìn)行注意力計(jì)算,得到所述目標(biāo)信息嵌入特征,包括:
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征,包括:
5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像預(yù)處理,得到目標(biāo)圖像數(shù)據(jù),包括:
7.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息,包括:
8.一種圖像描述裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法。