欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40551396發(fā)布日期:2025-01-03 11:11閱讀:13來源:國知局
圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及人工智能及金融,尤其涉及一種圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、圖像信息描述是一種將圖像內(nèi)容轉(zhuǎn)化為文字描述的技術(shù),可以應(yīng)用于多種場(chǎng)景,例如在金融領(lǐng)域場(chǎng)景中,用于對(duì)海量金融圖像進(jìn)行圖像信息描述,建立圖像信息庫,能夠提升圖像檢索的效率與準(zhǔn)確性。

2、目前,主要采用機(jī)器學(xué)習(xí)模型直接對(duì)圖像進(jìn)行圖像信息生成,然而在實(shí)際應(yīng)用過程中,由于圖像的類型繁多,機(jī)器學(xué)習(xí)模型無法精準(zhǔn)識(shí)別每一幅圖像中的核心內(nèi)容并準(zhǔn)確描述圖像信息,從而影響了圖像描述的準(zhǔn)確性。

3、因此,如何提高圖像描述的準(zhǔn)確性,成為了亟待解決的技術(shù)問題。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的主要目的在于提出一種圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高圖像描述的準(zhǔn)確性。

2、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第一方面提出了一種圖像描述方法,所述方法包括:

3、獲取原始圖像數(shù)據(jù)和原始圖像指示信息;

4、對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息;

5、對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征;

6、對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征;

7、將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;

8、根據(jù)所述目標(biāo)信息嵌入特征對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像描述,得到目標(biāo)圖像描述信息。

9、在一些實(shí)施例,所述將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征,包括:

10、對(duì)所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征拼接,得到圖文拼接特征;

11、對(duì)所述圖文拼接特征進(jìn)行矩陣變換,得到圖文變換矩陣;

12、對(duì)所述圖文變換矩陣進(jìn)行注意力計(jì)算,得到所述目標(biāo)信息嵌入特征。

13、在一些實(shí)施例,所述對(duì)所述圖文變換矩陣進(jìn)行注意力計(jì)算,得到所述目標(biāo)信息嵌入特征,包括:

14、對(duì)所述圖文變換矩陣進(jìn)行映射變換,得到目標(biāo)圖像映射矩陣;其中,所述目標(biāo)圖像映射矩陣包括查詢映射矩陣、鍵映射矩陣和值映射矩陣;

15、對(duì)所述查詢映射矩陣和所述鍵映射矩陣進(jìn)行聚合計(jì)算,得到注意力分?jǐn)?shù);

16、對(duì)所述注意力分?jǐn)?shù)進(jìn)行歸一化計(jì)算,得到注意力權(quán)重;

17、對(duì)所述注意力權(quán)重與所述值映射矩陣進(jìn)行聚合計(jì)算,得到所述目標(biāo)信息嵌入特征。

18、在一些實(shí)施例,所述對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征,包括:

19、對(duì)所述初始圖像指示信息進(jìn)行文本清洗,得到目標(biāo)圖像指示信息;

20、對(duì)所述目標(biāo)圖像指示信息進(jìn)行分詞處理,得到指示信息分詞序列;

21、對(duì)所述指示信息分詞序列進(jìn)行文本編碼處理,得到所述文本嵌入特征。

22、在一些實(shí)施例,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征,包括:

23、對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像預(yù)處理,得到目標(biāo)圖像數(shù)據(jù);其中,所述目標(biāo)圖像數(shù)據(jù)包括多個(gè)目標(biāo)子圖像數(shù)據(jù);

24、針對(duì)每一所述目標(biāo)子圖像數(shù)據(jù),對(duì)所述目標(biāo)子圖像數(shù)據(jù)進(jìn)行圖像編碼處理,得到子圖像編碼特征;

25、獲取每一所述目標(biāo)子圖像數(shù)據(jù)的圖像位置信息;其中,所述圖像位置信息用于表征所述目標(biāo)子圖像數(shù)據(jù)在所述目標(biāo)圖像數(shù)據(jù)中的位置;

26、基于所述圖像位置信息對(duì)多個(gè)所述子圖像編碼特征進(jìn)行特征融合,得到所述圖像嵌入特征。

27、在一些實(shí)施例,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像預(yù)處理,得到目標(biāo)圖像數(shù)據(jù),包括:

28、對(duì)所述原始圖像數(shù)據(jù)進(jìn)行去噪處理,得到去噪圖像數(shù)據(jù);

29、對(duì)所述去噪圖像數(shù)據(jù)進(jìn)行采樣處理,得到初始圖像數(shù)據(jù);

30、對(duì)所述初始圖像數(shù)據(jù)進(jìn)行圖像增強(qiáng),得到增強(qiáng)圖像數(shù)據(jù);

31、對(duì)所述增強(qiáng)圖像數(shù)據(jù)進(jìn)行圖像分割,得到所述目標(biāo)圖像數(shù)據(jù)。

32、在一些實(shí)施例,所述對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息,包括:

33、對(duì)所述原始圖像指示信息進(jìn)行規(guī)范化處理,得到規(guī)范圖像指示信息;

34、通過預(yù)設(shè)的文本擴(kuò)寫模型對(duì)所述規(guī)范圖像指示信息進(jìn)行文本擴(kuò)寫,得到原始圖像指示信息;

35、基于所述規(guī)范圖像指示信息對(duì)所述原始圖像指示信息進(jìn)行校驗(yàn),得到所述初始圖像指示信息。

36、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第二方面提出了一種圖像描述裝置,所述裝置包括:

37、圖像數(shù)據(jù)獲取模塊,用于獲取原始圖像數(shù)據(jù)和原始圖像指示信息;

38、指示信息擴(kuò)寫模塊,用于對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息;

39、圖像特征提取模塊,用于對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征;

40、文本特征提取模塊,用于對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征;

41、特征融合模塊,用于將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;

42、描述信息生成模塊,用于根據(jù)所述目標(biāo)信息嵌入特征對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像描述,得到目標(biāo)圖像描述信息。

43、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

44、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

45、本申請(qǐng)?zhí)岢龅膱D像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過對(duì)原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息,豐富了描述文本的語義細(xì)節(jié);接著,對(duì)原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征,對(duì)初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征,捕捉了圖像中的視覺內(nèi)容和文本中的語言特性;將圖像嵌入特征和文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;最后,根據(jù)目標(biāo)信息嵌入特征對(duì)原始圖像數(shù)據(jù)進(jìn)行圖像描述,生成了既準(zhǔn)確又富含細(xì)節(jié)的目標(biāo)圖像描述信息,充分利用圖像數(shù)據(jù)與圖像指示信息的互補(bǔ)性,不僅提高了圖像描述的準(zhǔn)確性,還增強(qiáng)了圖像描述的豐富性和可讀性,使得生成的圖像描述更加貼近人類的理解和表達(dá)習(xí)慣。



技術(shù)特征:

1.一種圖像描述方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述圖像嵌入特征和所述文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述圖文變換矩陣進(jìn)行注意力計(jì)算,得到所述目標(biāo)信息嵌入特征,包括:

4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述對(duì)所述初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征,包括:

5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對(duì)所述原始圖像數(shù)據(jù)進(jìn)行圖像預(yù)處理,得到目標(biāo)圖像數(shù)據(jù),包括:

7.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述對(duì)所述原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息,包括:

8.一種圖像描述裝置,其特征在于,所述裝置包括:

9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請(qǐng)實(shí)施例提供了一種圖像描述方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),屬于人工智能及金融技術(shù)領(lǐng)域。該方法包括:獲取原始圖像數(shù)據(jù)和原始圖像指示信息;對(duì)原始圖像指示信息進(jìn)行擴(kuò)寫處理,得到初始圖像指示信息;對(duì)原始圖像數(shù)據(jù)進(jìn)行圖像特征提取,得到圖像嵌入特征;對(duì)初始圖像指示信息進(jìn)行文本特征提取,得到文本嵌入特征;將圖像嵌入特征和文本嵌入特征進(jìn)行特征融合,得到目標(biāo)信息嵌入特征;根據(jù)目標(biāo)信息嵌入特征對(duì)原始圖像數(shù)據(jù)進(jìn)行圖像描述,得到目標(biāo)圖像描述信息。本申請(qǐng)實(shí)施例能夠充分利用圖像數(shù)據(jù)與圖像指示信息的互補(bǔ)性,提高了圖像描述的準(zhǔn)確性。

技術(shù)研發(fā)人員:舒暢,陳又新
受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
惠东县| 昌江| 安康市| 芜湖市| 望都县| 安阳县| 全州县| 封丘县| 鹿邑县| 通渭县| 永平县| 洱源县| 鹤山市| 原平市| 东莞市| 尚志市| 会东县| 三河市| 建德市| 饶平县| 临夏县| 喀喇| 内黄县| 龙海市| 永新县| 常德市| 新蔡县| 泗阳县| 宣武区| 黔西县| 罗定市| 嘉善县| 通化县| 新竹县| 宁津县| 邻水| 金沙县| 天全县| 南京市| 弋阳县| 克什克腾旗|