基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備

文檔序號(hào)：40507014發(fā)布日期：2024-12-31 13:15閱讀：11來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能，具體涉及一種基于多模態(tài)大模型的圖像地理定位方法及裝置、設(shè)備。

背景技術(shù)：

1、隨著全球社交媒體平臺(tái)普及，網(wǎng)絡(luò)空間中積累了大量的發(fā)明可用的圖像，這些圖像不僅數(shù)量龐大，而且蘊(yùn)含著豐富的潛在價(jià)值，其中地理位置信息提供了圖像的地理背景或拍攝地點(diǎn)，對(duì)于深入提取圖像的信息具有重要價(jià)值，如網(wǎng)絡(luò)空間測(cè)繪、情報(bào)獲取、圖像目標(biāo)定位、社會(huì)網(wǎng)絡(luò)分析、公共安全、城市規(guī)劃、環(huán)境監(jiān)測(cè)等等。然而，據(jù)統(tǒng)計(jì)研究分析，目前即時(shí)社交平臺(tái)上大約只有2%的圖像標(biāo)注有地理位置，相關(guān)專業(yè)圖像網(wǎng)站上也只有大約25%，所以圖像地理定位技術(shù)具有較高的實(shí)際應(yīng)用價(jià)值。

2、圖像地理定位是指給定一張圖像確定其拍攝地點(diǎn)或拍攝內(nèi)容的地理位置，其可以服務(wù)于圖像檢索、圖像匹配以及跨模態(tài)圖像發(fā)現(xiàn)等下游任務(wù)，該技術(shù)在各種應(yīng)用中都具有重要的意義，如導(dǎo)航、旅游、偵察和安全等。圖像地理定位技術(shù)按照定位范圍可以劃分為區(qū)域地理定位、自然和城市區(qū)域定位和全球地理定位等。其中，全球地理定位是圖像地理定位技術(shù)任務(wù)的終極目標(biāo)，但由于全球的地理景觀圖像數(shù)量巨大且變化多樣，構(gòu)建一個(gè)覆蓋整個(gè)世界的大型圖像庫難以實(shí)現(xiàn)，因此傳統(tǒng)基于圖像庫進(jìn)行圖像的檢索方法在解決全球范圍定位方案難以滿足時(shí)效和精度的要求?，F(xiàn)有的相關(guān)技術(shù)方法是將地球劃分為離散的地理單元，將地理定位問題轉(zhuǎn)化為分類問題。然而，此類方法受限于預(yù)定義類別的限制，當(dāng)圖像的地理位置偏離預(yù)定義類別的中心時(shí)，通常會(huì)導(dǎo)致定位偏差大。

技術(shù)實(shí)現(xiàn)思路

1、（一）要解決的技術(shù)問題

2、針對(duì)上述不足，本發(fā)明的主要目的在于提供一種基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備，大模型為一種新穎的多模態(tài)協(xié)同對(duì)齊地啟發(fā)式圖像定位大模型，利用預(yù)訓(xùn)練模型將圖像、文本、地理坐標(biāo)在高維公共子空間進(jìn)行特征對(duì)齊，通過構(gòu)建多層次的嵌入特征表示增強(qiáng)圖像與其對(duì)應(yīng)的地理位置坐標(biāo)的映射關(guān)系，該方法相比于現(xiàn)有的圖像地理定位方法具有更高的判斷精度和更快的推理速度，且可以遷移至圖像地理定位之外的任務(wù)，具有良好的的性能。

3、（二）技術(shù)方案

4、為了實(shí)現(xiàn)上述目的，本發(fā)明實(shí)施例的第一方面提供了一種基于多模態(tài)大模型的圖像地理定位方法，包括：獲取訓(xùn)練數(shù)據(jù)集，訓(xùn)練數(shù)據(jù)集包括多張圖像；對(duì)于每一圖像，對(duì)圖像的gps坐標(biāo)特征進(jìn)行等地球投影的gps坐標(biāo)表征以及基于隨機(jī)傅里葉特征進(jìn)行編碼，得到圖像的gps坐標(biāo)特征向量；對(duì)于每一圖像，對(duì)圖像進(jìn)行圖文協(xié)同編碼，得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量；將gps坐標(biāo)特征向量和協(xié)同編碼特征向量輸入大模型，基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性，對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練，得到訓(xùn)練好的大模型，將待定位圖像輸入訓(xùn)練好的大模型，輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

5、根據(jù)本發(fā)明的實(shí)施例，對(duì)圖像的gps坐標(biāo)進(jìn)行等地球投影的gps坐標(biāo)表征，包括：對(duì)圖像的gps坐標(biāo)標(biāo)準(zhǔn)化投影并最小化標(biāo)準(zhǔn)系統(tǒng)中固有的失真，得到gps坐標(biāo)的投影坐標(biāo)；對(duì)投影坐標(biāo)進(jìn)行縮放，得到縮放后的投影坐標(biāo)。

6、根據(jù)本發(fā)明的實(shí)施例，對(duì)圖像的gps坐標(biāo)，基于隨機(jī)傅里葉特征進(jìn)行編碼，包括：構(gòu)建編碼層，通過預(yù)設(shè)固定矩陣確定編碼層編碼所需的頻率范圍，其中，固定矩陣中的每一元素服從高斯分布；基于元素標(biāo)準(zhǔn)差的范圍，確定隨機(jī)傅里葉特征中的不同編碼頻率；基于不同的編碼頻率，對(duì)投影坐標(biāo)的不同尺度信息進(jìn)行編碼，得到不同尺度下的分層特征；通過前饋神經(jīng)網(wǎng)絡(luò)傳遞分層特征，其中每一前饋神經(jīng)網(wǎng)絡(luò)的激活函數(shù)單獨(dú)處理傅里葉編碼特征并產(chǎn)生對(duì)應(yīng)的結(jié)果特征向量；將多個(gè)結(jié)果特征向量按照行元素聯(lián)合，得到gps坐標(biāo)特征向量。

7、根據(jù)本發(fā)明的實(shí)施例，對(duì)圖像進(jìn)行圖文協(xié)同編碼，得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量，包括：從圖像中提取文本標(biāo)題和文本內(nèi)容，得到文本特征；利用預(yù)訓(xùn)練的文本編碼器將文本特征編碼成文本特征向量；利用預(yù)訓(xùn)練的圖像編碼模型將圖像的圖像特征編碼為的圖像特征向量；利用注意力機(jī)制將文本特征向量和圖像特征向量融合，得到協(xié)同編碼特征向量。

8、根據(jù)本發(fā)明的實(shí)施例，基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性，對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練，包括：利用對(duì)比學(xué)習(xí)，對(duì)齊圖像的圖像特征、文本特征和對(duì)應(yīng)的gps坐標(biāo)特征之間的相似性，并最小與另外圖像的gps坐標(biāo)特征之間的相似性。

9、根據(jù)本發(fā)明的實(shí)施例，基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性，對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練，還包括：將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)批次的訓(xùn)練數(shù)據(jù)；對(duì)于每個(gè)批次的訓(xùn)練數(shù)據(jù)中的每個(gè)圖像，構(gòu)建一組隨機(jī)增強(qiáng)的數(shù)據(jù)集，隨機(jī)增強(qiáng)的數(shù)據(jù)集包括至少一個(gè)圖像負(fù)樣本；對(duì)于每個(gè)批次的訓(xùn)練數(shù)據(jù)中的每個(gè)圖像，向每個(gè)圖像的gps坐標(biāo)注入隨機(jī)噪聲，隨機(jī)噪聲從標(biāo)準(zhǔn)差為固定矩陣中的元素標(biāo)準(zhǔn)差的高斯分布中隨機(jī)采樣得到。

10、根據(jù)本發(fā)明的實(shí)施例，將待定位圖像輸入訓(xùn)練好的大模型，輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值，包括：將待定位的圖像輸入訓(xùn)練好的大模型，輸出與待定位的圖像對(duì)應(yīng)的gps坐標(biāo)特征向量；對(duì)gps坐標(biāo)特征向量進(jìn)行反演，得到待定位的圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

11、本發(fā)明實(shí)施例的第二方面提供了一種基于多模態(tài)大模型的圖像地理定位裝置，包括：輸入輸出模塊，用于將待定位的圖像輸入訓(xùn)練好的大模型，輸出與待定位的圖像對(duì)應(yīng)的gps坐標(biāo)特征向量；反演模塊，用于對(duì)gps坐標(biāo)特征向量進(jìn)行反演，得到待定位的圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值；推理模塊，用于將待定位圖像輸入訓(xùn)練好的大模型，輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

12、本發(fā)明實(shí)施例第三方面提供了一種電子設(shè)備，包括：一個(gè)或多個(gè)處理器；存儲(chǔ)器，用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序，一個(gè)或多個(gè)處理器執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以實(shí)現(xiàn)上述方法的步驟。

13、本發(fā)明第四方面還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序或指令，計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

14、（三）有益效果

15、本發(fā)明實(shí)施例的技術(shù)方案，至少具有以下有益效果：

16、（1）該方法通過引入多模態(tài)協(xié)同對(duì)齊，直接優(yōu)化圖像和文本特征與gps坐標(biāo)特征之間的相似性，減少定位誤差，克服了預(yù)定義類別的限制，提高了定位精度。此外，通過多模態(tài)對(duì)齊和對(duì)比學(xué)習(xí)，減少了對(duì)于大量訓(xùn)練數(shù)據(jù)的依賴，使得模型即使在有限的訓(xùn)練數(shù)據(jù)下也能達(dá)到較高的定位準(zhǔn)確性。

17、（2）利用大模型的對(duì)比學(xué)習(xí)能力，通過構(gòu)建多層次的嵌入特征表示，增強(qiáng)圖像與其對(duì)應(yīng)的地理位置坐標(biāo)的映射關(guān)系。這種多模態(tài)協(xié)同對(duì)齊技術(shù)提升了圖像地理空間定位的效率。

18、（3）該方法不依賴于預(yù)定義的地理類別，而是通過預(yù)訓(xùn)練大模型，直接比較圖像和文本特征與gps坐標(biāo)特征的相似性，從而實(shí)現(xiàn)全球范圍內(nèi)的精確定位。

19、（4）該方法通過使用基于分類的方法和對(duì)比學(xué)習(xí)，通過訓(xùn)練模型學(xué)習(xí)圖像、文本和地理位置之間的復(fù)雜關(guān)系，在不需要大規(guī)模圖像庫的情況下實(shí)現(xiàn)高效的地理定位。

技術(shù)特征：

1.一種基于多模態(tài)大模型的圖像地理定位方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述圖像的gps坐標(biāo)進(jìn)行等地球投影的gps坐標(biāo)表征，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，對(duì)所述圖像的gps坐標(biāo)，基于隨機(jī)傅里葉特征進(jìn)行編碼，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述圖像進(jìn)行圖文協(xié)同編碼，得到所述圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述gps坐標(biāo)特征向量的嵌入和所述協(xié)同編碼特征的嵌入相似性，對(duì)所述大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述gps坐標(biāo)特征向量的嵌入和所述協(xié)同編碼特征的嵌入相似性，對(duì)所述大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練，還包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將待定位圖像輸入訓(xùn)練好的大模型，輸出所述待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值，包括：

8.一種基于多模態(tài)大模型的圖像地理定位裝置，其特征在于，包括：

9.一種電子設(shè)備，包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，其上存儲(chǔ)有計(jì)算機(jī)程序或指令，計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1~7中任一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本發(fā)明提供一種基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備，涉及人工智能技術(shù)領(lǐng)域，包括：獲取訓(xùn)練數(shù)據(jù)集，訓(xùn)練數(shù)據(jù)集包括多張圖像；對(duì)于每一圖像，對(duì)圖像的GPS坐標(biāo)特征進(jìn)行等地球投影的GPS坐標(biāo)表征以及基于隨機(jī)傅里葉特征進(jìn)行編碼，得到圖像的GPS坐標(biāo)特征向量；對(duì)于每一圖像，對(duì)圖像進(jìn)行圖文協(xié)同編碼，得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量；將GPS坐標(biāo)特征向量和協(xié)同編碼特征向量輸入大模型，基于GPS坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性，對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練，得到訓(xùn)練好的大模型，將待定位圖像輸入訓(xùn)練好的大模型，輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

技術(shù)研發(fā)人員：李曉宇,馬益杭,金力,石文,關(guān)世昌
受保護(hù)的技術(shù)使用者：中國(guó)科學(xué)院空天信息創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李曉宇,馬益杭,金力,石文,關(guān)世昌
技術(shù)所有人：中國(guó)科學(xué)院空天信息創(chuàng)新研究院
我是此專利的發(fā)明人

上一篇：一種傳動(dòng)皮帶的制作方法
上一篇：一種定量化加料高效吹膜機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備