欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備

文檔序號(hào):40507014發(fā)布日期:2024-12-31 13:15閱讀:11來源:國(guó)知局
基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備

本發(fā)明涉及人工智能,具體涉及一種基于多模態(tài)大模型的圖像地理定位方法及裝置、設(shè)備。


背景技術(shù):

1、隨著全球社交媒體平臺(tái)普及,網(wǎng)絡(luò)空間中積累了大量的發(fā)明可用的圖像,這些圖像不僅數(shù)量龐大,而且蘊(yùn)含著豐富的潛在價(jià)值,其中地理位置信息提供了圖像的地理背景或拍攝地點(diǎn),對(duì)于深入提取圖像的信息具有重要價(jià)值,如網(wǎng)絡(luò)空間測(cè)繪、情報(bào)獲取、圖像目標(biāo)定位、社會(huì)網(wǎng)絡(luò)分析、公共安全、城市規(guī)劃、環(huán)境監(jiān)測(cè)等等。然而,據(jù)統(tǒng)計(jì)研究分析,目前即時(shí)社交平臺(tái)上大約只有2%的圖像標(biāo)注有地理位置,相關(guān)專業(yè)圖像網(wǎng)站上也只有大約25%,所以圖像地理定位技術(shù)具有較高的實(shí)際應(yīng)用價(jià)值。

2、圖像地理定位是指給定一張圖像確定其拍攝地點(diǎn)或拍攝內(nèi)容的地理位置,其可以服務(wù)于圖像檢索、圖像匹配以及跨模態(tài)圖像發(fā)現(xiàn)等下游任務(wù),該技術(shù)在各種應(yīng)用中都具有重要的意義,如導(dǎo)航、旅游、偵察和安全等。圖像地理定位技術(shù)按照定位范圍可以劃分為區(qū)域地理定位、自然和城市區(qū)域定位和全球地理定位等。其中,全球地理定位是圖像地理定位技術(shù)任務(wù)的終極目標(biāo),但由于全球的地理景觀圖像數(shù)量巨大且變化多樣,構(gòu)建一個(gè)覆蓋整個(gè)世界的大型圖像庫難以實(shí)現(xiàn),因此傳統(tǒng)基于圖像庫進(jìn)行圖像的檢索方法在解決全球范圍定位方案難以滿足時(shí)效和精度的要求?,F(xiàn)有的相關(guān)技術(shù)方法是將地球劃分為離散的地理單元,將地理定位問題轉(zhuǎn)化為分類問題。然而,此類方法受限于預(yù)定義類別的限制,當(dāng)圖像的地理位置偏離預(yù)定義類別的中心時(shí),通常會(huì)導(dǎo)致定位偏差大。


技術(shù)實(shí)現(xiàn)思路

1、(一)要解決的技術(shù)問題

2、針對(duì)上述不足,本發(fā)明的主要目的在于提供一種基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備,大模型為一種新穎的多模態(tài)協(xié)同對(duì)齊地啟發(fā)式圖像定位大模型,利用預(yù)訓(xùn)練模型將圖像、文本、地理坐標(biāo)在高維公共子空間進(jìn)行特征對(duì)齊,通過構(gòu)建多層次的嵌入特征表示增強(qiáng)圖像與其對(duì)應(yīng)的地理位置坐標(biāo)的映射關(guān)系,該方法相比于現(xiàn)有的圖像地理定位方法具有更高的判斷精度和更快的推理速度,且可以遷移至圖像地理定位之外的任務(wù),具有良好的的性能。

3、(二)技術(shù)方案

4、為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的第一方面提供了一種基于多模態(tài)大模型的圖像地理定位方法,包括:獲取訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包括多張圖像;對(duì)于每一圖像,對(duì)圖像的gps坐標(biāo)特征進(jìn)行等地球投影的gps坐標(biāo)表征以及基于隨機(jī)傅里葉特征進(jìn)行編碼,得到圖像的gps坐標(biāo)特征向量;對(duì)于每一圖像,對(duì)圖像進(jìn)行圖文協(xié)同編碼,得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量;將gps坐標(biāo)特征向量和協(xié)同編碼特征向量輸入大模型,基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,得到訓(xùn)練好的大模型,將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

5、根據(jù)本發(fā)明的實(shí)施例,對(duì)圖像的gps坐標(biāo)進(jìn)行等地球投影的gps坐標(biāo)表征,包括:對(duì)圖像的gps坐標(biāo)標(biāo)準(zhǔn)化投影并最小化標(biāo)準(zhǔn)系統(tǒng)中固有的失真,得到gps坐標(biāo)的投影坐標(biāo);對(duì)投影坐標(biāo)進(jìn)行縮放,得到縮放后的投影坐標(biāo)。

6、根據(jù)本發(fā)明的實(shí)施例,對(duì)圖像的gps坐標(biāo),基于隨機(jī)傅里葉特征進(jìn)行編碼,包括:構(gòu)建編碼層,通過預(yù)設(shè)固定矩陣確定編碼層編碼所需的頻率范圍,其中,固定矩陣中的每一元素服從高斯分布;基于元素標(biāo)準(zhǔn)差的范圍,確定隨機(jī)傅里葉特征中的不同編碼頻率;基于不同的編碼頻率,對(duì)投影坐標(biāo)的不同尺度信息進(jìn)行編碼,得到不同尺度下的分層特征;通過前饋神經(jīng)網(wǎng)絡(luò)傳遞分層特征,其中每一前饋神經(jīng)網(wǎng)絡(luò)的激活函數(shù)單獨(dú)處理傅里葉編碼特征并產(chǎn)生對(duì)應(yīng)的結(jié)果特征向量;將多個(gè)結(jié)果特征向量按照行元素聯(lián)合,得到gps坐標(biāo)特征向量。

7、根據(jù)本發(fā)明的實(shí)施例,對(duì)圖像進(jìn)行圖文協(xié)同編碼,得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量,包括:從圖像中提取文本標(biāo)題和文本內(nèi)容,得到文本特征;利用預(yù)訓(xùn)練的文本編碼器將文本特征編碼成文本特征向量;利用預(yù)訓(xùn)練的圖像編碼模型將圖像的圖像特征編碼為的圖像特征向量;利用注意力機(jī)制將文本特征向量和圖像特征向量融合,得到協(xié)同編碼特征向量。

8、根據(jù)本發(fā)明的實(shí)施例,基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,包括:利用對(duì)比學(xué)習(xí),對(duì)齊圖像的圖像特征、文本特征和對(duì)應(yīng)的gps坐標(biāo)特征之間的相似性,并最小與另外圖像的gps坐標(biāo)特征之間的相似性。

9、根據(jù)本發(fā)明的實(shí)施例,基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,還包括:將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)批次的訓(xùn)練數(shù)據(jù);對(duì)于每個(gè)批次的訓(xùn)練數(shù)據(jù)中的每個(gè)圖像,構(gòu)建一組隨機(jī)增強(qiáng)的數(shù)據(jù)集,隨機(jī)增強(qiáng)的數(shù)據(jù)集包括至少一個(gè)圖像負(fù)樣本;對(duì)于每個(gè)批次的訓(xùn)練數(shù)據(jù)中的每個(gè)圖像,向每個(gè)圖像的gps坐標(biāo)注入隨機(jī)噪聲,隨機(jī)噪聲從標(biāo)準(zhǔn)差為固定矩陣中的元素標(biāo)準(zhǔn)差的高斯分布中隨機(jī)采樣得到。

10、根據(jù)本發(fā)明的實(shí)施例,將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值,包括:將待定位的圖像輸入訓(xùn)練好的大模型,輸出與待定位的圖像對(duì)應(yīng)的gps坐標(biāo)特征向量;對(duì)gps坐標(biāo)特征向量進(jìn)行反演,得到待定位的圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

11、本發(fā)明實(shí)施例的第二方面提供了一種基于多模態(tài)大模型的圖像地理定位裝置,包括:輸入輸出模塊,用于將待定位的圖像輸入訓(xùn)練好的大模型,輸出與待定位的圖像對(duì)應(yīng)的gps坐標(biāo)特征向量;反演模塊,用于對(duì)gps坐標(biāo)特征向量進(jìn)行反演,得到待定位的圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值;推理模塊,用于將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

12、本發(fā)明實(shí)施例第三方面提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序,一個(gè)或多個(gè)處理器執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以實(shí)現(xiàn)上述方法的步驟。

13、本發(fā)明第四方面還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

14、(三)有益效果

15、本發(fā)明實(shí)施例的技術(shù)方案,至少具有以下有益效果:

16、(1)該方法通過引入多模態(tài)協(xié)同對(duì)齊,直接優(yōu)化圖像和文本特征與gps坐標(biāo)特征之間的相似性,減少定位誤差,克服了預(yù)定義類別的限制,提高了定位精度。此外,通過多模態(tài)對(duì)齊和對(duì)比學(xué)習(xí),減少了對(duì)于大量訓(xùn)練數(shù)據(jù)的依賴,使得模型即使在有限的訓(xùn)練數(shù)據(jù)下也能達(dá)到較高的定位準(zhǔn)確性。

17、(2)利用大模型的對(duì)比學(xué)習(xí)能力,通過構(gòu)建多層次的嵌入特征表示,增強(qiáng)圖像與其對(duì)應(yīng)的地理位置坐標(biāo)的映射關(guān)系。這種多模態(tài)協(xié)同對(duì)齊技術(shù)提升了圖像地理空間定位的效率。

18、(3)該方法不依賴于預(yù)定義的地理類別,而是通過預(yù)訓(xùn)練大模型,直接比較圖像和文本特征與gps坐標(biāo)特征的相似性,從而實(shí)現(xiàn)全球范圍內(nèi)的精確定位。

19、(4)該方法通過使用基于分類的方法和對(duì)比學(xué)習(xí),通過訓(xùn)練模型學(xué)習(xí)圖像、文本和地理位置之間的復(fù)雜關(guān)系,在不需要大規(guī)模圖像庫的情況下實(shí)現(xiàn)高效的地理定位。



技術(shù)特征:

1.一種基于多模態(tài)大模型的圖像地理定位方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述圖像的gps坐標(biāo)進(jìn)行等地球投影的gps坐標(biāo)表征,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)所述圖像的gps坐標(biāo),基于隨機(jī)傅里葉特征進(jìn)行編碼,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述圖像進(jìn)行圖文協(xié)同編碼,得到所述圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述gps坐標(biāo)特征向量的嵌入和所述協(xié)同編碼特征的嵌入相似性,對(duì)所述大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述gps坐標(biāo)特征向量的嵌入和所述協(xié)同編碼特征的嵌入相似性,對(duì)所述大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,還包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待定位圖像輸入訓(xùn)練好的大模型,輸出所述待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值,包括:

8.一種基于多模態(tài)大模型的圖像地理定位裝置,其特征在于,包括:

9.一種電子設(shè)備,包括:

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1~7中任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本發(fā)明提供一種基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備,涉及人工智能技術(shù)領(lǐng)域,包括:獲取訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包括多張圖像;對(duì)于每一圖像,對(duì)圖像的GPS坐標(biāo)特征進(jìn)行等地球投影的GPS坐標(biāo)表征以及基于隨機(jī)傅里葉特征進(jìn)行編碼,得到圖像的GPS坐標(biāo)特征向量;對(duì)于每一圖像,對(duì)圖像進(jìn)行圖文協(xié)同編碼,得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量;將GPS坐標(biāo)特征向量和協(xié)同編碼特征向量輸入大模型,基于GPS坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,得到訓(xùn)練好的大模型,將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。

技術(shù)研發(fā)人員:李曉宇,馬益杭,金力,石文,關(guān)世昌
受保護(hù)的技術(shù)使用者:中國(guó)科學(xué)院空天信息創(chuàng)新研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
梁平县| 桦川县| 青州市| 越西县| 富蕴县| 道孚县| 蓝山县| 沙湾县| 湄潭县| 永清县| 青田县| 香格里拉县| 元朗区| 六枝特区| 南康市| 青冈县| 金川县| 嘉祥县| 镇江市| 游戏| 楚雄市| 天长市| 简阳市| 丁青县| 阿勒泰市| 小金县| 息烽县| 伊宁市| 香河县| 阳西县| 合作市| 永川市| 成武县| 花莲市| 黎城县| 吕梁市| 四平市| 容城县| 桑日县| 宾阳县| 库伦旗|