本發(fā)明涉及人工智能,具體涉及一種基于多模態(tài)大模型的圖像地理定位方法及裝置、設(shè)備。
背景技術(shù):
1、隨著全球社交媒體平臺(tái)普及,網(wǎng)絡(luò)空間中積累了大量的發(fā)明可用的圖像,這些圖像不僅數(shù)量龐大,而且蘊(yùn)含著豐富的潛在價(jià)值,其中地理位置信息提供了圖像的地理背景或拍攝地點(diǎn),對(duì)于深入提取圖像的信息具有重要價(jià)值,如網(wǎng)絡(luò)空間測(cè)繪、情報(bào)獲取、圖像目標(biāo)定位、社會(huì)網(wǎng)絡(luò)分析、公共安全、城市規(guī)劃、環(huán)境監(jiān)測(cè)等等。然而,據(jù)統(tǒng)計(jì)研究分析,目前即時(shí)社交平臺(tái)上大約只有2%的圖像標(biāo)注有地理位置,相關(guān)專業(yè)圖像網(wǎng)站上也只有大約25%,所以圖像地理定位技術(shù)具有較高的實(shí)際應(yīng)用價(jià)值。
2、圖像地理定位是指給定一張圖像確定其拍攝地點(diǎn)或拍攝內(nèi)容的地理位置,其可以服務(wù)于圖像檢索、圖像匹配以及跨模態(tài)圖像發(fā)現(xiàn)等下游任務(wù),該技術(shù)在各種應(yīng)用中都具有重要的意義,如導(dǎo)航、旅游、偵察和安全等。圖像地理定位技術(shù)按照定位范圍可以劃分為區(qū)域地理定位、自然和城市區(qū)域定位和全球地理定位等。其中,全球地理定位是圖像地理定位技術(shù)任務(wù)的終極目標(biāo),但由于全球的地理景觀圖像數(shù)量巨大且變化多樣,構(gòu)建一個(gè)覆蓋整個(gè)世界的大型圖像庫難以實(shí)現(xiàn),因此傳統(tǒng)基于圖像庫進(jìn)行圖像的檢索方法在解決全球范圍定位方案難以滿足時(shí)效和精度的要求?,F(xiàn)有的相關(guān)技術(shù)方法是將地球劃分為離散的地理單元,將地理定位問題轉(zhuǎn)化為分類問題。然而,此類方法受限于預(yù)定義類別的限制,當(dāng)圖像的地理位置偏離預(yù)定義類別的中心時(shí),通常會(huì)導(dǎo)致定位偏差大。
技術(shù)實(shí)現(xiàn)思路
1、(一)要解決的技術(shù)問題
2、針對(duì)上述不足,本發(fā)明的主要目的在于提供一種基于多模態(tài)大模型的圖像地理定位方法、裝置及設(shè)備,大模型為一種新穎的多模態(tài)協(xié)同對(duì)齊地啟發(fā)式圖像定位大模型,利用預(yù)訓(xùn)練模型將圖像、文本、地理坐標(biāo)在高維公共子空間進(jìn)行特征對(duì)齊,通過構(gòu)建多層次的嵌入特征表示增強(qiáng)圖像與其對(duì)應(yīng)的地理位置坐標(biāo)的映射關(guān)系,該方法相比于現(xiàn)有的圖像地理定位方法具有更高的判斷精度和更快的推理速度,且可以遷移至圖像地理定位之外的任務(wù),具有良好的的性能。
3、(二)技術(shù)方案
4、為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的第一方面提供了一種基于多模態(tài)大模型的圖像地理定位方法,包括:獲取訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包括多張圖像;對(duì)于每一圖像,對(duì)圖像的gps坐標(biāo)特征進(jìn)行等地球投影的gps坐標(biāo)表征以及基于隨機(jī)傅里葉特征進(jìn)行編碼,得到圖像的gps坐標(biāo)特征向量;對(duì)于每一圖像,對(duì)圖像進(jìn)行圖文協(xié)同編碼,得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量;將gps坐標(biāo)特征向量和協(xié)同編碼特征向量輸入大模型,基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,得到訓(xùn)練好的大模型,將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。
5、根據(jù)本發(fā)明的實(shí)施例,對(duì)圖像的gps坐標(biāo)進(jìn)行等地球投影的gps坐標(biāo)表征,包括:對(duì)圖像的gps坐標(biāo)標(biāo)準(zhǔn)化投影并最小化標(biāo)準(zhǔn)系統(tǒng)中固有的失真,得到gps坐標(biāo)的投影坐標(biāo);對(duì)投影坐標(biāo)進(jìn)行縮放,得到縮放后的投影坐標(biāo)。
6、根據(jù)本發(fā)明的實(shí)施例,對(duì)圖像的gps坐標(biāo),基于隨機(jī)傅里葉特征進(jìn)行編碼,包括:構(gòu)建編碼層,通過預(yù)設(shè)固定矩陣確定編碼層編碼所需的頻率范圍,其中,固定矩陣中的每一元素服從高斯分布;基于元素標(biāo)準(zhǔn)差的范圍,確定隨機(jī)傅里葉特征中的不同編碼頻率;基于不同的編碼頻率,對(duì)投影坐標(biāo)的不同尺度信息進(jìn)行編碼,得到不同尺度下的分層特征;通過前饋神經(jīng)網(wǎng)絡(luò)傳遞分層特征,其中每一前饋神經(jīng)網(wǎng)絡(luò)的激活函數(shù)單獨(dú)處理傅里葉編碼特征并產(chǎn)生對(duì)應(yīng)的結(jié)果特征向量;將多個(gè)結(jié)果特征向量按照行元素聯(lián)合,得到gps坐標(biāo)特征向量。
7、根據(jù)本發(fā)明的實(shí)施例,對(duì)圖像進(jìn)行圖文協(xié)同編碼,得到圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量,包括:從圖像中提取文本標(biāo)題和文本內(nèi)容,得到文本特征;利用預(yù)訓(xùn)練的文本編碼器將文本特征編碼成文本特征向量;利用預(yù)訓(xùn)練的圖像編碼模型將圖像的圖像特征編碼為的圖像特征向量;利用注意力機(jī)制將文本特征向量和圖像特征向量融合,得到協(xié)同編碼特征向量。
8、根據(jù)本發(fā)明的實(shí)施例,基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,包括:利用對(duì)比學(xué)習(xí),對(duì)齊圖像的圖像特征、文本特征和對(duì)應(yīng)的gps坐標(biāo)特征之間的相似性,并最小與另外圖像的gps坐標(biāo)特征之間的相似性。
9、根據(jù)本發(fā)明的實(shí)施例,基于gps坐標(biāo)特征向量的嵌入和協(xié)同編碼特征的嵌入相似性,對(duì)大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,還包括:將訓(xùn)練數(shù)據(jù)集劃分為多個(gè)批次的訓(xùn)練數(shù)據(jù);對(duì)于每個(gè)批次的訓(xùn)練數(shù)據(jù)中的每個(gè)圖像,構(gòu)建一組隨機(jī)增強(qiáng)的數(shù)據(jù)集,隨機(jī)增強(qiáng)的數(shù)據(jù)集包括至少一個(gè)圖像負(fù)樣本;對(duì)于每個(gè)批次的訓(xùn)練數(shù)據(jù)中的每個(gè)圖像,向每個(gè)圖像的gps坐標(biāo)注入隨機(jī)噪聲,隨機(jī)噪聲從標(biāo)準(zhǔn)差為固定矩陣中的元素標(biāo)準(zhǔn)差的高斯分布中隨機(jī)采樣得到。
10、根據(jù)本發(fā)明的實(shí)施例,將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值,包括:將待定位的圖像輸入訓(xùn)練好的大模型,輸出與待定位的圖像對(duì)應(yīng)的gps坐標(biāo)特征向量;對(duì)gps坐標(biāo)特征向量進(jìn)行反演,得到待定位的圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。
11、本發(fā)明實(shí)施例的第二方面提供了一種基于多模態(tài)大模型的圖像地理定位裝置,包括:輸入輸出模塊,用于將待定位的圖像輸入訓(xùn)練好的大模型,輸出與待定位的圖像對(duì)應(yīng)的gps坐標(biāo)特征向量;反演模塊,用于對(duì)gps坐標(biāo)特征向量進(jìn)行反演,得到待定位的圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值;推理模塊,用于將待定位圖像輸入訓(xùn)練好的大模型,輸出待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值。
12、本發(fā)明實(shí)施例第三方面提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序,一個(gè)或多個(gè)處理器執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以實(shí)現(xiàn)上述方法的步驟。
13、本發(fā)明第四方面還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
14、(三)有益效果
15、本發(fā)明實(shí)施例的技術(shù)方案,至少具有以下有益效果:
16、(1)該方法通過引入多模態(tài)協(xié)同對(duì)齊,直接優(yōu)化圖像和文本特征與gps坐標(biāo)特征之間的相似性,減少定位誤差,克服了預(yù)定義類別的限制,提高了定位精度。此外,通過多模態(tài)對(duì)齊和對(duì)比學(xué)習(xí),減少了對(duì)于大量訓(xùn)練數(shù)據(jù)的依賴,使得模型即使在有限的訓(xùn)練數(shù)據(jù)下也能達(dá)到較高的定位準(zhǔn)確性。
17、(2)利用大模型的對(duì)比學(xué)習(xí)能力,通過構(gòu)建多層次的嵌入特征表示,增強(qiáng)圖像與其對(duì)應(yīng)的地理位置坐標(biāo)的映射關(guān)系。這種多模態(tài)協(xié)同對(duì)齊技術(shù)提升了圖像地理空間定位的效率。
18、(3)該方法不依賴于預(yù)定義的地理類別,而是通過預(yù)訓(xùn)練大模型,直接比較圖像和文本特征與gps坐標(biāo)特征的相似性,從而實(shí)現(xiàn)全球范圍內(nèi)的精確定位。
19、(4)該方法通過使用基于分類的方法和對(duì)比學(xué)習(xí),通過訓(xùn)練模型學(xué)習(xí)圖像、文本和地理位置之間的復(fù)雜關(guān)系,在不需要大規(guī)模圖像庫的情況下實(shí)現(xiàn)高效的地理定位。
1.一種基于多模態(tài)大模型的圖像地理定位方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述圖像的gps坐標(biāo)進(jìn)行等地球投影的gps坐標(biāo)表征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)所述圖像的gps坐標(biāo),基于隨機(jī)傅里葉特征進(jìn)行編碼,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述圖像進(jìn)行圖文協(xié)同編碼,得到所述圖像的圖像特征和文本特征融合生成的協(xié)同編碼特征向量,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述gps坐標(biāo)特征向量的嵌入和所述協(xié)同編碼特征的嵌入相似性,對(duì)所述大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述gps坐標(biāo)特征向量的嵌入和所述協(xié)同編碼特征的嵌入相似性,對(duì)所述大模型進(jìn)行多模態(tài)對(duì)比訓(xùn)練,還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待定位圖像輸入訓(xùn)練好的大模型,輸出所述待定位圖像的經(jīng)度坐標(biāo)值和緯度坐標(biāo)值,包括:
8.一種基于多模態(tài)大模型的圖像地理定位裝置,其特征在于,包括:
9.一種電子設(shè)備,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1~7中任一項(xiàng)所述方法的步驟。