欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于自回歸模型和擴(kuò)散模型的遙感場景生成方法

文檔序號:40616548發(fā)布日期:2025-01-10 18:22閱讀:2來源:國知局
本發(fā)明涉及一種基于自回歸模型和擴(kuò)散模型的遙感場景生成方法,屬于遙感領(lǐng)域。
背景技術(shù)
::1、主流遙感圖像目標(biāo)檢測、跟蹤和軌跡預(yù)測模型基于數(shù)據(jù)驅(qū)動(dòng),然而現(xiàn)實(shí)應(yīng)用場景中的遙感圖像數(shù)據(jù)往往呈現(xiàn)長尾分布,現(xiàn)有深度學(xué)習(xí)模型的訓(xùn)練可以視為一個(gè)極大似然/后驗(yàn)估計(jì)的過程,對這樣長尾分布的數(shù)據(jù)效果不佳,并且在面對戰(zhàn)時(shí)或?yàn)?zāi)后這樣的關(guān)鍵稀缺場景時(shí)精度不足。因此,需要生成各種遙感場景對深度學(xué)習(xí)模型進(jìn)行訓(xùn)練和測試。2、自回歸模型(autoregressive?model,簡稱ar模型)是一種時(shí)間序列分析模型,其主要特點(diǎn)是利用時(shí)間序列自身的過去值來預(yù)測未來值。3、unet是一種流行的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),主要用于生物醫(yī)學(xué)圖像分割任務(wù)。它最初由olaf?ronneberger等人在2015年提出,旨在通過一種高效的端到端訓(xùn)練方法在少量的訓(xùn)練數(shù)據(jù)上獲得精確的分割結(jié)果。unet采用對稱的u形結(jié)構(gòu),unet的名字來源于其對稱的u形架構(gòu)。網(wǎng)絡(luò)分為編碼器(下采樣路徑)和解碼器(上采樣路徑)兩個(gè)部分。編碼器負(fù)責(zé)逐步減小圖像尺寸并提取特征,而解碼器則逐步恢復(fù)圖像尺寸并進(jìn)行精細(xì)的像素級分割。4、unet的一大特點(diǎn)是跳躍連接(skip?connections),unet通過跳躍連接將編碼器中的特征圖與解碼器中對應(yīng)層的特征圖連接起來。這些連接幫助網(wǎng)絡(luò)保留高分辨率的信息,從而提高分割的精確度,特別是在邊界細(xì)節(jié)處理上。5、unet的架構(gòu)簡單而高效,其獨(dú)特的設(shè)計(jì)使其在需要高精度分割的小數(shù)據(jù)集任務(wù)中表現(xiàn)出色,因而成為許多圖像分割應(yīng)用中的首選模型。其在擴(kuò)散模型中也有重要的應(yīng)用。6、在圖像修復(fù)領(lǐng)域,一種名為lama的方法解決了大面積缺失區(qū)域、復(fù)雜幾何結(jié)構(gòu)和高分辨率圖像等關(guān)鍵問題。lama的方法包含以下三個(gè)主要?jiǎng)?chuàng)新點(diǎn):7、1.修復(fù)網(wǎng)絡(luò)架構(gòu),使用快速傅里葉卷積(ffcs),實(shí)現(xiàn)圖像范圍內(nèi)的感受野,這對于捕捉圖像的全局結(jié)構(gòu)至關(guān)重要。8、2.高感受野感知損失,基于語義分割網(wǎng)絡(luò)的感知損失,提高修復(fù)結(jié)果中全局結(jié)構(gòu)和形狀的一致性。9、3.大訓(xùn)練掩碼,采用激進(jìn)的掩碼生成策略,充分利用網(wǎng)絡(luò)和損失函數(shù)的高感受野。10、lama模型在各種數(shù)據(jù)集上表現(xiàn)出色,特別是在處理周期性結(jié)構(gòu)方面,并且在訓(xùn)練過程中僅使用低分辨率數(shù)據(jù)的情況下,也能很好地泛化到高分辨率圖像。此外,與競爭基準(zhǔn)相比,lama模型在參數(shù)和時(shí)間成本方面具有顯著優(yōu)勢。11、k-means聚類算法是一種經(jīng)典的無監(jiān)督學(xué)習(xí)方法,用于將數(shù)據(jù)集劃分為k個(gè)不同的簇。算法的基本步驟包括:隨機(jī)選擇k個(gè)初始質(zhì)心,將每個(gè)數(shù)據(jù)點(diǎn)分配到最近的質(zhì)心所在的簇,計(jì)算每個(gè)簇的新質(zhì)心,并重復(fù)上述過程直到質(zhì)心穩(wěn)定不再變化或達(dá)到預(yù)定的迭代次數(shù)。該算法因其簡單性和計(jì)算效率高而被廣泛應(yīng)用,但其效果依賴于初始質(zhì)心的選擇,并且需要預(yù)先確定簇的數(shù)量k。12、擴(kuò)散模型(diffusion?model)是當(dāng)前主流的圖像生成模型,其中最經(jīng)典也最基礎(chǔ)的模型是降噪擴(kuò)散概率模型(denoising?diffusion?probabilistic?models,ddpm),其總體思路為,假設(shè)樣本為x0,對x0加噪聲,多步加噪聲以后,樣本將變?yōu)榧冊肼暋6评淼倪^程就是將純噪聲加入網(wǎng)絡(luò),將其變成所需要的圖像。假設(shè)某一個(gè)xt,它是由原圖像加入t次噪聲后形成的,那么將xt與t同時(shí)加入噪聲預(yù)測網(wǎng)絡(luò),噪聲預(yù)測網(wǎng)絡(luò)將預(yù)測這一步應(yīng)該減去的噪聲,xt減去噪聲后得到的xt-1為更清晰的圖片。如此反復(fù)去噪,最終得到清晰的圖像。13、而在訓(xùn)練的時(shí)候就以真實(shí)的xt-1作為基準(zhǔn)真值(ground?truth)。14、基于ddpm的text-to-image模型stable?diffusion所采取的也大致是這種思路。只不過它們并不直接生成最終的圖像,而是生成一個(gè)隱空間表示(imagen是一張64*64的小圖),并通過解碼器將其還原成圖像。這么做的思路和變分自編碼器(vae)有相似之處,并且解碼器的訓(xùn)練可以是單獨(dú)的。同時(shí),stable?diffusion采用了一個(gè)文字編碼器將語言編碼成潛變量并在生成的每一步將潛變量送入生成器中。15、考慮ddpm前向過程。給定真實(shí)圖片x0~q(x),擴(kuò)散模型前向過程通過t次累計(jì)對其添加高斯噪聲,得到x1,x2,...,xt。這里需要給定一系列的高斯分布方差的超參數(shù){βt∈0,1t=1t.前向過程由于每個(gè)時(shí)刻t只與t-1時(shí)刻有關(guān),所以也可以視作馬爾科夫過程:16、17、這個(gè)過程中,隨著t的增大,xt越來越接近純噪聲。當(dāng)t→∞,xt是完全的高斯噪聲。且實(shí)際中βt隨著增大是遞增的,即β1<β2<…<βt。在glide的代碼中,βt是由0.0001到0.02線性插值(以t=1000為基準(zhǔn),t增加,βt對應(yīng)降低)。18、由于每次的高斯噪聲的采樣都是獨(dú)立的,故我們可以直接寫出xt與x0的關(guān)系式。令αt=1-βt則;19、20、由貝葉斯公式可得;21、22、其中,23、由于已知?jiǎng)t;24、25、該式子里面的噪聲即是我們要通過神經(jīng)網(wǎng)絡(luò)預(yù)測的,∈=∈θ(xt,t),26、在訓(xùn)練的過程中,采用的損失函數(shù)延續(xù)了變分自編碼器(vae)損失函數(shù)的思路,損失函數(shù)由此得到訓(xùn)練和采樣推理的ddpm算法如下:27、28、基于擴(kuò)散模型的圖像修復(fù)技術(shù)中常見的一種為:將圖像中缺失的部分進(jìn)行加噪并通過逐步去噪修復(fù)。29、帶有引導(dǎo)的擴(kuò)散模型(guided?diffusion)是指在使用擴(kuò)散模型進(jìn)行生成的過程中,通過添加一個(gè)分類器(classifier)作為引導(dǎo),在不改變訓(xùn)練過程,僅改變采樣過程的情況下對生成進(jìn)行條件控制并提高生成的效果。亦即采用pθ,φ(xt|xt+1,y)進(jìn)行采樣,其中θ和φ都是神經(jīng)網(wǎng)絡(luò)參數(shù)。通過簡單的貝葉斯公式推導(dǎo),我們可以得到pθ,φ(xt|xt+1,y)=zpθ(xt|xt+1)pφ(y|xt),其中z是一個(gè)常數(shù)。由ddpm的訓(xùn)練,pθ(xt|xt+1)是我們已知的,通過泰勒展開,我們可以進(jìn)一步估計(jì)logpφ(y|xt),在預(yù)測的均值附近展開,我們有30、31、在這里c1是一個(gè)常數(shù),綜上,我們有32、33、我們由此發(fā)現(xiàn),分類器的引導(dǎo)效果體現(xiàn)在采樣時(shí)每一步的均值加上了∑g。即從原來的變?yōu)榱似鋫未a如下:34、35、無分類器擴(kuò)散引導(dǎo)(classifier-free?diffusion?guidance)本質(zhì)上是將條件y加入噪聲預(yù)測過程,即∈θ(xt,y,t).由∈θ(xt,y,t)可直接得出μ(xt,y,t),令ut’=μ(xt,y,t)36、這里μt’相當(dāng)于分類器引導(dǎo)里的μ+∑g37、考慮縮放因子s,有μ+s∑g=s(μ+∑g)-μ(s-1)令ω=s-1有μ+s∑g=-μω+(ω+1)(μ+∑g),對無分類器引導(dǎo),相當(dāng)于(ω+1)μ′t-ωμ(xt,φ,t).φ代表無條件輸入。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的在于提供一種基于自回歸模型和擴(kuò)散模型的遙感場景生成方法。該方法首先基于自回歸模型預(yù)測遙感目標(biāo)合理布局,即根據(jù)一張遙感背景圖像輸入,預(yù)測指定數(shù)量的遙感目標(biāo)在遙感背景圖像中的合理位置、大小和朝向。隨后根據(jù)得到的布局信息挖取背景圖像中對應(yīng)的部分,在此基礎(chǔ)上實(shí)現(xiàn)基于擴(kuò)散模型的可控遙感目標(biāo)生成。目標(biāo)生成采用虛實(shí)結(jié)合生成的思路,即虛擬目標(biāo)疊加真實(shí)背景,生成的遙感目標(biāo)具有良好的真實(shí)性、可控性和多樣性。具體來說,遙感目標(biāo)的真實(shí)性體現(xiàn)在生成目標(biāo)的光影和邊緣與原遙感背景保持一致;可控性體現(xiàn)在能夠指定目標(biāo)朝向;多樣性體現(xiàn)在能夠生成各種類型的遙感目標(biāo)。本發(fā)明能夠自動(dòng)生成大量遙感目標(biāo)檢測、跟蹤和軌跡預(yù)測模型所需的訓(xùn)練和測試數(shù)據(jù),極大緩解了當(dāng)前數(shù)據(jù)不足的問題,提高遙感目標(biāo)檢測、跟蹤和軌跡預(yù)測模型的泛化性能與魯棒性。2、本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:3、本發(fā)明是一種基于自回歸模型和擴(kuò)散模型的遙感場景生成方法,基于自回歸模型的遙感目標(biāo)合理布局預(yù)測,采用自回歸的思路預(yù)測目標(biāo)出現(xiàn)的合理位置、大小和朝向,即每次僅預(yù)測一個(gè)目標(biāo)的位置、大小和朝向,而之前的所有預(yù)測結(jié)果將成為下一次預(yù)測的條件輸入。該方式將一個(gè)復(fù)雜的多元問題(目標(biāo)之間彼此會有影響)化簡,使得問題的解決變得更加容易。隨后基于預(yù)測得到的位置、大小和朝向挖取遙感背景圖像,在此基礎(chǔ)上進(jìn)行可控遙感目標(biāo)生成。該方法分為四個(gè)步驟:步驟一:遙感場景圖像收集并處理;步驟二:預(yù)測單個(gè)目標(biāo)出現(xiàn)的位置、大小和朝向;步驟三:自回歸采樣。步驟四:遙感目標(biāo)在背景中的生成并嵌入;具體步驟如下:4、步驟一:遙感場景圖像收集并處理5、規(guī)定:6、1.所有在圖像中使用的坐標(biāo)均采用像素坐標(biāo)系。7、2.某個(gè)像素的坐標(biāo)一般采用x或者(x,y)t。8、3.目標(biāo)出現(xiàn)的位置指代其中心坐標(biāo)。9、4.size指目標(biāo)大小,為了與生成目標(biāo)的方法對齊,其含義為將目標(biāo)框住的最小水平框較大邊長的兩倍。10、5.θ指目標(biāo)的朝向,采用角度制,其定義與一般意義坐標(biāo)下(即水平朝右為x軸,水平朝上為y軸)定義的角度一致,為了與生成目標(biāo)的方法對齊。11、6.將目標(biāo)的位置、角度和大小數(shù)據(jù)稱之為元數(shù)據(jù)。12、從公開遙感圖像目標(biāo)檢測數(shù)據(jù)集獲取遙感場景圖像,使用lama模型去除圖像中的目標(biāo),在csv文件中記錄這些目標(biāo)的位置、大小和朝向。對圖像做數(shù)據(jù)增強(qiáng)并對目標(biāo)的大小做聚類。13、步驟二:預(yù)測單個(gè)目標(biāo)出現(xiàn)的位置、大小和朝向14、為了預(yù)測單個(gè)目標(biāo)出現(xiàn)位置、大小和朝向??梢詫栴}建模為:預(yù)測一張圖像上每一個(gè)像素點(diǎn)處出現(xiàn)大小為size,朝向?yàn)棣鹊哪繕?biāo)的概率。具體來說,考慮坐標(biāo)為x=(x,y)t的像素,預(yù)測其出現(xiàn)目標(biāo)的概率p(x),在出現(xiàn)目標(biāo)的條件下,預(yù)測朝向θ和大小size的分布p(θ,size|x)=p(θ|x)p(size|x)(不妨認(rèn)為兩者條件獨(dú)立),由此可得到聯(lián)合概率分布p(θ,size,x)。將得到的分布稱之為布局圖l。由布局圖l,取再取即可得到預(yù)測結(jié)果(x*,θ*size*)。15、步驟三:自回歸采樣16、指定一張遙感背景圖像中應(yīng)該嵌入n個(gè)目標(biāo),首先預(yù)測第1個(gè)目標(biāo)布局圖l1,得到對第i(2≤i≤n)個(gè)目標(biāo),其布局圖的預(yù)測基于前i-1個(gè)目標(biāo)的預(yù)測結(jié)果進(jìn)一步得到其預(yù)測結(jié)果17、θ和size的取值是連續(xù)的,為了簡化問題,對其進(jìn)行離散化處理,將θ和size的預(yù)測處理為分類問題,各離散化為12個(gè)類別。18、步驟四:遙感目標(biāo)在背景中的生成并嵌入19、采樣出目標(biāo)的位置、大小和朝向以后,根據(jù)目標(biāo)的位置和大小在背景圖像中挖取對應(yīng)的圖像塊,將這一部分的中心用隨機(jī)噪聲替代,通過擴(kuò)散模型得到融入進(jìn)背景圖中的目標(biāo)。為了控制目標(biāo)的生成角度,將一條件引導(dǎo)圖聯(lián)結(jié)到輸入的通道維度,同時(shí)在時(shí)間步嵌入的基礎(chǔ)上加入角度信息的嵌入。采用無分類器的擴(kuò)散引導(dǎo)(cfg)來更好地控制角度。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
萍乡市| 丘北县| 惠安县| 湟中县| 泾源县| 太仆寺旗| 屏东县| 南丹县| 龙泉市| 石渠县| 镇远县| 永德县| 安平县| 宜城市| 赞皇县| 柞水县| 江川县| 彭阳县| 满洲里市| 小金县| 江达县| 顺昌县| 泾川县| 永定县| 仲巴县| 延庆县| 伊川县| 海兴县| 封丘县| 轮台县| 金沙县| 高平市| 荣昌县| 合川市| 商城县| 屯留县| 富阳市| 钦州市| 太保市| 乐东| 闽侯县|