本發(fā)明涉及gps軌跡生成,特別是一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法。
背景技術(shù):
1、gps軌跡數(shù)據(jù)在眾多時(shí)空數(shù)據(jù)挖掘應(yīng)用中發(fā)揮著至關(guān)重要的作用,包括城市交通規(guī)劃、商業(yè)位置選擇和出行時(shí)間估計(jì)。盡管通過(guò)gps軌跡分析在城市應(yīng)用中取得了實(shí)質(zhì)性進(jìn)展,但很少有人關(guān)注數(shù)據(jù)可訪問(wèn)性和隱私問(wèn)題。此外,軌跡數(shù)據(jù)收集的耗時(shí)和勞動(dòng)密集型性質(zhì)導(dǎo)致了獲取可訪問(wèn)的、公開(kāi)的、保護(hù)隱私的數(shù)據(jù)集的挑戰(zhàn)。擴(kuò)散模型是比規(guī)范方法更可靠、更穩(wěn)健的生成方法。現(xiàn)實(shí)世界中的人類活動(dòng)表現(xiàn)出隨機(jī)和不確定的特征,擴(kuò)散模型從隨機(jī)噪聲中逐步重建數(shù)據(jù),使其適合生成更真實(shí)的gps軌跡。由于擴(kuò)散模型從隨機(jī)噪聲生成軌跡,因此消除了隱私泄露的風(fēng)險(xiǎn)。然而,由于巨大的計(jì)算成本,擴(kuò)散模型生成gps軌跡信息存在生成速度慢的問(wèn)題,導(dǎo)致交互式應(yīng)用程序的延遲過(guò)高。因此,研究者們面臨著高效獲取gps軌跡信息的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。
2、為此,本發(fā)明的一個(gè)目的在于提出一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,以解決背景技術(shù)中所提到的問(wèn)題,克服現(xiàn)有技術(shù)中存在的不足。為了實(shí)現(xiàn)上述目的,本發(fā)明一方面的實(shí)施例提供一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,包括以下步驟:
3、1):構(gòu)建基于擴(kuò)散模型的gps軌跡生成模型,所述gps軌跡生成模型包括多尺度特征融合、新型unet網(wǎng)絡(luò);
4、所述新型unet網(wǎng)絡(luò)以u(píng)net網(wǎng)絡(luò)為基礎(chǔ),每層包含多個(gè)基于1d-cnn的堆疊殘差網(wǎng)絡(luò)塊,每層的卷積核大小為3,且在每層卷積層后引入激活函數(shù);
5、2):獲取一組真實(shí)世界的gps軌跡,所述的gps軌跡包括多組,并將所述gps軌跡用于訓(xùn)練擴(kuò)散模型,得到預(yù)測(cè)噪音與前向擴(kuò)散的噪音最小化的均方誤差;
6、3):基于訓(xùn)練完成的擴(kuò)散模型,對(duì)同一擴(kuò)散任務(wù)gps軌跡生成分為多個(gè)圖像塊,不同的圖像塊分配給不同的gpu計(jì)算,gpu之間異步激活函數(shù)的信息;
7、4):對(duì)上述gpu最終得出的結(jié)果聚合在一起,得到預(yù)測(cè)的噪聲;采用該方式,直至完成反向生成過(guò)程,輸出預(yù)測(cè)的gps軌跡圖片。
8、由上述任一方案優(yōu)選的是,所述步驟1)的基于擴(kuò)散模型的gps軌跡生成模型,unet網(wǎng)絡(luò)中每層包含多個(gè)基于1d-cnn的堆疊殘差網(wǎng)絡(luò)塊,每層的卷積核大小為3,且在每層卷積層后引入激活函數(shù),在上采樣和下采樣之間集成一個(gè)基于注意力機(jī)制的過(guò)渡模塊,其中下采樣使用最大池化,上采樣使用插值的方法,基于注意力機(jī)制的過(guò)度模塊由兩個(gè)堆疊殘差網(wǎng)絡(luò)塊和一個(gè)注意力層組成,整合一個(gè)條件嵌入塊來(lái)學(xué)習(xí)擴(kuò)散步長(zhǎng)和條件信息。
9、由上述任一方案優(yōu)選的是,所述步驟2中多組gps軌跡用于訓(xùn)練擴(kuò)散模型的方法,所述的多組gps軌跡為一系列連續(xù)采樣的用戶私有g(shù)ps位置信息,單個(gè)用戶的gps軌跡信息采用x={p1,p2,...,pn},其中,pi=[lati,lngi],lati表示緯度,lngi表示經(jīng)度;對(duì)于多組gps軌跡,采用真實(shí)的不同用戶的私有g(shù)ps軌跡信息x={x1,x2,…,xn}。
10、由上述任一方案優(yōu)選的是,所述步驟2中預(yù)測(cè)噪音與前向擴(kuò)散的噪音最小化的均方誤差的方法,對(duì)于一系列不同用戶的gps軌跡信息x={x1,x2,…,xn}進(jìn)行推理,在前向傳播中不斷加入噪音ε,對(duì)預(yù)測(cè)模型unet輸入噪音ε與時(shí)間t,unet輸出預(yù)測(cè)噪音εθ,最小損失函數(shù)表達(dá)式子為:
11、
12、其中,βi表示第i步加噪時(shí)所用的方差,隨著t的增大,βi不斷趨近于1。
13、由上述任一方案優(yōu)選的是,所述步驟3對(duì)同一擴(kuò)散任務(wù)gps軌跡生成分為多個(gè)圖像塊的方法,對(duì)于k個(gè)gpu設(shè)備,將圖片劃分為k份,不同的gpu設(shè)備采用同一個(gè)訓(xùn)練好的模型,進(jìn)行g(shù)ps軌跡生成任務(wù)。
14、由上述任一方案優(yōu)選的是,所述步驟3中g(shù)pu之間異步激活函數(shù)的信息,第k個(gè)gpu設(shè)備在unet網(wǎng)絡(luò)中第j層進(jìn)行第t個(gè)步驟的激活函數(shù)采用表示,在反向生成過(guò)程的unet網(wǎng)絡(luò)中第j層的第t+1個(gè)步驟表示為
15、是完整的空間狀態(tài);在第k個(gè)gpu設(shè)備中,所對(duì)應(yīng)的gps生成最新的軌跡生成任務(wù),選擇性地將所對(duì)應(yīng)的第k塊任務(wù)進(jìn)行映射輸出,k個(gè)gpu設(shè)備,每個(gè)gpu設(shè)備僅負(fù)責(zé)個(gè)區(qū)域的計(jì)算。
16、由上述任一方案優(yōu)選的是,所述步驟4中最后所有unet層的輸出同步在gpu最終得出的結(jié)果聚合在一起,每個(gè)gpu最終輸出同步在一起近似第t步的預(yù)測(cè)噪聲εθ。
17、由上述任一方案優(yōu)選的是,所述當(dāng)?shù)趈個(gè)gpu生成了負(fù)責(zé)輸出的激活函數(shù)
18、時(shí),將向所有其他設(shè)備廣播激活函數(shù)并執(zhí)行聚合操作,gpu通過(guò)異步通訊和計(jì)算,所述聚合操作不阻止正在進(jìn)行的計(jì)算,當(dāng)?shù)絫-1個(gè)步驟時(shí),每個(gè)設(shè)備都有的副本。
19、由上述任一方案優(yōu)選的是,每個(gè)gpu不斷重復(fù)步驟3和步驟4的操作,一直到最后生成gps軌跡信息。
20、與現(xiàn)有技術(shù)相比,本發(fā)明所具有的優(yōu)點(diǎn)和有益效果為:
21、1、該基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,針對(duì)數(shù)據(jù)可訪問(wèn)性和隱私問(wèn)題,且現(xiàn)實(shí)世界中的人類活動(dòng)表現(xiàn)出隨機(jī)和不確定的特征,本發(fā)明利用擴(kuò)散模型預(yù)測(cè)gps軌跡信息,擴(kuò)散模型從隨機(jī)噪聲中逐步重建數(shù)據(jù),使其適合生成更真實(shí)的gps軌跡,由于擴(kuò)散模型從隨機(jī)噪聲生成軌跡,因此消除了隱私泄露的風(fēng)險(xiǎn)。
22、2、針對(duì)通過(guò)擴(kuò)散模型生成gps軌跡新型的高延遲,導(dǎo)致交互式應(yīng)用程序的延遲過(guò)高的問(wèn)題,本發(fā)明利用gpu之間的unet網(wǎng)絡(luò)異步共享激活函數(shù)的方法,加快gps軌跡生成速度,克服了擴(kuò)散模型生成gps軌跡信息存在生成速度慢的問(wèn)題。
1.一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述步驟1)的基于擴(kuò)散模型的gps軌跡生成模型,unet網(wǎng)絡(luò)中每層包含多個(gè)基于1d-cnn的堆疊殘差網(wǎng)絡(luò)塊,每層的卷積核大小為3,且在每層卷積層后引入激活函數(shù),在上采樣和下采樣之間集成一個(gè)基于注意力機(jī)制的過(guò)渡模塊,其中下采樣使用最大池化,上采樣使用插值的方法,基于注意力機(jī)制的過(guò)度模塊由兩個(gè)堆疊殘差網(wǎng)絡(luò)塊和一個(gè)注意力層組成,整合一個(gè)條件嵌入塊來(lái)學(xué)習(xí)擴(kuò)散步長(zhǎng)和條件信息。
3.根據(jù)權(quán)利要求1所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述步驟2中多組gps軌跡用于訓(xùn)練擴(kuò)散模型的方法,所述的多組gps軌跡為一系列連續(xù)采樣的用戶私有g(shù)ps位置信息,單個(gè)用戶的gps軌跡信息采用x={p1,p2,...,pn},其中,pi=[lati,lngi],lati表示緯度,lngi表示經(jīng)度;對(duì)于多組gps軌跡,采用真實(shí)的不同用戶的私有g(shù)ps軌跡信息x={x1,x2,...,xn}。
4.根據(jù)權(quán)利要求1所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述步驟2中預(yù)測(cè)噪音與前向擴(kuò)散的噪音最小化的均方誤差的方法,對(duì)于一系列不同用戶的gps軌跡信息x={x1,x2,...,xn}進(jìn)行推理,在前向傳播中不斷加入噪音ε,對(duì)預(yù)測(cè)模型unet輸入噪音ε與時(shí)間t,unet輸出預(yù)測(cè)噪音εθ,最小損失函數(shù)表達(dá)式子為:
5.根據(jù)權(quán)利要求1所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述步驟3對(duì)同一擴(kuò)散任務(wù)gps軌跡生成分為多個(gè)圖像塊的方法,對(duì)于k個(gè)gpu設(shè)備,將圖片劃分為k份,不同的gpu設(shè)備采用同一個(gè)訓(xùn)練好的模型,進(jìn)行g(shù)ps軌跡生成任務(wù)。
6.根據(jù)權(quán)利要求1所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述步驟3中g(shù)pu之間異步激活函數(shù)的信息,第k個(gè)gpu設(shè)備在unet網(wǎng)絡(luò)中第j層進(jìn)行第t個(gè)步驟的激活函數(shù)采用表示,在反向生成過(guò)程的unet網(wǎng)絡(luò)中第j層的第t+1個(gè)步驟表示為是完整的空間狀態(tài);在第k個(gè)gpu設(shè)備中,所對(duì)應(yīng)的gps生成最新的軌跡生成任務(wù),選擇性地將所對(duì)應(yīng)的第k塊任務(wù)進(jìn)行映射輸出,k個(gè)gpu設(shè)備,每個(gè)gpu設(shè)備僅負(fù)責(zé)個(gè)區(qū)域的計(jì)算。
7.根據(jù)權(quán)利要求1所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述步驟4中最后所有unet層的輸出同步在gpu最終得出的結(jié)果聚合在一起,每個(gè)gpu最終輸出同步在一起近似第t步的預(yù)測(cè)噪聲εθ。
8.根據(jù)權(quán)利要求7所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:所述當(dāng)?shù)趈個(gè)gpu生成了負(fù)責(zé)輸出的激活函數(shù)時(shí),將向所有其他設(shè)備廣播激活函數(shù)并執(zhí)行聚合操作,gpu通過(guò)異步通訊和計(jì)算,所述聚合操作不阻止正在進(jìn)行的計(jì)算,當(dāng)?shù)絫-1個(gè)步驟時(shí),每個(gè)設(shè)備都有的副本。
9.根據(jù)權(quán)利要求7所述的一種基于分布式并行推理擴(kuò)散模型的生成gps軌跡的方法,其特征在于:每個(gè)gpu不斷重復(fù)步驟3和步驟4的操作,一直到最后生成gps軌跡信息。