本發(fā)明屬于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和時間序列預(yù)測,具體涉及一種基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法及系統(tǒng)。
背景技術(shù):
1、隨著全球碳排放問題的加劇,在碳中和目標(biāo)下,對大氣中碳產(chǎn)物濃度變化的研究變得愈發(fā)緊迫。二氧化碳(co2)和甲烷(ch4)是重要的溫室氣體,對全球氣候變化有重大影響。xco2和xch4是描述大氣中xco2和xch4濃度的參數(shù),通常以體積分?jǐn)?shù)表示,用于監(jiān)測和評估全球碳循環(huán)、氣候變化和溫室氣體排放的影響。tccon(total?carbon?columnobservingnetwork,全碳柱觀測網(wǎng))是目前最為廣泛使用和公認(rèn)的監(jiān)測網(wǎng)絡(luò),為研究人員提供了理解大氣中xco2和xch4時空變化的重要參考,用于監(jiān)測溫室氣體排放和評估全球碳循環(huán)。
2、transformer在時間序列預(yù)測中的具有廣泛應(yīng)用,但transformer捕獲底層序列表示和描述多元相關(guān)性的能力較差,限制了它對不同時間序列數(shù)據(jù)的能力和泛化能力。為了解決這個問題,清華大學(xué)最近提出了最新的類似transformer的模型,稱為itransformer,該模型結(jié)合了更以變量為中心的全局時間序列標(biāo)記的表示和多元相關(guān)注意機(jī)制,從而顯著提高了性能。itransformer解決了transformer預(yù)測長時間序列能力不足的問題。
3、本發(fā)明改進(jìn)了itransformer模型的多變量注意力組件,得到性能更高的稀疏注意力機(jī)制大氣碳濃度預(yù)測模型,獲得更加準(zhǔn)確的大氣碳濃度預(yù)測結(jié)果。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法及系統(tǒng),有效提高多元雙碳數(shù)據(jù)時間序列預(yù)測的精確性。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、一種基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法,包括以下步驟:
4、采集大氣碳數(shù)據(jù);其中,所述大氣碳數(shù)據(jù)包括xco2和xch4兩個氣象變量;
5、采用基于歷史回填輔助數(shù)據(jù)的多重插值方法,對所述大氣碳數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)插補,獲得完整數(shù)據(jù)序列;
6、對所述完整數(shù)據(jù)序列進(jìn)行標(biāo)準(zhǔn)化以及異常值處理,獲得大氣碳數(shù)據(jù)集;
7、基于所述大氣碳數(shù)據(jù)集以及稀疏注意力機(jī)制大氣碳濃度預(yù)測模型,進(jìn)行大氣濃度雙模式多尺度預(yù)測,獲得濃度預(yù)測結(jié)果。
8、優(yōu)選的,對所述大氣碳數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)插補,獲得完整數(shù)據(jù)序列的方法為:
9、識別所述大氣碳數(shù)據(jù)的缺失數(shù)據(jù)段及相鄰?fù)暾麛?shù)據(jù)段;
10、基于已識別數(shù)據(jù)段的時間標(biāo)簽,獲得相應(yīng)歷史完整數(shù)據(jù)序列;
11、基于動態(tài)時間規(guī)整,計算缺失數(shù)據(jù)段與相應(yīng)歷史完整數(shù)據(jù)序列的相似度;
12、基于多重插值方法計算所述缺失數(shù)據(jù)段的插值結(jié)果;
13、基于相似度以及插值結(jié)果,獲得缺失數(shù)據(jù)段的最終插值結(jié)果;
14、基于所述最終插值結(jié)果,獲得所述完整數(shù)據(jù)序列。
15、優(yōu)選的,獲得大氣碳數(shù)據(jù)集的方法為:
16、將所述完整數(shù)據(jù)序列轉(zhuǎn)換為統(tǒng)一的日粒度尺度并對每日的大氣碳數(shù)據(jù)進(jìn)行均值化處理,獲得平均值序列;
17、對所述平均值序列進(jìn)行異常值檢測與去除;
18、基于去除異常值的平均值序列,獲得大氣碳數(shù)據(jù)集,并將所述大氣碳數(shù)據(jù)集劃分為訓(xùn)練集、驗證集以及測試集。
19、優(yōu)選的,使用概率稀疏自注意方法改進(jìn)itransformer模型的自注意模塊,獲得所述稀疏注意力機(jī)制大氣碳濃度預(yù)測模型;構(gòu)建所述稀疏注意力機(jī)制大氣碳濃度預(yù)測模型的方法為:
20、將所述訓(xùn)練集中不同氣象變量的原始時間序列獨立嵌入到令牌中;
21、基于概率稀疏自注意,對嵌入的所述原始時間序列進(jìn)行均勻抽樣,選擇局部上下文;
22、基于局部上下文的選擇,將所述原始時間序列壓縮為預(yù)設(shè)長度的短時間序列;
23、基于所述短時間序列,計算稀疏注意力權(quán)矩陣;
24、基于所述稀疏注意力權(quán)矩陣,對所述短時間序列中局部鄰域進(jìn)行稀疏關(guān)注,獲得局部鄰域相關(guān)信息;
25、基于所述局部鄰域相關(guān)信息,捕捉不同氣象變量原始時間序列的周期性、趨勢信息以及多變量之間的依賴關(guān)系,完成稀疏注意力機(jī)制大氣碳濃度預(yù)測模型的構(gòu)建。
26、優(yōu)選的,進(jìn)行大氣濃度雙模式多尺度預(yù)測時,雙模式包括多變量預(yù)測單變量以及多變量預(yù)測多變量。
27、本發(fā)明還提供一種基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測系統(tǒng),用于實現(xiàn)所述方法,包括:
28、數(shù)據(jù)采集模塊,用于采集大氣碳數(shù)據(jù);其中,所述大氣碳數(shù)據(jù)包括xco2和xch4兩個氣象變量;
29、插值模塊,用于采用基于歷史回填輔助數(shù)據(jù)的多重插值方法,對所述大氣碳數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)插補,獲得完整數(shù)據(jù)序列;
30、數(shù)據(jù)集構(gòu)建模塊,用于對所述完整數(shù)據(jù)序列進(jìn)行標(biāo)準(zhǔn)化以及異常值處理,獲得大氣碳數(shù)據(jù)集;
31、多尺度預(yù)測模塊,用于基于所述大氣碳數(shù)據(jù)集以及稀疏注意力機(jī)制大氣碳濃度預(yù)測模型,進(jìn)行大氣濃度雙模式多尺度預(yù)測,獲得濃度預(yù)測結(jié)果。
32、優(yōu)選的,所述插值模塊包括:
33、數(shù)據(jù)段識別單元,用于識別所述大氣碳數(shù)據(jù)的缺失數(shù)據(jù)段及相鄰?fù)暾麛?shù)據(jù)段;
34、歷史數(shù)據(jù)獲取單元,用于基于已識別數(shù)據(jù)段的時間標(biāo)簽,獲得相應(yīng)歷史完整數(shù)據(jù)序列;
35、相似度計算單元,用于基于動態(tài)時間規(guī)整,計算缺失數(shù)據(jù)段與相應(yīng)歷史完整數(shù)據(jù)序列的相似度;
36、插值計算單元,用于基于多重插值方法計算所述缺失數(shù)據(jù)段的插值結(jié)果;
37、最終插值獲取單元,用于基于相似度以及插值結(jié)果,獲得缺失數(shù)據(jù)段的最終插值結(jié)果;基于所述最終插值結(jié)果,獲得所述完整數(shù)據(jù)序列。
38、優(yōu)選的,所述數(shù)據(jù)集構(gòu)建模塊包括:
39、數(shù)據(jù)均值化單元,用于將所述完整數(shù)據(jù)序列轉(zhuǎn)換為統(tǒng)一的日粒度尺度并對每日的大氣碳數(shù)據(jù)進(jìn)行均值化處理,獲得平均值序列;
40、異常值檢測單元,用于對所述平均值序列進(jìn)行異常值檢測與去除;
41、數(shù)據(jù)集構(gòu)建單元,用于基于去除異常值的平均值序列,獲得大氣碳數(shù)據(jù)集,并將所述大氣碳數(shù)據(jù)集劃分為訓(xùn)練集、驗證集以及測試集。
42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:本發(fā)明提出了基于歷史回填輔助數(shù)據(jù)的多重插值方法,以解決碳濃度時間序列數(shù)據(jù)固有的缺失值特征??梢员A羧笔?shù)據(jù)的不確定性,使結(jié)果更加可靠。與單一的插值方法相比,它能更好地反映缺失數(shù)據(jù)的隨機(jī)性,適用于各種類型的缺失模式和統(tǒng)計分析方法。構(gòu)建的用于精確、多窗口碳濃度預(yù)測的稀疏注意力機(jī)制大氣碳濃度預(yù)測模型,能夠捕捉長期數(shù)據(jù)依賴關(guān)系。模型的復(fù)雜性較低,以便碳時間序列數(shù)據(jù)可以更有效地進(jìn)行實時預(yù)測。本發(fā)明實現(xiàn)了大氣碳數(shù)據(jù)的高精度預(yù)測,并有效解決了計算復(fù)雜度和實時性要求的問題。
1.一種基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法,其特征在于,對所述大氣碳數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)插補,獲得完整數(shù)據(jù)序列的方法為:
3.根據(jù)權(quán)利要求1所述的基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法,其特征在于,獲得大氣碳數(shù)據(jù)集的方法為:
4.根據(jù)權(quán)利要求3所述的基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法,其特征在于,使用概率稀疏自注意方法改進(jìn)itransformer模型的自注意模塊,獲得所述稀疏注意力機(jī)制大氣碳濃度預(yù)測模型;構(gòu)建所述稀疏注意力機(jī)制大氣碳濃度預(yù)測模型的方法為:
5.根據(jù)權(quán)利要求1所述的基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測方法,其特征在于,進(jìn)行大氣濃度雙模式多尺度預(yù)測時,雙模式包括多變量預(yù)測單變量以及多變量預(yù)測多變量。
6.一種基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測系統(tǒng),用于實現(xiàn)權(quán)利要求1-5任一項所述方法,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測系統(tǒng),其特征在于,所述插值模塊包括:
8.根據(jù)權(quán)利要求6所述的基于缺失數(shù)據(jù)插補的稀疏注意力大氣碳濃度預(yù)測系統(tǒng),其特征在于,所述數(shù)據(jù)集構(gòu)建模塊包括: