本公開(kāi)涉及海洋科學(xué)和數(shù)據(jù)處理,具體涉及了一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本公開(kāi)相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、隨著全球氣候變化和海洋資源的日益開(kāi)發(fā),對(duì)海洋觀測(cè)數(shù)據(jù)的分析和理解變得尤為重要。海洋觀測(cè)時(shí)序數(shù)據(jù)包含了豐富的海洋環(huán)境信息,如海洋溫度、鹽度、流速、生化信息等,對(duì)于研究海洋環(huán)流、氣候變化、生物多樣性等領(lǐng)域具有重要意義。然而,傳統(tǒng)的海洋觀測(cè)數(shù)據(jù)分析方法往往依賴于簡(jiǎn)單的統(tǒng)計(jì)模型或物理模型,無(wú)法充分利用時(shí)序數(shù)據(jù)的復(fù)雜性和非線性特征。因此,為了深入理解并建模分析海洋觀測(cè)數(shù)據(jù),我們有必要探索新的智能分析方法。
3、目前國(guó)內(nèi)外已形成了可以支撐構(gòu)建海洋觀測(cè)數(shù)據(jù)基座模型的數(shù)據(jù)基礎(chǔ),其中哥白尼計(jì)劃是由歐盟主導(dǎo)的地球觀測(cè)項(xiàng)目,旨在通過(guò)衛(wèi)星和地面設(shè)施提供連續(xù)的全球環(huán)境監(jiān)測(cè)服務(wù)。該計(jì)劃下的哥白尼海洋環(huán)境監(jiān)測(cè)服務(wù)(copernicus?marine?environmentmonitoring?service,cmems)專門(mén)負(fù)責(zé)提供全球和區(qū)域海洋觀測(cè)數(shù)據(jù)及產(chǎn)品。cmems利用衛(wèi)星遙感技術(shù)和模型模擬,提供海洋溫度、鹽度、海平面高度、海流、海冰覆蓋等多種時(shí)序數(shù)據(jù)。argo計(jì)劃是一個(gè)國(guó)際合作的全球海洋觀測(cè)項(xiàng)目,通過(guò)部署在全球海洋中的自主剖面浮標(biāo),定期測(cè)量海洋上層2000米范圍內(nèi)的溫度、鹽度和壓力等參數(shù)。另外,argo浮標(biāo)每隔一段時(shí)間(通常是10天)上浮到海面,將觀測(cè)數(shù)據(jù)通過(guò)衛(wèi)星傳輸?shù)桨痘邮照荆瑥亩纬珊Q蟓h(huán)境參數(shù)的時(shí)序數(shù)據(jù)。
4、海洋基座模型在海洋科學(xué)研究、氣候變化預(yù)測(cè)和環(huán)境保護(hù)中起著至關(guān)重要的作用,海洋基座大模型的研究和發(fā)展是當(dāng)前海洋科學(xué)領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。但目前對(duì)于海洋觀測(cè)數(shù)據(jù)的基座大模型的研究還相對(duì)較少,主要存在以下幾個(gè)方面的難題:首先,數(shù)據(jù)量大且復(fù)雜,海洋觀測(cè)時(shí)序數(shù)據(jù)通常包含大量的時(shí)空數(shù)據(jù)點(diǎn),并且數(shù)據(jù)之間的關(guān)系復(fù)雜。處理如此大規(guī)模且復(fù)雜的數(shù)據(jù)需要高效的數(shù)據(jù)處理和分析方法。其次,觀測(cè)數(shù)據(jù)中常存在噪聲和不完整性,這對(duì)模型的準(zhǔn)確性產(chǎn)生了不利影響。最后,海洋環(huán)境變化通常具有多樣性和復(fù)雜性,開(kāi)發(fā)的模型需要具有較強(qiáng)的泛化能力,能夠適應(yīng)不同海域和多變的環(huán)境條件,同時(shí)保持預(yù)測(cè)的準(zhǔn)確性和可靠性。因此,開(kāi)發(fā)海洋觀測(cè)數(shù)據(jù)的基座大模型并用以提高預(yù)測(cè)的可靠性和精確度,已經(jīng)成為迫切需求。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述缺陷,本公開(kāi)提出了一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法及系統(tǒng),通過(guò)預(yù)訓(xùn)練的方式,在多種海洋數(shù)據(jù)集上學(xué)習(xí)通用的特征表示和時(shí)序模式,從而構(gòu)建一個(gè)具有高度泛化能力的海洋通用模型,不僅能夠處理大規(guī)模、多源的海洋數(shù)據(jù),還能夠捕捉數(shù)據(jù)的時(shí)序特性,提供實(shí)時(shí)的數(shù)據(jù)處理和預(yù)測(cè)能力。
2、為了實(shí)現(xiàn)上述目的,本公開(kāi)采用如下技術(shù)方案:
3、本公開(kāi)第一方面提供了一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法,包括以下步驟:
4、構(gòu)建海洋基座模型;
5、將獲取的海洋時(shí)序數(shù)據(jù)輸入海洋基座模型中,構(gòu)建海洋時(shí)序數(shù)據(jù)的時(shí)間戳粒度級(jí)的token序列,將時(shí)間戳前的偏移延遲特征向量和協(xié)變量向量連接到時(shí)間戳token向量中;
6、結(jié)合因果自注意力機(jī)制和旋轉(zhuǎn)位置嵌入,將token序列的特征映射到transformer的解碼器,生成下一步時(shí)間戳序列;
7、定義損失函數(shù),優(yōu)化模型參數(shù),得到訓(xùn)練好的海洋基座模型。
8、作為進(jìn)一步的實(shí)現(xiàn)方式,在構(gòu)建海洋時(shí)序數(shù)據(jù)的時(shí)間戳粒度級(jí)的token序列之前,還包括對(duì)海洋時(shí)序數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理。
9、作為進(jìn)一步的實(shí)現(xiàn)方式,建海洋時(shí)序數(shù)據(jù)的時(shí)間戳粒度級(jí)的token序列,具體為:
10、提取海洋時(shí)序數(shù)據(jù)時(shí)間戳的前置序列偏移延遲特征以及海洋時(shí)序數(shù)據(jù)的協(xié)變量特征,將兩類特征進(jìn)行拼接合并,獲得時(shí)間戳token向量,基于時(shí)間戳token向量構(gòu)建時(shí)間戳粒度級(jí)的token序列。
11、作為進(jìn)一步的實(shí)現(xiàn)方式,協(xié)變量是除了時(shí)間本身以外的其他變量,包括靜態(tài)協(xié)變量和動(dòng)態(tài)協(xié)變量。
12、作為進(jìn)一步的實(shí)現(xiàn)方式,所述transformer的解碼器在模型中堆疊有多個(gè),利用概率分布頭預(yù)測(cè)某個(gè)選擇的分布的參數(shù),使模型具備對(duì)未來(lái)海洋觀測(cè)數(shù)據(jù)的區(qū)間預(yù)測(cè)能力。
13、作為進(jìn)一步的實(shí)現(xiàn)方式,所述概率分布頭采用student's?t分布。
14、作為進(jìn)一步的實(shí)現(xiàn)方式,采用掩碼自監(jiān)督學(xué)習(xí)方法對(duì)基座模型進(jìn)行訓(xùn)練,在自監(jiān)督訓(xùn)練中使用的損失函數(shù)是基于預(yù)測(cè)分布的負(fù)對(duì)數(shù)似然函數(shù)。
15、本公開(kāi)第二方面提供了一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建系統(tǒng),包括:
16、模型構(gòu)建模塊,被配置為:構(gòu)建海洋基座模型;
17、token序列構(gòu)建模塊,被配置為:將獲取的海洋時(shí)序數(shù)據(jù)輸入海洋基座模型中,構(gòu)建海洋時(shí)序數(shù)據(jù)的時(shí)間戳粒度級(jí)的token序列,將時(shí)間戳前的偏移延遲特征向量和協(xié)變量向量連接到時(shí)間戳token向量中;
18、模型預(yù)測(cè)模塊,被配置為:結(jié)合因果自注意力機(jī)制和旋轉(zhuǎn)位置嵌入,將token序列的特征映射到transformer的解碼器,生成下一步時(shí)間戳序列;
19、模型訓(xùn)練模塊,被配置為:定義損失函數(shù),優(yōu)化模型參數(shù),得到訓(xùn)練好的海洋基座模型。
20、本公開(kāi)第三方面提供了一種介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開(kāi)第一方面所述的一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法中的步驟。
21、本公開(kāi)第四方面提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)本公開(kāi)第一方面所述的一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法中的步驟。
22、與現(xiàn)有技術(shù)相比,本公開(kāi)的有益效果為:
23、本公開(kāi)提出的一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法及系統(tǒng),首次將海洋觀測(cè)數(shù)據(jù)與大模型相結(jié)合,構(gòu)建了海洋觀測(cè)數(shù)據(jù)的基座大模型。通過(guò)預(yù)訓(xùn)練的方式,在多種海洋數(shù)據(jù)集上學(xué)習(xí)通用的特征表示和時(shí)序模式,從而構(gòu)建一個(gè)具有高度泛化能力的海洋通用模型。不僅具備優(yōu)秀的預(yù)測(cè)能力和高度的準(zhǔn)確性,還可以利用預(yù)訓(xùn)練大模型實(shí)現(xiàn)少樣本或零樣本推理,通過(guò)在預(yù)訓(xùn)練模型的基礎(chǔ)上使用特定任務(wù)的數(shù)據(jù)集進(jìn)行訓(xùn)練和微調(diào),使模型能夠更好地適應(yīng)特定的下游任務(wù)。本公開(kāi)提出的基座模型不僅能夠處理大規(guī)模、多源的海洋數(shù)據(jù),還能夠捕捉數(shù)據(jù)的時(shí)序特性,提供實(shí)時(shí)的數(shù)據(jù)處理和預(yù)測(cè)能力。
24、本公開(kāi)提出了一種融合偏移延遲特征和動(dòng)、靜態(tài)協(xié)變量信息的海洋觀測(cè)數(shù)據(jù)時(shí)間戳粒度級(jí)token序列構(gòu)建方法,通過(guò)為每個(gè)時(shí)間戳獨(dú)立構(gòu)建token,顯著提升了模型對(duì)海洋觀測(cè)數(shù)據(jù)即時(shí)動(dòng)態(tài)的解析能力,同時(shí)能夠適應(yīng)時(shí)間戳頻率的不規(guī)則性。通過(guò)融合前置序列延遲偏移特征和動(dòng)、靜態(tài)協(xié)變量信息,不僅增強(qiáng)了模型對(duì)長(zhǎng)期趨勢(shì)的捕捉能力,還提高了對(duì)短期快速變化的適應(yīng)性。此外,構(gòu)建的token序列包含了豐富的歷史特征和附加信息,為模型提供了高效的學(xué)習(xí)和推理基礎(chǔ)。顯著提高了基座模型的預(yù)測(cè)準(zhǔn)確性,也為海洋觀測(cè)數(shù)據(jù)的時(shí)間序列分析提供了一種更為精確、靈活且魯棒的解決方案。
25、本公開(kāi)提出的一種面向海洋觀測(cè)數(shù)據(jù)的基座模型,在輸入層引入多種數(shù)據(jù)標(biāo)準(zhǔn)化方法,能夠有效減少異常值對(duì)時(shí)間序列分析的影響,提高模型的魯棒性和穩(wěn)定性。在模型中設(shè)計(jì)了時(shí)間戳粒度token嵌入層,將時(shí)間戳前的偏移延遲特征向量和協(xié)變量向量連接到原時(shí)間戳token向量中,使得模型不僅可以學(xué)習(xí)到時(shí)間戳數(shù)據(jù)的即時(shí)變化,還能充分利用時(shí)間序列的歷史信息和外部信息,從而學(xué)習(xí)到更豐富的數(shù)據(jù)規(guī)律并提供更為精確的預(yù)測(cè)結(jié)果。此外,采用堆疊多個(gè)transformer處理層,我們的模型可以逐層深入地捕捉時(shí)序數(shù)據(jù)的多尺度特征,提高預(yù)測(cè)的準(zhǔn)確性和可靠性。并隨著層數(shù)的增加,大模型可以處理更大規(guī)模的數(shù)據(jù)集,也便于提高模型處理和理解大量數(shù)據(jù)的能力。最后,通過(guò)分布頭層將模型的特征投影到概率分布的參數(shù)上,模型學(xué)習(xí)基于歷史特征來(lái)輸出下一個(gè)時(shí)間步長(zhǎng)的值上的分布,從而更好地捕捉數(shù)據(jù)的多樣性和復(fù)雜性,從而提高模型對(duì)數(shù)據(jù)分布的擬合能力,進(jìn)而提高預(yù)測(cè)的準(zhǔn)確性和泛化能力。另外,通過(guò)概率分布頭的引入保障了模型通過(guò)在分布上進(jìn)行采樣,使模型具備“區(qū)間預(yù)測(cè)”能力,而不僅是“點(diǎn)預(yù)測(cè)”能力。
26、本公開(kāi)提出的一種面向海洋觀測(cè)數(shù)據(jù)的基座模型構(gòu)建方法及系統(tǒng),通過(guò)對(duì)原始海洋數(shù)據(jù)文件的處理,構(gòu)建了通用的海洋原位觀測(cè)預(yù)訓(xùn)練數(shù)據(jù)集,為進(jìn)一步的數(shù)據(jù)分析、模型訓(xùn)練和預(yù)測(cè)提供的極大的便利,同時(shí)也提高了數(shù)據(jù)的可用性和訪問(wèn)效率。此外,我們的處理數(shù)據(jù)的方法有高度的擴(kuò)展性和兼容性,只需進(jìn)行簡(jiǎn)單的微調(diào),即可實(shí)現(xiàn)對(duì)任意海域、任意類型海洋時(shí)序數(shù)據(jù)的高效預(yù)測(cè),且預(yù)測(cè)結(jié)果表現(xiàn)優(yōu)異,這顯著提升了海洋數(shù)據(jù)分析和預(yù)測(cè)的應(yīng)用價(jià)值。
27、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。