本發(fā)明涉及成礦預(yù)測(cè),尤其是涉及一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法。
背景技術(shù):
1、礦產(chǎn)資源勘探和開(kāi)發(fā)一直是地學(xué)領(lǐng)域的重點(diǎn)研究方向。隨著對(duì)礦產(chǎn)的不斷開(kāi)發(fā),人們不得不向地下深處不斷探索,這也意味著勘探難度不斷增加。
2、早期傳統(tǒng)的礦產(chǎn)預(yù)測(cè)方法主要依賴于地質(zhì)專家的經(jīng)驗(yàn)和判斷,存在主觀性強(qiáng)、預(yù)測(cè)精度較低等問(wèn)題。隨著勘探技術(shù)的不斷進(jìn)步,可獲取的地學(xué)數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng),為礦產(chǎn)預(yù)測(cè)提供了大量原始數(shù)據(jù)。使得采用傳統(tǒng)方法對(duì)這些數(shù)據(jù)進(jìn)行深層信息的挖掘變得十分困難。
3、近年來(lái),機(jī)器學(xué)習(xí)等人工智能技術(shù)在地學(xué)領(lǐng)域得到廣泛應(yīng)用,能夠利用海量地質(zhì)數(shù)據(jù)進(jìn)行客觀、高效的成礦預(yù)測(cè)?,F(xiàn)有基于機(jī)器學(xué)習(xí)的成礦預(yù)測(cè)模型多數(shù)僅依賴于地質(zhì)數(shù)據(jù)本身,大多只關(guān)注單一數(shù)據(jù)源的分析,缺乏對(duì)多源地學(xué)知識(shí)的充分利用。所以如何更好地捕捉數(shù)據(jù)的潛在結(jié)構(gòu),提高模型性能也是研究的關(guān)鍵。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,通過(guò)主成分分析方法在多種特征中選出對(duì)成礦預(yù)測(cè)具有重要影響的特征,去除冗余和噪聲,提升模型的計(jì)算效率和預(yù)測(cè)性能。通過(guò)引入貝葉斯優(yōu)化算法能夠自動(dòng)搜索和調(diào)整最佳超參數(shù)組合,減少人工干預(yù),有效提升預(yù)測(cè)模型的訓(xùn)練效率和性能。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,包括以下步驟:
3、s1、采集非礦點(diǎn)和已知礦點(diǎn)的地物化遙綜合數(shù)據(jù)作為原始數(shù)據(jù),對(duì)原始數(shù)據(jù)進(jìn)行清理,處理成礦預(yù)測(cè)變量的缺失值;
4、s2、采用優(yōu)化的主成分分析pca方法,對(duì)總樣本數(shù)據(jù)集中特征值進(jìn)行標(biāo)準(zhǔn)化后,計(jì)算特征之間的協(xié)方差,對(duì)協(xié)方差矩陣的特征值進(jìn)行分解,并結(jié)合貝葉斯優(yōu)化算法,自動(dòng)確定最佳的主成分?jǐn)?shù)量,根據(jù)數(shù)據(jù)方差的貢獻(xiàn)率選擇主要的特征向量,將原始數(shù)據(jù)投影到選定的主成分方向上;
5、s3、構(gòu)建xgboost模型,定義超參數(shù)搜索空間,并設(shè)置目標(biāo)優(yōu)化函數(shù)、迭代次數(shù)和初始點(diǎn),初始化貝葉斯優(yōu)化算法;
6、s4、使用貝葉斯優(yōu)化算法,通過(guò)交叉驗(yàn)證輔助,自動(dòng)搜索xgboost模型的最佳超參數(shù)組合;
7、s5、使用經(jīng)過(guò)bo優(yōu)化后的xgboost模型對(duì)訓(xùn)練集進(jìn)行最終的模型訓(xùn)練;使用最終模型對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè)。
8、優(yōu)選的,所述s1中,成礦預(yù)測(cè)變量由鉆孔數(shù)據(jù)提取和反距離插值計(jì)算得到;a,b,c,...為成礦預(yù)測(cè)變量,s={a,b,c,...},s為成礦預(yù)測(cè)變量的集合;y為所取數(shù)據(jù)的標(biāo)簽集,總樣本數(shù)據(jù)集d=s∪y;
9、對(duì)于總樣本數(shù)據(jù)集中存在的缺失值,采用均值填補(bǔ)法進(jìn)行處理。
10、優(yōu)選的,所述s2中,對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化是通過(guò)計(jì)算每個(gè)特征xj的均值uj和標(biāo)準(zhǔn)差σj,對(duì)每個(gè)特征xj進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式為:
11、
12、優(yōu)選的,所述s2中,標(biāo)準(zhǔn)化后數(shù)據(jù)集的協(xié)方差矩陣c為:
13、
14、其中,x'i表示第i個(gè)樣本的標(biāo)準(zhǔn)化值;u'是特征的均值向量;m是樣本數(shù)量。
15、優(yōu)選的,所述s2中,對(duì)協(xié)方差矩陣c特征值進(jìn)行分解,得到特征值λj和對(duì)應(yīng)的特征向量vj:
16、cvj=λjvj???(3)
17、特征值λj表示數(shù)據(jù)在對(duì)應(yīng)特征向量vj方向上的方差大?。?/p>
18、對(duì)所有特征值進(jìn)行降序排列,計(jì)算累計(jì)方差貢獻(xiàn)率:
19、
20、其中,k表示選取的主成分?jǐn)?shù)量,n表示總的特征數(shù)量,計(jì)算累計(jì)貢獻(xiàn)率達(dá)到95%的k值。
21、優(yōu)選的,所述s2中,設(shè)置目標(biāo)優(yōu)化函數(shù)、初始化貝葉斯優(yōu)化器,使用初始的xgboost模型,引入5折交叉驗(yàn)證進(jìn)行輔助,進(jìn)行貝葉斯優(yōu)化。使用經(jīng)過(guò)貝葉斯優(yōu)化獲得的最佳主成分?jǐn)?shù)量k'進(jìn)行主成分特征選擇;使用選擇的k'個(gè)主成分對(duì)應(yīng)的特征向量v1,v2,…,vk'構(gòu)建投影矩陣p,對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行降維轉(zhuǎn)換:
22、x降維=x'p?(5)
23、其中,x降維是降維后的數(shù)據(jù)集,x'是標(biāo)準(zhǔn)化后的數(shù)據(jù)集。
24、優(yōu)選的,所述s3具體為:定義xgboost模型中需要優(yōu)化超參數(shù)的取值范圍,目標(biāo)優(yōu)化函數(shù)是貝葉斯優(yōu)化過(guò)程中需要最小化或最大化的目標(biāo),引入5折交叉驗(yàn)證獲取穩(wěn)定的性能指標(biāo)。
25、優(yōu)選的,所述優(yōu)化超參數(shù)為學(xué)習(xí)率、最大深度、基礎(chǔ)模型數(shù)量、控制樹(shù)的分裂條件、子樣本比例、列采樣比例。
26、優(yōu)選的,所述s4中,選擇初始的超參數(shù)組合,并評(píng)估對(duì)應(yīng)的模型性能指標(biāo),基于已觀察的性能數(shù)據(jù)集,利用高斯過(guò)程構(gòu)建概率模型來(lái)近似目標(biāo)函數(shù);通過(guò)優(yōu)化acquisition函數(shù)決定下一個(gè)待評(píng)估的超參數(shù)組合;通過(guò)5折交叉驗(yàn)證評(píng)估新的超參數(shù)組合對(duì)應(yīng)的模型性能,并將其添加到已觀察的數(shù)據(jù)集中;更新高斯過(guò)程模型;迭代以上步驟直到最大迭代次數(shù)。
27、優(yōu)選的,所述s5具體為:使用經(jīng)過(guò)bo優(yōu)化后的最佳超參數(shù)配置到xgboost模型中做最終訓(xùn)練,得到最終模型;使用最終模型對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè)。
28、本發(fā)明所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法的優(yōu)點(diǎn)和積極效果是:
29、1、本發(fā)明通過(guò)改進(jìn)的主成分分析方法,有效識(shí)別和提取成礦預(yù)測(cè)中具有關(guān)鍵作用的特征,去除冗余信息和噪聲數(shù)據(jù),在應(yīng)對(duì)復(fù)雜和高維數(shù)據(jù)時(shí),顯著提升了模型的計(jì)算效率與預(yù)測(cè)性能。
30、2、通過(guò)引入貝葉斯優(yōu)化算法,能夠自動(dòng)搜索和調(diào)整最優(yōu)超參數(shù)組合,顯著減少人工干預(yù),提升訓(xùn)練效率。
31、3、本發(fā)明通過(guò)交叉驗(yàn)證及系統(tǒng)的參數(shù)優(yōu)化,提升了模型在未知數(shù)據(jù)上的泛化能力,確保模型在實(shí)際應(yīng)用中的穩(wěn)定性和可靠性,滿足不同環(huán)境下的預(yù)測(cè)需求。
32、下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
1.一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s1中,成礦預(yù)測(cè)變量由鉆孔數(shù)據(jù)提取和反距離插值計(jì)算得到;a,b,c,...為成礦預(yù)測(cè)變量,s={a,b,c,...},s為成礦預(yù)測(cè)變量的集合;y為所取數(shù)據(jù)的標(biāo)簽集,總樣本數(shù)據(jù)集d=s∪y;
3.根據(jù)權(quán)利要求2所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s2中,對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化是通過(guò)計(jì)算每個(gè)特征xj的均值uj和標(biāo)準(zhǔn)差σj,對(duì)每個(gè)特征xj進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式為:
4.根據(jù)權(quán)利要求3所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s2中,標(biāo)準(zhǔn)化后數(shù)據(jù)集的協(xié)方差矩陣c為:
5.根據(jù)權(quán)利要求4所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s2中,對(duì)協(xié)方差矩陣c特征值進(jìn)行分解,得到特征值λj和對(duì)應(yīng)的特征向量vj:
6.根據(jù)權(quán)利要求5所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s2中,設(shè)置目標(biāo)優(yōu)化函數(shù)、初始化貝葉斯優(yōu)化器,使用初始的xgboost模型,引入5折交叉驗(yàn)證進(jìn)行輔助,進(jìn)行貝葉斯優(yōu)化;使用經(jīng)過(guò)貝葉斯優(yōu)化獲得的最佳主成分?jǐn)?shù)量k'進(jìn)行主成分特征選擇;使用選擇的k'個(gè)主成分對(duì)應(yīng)的特征向量v1,v2,…,vk'構(gòu)建投影矩陣p,對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行降維轉(zhuǎn)換:
7.根據(jù)權(quán)利要求6所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s3具體為:定義xgboost模型中需要優(yōu)化超參數(shù)的取值范圍,目標(biāo)優(yōu)化函數(shù)是貝葉斯優(yōu)化過(guò)程中需要最小化或最大化的目標(biāo),引入5折交叉驗(yàn)證獲取穩(wěn)定的性能指標(biāo)。
8.根據(jù)權(quán)利要求7所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述優(yōu)化超參數(shù)為學(xué)習(xí)率、最大深度、基礎(chǔ)模型數(shù)量、控制樹(shù)的分裂條件、子樣本比例、列采樣比例。
9.根據(jù)權(quán)利要求8所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s4中,選擇初始的超參數(shù)組合,并評(píng)估對(duì)應(yīng)的模型性能指標(biāo),基于已觀察的性能數(shù)據(jù)集,利用高斯過(guò)程構(gòu)建概率模型來(lái)近似目標(biāo)函數(shù);通過(guò)優(yōu)化acquisition函數(shù)決定下一個(gè)待評(píng)估的超參數(shù)組合;通過(guò)5折交叉驗(yàn)證評(píng)估新的超參數(shù)組合對(duì)應(yīng)的模型性能,并將其添加到已觀察的數(shù)據(jù)集中;更新高斯過(guò)程模型;迭代以上步驟直到最大迭代次數(shù)。
10.根據(jù)權(quán)利要求9所述的一種基于bo-pca-xgboost模型的成礦預(yù)測(cè)方法,其特征在于:所述s5具體為:使用經(jīng)過(guò)bo優(yōu)化后的最佳超參數(shù)配置到xgboost模型中做最終訓(xùn)練,得到最終模型;使用最終模型對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè)。