本發(fā)明涉及地質(zhì)調(diào)查和礦產(chǎn)勘查,具體而言,特別涉及一種基于機(jī)器學(xué)習(xí)建模來(lái)判別祖母綠產(chǎn)地的方法。
背景技術(shù):
1、祖母綠是一種名貴彩色寶石,其產(chǎn)地來(lái)源對(duì)祖母綠價(jià)值的評(píng)定具有重要影響。祖母綠的產(chǎn)地鑒別因而成為寶石實(shí)驗(yàn)室的重要技術(shù),也是寶石學(xué)領(lǐng)域的研究熱點(diǎn)。祖母綠的產(chǎn)地鑒別主要指判斷祖母綠的地理來(lái)源。在寶石貿(mào)易中,產(chǎn)地來(lái)源可以賦予祖母綠顯著的附加價(jià)值,相同質(zhì)量的哥倫比亞祖母綠價(jià)格遠(yuǎn)超其他產(chǎn)地的祖母綠。因此,對(duì)祖母綠的產(chǎn)地鑒別能力成為衡量寶石實(shí)驗(yàn)室技術(shù)水平的重要指標(biāo)。在寶石學(xué)研究中,祖母綠產(chǎn)地溯源的意義還在于比較產(chǎn)地差異、總結(jié)產(chǎn)地特征、區(qū)分成礦類(lèi)型和總結(jié)成礦和找礦規(guī)律。
2、祖母綠產(chǎn)地鑒別的基礎(chǔ)在于不同成礦背景的祖母綠礦床產(chǎn)出的祖母綠具有顯著的常規(guī)寶石學(xué)性質(zhì)、包裹體、譜學(xué)特征和化學(xué)成分差異。因此,鑒定祖母綠的產(chǎn)地來(lái)源通?;诮?jīng)驗(yàn)豐富的寶石學(xué)家對(duì)祖母綠以上四方面特征的綜合判斷。從上世紀(jì)50年代瑞士的gübelin?寶石實(shí)驗(yàn)室首創(chuàng)彩色寶石的產(chǎn)地鑒別以來(lái),祖母綠的產(chǎn)地鑒別研究日益深入。zwaanet?al.?(2005)系統(tǒng)報(bào)道了贊比亞kafubu祖母綠的產(chǎn)地特征并與相似祖母綠進(jìn)行對(duì)比分析。groat?etal.?(2008)對(duì)全球祖母綠礦床分布和礦區(qū)地質(zhì)背景做了系統(tǒng)介紹,并基于化學(xué)成分和氫氧同位素?cái)?shù)據(jù)進(jìn)行了對(duì)比投圖。zwaan?et?al.?(2012)公布了巴西fazendabonfim祖母綠的包裹體、譜學(xué)和化學(xué)成分?jǐn)?shù)據(jù),并將其與其他片巖型礦床進(jìn)行區(qū)分。saeseaw?et?al.?(2014)從三相包裹體的角度對(duì)贊比亞musakashi和kafubu、阿富汗、中國(guó)和哥倫比亞祖母綠進(jìn)行對(duì)比分析,揭示了包裹體特征應(yīng)用于祖母綠產(chǎn)地鑒別的局限性。cede?o?ochoa?et?al.?(2015)用x射線熒光、紅外和拉曼光譜研究了哥倫比亞、阿富汗和巴西的35個(gè)礦區(qū)的530個(gè)樣品。通過(guò)fe和sc的含量和fe-cr-v三元圖將哥倫比亞祖母綠與阿富汗、巴西區(qū)分開(kāi)來(lái),還使用cr?/v比區(qū)分了chivor和gachala等哥倫比亞小產(chǎn)區(qū)。karampelaset?al.?(2019)公布了8個(gè)國(guó)家祖母綠樣品的紫外-可見(jiàn)光-近紅外(uv-vis-nir)光譜、紅外光譜(ir)、拉曼(raman)光譜和微量成分?jǐn)?shù)據(jù),并進(jìn)行了產(chǎn)地比較研究。zheng?etal.(2019)通過(guò)成分?jǐn)?shù)據(jù)對(duì)富釩祖母綠進(jìn)行了系統(tǒng)鑒別。saeseaw?et?al.?(2019)對(duì)目前的產(chǎn)地鑒別手段進(jìn)行了總結(jié),揭示目前多個(gè)產(chǎn)區(qū)特征包裹體趨同,并闡明祖母綠產(chǎn)地鑒別的困境,同時(shí)給出了新的成分二元鑒別圖解和相似產(chǎn)地鑒別流程。
3、除多產(chǎn)地的綜合研究外,隨著微量元素測(cè)試手段的成熟,近幾年來(lái)大量新興產(chǎn)地的祖母綠研究成果逐漸出現(xiàn),如埃塞俄比亞、馬達(dá)加斯加、瑞士、烏克蘭和奧地利祖母綠;部分傳統(tǒng)產(chǎn)區(qū)的新數(shù)據(jù)也接連被更新報(bào)道,如埃及、巴基斯坦、印度、巴西、阿富汗和哥倫比亞祖母綠。逐漸豐富的化學(xué)成分?jǐn)?shù)據(jù)使得傳統(tǒng)鑒別圖投點(diǎn)大面積重疊,但也使祖母綠化學(xué)成分?jǐn)?shù)據(jù)更加系統(tǒng)全面,增加了使用成分?jǐn)?shù)據(jù)進(jìn)行產(chǎn)地鑒別的可行性和可靠度。由于傳統(tǒng)二元鑒別圖無(wú)法適應(yīng)日漸龐大的數(shù)據(jù)集,部分學(xué)者已經(jīng)在統(tǒng)計(jì)學(xué)方法方向進(jìn)行了少量嘗試。aurisicchio?et?al.?(2018)?通過(guò)主成分分析(pca)方法對(duì)祖母綠成分?jǐn)?shù)據(jù)進(jìn)行降維,選擇了部分主成分向量多步驟對(duì)主要產(chǎn)區(qū)的祖母綠進(jìn)行了區(qū)分,也對(duì)部分有助于產(chǎn)地鑒別的元素進(jìn)行了地質(zhì)學(xué)解釋。在面對(duì)數(shù)量級(jí)不斷躍升的成分?jǐn)?shù)據(jù)和日漸復(fù)雜的包裹體特征時(shí),祖母綠產(chǎn)地鑒別將面臨新的困境。
4、近年來(lái),隨著地球科學(xué)數(shù)據(jù)以指數(shù)級(jí)速度增長(zhǎng),大數(shù)據(jù)和人工智能算法逐漸引入地球科學(xué)領(lǐng)域。機(jī)器學(xué)習(xí)被認(rèn)為是人工智能的核心,也是挖掘高維度數(shù)據(jù)的有效工具,其實(shí)質(zhì)是通過(guò)對(duì)大樣本觀察數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練得到最優(yōu)性能度量決策模型,基于此模型對(duì)未知數(shù)據(jù)做出最佳決策或預(yù)測(cè)。因此,基于祖母綠微量成分的機(jī)器學(xué)習(xí)模型有望高效準(zhǔn)確地判別祖母綠的產(chǎn)地來(lái)源,為祖母綠產(chǎn)地鑒別技術(shù)開(kāi)啟新篇章。
技術(shù)實(shí)現(xiàn)思路
1、為了彌補(bǔ)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于機(jī)器學(xué)習(xí)建模來(lái)判別祖母綠產(chǎn)地的方法。祖母綠作為一種名貴寶石,其晶體特征和品質(zhì)與產(chǎn)地緊密相關(guān),因而對(duì)祖母綠產(chǎn)地的判斷關(guān)系到其市場(chǎng)價(jià)格和寶石成因研究。過(guò)去采用譜學(xué)、包裹體差異和鏡下觀察等方法進(jìn)行產(chǎn)地鑒別,容易受人為主管因素的干擾,可靠性較差。本專(zhuān)利在收集整理祖母綠成分?jǐn)?shù)據(jù)的基礎(chǔ)上,采用機(jī)器學(xué)習(xí)算法對(duì)其產(chǎn)地進(jìn)行分類(lèi),可以有效提高分類(lèi)的準(zhǔn)確性,促進(jìn)祖母綠的寶石學(xué)研究并可指導(dǎo)珠寶鑒定工作。
2、本發(fā)明是通過(guò)如下技術(shù)方案實(shí)現(xiàn)的:一種基于機(jī)器學(xué)習(xí)建模來(lái)判別祖母綠產(chǎn)地的方法,具體包括以下步驟:
3、步驟s1、數(shù)據(jù)庫(kù)建設(shè);祖母綠的微量元素及常用參數(shù)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的構(gòu)成包括四個(gè)單元:1)基礎(chǔ)信息:樣品編號(hào)和數(shù)據(jù)來(lái)源;2)產(chǎn)地信息:國(guó)家、地區(qū)、礦區(qū)名、經(jīng)緯度坐標(biāo)、礦床類(lèi)型和圍巖類(lèi)型;3)測(cè)試信息:數(shù)據(jù)類(lèi)型和測(cè)試方法;4)成分信息:成分類(lèi)型、微量元素含量、地化參數(shù);數(shù)據(jù)庫(kù)中涵蓋的化學(xué)元素和參數(shù)共37個(gè),包括:li、b、na、mg、p、s、cl、k、ca、sc、ti、v、cr、mn、fe、co、ni、cu、zn、ga、rb、sr、y、sn、cs、ba、th、u、nb、zr、堿金屬總量、v/cr、li+rb+cs、li/sc、v/sc、na/li、cs/ga;
4、步驟s2、數(shù)據(jù)搜集與清理;具體包括以下步驟:
5、步驟s21、搜集包含微量元素?cái)?shù)據(jù)的祖母綠文獻(xiàn);
6、步驟s22、根據(jù)文獻(xiàn)內(nèi)容確定確定產(chǎn)地信息;
7、步驟s23、根據(jù)文獻(xiàn)給出的紫外-可見(jiàn)光-近紅外光譜確定光譜樣式;
8、步驟s24、提取文獻(xiàn)中的微量元素含量數(shù)據(jù);
9、步驟s25、檢查基礎(chǔ)的微量元素?cái)?shù)據(jù)是否符合祖母綠的成分含量范圍,并剔除異常數(shù)據(jù),再根據(jù)微量元素含量數(shù)據(jù)計(jì)算元素之間的比值或加和;
10、步驟s26、為檢查數(shù)據(jù)檢測(cè)限和完成初步數(shù)據(jù)清洗;
11、步驟s3、特征選取:祖母綠產(chǎn)地鑒別的7種常用元素包括li、rb、cs、fe、sc、ga、v、cr;但基于機(jī)器學(xué)習(xí)算法強(qiáng)大的高維數(shù)據(jù)挖掘能力,祖母綠中高于檢測(cè)限的13種微量和痕量元素以及7種常用化學(xué)參數(shù)被用于模型訓(xùn)練,包括li、na、mg、k、sc、v、cr、mn、fe、zn、ga、rb、cs、alkali、v/cr、li+rb+cs、li/sc、v/sc、na/li、cs/ga,基于主成分分析pca的載荷箭頭所顯示的原始特征與主成分之間關(guān)系,制定特征選取策略;載荷箭頭代表原始特征向量,根據(jù)其在主成分pc1和pc2上的投影長(zhǎng)度顯示其對(duì)主成分變量的貢獻(xiàn),同時(shí)結(jié)合全特征模型的特征權(quán)重排行,初步確定原始特征與機(jī)器學(xué)習(xí)模型的相關(guān)性,逐步減去排名靠后的弱相關(guān)原始特征;
12、步驟s4、算法選擇與模型性能評(píng)估:
13、選擇隨機(jī)森林算法基于決策樹(shù)算法,采用集成策略,主要用于分類(lèi)和回歸任務(wù);
14、混淆矩陣計(jì)算模型性能評(píng)估指標(biāo),包括準(zhǔn)確率、精確率、召回率和f1分?jǐn)?shù);
15、步驟s5、機(jī)器學(xué)習(xí):
16、步驟s5-1、數(shù)據(jù)預(yù)處理和分割:
17、完成數(shù)據(jù)清洗和特征選取后的數(shù)據(jù)集輸入進(jìn)行數(shù)據(jù)預(yù)處理,空值超過(guò)20%的特征將被被舍棄,剩余空值被填充為10-6;使用standardscaler對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,并使用labelencoder將標(biāo)簽數(shù)字化;預(yù)處理后的數(shù)據(jù)被分為80%訓(xùn)練集和20%測(cè)試集以供模型訓(xùn)練;
18、步驟s5-2、隨機(jī)森林模型
19、通過(guò)構(gòu)建多棵決策樹(shù)來(lái)進(jìn)行分類(lèi)或回歸,在構(gòu)建每棵決策樹(shù)時(shí),隨機(jī)森林會(huì)隨機(jī)選擇特征和樣本進(jìn)行訓(xùn)練,在決策樹(shù)的節(jié)點(diǎn)劃分過(guò)程中,利用基尼不純度公式(1)來(lái)衡量劃分后樣本的純度,即節(jié)點(diǎn)中樣本屬于不同類(lèi)別的混合程度;最終,通過(guò)投票的方式組合多棵樹(shù)的結(jié)果,來(lái)進(jìn)行預(yù)測(cè)或分類(lèi);
20、?(1)
21、其中,c?是類(lèi)別集合,pk是樣本屬于第?k?個(gè)類(lèi)別的概率。
22、采用了五折交叉驗(yàn)證來(lái)訓(xùn)練模型,訓(xùn)練集被分成五個(gè)大小相等的部分,其中四個(gè)子集用于訓(xùn)練機(jī)器學(xué)習(xí)模型,剩下的子集用于驗(yàn)證和分類(lèi)評(píng)估;該過(guò)程重復(fù)五次,每次驗(yàn)證的折疊都不同,輸出得分代表所有五次預(yù)測(cè)的平均值;
23、步驟s5-3、模型參數(shù)調(diào)優(yōu)和模型分?jǐn)?shù):
24、調(diào)節(jié)的參數(shù)包括:“n_estimators”、“max_depth”、“min_samples_leaf”和“min_samples_split”;“n_estimators”的取值范圍為100~200,步長(zhǎng)為10,“max_depth”的取值范圍為5~30,步長(zhǎng)為1;“min_samples_leaf”的取值范圍為1~10,步長(zhǎng)為1;“min_samples_split”的取值范圍為2~22,步長(zhǎng)為1;將每種參數(shù)的取值進(jìn)行組合得到參數(shù)調(diào)優(yōu)矩陣,參數(shù)矩陣中具有57200種參數(shù)組合;網(wǎng)格搜索遍歷參數(shù)矩陣中的每一種參數(shù)組合可能,每次獲取一種參數(shù)組合后訓(xùn)練對(duì)應(yīng)的候選模型;在使用f1分?jǐn)?shù)作為評(píng)估指標(biāo)時(shí),使用網(wǎng)格搜索計(jì)算每個(gè)候選模型的f1分?jǐn)?shù),并選出得分最高的模型;該模型被認(rèn)為是最優(yōu)模型,所使用的參數(shù)為最優(yōu)超參數(shù);
25、步驟s6、模型驗(yàn)證和應(yīng)用:
26、使用上述最優(yōu)模型預(yù)測(cè)預(yù)置的測(cè)試集并獲得預(yù)測(cè)結(jié)果;預(yù)測(cè)以混淆矩陣的形式展示,基于混淆矩陣計(jì)算上述評(píng)估指標(biāo)來(lái)評(píng)價(jià)模型性能。
27、作為優(yōu)選方案,步驟s25中化學(xué)參數(shù)的選擇基于祖母綠產(chǎn)地鑒別的先驗(yàn)知識(shí)包括堿金屬總量、v/cr、li+rb+cs、li/sc、v/sc、na/li、cs/ga。
28、作為優(yōu)選方案,步驟s26中清洗的流程包括:1)根據(jù)祖母綠化學(xué)成分先驗(yàn)知識(shí)檢查異常值;2)檢查并替換非數(shù)值型數(shù)據(jù);3)統(tǒng)一空值表示方法為空;最后將清洗后的數(shù)據(jù)按照上文中數(shù)據(jù)庫(kù)的構(gòu)成分類(lèi)填寫(xiě)入庫(kù)。
29、進(jìn)一步地,非數(shù)值型數(shù)據(jù),包括bdl、b.d.、nd、<>、()。
30、作為優(yōu)選方案,步驟s2中祖母綠微量元素?cái)?shù)據(jù)使用193?nm激光燒蝕系統(tǒng)和四級(jí)桿質(zhì)譜計(jì)進(jìn)行原位測(cè)試;ar和he作為載氣;激光器采用10hz脈沖速率,光斑直徑為35μm;能量密度約為9?j/cm2;采用nist-srm?610和612玻璃標(biāo)準(zhǔn)物質(zhì)作為外標(biāo),29si作為內(nèi)標(biāo);使用iolite軟件進(jìn)行數(shù)據(jù)處理。
31、本發(fā)明由于采用了以上技術(shù)方案,與現(xiàn)有技術(shù)相比使其具有以下有益效果:傳統(tǒng)祖母綠產(chǎn)地鑒別方法中,用于鑒別產(chǎn)地的特征包裹體隨產(chǎn)地增加出現(xiàn)大范圍重疊,例如,鋸齒狀三相包裹體在哥倫比亞、阿富汗panjshir、中國(guó)和贊比亞musakashi都可能出現(xiàn);針狀、管狀、矩形兩相流體包裹體和云母片在贊比亞kafubu、巴西、俄羅斯malysheva、埃塞俄比亞shakiso祖母綠中廣泛存在。這些曾經(jīng)可以作為產(chǎn)地特征的包裹體效用急劇減弱。寶石學(xué)家和實(shí)驗(yàn)室檢測(cè)人員逐漸傾向于使用化學(xué)指紋來(lái)區(qū)分不同產(chǎn)地的祖母綠,但目前的研究現(xiàn)狀局限于使用低維(二維或三維)的成分或參數(shù)進(jìn)行投圖。因而導(dǎo)致不同的產(chǎn)地組合需要使用不同的圖解,目前已經(jīng)報(bào)道的圖解超過(guò)28種。顯然,這為產(chǎn)地鑒別的實(shí)際操作帶來(lái)了困擾。
32、另一方面,傳統(tǒng)的低維投圖隨著成分?jǐn)?shù)據(jù)量的激增效力也逐漸減弱。在大尺度多產(chǎn)地的數(shù)據(jù)庫(kù)的基礎(chǔ)上,低維投圖出現(xiàn)大范圍重疊,產(chǎn)地鑒別的準(zhǔn)確率極低。本研究中使用雙元素的rf模型的性能評(píng)分也印證了該情況。即使rf模型的效能遠(yuǎn)大于傳統(tǒng)二維散點(diǎn)圖,鑒別的準(zhǔn)確率仍然低至0.660。
33、相較而言,祖母綠產(chǎn)地鑒別rf模型具有以下優(yōu)點(diǎn):1)高準(zhǔn)確率,性能最佳的模型rf-em-2-18的總準(zhǔn)確率達(dá)0.959,f1分?jǐn)?shù)為0.961,其中6個(gè)產(chǎn)地識(shí)別率為100%;2)高效率,rf模型對(duì)單個(gè)數(shù)據(jù)的預(yù)測(cè)時(shí)間在毫秒級(jí)遠(yuǎn)高于人工投圖;3)廣譜性,該模型適用于13個(gè)祖母綠產(chǎn)地且對(duì)操作人員要求寬松,無(wú)需豐富的先驗(yàn)知識(shí),僅需按要求導(dǎo)入成分?jǐn)?shù)據(jù)即可。
34、綜上,基于隨機(jī)森林算法的祖母綠產(chǎn)地鑒別模型成功使用了人工智能和大數(shù)據(jù)為寶石學(xué)產(chǎn)地研究和寶石檢測(cè)技術(shù)賦能,是對(duì)寶石實(shí)驗(yàn)室產(chǎn)地鑒別技術(shù)的開(kāi)創(chuàng)性拓展。
35、本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述部分中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。