本發(fā)明屬于地質勘探技術領域,具體為基于機器學習的找礦模型預測方法。
背景技術:
模型或模式在地球科學中應用已越來越廣泛,普遍受到廣大地質工作者的重視。美國地質學家惠頓指出,模型的引入是地質科學三大成果之一。自從斑巖礦床模式的成功建立以來,許多模式相繼問世,如石油生油模式、地球化學分帶模型、卡林型金礦模式、粉巖成礦模式等。成礦模式、找礦模型的建立,促進了地質勘查工作的深入開展,豐富了礦床成礦理論。成礦模式在地質認識上的重大突破往往會對找礦工作產(chǎn)生重要影響。美國密西西比鉛鋅礦、馬祖銅鉬礦床,我國的水口山鉛鋅礦,在成礦模式上的新認識,使得找礦工作取得重大突破。隨著找礦難度增大,模式找礦就具有特別重要的意義。趙鵬大教授強調用數(shù)學地質方法研究礦床的統(tǒng)計性找礦標志,以建立統(tǒng)計找礦模型。王世稱教授倡導從綜合信息成礦分析出發(fā),建立綜合找礦模型。此外,還有一些專家學者孫文柯、胡惠民等對找礦模型進行過論述,對今后建模工作打下了理論基礎。已建立起的一些綜合找礦模型,如貓嶺金礦等,在實際工作中發(fā)揮了一定作用。但目前建模的理論方法還處于探索階段。
2000年以來,不同領域都迎來了數(shù)據(jù)信息大規(guī)模的增長,據(jù)idc報告稱:2015全球數(shù)據(jù)總量約7.9zb,2020年的時候,全球的數(shù)據(jù)總量將達到40zb,全球數(shù)據(jù)量大約每兩年翻一番,而且這個速度在2020年之前還會繼續(xù)保持下去。麥肯錫(美國首屈一指的咨詢公司)是研究大數(shù)據(jù)的先驅。在其報告《bigdata:thenextfrontierforinnovation,competition,andproductivity》中給出的大數(shù)據(jù)定義是:大數(shù)據(jù)指的是數(shù)據(jù)集的大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理能力。但它同時強調,同時也強調說大數(shù)據(jù)并沒有一個特定大小,比如一定要超過多少tb的數(shù)據(jù)集才算是大數(shù)據(jù)。在地質科學領域,地質科學大數(shù)據(jù)作為一種時空大數(shù)據(jù),其擁有大數(shù)據(jù)的四個基本特征:即海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系(velocity)、多樣的數(shù)據(jù)類型(variety)、巨大的數(shù)據(jù)價值(value)。在此背景下,為了應對挑戰(zhàn),需要在地質科學領域引進大數(shù)據(jù)理論,方法和技術,開展對地質科學大數(shù)據(jù)的統(tǒng)合和利用。
隨著大數(shù)據(jù)技術在全球發(fā)展迅猛,掀起了對大數(shù)據(jù)巨大的研究熱潮。在大數(shù)據(jù)時代,對信息量極大的數(shù)據(jù)來說,數(shù)據(jù)分析過程是數(shù)據(jù)處理的關鍵性環(huán)節(jié)。大數(shù)據(jù)分析處理主要分為兩大類。簡單分析主要是使用傳統(tǒng)關系型數(shù)據(jù)庫的聯(lián)機分析處理技術和方法,通過使用sql語句完成各種查詢、統(tǒng)計分析;而大數(shù)據(jù)的深度價值僅通過簡單分析是難以發(fā)現(xiàn)的,通常需要使用基于機器學習和數(shù)據(jù)挖掘的智能化復雜分析才能實現(xiàn)。作為人工智能中的重要研究領域,機器學習通過計算機模擬人的學習行為來學習獲取知識,不斷完善自我知識體系。大數(shù)據(jù)機器學習不僅是一個單純的機器學習問題,更是一個大規(guī)模的復雜系統(tǒng)問題,是一個同時涉及機器學習和大數(shù)據(jù)處理兩個領域的交叉研究課題。在此背景下,結合地質科學時空大數(shù)據(jù),找礦模型預測新方法新技術應實現(xiàn)地質科學、大數(shù)據(jù)、機器學習等技術的結合,地質大數(shù)據(jù)找礦模型預測機器學習理念應用而生。
隨著找礦難度增大,模式找礦就具有特別重要的意義。趙鵬大教授強調用數(shù)學地質方法研究礦床的統(tǒng)計性找礦標志,以建立統(tǒng)計找礦模型。王世稱教授倡導從綜合信息成礦分析出發(fā),建立綜合找礦模型。此外,還有一些專家學者孫文柯、胡惠民等對找礦模型進行過論述,對今后建模工作打下了理論基礎。已建立起的一些綜合找礦模型,如貓嶺金礦等,在實際工作中發(fā)揮了一定作用。
還有就是將地質找礦工作與計算機結合所形成的專家系統(tǒng)。專家系統(tǒng)在一定程度上能實現(xiàn)找礦工作的智能化,但現(xiàn)有的專家系統(tǒng)存在所建立的模型不夠全面客觀,而且已有的專家系統(tǒng)模型有限,所建立的系統(tǒng)無法更新等問題。
總結前人研究成果,目前建模的理論方法還處于探索階段,現(xiàn)有的找礦模型建立主要是在分析研究區(qū)資料的基礎上,地質人員根據(jù)自己的知識經(jīng)驗來建立的,這樣所建立的找礦模型帶有一定主觀性和認識上的局限性,不同地質人員所建立的找礦模型可能會有所不同。
技術實現(xiàn)要素:
針對上述技術問題,本發(fā)明提供一種基于機器學習的找礦模型預測方法,具體的技術方案為:
基于機器學習的找礦模型預測方法,包括以下過程:
1、建立找礦概念模型庫
在構建找礦概念預測模型時,需要整理模型名稱以及所有控礦要素,建立統(tǒng)一的礦床成礦模式或礦床式的成礦模式;
2、找礦模型的確定
(1)模型的粗篩選
根據(jù)研究區(qū)的勘探程度和所收集到的資料,提取出所有控礦要素的關鍵詞,然后采用關鍵詞匹配法,將提取出的關鍵詞與構建的找礦概念模型庫中的關鍵詞進行匹配,關鍵詞包括模型名稱的關鍵詞和控礦要素的關鍵詞;篩選出與研究區(qū)相關的m個找礦概念模型m1,m2,…,mm,每個模型所對應的控礦要素分別為f1,f2,…,fm;
(2)找礦模型的最終確定
①計算控礦要素的重要性
根據(jù)篩選出的m個找礦概念模型m1,m2,…,mm,每個模型所對應的控礦要素分別為f1,f2,…,fm;對于第i個模型,在控礦要素數(shù)據(jù)清洗過程中按控礦地質條件類別的不同分為ci類,將所有控礦要素按照控礦地質條件類別統(tǒng)計,每類所對應的控礦要素個數(shù)分別為
由于一個控礦要素可能出現(xiàn)在多個模型中,所以對于研究區(qū)中任意一個控礦要素,將其在每個模型中的重要性pij加起來得到這個控礦要素的最終重要素指標;
②計算控礦要素的使用率
根據(jù)篩選出的m個找礦概念模型m1,m2,…,mm,每個模型所對應的控礦要素的個數(shù)分別為n1,n2,…,nm,共計h個,n1+n2+…+nm=h,則可得某個控礦要素的使用率fi為:
③確定最佳找礦概念模型
最佳找礦概念模型的確定是通過樸素貝葉斯方法以找礦概念模型庫中的現(xiàn)有數(shù)據(jù)作為訓練樣本,以研究區(qū)的控礦要素作為待處理數(shù)據(jù),計算對研究區(qū)控礦要素的條件概率,判斷其屬于模型庫中每個模型的概率;
假設篩選出m個找礦概念模型y1,y2,…,ym,記為y,每個模型所對應的控礦要素分別為f1,f2,…,fm;研究區(qū)內收集到n個控礦要素,將這些屬性作為一個向量,記為x,有:
y={y1,y2,…,ym}(3)
x={x1,x2,…,xn}(4)
最佳找礦概念模型的確定是將研究劃分到某個找礦概念模型中,即將其歸類成概率值最大的那一類,求解x={x1,x2,…,xn}在樣本類別集合y={y1,y2,…,ym}中的概率值(p1,p2,…,pm),其中pi為x屬于類別yi的概率,找到最大值max(pi)即為最佳的找礦概念模型。
假設第i個找礦概念模型有ki個控礦要素,記為fi:
因此,m個找礦概念模型中共有h個控礦要素:
通過上述公式可知,每個找礦概念模型所對應先驗概率p(yi)為:
記研究區(qū)中第j(1≤j≤n)個控礦要素在第i(1≤i≤m)個找礦概念模型yi概率為p(xj|yi),由于各個控礦要素是條件獨立的,則根據(jù)貝葉斯定理可得:
可得到研究區(qū)屬于m個找礦概念模型的概率p(yi|x);在求解式子(8)時,分母對于所有類別為常數(shù),將分子最大化皆可;各個控礦要素是條件獨立的,所以有:
max(p(yi|x))就為最佳的找礦概念模型。
④模型的驗證
為了驗證系統(tǒng)計算的正確性,通過在找礦概念模型數(shù)據(jù)庫選取一個模型,刪除掉其中幾個控礦要素,如果模型匹配結果中有刪除掉的控礦要素,即所采用的找礦概念模型的確定方法是可靠的,否則計算結果是不可靠的。
在大數(shù)據(jù)時代的背景下,采用機器學習的方法來建立研究區(qū)的找礦模型。礦床模型是找礦勘查的理論基礎。礦床模型(包括成礦模型和找礦模型)是礦床形成的地質背景、過程、時空分布規(guī)律和找礦標志的高度概括。在找礦模型預測研究方面,大數(shù)據(jù)機器學習不只是利用海量的地質數(shù)據(jù)和多樣的數(shù)據(jù)類型,確定出找礦模型,更重要的是對這些現(xiàn)有找礦模型數(shù)據(jù)進行專業(yè)化處理,形成了數(shù)據(jù)-信息-知識-產(chǎn)業(yè)-科研-創(chuàng)新-財富-服務-再數(shù)據(jù)的完整大數(shù)據(jù)鏈。
基于機器學習的找礦模型預測方法就是以礦床成礦理論作為理論依據(jù),在總結和研究礦床模型的基礎上綜合研究區(qū)各類勘查數(shù)據(jù)資料、文獻資料,系統(tǒng)研究控制礦床形成的條件和關鍵因素,在此基礎上開展找礦模型預測工作??偨Y為,通過搜集國內外各類找礦模型,建立起統(tǒng)一且容易區(qū)分的找礦概念模型庫,以各研究區(qū)的勘查數(shù)據(jù)資料為基礎,通過機器學習將找礦概念模型庫中現(xiàn)有國內外找礦模型及控礦要素與研究區(qū)數(shù)據(jù)資料進行分析和歸納,構建找礦預測模型,將找礦預測模型中控礦要素確定后,依據(jù)研究區(qū)范圍提供數(shù)據(jù)資料整理清單,完善找礦概念模型的數(shù)據(jù)基礎,依據(jù)立方體定量預測系統(tǒng)中總結出的算法,推薦控礦要素適合的算法組合,最終在找礦概念預測模型的基礎上,實現(xiàn)定量、定位和定概率的預測評價。
與根據(jù)地質人員知識經(jīng)驗(或專家系統(tǒng))來建立找礦模型的方法相比,本發(fā)明提供的基于機器學習的找礦模型預測方法,更為全面客觀,不斷將找礦概念模型加入到模型庫中,完善找礦概念模型庫的數(shù)據(jù)基礎,使所確定的找礦概念模型越來越準確,所建立的模型更符合實際情況。
本發(fā)明提供的基于機器學習的找礦模型預測方法,能快速建立起某研究區(qū)的找礦模型,且所建立的找礦模型更為全面客觀,更符合實際情況。隨著找礦概念模型庫的豐富,基于機器學習的找礦模型預測方法還能進一步提高所建立的模型的準確性,為研究區(qū)下一步的找礦工作提供依據(jù)。
附圖說明
圖1為本發(fā)明的流程圖。
具體實施方式
結合實施例說明本發(fā)明的具體實施方式。
基于機器學習的找礦模型預測方法就是以礦床成礦理論作為理論依據(jù),在總結和研究礦床模型的基礎上綜合研究區(qū)各類勘查數(shù)據(jù)資料,文獻資料,系統(tǒng)分析控制礦床形成的條件和關鍵因素,以此開展找礦模型預測工作。其主要流程可總結為,通過搜集國內外各類找礦模型,建立起統(tǒng)一且容易區(qū)分的找礦概念模型庫;以研究區(qū)所收集到的數(shù)據(jù)資料為基礎,計算每個控礦要素的重要性和使用率兩個指標,通過樸素貝葉斯方法確定研究區(qū)的找礦概念模型,并將確定的找礦概念模型加入到模型庫中,完善找礦概念模型庫的數(shù)據(jù)基礎,使所確定的找礦概念模型越來越準確?;跈C器學習找礦模型預測流程圖如圖1所示。
1、建立找礦概念模型庫
由于資料來源不同及資料的成礦地質條件和勘查程度存在差異,造成了在建立找礦模型時,會出現(xiàn)結果不統(tǒng)一的情況,如同一名稱屬于不同概念,而不同名稱又屬于同一內涵。因此,在構建找礦概念預測模型時,需要整理模型名稱以及所有控礦要素,建立統(tǒng)一的礦床成礦模式或礦床式的成礦模式。
找礦模型數(shù)據(jù)的整理主要包括兩個方面:模型名稱和控礦要素的整理。模型名稱一般可分為兩類,一類是典型礦床式命名,例如山東焦家金礦;另一種是抽象總結式命名,例如巖漿巖型稀土礦。這兩種模型名稱在數(shù)據(jù)整理過程中無法統(tǒng)一,因此,只能做到盡量將其中的關鍵詞及其他非關鍵字符統(tǒng)一。在控礦要素的整理過程中,必須保證每一個控礦要素的唯一性。表1為構建的基性-超基性巖型銅鎳(銀鉻)礦的找礦概念模型。
表1基性-超基性巖型銅鎳(銀鉻)礦的找礦概念模型
2、找礦模型的確定
(1)模型的粗篩選
根據(jù)研究區(qū)的勘探程度和所收集到的資料,提取出所有控礦要素的關鍵詞,然后采用關鍵詞匹配法,將提取出的關鍵詞與構建的找礦概念模型庫中的關鍵詞(包括模型名稱的關鍵詞和控礦要素的關鍵詞)進行匹配,篩選出與研究區(qū)相關的m個找礦概念模型m1,m2,…,mm,每個模型所對應的控礦要素分別為f1,f2,…,fm。
(2)找礦模型的最終確定
①計算控礦要素的重要性
根據(jù)篩選出的m個找礦概念模型m1,m2,…,mm,每個模型所對應的控礦要素分別為f1,f2,…,fm。對于第i個模型,在控礦要素數(shù)據(jù)清洗過程中按控礦地質條件類別的不同分為ci類,將所有控礦要素按照控礦地質條件類別統(tǒng)計,每類所對應的控礦要素個數(shù)分別為
由于一個控礦要素可能出現(xiàn)在多個模型中,所以對于研究區(qū)中任意一個控礦要素,將其在每個模型中的重要性pij加起來得到這個控礦要素的最終重要素指標。
②計算控礦要素的使用率
根據(jù)篩選出的m個找礦概念模型m1,m2,…,mm,每個模型所對應的控礦要素的個數(shù)分別為n1,n2,…,nm,共計h(n1+n2+…+nm=h)個,則可得某個控礦要素的使用率fi為:
③確定最佳找礦概念模型
最佳找礦概念模型的確定是通過樸素貝葉斯方法以找礦概念模型庫中的現(xiàn)有數(shù)據(jù)作為訓練樣本,以研究區(qū)的控礦要素作為待處理數(shù)據(jù),計算對研究區(qū)控礦要素的條件概率,,判斷其屬于模型庫中每個模型的概率。假設篩選出m個找礦概念模型y1,y2,…,ym,記為y,每個模型所對應的控礦要素分別為f1,f2,…,fm;研究區(qū)內收集到n個控礦要素,將這些屬性作為一個向量,記為x,所以有:
y={y1,y2,…,ym}(3)
x={x1,x2,…,xn}(4)
最佳找礦概念模型的確定是將研究劃分到某個找礦概念模型中,即將其歸類成概率值最大的那一類。因此也就是求解x={x1,x2,…,xn}在樣本類別集合y={y1,y2,…,ym}中的概率值(p1,p2,…,pm),其中pi為x屬于類別yi的概率,只要找到最大值max(pi)就是最佳的找礦概念模型。
假設第i個找礦概念模型有ki個控礦要素,記為fi:
因此,m個找礦概念模型中共有h個控礦要素:
通過上述公式可知,每個找礦概念模型所對應先驗概率p(yi)為:
我們記研究區(qū)中第j(1≤j≤n)個控礦要素在第i(1≤i≤m)個找礦概念模型yi概率為p(xj|yi),由于各個控礦要素是條件獨立的,則根據(jù)貝葉斯定理可得:
由此,我們可得到研究區(qū)屬于m個找礦概念模型的概率p(yi|x)。在求解式子(8)時,因為分母對于所有類別為常數(shù),因為我們只要將分子最大化皆可。又因為各個控礦要素是條件獨立的,所以有:
因此,我們根據(jù)max(p(yi|x))就可最佳的找礦概念模型。
④模型的驗證
為了驗證系統(tǒng)計算的正確性,通過在找礦概念模型數(shù)據(jù)庫選取一個模型,刪除掉其中幾個控礦要素,如果模型匹配結果中有刪除掉的控礦要素,即我們所采用的找礦概念模型的確定方法是可靠的,否則計算結果是不可靠的。