本發(fā)明涉及巖性識別,具體涉及一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法。
背景技術:
1、隨鉆測量(mwd)技術能夠實時測量鉆進過程中鉆機的運行參數(shù),從而為巖體特性提供具體信息。利用隨鉆測量參數(shù)進行巖性識別是一種綜合性技術,具有高精度、多信息、集成化等特點,可顯著提高識別效率。多年來,隨鉆測試技術已被廣泛應用于巖體開挖過程。歷經(jīng)多年發(fā)展隨鉆測試技術逐步完善,推動了數(shù)據(jù)采集的實時性及鉆進參數(shù)與巖性之間表征研究的進程。在揭示鉆進數(shù)據(jù)與巖體特征關系方面,主要從方法和判別目標兩個方面總結。在方法層面,國內(nèi)外學者進行了大量探索。值得注意的是,目前基于ml的巖石特征研究中,數(shù)據(jù)不平衡問題受到越來越多的關注。由于實際地質條件中巖類分布具有不確定性,不同巖石的樣本數(shù)量不可避免地會失衡。當類標簽不平衡時,主要采用兩種思路來規(guī)避該現(xiàn)象,即通過上采樣增加少數(shù)樣本或下采樣減少多數(shù)樣本。來進行深入分析。然而,一些研究通過將少數(shù)類樣本擴充至與多數(shù)類樣本數(shù)量一致來處理。這在一定程度上可緩解數(shù)據(jù)不平衡并提高預測性能。然而,當類標簽數(shù)量高度失衡時,簡單地使兩類樣本數(shù)量一致可能導致預測結果不可靠。
技術實現(xiàn)思路
1、針對現(xiàn)有技術中的上述不足,本發(fā)明提供的一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法解決了現(xiàn)有技術無法有效緩解數(shù)據(jù)不平衡導致的預測精度和可靠程度低的問題。
2、為了達到上述發(fā)明目的,本發(fā)明采用的技術方案為:
3、提供了一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其包括以下步驟:
4、s1、實時采集待識別的新奧法隧道的掘進過程的隨鉆測量mwd數(shù)據(jù),即多維不平衡數(shù)據(jù);
5、s2、對多維不平衡數(shù)據(jù)進行預處理,得到預處理后的多維不平衡數(shù)據(jù);
6、s3、采用adasyn過采樣算法對預處理后的多維不平衡數(shù)據(jù)進行處理,得到過采樣后的mwd數(shù)據(jù);
7、s4、構建巖性識別模型;
8、s5、將過采樣后的mwd數(shù)據(jù)輸入至巖性識別模型進行處理,得到巖性識別結果。
9、進一步地,步驟s1中的多維不平衡數(shù)據(jù)包括鉆孔深度、推進速度、沖擊壓力、推進壓力、回轉壓力、水壓力和水流量。
10、進一步地,步驟s3包括以下步驟:
11、s3-1、將預處理后的多維不平衡數(shù)據(jù)作為樣本數(shù)據(jù),并統(tǒng)計每類樣本數(shù)據(jù)的數(shù)據(jù)量;
12、s3-2、判斷每類樣本數(shù)據(jù)的數(shù)據(jù)量是否小于數(shù)量閾值;若是則判定該類樣本數(shù)據(jù)為少數(shù)類別樣本;反之則判定該類樣本數(shù)據(jù)為多數(shù)類別樣本;
13、s3-3、采用k近鄰算法在少數(shù)類別樣本構成的少數(shù)類數(shù)據(jù)空間中確定各少數(shù)類別樣本對應的k個最近鄰樣本數(shù)據(jù);
14、s3-4、根據(jù)公式:
15、
16、得到各少數(shù)類別樣本的密度ri;其中,ni表示第i個最近鄰樣本數(shù)據(jù),k表示最近鄰樣本數(shù)據(jù)總數(shù);
17、s3-5、根據(jù)公式:
18、
19、得到需要生成的合成樣本數(shù)量gi;其中,nmaj表示多數(shù)類別樣本數(shù)據(jù)總量,nmin表示少數(shù)類別樣本數(shù)據(jù)總量,β表示生成新樣本的比例,∑(·)表示求和函數(shù);
20、s3-6、基于需要生成的合成樣本數(shù)量gi,通過隨機線性插值對各少數(shù)類別樣本生成對應的合成樣本;
21、s3-7、分別合并各少數(shù)類別樣本和對應的合成樣本;
22、其中,過采樣后的mwd數(shù)據(jù)包括多數(shù)類別樣本和合并后的少數(shù)類別樣本。
23、進一步地,步驟s4中的巖性識別模型采用xgboost模型。
24、進一步地,巖性識別模型的訓練過程包括以下步驟:
25、s5-1、獲取訓練多維不平衡數(shù)據(jù)及其標簽,采用與步驟s3相同的方法進行過采樣,得到過采樣后的訓練mwd數(shù)據(jù);
26、s5-2、利用gs網(wǎng)格搜索法對xgboost模型的超參數(shù)進行處理,得到對應的超參數(shù)組合方案;
27、s5-3、隨機選取一個超參數(shù)組合并應用至xgboost模型,得到對應的初始xgboost模型;
28、s5-4、將過采樣后的訓練mwd數(shù)據(jù)輸入至初始xgboost模型并采取十折交叉驗證進行處理,得到十個初始指標數(shù)據(jù)值,即macrof1值;
29、s5-5、計算十個初始指標數(shù)據(jù)值的指標均值;
30、s5-6、重復步驟s5-3至步驟s5-6,直至得到所有超參數(shù)組合對應的指標均值;
31、s5-7、基于各個指標均值,選取最佳超參數(shù);
32、s5-8、基于最佳超參數(shù)調(diào)整初始訓練xgboost模型的參數(shù),得到訓練優(yōu)化后的gs-adasyn-xgboost模型。
33、進一步地,gs網(wǎng)格搜索法的具體過程為:
34、確定xgboost模型的待優(yōu)化超參數(shù);設置待優(yōu)化超參數(shù)的取值范圍,并對待優(yōu)化超參數(shù)的取值進行排列組合,生成超參數(shù)網(wǎng)格;初始化xgboost模型并設置初始超參數(shù);利用gridsearchcv法對參數(shù)網(wǎng)格進行網(wǎng)格搜索,得到對應的超參數(shù)組合方案。
35、進一步地,步驟s5-4包括以下步驟:
36、s5-4-1、將過采樣后的訓練mwd數(shù)據(jù)分為十個子集;
37、s5-4-2、隨機選擇一個子集作為驗證子集,其余九個子集作為訓練子集;
38、s5-4-3、將訓練子集及其標簽輸入至初始xgboost模型進行訓練,得到訓練后的初始xgboost模型;
39、s5-4-4、將驗證子集輸入至訓練后的初始xgboost模型,得到對應的訓練識別結果;
40、s5-4-5、基于訓練識別結果計算對應的初始指標數(shù)據(jù)值;
41、s5-4-6、重復步驟s5-4-2至步驟s5-4-5直至得到十個初始指標數(shù)據(jù)值。
42、進一步地,步驟s5-1中的標簽為安山巖、混合安山-砂巖、白云巖、砂巖、粉砂質頁巖、青泥巖,分別設置為類別0、類別1、類別2、類別3、類別4、類別5。
43、本發(fā)明的有益效果為:本方法采用adasyn過采樣方法對隨鉆測量mwd數(shù)據(jù)進行處理,解決了隨鉆測量mwd數(shù)據(jù)的多維數(shù)據(jù)不平衡問題;且利用網(wǎng)格搜索算法對巖性識別模型進行超參數(shù)優(yōu)化,進一步提升了識別模型的泛性能力和識別能力;選取優(yōu)化后的gs-adasyn-xgboost對隨鉆測量mwd數(shù)據(jù)進行分類,可以有效提高識別結果的準確性。
1.一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:包括以下步驟:
2.根據(jù)權利要求1所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述步驟s1中的多維不平衡數(shù)據(jù)包括鉆孔深度、推進速度、沖擊壓力、推進壓力、回轉壓力、水壓力和水流量。
3.根據(jù)權利要求1所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述步驟s3包括以下步驟:
4.根據(jù)權利要求2或3所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述步驟s4中的巖性識別模型采用xgboost模型。
5.根據(jù)權利要求4所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述巖性識別模型的訓練過程包括以下步驟:
6.根據(jù)權利要求5所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述gs網(wǎng)格搜索法的具體過程為:
7.根據(jù)權利要求5所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述步驟s5-4包括以下步驟:
8.根據(jù)權利要求5所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅動識別方法,其特征在于:所述步驟s5-1中的標簽為安山巖、混合安山-砂巖、白云巖、砂巖、粉砂質頁巖、青泥巖,分別設置為類別0、類別1、類別2、類別3、類別4、類別5。