本發(fā)明涉及隧道掘進(jìn)機(jī)技術(shù)領(lǐng)域,具體的說涉及一種基于數(shù)據(jù)驅(qū)動支持向量回歸機(jī)的TBM刀具壽命預(yù)測方法。
背景技術(shù):
隨著城市的快速發(fā)展,地鐵作為立體交通的重要組成部分,成為解決城市擁堵的有效方式,擁有巨大的發(fā)展?jié)摿Α3鞘械刭|(zhì)條件一般呈現(xiàn)多樣性,針對硬巖隧道施工的全斷面隧道掘進(jìn)機(jī)(Tunnel Boring Machine,TBM),是集開挖、支護(hù)、出渣于一體的成套先進(jìn)掘進(jìn)設(shè)備,施工過程中刀具消耗巨大,而且更換刀具耗時耗力影響工期,能否縮短更換刀具的時間成為高效利用TBM的重要因素。對每把刀具磨損做準(zhǔn)確預(yù)測,能夠為TBM施工方找到節(jié)約成本的著力點,彌補(bǔ)TBM刀具壽命預(yù)測和刀具調(diào)度方面理論的不足。
影響刀具磨損的因素復(fù)雜,主要分為靜態(tài)因素和動態(tài)因素兩大方面,靜態(tài)因素包括刀具的成分、刀具的形狀、安裝的角度等,動態(tài)因素包括實際地質(zhì)因素和人員操作因素等。當(dāng)前國內(nèi)外對TBM刀具磨損的研究,只是從力學(xué)和制作材料方面進(jìn)行了研究,在動態(tài)因素研究方面沒有實際的進(jìn)展。而在實際中一旦TBM制造出來,靜態(tài)因素我們是無法改變的,因此研究實際地質(zhì)因素和人員操作因素對刀具磨損具有非常重要的實際意義。
技術(shù)實現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提供一種基于數(shù)據(jù)驅(qū)動支持向量回歸機(jī)的TBM刀具壽命預(yù)測方法,選用大量現(xiàn)場挖掘的數(shù)據(jù)作為參變量,并在此基礎(chǔ)上構(gòu)建了基于支持向量回歸機(jī)的模型,提高了預(yù)測道具壽命的精度。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種基于數(shù)據(jù)驅(qū)動支持向量回歸機(jī)的TBM刀具壽命預(yù)測方法,包括如下步驟:
(1)收集TBM刀具挖掘現(xiàn)場的數(shù)據(jù);
(2)確定影響TBM刀具壽命的驅(qū)動因子,建立驅(qū)動因子的樣本數(shù)據(jù)集作為訓(xùn)練集;
(3)構(gòu)建多核支持向量回歸機(jī)的預(yù)測模型,輸入訓(xùn)練集,對所述預(yù)測模型進(jìn)行訓(xùn)練從而確定各核函數(shù)所對應(yīng)的最優(yōu)參數(shù)以及懲罰函數(shù)C和不敏感損失函數(shù)參數(shù)ε;
(4)確定預(yù)測模型的最佳核函數(shù);
(5)將待預(yù)測刀具的驅(qū)動因子的樣本數(shù)據(jù)集作為預(yù)測樣本集,輸入預(yù)測模型,得出預(yù)測結(jié)果。
進(jìn)一步地,所述的步驟(1)之后,步驟(2)之前還包括步驟(11)對收集的數(shù)據(jù)進(jìn)行處理,所述的處理過程包括:
(111)數(shù)據(jù)集成:把不同來源、格式、特點和性質(zhì)的數(shù)據(jù)集中起來,統(tǒng)一數(shù)據(jù)格式;
(112)數(shù)據(jù)清洗:針對施工遇到的突發(fā)狀況和數(shù)據(jù)缺失采取如下措施,
a.數(shù)據(jù)剔除:如果某刀數(shù)據(jù)出現(xiàn)數(shù)據(jù)異常的部分少于5%,則只剔除出現(xiàn)異常的部分?jǐn)?shù)據(jù),如果數(shù)據(jù)丟失超過30%,則將該刀號數(shù)據(jù)全部剔除;
b.數(shù)據(jù)補(bǔ)全:利用人工填充、均值替換的方法補(bǔ)全部分異常的數(shù)據(jù);
(113)數(shù)據(jù)均值歸一化:將數(shù)據(jù)的每個維度歸一化為均值為0、方差為1且正態(tài)分布的數(shù)據(jù)集。
進(jìn)一步地,所述步驟(2)中確定的影響TBM刀具壽命的驅(qū)動因子有里程、巖石等級、刀盤推力、刀片磨損量、刀盤轉(zhuǎn)速、掘進(jìn)速度、半徑和刀具損壞量。
進(jìn)一步地,所述步驟(2)中影響TBM刀具壽命的驅(qū)動因子是通過灰色關(guān)聯(lián)分析法對收集的數(shù)據(jù)進(jìn)行處理確定的。
進(jìn)一步地,所述步驟(4)是通過采用K-折交叉驗證增加訓(xùn)練樣本量,并利用網(wǎng)格搜索法使各組核函數(shù)的參數(shù)相互解耦從而確定該預(yù)測模型的各核函數(shù)所對應(yīng)的最優(yōu)參數(shù)。
進(jìn)一步地,所述步驟(5)中構(gòu)建的多核支持向量回歸機(jī)的預(yù)測模型的核函數(shù)包括多項式核函數(shù)、Gauss徑向基核函數(shù)和多層感知機(jī)核函數(shù)。
進(jìn)一步地,所述預(yù)測模型的最佳核函數(shù)為多層感知機(jī)核函數(shù)。
本文基于數(shù)據(jù)驅(qū)動支持向量回歸機(jī)預(yù)測模型,以挖掘數(shù)據(jù)構(gòu)建模型,彌補(bǔ)了以往只能從力學(xué)分析角度預(yù)測正常磨損導(dǎo)致刀具損壞的不足。此模型省略傳統(tǒng)建模中尋找因子關(guān)系的過程,避免了復(fù)雜關(guān)系難表達(dá)的問題,提高了預(yù)測刀具壽命的精度。為操作員安排刀具的調(diào)度提供了理論指導(dǎo),縮短了工期。本文以某市某條地鐵挖掘中的記錄數(shù)據(jù)為訓(xùn)練集,結(jié)合K-交叉檢驗與網(wǎng)格搜索尋找最優(yōu)參數(shù),最終確立的核函數(shù)為徑向基核函數(shù),預(yù)測的下一階段刀具壽命與實際數(shù)據(jù)對比,通過誤差可發(fā)現(xiàn)誤差范圍控制在4.5%以內(nèi),說明能夠用這些簡單易獲取的數(shù)據(jù)預(yù)測刀具的壽命。
附圖說明
圖1為SVR參數(shù)選擇的等高線圖;
圖2為SVR參數(shù)選擇的3D視圖;
圖3為1號刀具測試集的實際壽命和測試集預(yù)測壽命圖。
具體實施方式
下面結(jié)合具體實施方式詳細(xì)介紹本發(fā)明的內(nèi)容:
數(shù)據(jù)驅(qū)動:
數(shù)據(jù)驅(qū)動是在大數(shù)據(jù)的基礎(chǔ)上產(chǎn)生的,它需要利用大數(shù)據(jù)的技術(shù)手段,對企業(yè)海量的數(shù)據(jù)進(jìn)行分析處理,挖掘出這些海量數(shù)據(jù)的蘊(yùn)含的價值,從而指導(dǎo)企業(yè)進(jìn)行生產(chǎn)、銷售、經(jīng)營、管理。
支持向量機(jī)回歸機(jī)的原理:
支持向量機(jī)(support vector machine,SVM)是Corinna Cortes等于1995年首先提出的,它在解決小樣本、非線性以及高維識別中表現(xiàn)出了很多的優(yōu)勢。支持向量機(jī)方法是依據(jù)統(tǒng)計學(xué)習(xí)理論中的VC維理論和結(jié)構(gòu)風(fēng)險最小理論建立的,依據(jù)有限的樣本信息在模型的復(fù)雜性(對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的泛化能力)。統(tǒng)計學(xué)習(xí)的目標(biāo)從經(jīng)驗風(fēng)險最小化變?yōu)榱藢で蠼?jīng)驗風(fēng)險與置信風(fēng)險的和最小,即結(jié)構(gòu)風(fēng)險最小,泛化誤差界的公式為:
其中R(ω)就是真實風(fēng)險,Remp(ω)就是經(jīng)驗函數(shù),就是置信區(qū)間。
支持向量機(jī)針對分類問題和回歸問題可以分為支持向量分類機(jī)和支持向量回歸機(jī)(SVR)。本文主要運(yùn)用了SVR做刀具壽命的預(yù)測,SVR作為一種處理非線性擬合回歸的模型,主要是對訓(xùn)練數(shù)據(jù)的待預(yù)測向量與支持向量構(gòu)建對應(yīng)關(guān)系,對測試數(shù)據(jù)中的待預(yù)測向量進(jìn)行仿真預(yù)測。對于信息集,假設(shè)給訓(xùn)練S={(x1,x2...xk,y1),(x1,x2...xk,y2)…(x1,x2...xk,yl)},其中k代表樣本的特征數(shù)量,l代表樣本的個數(shù),SVR根據(jù)內(nèi)積核函數(shù)定義的非線性變換把數(shù)據(jù)映射到高維空間,在高維空間完成回歸擬合,如下:
其中為特征空間,ω為權(quán)重系數(shù),c為偏置項。根據(jù)上文提到的結(jié)構(gòu)誤差最小化原則,ω和c可以根據(jù)求下面的函數(shù)實現(xiàn)最小化。
式中:|f(xj)-yj|為損失函數(shù),為了使‖ω‖2歐拉范數(shù)最小,也為了避免擬合誤差的精度超出預(yù)定設(shè)置,加入松弛變量和進(jìn)行調(diào)節(jié),式(2)的優(yōu)化問題就轉(zhuǎn)變成了約束最小化問題,化簡后得到:
滿足
為了解決問題式(3),引入拉格朗日乘子aj,ηj,構(gòu)建拉格朗日方程。對拉格朗日函數(shù)分別求ω,b,ξj,的偏導(dǎo)數(shù)(值為0)。把求得的結(jié)果代入拉格朗日方程中,式(3)變成了:
滿足
經(jīng)過變換,問題變成了求解凸二次規(guī)劃的的問題,按照解決二次規(guī)劃的方法,最終的模型為:
其中為核函數(shù),xi表示訓(xùn)練樣本的向量,x為測試樣本的向量。針對不同的問題,選擇不同核函數(shù)的精度差距很大,所以能否選擇合適的核函數(shù)成為影響預(yù)測精度的關(guān)鍵因素。針對特定問題選擇對應(yīng)的核函數(shù)沒有統(tǒng)一的方法,只能多次試驗后對比,常用的核函數(shù)主要有:
多項式核函數(shù):
K(xi,x)=[γ(xi·x)+coef]d
其中:d為多項式的階,coef為偏執(zhí)系數(shù)。
RBF核函數(shù)(Gauss徑向基核函數(shù))
K(xi,x)=exp(-γ‖xi-x‖2)
其中:γ表示核函數(shù)的半徑。
多層感知機(jī)核函數(shù)(Sigmoid核函數(shù))
K(xi,x)=tanh(γ(xi·x)+coef)
不同的核函數(shù)和函數(shù)內(nèi)部的參數(shù)對SVR模型的精度有重要的影響。當(dāng)訓(xùn)練樣本的特征矩陣是高維時,多項式核函數(shù)中的d很大,會導(dǎo)致計算復(fù)雜度高,不容易得到滿意的結(jié)果;對于RBF核函數(shù),核函數(shù)的半徑γ越大,越容易找到局部小樣本之間的差異,但是過度的放大γ會導(dǎo)致超平面的泛化性變差;多層感知機(jī)核函數(shù)中的γ和coef滿足Mercer定理(充分非必要條件)。
本發(fā)明的基于數(shù)據(jù)驅(qū)動支持向量回歸機(jī)的TBM刀具壽命預(yù)測方法包括如下步驟:
1、收集TBM刀具挖掘現(xiàn)場的數(shù)據(jù);
本文主要是以青島市的地鐵為研究對象,首先要收集TBM刀具挖掘現(xiàn)場的數(shù)據(jù),因為挖掘現(xiàn)場記錄的數(shù)據(jù)來源不同,格式也不同,其特點和性質(zhì)也各異,因此數(shù)據(jù)集成是必須的,先要把不同來源、格式、特點和性質(zhì)的數(shù)據(jù)集中起來,統(tǒng)一數(shù)據(jù)格式。施工現(xiàn)場的數(shù)據(jù)收集不同于實驗數(shù)據(jù)的收集,針對施工遇到突發(fā)狀況和數(shù)據(jù)缺失,要對數(shù)據(jù)進(jìn)行進(jìn)一步加工,包括數(shù)據(jù)剔除和數(shù)據(jù)補(bǔ)全兩個方面,數(shù)據(jù)剔除是指如果某刀數(shù)據(jù)出現(xiàn)數(shù)據(jù)異常的部分少于5%,則只剔除出現(xiàn)異常的部分?jǐn)?shù)據(jù),如果數(shù)據(jù)丟失超過30%,則將該刀號數(shù)據(jù)全部剔除;數(shù)據(jù)補(bǔ)全是指利用人工填充、均值替換的方法補(bǔ)全部分異常的數(shù)據(jù)。最后為了消除量綱影響,對完整的數(shù)據(jù)集做了歸一化處理,通過min-max標(biāo)準(zhǔn)化和均值歸一化兩個方法比較,選用穩(wěn)定性較好的均值歸一化,每個維度歸一化為均值為0、方差1且正態(tài)分布的數(shù)據(jù)集。
2、確定影響TBM刀具壽命的驅(qū)動因子,建立驅(qū)動因子的樣本數(shù)據(jù)集作為訓(xùn)練集;
TBM刀具的壽命是多個動態(tài)因素互相作用的結(jié)果,本發(fā)明結(jié)合青島市地鐵的挖掘現(xiàn)狀,綜合之前國內(nèi)外的理論研究,將刀具的壽命驅(qū)動的因素分為地質(zhì)類(巖石等級、巖石的紋理、地下水、巖石單軸抗壓強(qiáng)度),人為類(里程、刀盤轉(zhuǎn)速、盾構(gòu)機(jī)使用率、),機(jī)器類(刀盤推力、半徑、刀片的磨損量、扭矩、刀具的損壞量、掘進(jìn)速度),刀具類(磨損系數(shù)、刀刃半角),利用灰色關(guān)聯(lián)分析方法分析影響刀具壽命的主要指標(biāo)體系,最終根據(jù)關(guān)聯(lián)程度的大小確立8個與刀具壽命關(guān)聯(lián)程度最大的因子,分別是里程、巖石等級、刀盤推力、刀片磨損量、刀盤轉(zhuǎn)速、掘進(jìn)速度、半徑、刀具損壞量,關(guān)聯(lián)程度分別是0.985、0.8482、0.8181、0.9374、0.86381、0.7892、0.75238、0.81684。灰色關(guān)聯(lián)分析方法的算法過程已經(jīng)非常成熟,在此不再詳細(xì)介紹其算法過程。建立驅(qū)動因子的樣本數(shù)據(jù)集作為訓(xùn)練集。
3、構(gòu)建多核支持向量回歸機(jī)的預(yù)測模型,輸入訓(xùn)練集,對所述預(yù)測模型進(jìn)行訓(xùn)練從而確定各核函數(shù)所對應(yīng)的最優(yōu)參數(shù)以及懲罰函數(shù)C和不敏感損失函數(shù)參數(shù)ε;
構(gòu)建支持向量回歸機(jī)的預(yù)測模型,要想提高預(yù)測精度,需要選擇合適的核函數(shù)。前面原理部分提到過,針對不同的問題,選擇不同核函數(shù)的精度差距很大,所以能否選擇合適的核函數(shù)成為影響預(yù)測精度的關(guān)鍵因素。針對特定問題選擇對應(yīng)的核函數(shù)沒有統(tǒng)一的方法,只能多次試驗后對比,因此為了提高預(yù)測精度,這部分首先構(gòu)建多核支持向量回歸機(jī)的預(yù)測模型,選擇的核函數(shù)包括多項式核函數(shù)、Gauss徑向基核函數(shù)和多層感知機(jī)核函數(shù)。預(yù)測模型建好后,輸入訓(xùn)練集,對所述預(yù)測模型進(jìn)行訓(xùn)練從而確定各核函數(shù)所對應(yīng)參數(shù)。
依據(jù)青島市修建地鐵過程中獲取的數(shù)據(jù),整理盾構(gòu)機(jī)挖掘地鐵2號線左線時產(chǎn)生的信息集。為了方便建模,把刀具的壽命情況進(jìn)行編碼用0和1表示,其中用0代表刀具未損壞,用1表示刀具損壞。
如下表1(1號刀具在2015年的部分原始數(shù)據(jù)):
表一:1號刀具的部分原始數(shù)據(jù)
歸一化處理后如下表1(1號刀具的部分?jǐn)?shù)據(jù))。
表二:一號刀具相關(guān)驅(qū)動因子標(biāo)準(zhǔn)化數(shù)據(jù)表
下面圖1和圖2為一號刀具用Gauss徑向基核函數(shù)預(yù)測的過程,其中圖1所示為SVR參數(shù)選擇的等高線圖,圖2為SVR參數(shù)選擇的3D視圖。1號刀具在選定徑向基核函數(shù)的前提下,得到的懲罰函數(shù)C為0.00680,核半徑γ為256,MSE為0.0233。在結(jié)構(gòu)體確定的情況下,對1號刀壽命做預(yù)測,準(zhǔn)確率97.8%。如圖3所示。
支持向量回歸機(jī)的參數(shù)選取對預(yù)測精度的影響較大,在選定核函數(shù)的基礎(chǔ)上,確立合適的參數(shù)來提高預(yù)測的精度非常必要。在本發(fā)明的方法中,為了克服樣本容量相對少的情況,充分利用數(shù)據(jù)集對算法效果做測試,采用k-折交叉驗證增加樣本量。在機(jī)器學(xué)習(xí)中,將數(shù)據(jù)集A分為訓(xùn)練集(training set)B和測試集(test set)C,在樣本量不充足的情況下,為了充分利用數(shù)據(jù)集對算法效果進(jìn)行測試,將數(shù)據(jù)集A隨機(jī)分為k個包,每次將其中一個包作為測試集,剩下k-1個包作為訓(xùn)練集進(jìn)行訓(xùn)練。
利用網(wǎng)格搜索法使各組核函數(shù)參數(shù)相互解耦,從而確定核函數(shù)對應(yīng)的參數(shù)、懲罰函數(shù)C和不敏感損失函數(shù)參數(shù)ε。網(wǎng)格搜索法基本原理是將各參數(shù)變量值的可行區(qū)間(可從小到大),劃分為一系列的小區(qū),由計算機(jī)順序算出對應(yīng)各參數(shù)變量值組合,所對應(yīng)的誤差目標(biāo)值(即實測和計算的水質(zhì)序列值的偏差平方和)并逐一比較擇優(yōu),從而求得該區(qū)間內(nèi)最小目標(biāo)值及其對應(yīng)的最佳特定參數(shù)值。這種估值方法可保證所得的搜索解基本是全局最優(yōu)解,可避免重大誤差。
將2號線左線15年5月到16年1月的數(shù)據(jù)作為樣本訓(xùn)練集,分別用多項式函數(shù)、Gauss徑向基核函數(shù)、多層感知機(jī)核函數(shù)3種不同核函數(shù)進(jìn)行學(xué)習(xí)訓(xùn)練,構(gòu)建預(yù)測刀具下一工作區(qū)間壽命情況的模型。在核函數(shù)選定的情況下,調(diào)節(jié)參數(shù)對精度的影響較大,本文用MATLAB中的libsvm工具箱,結(jié)合k-折交叉驗證和網(wǎng)格搜索,最大限度的尋找最優(yōu)參數(shù)。得到的各核函數(shù)的最優(yōu)參數(shù)如下表:
表三:各個核函數(shù)對應(yīng)的最優(yōu)參數(shù)
4.確定預(yù)測模型的最佳核函數(shù)
一方面為了確定預(yù)測模型的最佳核函數(shù),另一方面也為了驗證預(yù)測模型的可行性,引入了多元回歸模型作為對比,對41號刀具下一工作區(qū)間的壽命情況做預(yù)測,并與實際統(tǒng)計的做對比,對12個不同的模型做檢驗,得到預(yù)測壽命與實際壽命的相對誤差、均方差誤差。
根據(jù)刀具的安裝位置和功能,把刀具分為3類,1-8中心刀,9-25正滾刀,26-41為邊滾刀。同理數(shù)據(jù)分為3組,基于不同核函數(shù)構(gòu)建12個結(jié)構(gòu)體預(yù)測刀具的壽命情況,各個模型預(yù)測結(jié)果如表四所示:
表四 各個模型預(yù)測精度對此
由表四可以明顯看出,傳統(tǒng)的多元回歸模型的平均相對誤差、均方差誤差均高于其他的模型。基于各個核函數(shù)的預(yù)測模型的平均相對誤差、均方差誤差有很大差距,綜合比較不同類型刀具的訓(xùn)練結(jié)果,可得出基于徑向基核函數(shù)的模型在預(yù)測3類刀具壽命中表現(xiàn)優(yōu)異,最終的預(yù)測模型確立為基于RBF核函數(shù)的支持向量回歸機(jī)的刀具壽命預(yù)測模型。
5、將待預(yù)測刀具的驅(qū)動因子的樣本數(shù)據(jù)集作為預(yù)測樣本集,輸入預(yù)測模型,得出預(yù)測結(jié)果。
為了驗證基于RBF核函數(shù)的支持向量回歸機(jī)的刀具壽命預(yù)測模型,用2號線右線的數(shù)據(jù)做預(yù)測。依照上述模型進(jìn)行預(yù)測,最后結(jié)果如下表五:
表五:預(yù)測結(jié)果的準(zhǔn)確率和均方誤差
由統(tǒng)計的結(jié)果可知,總體的準(zhǔn)確率達(dá)到94.52%,均方誤差很小,預(yù)測較好效果。驗證了模型的有效性。