本發(fā)明涉及油氣鉆探,尤其是一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法。
背景技術(shù):
1、在傳統(tǒng)鉆井現(xiàn)場司鉆通常根據(jù)經(jīng)驗或鉆井設(shè)計控制鉆進參數(shù),但在智能鉆井背景下司鉆將被取代,鉆井?dāng)?shù)據(jù)或理論驅(qū)動的鉆進參數(shù)優(yōu)化調(diào)控方法是未來的趨勢。目前在該領(lǐng)域已經(jīng)取得了許多研究成果。但是目前的鉆進參數(shù)優(yōu)化研究是基于司鉆操作鉆進參數(shù)的方式開展的,無論是數(shù)據(jù)的獲取還是優(yōu)化結(jié)果的實施都還依賴司鉆。在智能鉆井的背景下,如何實現(xiàn)鉆機自主調(diào)控鉆進參數(shù),還缺少理論支撐。
2、近年來,以深度學(xué)習(xí)和強化學(xué)習(xí)為代表的人工智能算法取得了驚人的發(fā)展。借助強化學(xué)習(xí)的推理能力,強化學(xué)習(xí)在處理決策問題方面顯示出巨大的潛力。強化學(xué)習(xí)已經(jīng)在自動駕駛、機器人控制和計算機圍棋領(lǐng)域中取得了巨大成功。因此,若能將強化學(xué)習(xí)應(yīng)用到鉆井技術(shù)中,通過強化學(xué)習(xí)不斷與環(huán)境交互獲得最優(yōu)策略以實現(xiàn)鉆進參數(shù)自適應(yīng)調(diào)控,這將是實現(xiàn)鉆機在動態(tài)鉆井環(huán)境下自適應(yīng)調(diào)控鉆進參數(shù)的可行方案。
技術(shù)實現(xiàn)思路
1、為了現(xiàn)實強化學(xué)習(xí)在智能鉆井技術(shù)中的應(yīng)用,本發(fā)明提供一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法。
2、本發(fā)明提供的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其核心思想是將鉆進參數(shù)優(yōu)化調(diào)控問題轉(zhuǎn)化為強化學(xué)習(xí)問題,由馬爾科夫決策過程來表示。馬爾科夫決策過程由狀態(tài)空間、控制策略的動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵函數(shù)及折扣因子組成,表示為:
3、m=<s,a,p,r,γ>
4、式中,s={s1,s2,...,sn}∈s表示智能體與環(huán)境交互所感知的所有狀態(tài)集合,所有狀態(tài)集合構(gòu)成狀態(tài)空間。所述狀態(tài)空間包括有關(guān)過去和最近的地層條件、工具狀態(tài)以及鉆進參數(shù)、機械鉆速、粘滑指數(shù)的所有狀態(tài)集合。
5、所述智能體為決策制定智能鉆機。所述環(huán)境包括地層、破巖工具、井筒在內(nèi)的所有相關(guān)過程的施工現(xiàn)場。所述狀態(tài)由機械鉆速、粘滑指數(shù)、鉆壓、轉(zhuǎn)速構(gòu)成,表示為:
6、s={rop,tse,wob,rpm}
7、式中,s為鉆進參數(shù)調(diào)控過程的狀態(tài);rop為機械鉆速,m/h;tse為粘滑指數(shù);wob為鉆壓,kn;rpm為轉(zhuǎn)速,r/min。
8、a={a1,a2,...,an}∈a表示智能體能夠執(zhí)行的所有動作集合狀態(tài)。所述動作指的是包括鉆壓和轉(zhuǎn)速在內(nèi)的鉆進參數(shù)調(diào)控策略,鉆進參數(shù)調(diào)控策略的集合構(gòu)成調(diào)控策略的動作空間。
9、p表示狀態(tài)轉(zhuǎn)移概率,狀態(tài)轉(zhuǎn)移表示在鉆進過程中由于智能體的行動而導(dǎo)致的狀態(tài)改變,例如由機械鉆速由“4m/h”變化到“7m/h”。
10、r表示獎勵函數(shù);獎勵函數(shù)是對鉆進參數(shù)調(diào)控策略的評價手段,具體根據(jù)鉆進參數(shù)調(diào)控策略執(zhí)行后的反饋值計算。所述獎勵函數(shù)包括正向獎勵、負(fù)向獎勵和硬邊界獎勵,所述正向獎勵包括機械鉆速增大和探索不同的鉆進參數(shù),所述負(fù)向獎勵包括機械鉆速連續(xù)減小和機械鉆速降低,所述硬邊界獎勵包括鉆進參數(shù)超過鉆進參數(shù)安全作業(yè)窗口和超過粘滑強度約束條件。
11、γ∈[0,1]表示折扣因子。
12、優(yōu)選的是,所述動作空間是指鉆壓和轉(zhuǎn)速調(diào)控策略的集合,鉆壓和轉(zhuǎn)速分別有保持、增大和減小三種設(shè)定,隨機組合后共有9個鉆進參數(shù)調(diào)控策略,分別對應(yīng)動作空間的9個維度,表示所示:
13、
14、式中,woba、wobh、wobd分別表示增大鉆壓、保持鉆壓和減小鉆壓;rpma、rpmh、rpmd分別表示增大轉(zhuǎn)速、保持轉(zhuǎn)速和減小轉(zhuǎn)速。
15、優(yōu)選的是,獎勵函數(shù)r的獎勵值設(shè)置如下:
16、r1=-1000;r2=-10;r3=10;r4=-1000;r5=-1;r6=1
17、式中,r1為鉆進參數(shù)超過邊界條件的獎勵;r2為超過粘滑強度的獎勵;r3為機械鉆速增大的獎勵;r4為機械鉆速連續(xù)降低的獎勵,機械鉆速連續(xù)降低是指至少連續(xù)降低5次;r5為機械鉆速降低的獎勵,即單次降低的獎勵;r6為探索不同鉆進參數(shù)的獎勵。
18、上述基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,步驟如下:
19、s1、根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)優(yōu)化鉆進參數(shù)作為智能體初始狀態(tài)。
20、具體是,根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)建立機械鉆速預(yù)測模型,在鉆進參數(shù)調(diào)控安全約束條件下利用粒子群算法求解最優(yōu)鉆進參數(shù)以及對應(yīng)的機械鉆速和粘滑指數(shù),作為智能體初始狀態(tài);所述鉆進參數(shù)為鉆壓和轉(zhuǎn)速。
21、s2、實施并評價鉆前鉆進參數(shù)優(yōu)化策略,控制鉆進參數(shù)探索的方向。
22、具體是,在鉆進過程中,實施鉆前鉆進參數(shù)優(yōu)化策略,根據(jù)實施后反饋的新狀態(tài),利用獎勵函數(shù)對動作進行評價,控制鉆進參數(shù)探索的方向,確定新的鉆進參數(shù)優(yōu)化策略。
23、s3、利用獎勵函數(shù)控制動作,生成隨機鉆進參數(shù)優(yōu)化策略,主動探索不同鉆進參數(shù)對機械鉆速的影響。
24、s4、重復(fù)步驟s2、s3,在鉆進參數(shù)調(diào)控安全約束條件下探尋最優(yōu)鉆進參數(shù)組合。
25、該方法中,鉆進參數(shù)調(diào)控安全約束條件,包括但不限于,鉆壓約束、轉(zhuǎn)速約束、機械鉆速約束和粘滑振動約束。
26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益之處在于:
27、(1)本發(fā)明提供的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,將鉆井工程與人工智能算法有效融合,使鉆機具備了自主調(diào)控鉆進參數(shù)的能力,對于實現(xiàn)智能鉆井有重要意義。
28、(2)本發(fā)明可直接在現(xiàn)有常規(guī)鉆井設(shè)備的基礎(chǔ)上進行應(yīng)用,無需額外的井下測量工具。
29、本發(fā)明的其它優(yōu)點、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。
1.一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,采用馬爾科夫決策過程來表示鉆進參數(shù)優(yōu)化調(diào)控過程;馬爾科夫決策過程由狀態(tài)空間、控制策略的動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵函數(shù)及折扣因子組成,表示為:
2.如權(quán)利要求1所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,所述動作空間是指鉆壓和轉(zhuǎn)速調(diào)控策略的集合,鉆壓和轉(zhuǎn)速分別有保持、增大和減小三種設(shè)定,隨機組合后共有9個鉆進參數(shù)調(diào)控策略,分別對應(yīng)動作空間的9個維度,如下所示:
3.如權(quán)利要求1所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,所述獎勵函數(shù)包括正向獎勵、負(fù)向獎勵和硬邊界獎勵,所述正向獎勵包括機械鉆速增大和探索不同的鉆進參數(shù),所述負(fù)向獎勵包括機械鉆速連續(xù)減小和機械鉆速降低,所述硬邊界獎勵包括鉆進參數(shù)超過鉆進參數(shù)安全作業(yè)窗口和超過粘滑強度約束條件。
4.如權(quán)利要求3所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,獎勵函數(shù)r的獎勵值設(shè)置如下:
5.如權(quán)利要求1-4任意一項所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,包括以下步驟:
6.如權(quán)利要求5所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,步驟s1具體是,根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)建立機械鉆速預(yù)測模型,在鉆進參數(shù)調(diào)控安全約束條件下利用粒子群算法求解最優(yōu)鉆進參數(shù)以及對應(yīng)的機械鉆速和粘滑指數(shù),作為智能體初始狀態(tài);所述鉆進參數(shù)為鉆壓和轉(zhuǎn)速。
7.如權(quán)利要求5所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,步驟s2具體是,在鉆進過程中,實施鉆前鉆進參數(shù)優(yōu)化策略,根據(jù)實施后反饋的新狀態(tài),利用獎勵函數(shù)對動作進行評價,控制鉆進參數(shù)探索的方向,確定新的鉆進參數(shù)優(yōu)化策略。
8.如權(quán)利要求6所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,所述鉆進參數(shù)調(diào)控安全約束條件,包括但不限于,鉆壓約束、轉(zhuǎn)速約束、機械鉆速約束和粘滑振動約束。