欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法

文檔序號:40479497發(fā)布日期:2024-12-31 12:47閱讀:12來源:國知局
一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法

本發(fā)明涉及油氣鉆探,尤其是一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法。


背景技術(shù):

1、在傳統(tǒng)鉆井現(xiàn)場司鉆通常根據(jù)經(jīng)驗或鉆井設(shè)計控制鉆進參數(shù),但在智能鉆井背景下司鉆將被取代,鉆井?dāng)?shù)據(jù)或理論驅(qū)動的鉆進參數(shù)優(yōu)化調(diào)控方法是未來的趨勢。目前在該領(lǐng)域已經(jīng)取得了許多研究成果。但是目前的鉆進參數(shù)優(yōu)化研究是基于司鉆操作鉆進參數(shù)的方式開展的,無論是數(shù)據(jù)的獲取還是優(yōu)化結(jié)果的實施都還依賴司鉆。在智能鉆井的背景下,如何實現(xiàn)鉆機自主調(diào)控鉆進參數(shù),還缺少理論支撐。

2、近年來,以深度學(xué)習(xí)和強化學(xué)習(xí)為代表的人工智能算法取得了驚人的發(fā)展。借助強化學(xué)習(xí)的推理能力,強化學(xué)習(xí)在處理決策問題方面顯示出巨大的潛力。強化學(xué)習(xí)已經(jīng)在自動駕駛、機器人控制和計算機圍棋領(lǐng)域中取得了巨大成功。因此,若能將強化學(xué)習(xí)應(yīng)用到鉆井技術(shù)中,通過強化學(xué)習(xí)不斷與環(huán)境交互獲得最優(yōu)策略以實現(xiàn)鉆進參數(shù)自適應(yīng)調(diào)控,這將是實現(xiàn)鉆機在動態(tài)鉆井環(huán)境下自適應(yīng)調(diào)控鉆進參數(shù)的可行方案。


技術(shù)實現(xiàn)思路

1、為了現(xiàn)實強化學(xué)習(xí)在智能鉆井技術(shù)中的應(yīng)用,本發(fā)明提供一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法。

2、本發(fā)明提供的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其核心思想是將鉆進參數(shù)優(yōu)化調(diào)控問題轉(zhuǎn)化為強化學(xué)習(xí)問題,由馬爾科夫決策過程來表示。馬爾科夫決策過程由狀態(tài)空間、控制策略的動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵函數(shù)及折扣因子組成,表示為:

3、m=<s,a,p,r,γ>

4、式中,s={s1,s2,...,sn}∈s表示智能體與環(huán)境交互所感知的所有狀態(tài)集合,所有狀態(tài)集合構(gòu)成狀態(tài)空間。所述狀態(tài)空間包括有關(guān)過去和最近的地層條件、工具狀態(tài)以及鉆進參數(shù)、機械鉆速、粘滑指數(shù)的所有狀態(tài)集合。

5、所述智能體為決策制定智能鉆機。所述環(huán)境包括地層、破巖工具、井筒在內(nèi)的所有相關(guān)過程的施工現(xiàn)場。所述狀態(tài)由機械鉆速、粘滑指數(shù)、鉆壓、轉(zhuǎn)速構(gòu)成,表示為:

6、s={rop,tse,wob,rpm}

7、式中,s為鉆進參數(shù)調(diào)控過程的狀態(tài);rop為機械鉆速,m/h;tse為粘滑指數(shù);wob為鉆壓,kn;rpm為轉(zhuǎn)速,r/min。

8、a={a1,a2,...,an}∈a表示智能體能夠執(zhí)行的所有動作集合狀態(tài)。所述動作指的是包括鉆壓和轉(zhuǎn)速在內(nèi)的鉆進參數(shù)調(diào)控策略,鉆進參數(shù)調(diào)控策略的集合構(gòu)成調(diào)控策略的動作空間。

9、p表示狀態(tài)轉(zhuǎn)移概率,狀態(tài)轉(zhuǎn)移表示在鉆進過程中由于智能體的行動而導(dǎo)致的狀態(tài)改變,例如由機械鉆速由“4m/h”變化到“7m/h”。

10、r表示獎勵函數(shù);獎勵函數(shù)是對鉆進參數(shù)調(diào)控策略的評價手段,具體根據(jù)鉆進參數(shù)調(diào)控策略執(zhí)行后的反饋值計算。所述獎勵函數(shù)包括正向獎勵、負(fù)向獎勵和硬邊界獎勵,所述正向獎勵包括機械鉆速增大和探索不同的鉆進參數(shù),所述負(fù)向獎勵包括機械鉆速連續(xù)減小和機械鉆速降低,所述硬邊界獎勵包括鉆進參數(shù)超過鉆進參數(shù)安全作業(yè)窗口和超過粘滑強度約束條件。

11、γ∈[0,1]表示折扣因子。

12、優(yōu)選的是,所述動作空間是指鉆壓和轉(zhuǎn)速調(diào)控策略的集合,鉆壓和轉(zhuǎn)速分別有保持、增大和減小三種設(shè)定,隨機組合后共有9個鉆進參數(shù)調(diào)控策略,分別對應(yīng)動作空間的9個維度,表示所示:

13、

14、式中,woba、wobh、wobd分別表示增大鉆壓、保持鉆壓和減小鉆壓;rpma、rpmh、rpmd分別表示增大轉(zhuǎn)速、保持轉(zhuǎn)速和減小轉(zhuǎn)速。

15、優(yōu)選的是,獎勵函數(shù)r的獎勵值設(shè)置如下:

16、r1=-1000;r2=-10;r3=10;r4=-1000;r5=-1;r6=1

17、式中,r1為鉆進參數(shù)超過邊界條件的獎勵;r2為超過粘滑強度的獎勵;r3為機械鉆速增大的獎勵;r4為機械鉆速連續(xù)降低的獎勵,機械鉆速連續(xù)降低是指至少連續(xù)降低5次;r5為機械鉆速降低的獎勵,即單次降低的獎勵;r6為探索不同鉆進參數(shù)的獎勵。

18、上述基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,步驟如下:

19、s1、根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)優(yōu)化鉆進參數(shù)作為智能體初始狀態(tài)。

20、具體是,根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)建立機械鉆速預(yù)測模型,在鉆進參數(shù)調(diào)控安全約束條件下利用粒子群算法求解最優(yōu)鉆進參數(shù)以及對應(yīng)的機械鉆速和粘滑指數(shù),作為智能體初始狀態(tài);所述鉆進參數(shù)為鉆壓和轉(zhuǎn)速。

21、s2、實施并評價鉆前鉆進參數(shù)優(yōu)化策略,控制鉆進參數(shù)探索的方向。

22、具體是,在鉆進過程中,實施鉆前鉆進參數(shù)優(yōu)化策略,根據(jù)實施后反饋的新狀態(tài),利用獎勵函數(shù)對動作進行評價,控制鉆進參數(shù)探索的方向,確定新的鉆進參數(shù)優(yōu)化策略。

23、s3、利用獎勵函數(shù)控制動作,生成隨機鉆進參數(shù)優(yōu)化策略,主動探索不同鉆進參數(shù)對機械鉆速的影響。

24、s4、重復(fù)步驟s2、s3,在鉆進參數(shù)調(diào)控安全約束條件下探尋最優(yōu)鉆進參數(shù)組合。

25、該方法中,鉆進參數(shù)調(diào)控安全約束條件,包括但不限于,鉆壓約束、轉(zhuǎn)速約束、機械鉆速約束和粘滑振動約束。

26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益之處在于:

27、(1)本發(fā)明提供的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,將鉆井工程與人工智能算法有效融合,使鉆機具備了自主調(diào)控鉆進參數(shù)的能力,對于實現(xiàn)智能鉆井有重要意義。

28、(2)本發(fā)明可直接在現(xiàn)有常規(guī)鉆井設(shè)備的基礎(chǔ)上進行應(yīng)用,無需額外的井下測量工具。

29、本發(fā)明的其它優(yōu)點、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。



技術(shù)特征:

1.一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,采用馬爾科夫決策過程來表示鉆進參數(shù)優(yōu)化調(diào)控過程;馬爾科夫決策過程由狀態(tài)空間、控制策略的動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵函數(shù)及折扣因子組成,表示為:

2.如權(quán)利要求1所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,所述動作空間是指鉆壓和轉(zhuǎn)速調(diào)控策略的集合,鉆壓和轉(zhuǎn)速分別有保持、增大和減小三種設(shè)定,隨機組合后共有9個鉆進參數(shù)調(diào)控策略,分別對應(yīng)動作空間的9個維度,如下所示:

3.如權(quán)利要求1所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,所述獎勵函數(shù)包括正向獎勵、負(fù)向獎勵和硬邊界獎勵,所述正向獎勵包括機械鉆速增大和探索不同的鉆進參數(shù),所述負(fù)向獎勵包括機械鉆速連續(xù)減小和機械鉆速降低,所述硬邊界獎勵包括鉆進參數(shù)超過鉆進參數(shù)安全作業(yè)窗口和超過粘滑強度約束條件。

4.如權(quán)利要求3所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,獎勵函數(shù)r的獎勵值設(shè)置如下:

5.如權(quán)利要求1-4任意一項所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,包括以下步驟:

6.如權(quán)利要求5所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,步驟s1具體是,根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)建立機械鉆速預(yù)測模型,在鉆進參數(shù)調(diào)控安全約束條件下利用粒子群算法求解最優(yōu)鉆進參數(shù)以及對應(yīng)的機械鉆速和粘滑指數(shù),作為智能體初始狀態(tài);所述鉆進參數(shù)為鉆壓和轉(zhuǎn)速。

7.如權(quán)利要求5所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,步驟s2具體是,在鉆進過程中,實施鉆前鉆進參數(shù)優(yōu)化策略,根據(jù)實施后反饋的新狀態(tài),利用獎勵函數(shù)對動作進行評價,控制鉆進參數(shù)探索的方向,確定新的鉆進參數(shù)優(yōu)化策略。

8.如權(quán)利要求6所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其特征在于,所述鉆進參數(shù)調(diào)控安全約束條件,包括但不限于,鉆壓約束、轉(zhuǎn)速約束、機械鉆速約束和粘滑振動約束。


技術(shù)總結(jié)
本發(fā)明公開了一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法,其核心思想是將鉆進參數(shù)優(yōu)化調(diào)控問題轉(zhuǎn)化為強化學(xué)習(xí)問題,由馬爾科夫決策過程來表示。方法步驟為:S1、根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)優(yōu)化鉆進參數(shù)作為智能體初始狀態(tài);S2、實施并評價鉆前鉆進參數(shù)優(yōu)化策略,控制鉆進參數(shù)探索的方向;S3、利用獎勵函數(shù)控制動作,生成隨機鉆進參數(shù)優(yōu)化策略,主動探索不同鉆進參數(shù)對機械鉆速的影響。S4、重復(fù)步驟S2、S3,在鉆進參數(shù)調(diào)控安全約束條件下探尋最優(yōu)鉆進參數(shù)組合。本發(fā)明提出的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法將鉆井工程與人工智能算法有效融合,使鉆機具備了自主調(diào)控鉆進參數(shù)的能力,對于實現(xiàn)智能鉆井有重要意義。

技術(shù)研發(fā)人員:趙修文,尹虎,李黔,王鈞澤,陳齊
受保護的技術(shù)使用者:西南石油大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
历史| 浦江县| 鄂州市| 辽阳县| 临洮县| 许昌市| 隆化县| 濮阳县| 武陟县| 电白县| 临沭县| 克什克腾旗| 宝山区| 页游| 南昌市| 拜城县| 金湖县| 万安县| 克拉玛依市| 寻甸| 景宁| 彰武县| 焉耆| 淄博市| 扬中市| 建水县| 安阳县| 房山区| 昌吉市| 浮山县| 久治县| 双城市| 柳河县| 张家界市| 潮州市| 辉县市| 康乐县| 闸北区| 黄石市| 靖边县| 永丰县|