一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法

文檔序號：40479497發(fā)布日期：2024-12-31 12:47閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>土層或巖石的鉆進;采礦的設(shè)備制造及其應(yīng)用技術(shù)

本發(fā)明涉及油氣鉆探，尤其是一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法。

背景技術(shù)：

1、在傳統(tǒng)鉆井現(xiàn)場司鉆通常根據(jù)經(jīng)驗或鉆井設(shè)計控制鉆進參數(shù)，但在智能鉆井背景下司鉆將被取代，鉆井?dāng)?shù)據(jù)或理論驅(qū)動的鉆進參數(shù)優(yōu)化調(diào)控方法是未來的趨勢。目前在該領(lǐng)域已經(jīng)取得了許多研究成果。但是目前的鉆進參數(shù)優(yōu)化研究是基于司鉆操作鉆進參數(shù)的方式開展的，無論是數(shù)據(jù)的獲取還是優(yōu)化結(jié)果的實施都還依賴司鉆。在智能鉆井的背景下，如何實現(xiàn)鉆機自主調(diào)控鉆進參數(shù)，還缺少理論支撐。

2、近年來，以深度學(xué)習(xí)和強化學(xué)習(xí)為代表的人工智能算法取得了驚人的發(fā)展。借助強化學(xué)習(xí)的推理能力，強化學(xué)習(xí)在處理決策問題方面顯示出巨大的潛力。強化學(xué)習(xí)已經(jīng)在自動駕駛、機器人控制和計算機圍棋領(lǐng)域中取得了巨大成功。因此，若能將強化學(xué)習(xí)應(yīng)用到鉆井技術(shù)中，通過強化學(xué)習(xí)不斷與環(huán)境交互獲得最優(yōu)策略以實現(xiàn)鉆進參數(shù)自適應(yīng)調(diào)控，這將是實現(xiàn)鉆機在動態(tài)鉆井環(huán)境下自適應(yīng)調(diào)控鉆進參數(shù)的可行方案。

技術(shù)實現(xiàn)思路

1、為了現(xiàn)實強化學(xué)習(xí)在智能鉆井技術(shù)中的應(yīng)用，本發(fā)明提供一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法。

2、本發(fā)明提供的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其核心思想是將鉆進參數(shù)優(yōu)化調(diào)控問題轉(zhuǎn)化為強化學(xué)習(xí)問題，由馬爾科夫決策過程來表示。馬爾科夫決策過程由狀態(tài)空間、控制策略的動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵函數(shù)及折扣因子組成，表示為：

3、m＝<s,a,p,r,γ>

4、式中，s＝{s1,s2,...,sn}∈s表示智能體與環(huán)境交互所感知的所有狀態(tài)集合，所有狀態(tài)集合構(gòu)成狀態(tài)空間。所述狀態(tài)空間包括有關(guān)過去和最近的地層條件、工具狀態(tài)以及鉆進參數(shù)、機械鉆速、粘滑指數(shù)的所有狀態(tài)集合。

5、所述智能體為決策制定智能鉆機。所述環(huán)境包括地層、破巖工具、井筒在內(nèi)的所有相關(guān)過程的施工現(xiàn)場。所述狀態(tài)由機械鉆速、粘滑指數(shù)、鉆壓、轉(zhuǎn)速構(gòu)成，表示為：

6、s＝{rop,tse,wob,rpm}

7、式中，s為鉆進參數(shù)調(diào)控過程的狀態(tài)；rop為機械鉆速，m/h；tse為粘滑指數(shù)；wob為鉆壓，kn；rpm為轉(zhuǎn)速，r/min。

8、a＝{a1,a2,...,an}∈a表示智能體能夠執(zhí)行的所有動作集合狀態(tài)。所述動作指的是包括鉆壓和轉(zhuǎn)速在內(nèi)的鉆進參數(shù)調(diào)控策略，鉆進參數(shù)調(diào)控策略的集合構(gòu)成調(diào)控策略的動作空間。

9、p表示狀態(tài)轉(zhuǎn)移概率，狀態(tài)轉(zhuǎn)移表示在鉆進過程中由于智能體的行動而導(dǎo)致的狀態(tài)改變，例如由機械鉆速由“4m/h”變化到“7m/h”。

10、r表示獎勵函數(shù)；獎勵函數(shù)是對鉆進參數(shù)調(diào)控策略的評價手段，具體根據(jù)鉆進參數(shù)調(diào)控策略執(zhí)行后的反饋值計算。所述獎勵函數(shù)包括正向獎勵、負(fù)向獎勵和硬邊界獎勵，所述正向獎勵包括機械鉆速增大和探索不同的鉆進參數(shù)，所述負(fù)向獎勵包括機械鉆速連續(xù)減小和機械鉆速降低，所述硬邊界獎勵包括鉆進參數(shù)超過鉆進參數(shù)安全作業(yè)窗口和超過粘滑強度約束條件。

11、γ∈[0,1]表示折扣因子。

12、優(yōu)選的是，所述動作空間是指鉆壓和轉(zhuǎn)速調(diào)控策略的集合，鉆壓和轉(zhuǎn)速分別有保持、增大和減小三種設(shè)定，隨機組合后共有9個鉆進參數(shù)調(diào)控策略，分別對應(yīng)動作空間的9個維度，表示所示：

13、

14、式中，woba、wobh、wobd分別表示增大鉆壓、保持鉆壓和減小鉆壓；rpma、rpmh、rpmd分別表示增大轉(zhuǎn)速、保持轉(zhuǎn)速和減小轉(zhuǎn)速。

15、優(yōu)選的是，獎勵函數(shù)r的獎勵值設(shè)置如下：

16、r1＝-1000；r2＝-10；r3＝10；r4＝-1000；r5＝-1；r6＝1

17、式中，r1為鉆進參數(shù)超過邊界條件的獎勵；r2為超過粘滑強度的獎勵；r3為機械鉆速增大的獎勵；r4為機械鉆速連續(xù)降低的獎勵，機械鉆速連續(xù)降低是指至少連續(xù)降低5次；r5為機械鉆速降低的獎勵，即單次降低的獎勵；r6為探索不同鉆進參數(shù)的獎勵。

18、上述基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，步驟如下：

19、s1、根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)優(yōu)化鉆進參數(shù)作為智能體初始狀態(tài)。

20、具體是，根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)建立機械鉆速預(yù)測模型，在鉆進參數(shù)調(diào)控安全約束條件下利用粒子群算法求解最優(yōu)鉆進參數(shù)以及對應(yīng)的機械鉆速和粘滑指數(shù)，作為智能體初始狀態(tài)；所述鉆進參數(shù)為鉆壓和轉(zhuǎn)速。

21、s2、實施并評價鉆前鉆進參數(shù)優(yōu)化策略，控制鉆進參數(shù)探索的方向。

22、具體是，在鉆進過程中，實施鉆前鉆進參數(shù)優(yōu)化策略，根據(jù)實施后反饋的新狀態(tài)，利用獎勵函數(shù)對動作進行評價，控制鉆進參數(shù)探索的方向，確定新的鉆進參數(shù)優(yōu)化策略。

23、s3、利用獎勵函數(shù)控制動作，生成隨機鉆進參數(shù)優(yōu)化策略，主動探索不同鉆進參數(shù)對機械鉆速的影響。

24、s4、重復(fù)步驟s2、s3，在鉆進參數(shù)調(diào)控安全約束條件下探尋最優(yōu)鉆進參數(shù)組合。

25、該方法中，鉆進參數(shù)調(diào)控安全約束條件，包括但不限于，鉆壓約束、轉(zhuǎn)速約束、機械鉆速約束和粘滑振動約束。

26、與現(xiàn)有技術(shù)相比，本發(fā)明的有益之處在于：

27、(1)本發(fā)明提供的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，將鉆井工程與人工智能算法有效融合，使鉆機具備了自主調(diào)控鉆進參數(shù)的能力，對于實現(xiàn)智能鉆井有重要意義。

28、(2)本發(fā)明可直接在現(xiàn)有常規(guī)鉆井設(shè)備的基礎(chǔ)上進行應(yīng)用，無需額外的井下測量工具。

29、本發(fā)明的其它優(yōu)點、目標(biāo)和特征將部分通過下面的說明體現(xiàn)，部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。

技術(shù)特征：

1.一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，采用馬爾科夫決策過程來表示鉆進參數(shù)優(yōu)化調(diào)控過程；馬爾科夫決策過程由狀態(tài)空間、控制策略的動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵函數(shù)及折扣因子組成，表示為：

2.如權(quán)利要求1所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，所述動作空間是指鉆壓和轉(zhuǎn)速調(diào)控策略的集合，鉆壓和轉(zhuǎn)速分別有保持、增大和減小三種設(shè)定，隨機組合后共有9個鉆進參數(shù)調(diào)控策略，分別對應(yīng)動作空間的9個維度，如下所示：

3.如權(quán)利要求1所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，所述獎勵函數(shù)包括正向獎勵、負(fù)向獎勵和硬邊界獎勵，所述正向獎勵包括機械鉆速增大和探索不同的鉆進參數(shù)，所述負(fù)向獎勵包括機械鉆速連續(xù)減小和機械鉆速降低，所述硬邊界獎勵包括鉆進參數(shù)超過鉆進參數(shù)安全作業(yè)窗口和超過粘滑強度約束條件。

4.如權(quán)利要求3所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，獎勵函數(shù)r的獎勵值設(shè)置如下：

5.如權(quán)利要求1-4任意一項所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，包括以下步驟：

6.如權(quán)利要求5所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，步驟s1具體是，根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)建立機械鉆速預(yù)測模型，在鉆進參數(shù)調(diào)控安全約束條件下利用粒子群算法求解最優(yōu)鉆進參數(shù)以及對應(yīng)的機械鉆速和粘滑指數(shù)，作為智能體初始狀態(tài)；所述鉆進參數(shù)為鉆壓和轉(zhuǎn)速。

7.如權(quán)利要求5所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，步驟s2具體是，在鉆進過程中，實施鉆前鉆進參數(shù)優(yōu)化策略，根據(jù)實施后反饋的新狀態(tài)，利用獎勵函數(shù)對動作進行評價，控制鉆進參數(shù)探索的方向，確定新的鉆進參數(shù)優(yōu)化策略。

8.如權(quán)利要求6所述的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其特征在于，所述鉆進參數(shù)調(diào)控安全約束條件，包括但不限于，鉆壓約束、轉(zhuǎn)速約束、機械鉆速約束和粘滑振動約束。

技術(shù)總結(jié)
本發(fā)明公開了一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法，其核心思想是將鉆進參數(shù)優(yōu)化調(diào)控問題轉(zhuǎn)化為強化學(xué)習(xí)問題，由馬爾科夫決策過程來表示。方法步驟為：S1、根據(jù)鄰井歷史鉆井?dāng)?shù)據(jù)優(yōu)化鉆進參數(shù)作為智能體初始狀態(tài)；S2、實施并評價鉆前鉆進參數(shù)優(yōu)化策略，控制鉆進參數(shù)探索的方向；S3、利用獎勵函數(shù)控制動作，生成隨機鉆進參數(shù)優(yōu)化策略，主動探索不同鉆進參數(shù)對機械鉆速的影響。S4、重復(fù)步驟S2、S3，在鉆進參數(shù)調(diào)控安全約束條件下探尋最優(yōu)鉆進參數(shù)組合。本發(fā)明提出的基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法將鉆井工程與人工智能算法有效融合，使鉆機具備了自主調(diào)控鉆進參數(shù)的能力，對于實現(xiàn)智能鉆井有重要意義。

技術(shù)研發(fā)人員：趙修文,尹虎,李黔,王鈞澤,陳齊
受保護的技術(shù)使用者：西南石油大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙修文,尹虎,李黔,王鈞澤,陳齊
技術(shù)所有人：西南石油大學(xué)
我是此專利的發(fā)明人

上一篇：一種自動下料的閥芯橡膠墊磨面設(shè)備的制作方法
上一篇：一種連鑄機用調(diào)弧裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、湯老師：1.生態(tài)環(huán)境材料與污染治理 2.新能源材料、礦物材料的教學(xué)和無機非金屬礦物新材料 3.新技術(shù)的開發(fā)研究
2、李老師：1.深基坑與深基礎(chǔ)工程理論、設(shè)計方法與關(guān)鍵施工技術(shù) 2.地下結(jié)構(gòu)共同工作集約化分析理論和設(shè)計方法
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于強化學(xué)習(xí)的鉆進參數(shù)自適應(yīng)調(diào)控方法