本技術涉及船舶控制,尤其涉及一種船舶自動靠泊控制方法、系統(tǒng)、電子設備及存儲介質(zhì)。
背景技術:
1、船舶自動靠泊技術的研究始于1970年代,隨著船舶工業(yè)的發(fā)展和航運任務的復雜性,對自動靠泊技術的需求越來越高。自動靠泊系統(tǒng)可以提高船舶的安全性和效率,減少人為操作錯誤和不必要的停機時間,還可以緩解船員的工作壓力,因此它已成為船舶控制系統(tǒng)不可或缺的一部分。船舶自動靠泊技術的研究主要涉及船舶動力學、控制理論、計算機技術等多個領域。自動靠泊系統(tǒng)的設計和實現(xiàn)需要結(jié)合船舶的特點和實際應用要求,同時選擇合適的控制算法和控制策略。而內(nèi)河集裝箱船在靠泊過程中,需要考慮大量情況。一方面由于受到風、浪、流以及變效應的影響,會產(chǎn)生復雜的動力學行為,難以精準操控船舶運行,需要經(jīng)驗豐富的船員來完成靠泊過程。另一方面靠泊過程中的低速航行,難以對船舶進行精準建模。目前船舶自動靠泊系統(tǒng)的研究,都是通過船舶靠泊數(shù)據(jù)作為訓練數(shù)據(jù)對于人工神經(jīng)網(wǎng)絡進行訓練,以利用訓練好的兩種模型分別進行軌跡規(guī)劃和控制,這種方式要求大量的訓練數(shù)據(jù)和大量訓練時間,針對船舶自動靠離泊算法的工作量較大且建模精度低,導致船舶自動靠泊過程碰撞風險大。
技術實現(xiàn)思路
1、本技術實施例的主要目的在于提出一種船舶自動靠泊控制方法、系統(tǒng)、電子設備及存儲介質(zhì),減少船舶自動靠離泊算法建模的工作量,提高建模精度,提高船舶自動靠泊過程安全性。
2、為實現(xiàn)上述目的,本技術實施例的一方面提出了一種船舶自動靠泊控制方法,包括以下步驟:
3、獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,其中,所述運動狀態(tài)數(shù)據(jù)包括船舶航速;
4、將所述運動狀態(tài)數(shù)據(jù)和所述第一相對距離輸入用于船舶自動靠泊的控制策略模型,得到下一時刻的船舶控制量,其中,所述船舶控制量包括船舶舵角與轉(zhuǎn)速;
5、其中,所述控制策略模型基于強化學習算法訓練得到,所述控制策略模型的訓練過程包括以下步驟:
6、獲取環(huán)境交互數(shù)據(jù);
7、通過最大化目標函數(shù),根據(jù)所述環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡,并根據(jù)所述價值網(wǎng)絡和所述環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡,其中,所述目標函數(shù)表征策略網(wǎng)絡輸出的動作的累計獎勵值,所述動作表征船舶控制量;
8、根據(jù)訓練好的策略網(wǎng)絡確定控制策略模型。
9、在一些實施例中,所述獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,包括以下步驟:
10、通過設置在船舶上的微波雷達陣列采集船舶與岸邊的第二相對距離;
11、通過設置在船舶上的定位裝置采集船舶位置;
12、根據(jù)所述第一相對距離、所述船舶位置和目標泊位位置確定第一相對距離;
13、通過設置在船舶上的電子航向儀采集運動狀態(tài)數(shù)據(jù)。
14、在一些實施例中,所述獲取環(huán)境交互數(shù)據(jù),包括以下步驟:
15、獲取靠泊任務信息,其中,所述靠泊任務信息包括環(huán)境地圖、目標泊位和獎勵函數(shù);
16、根據(jù)船舶數(shù)學模型和所述靠泊任務信息構(gòu)造子進程下的強化學習環(huán)境;
17、基于所述強化學習環(huán)境,采用主進程的控制策略指導智能體的行為,得到子進程的環(huán)境反饋數(shù)據(jù);
18、根據(jù)各個子進程下的環(huán)境反饋數(shù)據(jù)確定環(huán)境交互數(shù)據(jù)。
19、在一些實施例中,所述目標函數(shù)表示如下:
20、
21、
22、其中,r(sk,ak)表示定義好的獎勵函數(shù),t是設定好的靠泊任務時長,sk=[uk,vk,φk,xk,yk,ψk]t是狀態(tài)向量,xk、yk表示船舶位置,uk,vk分別表示縱向速度與橫漂速度,ψk表示船舶航向,φk表示艏搖角速度,動作表示船舶控制量,表示推進器推力、表示舵力矩;si表示船舶初始狀態(tài),sf表示在策略網(wǎng)絡控制下達到的目標終止狀態(tài);smin和smax分別表示狀態(tài)最小值和狀態(tài)最大值,amin和amax分別表示動作最小值和動作最大值。
23、在一些實施例中,所述獎勵函數(shù)表示為:
24、
25、其中,β表示權(quán)重因子,α為大于零的系數(shù),sk表示當前狀態(tài),sf表示目標終止狀態(tài),c表示常數(shù)。
26、在一些實施例中,所述通過最大化目標函數(shù),根據(jù)所述環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡,并根據(jù)所述價值網(wǎng)絡和所述環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡,包括以下步驟:
27、根據(jù)所述環(huán)境交互數(shù)據(jù)中當前批次訓練數(shù)據(jù)訓練價值網(wǎng)絡;
28、將所述當前批次訓練數(shù)據(jù)中的狀態(tài)輸入策略網(wǎng)絡得到下一時刻的動作分布;
29、采用所述價值網(wǎng)絡對下一時刻的動作分布進行動作選擇,得到目標動作;
30、根據(jù)所述目標動作相對應的狀態(tài)確定目標函數(shù)的值;
31、根據(jù)所述目標函數(shù)的值確定當前是否找到目標函數(shù)最大值;
32、當沒有找到目標函數(shù)最大值,則更新所述策略網(wǎng)絡的參數(shù),并根據(jù)所述環(huán)境交互數(shù)據(jù)中下一批次訓練數(shù)據(jù)繼續(xù)訓練所述價值網(wǎng)絡和所述策略網(wǎng)絡;
33、當找到目標函數(shù)最大值,則將當前的策略網(wǎng)絡確定為訓練完成的策略網(wǎng)絡。
34、在一些實施例中,所述更新所述策略網(wǎng)絡的參數(shù)包括以下步驟:
35、確定當前的訓練次數(shù);
36、根據(jù)所述訓練次數(shù)選擇相應的代理目標用于指導策略網(wǎng)絡的參數(shù)更新,其中,當所述訓練次數(shù)小于預設次數(shù),則選擇第一代理目標;當所述訓練次數(shù)大于或等于預設次數(shù),則選擇第二代理目標;
37、其中,所述第一代理目標表示如下:
38、
39、所述第二代理目標表示如下:
40、
41、其中,∈代表截斷超參數(shù),clup()表示截斷函數(shù),rt表示新舊策略比值,表示優(yōu)勢函數(shù)。
42、為實現(xiàn)上述目的,本技術實施例的另一方面提出了一種船舶自動靠泊控制系統(tǒng),包括:
43、第一模塊,用于獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,其中,所述運動狀態(tài)數(shù)據(jù)包括船舶航速;
44、第二模塊,用于將所述運動狀態(tài)數(shù)據(jù)和所述第一相對距離輸入用于船舶自動靠泊的控制策略模型,得到下一時刻的船舶控制量,其中,所述船舶控制量包括船舶舵角與轉(zhuǎn)速;
45、其中,所述控制策略模型基于強化學習算法訓練得到,所述控制策略模型的訓練過程包括以下步驟:
46、獲取環(huán)境交互數(shù)據(jù);
47、通過最大化目標函數(shù),根據(jù)所述環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡,并根據(jù)所述價值網(wǎng)絡和所述環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡,其中,所述目標函數(shù)表征策略網(wǎng)絡輸出的動作的累計獎勵值,所述動作表征船舶控制量;
48、根據(jù)訓練好的策略網(wǎng)絡確定控制策略模型。
49、為實現(xiàn)上述目的,本技術實施例的另一方面提出了一種電子設備,所述電子設備包括存儲器、處理器、存儲在所述存儲器上并可在所述處理器上運行的程序以及用于實現(xiàn)所述處理器和所述存儲器之間的連接通信的數(shù)據(jù)總線,所述程序被所述處理器執(zhí)行時實現(xiàn)上述實施例所述的方法。
50、為實現(xiàn)上述目的,本技術實施例的另一方面提出了一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),用于計算機可讀存儲,所述存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)上述實施例所述的方法。
51、本技術提出的船舶自動靠泊控制方法、系統(tǒng)、電子設備及存儲介質(zhì),其通過獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,將運動狀態(tài)數(shù)據(jù)和第一相對距離輸入用于船舶自動靠泊的控制策略模型,得到下一時刻的船舶控制量??刂撇呗阅P突趶娀瘜W習算法訓練得到,即獲取環(huán)境交互數(shù)據(jù),通過最大化目標函數(shù),根據(jù)環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡,并根據(jù)價值網(wǎng)絡和環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡,其中,目標函數(shù)表征策略網(wǎng)絡輸出的動作的累計獎勵值,動作表征船舶控制量,然后根據(jù)訓練好的策略網(wǎng)絡確定控制策略模型。本技術利用強化學習使得靠泊任務過程中不再依賴船舶運動模型來控制船舶的運動,同時也不需要大量的訓練數(shù)據(jù),通過強化學習算法可以減少船舶自動靠離泊算法建模的工作量,提高建模精度,從而提高船舶自動靠泊過程安全性。