本發(fā)明屬于智能識別領域,尤其涉及船舶名稱智能識別方法。
背景技術:
1、在現(xiàn)代航運業(yè)中,船舶名稱的準確識別在港口管理、船舶監(jiān)控和航行安全等方面扮演著重要角色。然而,船舶名稱識別的復雜性和多樣性使其成為一個技術難題。傳統(tǒng)的船名識別方法主要依賴于人工監(jiān)控和簡單的圖像處理技術,這些方法在面對不同的船名標識風格、復雜的背景、變化的環(huán)境條件和多語言支持等挑戰(zhàn)時,表現(xiàn)出明顯的局限性。具體來說,傳統(tǒng)方法往往在以下幾個方面存在問題:
2、多樣化的船名標識風格:船舶名稱可能采用各種不同的字體、顏色、大小和排版方式,傳統(tǒng)的圖像處理方法難以適應這種多樣性,導致識別率較低。
3、變化的環(huán)境條件:船舶在不同的季節(jié)、時間段、天氣條件下,其名稱標識的可見度和清晰度會受到影響。傳統(tǒng)的靜態(tài)圖像處理方法難以應對光照、角度和背景變化帶來的挑戰(zhàn),常常導致誤報和漏報。
4、多語言支持:隨著國際航運的普及,船舶名稱中包含多種語言的字符,如中文、英文和其他語言。傳統(tǒng)方法在多語言識別方面存在顯著不足,難以準確識別非本地語言的船名。
5、復雜背景:船名標識所在的背景可能包含復雜的圖案、顏色和污漬等干擾,進一步增加了識別的難度。傳統(tǒng)方法在復雜背景下的識別準確率較低。
6、實時性要求:在船舶進出港口、航行等過程中,實時識別船名對提高港口管理效率和航行安全至關重要。然而,傳統(tǒng)方法的處理速度往往無法滿足實時性要求。
7、針對上述問題,現(xiàn)有技術主要通過改進圖像處理算法和增強計算能力來提高識別效果,但仍存在明顯不足。這些方法在應對復雜的實際應用場景時,仍難以保證高精度和高魯棒性。具體來說,現(xiàn)有技術主要存在以下缺點:
8、識別精度不足:在面對多樣化的船名標識風格和復雜背景時,傳統(tǒng)方法的識別準確率較低。
9、適應性差:對不同環(huán)境條件和多語言支持的適應性較差,難以在多變的實際場景中應用。
10、實時性不足:傳統(tǒng)方法的處理速度較慢,難以滿足實時識別的需求。
技術實現(xiàn)思路
1、本發(fā)明的目的是提出船舶名稱智能識別方法,通過創(chuàng)新性地結合深度卷積神經(jīng)網(wǎng)絡、transformer和圖神經(jīng)網(wǎng)絡,并引入自監(jiān)督學習、多任務聯(lián)合訓練、attention機制、實時處理與動態(tài)調整等技術,不僅解決了現(xiàn)有技術在船名識別中的識別精度、適應性和實時性問題,還顯著提升了系統(tǒng)在復雜環(huán)境和多語言支持下的魯棒性和準確性。該方案在實際應用中具有廣泛的前景和潛在的商業(yè)價值。
2、為了達到上述目的,在本發(fā)明提供了船舶名稱智能識別方法,所述方法包括:
3、s1、采集船舶圖像和多種語言的船名標識樣本集合和多種語言的船名標識樣本集合,然后對船舶圖像和多種語言的船名標識樣本集合進行數(shù)據(jù)增強,并對增強后船舶圖像數(shù)據(jù)進行質量控制和標注校驗,將校驗船舶圖像數(shù)據(jù)與增強后的多種語言的船名標識樣本集合進行多模態(tài)數(shù)據(jù)融合,得到最終的數(shù)據(jù)集和標簽;
4、s2、在最終的數(shù)據(jù)集中進行特征提取,設計自監(jiān)督學習模型,將提取到的特征對自監(jiān)督學習模型進行對比學習預訓練,然后結合標簽再進行多任務訓練,得輸出訓練后的高質量特征表示數(shù)據(jù)集;
5、s3、構建基于深度卷積神經(jīng)網(wǎng)絡與transformer的混合模型,使用高質量特征表示數(shù)據(jù)集對混合模型進行訓練,得到混合模型輸出特征向量;
6、s4、設計任務,所述任務包括船名檢測子任務和字符識別子任務,然后根據(jù)混合模型輸出特征向量構建多任務共享模型,將多任務共享模型的輸出作為輸入輸入到船名檢測網(wǎng)絡中進行船名區(qū)域特征的提取,然后將船名檢測網(wǎng)絡中的船名區(qū)域特征輸入到字符識別網(wǎng)絡進行字符特征向量的提??;
7、s5、使用將船名區(qū)域特征和字符特征向量構建圖神經(jīng)網(wǎng)絡,并通過圖神經(jīng)網(wǎng)絡與多頭自注意力機制對船名區(qū)域特征和字符特征向量的關系進行優(yōu)化;
8、s6、將圖神經(jīng)網(wǎng)絡輸出的特征表示作為輕量級檢測模型的輸入,通過輕量級檢測模型進行實時船名區(qū)域的初步檢測并將初步檢測到的船名區(qū)域添加到圖神經(jīng)網(wǎng)絡輸出的特征表示,然后根據(jù)環(huán)境條件動態(tài)調整特征權重進行特征增強,將增強后的特征輸入到字符識別網(wǎng)絡進行字符識別得到識別到的船舶名稱字符。
9、進一步地,在所述s1中,所述數(shù)據(jù)增強包括光照變換增強、角度變換增強、背景替換增強;
10、所述多模態(tài)數(shù)據(jù)融合將每張圖像ii和其對應的元數(shù)據(jù)mi進行融合,表示如下:
11、fi=concat(φ(ii),ψ(mi))
12、其中,fi表示聯(lián)合特征表示,φ(ii)表示從圖像提取的特征,ψ(mi)表示從元數(shù)據(jù)提取的特征,concat表示拼接操作獲得聯(lián)合特征表示;使用聯(lián)合特征表示fi結合高質量標注數(shù)據(jù)集進行融合數(shù)據(jù)增強,其中融合公式,表示如下:
13、
14、生成豐富的增強樣本集合
15、進一步地,所述將提取到的特征對自監(jiān)督學習模型進行對比學習預訓練,具體包括:
16、對于每對增強圖像(ii,i′i),定義對比損失函數(shù),使得相同樣本的不同增強圖像的特征表示盡可能相似,不同樣本的特征表示盡可能不同。具體公式為:
17、
18、其中,zi和z′i表示相同圖像ii的不同增強版本的特征表示,sim(·,·)表示相似度函數(shù),τ表示溫度參數(shù);
19、對于每個原始圖像ii,生成兩種不同的數(shù)據(jù)增強版本ii,a和ii,b,使用基于resnet的編碼器f(·)提取特征表示,得到特征向量,并對特征向量進行l(wèi)2歸一化;
20、使用對比損失函數(shù)訓練編碼器f(·),優(yōu)化目標為最小化損失函數(shù),表示如下:
21、
22、對所有增強圖像進行特征提取,生成特征表示,并通過k-means聚類算法對特征表示進行聚類,生成偽標簽;
23、使用多任務學習框架,結合偽標簽分類任務和船名識別任務,進行聯(lián)合訓練,所述多任務學習框架的多任務損失函數(shù)為:
24、
25、其中,表示偽標簽分類損失,表示船名識別損失,λ表示權重超參數(shù);
26、其中,偽標簽分類損失,表示如下:
27、
28、其中,σk表示分類器的第k類輸出概率,k表示類別總數(shù),n表示樣本總數(shù);
29、船名識別損失,表示如下:
30、
31、其中,p(ri|ii)表示給定圖像ii的船名區(qū)域預測概率。
32、進一步地,使用預訓練的resnet50作為深度卷積神經(jīng)網(wǎng)絡的基礎模型,提取圖像的局部特征圖fi,將局部特征圖fi展開為二維矩陣然后進行展平操作得到特征序列si,定義位置編碼矩陣p∈r(h×w)×c,通過將位置編碼矩陣p∈r(h×w)×c添加到特征序列si中,得到特征序列s′i,使用多頭自注意力機制和前饋神經(jīng)網(wǎng)絡構建transformer編碼器,對特征序列s′i進行處理,得到輸出ti,將transformer編碼器層的輸出ti經(jīng)過全連接層,得到最終的輸出特征向量oi。
33、進一步地,所述多任務共享模型利用步驟s3中訓練好的混合模型提取圖像特征,共享特征提取網(wǎng)絡的輸出為fi,將共享特征fi輸入到船名檢測子網(wǎng)絡,預測船名區(qū)域的邊界框坐標和類別,再將船名檢測子網(wǎng)絡預測的船名區(qū)域特征ri輸入到字符識別子網(wǎng)絡,預測船名字符序列。
34、進一步地,所述船名檢測子網(wǎng)絡的輸出di,表示如下:
35、di=detectionhead(fi)
36、邊界框回歸和類別預測的損失函數(shù)分別為和表示如下:
37、
38、
39、其中,bj和分別表示真實和預測的邊界框坐標,cj和分別表示真實和預測的類別概率;
40、所述字符識別子網(wǎng)絡的輸出ci,表示如下:
41、ci=recognitionhead(ri))
42、字符識別的損失函數(shù)為連接性時序分類損失表示如下:
43、
44、其中,yi表示真實的字符序列標簽,p(yi|ci)表示給定特征ci的字符序列預測概率。
45、進一步地,將船名檢測子網(wǎng)絡的損失函數(shù)和字符識別子網(wǎng)絡的損失結合,得到訓練后的多任務總損失函數(shù)表示如下:
46、
47、其中,α、β和γ表示任務損失的權重超參數(shù),通過超參數(shù)調優(yōu)確定最優(yōu)值。
48、進一步地,將檢測到的船名區(qū)域內的字符構建成圖神經(jīng)網(wǎng)絡,字符作為圖的節(jié)點,字符間的關系作為圖的邊,然后對每個字符節(jié)點vi,使用字符識別子網(wǎng)絡的輸出特征向量初始化節(jié)點特征,使用圖卷積網(wǎng)絡進行節(jié)點特征更新,通過鄰接節(jié)點的信息傳播更新節(jié)點特征;所述圖卷積網(wǎng)絡的更新規(guī)則表示如下:
49、
50、其中,表示節(jié)點vi在第1層的特征向量,表示節(jié)點vi的鄰居節(jié)點集合,di和dj分別表示節(jié)點vi和vj的度,w(l)表示第1層的權重矩陣,σ表示激活函數(shù);
51、在圖卷積層的基礎上,使用多頭自注意力機制進一步融合節(jié)點特征,捕捉字符間的全局關聯(lián),其中,定義多頭自注意力機制,表示如下:
52、
53、其中,表示可學習的權重矩陣;
54、其中,注意力計算公式為:
55、
56、將多個頭的輸出拼接并通過線性變換得到最終輸出:
57、
58、其中,wo為輸出權重矩陣。
59、進一步地,使用交叉熵損失函數(shù)對圖神經(jīng)網(wǎng)絡進行訓練,最小化預測輸出與真實標簽之間的差異,所述交叉熵損失函數(shù)表示如下:
60、
61、其中,yi表示圖像ii的真實標簽,og表示模型預測輸出;
62、為了防止模型過擬合,引入l2正則化項表示如下:
63、
64、其中,λ為正則化系數(shù),wk為模型中的可學習參數(shù)。
65、定義圖神經(jīng)網(wǎng)絡的總損失函數(shù)為:
66、
67、使用adam優(yōu)化器進行圖神經(jīng)網(wǎng)絡參數(shù)的優(yōu)化,優(yōu)化目標為最小化總損失函數(shù),表示如下:
68、
69、其中,θ表示圖神經(jīng)網(wǎng)絡的所有可學習參數(shù)。
70、進一步地,在進行實時識別的時候,設計動態(tài)權重調整機制,根據(jù)實時光照、角度和背景變化調整特征權重,定義權重調整函數(shù)tadjust:
71、(α,β,γ)=tadjust(li,j,ai,j,ci,j)
72、其中,tadjust通過一個多層感知機mlp實現(xiàn),表示如下:
73、tadjust(li,j,ai,j,ci,j)=mlp(concat(li,j,ai,j,ci,j))
74、其中,α,β,γ表示實時光照、角度和背景變化調整特征權重,li,j,ai,j,ci,j表示實時光照、角度和背景變化的特征。
75、本發(fā)明的有益技術效果至少在于以下:
76、(1)本發(fā)明通過結合cnn和transformer的混合模型,利用cnn提取局部特征,再通過transformer捕捉全局特征和上下文關系。這種創(chuàng)新性架構不僅能夠處理船名標識的細節(jié),還能增強對復雜背景和多樣性船名的識別能力,從而大幅提高識別精度。
77、(2)本發(fā)明利用自監(jiān)督學習技術,在無標簽數(shù)據(jù)上進行預訓練,生成偽標簽,降低數(shù)據(jù)標注成本。同時,設計多任務聯(lián)合訓練模型,結合船名檢測、字符識別和背景分割三個任務,提升模型的泛化能力和準確性,特別是在不同環(huán)境條件和多語言支持方面具有顯著優(yōu)勢。
78、(3)本發(fā)明利用gnn捕捉字符間的空間關系和結構信息,通過attention機制增強字符間的關聯(lián)性和上下文信息。此設計不僅提高了復雜背景下的字符檢測精度,還增強了模型在多語言環(huán)境下的適應性。
79、(4)為了滿足實時性的需求,本發(fā)明采用輕量級的yolo或ssd進行船名區(qū)域的初步檢測,確保識別過程的快速響應。同時,設計自適應特征增強模塊,根據(jù)實時光照、角度和背景動態(tài)調整特征權重,優(yōu)化識別效果,確保在不同環(huán)境條件下的高精度識別。
80、(5)本發(fā)明設計多語言字符識別模塊,支持中、英文及其他主要語言的船名識別。通過字符歸一化算法,將多行印刷的船名標識字符歸一化到同一行,提高字符的可識別性,從而增強多語言識別的準確性。