本發(fā)明涉及圖像識別,尤其涉及一種工業(yè)圖紙關(guān)鍵符號語義識別方法及系統(tǒng)。
背景技術(shù):
1、在工業(yè)領(lǐng)域,尤其是涉及復(fù)雜結(jié)構(gòu)和精密制造的工程項目中,工業(yè)圖紙是至關(guān)重要的工具。圖紙不僅詳細(xì)記錄了設(shè)備的設(shè)計參數(shù)、規(guī)格要求、安裝位置和連接方式等信息,還包含了各種物料編碼、元器件編號以及特定的技術(shù)符號和注釋,用以指導(dǎo)現(xiàn)場施工和后期維護(hù)。
2、目前,常用ocr模型進(jìn)行識別,其在常規(guī)文檔識別的準(zhǔn)確率上已經(jīng)達(dá)到了相當(dāng)高的水平,但在工程圖紙中物料編碼、元器件編號等文字及符號的識別方面,這些通用模型卻存在顯著的不足。主要源于以下幾個技術(shù)缺陷:工程圖紙的圖像尺寸通常很大,而其中的文字和符號相對較小。這種尺寸差異使得ocr模型在檢測小尺寸文字時的識別能力受到限制,容易導(dǎo)致識別結(jié)果的不準(zhǔn)確。其次,文字與符號框貼合較近的情況也使得識別過程變得復(fù)雜,ocr模型可能將相鄰的字符或符號錯誤地合并,造成誤識別。此外,工程圖紙通常包含多個器件,且部分器件的符號容易被誤識別為文字,增加了模型處理的難度;同時,符號在圖紙上的分布方向往往非常隨意,從而影響識別的全面性和準(zhǔn)確性。另一方面,目標(biāo)檢測技術(shù)的進(jìn)步使得圖紙符號的自動定位變得更加高效,許多現(xiàn)有的研究采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)等深度學(xué)習(xí)算法來準(zhǔn)確地定位和分類圖紙中的符號,但這些方法通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。
3、因此,需要一種能夠提升工業(yè)圖紙文本和符號的識別精度,同時實現(xiàn)更高效的信息提取和利用的方法。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明提供了一種工業(yè)圖紙關(guān)鍵符號語義識別方法及系統(tǒng)解決目前工業(yè)圖紙中小尺寸文字的識別、漏識別以及誤識別,信息提取不夠高效精準(zhǔn)的問題。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
4、第一方面,本發(fā)明提供了一種工業(yè)圖紙關(guān)鍵符號語義識別方法,包括:獲取工業(yè)圖紙;
5、對工業(yè)圖紙進(jìn)行圖像分割,利用具有微調(diào)方法的圖像編碼器進(jìn)行編碼,得到圖像嵌入向量,根據(jù)圖紙中的器件圖像生成邊界框提示信息,基于邊界框提示信息得到提示編碼,將圖像嵌入向量與提示編碼聯(lián)合輸入生成最終器件掩碼圖,以得到最終器件圖;
6、通過文本檢測算法對分割得到的每個器件圖進(jìn)行文本檢測,包括對器件圖進(jìn)行特征提取,并生成若干個候選檢測框信息,通過候選檢測框中心點(diǎn)和比例信息,得到參考點(diǎn);基于參考點(diǎn)形成復(fù)合查詢,用于生成文本檢測框的坐標(biāo)并優(yōu)化,以定位器件圖中的文本區(qū)域;
7、對所述文本區(qū)域通過文本識別算法進(jìn)行文本識別,以得到文字和符號的語義信息。
8、作為本發(fā)明所述的工業(yè)圖紙關(guān)鍵符號語義識別方法的一種優(yōu)選方案,其中:利用具有微調(diào)方法的圖像編碼器進(jìn)行編碼,得到圖像嵌入向量,包括:
9、在sam的圖像編碼器的每個transformer塊中引入微調(diào)方法dora;
10、通過dora將圖像編碼器的權(quán)重參數(shù)分解為幅值和方向兩個部分進(jìn)行微調(diào);
11、利用低秩結(jié)構(gòu)lora更新方向部分的參數(shù),幅值部分的參數(shù)不參與梯度更新,以得到圖像嵌入向量。
12、作為本發(fā)明所述的工業(yè)圖紙關(guān)鍵符號語義識別方法的一種優(yōu)選方案,其中:根據(jù)圖紙中器件圖像生成邊界框提示信息,包括:
13、將resnet-50作為骨干網(wǎng)絡(luò),結(jié)合多層次特征融合策略,將骨干網(wǎng)絡(luò)的多層卷積通過上采樣和拼接進(jìn)行特征融合,以得到多層融合特征;
14、通過兩個不同空洞率的第一卷積層和一個第二卷積層,將所述多層融合特征生成第一邊界框提示信息;
15、設(shè)置loss-box進(jìn)行不斷的迭代訓(xùn)練,使得第一邊界框提示信息更加接近真實值,更新得到第二邊界框提示信息。
16、作為本發(fā)明所述的工業(yè)圖紙關(guān)鍵符號語義識別方法的一種優(yōu)選方案,其中:通過文本檢測算法對分割得到的每個器件圖進(jìn)行文本檢測,包括對器件圖進(jìn)行特征提取,并生成若干個候選檢測框信息,通過候選檢測框中心點(diǎn)和比例信息,得到參考點(diǎn),具體包括:
17、提取器件圖輸入到resnet-50主干網(wǎng)絡(luò)以及transformer編碼器進(jìn)行特征提??;
18、基于提取的特征在最終的編碼層生成若干個候選檢測框信息;
19、通過候選檢測框的中心點(diǎn)和比例信息,在頂部和底部利用貝塞爾中心曲線的顯式采樣預(yù)設(shè)數(shù)量的參考點(diǎn)坐標(biāo),用作可變形交叉注意模塊的參考點(diǎn)。
20、作為本發(fā)明所述的工業(yè)圖紙關(guān)鍵符號語義識別方法的一種優(yōu)選方案,其中:基于參考點(diǎn)形成復(fù)合查詢,包括:
21、在解碼器中,對貝塞爾中心曲線生成的參考點(diǎn)坐標(biāo)進(jìn)行編碼,用于對象查詢;
22、將對象查詢添加到相應(yīng)的參考點(diǎn)內(nèi)容查詢中,形成復(fù)合查詢,并反饋至可變形交叉注意力模塊。
23、作為本發(fā)明所述的工業(yè)圖紙關(guān)鍵符號語義識別方法的一種優(yōu)選方案,其中:生成文本檢測框的坐標(biāo)并優(yōu)化,包括:
24、所述復(fù)合查詢經(jīng)過可變形交叉注意力模塊的處理后,利用預(yù)測頭生成文本檢測框的坐標(biāo);
25、設(shè)置檢測框損失函數(shù),在每次迭代訓(xùn)練中,最小化所述損失函數(shù),以提取每張器件圖中每個文本的坐標(biāo),從而定位器件圖中的文本區(qū)域。
26、作為本發(fā)明所述的工業(yè)圖紙關(guān)鍵符號語義識別方法的一種優(yōu)選方案,其中:對所述文本區(qū)域通過文本識別算法進(jìn)行文本識別,以得到文字和符號的語義信息,包括:
27、通過svtr?模型將文本區(qū)域分割成若干小文本塊,并表示為字符分量;
28、分階段對所述字符分量,進(jìn)行特征混合、合并和拼接操作,以感知字符內(nèi)和字符間的特征模式;
29、基于所述特征模式,通過線性預(yù)測進(jìn)行字符識別。
30、第二方面,本發(fā)明提供了一種工業(yè)圖紙關(guān)鍵符號語義識別系統(tǒng),包括:
31、獲取模塊,用于獲取工業(yè)圖紙;
32、分割模塊,用于對工業(yè)圖紙進(jìn)行圖像分割,利用具有微調(diào)方法的圖像編碼器進(jìn)行編碼,得到圖像嵌入向量,根據(jù)圖紙中的器件圖像生成邊界框提示信息,基于邊界框提示信息得到提示編碼,將圖像嵌入向量與提示編碼聯(lián)合輸入生成最終器件掩碼圖,以得到最終器件圖;
33、文本檢測模塊,用于通過文本檢測算法對分割得到的每個器件圖進(jìn)行文本檢測,包括對器件圖進(jìn)行特征提取,并生成若干個候選檢測框信息,通過候選檢測框中心點(diǎn)和比例信息,得到參考點(diǎn);基于參考點(diǎn)形成復(fù)合查詢,用于生成文本檢測框的坐標(biāo)并優(yōu)化,以定位器件圖中的文本區(qū)域;
34、文本識別模塊,用于對所述文本區(qū)域通過文本識別算法進(jìn)行文本識別,以得到文字和符號的語義信息。
35、第三方面,本發(fā)明提供了一種電子設(shè)備,包括:
36、存儲器和處理器;
37、所述存儲器用于存儲計算機(jī)可執(zhí)行指令,所述處理器用于執(zhí)行所述計算機(jī)可執(zhí)行指令,該計算機(jī)可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)工業(yè)圖紙關(guān)鍵符號語義識別方法的步驟。
38、第四方面,本發(fā)明提供了一種計算機(jī)可讀存儲介質(zhì),其存儲有計算機(jī)可執(zhí)行指令,該計算機(jī)可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)所述工業(yè)圖紙關(guān)鍵符號語義識別方法的步驟。
39、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明通過設(shè)計基于基礎(chǔ)模型sam的通用圖紙分割模型drawsam利用高效微調(diào)方法dora進(jìn)行自適應(yīng)微調(diào)sam,結(jié)合box?generator提示生成器進(jìn)行圖像分割,能夠適應(yīng)多樣化的圖紙類型和復(fù)雜結(jié)構(gòu)布局,提升圖紙中文字及符號的檢測和識別準(zhǔn)確率與效率;并通過優(yōu)化的文本檢測算法drawdetr,減少了在識別工程圖紙時的誤識別率,提高了識別的準(zhǔn)確性,有效解決了通用ocr模型在此領(lǐng)域的誤識別和符號無法識別的問題,顯著提升了圖紙電子化數(shù)據(jù)的檢索與應(yīng)用,滿足工業(yè)需求。