一種基于FaPN、SwinTransformer和RRPN的證件圖像處理方法

文檔序號(hào)：40598222發(fā)布日期：2025-01-07 20:38閱讀：6來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及證件圖像檢測(cè)，具體為一種基于fapn、swin?transformer和rrpn的證件圖像處理方法。

背景技術(shù)：

1、在當(dāng)今社會(huì)，隨著工業(yè)化和全球化的不斷推進(jìn)，危險(xiǎn)貨物的運(yùn)輸已成為現(xiàn)代物流體系中不可或缺的一環(huán)。危險(xiǎn)化學(xué)品(?；?的運(yùn)輸是一個(gè)高度專業(yè)化且風(fēng)險(xiǎn)極高的行業(yè)。?；返恼_識(shí)別、分類、包裝、標(biāo)記和文檔管理對(duì)于確保運(yùn)輸安全至關(guān)重要。?；奋囕v運(yùn)輸與國(guó)家和人們的人身安全和財(cái)產(chǎn)安全有直接關(guān)系，對(duì)運(yùn)輸危險(xiǎn)貨物的專業(yè)人員進(jìn)行嚴(yán)格的管理和監(jiān)督顯得尤為重要[1]。其中，?；纷鳂I(yè)過(guò)程包括查驗(yàn)相關(guān)手續(xù)是否齊全有效[2]，核驗(yàn)運(yùn)輸人員的專業(yè)證件及其有效期限，是確保運(yùn)輸安全的關(guān)鍵步驟之一。

2、隨著計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展，利用這一技術(shù)來(lái)提高運(yùn)輸危化品證件處理的自動(dòng)化和準(zhǔn)確性已成為可能。利用計(jì)算機(jī)視覺(jué)技術(shù)能夠通過(guò)圖像識(shí)別和分析技術(shù)，快速準(zhǔn)確地提取運(yùn)輸危化品證件中的關(guān)鍵信息，如名稱、姓名、有效期限運(yùn)輸標(biāo)識(shí)等，從而極大地提高了工作效率和安全性。

3、證件信息提取靠人工來(lái)實(shí)現(xiàn)，信息中存在大量數(shù)字，其效率和準(zhǔn)確率難以滿足業(yè)務(wù)需求。

4、基于深度學(xué)習(xí)的文本檢測(cè)在證件圖像檢測(cè)分析中起著至關(guān)重要的作用，并在多類證件任務(wù)[3]，[4]，[5]中取得了令人印象深刻的表現(xiàn)，例如復(fù)雜場(chǎng)景下證件圖像的檢測(cè)[6]，[7]，以及證件真?zhèn)斡行缘臋z測(cè)[8]，[9]，[10]。準(zhǔn)確高效的證件圖像檢測(cè)不僅可以精準(zhǔn)定位關(guān)鍵信息區(qū)域，還可以輔助證件信息識(shí)別研究[11]，[12]提供可靠的依據(jù)，在身份驗(yàn)證和安全保障監(jiān)測(cè)中具有潛在的應(yīng)用價(jià)值。

5、針對(duì)各類證件的圖像檢測(cè)領(lǐng)域，現(xiàn)有的研究多種多樣。2016年tianz等人在fast-rcnn的基礎(chǔ)上改進(jìn)并提出ctpn[13]，用于水平文本的檢測(cè)。2017年minghui?liao在ssd框架的基礎(chǔ)上提出textbox方法[14]。east[15]和seglink[16]在2017年的cvpr(conference?oncomputer?vision?and?pattern?recognition)會(huì)議上發(fā)表，實(shí)現(xiàn)場(chǎng)景文本檢測(cè)。2018年pixellink[17]結(jié)合像素級(jí)分割和鏈接預(yù)測(cè)來(lái)檢測(cè)文本。2020年dbnet[18]實(shí)現(xiàn)高效且準(zhǔn)確的場(chǎng)景文本檢測(cè)，特別是在處理任意形狀的文本。以上強(qiáng)調(diào)對(duì)網(wǎng)絡(luò)架構(gòu)的增強(qiáng)，以更好地檢測(cè)目標(biāo)區(qū)域。這些研究共同推動(dòng)了文本檢測(cè)的準(zhǔn)確和效率。

6、在證件檢測(cè)過(guò)程中由于以下兩點(diǎn)：第一，證件圖像中的信息可能包含不同大小的文本和印章。第二，證件可能存在旋轉(zhuǎn)、傾斜或部分遮擋。常用的網(wǎng)絡(luò)有r-cnn[19]，fast?r-cnn[20]，fasterr-cnn[21]，這些網(wǎng)絡(luò)在目標(biāo)檢測(cè)領(lǐng)域取得了顯著的成果，特別是fasterr-cnn通過(guò)引入?yún)^(qū)域建議網(wǎng)絡(luò)，顯著提高了檢測(cè)速度和準(zhǔn)確性。但相對(duì)于更現(xiàn)代的網(wǎng)絡(luò)yolo[22]和ssd[23]，其速度仍然較慢。這些網(wǎng)絡(luò)在處理小目標(biāo)時(shí)可能表現(xiàn)不佳。mask?r-cnn[24]進(jìn)行目標(biāo)檢測(cè)，能夠更好地處理旋轉(zhuǎn)、傾斜和部分遮擋的目標(biāo)，但是計(jì)算成本較高。

7、因此需要對(duì)以上問(wèn)題提出一種新的解決方案。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于fapn、swin?transformer和rrpn的證件圖像處理方法，旨在提高證件檢測(cè)方法的性能，提出一種高效準(zhǔn)確的檢測(cè)方法，推動(dòng)相關(guān)領(lǐng)域的智能化進(jìn)程，以解決背景技術(shù)中提出的技術(shù)問(wèn)題。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于fapn、swin?transformer和rrpn的證件圖像處理方法，至少包括以下步驟：

3、s1：搭建基于swin?transformer網(wǎng)絡(luò)的主干網(wǎng)絡(luò)，采用了基于窗口的w-msa，通過(guò)限制自注意力的計(jì)算范圍在局部窗口內(nèi)，解決計(jì)算效率問(wèn)題，并通過(guò)采用基于移位窗口的sw-msa，解決交互問(wèn)題，采用兩個(gè)連續(xù)的swin?transformer模塊通過(guò)交替使用w-msa和sw-msa，實(shí)現(xiàn)局部和全局特征的有效結(jié)合；

4、s2：在s1的基礎(chǔ)上增加fapn網(wǎng)絡(luò)，通過(guò)更精細(xì)的特征聚合策略來(lái)增強(qiáng)特征的表達(dá)能力，提高檢測(cè)的準(zhǔn)確性和魯棒性；

5、s3：在s2的基礎(chǔ)上增加rrpn網(wǎng)絡(luò)，用于生成旋轉(zhuǎn)不變的候選區(qū)域，提高檢測(cè)證件上的傾斜或旋轉(zhuǎn)文本的準(zhǔn)確性。

6、進(jìn)一步地，所述s1中swin?transformer網(wǎng)絡(luò)的主干網(wǎng)絡(luò)的應(yīng)用至少包括以下步驟：

7、通過(guò)采用移位窗口劃分方法，其中zl、zl+1和的計(jì)算可表示為，用以下方程表示：

8、

9、式中：h和w分別代表圖像在高度和寬度方向上的像素?cái)?shù)，msa為多頭自注意力，ln為層歸一化；

10、和zl表示塊l的(s)wmsa模塊和mlp模塊的輸出特征；

11、和zl+1表示塊l+1的(s)wmsa模塊和mlp模塊的輸出特征；

12、當(dāng)處理的是尺寸為1024×1024×3的圖像時(shí)，圖像首先通過(guò)patchpartition模塊被分割成4×4的patch(小塊)，每個(gè)patch被視為一個(gè)新的特征向量，其維度為4×4×3＝48，這樣處理后，圖像被轉(zhuǎn)換成一個(gè)規(guī)模為256×256×48的張量；

13、第一階段，所述patch特征向量首先經(jīng)過(guò)一個(gè)線性編碼層，被轉(zhuǎn)換為96維的token，隨后這些token被輸入到swintransformerblock進(jìn)行進(jìn)一步處理；從第二階段開(kāi)始，每個(gè)階段都由patch?merging模塊和swin?transformerblock組成；

14、在第二階段，patch?merging模塊將規(guī)模為256×256×96的張量進(jìn)行拆分和合并操作，生成一個(gè)規(guī)模為128×128×384的新張量；

15、為了與其他模型保持一致性，這個(gè)張量隨后通過(guò)一個(gè)1×1的卷積核被轉(zhuǎn)換為128×128×192的規(guī)模；

16、因此，第二階段的張量規(guī)模從256×256×96轉(zhuǎn)變?yōu)?28×128×192；

17、在第三階段和第四階段，張量的規(guī)模分別進(jìn)一步縮小為64×64×384和32×32×768，以適應(yīng)后續(xù)的處理需求；

18、整個(gè)過(guò)程確保了圖像數(shù)據(jù)在不同階段都能有效地被處理和分析。

19、進(jìn)一步地，所述s2至少包括以下步驟：

20、通過(guò)引入一個(gè)特征對(duì)齊模塊來(lái)替代傳統(tǒng)特征金字塔網(wǎng)絡(luò)中的1×1卷積層，該模塊能夠?qū)W習(xí)像素級(jí)的偏移量，從而在上采樣過(guò)程中實(shí)現(xiàn)高分辨率特征與上下文信息的對(duì)齊；

21、在上采樣后增加一個(gè)特征選擇模塊，該模塊能夠?qū)⒆⒁饬性谀切┌S富空間細(xì)節(jié)的低分辨率特征上，以此來(lái)增強(qiáng)特征的表達(dá)能力和檢測(cè)性能。

22、進(jìn)一步地，所述引入一個(gè)特征對(duì)齊模塊至少包括以下步驟：

23、在特征融合之前，在特征融合之前，把和特征進(jìn)行對(duì)齊。特征對(duì)齊可以數(shù)學(xué)公式表示為：

24、

25、其中是和的拼接，提供了上采樣和對(duì)應(yīng)的自底向上特征之間的空間差異；

26、fo()和fa()分別表示從空間差異學(xué)習(xí)偏移量δi的函數(shù)，以及根據(jù)偏移量將特征對(duì)齊的函數(shù)；

27、所述增加一個(gè)特征選擇模塊至少包括以下步驟：

28、提取空間細(xì)節(jié)的特征映射，首先通過(guò)全局平均池化操作提取特征圖ci的全局信息；

29、之后輸入到1×1卷積層和sigmoid激活函數(shù)中，即fm；

30、得到重要特征向量u，將ci用u進(jìn)行縮放；

31、然后將縮放后的ci添加到原始的ci中；

32、最后通過(guò)一個(gè)1×1卷積層，即fs，保留重要通道，丟棄不重要的通道。

33、進(jìn)一步地，所述rrpn模塊包括旋轉(zhuǎn)邊界框、旋轉(zhuǎn)的錨點(diǎn)、候選區(qū)域?qū)W習(xí)、區(qū)域提取網(wǎng)絡(luò)的優(yōu)化和rroi池層。

34、進(jìn)一步地，所述旋轉(zhuǎn)檢測(cè)框被表示為(x,y,h,w,θ)；

35、其中(x,y)表示檢測(cè)框的幾何中心，h為檢測(cè)框的短邊，w為檢測(cè)框的長(zhǎng)邊，θ是正x軸與旋轉(zhuǎn)邊界框長(zhǎng)邊的夾角。

36、進(jìn)一步地，所述旋轉(zhuǎn)的錨點(diǎn)的應(yīng)用至少包括以下步驟：

37、rrpn模塊使用了6個(gè)不同的角度來(lái)控制目標(biāo)疑似區(qū)域的提取，即為：

38、長(zhǎng)寬比例采用3組(1:2，1:5，1:8)；

39、尺度上取3組(8，16，32)；

40、這樣就組合生成了6×3×3＝54個(gè)5維度的(x，y，h，w，θ)錨點(diǎn)；

41、對(duì)于寬高為w×h的特征圖會(huì)產(chǎn)生數(shù)目為w×h×54的錨點(diǎn)。

42、進(jìn)一步地，所述候選區(qū)域?qū)W習(xí)的應(yīng)用至少包括以下步驟：

43、對(duì)于檢測(cè)框的回歸，忽略背景roi，對(duì)目標(biāo)roi采用smooth-l1損失：

44、

45、尺度不變參數(shù)化元組v和v*的計(jì)算如下：

46、

47、其中，x、xa和x*分別用來(lái)表示預(yù)測(cè)框、錨定框和真實(shí)框，對(duì)于y、h、w和θ也是如此；

48、函數(shù)f(a,b)＝a-b+kπ，其中k∈z，使得

49、進(jìn)一步地，所述區(qū)域提取網(wǎng)絡(luò)的優(yōu)化為旋轉(zhuǎn)區(qū)域建議可以在任何方向生成；

50、因此，對(duì)水平框的iou計(jì)算可能會(huì)導(dǎo)致傾斜檢測(cè)框的iou檢測(cè)失真，因此使用考慮三角剖分的傾斜iou計(jì)算的實(shí)現(xiàn)給定一組斜矩形r1,r2,...,rn，目標(biāo)是計(jì)算每一對(duì)ri和rj的iou。

51、進(jìn)一步地，所述rroi池化層使用旋轉(zhuǎn)rroi池化層來(lái)調(diào)整rrpn生成的面向任意方向的區(qū)域建議框，傳統(tǒng)的roi池化層在處理那些旋轉(zhuǎn)或傾斜的文本區(qū)域時(shí)可能會(huì)遇到困難，因?yàn)樗饕O(shè)計(jì)用于處理水平或垂直對(duì)齊的區(qū)域；

52、所述使用rroi池化層來(lái)調(diào)整rrpn生成的面向任意方向的區(qū)域建議框的過(guò)程是：

53、將rrol層的超參數(shù)設(shè)置為hr和wr；

54、輸入建議區(qū)域的表示(x,y,h,w,θ)；

55、池化大小(hr,wr)，輸入特征圖與空間比例；

56、對(duì)于高h(yuǎn)、寬w的建議區(qū)域，旋轉(zhuǎn)后的建議區(qū)域可劃分為大小的hr×wr子區(qū)域，每個(gè)子區(qū)域的方向與建議的方向相同；

57、遍歷候選區(qū)域的所有子區(qū)域，通過(guò)仿射變換將子區(qū)域轉(zhuǎn)換成標(biāo)準(zhǔn)矩形；

58、遍歷每個(gè)子區(qū)域，取得最大值，由于對(duì)標(biāo)準(zhǔn)矩形中元素的插值使用向下取整的方式。

59、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

60、1、本發(fā)明通過(guò)采用swin?transformer網(wǎng)絡(luò)結(jié)合特征對(duì)齊金字塔fapn網(wǎng)絡(luò)和旋轉(zhuǎn)檢測(cè)建議網(wǎng)絡(luò)rrpn的組合應(yīng)用，可以更好地處理證件圖像中不同大小的文本，可以充分利用兩者的優(yōu)勢(shì)，提高證件檢測(cè)的整體性能，包括更高的檢測(cè)精度和更快的推理速度，且對(duì)于各類證件中均存在旋轉(zhuǎn)傾斜的照片這一問(wèn)題，在原有網(wǎng)絡(luò)的基礎(chǔ)上加入rrpn(regionproposal?by?rotatedanchor)，它專門設(shè)計(jì)用于生成旋轉(zhuǎn)不變的區(qū)域提議，通過(guò)rrpn生成旋轉(zhuǎn)檢測(cè)框，再通過(guò)感興趣區(qū)域?qū)R(region?ofinterestalign，roialign)對(duì)這些旋轉(zhuǎn)檢測(cè)框進(jìn)行特征提取獲得特征向量，最后通過(guò)全連接層得出旋轉(zhuǎn)檢測(cè)結(jié)果，進(jìn)而可以簡(jiǎn)化操作，降低成本，并提高運(yùn)輸危化品的安全可靠性；

61、2、本發(fā)明根據(jù)運(yùn)輸證件的多樣性，提出的網(wǎng)絡(luò)模型以swin?transformer為目標(biāo)檢測(cè)的主干網(wǎng)絡(luò)，在目標(biāo)檢測(cè)任務(wù)中作為主干網(wǎng)絡(luò)表現(xiàn)出色，能夠提供更豐富的上下文信息和更強(qiáng)的特征表示能力，這對(duì)于檢測(cè)證件中的不同目標(biāo)或復(fù)雜背景下的目標(biāo)尤為重要。

62、3、本發(fā)明中的swin?transformer通過(guò)層次化的結(jié)構(gòu)，能夠捕捉從低級(jí)到高級(jí)的視覺(jué)特征，涉及窗口劃分和移位操作，有效地結(jié)合了局部和全局信息，使得檢測(cè)任務(wù)提高了特征的表達(dá)能力和效率，且由于目標(biāo)證件中存在旋轉(zhuǎn)或傾斜的證件，故加入rrpn網(wǎng)絡(luò)，用于檢測(cè)任意方向的區(qū)域，提高了整體的準(zhǔn)確性，通過(guò)實(shí)驗(yàn)驗(yàn)證了改進(jìn)swin?transformer的準(zhǔn)確性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳寧,駱海霞,冉丹,陳國(guó)榮,彭軍,顧峻豪
技術(shù)所有人：重慶科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種廢料回收再利用裝置的制作方法
上一篇：一種箱式變電站的防盜裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于FaPN、SwinTransformer和RRPN的證件圖像處理方法

一種基于FaPN、SwinTransformer和RRPN的證件圖像處理方法