本發(fā)明涉及證件圖像檢測(cè),具體為一種基于fapn、swin?transformer和rrpn的證件圖像處理方法。
背景技術(shù):
1、在當(dāng)今社會(huì),隨著工業(yè)化和全球化的不斷推進(jìn),危險(xiǎn)貨物的運(yùn)輸已成為現(xiàn)代物流體系中不可或缺的一環(huán)。危險(xiǎn)化學(xué)品(?;?的運(yùn)輸是一個(gè)高度專業(yè)化且風(fēng)險(xiǎn)極高的行業(yè)。?;返恼_識(shí)別、分類、包裝、標(biāo)記和文檔管理對(duì)于確保運(yùn)輸安全至關(guān)重要。?;奋囕v運(yùn)輸與國(guó)家和人們的人身安全和財(cái)產(chǎn)安全有直接關(guān)系,對(duì)運(yùn)輸危險(xiǎn)貨物的專業(yè)人員進(jìn)行嚴(yán)格的管理和監(jiān)督顯得尤為重要[1]。其中,?;纷鳂I(yè)過(guò)程包括查驗(yàn)相關(guān)手續(xù)是否齊全有效[2],核驗(yàn)運(yùn)輸人員的專業(yè)證件及其有效期限,是確保運(yùn)輸安全的關(guān)鍵步驟之一。
2、隨著計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展,利用這一技術(shù)來(lái)提高運(yùn)輸危化品證件處理的自動(dòng)化和準(zhǔn)確性已成為可能。利用計(jì)算機(jī)視覺(jué)技術(shù)能夠通過(guò)圖像識(shí)別和分析技術(shù),快速準(zhǔn)確地提取運(yùn)輸危化品證件中的關(guān)鍵信息,如名稱、姓名、有效期限運(yùn)輸標(biāo)識(shí)等,從而極大地提高了工作效率和安全性。
3、證件信息提取靠人工來(lái)實(shí)現(xiàn),信息中存在大量數(shù)字,其效率和準(zhǔn)確率難以滿足業(yè)務(wù)需求。
4、基于深度學(xué)習(xí)的文本檢測(cè)在證件圖像檢測(cè)分析中起著至關(guān)重要的作用,并在多類證件任務(wù)[3],[4],[5]中取得了令人印象深刻的表現(xiàn),例如復(fù)雜場(chǎng)景下證件圖像的檢測(cè)[6],[7],以及證件真?zhèn)斡行缘臋z測(cè)[8],[9],[10]。準(zhǔn)確高效的證件圖像檢測(cè)不僅可以精準(zhǔn)定位關(guān)鍵信息區(qū)域,還可以輔助證件信息識(shí)別研究[11],[12]提供可靠的依據(jù),在身份驗(yàn)證和安全保障監(jiān)測(cè)中具有潛在的應(yīng)用價(jià)值。
5、針對(duì)各類證件的圖像檢測(cè)領(lǐng)域,現(xiàn)有的研究多種多樣。2016年tianz等人在fast-rcnn的基礎(chǔ)上改進(jìn)并提出ctpn[13],用于水平文本的檢測(cè)。2017年minghui?liao在ssd框架的基礎(chǔ)上提出textbox方法[14]。east[15]和seglink[16]在2017年的cvpr(conference?oncomputer?vision?and?pattern?recognition)會(huì)議上發(fā)表,實(shí)現(xiàn)場(chǎng)景文本檢測(cè)。2018年pixellink[17]結(jié)合像素級(jí)分割和鏈接預(yù)測(cè)來(lái)檢測(cè)文本。2020年dbnet[18]實(shí)現(xiàn)高效且準(zhǔn)確的場(chǎng)景文本檢測(cè),特別是在處理任意形狀的文本。以上強(qiáng)調(diào)對(duì)網(wǎng)絡(luò)架構(gòu)的增強(qiáng),以更好地檢測(cè)目標(biāo)區(qū)域。這些研究共同推動(dòng)了文本檢測(cè)的準(zhǔn)確和效率。
6、在證件檢測(cè)過(guò)程中由于以下兩點(diǎn):第一,證件圖像中的信息可能包含不同大小的文本和印章。第二,證件可能存在旋轉(zhuǎn)、傾斜或部分遮擋。常用的網(wǎng)絡(luò)有r-cnn[19],fast?r-cnn[20],fasterr-cnn[21],這些網(wǎng)絡(luò)在目標(biāo)檢測(cè)領(lǐng)域取得了顯著的成果,特別是fasterr-cnn通過(guò)引入?yún)^(qū)域建議網(wǎng)絡(luò),顯著提高了檢測(cè)速度和準(zhǔn)確性。但相對(duì)于更現(xiàn)代的網(wǎng)絡(luò)yolo[22]和ssd[23],其速度仍然較慢。這些網(wǎng)絡(luò)在處理小目標(biāo)時(shí)可能表現(xiàn)不佳。mask?r-cnn[24]進(jìn)行目標(biāo)檢測(cè),能夠更好地處理旋轉(zhuǎn)、傾斜和部分遮擋的目標(biāo),但是計(jì)算成本較高。
7、因此需要對(duì)以上問(wèn)題提出一種新的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于fapn、swin?transformer和rrpn的證件圖像處理方法,旨在提高證件檢測(cè)方法的性能,提出一種高效準(zhǔn)確的檢測(cè)方法,推動(dòng)相關(guān)領(lǐng)域的智能化進(jìn)程,以解決背景技術(shù)中提出的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于fapn、swin?transformer和rrpn的證件圖像處理方法,至少包括以下步驟:
3、s1:搭建基于swin?transformer網(wǎng)絡(luò)的主干網(wǎng)絡(luò),采用了基于窗口的w-msa,通過(guò)限制自注意力的計(jì)算范圍在局部窗口內(nèi),解決計(jì)算效率問(wèn)題,并通過(guò)采用基于移位窗口的sw-msa,解決交互問(wèn)題,采用兩個(gè)連續(xù)的swin?transformer模塊通過(guò)交替使用w-msa和sw-msa,實(shí)現(xiàn)局部和全局特征的有效結(jié)合;
4、s2:在s1的基礎(chǔ)上增加fapn網(wǎng)絡(luò),通過(guò)更精細(xì)的特征聚合策略來(lái)增強(qiáng)特征的表達(dá)能力,提高檢測(cè)的準(zhǔn)確性和魯棒性;
5、s3:在s2的基礎(chǔ)上增加rrpn網(wǎng)絡(luò),用于生成旋轉(zhuǎn)不變的候選區(qū)域,提高檢測(cè)證件上的傾斜或旋轉(zhuǎn)文本的準(zhǔn)確性。
6、進(jìn)一步地,所述s1中swin?transformer網(wǎng)絡(luò)的主干網(wǎng)絡(luò)的應(yīng)用至少包括以下步驟:
7、通過(guò)采用移位窗口劃分方法,其中zl、zl+1和的計(jì)算可表示為,用以下方程表示:
8、
9、式中:h和w分別代表圖像在高度和寬度方向上的像素?cái)?shù),msa為多頭自注意力,ln為層歸一化;
10、和zl表示塊l的(s)wmsa模塊和mlp模塊的輸出特征;
11、和zl+1表示塊l+1的(s)wmsa模塊和mlp模塊的輸出特征;
12、當(dāng)處理的是尺寸為1024×1024×3的圖像時(shí),圖像首先通過(guò)patchpartition模塊被分割成4×4的patch(小塊),每個(gè)patch被視為一個(gè)新的特征向量,其維度為4×4×3=48,這樣處理后,圖像被轉(zhuǎn)換成一個(gè)規(guī)模為256×256×48的張量;
13、第一階段,所述patch特征向量首先經(jīng)過(guò)一個(gè)線性編碼層,被轉(zhuǎn)換為96維的token,隨后這些token被輸入到swintransformerblock進(jìn)行進(jìn)一步處理;從第二階段開(kāi)始,每個(gè)階段都由patch?merging模塊和swin?transformerblock組成;
14、在第二階段,patch?merging模塊將規(guī)模為256×256×96的張量進(jìn)行拆分和合并操作,生成一個(gè)規(guī)模為128×128×384的新張量;
15、為了與其他模型保持一致性,這個(gè)張量隨后通過(guò)一個(gè)1×1的卷積核被轉(zhuǎn)換為128×128×192的規(guī)模;
16、因此,第二階段的張量規(guī)模從256×256×96轉(zhuǎn)變?yōu)?28×128×192;
17、在第三階段和第四階段,張量的規(guī)模分別進(jìn)一步縮小為64×64×384和32×32×768,以適應(yīng)后續(xù)的處理需求;
18、整個(gè)過(guò)程確保了圖像數(shù)據(jù)在不同階段都能有效地被處理和分析。
19、進(jìn)一步地,所述s2至少包括以下步驟:
20、通過(guò)引入一個(gè)特征對(duì)齊模塊來(lái)替代傳統(tǒng)特征金字塔網(wǎng)絡(luò)中的1×1卷積層,該模塊能夠?qū)W習(xí)像素級(jí)的偏移量,從而在上采樣過(guò)程中實(shí)現(xiàn)高分辨率特征與上下文信息的對(duì)齊;
21、在上采樣后增加一個(gè)特征選擇模塊,該模塊能夠?qū)⒆⒁饬性谀切┌S富空間細(xì)節(jié)的低分辨率特征上,以此來(lái)增強(qiáng)特征的表達(dá)能力和檢測(cè)性能。
22、進(jìn)一步地,所述引入一個(gè)特征對(duì)齊模塊至少包括以下步驟:
23、在特征融合之前,在特征融合之前,把和特征進(jìn)行對(duì)齊。特征對(duì)齊可以數(shù)學(xué)公式表示為:
24、
25、其中是和的拼接,提供了上采樣和對(duì)應(yīng)的自底向上特征之間的空間差異;
26、fo()和fa()分別表示從空間差異學(xué)習(xí)偏移量δi的函數(shù),以及根據(jù)偏移量將特征對(duì)齊的函數(shù);
27、所述增加一個(gè)特征選擇模塊至少包括以下步驟:
28、提取空間細(xì)節(jié)的特征映射,首先通過(guò)全局平均池化操作提取特征圖ci的全局信息;
29、之后輸入到1×1卷積層和sigmoid激活函數(shù)中,即fm;
30、得到重要特征向量u,將ci用u進(jìn)行縮放;
31、然后將縮放后的ci添加到原始的ci中;
32、最后通過(guò)一個(gè)1×1卷積層,即fs,保留重要通道,丟棄不重要的通道。
33、進(jìn)一步地,所述rrpn模塊包括旋轉(zhuǎn)邊界框、旋轉(zhuǎn)的錨點(diǎn)、候選區(qū)域?qū)W習(xí)、區(qū)域提取網(wǎng)絡(luò)的優(yōu)化和rroi池層。
34、進(jìn)一步地,所述旋轉(zhuǎn)檢測(cè)框被表示為(x,y,h,w,θ);
35、其中(x,y)表示檢測(cè)框的幾何中心,h為檢測(cè)框的短邊,w為檢測(cè)框的長(zhǎng)邊,θ是正x軸與旋轉(zhuǎn)邊界框長(zhǎng)邊的夾角。
36、進(jìn)一步地,所述旋轉(zhuǎn)的錨點(diǎn)的應(yīng)用至少包括以下步驟:
37、rrpn模塊使用了6個(gè)不同的角度來(lái)控制目標(biāo)疑似區(qū)域的提取,即為:
38、長(zhǎng)寬比例采用3組(1:2,1:5,1:8);
39、尺度上取3組(8,16,32);
40、這樣就組合生成了6×3×3=54個(gè)5維度的(x,y,h,w,θ)錨點(diǎn);
41、對(duì)于寬高為w×h的特征圖會(huì)產(chǎn)生數(shù)目為w×h×54的錨點(diǎn)。
42、進(jìn)一步地,所述候選區(qū)域?qū)W習(xí)的應(yīng)用至少包括以下步驟:
43、對(duì)于檢測(cè)框的回歸,忽略背景roi,對(duì)目標(biāo)roi采用smooth-l1損失:
44、
45、尺度不變參數(shù)化元組v和v*的計(jì)算如下:
46、
47、其中,x、xa和x*分別用來(lái)表示預(yù)測(cè)框、錨定框和真實(shí)框,對(duì)于y、h、w和θ也是如此;
48、函數(shù)f(a,b)=a-b+kπ,其中k∈z,使得
49、進(jìn)一步地,所述區(qū)域提取網(wǎng)絡(luò)的優(yōu)化為旋轉(zhuǎn)區(qū)域建議可以在任何方向生成;
50、因此,對(duì)水平框的iou計(jì)算可能會(huì)導(dǎo)致傾斜檢測(cè)框的iou檢測(cè)失真,因此使用考慮三角剖分的傾斜iou計(jì)算的實(shí)現(xiàn)給定一組斜矩形r1,r2,...,rn,目標(biāo)是計(jì)算每一對(duì)ri和rj的iou。
51、進(jìn)一步地,所述rroi池化層使用旋轉(zhuǎn)rroi池化層來(lái)調(diào)整rrpn生成的面向任意方向的區(qū)域建議框,傳統(tǒng)的roi池化層在處理那些旋轉(zhuǎn)或傾斜的文本區(qū)域時(shí)可能會(huì)遇到困難,因?yàn)樗饕O(shè)計(jì)用于處理水平或垂直對(duì)齊的區(qū)域;
52、所述使用rroi池化層來(lái)調(diào)整rrpn生成的面向任意方向的區(qū)域建議框的過(guò)程是:
53、將rrol層的超參數(shù)設(shè)置為hr和wr;
54、輸入建議區(qū)域的表示(x,y,h,w,θ);
55、池化大小(hr,wr),輸入特征圖與空間比例;
56、對(duì)于高h(yuǎn)、寬w的建議區(qū)域,旋轉(zhuǎn)后的建議區(qū)域可劃分為大小的hr×wr子區(qū)域,每個(gè)子區(qū)域的方向與建議的方向相同;
57、遍歷候選區(qū)域的所有子區(qū)域,通過(guò)仿射變換將子區(qū)域轉(zhuǎn)換成標(biāo)準(zhǔn)矩形;
58、遍歷每個(gè)子區(qū)域,取得最大值,由于對(duì)標(biāo)準(zhǔn)矩形中元素的插值使用向下取整的方式。
59、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
60、1、本發(fā)明通過(guò)采用swin?transformer網(wǎng)絡(luò)結(jié)合特征對(duì)齊金字塔fapn網(wǎng)絡(luò)和旋轉(zhuǎn)檢測(cè)建議網(wǎng)絡(luò)rrpn的組合應(yīng)用,可以更好地處理證件圖像中不同大小的文本,可以充分利用兩者的優(yōu)勢(shì),提高證件檢測(cè)的整體性能,包括更高的檢測(cè)精度和更快的推理速度,且對(duì)于各類證件中均存在旋轉(zhuǎn)傾斜的照片這一問(wèn)題,在原有網(wǎng)絡(luò)的基礎(chǔ)上加入rrpn(regionproposal?by?rotatedanchor),它專門設(shè)計(jì)用于生成旋轉(zhuǎn)不變的區(qū)域提議,通過(guò)rrpn生成旋轉(zhuǎn)檢測(cè)框,再通過(guò)感興趣區(qū)域?qū)R(region?ofinterestalign,roialign)對(duì)這些旋轉(zhuǎn)檢測(cè)框進(jìn)行特征提取獲得特征向量,最后通過(guò)全連接層得出旋轉(zhuǎn)檢測(cè)結(jié)果,進(jìn)而可以簡(jiǎn)化操作,降低成本,并提高運(yùn)輸危化品的安全可靠性;
61、2、本發(fā)明根據(jù)運(yùn)輸證件的多樣性,提出的網(wǎng)絡(luò)模型以swin?transformer為目標(biāo)檢測(cè)的主干網(wǎng)絡(luò),在目標(biāo)檢測(cè)任務(wù)中作為主干網(wǎng)絡(luò)表現(xiàn)出色,能夠提供更豐富的上下文信息和更強(qiáng)的特征表示能力,這對(duì)于檢測(cè)證件中的不同目標(biāo)或復(fù)雜背景下的目標(biāo)尤為重要。
62、3、本發(fā)明中的swin?transformer通過(guò)層次化的結(jié)構(gòu),能夠捕捉從低級(jí)到高級(jí)的視覺(jué)特征,涉及窗口劃分和移位操作,有效地結(jié)合了局部和全局信息,使得檢測(cè)任務(wù)提高了特征的表達(dá)能力和效率,且由于目標(biāo)證件中存在旋轉(zhuǎn)或傾斜的證件,故加入rrpn網(wǎng)絡(luò),用于檢測(cè)任意方向的區(qū)域,提高了整體的準(zhǔn)確性,通過(guò)實(shí)驗(yàn)驗(yàn)證了改進(jìn)swin?transformer的準(zhǔn)確性。