本發(fā)明涉及圖紙識(shí)別,具體涉及一種圖紙表格識(shí)別系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、在當(dāng)前施工行業(yè)項(xiàng)目管理中,存在著諸多挑戰(zhàn),其中之一便是圖紙表格中工程量與材料量的抄錄問(wèn)題。這一環(huán)節(jié)需要大量的人工操作,既耗時(shí)又容易出錯(cuò),給項(xiàng)目部工程人員帶來(lái)了極大的困擾。
2、傳統(tǒng)的線(xiàn)下手工抄錄方式已無(wú)法滿(mǎn)足當(dāng)前項(xiàng)目管理對(duì)圖紙抄錄速度與質(zhì)量的需求,同時(shí)還存在表格和文本框同時(shí)存在的問(wèn)題,單一的ocr識(shí)別工具無(wú)法滿(mǎn)足準(zhǔn)確識(shí)別的需求,無(wú)法將文本內(nèi)容和表格相匹配。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就是針對(duì)現(xiàn)有技術(shù)的缺陷,提供一種圖紙表格識(shí)別系統(tǒng),包括:
2、圖紙坐標(biāo)獲取模塊,用于將圖紙輸入表格區(qū)域檢測(cè)模型,得到圖紙中各個(gè)單元格的頂點(diǎn)坐標(biāo),并根據(jù)各個(gè)單元格的頂點(diǎn)坐標(biāo)計(jì)算各個(gè)單元格的中心點(diǎn)坐標(biāo);
3、文本區(qū)域檢測(cè)模塊,用于將圖紙輸入ocr模型,得到圖紙中各個(gè)文本框的頂點(diǎn)坐標(biāo)和文本內(nèi)容,并根據(jù)各個(gè)文本框的頂點(diǎn)坐標(biāo)計(jì)算各個(gè)文本框的中心點(diǎn)坐標(biāo);
4、文本框和單元格匹配模塊,用于依次計(jì)算各個(gè)文本框的中心點(diǎn)坐標(biāo)和各個(gè)單元格的中心點(diǎn)坐標(biāo)之間的距離,將文本框的中心點(diǎn)坐標(biāo)和單元格的中心點(diǎn)坐標(biāo)之間距離最小的文本框和單元格匹配,最后將該文本框中的文本內(nèi)容填入與該文本框匹配的單元格中。
5、進(jìn)一步的,還包括:表格結(jié)構(gòu)分析模塊,用于根據(jù)各個(gè)單元格的頂點(diǎn)坐標(biāo)將各個(gè)單元格進(jìn)行縱向和橫向排序,得到每個(gè)單元格的行號(hào),并計(jì)算所有行的列數(shù),以包含最大列數(shù)的行的最大列號(hào)作為列號(hào)命名的最大列號(hào),并根據(jù)每個(gè)單元格的頂點(diǎn)坐標(biāo)確定對(duì)應(yīng)單元格的列號(hào)。
6、再進(jìn)一步的,所述計(jì)算所有行的最大列數(shù)的具體方法如下:計(jì)算每行單元格的數(shù)量,每行單元格的數(shù)量即為每行的列數(shù),對(duì)比所有行的單元格數(shù)量,得到所有行的列數(shù)。
7、進(jìn)一步的,所述表格區(qū)域檢測(cè)模型為cycle-centernet模型。
8、進(jìn)一步的,所述ocr模型為crnn模型。
9、進(jìn)一步的,圖紙坐標(biāo)獲取模塊中,所述根據(jù)各個(gè)單元格的頂點(diǎn)坐標(biāo)計(jì)算各個(gè)單元格的中心點(diǎn)坐標(biāo)的具體方法為:
10、將圖紙輸入表格區(qū)域檢測(cè)模型后,得到表格區(qū)域的四個(gè)頂點(diǎn)的坐標(biāo),左上角為第一個(gè)點(diǎn),按照順時(shí)針的順序依次輸出各個(gè)點(diǎn)的坐標(biāo),分別為(x1,y1)(x2,y2)(x3,y3)(x4,y4),根據(jù)表格區(qū)域的四個(gè)頂點(diǎn)的坐標(biāo)得到表格區(qū)域的中心點(diǎn)坐標(biāo)。
11、文本區(qū)域檢測(cè)模塊中,所述根據(jù)各個(gè)文本框的頂點(diǎn)坐標(biāo)計(jì)算各個(gè)文本框的中心點(diǎn)坐標(biāo)的具體方法為:
12、將圖紙輸入ocr模型后,得到文本框區(qū)域的四個(gè)頂點(diǎn)的坐標(biāo),左上角為第一個(gè)點(diǎn),按照順時(shí)針的順序依次輸出各個(gè)點(diǎn)的坐標(biāo),分別為(x′1,y1′)(x′2,y2′)(x′3,y3′)(x′4,y4′),根據(jù)文本框區(qū)域的四個(gè)頂點(diǎn)的坐標(biāo)得到中心點(diǎn)坐標(biāo)。
13、進(jìn)一步的,文本區(qū)域檢測(cè)模塊還用于在圖紙輸入ocr模型之前,使用特殊字符對(duì)ocr模型進(jìn)行訓(xùn)練,具體方法如下:
14、收集各類(lèi)圖紙中的特殊符號(hào),基于特殊符號(hào)繪制ttf字體文件,所述ttf字體文件為制作特殊符號(hào)所屬圖紙的繪圖軟件的字體文件,根據(jù)ttf字體文件生成二進(jìn)制數(shù)據(jù),基于二進(jìn)制數(shù)據(jù)生成圖紙,使用opencv工具庫(kù)對(duì)圖紙進(jìn)行膨脹與腐蝕處理,將所有經(jīng)過(guò)膨脹與腐蝕處理的圖紙組合得到訓(xùn)練數(shù)據(jù)集,基于訓(xùn)練數(shù)據(jù)集對(duì)ocr文本識(shí)別模型進(jìn)行訓(xùn)練。
15、一種圖紙表格識(shí)別方法,包括:
16、將圖紙輸入表格區(qū)域檢測(cè)模型,得到圖紙中各個(gè)單元格的頂點(diǎn)坐標(biāo),并根據(jù)各個(gè)單元格的頂點(diǎn)坐標(biāo)計(jì)算各個(gè)單元格的中心點(diǎn)坐標(biāo);
17、將圖紙輸入ocr模型,得到圖紙中各個(gè)文本框的頂點(diǎn)坐標(biāo)和文本內(nèi)容,并根據(jù)各個(gè)文本框的頂點(diǎn)坐標(biāo)計(jì)算各個(gè)文本框的中心點(diǎn)坐標(biāo);
18、依次計(jì)算各個(gè)文本框的中心點(diǎn)坐標(biāo)和各個(gè)單元格的中心點(diǎn)坐標(biāo)之間的距離,將文本框的中心點(diǎn)坐標(biāo)和單元格的中心點(diǎn)坐標(biāo)之間距離最小的文本框和單元格匹配,最后將該文本框中的文本內(nèi)容填入與該文本框匹配的單元格中。
19、進(jìn)一步的,還包括:根據(jù)各個(gè)單元格的頂點(diǎn)坐標(biāo)將各個(gè)單元格進(jìn)行縱向和橫向排序,得到每個(gè)單元格的行號(hào),并計(jì)算所有行的列數(shù),以包含最大列數(shù)的行的最大列號(hào)作為列號(hào)命名的最大列號(hào),并根據(jù)每個(gè)單元格的頂點(diǎn)坐標(biāo)確定對(duì)應(yīng)單元格的列號(hào)。
20、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的圖紙表格識(shí)別方法。
21、本發(fā)明的有益效果為:
22、1.本發(fā)明將表格區(qū)域檢測(cè)模型和ocr模型結(jié)合,分別識(shí)別單元格和文本框的位置,通過(guò)計(jì)算表格中心點(diǎn)的位置和單元格中心點(diǎn)的位置,能夠準(zhǔn)確的還原文本框和單元格的匹配關(guān)系,因此不僅能夠單獨(dú)識(shí)別表格,也能夠識(shí)別文本框,還能將二者通過(guò)位置關(guān)系匹配,還原圖紙中每一個(gè)單元格的內(nèi)容。
23、2.通過(guò)對(duì)單元格的行號(hào)和列號(hào)按照一定規(guī)則命名,最終得到了每個(gè)單元格的行號(hào)和列號(hào),方便了工作中對(duì)表格的閱讀。
24、3.識(shí)別前,對(duì)ocr模型使用特殊字符進(jìn)行訓(xùn)練,提高了識(shí)別的準(zhǔn)確性。
25、4.表格區(qū)域檢測(cè)模型采用cycle-centernet模型,ocr模型采用crnn模型,上述二者對(duì)于實(shí)際工作中大量扭曲的圖紙和表格仍然能夠準(zhǔn)確的識(shí)別,具有優(yōu)秀的魯棒性,這對(duì)于實(shí)際工作中是非常重要的。
1.一種圖紙表格識(shí)別系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖紙表格識(shí)別系統(tǒng),其特征在于,還包括:
3.根據(jù)權(quán)利要求2所述的圖紙表格識(shí)別系統(tǒng),其特征在于:
4.根據(jù)權(quán)利要求1所述的圖紙表格識(shí)別系統(tǒng),其特征在于:
5.根據(jù)權(quán)利要求1所述的圖紙表格識(shí)別系統(tǒng),其特征在于:
6.根據(jù)權(quán)利要求1所述的圖紙表格識(shí)別系統(tǒng),其特征在于:
7.根據(jù)權(quán)利要求1所述的圖紙表格識(shí)別系統(tǒng),其特征在于:
8.一種圖紙表格識(shí)別方法,其特征在于,包括:
9.根據(jù)權(quán)利要求8所述的圖紙表格識(shí)別方法,其特征在于,還包括:
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求8或9所述的圖紙表格識(shí)別方法。