本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,具體涉及一種歷史存量電子計量證書數(shù)據(jù)結(jié)構(gòu)化的方法。
背景技術(shù):
1、計量證書報告是計量活動產(chǎn)出的最終產(chǎn)品,其中包含了被檢儀表在被檢時的各項性能指標(biāo),是判斷被檢儀表工作狀態(tài)是否正常的重要依據(jù)。隨著計量管理技術(shù)、計量檢測技術(shù)、儀器儀表技術(shù)的發(fā)展,計量證書報告已逐步實現(xiàn)電子化,通過手動、半自動或全自動的計量檢測方法,產(chǎn)生的計量數(shù)據(jù)通常被寫入word、excel、pdf等電子文件進(jìn)行存儲,在履行審簽流程后發(fā)送給客戶。
2、然而計量數(shù)據(jù)寫入電子文件后,產(chǎn)出的計量證書報告是僅人可讀的,計算機難以對其進(jìn)行處理和分析。隨著計量數(shù)字化轉(zhuǎn)型的不斷推進(jìn)和大數(shù)據(jù)分析技術(shù)的不斷成熟,行業(yè)對計量數(shù)據(jù)的結(jié)構(gòu)化和數(shù)字化需求不斷提升,對計量數(shù)據(jù)的機器可讀性提出了更高的要求,傳統(tǒng)的電子計量證書難以滿足日漸增長的數(shù)據(jù)分析需求。當(dāng)前,在部分力學(xué)、幾何量、電磁等計量參數(shù)的新研測試系統(tǒng)中,已可實現(xiàn)計量數(shù)據(jù)的結(jié)構(gòu)化存儲和分析,但仍未能覆蓋所有被檢儀表的所有計量參數(shù),同時,過去數(shù)十年的計量活動產(chǎn)生了數(shù)量龐大的電子證書,這些計量數(shù)據(jù)同樣存在龐大的數(shù)據(jù)分析需求。對于存量的電子證書報告,目前仍未有一個有效的數(shù)據(jù)結(jié)構(gòu)化解決方法。
3、存量電子證書由檢定校準(zhǔn)人員對儀表完成計量后通過手動、半自動或自動的方式將數(shù)據(jù)錄入電子文件并以文件形式固化存儲,且由于計量需求和計量參數(shù)的不同,尤其在無線電、時間頻率等電子計量領(lǐng)域,計量數(shù)據(jù)的組織方式多種多樣,計量報告證書的模板在不同的型號儀器之間差別很大,難以窮舉,也因此當(dāng)前尚無一種有效可行的方法能夠?qū)Ω鞣N組織形式的歷史存量計量數(shù)據(jù)實現(xiàn)數(shù)據(jù)結(jié)構(gòu)化存儲并支撐大數(shù)據(jù)分析。
4、因此,對歷史存量的計量證書報告的數(shù)據(jù)結(jié)構(gòu)化方法的研究頗具價值,可以讓計量技術(shù)機構(gòu)和檢定校準(zhǔn)實驗室對歷史以往的計量數(shù)據(jù)實現(xiàn)大數(shù)據(jù)分析,進(jìn)一步跟蹤被檢儀器的性能變化,賦能儀器全生命周期管理,創(chuàng)造創(chuàng)新價值。
技術(shù)實現(xiàn)思路
1、為此,本發(fā)明提出了一種歷史存量電子計量證書數(shù)據(jù)結(jié)構(gòu)化的方法,面向存量龐大的歷史電子計量證書報告,實現(xiàn)將word格式的電子計量證書報告轉(zhuǎn)換成機器可讀的格式,并進(jìn)行存儲,解決了電子計量證書報告難以支撐計量數(shù)據(jù)大數(shù)據(jù)分析的困難。本發(fā)明提出的方法可適用于計量機構(gòu)出具的不同專業(yè)領(lǐng)域、不同類型、不同型號、不同模板、不同選型的被檢儀器電子證書報告的結(jié)構(gòu)化轉(zhuǎn)換,克服了當(dāng)下數(shù)據(jù)結(jié)構(gòu)化技術(shù)僅能適配特定儀器、特定模板,應(yīng)用范圍窄的問題。同時本發(fā)明給出了一種基于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行儀器健康狀態(tài)分析的方法。
2、本發(fā)明的一種歷史存量電子計量證書數(shù)據(jù)結(jié)構(gòu)化的方法,以word格式的電子計量證書為輸入,抓取電子證書中所有計量數(shù)據(jù)和證書基礎(chǔ)數(shù)據(jù),以計算機程序可讀的結(jié)構(gòu)化方式重新存儲,并關(guān)聯(lián)計量業(yè)務(wù)流程數(shù)據(jù),實現(xiàn)存量電子計量證書結(jié)構(gòu)化,并基于結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)儀器健康狀態(tài)的圖形化;具體包括以下步驟:
3、通過docx庫中的document方法打開對應(yīng)的證書文件,遍歷證書封面的段落文字,并獲取其xml文本,在xml文本中搜索文字關(guān)鍵字,按行獲取封面所有文字信息,通過關(guān)鍵字對文字信息進(jìn)行匹配,截取對應(yīng)的信息存儲至變量中。
4、獲取證書文件中所有表格,遍歷所有表格,獲取表格上一行的段落中文字作為表格的標(biāo)題,并獲取表格的行數(shù),將表格首行的單元格數(shù)量作為表格的列數(shù),創(chuàng)建行數(shù)×列數(shù)的數(shù)據(jù)矩陣變量用于存儲數(shù)據(jù)。
5、獲取表格所有行數(shù)據(jù),對每一個行數(shù)據(jù)搜索單元格關(guān)鍵字。
6、獲取表格某行所有單元格數(shù)據(jù),對所有單元格數(shù)據(jù)搜索文本關(guān)鍵字,獲取每個單元格中的文字,并存儲在對應(yīng)行、列的數(shù)據(jù)矩陣變量中。
7、遍歷證書文件的所有表格后,完成對該證書的結(jié)構(gòu)化,將產(chǎn)生的數(shù)據(jù)矩陣變量通過json庫寫入文件并存儲,并將文件名與該證書所對應(yīng)的檢校流程數(shù)據(jù)相關(guān)聯(lián)。
8、將word證書中表格的表格名稱、表頭字段、表格行數(shù)、表格列數(shù)、單元格數(shù)據(jù)讀取,并按照給定字段寫入json文件,形成計算機程序可讀的數(shù)據(jù)格式。
9、基于結(jié)構(gòu)化存儲的json文件,可將同一被檢儀器歷年產(chǎn)生的多份json文件統(tǒng)一分析,根據(jù)用戶選定的計量參數(shù)、橫縱坐標(biāo)、最大最小值數(shù)據(jù),自動生成分析曲線,供用戶對儀器歷年狀態(tài)變化情況進(jìn)行直觀有效的分析。
10、本發(fā)明的具體技術(shù)方案是基于python的docx庫,通過程序模擬人打開word格式的電子證書并讀取其內(nèi)容,并通過關(guān)鍵信息識別、表格識別、數(shù)據(jù)內(nèi)容抓取等過程,將電子證書的內(nèi)容按照一定的可定制的標(biāo)準(zhǔn)格式轉(zhuǎn)存為機器可讀的文件格式,如json。電子計量證書的樣例見附圖1,包括檢定證書、校準(zhǔn)證書和檢測報告。按此過程將所有存量的電子計量證書報告全量處理一遍,即可完成對存量電子計量證書的結(jié)構(gòu)化工作,同時將json格式文件與計量證書報告的基本信息通過數(shù)據(jù)庫進(jìn)行綁定,通過圖表、模型等方法可對計量數(shù)據(jù)進(jìn)行分析,本發(fā)明在此基礎(chǔ)上進(jìn)行了儀器計量數(shù)據(jù)的相關(guān)分析。
11、整體方案流程見附圖1。流程的輸入為電子證書報告的文件路徑,用于定位word格式電子證書,此外無需其他輸入,所有相關(guān)信息在電子證書中都可抓取獲得。首先通過docx庫打開要處理的電子證書,并通過可配置的關(guān)鍵字庫匹配獲取電子證書的基本信息,包括證書編號、送檢單位、送檢單位地址、儀器名稱、儀器型號、儀器序號、儀器制造商、檢校結(jié)果、檢校日期、有效日期、檢校時的溫濕度和文字性檢校說明等。除電子證書的基本信息外,證書主要數(shù)據(jù)部分均以不同形式的表格存在,包括檢校依據(jù)的方法、檢校所使用的標(biāo)準(zhǔn)儀器、檢校產(chǎn)生的數(shù)據(jù)等,在獲取證書基本信息后,通過docx庫獲取電子證書中所有的表格,并遍歷這些表格,按照不同的表格類型分別進(jìn)行處理,讀取表格的表格名稱、表頭、表格行數(shù)、表格列數(shù)、每一行表格數(shù)據(jù)并存儲成標(biāo)準(zhǔn)json格式。word數(shù)據(jù)表格和其對應(yīng)結(jié)構(gòu)化后的數(shù)據(jù)示例見附圖2、附圖3。
12、遍歷所有電子計量證書后,將數(shù)據(jù)json文件和數(shù)據(jù)庫中的計量管理流程信息相互關(guān)聯(lián)綁定,即可對證書數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,本發(fā)明基于數(shù)據(jù)結(jié)構(gòu)化對儀器歷年的計量數(shù)據(jù)進(jìn)行分析,給出了一個儀器計量數(shù)據(jù)分析的應(yīng)用示例。
13、本發(fā)明的有益效果在于
14、解決了電子計量證書報告難以支撐計量數(shù)據(jù)大數(shù)據(jù)分析的困難,克服了當(dāng)下數(shù)據(jù)結(jié)構(gòu)化技術(shù)僅能適配特定儀器、特定模板,應(yīng)用范圍窄的問題,給出了一種基于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行儀器健康狀態(tài)分析的方法。
1.一種歷史存量電子計量證書數(shù)據(jù)結(jié)構(gòu)化的方法,其特征在于:以word格式的電子計量證書為輸入,抓取電子證書中所有計量數(shù)據(jù)和證書基礎(chǔ)數(shù)據(jù),以計算機程序可讀的結(jié)構(gòu)化方式重新存儲,并關(guān)聯(lián)計量業(yè)務(wù)流程數(shù)據(jù),實現(xiàn)存量電子計量證書結(jié)構(gòu)化,并基于結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)儀器健康狀態(tài)的圖形化;具體包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種歷史存量電子計量證書數(shù)據(jù)結(jié)構(gòu)化的方法,其特征在于:將word證書中表格的表格名稱、表頭字段、表格行數(shù)、表格列數(shù)、單元格數(shù)據(jù)讀取,并按照給定字段寫入json文件,形成計算機程序可讀的數(shù)據(jù)格式。
3.根據(jù)權(quán)利要求2所述的一種歷史存量電子計量證書數(shù)據(jù)結(jié)構(gòu)化的方法,其特征在于:基于結(jié)構(gòu)化存儲的json文件,可將同一被檢儀器歷年產(chǎn)生的多份json文件統(tǒng)一分析,根據(jù)用戶選定的計量參數(shù)、橫縱坐標(biāo)、最大最小值數(shù)據(jù),自動生成分析曲線,供用戶對儀器歷年狀態(tài)變化情況進(jìn)行直觀有效的分析。