專利名稱:一種自動取錄電子文檔中指定內容的方法
技術領域:
本發(fā)明涉及計算機信息技術領域,特別涉及一種利用計算機輔助設計技術實現(xiàn)自動取錄電子文檔中指定內容的方法。
背景技術:
現(xiàn)代信息工程(特別是標準化、實時監(jiān)控、物聯(lián)網(wǎng)等業(yè)務)的應用,產(chǎn)生了大量以計算機電子文檔(以下簡稱文檔)樣式存在的分析、檢驗及測量結果報告,這些文檔由各種儀器設備或人工填寫而產(chǎn)生,在實際工作中,需要對此類文檔進行實時識別、取錄其中的指定數(shù)據(jù)、文字或內容。因而,近年來人們利用快速發(fā)展的計算機軟、硬件技術,通過大量設計建造實驗室信息管理系統(tǒng)(NMS),工業(yè)生產(chǎn)數(shù)控系統(tǒng)(DCS),乃至各種商業(yè)、政務、資訊服務類信息系統(tǒng),期望在海量的、煩瑣的文檔內容取錄技術中實現(xiàn)自動化、實時化。然而,計算機提供的信息處理功能,還不能像經(jīng)過專業(yè)訓練的人一樣,通過對文檔的文字閱讀和分隔樣式認定,識別出所需內容的所在位置;除非未來的計算機能夠像人腦般基于語言、圖案而不是僅基于符號進行信息處理。因而,計算機只能針對特定樣式(格式)的文檔,通過設定一系列用以區(qū)分位置,并從指定的位置提取其中的數(shù)據(jù)、文字和內容,形成可用于計算機程序的建模,通過計算機程序實現(xiàn)自動取錄。在現(xiàn)有技術開發(fā)的系統(tǒng)中,通常設計開發(fā)的過程如下:(I)按應用需求,收集所有要求自動取錄其中內容的文檔的樣板,確定其查找路徑、目錄、文檔名稱,以及使其能夠被唯一選定的若干特征;(2)針對每一種文檔樣板,按其所屬專業(yè),確定需要從中讀取的各內容的命名,用以判斷內容所在位置的特征,以及適用該文檔類型的提取技術手段;(3)按照上述過程產(chǎn)生的文檔內容取錄作業(yè)清單,分析總結出一整套既定建模,進而設計伺服性特定業(yè)務軟件;為每一種文檔樣板,編寫專用程序部份;自動、實時地遵循其建模,識別、提取新生成(或未處理)的文檔,并按其所在位置識別和內容命名編制,完成數(shù)據(jù)、文字取錄;(4)通過實際應用現(xiàn)場試驗運行,逐漸修正、完善建模編制,并調整、改編相應的程序部份。顯然,由于現(xiàn)有系統(tǒng)是基于既定建模設計的,也就難免出現(xiàn)以下技術缺陷或不足:(I)現(xiàn)有技術要求編程人員,能夠通過文檔內容使用方的專業(yè)人員的講解和操作示范,透徹地認知所需處理的每一種文檔樣板,針對各種取錄內容的識別特征形成其既定建模。這種方式的結果和應用成效,都受限于編程人員對被處理文檔內容的掌握水平和對相關專業(yè)的理解程度,難以統(tǒng)一標準。(2)如果某個既定建模的編制發(fā)生改變,或者需要增加新的文檔內容取錄作業(yè),都需要由原班編程人員進行程序擴容、升級。這不僅造成了工程建設的工耗、時耗增加,而且?guī)砩壨V购鬅o法繼續(xù)適用的風險。
(3)現(xiàn)代化的信息管理與服務系統(tǒng),在文檔內容取錄作業(yè)方面的多樣性、多變性和不可預定性,使現(xiàn)有技術開發(fā)的程序難以形成通用產(chǎn)品,即使在同一系統(tǒng)上也很難持續(xù)與其業(yè)務發(fā)展相適應,結果導致需要重復、反復投資建設。(4)現(xiàn)有技術未發(fā)揮計算機人工智能、計算機輔助設計等方面的優(yōu)勢,欠缺前瞻性和推動性,使工程投入與應用功能之間的性價比欠佳。(5)電子文檔所屬專業(yè)的技術人員所擁有的,且不斷增長的專業(yè)知識和經(jīng)驗,難以在現(xiàn)有技術建造的信息系統(tǒng)的持續(xù)運行中得到及時利用,對專業(yè)人員業(yè)務水平提升反而產(chǎn)生局限性等負面作用。
發(fā)明內容
針對現(xiàn)有技術中存在的技術缺陷,為了突破現(xiàn)有的文檔內容取錄方法不能適用于現(xiàn)代化信息系統(tǒng),特別是其作業(yè)需求具有多樣性、多變性及不可預定性的難題,本發(fā)明的目的在于提供一種自動取錄電子文檔中指定內容的方法。本發(fā)明所采用的技術方案:一種自動取錄電子文檔中指定內容的方法,包括以下步驟:(I)通過計算機設定任務名稱、儀器設備、文件集路徑和文檔名識別符;(2)在預設的文件集路徑中查找與文檔名識別符相符的待取錄文檔;(3)文檔入庫,通過查詢待取錄文檔的屬性,重新定義待取錄文檔的名稱,生成入庫文檔,并入庫存儲;(4)文檔模式化,通過預設的制表分隔符對入庫文檔進行模式化,形成統(tǒng)一為表格的模式化文檔;(5)按格式特征分別選取若干模式化文檔,僅保留內容相同的各位置內容,分別生成若干模板文檔;(6)按各模板為取錄內容命名,并預設取錄內容的所在位置;(7)遍歷(逐一地)選取各模板文檔和入庫文檔,按照印對方法與結果取錄預設位置的內容;(8)記錄已取錄的內容。上述步驟(I)中的文檔名識別符為文檔名中存在的各段固定不變的文字。上述步驟(3)中所查詢待取錄文檔的屬性為文檔創(chuàng)建時間和修改時間,并按照該文檔的最新修改時間定義入庫文檔。上述步驟(4)中所形成的模式化文檔為電子表格文檔。上述步驟(5)中所選模式化文檔的數(shù)量至少為兩篇。所述步驟(5)在生成模板文檔之后,進一步為該模版文檔命名;在同一任務中生成的多個模板文檔定義為一個模板集;并保存到設定模板集上述步驟(6)中取錄內容的所在位置采用行、列表示。本發(fā)明利用計算機輔助技術實現(xiàn)了對電子文檔中指定內容的自動取錄,采用自行動態(tài)建模的方法,從而擺脫了現(xiàn)有技術的阻礙。具體而言,本發(fā)明具有以下優(yōu)點:(I)解決了現(xiàn)代信息系統(tǒng)的文檔內容取錄作業(yè)多樣性、多變性及不可預定性的難題;
(2)改變將既定建模固化為計算機程序的簡單做法,轉而由用戶隨時根據(jù)作業(yè)需求,發(fā)揮自身專業(yè)知識、經(jīng)驗優(yōu)勢,在計算機輔助技術的支持下實現(xiàn)自行動態(tài)建模;(3)使文檔內容取錄的計算機程序工具化,且具有可移植性和通用性;(4)通過該方法可以將被取錄文檔按預設定的制表符模式化為同一書寫樣式的表格文檔,以引用多個模式化文檔的內容生成模板(相當于未填寫的“空白表”),將模式化文檔與模板進行同位印對(在相同的位置印證對照)以確定取錄的數(shù)據(jù)、文字和內容等。
圖1是本發(fā)明的流程示意圖;圖2是本發(fā)明所述取錄電子文檔中指定內容的計算機程序圖;圖3是本發(fā)明的操作界面示意圖。其中,圖中各構件的編號、名稱及作用如下:I——任務列選、輸入框;2——任務添加按鍵;3—任務刪除按鍵;4—儀器設備列選、輸入框;5——儀器設備添加按鍵;6—儀器設備刪除按鍵;7——文檔路徑列選、輸入框;8——文檔路徑添加按鍵;9—文檔路徑刪除按鍵;10—文檔名稱識別符列選、輸入框;11—文檔名稱識別符添加按鍵;12—文檔名稱識別符刪除按鍵;13-制表分隔符列選、輸入框;14——制表分隔符添加按鍵;15—制表分隔符刪除按鍵;16-模板集列選、輸入框;17——模板集添加按鍵;18—模板集刪除按鍵;19-模板列選、輸入框;20——模板添加按鍵;21—模板刪除按鍵;22——取錄內容命名列選、輸入框;23——取錄內容命名添加按鍵;24——取錄內容命名刪除按鍵;25——取錄內容所在行輸入框;26——取錄內容所在列輸入框;27——已完成取錄模式化文檔列表;28——已取錄內容命名列表;
29——取錄得,數(shù)據(jù)、文字顯示;30——取錄自,行顯示;31——取錄自,列顯示;32——退回重新取錄按鍵;33——等待取錄模式化文檔列表;34——生成模板用模式化文檔列表35——添加選定文檔按鍵;36——取消選定文檔按鍵;37——停止/進行自動取錄按鍵;38——人工取錄按鍵。
具體實施例方式本發(fā)明建立的技術方法是基于對以下事實與規(guī)律的認知:記載數(shù)據(jù)、文字內容的文檔,無論采用何種屬于在用人類文化的書寫樣式,即使原來不是表格書寫樣式,也都可以用設定的字符作為制表分隔符,產(chǎn)生其表格書寫樣式的文檔,且被填充分格的數(shù)量,取決于原文檔中出現(xiàn)該制表分隔符的數(shù)量,且所填充產(chǎn)生的表格記載內容與原文檔完全相同;本發(fā)明稱此為模式化文檔。由儀器設備重復執(zhí)行同一作業(yè)任務所提交的(還有雖需人工填寫,但遵從規(guī)定書寫樣式提交的)任意多個文檔,在采用同一制表符產(chǎn)生的各模式化文檔之間,如果僅保留在所有參比表格中均具有相同(固定)內容的分格的內容,將得到一個“空白表”——其“控白”程度取決于參比模式化文檔數(shù)量與涉及日期時間跨度;如果以這個“空白表”為模板,貝1J,可依據(jù)與模板不為空分格印對全部符合,確定來自同一提交鏈路,并以同一制表分隔符產(chǎn)生的模式化文檔為適用本模板(如模板全部分格為空則自然適用),進而可按照預定的,從屬于本模板的取錄內容定位編制,從被印對的模式化文檔中獲得所需數(shù)據(jù)、文字??墒褂靡延械模枰獜闹腥′洈?shù)據(jù)、文字的文檔,進行全自建模,獲得取錄操作從屬關系編制,特別是等同于未填寫的“空白表”樣式的模板。其所需軟件的設計開發(fā),僅需解決簡約的計算機輔助設計支持,與自動按從屬關系編制執(zhí)行取錄作業(yè)。從復雜、困難程度比較,能夠滿足實驗室信息管理系統(tǒng)(NMS)中文檔數(shù)據(jù)自動取錄需求的技術手段與方案,無疑最為優(yōu)越、通用,且容易推廣引用到其他門類信息系統(tǒng)。因而,此間以應用于實驗室信息管理系統(tǒng)(NMS))的技術實施例,描述本發(fā)明的技術手段與運作機制。如圖1、2所示,本發(fā)明所述自動取錄電子文檔中指定內容的方法的工作流程和原理如下:(I)通過計算機設定任務名稱、儀器設備、文件集路徑和文檔名識別符;(2)在預設的文件集路徑中查找與文檔名識別符相符的待取錄文檔;(3)文檔入庫,通過查詢待取錄文檔的屬性,重新定義待取錄文檔的名稱,生成入庫文檔,并入庫存儲;(4)文檔模式化,通過預設的制表分隔符對入庫文檔進行模式化,形成統(tǒng)一為表格的模式化文檔;
( 5 )按格式特征分別選取若干模式化文檔,僅保留內容相同的各位置內容,分別生成若干模板文檔;(6)按各模板為取錄內容命名,并預設取錄內容的所在位置;(7)遍歷選取各模板文檔和入庫文檔,按照印對方法與結果取錄預設位置的內容;(8)記錄已取錄的內容。如圖3所示,本發(fā)明所述自動取錄電子文檔中指定內容的操作流程如下(以下描述中的標號名稱詳見
):在I選定或輸入自設的,提交文檔的各作業(yè)任務的名稱;并可使用2、3進行添加、刪除。在I有選定時,則,可在4選定或輸入其下各儀器設備;并可使用5、6進行添加、刪除。在1、4有選定時,則,可在7選定或輸入其下(文檔)各查找路徑;并可使用8、9進行添加、刪除。在1、4、7有選定時,則,可在10選定或輸入其下各文檔名識別符;并可使用11、12
進行添加、刪除;此名稱識別符的表達樣式為:〈符號IX符號2>......〈符號n>——其中:
符號所包含字符必須是操作系統(tǒng)規(guī)定的文檔名合法字符,以“〈”、“〉”區(qū)分各符號,符號取自文檔名稱的各固定不變部份,并以各符號均能在文檔名中按先后、不重迭印對識別為屬取文檔;如符號為空,則屬取文檔為路徑下所有文檔。遵循操作1、2、3、4、5、6、7、8、9、10、11、12所生成的文檔查找、提取編制,按照從屬
關系鏈與作業(yè)記錄,自動識別出所需取錄文檔,以其最后修改日期時間加入原名作為入庫名,存放到特定路徑,并作記錄。在1、4、7、10有選定時,則,可在13選定或輸入其下各制表分隔符;并可使用14、15進行添加、刪除;其中:對于表格文檔,則以此聲明類型。遵循操作1、2、3、4、5、6、7、8、9、10、11、12、13、14、15所生成的模式化文檔制表編
制,按照從屬關系鏈與作業(yè)記錄,自動用對應的入庫文檔生成對應的各模式化文檔,存放到特定路徑,并作記錄;此模式化即:按制表分隔符或其聲明涵義等,將文檔書寫樣式統(tǒng)一模式化為表格書寫樣式,并最終據(jù)此進行建立模板及文檔內容取錄。在1、4、7、10、13有選定時,則,可在16選定或輸入其下各模板集;并可使用17、18
進行添加、刪除。在1、4、7、10、13、16有選定時,則,可在19選定其下各模板;并可使用21進行刪除;使用20添加模板過程如下:當27或33中有模式化文檔被選定,則,可使用35添加到34,可使用36從34中清除;添加模板時,先為模板建立一個與模式化文檔相同的表格且所有分格默認為空,掃描34中各模式化文檔的適當范圍(例如第I到500行,每行第I到100列)的所有分格,如果某個不為空的分格的內容在34中各模式化文檔中均相同,則引用為模板中同位分格的內容一因此34中模式化文檔的數(shù)量與涉及日期時間跨度宜大,完成后,保存新建模板到特定路徑,并作記錄。在1、4、7、10、13、16、19有選定時,則,可在22選定或輸入其下各取錄內容命名,以及在25輸入取錄內容按模板及模式化文檔定位的所在行,在26輸入取錄內容按模板及模式化文檔定位的所在列;并可使用23、24進行添加、刪除。遵循上述操作各構件所生成的文檔內容取錄編制,按照從屬關系鏈與作業(yè)記錄,自動將等待取錄的模式化文檔與對應的模板印對,如果模板中有不為空的分格,則僅當這些分格與被印對模式化文檔的同位分格均內容相同,才判斷為印對成功;如果模板全部分格為空,則直接判斷為印對成功;一旦印對成功,則按該模板其下各取錄內容命名及所在行、所在列,從被印對模式化文檔中提取數(shù)據(jù)、文字,并做記錄。在1、4、7、10有選定時,則,按照從屬關系鏈與作業(yè)記錄,將其下各已完成取錄的模式化文檔列于27,將其下各等待取錄模式化文檔列于33。在1、4、7、10、27有選定時,則,按照從屬關系鏈與作業(yè)記錄,將其下各已取錄內容命名列于28。在1、4、7、10、27有選定時,則,操作32,可將被選定模式化文檔退回到等待取錄,
并作記錄。在1、4、7、10、27、28有選定時,則,按照從屬關系鏈與作業(yè)記錄,將取錄得的數(shù)據(jù)、文字顯示在29,取自行顯示在30,取自列顯示在31 ;可由此察看、判斷建模是否正確。操作37,可停止或進行自動取錄,在停止時,便于根據(jù)文檔處理成功率與取錄出錯狀況,重新增刪修改、調整建模的編制,達到完善。操作38,可針對33中選定的模式化文檔,引導到人工取錄操作流程,按照從屬關系鏈與作業(yè)記錄,提示完成所有取錄內容命名項的數(shù)據(jù)、文字輸入,并作記錄,取消等待。
權利要求
1.一種自動取錄電子文檔中指定內容的方法,其特征在于,包括以下步驟: (1)通過計算機設定任務名稱、儀器設備、文件集路徑和文檔名識別符; (2)在預設的文件集路徑中查找與文檔名識別符相符的待取錄文檔; (3)文檔入庫,通過查詢待取錄文檔的屬性,重新定義待取錄文檔的名稱,生成入庫文檔,并入庫存儲; (4)文檔模式化,通過預設的制表分隔符對入庫文檔進行模式化,形成統(tǒng)一為表格的模式化文檔; (5)按格式特征分別選取若干模式化文檔,僅保留內容相同的各位置內容,分別生成若干模板文檔; (6 )按各模板為取錄內容命名,并預設取錄內容的所在位置; (7)遍歷選取各模板文檔和入庫文檔,按照印對方法與結果取錄預設位置的內容; (8)記錄已取錄的內容。
2.根據(jù)權利要求1所述自動取錄電子文檔中指定內容的方法,其特征在于,所述步驟(I)中的文檔名識別符為文檔名中存在的各段固定不變的文字。
3.根據(jù)權利要求1所述自動取錄電子文檔中指定內容的方法,其特征在于,所述步驟(3)中所查詢待取錄文檔的屬性為文檔創(chuàng)建時間和修改時間,并按照該文檔的最新修改時間定義入庫文檔。
4.根據(jù)權利要求1所述自動取錄電子文檔中指定內容的方法,其特征在于,所述步驟(4)中所形成的模式化文檔為電子表格文檔。
5.根據(jù)權利要求1所述自動取錄電子文檔中指定內容的方法,其特征在于,所述步驟(5)中所選模式化文檔的數(shù)量至少為兩篇。
6.根據(jù)權利要求1或5所述自動取錄電子文檔中指定內容的方法,其特征在于,所述步驟(5)在生成模板文檔之后,進一步為該模版文檔命名;并保存到設定模板集。
7.根據(jù)權利要求1所述自動取錄電子文檔中指定內容的方法,其特征在于,所述步驟(6)中取錄內容的所在位置采用行、列表示。
全文摘要
本發(fā)明公開了一種自動取錄電子文檔中指定內容的方法,通過計算機設定任務名稱、儀器設備、文件集路徑和文檔名識別符;然后在預設的文件集路徑中查找與文檔名識別符相符的待取錄文檔;通過查詢待取錄文檔的屬性,重新定義待取錄文檔的名稱,生成入庫文檔,并入庫存儲;再通過預設的制表分隔符對入庫文檔進行模式化,形成統(tǒng)一的模式化文檔;按格式特征分別選取若干模式化文檔,僅保留內容相同的內容,分別生成若干模板文檔;再按各模板為取錄內容命名,并預設取錄內容的所在位置;最后遍歷選取各模板文檔和入庫文檔,按照印對方法與結果取錄預設位置的內容;并記錄已取錄的內容。本發(fā)明解決了文檔內容取錄的難題,具有可移植性和通用性。
文檔編號G06F17/30GK103177064SQ20121051778
公開日2013年6月26日 申請日期2012年12月5日 優(yōu)先權日2012年12月5日
發(fā)明者師建中, 郝華杰 申請人:師建中