一種結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法
【技術領域】
[0001]本發(fā)明屬于建設行業(yè)材料文件處理領域,尤其涉及一種結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法。
【背景技術】
[0002]目前,建設行業(yè)材料多達幾十萬種,材料來源呈多樣化,且記載材料數(shù)據(jù)的材料文件格式各異,因此難以進行統(tǒng)一規(guī)范及管理。在行業(yè)信息化管理及使用過程中,如何將材料數(shù)據(jù)從材料文件中甄別、判斷材料屬性是否完全,及對同類材料進行去重、歸類,一直是行業(yè)的痛點。
[0003]現(xiàn)有技術中針對建設行業(yè)材料文件及材料數(shù)據(jù)的識別及管理主要還是基于人工操作的方式,即對各類型材料文件進行收集后,人工將甄選的材料數(shù)據(jù)歸并入分類的Excel文件進行保存,以備后續(xù)查閱及使用。但是,這種方式顯然存在工作效率低下、運營成本過尚等缺陷。
【發(fā)明內容】
[0004]本發(fā)明針對現(xiàn)有技術中存在的工作效率低、運營成本過高等缺陷,提出一種效率高且能夠節(jié)約運營成本的結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法。
[0005]本發(fā)明提出的一種結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法,其包括以下步驟:
[0006]檢測接收到的結構化建設行業(yè)材料文件的文件類型是否屬于預設文件類型,若是,則確定其為有效類型文件;若否,則將其轉換為預設文件類型,以形成有效類型文件;
[0007]檢測所述有效類型文件的內容,確定其是否存在三列以上非空數(shù)據(jù),若是,則確定其為有效數(shù)據(jù)文件;
[0008]讀取所述有效數(shù)據(jù)文件內容中的材料數(shù)據(jù),將所述材料數(shù)據(jù)與預設的國標材料數(shù)據(jù)庫中的材料名稱進行匹配,得出所述有效數(shù)據(jù)文件的材料名稱,并標記出其在所述有效數(shù)據(jù)文件中的位置;
[0009]從所述國標材料數(shù)據(jù)庫中調取與所述有效數(shù)據(jù)文件的材料名稱相應的材料屬性單位,根據(jù)所述材料屬性單位,讀取所述有效數(shù)據(jù)文件中材料名稱的位置之后的材料數(shù)據(jù),得出所述有效數(shù)據(jù)文件的材料屬性值;
[0010]基于所述有效數(shù)據(jù)文件的材料名稱和材料屬性值,形成關聯(lián)屬性數(shù)據(jù)并保存。
[0011]進一步,讀取所述有效數(shù)據(jù)文件內容中的材料數(shù)據(jù)之前還包括以下步驟:
[0012]檢測所述有效類型文件中表頭的位置,并對所述表頭的內容進行詞義分析,確認出表頭對應的數(shù)據(jù)列所代表的信息;
[0013]所述讀取所述有效數(shù)據(jù)文件內容中的材料數(shù)據(jù)包括:根據(jù)所述數(shù)據(jù)列所代表的信息,相應從所述數(shù)據(jù)列中讀取所需的材料數(shù)據(jù)。
[0014]進一步,從所述數(shù)據(jù)列中讀取所需的材料數(shù)據(jù)之后,還包括以下步驟:
[0015]通過字符識別將所述數(shù)據(jù)列中的無效數(shù)據(jù)進行清洗;
[0016]將所述材料數(shù)據(jù)與預設的國標材料數(shù)據(jù)庫中的材料名稱進行匹配的步驟具體為:將所述材料數(shù)據(jù)中的有效數(shù)據(jù)與預設的國標材料數(shù)據(jù)庫中的材料名稱進行匹配。
[0017]進一步,通過字符識別將所述數(shù)據(jù)列中的無效數(shù)據(jù)進行清洗的步驟具體包括:通過字符識別,對所述數(shù)據(jù)列中的空行或無效字符做相應的清除處理,并相應進行全角/半角轉換。
[0018]進一步,所述檢測所述有效類型文件中表頭的位置之后,還包括以下步驟:
[0019]檢測是否存在合并單元格;若是,則判斷所述合并單元格是否為規(guī)格列;若是,則對其進行規(guī)范拆分;
[0020]進一步,對所述表頭的內容進行詞義分析之后,還包括以下步驟:
[0021]基于所述詞義分析,確定是否存在多個價格表頭;若是,則根據(jù)預設的優(yōu)先順序選取對應的數(shù)據(jù)列中的優(yōu)選價格數(shù)據(jù);
[0022]所述得出所述有效數(shù)據(jù)文件的材料屬性值的步驟中,將所述優(yōu)選價格數(shù)據(jù)作為所述有效數(shù)據(jù)文件在價格方面的材料屬性值。
[0023]進一步,所述檢測所述有效類型文件中表頭的位置的步驟具體為:檢測所述表頭所處的列數(shù)及行數(shù),以確定所述表頭的位置。
[0024]進一步,所述結構化建設行業(yè)材料文件包括:以XML、Excel、Word或PDF格式呈現(xiàn)的建設行業(yè)材料文件。
[0025]進一步,所述預設文件類型具體為Excel文件類型。
[0026]有益效果:本發(fā)明提出的結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法,其對結構化建設行業(yè)材料文件進行文件類型檢測及轉換,確定出有效類型文件,使得到的文件可以按統(tǒng)一方式處理;對所述效類型文件進行檢測,確定出有效數(shù)據(jù)文件,以提高后續(xù)識別及管理的效率;運用預設的國標材料數(shù)據(jù)庫從所述有效數(shù)據(jù)文件中識別出所述有效數(shù)據(jù)文件的材料名稱和材料屬性值,實現(xiàn)了材料數(shù)據(jù)的準確識別;所述材料名稱和材料屬性值形成關聯(lián)屬性數(shù)據(jù),便于后續(xù)查詢及使用,有助于提高查詢及使用的效率及精確性。本發(fā)明可以自動完成材料文件及材料數(shù)據(jù)的識別及管理,而不需要過多依賴人工操作,能夠大大提高工作效率,并且顯著地降低了運營成本。
【附圖說明】
[0027]圖1為本發(fā)明提出的一種結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法實施例的主要流程示意圖。
[0028]圖2為本發(fā)明提出的一種結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法實施例的詳細流程示意圖。
【具體實施方式】
[0029]為了便于本領域技術人員理解,下面將結合附圖以及實施例對本發(fā)明進行進一步描述。
[0030]本發(fā)明提出的一種結構化建設行業(yè)材料文件及材料數(shù)據(jù)識別管理方法實施例,可由具備關系型數(shù)據(jù)庫存儲結構的單臺電腦、局域網電腦及廣域互聯(lián)網電腦來實施,請參閱圖1,其主要包括以下步驟SlOO至S500:
[0031]S100、檢測接收到的結構化建設行業(yè)材料文件的文件類型是否屬于預設文件類型,若是,則確定其為有效類型文件;若否,則將其轉換為預設文件類型,以形成有效類型文件。
[0032]步驟SlOO中,所述結構化建設行業(yè)材料文件具體是指:諸如XML、Excel、Word或PDF等已經數(shù)字化、格式化的建設行業(yè)材料文件,而不是像TXT之類沒格式化的、純文本的文件。
[0033]所述預設文件類型是指可以進行統(tǒng)一處理的文件類型,本實施例中的預設文件類型以Excel文件類型為例,以便于材料數(shù)據(jù)的識別及處理。
[0034]因此,在步驟SlOO中,假設接收到(用戶上傳)的結構化建設行業(yè)材料文件為Excel文件,則確定其為有效類型文件,不需要進行格式轉換;假設接收到(用戶上傳)的結構化建設行業(yè)材料文件為PDF文件,則需將其轉換成有效類型文件,即轉換成Excel文件。
[0035]S200、檢測所述有效類型文件的內容,確定其是否存在三列以上非空數(shù)據(jù),若是,則確定其為有效數(shù)據(jù)文件。
[0036]步驟S200中,若所述有效類型文件中非空數(shù)據(jù)少于三列,說明該有效類型文件的材料數(shù)據(jù)非常不完整,沒有信息化意義;為了提高識別及管理的效率,本實施例去除這類文件,優(yōu)選處理存在三列以上非空數(shù)據(jù)的文件。
[0037]S300、讀取所述有效數(shù)據(jù)文件內容中的材料數(shù)據(jù),將所述材料數(shù)據(jù)與預設的國標材料數(shù)據(jù)庫中的材料名稱進行匹配,得出所述有效數(shù)據(jù)文件的材料名稱,并標記出其在所述有效數(shù)據(jù)文件中的位置。
[0038]步驟S300中,所述國標材料數(shù)據(jù)庫是按照國家規(guī)定的建設行業(yè)材料標準分類法建立的數(shù)據(jù)庫,其包括各種材料對應的通用的材料名稱及對應的屬性單位等。本實施例將所述材料數(shù)據(jù)與預設的國標材料數(shù)據(jù)庫中的材料名稱進行匹配,可以大大提高材料識別的精度和管理的專業(yè)度。
[0039]例如,國標材料數(shù)據(jù)庫中存在通用的材料名稱“圓鋼”,同時,通過匹配發(fā)現(xiàn)所述有效數(shù)據(jù)文件內容中存在“圓鋼”這一字樣,則將“圓鋼”作為所述有效數(shù)據(jù)文件的材料名稱,同時標記所述有效數(shù)據(jù)文件內容中“圓鋼”這