一種基于模糊層次分析的主數(shù)據(jù)歸集方法
【專利摘要】一種基于模糊層次分析的主數(shù)據(jù)歸集方法,屬于冶金行業(yè)信息化【技術(shù)領(lǐng)域】。企業(yè)主數(shù)據(jù)具有元數(shù)據(jù)多樣復(fù)雜、數(shù)據(jù)來源層級較多收集困難、數(shù)據(jù)頻繁變化率高、系統(tǒng)更新不及時等特性。本發(fā)明針對行業(yè)特點(diǎn),在模糊層次法的基礎(chǔ)上,采用數(shù)據(jù)分層級處理、規(guī)則權(quán)重分配、多關(guān)鍵字模糊匹配的方法,然后通過對有限指令集的動態(tài)組裝來實(shí)現(xiàn)組件化,最后結(jié)合規(guī)格再校驗(yàn),動態(tài)解析方式實(shí)現(xiàn)數(shù)據(jù)收集方面的一次收集、較少維護(hù)、動態(tài)邏輯更新的數(shù)據(jù)歸集技術(shù),讓用戶不用再抱怨數(shù)據(jù)收集中的諸多問題,并且數(shù)據(jù)后期維護(hù)簡單、快捷,能不斷提高效率與快速響應(yīng)用戶需求的服務(wù)能力。
【專利說明】一種基于模糊層次分析的主數(shù)據(jù)歸集方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于冶金行業(yè)信息化【技術(shù)領(lǐng)域】,涉及一種基于模糊層次分析的主數(shù)據(jù)歸集 技術(shù)。
【背景技術(shù)】
[0002]本發(fā)明公開了一種基于模糊層次分析的主數(shù)據(jù)歸集技術(shù)。企業(yè)主數(shù)據(jù)具有元數(shù)據(jù) 多樣復(fù)雜、數(shù)據(jù)來源層級較多收集困難、數(shù)據(jù)頻繁變化率高、系統(tǒng)更新不及時等特性,傳統(tǒng) 企業(yè)主數(shù)據(jù)收集基本靠人工收集,對數(shù)據(jù)質(zhì)量要求很高,出錯率較大,重復(fù)性工作較多。業(yè) 界雖然有部分成型的數(shù)據(jù)收集軟件,如SAP mdm, Oracle EBS等,雖然可以做到數(shù)據(jù)一致性、 完整性,但收集的數(shù)據(jù)僅限于內(nèi)部系統(tǒng),且內(nèi)部邏輯不強(qiáng),一次變動需調(diào)整的數(shù)據(jù)量大,且 耗時較長,面臨后續(xù)數(shù)據(jù)維護(hù)工作繁重的問題。本發(fā)明另辟蹊徑,針對行業(yè)特點(diǎn),在模糊層 次法的基礎(chǔ)上,采用數(shù)據(jù)分層級處理、規(guī)則權(quán)重分配、多關(guān)鍵字模糊匹配的方法,然后通過 對有限指令集的動態(tài)組裝來實(shí)現(xiàn)組件化,最后結(jié)合規(guī)格再校驗(yàn),動態(tài)解析方式實(shí)現(xiàn)數(shù)據(jù)收 集方面的一次收集、較少維護(hù)、動態(tài)邏輯更新的數(shù)據(jù)歸集技術(shù),讓用戶不用再抱怨數(shù)據(jù)收集 中的諸多問題,并且數(shù)據(jù)后期維護(hù)簡單、快捷,能不斷提高效率與快速響應(yīng)用戶需求的服務(wù) 能力。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明重點(diǎn)應(yīng)用模糊層次分析理論,通過歸集整理出主數(shù)據(jù)的基本構(gòu)成單元,即 元數(shù)據(jù),對其進(jìn)行屬性定義和編排,對全數(shù)據(jù)建立索引,抽取典型屬性值的關(guān)鍵字,對元數(shù) 據(jù)原始文件進(jìn)行語義分析,進(jìn)而分詞處理,結(jié)合索引,模糊匹配。從傳統(tǒng)的單純?nèi)斯な占?、?工校對轉(zhuǎn)變?yōu)榛A(chǔ)數(shù)據(jù)人工收集、深層次動態(tài)匹配,參考面多,避免重復(fù)工作、容錯率低,可 信度高,數(shù)據(jù)后期維護(hù)簡單、快捷。
[0004] 為達(dá)到上述目的,一種基于模糊層次分析的主數(shù)據(jù)歸集技術(shù),采用先層次劃分、再 關(guān)鍵字抽取形成規(guī)則、而后模糊匹配的策略。該技術(shù)包括以下幾個關(guān)鍵組成部分:
[0005] (1)元數(shù)據(jù)定義:企業(yè)數(shù)據(jù)進(jìn)行分級分層,層級定義需嚴(yán)謹(jǐn)、可擴(kuò)展化、期間引進(jìn) 有意義的賦值編碼唯一定義一條元數(shù)據(jù),編碼本身有特殊意義,即為層級劃分對應(yīng)的規(guī)則。
[0006] (2)屬性值定義:針對需要分析處理的數(shù)據(jù),定義其屬性值,這里以代表冶金行業(yè) 生產(chǎn)設(shè)備的技術(shù)參數(shù)為屬性,清晰定義、避免重復(fù)、分類五個屬性值。
[0007] (3)規(guī)則抽取:對于排序好的屬性值,按照語義分析,做一步拆解加工,稱為分詞, 對特殊符號進(jìn)行剔除,形成傳統(tǒng)意義上的關(guān)鍵字,結(jié)合排序規(guī)則,關(guān)鍵字再去重,去重之前 進(jìn)行權(quán)重分配,這里采用的是構(gòu)造判斷矩陣法,按照屬性值前5個,通過成對比較法,列出 矩陣,即為兩個5X5矩陣做乘法運(yùn)算,應(yīng)用幾何平均法(根法) :
[0008] 計算判斷矩陣A各行各個元素 mi的乘積;
[0009] 計算mi的η次方根;
[0010] 對向量進(jìn)行歸一化處理;
[0011] 該向量即為所求權(quán)重。
[0012] (4)索引建立:對目標(biāo)匹配數(shù)據(jù)進(jìn)行全數(shù)據(jù)索引,此索引隨著目標(biāo)數(shù)據(jù)的增減實(shí) 時變動其索引文件,索引存儲在服務(wù)器文件中。
[0013] (5)語模糊匹配:針對抽取的規(guī)則和關(guān)鍵字,將元數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行模糊匹配, 其規(guī)則是優(yōu)先權(quán)重、再次關(guān)鍵字、再次關(guān)鍵字?jǐn)?shù)量,最終依照用戶業(yè)務(wù)要求,選取元數(shù)據(jù)與N 個目標(biāo)值進(jìn)行匹配,系統(tǒng)自動記錄匹配關(guān)系,關(guān)系一旦建立,期初一步人工校驗(yàn),作為主數(shù) 據(jù)存儲起來,之后元數(shù)據(jù)、或者目標(biāo)數(shù)據(jù)發(fā)生變化,不需要人工維護(hù),系統(tǒng)自動將原來的匹 配關(guān)系重置,優(yōu)化重組。
[0014] 其中,所述采用層次分析法的構(gòu)造矩陣來確定屬性權(quán)重,是一種數(shù)學(xué)理論,這里簡 述:比較第i個元素與第j個元
[0015] 素相對上一層某個因素的重要性時,使用數(shù)量化的相對權(quán)重aij來描述。設(shè)共有η 個元素參與比較,則
[0016] A = (ajnXn稱為成對比較矩陣。構(gòu)成成對比較矩陣是層次分析法的數(shù)量依據(jù), 針對具體問題由各個領(lǐng)域的經(jīng)驗(yàn)豐富、判斷力強(qiáng)的專家給出。
[0017] 另外,該技術(shù)封裝了表達(dá)式可引用的通用方法lucene進(jìn)行目標(biāo)數(shù)據(jù)的分詞索引 建立方法以供調(diào)用,其特點(diǎn)為:
[0018] (1)索引文件格式獨(dú)立于應(yīng)用平臺。Lucene定義了一套以8位字節(jié)為基礎(chǔ)的索引 文件格式,使得兼容系統(tǒng)或者不同平臺的應(yīng)用能夠共享建立的索引文件。
[0019] (2)在傳統(tǒng)全文檢索引擎的倒排索引的基礎(chǔ)上,實(shí)現(xiàn)了分塊索引,能夠針對新的文 件建立小文件索引,提升索引速度。然后通過與原有索引的合并,達(dá)到優(yōu)化的目的。
[0020] (3)優(yōu)秀的面向?qū)ο蟮南到y(tǒng)架構(gòu),使得對于Lucene擴(kuò)展的學(xué)習(xí)難度降低,方便擴(kuò) 充新功能。
[0021] (4)設(shè)計了獨(dú)立于語言和文件格式的文本分析接口,索引器通過接受Token流完 成索引文件的創(chuàng)立,用戶擴(kuò)展新的語言和文件格式,只需要實(shí)現(xiàn)文本分析的接口。
[0022] (5)已經(jīng)默認(rèn)實(shí)現(xiàn)了一套強(qiáng)大的查詢引擎,用戶無需自己編寫代碼即使系統(tǒng) 可獲得強(qiáng)大的查詢能力,Lucene的查詢實(shí)現(xiàn)中默認(rèn)實(shí)現(xiàn)了布爾操作、模糊查詢(Fuzzy Search[ll])、分組查詢等等。
[0023] 主數(shù)據(jù)歸集方法的具體步驟如下:(以下步驟為增加的內(nèi)容)
[0024]步驟一、針對工廠設(shè)備進(jìn)行分層分級定義,依照功能位置作為劃分依據(jù),進(jìn)行層次 化組成單元拆分,拆分的數(shù)據(jù)為元數(shù)據(jù),元數(shù)據(jù)的字段包括:元數(shù)據(jù)唯一編碼ls_sid、設(shè)備 名稱1 s_name、設(shè)備類型1 s_sblx、技術(shù)參數(shù)j sdx lx、設(shè)備編碼1 s_code、父編碼p_code,規(guī)格 型號 specification、圖號 png_num。
[0025]步驟二、針對每一層級每類設(shè)備進(jìn)行技術(shù)參數(shù)屬性的設(shè)置,按照機(jī)械、液壓、電氣、 自動化設(shè)備進(jìn)行分類匯總的,針對每一類細(xì)分子類,直到子類可表述清楚設(shè)備的工藝技術(shù) 參數(shù),屬性值至少為5個沒有上限限制;子類可根據(jù)各類設(shè)備說明書技術(shù)參數(shù)信息為依 據(jù),技術(shù)參數(shù)字段依據(jù)不同設(shè)備類型,分類不同,具體字段至少包括:技術(shù)參數(shù)屬性唯一編 碼jsdxlx_sid,技術(shù)對象編碼cs_code,參數(shù)名稱cs_name,參數(shù)類別cs_lx,父級編碼cs_ code_p,屬性編碼sx_code,屬性名稱sx_name ( -個參數(shù)對象添加多個屬性值例如技術(shù)參 數(shù)為:ACA10自動化類變頻器,屬性值為ACA1001名稱,ACA1002規(guī)格型號,ACA1003生產(chǎn)廠 家,ACA1004出廠編號,ACA1005圖位號,這些具體的值是由設(shè)備收集模版導(dǎo)入到系統(tǒng)里)
[0026] 按照一類自動化設(shè)備為例,對其屬性按照排序選定前5個屬性值,每個設(shè)備的每 個屬性值按重要程度進(jìn)行成對比較,比較程度按1-9數(shù)理標(biāo)度確定,得出每類設(shè)備的5個屬 性值的權(quán)重;
[0027] 所述的標(biāo)度從1-9,表示兩個屬性值前者比后者的重要程度,數(shù)值越大,重要程度 越強(qiáng);倒數(shù)為若屬性值i與屬性值j的重要性之比為%,那么屬性值j與屬性值i重要性 之比為
【權(quán)利要求】
1. 一種基于模糊層次分析的主數(shù)據(jù)歸集方法,其特征在于: 步驟一、針對工廠設(shè)備進(jìn)行分層分級定義,依照功能位置作為劃分依據(jù),進(jìn)行層次化組 成單元拆分,拆分的數(shù)據(jù)為元數(shù)據(jù),元數(shù)據(jù)的字段包括:元數(shù)據(jù)唯一編碼、設(shè)備名稱、設(shè)備類 型、技術(shù)參數(shù)、設(shè)備編碼、父編碼,規(guī)格型號、圖號; 步驟二、針對每一層級每類設(shè)備進(jìn)行技術(shù)參數(shù)屬性的設(shè)置,按照機(jī)械、液壓、電氣、自動 化設(shè)備進(jìn)行分類匯總的,針對每一類細(xì)分子類,直到子類可表述清楚設(shè)備的工藝技術(shù)參數(shù), 技術(shù)參數(shù)屬性值至少為5個沒有上限限制;技術(shù)參數(shù)字段至少包括:技術(shù)參數(shù)屬性唯一編 碼、技術(shù)對象編碼、參數(shù)名稱、參數(shù)類別、父級編碼、屬性編碼、屬性名稱; 對技術(shù)參數(shù)屬性按照排序選定前5個屬性值,每個設(shè)備的每個屬性值按重要程度進(jìn)行 成對比較,比較程度按1-9數(shù)理標(biāo)度確定,得出每類設(shè)備的5個屬性值的權(quán)重; 構(gòu)造出各層次中的所有判斷矩陣并求得其最大特征向量的近似解;中間層A1-An各屬 性值對目標(biāo)層Z構(gòu)成比較判斷矩陣:
n為技術(shù)參數(shù)屬性值的數(shù)量,給出成對比較判斷矩陣A中的標(biāo)度數(shù)值,根據(jù)標(biāo)度數(shù)值 的大小順序,得出屬性值排序規(guī)則,并將屬性值排序規(guī)則保存到數(shù)據(jù)庫表中;表的結(jié)構(gòu)為: 設(shè)備編碼、技術(shù)參數(shù)、屬性值排序規(guī)則值,得出排序最重要的前5個屬性值排序規(guī)則值; 步驟三、建立物料數(shù)據(jù)庫,其結(jié)構(gòu)字段為:物料唯一編碼、物料描述、規(guī)格型號、供應(yīng)商、 單價、數(shù)量、庫存地、合同號;針對所有物料唯一編碼對應(yīng)的物料描述和規(guī)格型號做出按照 漢語分詞的全表Iucene索引,索引文件存儲在應(yīng)用服務(wù)器端; 步驟四、通過抽象出的排序規(guī)則值與索引文件中關(guān)鍵字進(jìn)行匹配,得出匹配度=兩者 匹配相同字符數(shù)/排序規(guī)則值字符數(shù)*100%,按照匹配度排序,對于匹配度大于等于50% 的,將匹配度排序第一個的物料數(shù)據(jù)作為主標(biāo)識,取前5個保存模糊匹配記錄;若匹配度均 小于50%,則判定為無模糊匹配目標(biāo)。
2. 如權(quán)利要求1所述的基于模糊層次分析的主數(shù)據(jù)歸集方法,其特征在于:所述的標(biāo) 度從1-9,表示兩個屬性值前者比后者的重要程度,數(shù)值越大,重要程度越強(qiáng);倒數(shù)為若屬 性值i與屬性值j的重要性之比為a#那么屬性值j與屬性值i重要性之比戈
【文檔編號】G06F17/30GK104268247SQ201410522687
【公開日】2015年1月7日 申請日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】李明陽, 屈樂圃, 米巖, 辛鵬飛, 張金, 靳銳, 張國棟 申請人:北京首鋼自動化信息技術(shù)有限公司