本發(fā)明屬于面向制造業(yè)企業(yè)產(chǎn)品設計知識管理與知識推送技術領域,具體涉及一種新穎高效的、基于知識圖譜的知識管理和推送方法,該方法能夠有效地提高企業(yè)知識推送的準確性和完整性。
背景技術:
作為國民經(jīng)濟的支柱產(chǎn)業(yè),制造業(yè)是我國經(jīng)濟增長的主導部門和經(jīng)濟轉(zhuǎn)型的基礎;作為經(jīng)濟社會發(fā)展的重要依托,制造業(yè)是我國城鎮(zhèn)就業(yè)的主要渠道和國際競爭力的集中體現(xiàn)。制造業(yè)直接體現(xiàn)了一個國家的生產(chǎn)力水平,是區(qū)別發(fā)展中國家和發(fā)達國家的重要因素,是國民經(jīng)濟的物質(zhì)基礎和工業(yè)化的產(chǎn)業(yè)主體,是社會進步與富民強國之本.而先進制造業(yè)融合了傳統(tǒng)制造技術、信息技術、自動化技術和現(xiàn)代管理技術等,是制造業(yè)21世紀發(fā)展的方向。
在過去十幾年里,隨著我國制造業(yè)企業(yè)信息化建設不斷完善,眾多企業(yè)建立了ERP(企業(yè)資源規(guī)劃)來集成企業(yè)中的生產(chǎn)管理、財務、人事、采購、銷售等子系統(tǒng);通過CAD/CAPP/CAM一體化來提高企業(yè)的設計與制造水平;PDM(產(chǎn)品數(shù)據(jù)管理)系統(tǒng)被用于管理和控制由CAX(CAD、CAPP、CAE、CAM等的統(tǒng)稱)系統(tǒng)所形成的大量的信息,避免花費很多時間去尋找本應該垂手可得的信息;采用工作流管理來實現(xiàn)辦公自動化,提高企業(yè)管理效率。
現(xiàn)代制造業(yè)的方向并不只是計算機的集成、信息的集成,而是人、技術、組織的整體集成,特別是知識和企業(yè)的集成,即實現(xiàn)敏捷制造。制造企業(yè)采用現(xiàn)代通信手段,通過快速配置各種資源,以有效和協(xié)調(diào)的方式響應用戶需求,實現(xiàn)制造的敏捷性。其核心是通過面向知識和信息網(wǎng)絡,根據(jù)用戶的個性化需求和市場的競爭趨勢,以有效地組織敏捷制造動態(tài)聯(lián)盟,充分利用各種資源進行多模態(tài)人機協(xié)同的敏捷制造,盡快響應市場需求;采用基于知識和信息網(wǎng)絡,對定制產(chǎn)品的外觀形態(tài)、方案布局和多模態(tài)環(huán)境下人機交互等環(huán)節(jié)的支持加強,使企業(yè)的工作流程重組、信息資源重組和制造結構重組,促使企業(yè)更快地捕捉市場需求信息,實現(xiàn)制造過程的智能化。
制造智能化是先制造業(yè)的發(fā)展方向。企業(yè)在生產(chǎn)經(jīng)營活動中產(chǎn)生了大量的知識積累,這些知識可以使企業(yè)的智能化得到大幅提升。例如,在產(chǎn)品創(chuàng)新設計中所產(chǎn)生的經(jīng)驗、原理、創(chuàng)意等非物化知識是產(chǎn)品構造的基礎是寶貴的企業(yè)知識,合理充分地使用這些知識可以智能地支持設計者的工作、使不熟練的設計者也能設計出好地產(chǎn)品。但如果不對這些知識進行有效管理,就無法實現(xiàn)知識的共享與創(chuàng)新,也就無法利用這些知識來提高生產(chǎn)率?;诖耍姸嘀圃炱髽I(yè)開始構建“知識庫”來提升企業(yè)市場競爭力,知識管理逐漸進入企業(yè)信息化的核心。
在實現(xiàn)知識管理中,制造業(yè)目前所面臨的挑戰(zhàn)就是在整個產(chǎn)業(yè)信息化之后,如何利用各種信息來提升、獲取和開拓需求的能力,從而創(chuàng)造出更有價值的商品。在先進制造業(yè)在實行知識管理上具有自身特點:首先,信息技術是知識管理必備的基礎,而在先進制造企業(yè)具有信息技術的優(yōu)勢,具有知識管理所需的完善的硬件設施。其次,知識是通過人得以傳播的,因此人員的素質(zhì)對于知識的交流傳播具有重要意義。先進制造企業(yè)中多數(shù)員工是屬于知識員工,有利于知識創(chuàng)新。最后,在企業(yè)管理信息系統(tǒng)中存儲的信息、各種工業(yè)傳感器和數(shù)控設備中產(chǎn)生的數(shù)據(jù)匯集到一起形成了豐富的知識來源,將以提高生產(chǎn)效率為目標的信息化制造業(yè)轉(zhuǎn)變成了以掌握用戶需求為目標的智能化制造業(yè)。此外,還可以在產(chǎn)業(yè)鏈的各個環(huán)節(jié)中獲取知識、產(chǎn)生用之不盡的創(chuàng)新動力,從產(chǎn)品開發(fā)、生產(chǎn)和銷售中找到創(chuàng)新的源泉,從客戶和消費者行為中發(fā)掘新的合作伙伴,以及從售后反饋信息中發(fā)現(xiàn)新知識額外的增值服務。這表明,如何利用收集到的知識來創(chuàng)造更大的價值、為領導決策提供有力支撐,已成為制造業(yè)企業(yè)應該重點思考的問題。
自從知識管理的概念提出以來,人們對知識管理進行了深入的研究,并已取得了有影響力的研究成果,研發(fā)了一批有應用價值的知識管理系統(tǒng),各大企業(yè)也競相推出了自己的知識管理體系。盡管到目前為止,對知識管理的研究相對成熟,但知識服務方式(如與業(yè)務流程相關的個性化知識推送服務)很大程度上影響了知識管理的效能,知識的情境依賴性使得用戶僅僅通過關鍵詞獲取的知識與實際生產(chǎn)經(jīng)營過程關聯(lián)不夠緊密,為用戶獲取針對性的業(yè)務知識帶來巨大的困難。知識推送是知識服務網(wǎng)絡化的表現(xiàn)形式,它是由信息推送演變而來。 近些年,國內(nèi)外學者對知識推送的研究進行了關注,提出了基于協(xié)同過濾的推送、基于內(nèi)容過濾的推送、基于數(shù)據(jù)挖掘的推送和混合推送技知識推送的方法,這些推送方法從不同角度提高了知識推送服務質(zhì)量。由于之前的研究,缺少對企業(yè)海量知識的系統(tǒng)化管理和組織,導致知識的推送缺少完整性。
知識圖譜已廣泛應用于Web搜索引擎中,它構建了一個與搜索結果相關的完整的知識體系,利用識圖譜用戶往往會獲得意想不到的發(fā)現(xiàn)。在搜索中,用戶可能會了解到某個新的事實或新的聯(lián)系,促使其進行一系列的全新搜索查詢。相較Web而言,制造業(yè)企業(yè)知識管理有其特殊性:(1)知識表達多元化,有圖紙、文本、音視頻等;(2)知識來源多元化,包括信息系統(tǒng)、圖書資料、網(wǎng)絡數(shù)據(jù)、領域?qū)<业龋?3)知識需求與設計流程、人員崗位等因素相關,推薦時需考慮用戶已具備的知識。目前,尚缺少將知識圖譜應到制造業(yè)企業(yè)產(chǎn)品設計和知識推送上的有效方法。
技術實現(xiàn)要素:
本發(fā)明公開一種申請人自主開的知識圖譜Man-tree的制造設計知識推送系統(tǒng),包括資料庫、知識抽取與主題發(fā)現(xiàn)模塊、知識關聯(lián)計算模塊、知識圖譜構建模塊、用戶知識擁有度計算模塊(見附圖1)。利用開發(fā)的相關算法,通過從相關資料庫中抽出知識主題及主題間的關聯(lián)來構建制造企業(yè)產(chǎn)品設計知識圖譜(或稱為制造本體)。采用LDA,提出的Man-Tree結構.該結構不僅是相互連接的知識圖,還可以表示用戶對某一知識主題的具備程度,利用該結構可以方便地實現(xiàn)用戶的個性化知識推送。
Man-tree結合了知識獲取中的有監(jiān)督和無監(jiān)督技術。隨著技術的發(fā)展,制造業(yè)領域的知識內(nèi)容增長的非常迅速,除傳統(tǒng)的書籍、手冊、報告之外,在互聯(lián)網(wǎng)上也出線了大量的網(wǎng)絡知識。本發(fā)明采用非監(jiān)督方法從這些知識源里挖掘潛在的知識主題。通過監(jiān)督學習方法將潛在主題向“制造主題”進行映射以提供先驗知識。通過Man-Tree的結點及結點間的關系將用戶、文檔、制造主題及抽取的主題存儲在其中。
Man-Tree可以用來分析用戶對不同制造主題知識的具備程度,可用于制造設計過程檢索與推薦中。
本發(fā)明算法適應于個性化知識推薦,其優(yōu)越功效在于:
(1)可評價用戶對不同領域知識具備及專業(yè)程度;
(2)通過將制造知識與知識庫中挖掘出的知識進行結合,向用戶查詢提供更好的答案;
(3)理解查詢請求的內(nèi)涵,并直接引向主題專家;
(4)與用戶使用歷史數(shù)據(jù)相結合,為用戶提供個性化知識服務。
實際應用充分證明了該技術方法的可行性,以及具有優(yōu)越的性能,這是其它技術和方法所不具備的。該技術填補了相關研究和技術領域的空白,并且具有廣泛的實際應用價值。在汽車制造設計領域項目中,得到了成功的應用。
具體實施方式
請參閱附圖所示,下面來詳細介紹本發(fā)明所述的利用構建的知識圖譜Man-tree進行知識管理及推送核心算法的具體實施過程:
第一步:產(chǎn)生制造設計知識資料庫
發(fā)明人選取了汽車車身設計過程中的210個知識主題(稱為制造主題)。這些主題在國內(nèi)某家汽車制造企業(yè)設計人員應用歷史記錄中使用頻次排名靠前的主題。因此,可以說這些主題是用戶感興趣的重要主題。這些被選中的主題包括:車身總體設計、車身造型、車身硬點尺寸、車身結構、汽車風洞等。資料庫通過關鍵字從各個數(shù)字圖書館下載及從Web爬取到的相關頁面數(shù)據(jù),共記230,942個文檔
第二步:從資料庫中抽取知識
資料庫中的每篇文檔都與一個制造主題相關聯(lián)。然后,從文檔中抽取文檔中出現(xiàn)的汽車車身設計詞匯。詞匯抽取采用復雜最大匹配(Complex maximum matching)方法進行。
概念的抽取過程中,將之前定義好的設計本體作為監(jiān)督知識。同時,還使用了非監(jiān)督知識對文檔進行聚類,這樣每個聚類簇可以滿足多個非監(jiān)督主題。在資料庫中采用MALLET進行主題建模挖掘出234個潛在主題(稱為LDA主題)。MALLET是一個基于LDA(Latent Dirichlet Allocation)的主題建模工具。對每個挖掘出的LDA主題,都有一些關鍵詞經(jīng)常出現(xiàn)在其中。
第三步:尋找知識體間的關聯(lián)關系
本發(fā)明中的知識體指的是從資料庫中發(fā)現(xiàn)的制造主題及LDA主題。前面提到,一些LDA主題可能與制造主題之間存在關聯(lián),本發(fā)明力圖在系統(tǒng)中能自動發(fā)現(xiàn)這些關聯(lián)關系??蓪栴}做如下定義:
定義1:設M是制造主題集,L是LDA主題集。希望能找到所有的有序?qū)?lt;m,l>滿足m∈M,l∈L且m和l間存在關聯(lián)關系。
為了量化m和l間的關聯(lián)關系,在此給出兩者的關聯(lián)度定義:
定義2:設D是文檔集,W是關鍵詞集,某個文檔d∈D屬于某個LDA類l∈L的隸屬度ρ(d,l)。某個制造主題m∈M的文檔集為μ(m),而屬于某個LDA類文檔集為λ(l)。這樣,l和m之間的關聯(lián)度α(l,m),計算公式如下:
N-資料庫中的文檔數(shù);
tf(w,d)-表示關鍵詞w在文檔d中出現(xiàn)的頻率;
tfl(w,l)-表示關鍵詞w在l∈L的次數(shù),即∑d∈λ(l)tf(w,d).
dfl(w,l)-表示λ(l)中包括有w的文檔數(shù);
ρ(d,l)-表示文檔d屬于l的隸屬度。
公式一表明,如果某個關鍵詞w只在某個LDA類l中經(jīng)常出現(xiàn)(即tfl(w,l)高),在其它LDA主題中出現(xiàn)的頻率不高(即dfl(w,l)低),并在與l具有較高隸屬度ρ(d,l)的文檔中出現(xiàn),那么這個關鍵詞很有可能用來表明LDA類l與制造類之間的關系。如果這類關鍵詞在文檔d∈μ(m)中頻繁(即tf(w,d)高)出現(xiàn),但在整個文檔集中并不頻繁出現(xiàn)(即(tfc(w)低),那么這個關聯(lián)關系就較強。高α(l,m)表示l和m之間可能存在關聯(lián)關系。
除此,本發(fā)明還定義了概念文本與制造主題之間的對應關系。概念文本包括問題、定義、評論等。在概念文本與制造主題之間建立映射關系,有助于識別用戶感興趣的主題。尋找概念文本與制造主題之間的映射關系,可以給出形式化的定義:
定義3:設C是一個概念文本集,M是制造主題集,需要找到一個形如(c,m)∈C×M的關聯(lián)對,其中c∈C,m∈M.
關聯(lián)權重可以通過下式計算
β(c,m)=|Dm(c)|/|D(c)|
其中D(c)是包含有概念文本c的文檔集,Dm(c)是包含有概念文本c且屬于制造主題m的文檔集。
顯然,Dm(c)越大,β(c,m)就越高。高的β(c,m)值表示c和m越可能相關。β(c,m)可以看作是一個概率解釋,可以用β(c,m)來回答下列問題:給定一個包含概念文本c的文檔d,這個文檔可能屬于制造主題m的概率有多高。
第四步:知識庫存儲
將抽出的有監(jiān)督及無監(jiān)督知識用圖數(shù)據(jù)庫進行存儲。圖結構是Man-Tree的一部分,圖中有不同類型的節(jié)點和關系。其中,節(jié)點類型有:文檔(資料)、制造主題、LDA主題等。關系類型有“Contain(文檔與關鍵字)、in-man-categroy(文檔,is_in(文檔與LDA主題)。圖1是包含有所有節(jié)點和關系類型的數(shù)據(jù)模型。
附圖2描述了Man-tree詳細計算方法,附圖3結出Man-tree的詳細結構。用戶知識擁有度量化計算
通過對圖1知識圖譜架構進行擴展,用來確定用戶對知識的擁有程度。如果用戶u閱讀了屬于某個制造類m(或LDA類l)的文檔d,那么假設u具備一定關于類別m(或l)的知識。基于此,可將用戶節(jié)點加入圖1的知識圖譜框架中(見圖2)。
關系類型KNOWS_ABOUT描述這一信息,知識擁有度e(u,c):
e(u,c)=∑u accesses d quotient(d,c)
其中c表示主題(制造或LDA主題)。如果c是一個制造主題,且d是關于主題c的文檔,那么quotient(d,c)=1,否則quotient(d,c)=0.如果c是一個LDA主題,那么quotient(d,c)=ρ(d,c)。
附圖4描述了如何向Man-tree新增節(jié)點。
知識推薦過程
下面來說明本發(fā)明中如何實現(xiàn)知識推薦,過程如下:
在Step 1為確定查詢q的制造主題,首先考察q是否包含的某些制造主題中現(xiàn)出的關鍵詞。然而,有時用戶也具體說明主題類別。因此,本發(fā)明中考察了L(q)={L1,L2,...,Lk}中是否存在一些LDA主題與制造主題相關。
Step 2~Step 3,直接從描述Man-tree的RDF中可獲得制造主題M和對應文檔。
在Step 4,本發(fā)明采用下列方法給文檔打分。在候選集S中的每個文檔d,考慮文檔對L(p)中的LDA主題的所屬比例,采用下式計算:
idf(w)為關鍵詞w的逆向詞頻。score最高得分的k個文檔即為返回結果。
附件說明
圖1是包含有所有節(jié)點和關系類型的數(shù)據(jù)模型圖;
圖2是Man-tree詳細計算方法圖;
圖3是Man-tree的詳細結構圖;
圖4是描述了如何向Man-tree新增節(jié)點圖。