專利名稱:工作流挖掘系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及工作流挖掘,特別是涉及一種工作流挖掘系統(tǒng)和方法,本系統(tǒng)和方法通過對(duì)在工作流系統(tǒng)的運(yùn)行過程中累積的工作流記錄數(shù)據(jù)以及由連接到工作流系統(tǒng)的應(yīng)用系統(tǒng)所累積的數(shù)據(jù)應(yīng)用一種數(shù)據(jù)發(fā)掘技術(shù),能夠評(píng)價(jià)、分析和確定過程或活動(dòng)的先前執(zhí)行結(jié)果。
背景技術(shù):
通常,工作流程被定義為根據(jù)一系列的程序或規(guī)則將文件、信息或活動(dòng)從一個(gè)參與者處傳輸?shù)搅硪粋€(gè)參與者處的整個(gè)或部分商務(wù)過程。工作流系統(tǒng)是一個(gè)用于集中管理工作流程的自動(dòng)系統(tǒng)。
典型的商務(wù)過程包括保險(xiǎn)公司的保險(xiǎn)合同業(yè)務(wù)工作、遞送公司的遞送業(yè)務(wù)工作以及銀行的貸款業(yè)務(wù)工作。工作流系統(tǒng)可以解釋和具體化包括與一個(gè)組織的日常工作相關(guān)的資源之間的關(guān)聯(lián)性和流程的商務(wù)過程,因此人們可以通過使用商務(wù)過程來工作,它被稱為過程執(zhí)行。
現(xiàn)在參考圖1對(duì)保險(xiǎn)合同業(yè)務(wù)工作進(jìn)行詳細(xì)的解釋。此商務(wù)過程具有連續(xù)的步驟,即接受客戶訂單、準(zhǔn)備合同文件、批準(zhǔn)準(zhǔn)備的文件。在保險(xiǎn)合同業(yè)務(wù)工作中,訂單接受、文件準(zhǔn)備、文件批準(zhǔn)工作是工作流程中的各個(gè)單位活動(dòng)。它是組成過程的最小邏輯單元,包括人力、資源和信息。
當(dāng)接受了一個(gè)保險(xiǎn)合同訂單時(shí),根據(jù)過程定義所產(chǎn)生的過程就是一個(gè)實(shí)例。因此,在一個(gè)過程定義中存在大量的實(shí)例。當(dāng)一個(gè)實(shí)例被執(zhí)行并結(jié)束時(shí),與此過程實(shí)例相關(guān)的信息被存儲(chǔ)在一個(gè)檔案文件中。
工作流系統(tǒng)通常提供了對(duì)一個(gè)過程及在此過程中工作的一個(gè)人,進(jìn)行搜索、分析或評(píng)價(jià)的功能,包括一個(gè)開始和一個(gè)結(jié)束時(shí)間、一個(gè)負(fù)責(zé)人、一個(gè)耽擱工作的人、一個(gè)延誤的工作和一個(gè)完成整個(gè)過程所需的時(shí)間。工作流系統(tǒng)的這些功能用來實(shí)施經(jīng)濟(jì)的技術(shù),例如基于活動(dòng)的管理或平衡計(jì)分卡。
但是,傳統(tǒng)的工作流系統(tǒng)只能提供用于評(píng)價(jià)活動(dòng)或過程的非?;镜墓δ?。結(jié)果,出現(xiàn)了對(duì)新分析方法的強(qiáng)烈要求,此分析方法通過對(duì)在工作流執(zhí)行過程中累積的大量數(shù)據(jù)進(jìn)行有效的分析來度量和評(píng)價(jià)活動(dòng)過程的結(jié)果。
發(fā)明內(nèi)容
因此,本發(fā)明的一個(gè)目標(biāo)是提供一種設(shè)計(jì)用來在工作流系統(tǒng)中使用一種特殊數(shù)據(jù)挖掘技術(shù)的工作流挖掘系統(tǒng)和方法。
為了實(shí)現(xiàn)上述發(fā)明目標(biāo),這里提供了一種安裝在具有一個(gè)工作流引擎和一個(gè)數(shù)據(jù)庫的工作流服務(wù)器上的工作流挖掘系統(tǒng),用于根據(jù)數(shù)據(jù)庫的記錄數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,包括一個(gè)用于從數(shù)據(jù)庫中提取必要的數(shù)據(jù)并生成分析表的數(shù)據(jù)提取和處理裝置;一個(gè)用于在所提取的數(shù)據(jù)的基礎(chǔ)上去除不必要的屬性或者將數(shù)字變量轉(zhuǎn)換成符號(hào)變量的預(yù)處理裝置;以及一個(gè)用于分析決策樹,通過使用經(jīng)過預(yù)處理的數(shù)據(jù)來推斷決策樹類型的可能規(guī)則,或者在屬性之間的支持和可靠性的基礎(chǔ)上分析關(guān)聯(lián)性的分析裝置。
另外,這里提供了一種在工作流服務(wù)器的數(shù)據(jù)庫中的記錄數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘的工作流挖掘方法,包括(a)一個(gè)用于從數(shù)據(jù)庫中提取必要數(shù)據(jù)并生成分析表的步驟;(b)一個(gè)用于在所提取的數(shù)據(jù)的基礎(chǔ)上去除不必要的屬性或者將數(shù)字變量轉(zhuǎn)換成符號(hào)變量的預(yù)處理步驟;以及(c)一個(gè)用于分析決策樹,通過使用經(jīng)過預(yù)處理的數(shù)據(jù)來推斷決策樹類型的可能規(guī)則,或者在屬性之間的支持和可靠性的基礎(chǔ)上分析關(guān)聯(lián)性的分析步驟。
參考附圖可以更好地理解本發(fā)明,這些附圖只是用于示例,而并不是對(duì)本發(fā)明的限制,其中圖1是一個(gè)描述了一個(gè)用于保險(xiǎn)合同業(yè)務(wù)工作的商務(wù)過程的視圖;圖2是一個(gè)描述了一個(gè)根據(jù)本發(fā)明的工作流系統(tǒng)的應(yīng)用情況的視圖;圖3是一個(gè)描述了工作流挖掘系統(tǒng)的詳細(xì)結(jié)構(gòu)視圖;圖4A至4D是描述了數(shù)據(jù)提取和處理模塊的一個(gè)處理過程的視圖;圖5A至5D是描述了預(yù)處理模塊的一個(gè)處理過程的視圖;圖6A至6C是描述了數(shù)據(jù)統(tǒng)計(jì)模塊的一個(gè)處理過程的視圖;圖7A至7E是描述了決策樹分析模塊的一個(gè)處理過程的視圖;圖8A至8D是描述了關(guān)聯(lián)性分析模塊的一個(gè)處理過程的視圖;以及圖9是一個(gè)示出了一個(gè)根據(jù)本發(fā)明的工作流挖掘方法的流程圖。
具體實(shí)施例方式
現(xiàn)在將參考附圖詳細(xì)描述本發(fā)明的工作流挖掘系統(tǒng)及相應(yīng)的方法的一個(gè)優(yōu)選實(shí)施例。
圖2是一個(gè)描述了本發(fā)明的工作流挖掘系統(tǒng)30的一個(gè)應(yīng)用情況的視圖。參考圖2,工作流挖掘系統(tǒng)30安裝在一個(gè)工作流服務(wù)器20上,并且工作流服務(wù)器20與至少一個(gè)客戶計(jì)算機(jī)30相連。這些系統(tǒng)可以通過一個(gè)內(nèi)部的局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、或互聯(lián)網(wǎng)而互相訪問。根據(jù)本發(fā)明,“互聯(lián)網(wǎng)”的意思是根據(jù)一種標(biāo)準(zhǔn)協(xié)議,如TCP/IP、HTTP,和一種無線互聯(lián)網(wǎng)協(xié)議(例如WAP)可以互相訪問的網(wǎng)絡(luò)集合。它還包括以后的變化,包括對(duì)現(xiàn)有標(biāo)準(zhǔn)協(xié)議的修改和補(bǔ)充。
工作流服務(wù)器20包括一個(gè)工作流引擎21、一個(gè)監(jiān)視模塊22和工作流挖掘系統(tǒng)30。
工作流引擎21根據(jù)過程定義控制活動(dòng),并且接收用于從客戶端增加、校正、刪除和搜索某個(gè)文檔文件的控制命令,或者根據(jù)一個(gè)自操作來操作。工作流引擎21包括一個(gè)組織管理模塊、一個(gè)文件夾管理模塊、一個(gè)流程控制模塊、一個(gè)DB存儲(chǔ)模塊和一個(gè)文件管理模塊。
組織管理模塊從事ID管理,以及訪問權(quán)授予和去除(登錄控制),以管理加入工作流系統(tǒng)的人。
文件夾管理模塊用于系統(tǒng)化地管理關(guān)于過程定義的項(xiàng)目。即,它使得用戶可以知道在哪一個(gè)文件夾中存在哪個(gè)過程定義。例如,車保險(xiǎn)過程定義、人壽保險(xiǎn)過程定義和火災(zāi)保險(xiǎn)過程定義可以被存儲(chǔ)在一個(gè)保險(xiǎn)文件夾中。
流程控制模塊用于根據(jù)來自客戶計(jì)算機(jī)10的命令或自操作將控制命令傳送給DB存儲(chǔ)模塊或文件管理模塊。
DB存儲(chǔ)模塊在數(shù)據(jù)庫40中存儲(chǔ)了在客戶計(jì)算機(jī)10中定義的一個(gè)文檔文件、過程定義、文檔文件之間的版本關(guān)聯(lián)性、以及文檔文件的校正日期和校正者。
監(jiān)視模塊22包含根據(jù)由流程控制模塊生成的各種過程信息來觀察處理過程的流程的功能。這里,各種過程信息存儲(chǔ)在數(shù)據(jù)庫40中。
數(shù)據(jù)庫40存儲(chǔ)了在工作流系統(tǒng)的操作過程中所生成的各種記錄數(shù)據(jù),如通過操作工作流引擎21而生成的過程定義、檔案文件、實(shí)例、用戶、文檔文件、文檔歷史、創(chuàng)建者和校正者。
工作流挖掘系統(tǒng)30在管理員的請(qǐng)求下,根據(jù)數(shù)據(jù)庫40中的記錄數(shù)據(jù)來評(píng)價(jià)、分析和確定過程和活動(dòng)的先前執(zhí)行結(jié)果,因此該數(shù)據(jù)可以用作商務(wù)過程重調(diào)整(BPR,business process reengineering)的客觀數(shù)據(jù)。
圖3是一個(gè)描述了工作流挖掘系統(tǒng)30的詳細(xì)結(jié)構(gòu)的視圖。如圖3所示,工作流挖掘系統(tǒng)30包括一個(gè)數(shù)據(jù)提取和處理模塊32、一個(gè)預(yù)處理模塊34、一個(gè)數(shù)據(jù)統(tǒng)計(jì)模塊36和一個(gè)分析模塊38。
數(shù)據(jù)提取和處理模塊32從數(shù)據(jù)庫40中提取必要的數(shù)據(jù),并生成一個(gè)分析表??梢詫?duì)過程和活動(dòng)進(jìn)行分別分析。通常,首先分析過程,然后再詳細(xì)的分析活動(dòng),但并不僅限于此。數(shù)據(jù)提取和處理模塊32具有一個(gè)過程分析表的生成模塊和一個(gè)活動(dòng)分析表的生成模塊,以提取數(shù)據(jù)并生成分析表。預(yù)處理模塊34根據(jù)由分析表提取的數(shù)據(jù)搜索數(shù)據(jù)的特性,去處不必要的屬性,如果必要?jiǎng)t劃分實(shí)例,并且通過對(duì)區(qū)域(section)進(jìn)行劃分將數(shù)字變量轉(zhuǎn)化為符號(hào)變量。為此,預(yù)處理模塊34包括一個(gè)分析表數(shù)據(jù)裝載模塊、一個(gè)屬性選擇和去除模塊和一個(gè)過濾模塊,過濾模塊包括一個(gè)離散化過濾器、一個(gè)記錄過濾器和一個(gè)遺漏值過濾器。
數(shù)據(jù)統(tǒng)計(jì)模塊36以文本或圖形的方式為經(jīng)過預(yù)處理的數(shù)據(jù)集提供基本的統(tǒng)計(jì)值,以掌握變量之間的基本關(guān)聯(lián)性。為此,數(shù)據(jù)統(tǒng)計(jì)模塊36包括一個(gè)預(yù)處理數(shù)據(jù)裝載模塊和一個(gè)顯示模塊。
分析模塊38通過使用一些分析算法來對(duì)經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行分析。分析模塊38對(duì)決策樹和關(guān)聯(lián)性進(jìn)行分析,因此它包括一個(gè)決策樹分析模塊和一個(gè)關(guān)聯(lián)性分析模塊。
圖4A至4D是描述了數(shù)據(jù)提取和處理模塊32的一個(gè)處理過程的視圖;圖4A示出了一個(gè)初始屏幕,其中數(shù)據(jù)提取和處理模塊32生成分析表。如圖4A所示當(dāng)按下“WM PROCESS TABLEGENERATION”按鈕而生成過程分析表時(shí),如圖4B所示過程分析表生成模塊被執(zhí)行,用于連接數(shù)據(jù)庫40的輸入窗口被打開,在其中輸入用戶ID、密碼以及分析對(duì)象的過程定義ID。分析表生成模塊從數(shù)據(jù)庫40中提取具有所輸入的過程定義ID的過程實(shí)例的一般信息,并完成表的生成。圖4C示出了所生成的分析表的一個(gè)例子。如圖4C所示,過程分析表的屬性包括一個(gè)服務(wù)器ID(SVRID)、一個(gè)過程實(shí)例的標(biāo)識(shí)符(PROCID)、一個(gè)表示緊急的標(biāo)記(URGENT)、一個(gè)表示過程項(xiàng)中的密碼驗(yàn)證狀態(tài)的標(biāo)記(PASSWDF)、一個(gè)注釋號(hào)碼(CMNTCNT)、一個(gè)附件號(hào)碼(ATTACHCNT)、一個(gè)過程實(shí)例的解釋名稱(NAME)、一個(gè)a.m./p.m.形式的創(chuàng)建時(shí)間(CREATIONTIME1)、一個(gè)在一周的某一天的創(chuàng)建時(shí)間(CREATIONTIME2)、一個(gè)在時(shí)間間隙中的創(chuàng)建時(shí)間(CREATIONTIME3)、一個(gè)過程實(shí)例的創(chuàng)建者ID(CREATOR)和一個(gè)過程實(shí)例的創(chuàng)建者的名稱(CREATOR NAME)。因?yàn)橐郧皽?zhǔn)備在數(shù)據(jù)庫40中的記錄數(shù)據(jù)被用作屬性的數(shù)據(jù),所以過程分析表的屬性可以是數(shù)據(jù)庫40的屬性的一部分或全部。
另一方面,當(dāng)數(shù)據(jù)提取和處理模塊32試圖生成活動(dòng)分析表時(shí),在圖4A的初始屏幕中按下“WM ACTIVITY TABLEGENERATION”按鈕,如圖4D所示活動(dòng)分析表生成模塊被執(zhí)行,用于連接數(shù)據(jù)庫40的輸入窗口被打開,在其中輸入用戶ID、密碼、以及分析對(duì)象活動(dòng)的過程定義ID和活動(dòng)順序ID。活動(dòng)表生成模塊從數(shù)據(jù)庫40中提取具有所輸入的過程定義ID和活動(dòng)順序ID的過程實(shí)例的一般信息,并完成表的生成。所生成的活動(dòng)分析表的屬性成為數(shù)據(jù)庫40的字段的一部分或全部,與過程分析表相同。
圖5A至5D的視圖描述了預(yù)處理模塊34的一個(gè)處理過程。
圖5A示出了預(yù)處理模塊被執(zhí)行的初始屏幕。預(yù)處理模塊通過按下處于圖5A的屏幕頂端的“DATA PREPROSESSING”開關(guān)按鈕而被啟動(dòng)。如圖5A所示,預(yù)處理模塊包括一個(gè)用于由分析表提取的數(shù)據(jù)的基本表、和一個(gè)用于預(yù)處理過的數(shù)據(jù)的操作表。預(yù)處理方法依賴于一種將在后面用到的分析模塊。因此根據(jù)分析的目標(biāo)來執(zhí)行一種恰當(dāng)?shù)念A(yù)處理過程是很重要的。通過按下基本表上的“Open DB”按鈕來執(zhí)行分析表數(shù)據(jù)的載入模塊,由此而載入分析表的數(shù)據(jù)。圖5B示出了載入的一種結(jié)果。基本表的屬性信息窗口示出了屬性的名稱和類型。當(dāng)用戶點(diǎn)擊了一個(gè)想要的屬性,基本表的屬性信息窗口將示出屬性的特性。屬性的特性以符號(hào)格式示出了一個(gè)變量和頻率,以及數(shù)字格式的最大、最小、標(biāo)準(zhǔn)偏差和平均值。
為了去除不必要的屬性,如圖5C所示,在選項(xiàng)框中取消了對(duì)不必要屬性的選擇,并且通過按下“Apply Filter”開關(guān)按鈕來執(zhí)行屬性選擇和去除模塊,由此而得到圖5D的結(jié)果。也就是說,在去除不必要的屬性之前屬性的數(shù)目是62,而在去除之后縮小到35。另一方面,在預(yù)處理過程之后,另外需要一個(gè)通過符號(hào)變量來劃分?jǐn)?shù)字變量的過程來進(jìn)行關(guān)聯(lián)性分析。在此情況下,將使用離散化過濾器及兩個(gè)算法第一個(gè)是用來將一個(gè)最大值區(qū)域和一個(gè)最小值區(qū)域劃分為屬性分布中的預(yù)定區(qū)域并且離散化變量的方法,即無管理的離散化;第二個(gè)是用來根據(jù)類變量的分布來離散化屬性的方法,即有管理的離散化。另一方面,記錄過濾器是一個(gè)用于從分析對(duì)象中排除某個(gè)特定記錄(意思與實(shí)例相同)的過濾器。例如,用記錄過濾器來從分析對(duì)象中排除圖4C中過程實(shí)例標(biāo)識(shí)符PROCID在120之后的過程實(shí)例。另外,當(dāng)一個(gè)變量是空值時(shí)使用遺漏值過濾器。主要地,遺漏值過濾器使用一種用于將數(shù)字變量替換為平均值,以及將符號(hào)變量替換為一個(gè)最常被生成的模式。
當(dāng)預(yù)處理模塊34處理完與去除屬性、轉(zhuǎn)換變量以及去除記錄相關(guān)的預(yù)處理過程后,數(shù)據(jù)統(tǒng)計(jì)模塊36為數(shù)據(jù)集提供文本或圖形形式的基本的統(tǒng)計(jì)值以掌握變量的基本關(guān)聯(lián)性。
圖6A至6C的視圖描述了數(shù)據(jù)統(tǒng)計(jì)模塊36的一個(gè)處理過程。圖6A示出了當(dāng)數(shù)據(jù)統(tǒng)計(jì)模塊36執(zhí)行時(shí)的初始屏幕。通過按下圖6A屏幕頂端的“DATA STATISTICS”開關(guān)按鈕來啟動(dòng)數(shù)據(jù)統(tǒng)計(jì)模塊。當(dāng)用戶點(diǎn)擊了“DATA STATISTICS”按鈕,由預(yù)處理數(shù)據(jù)裝載模塊所預(yù)處理的數(shù)據(jù)就被裝載以為每一個(gè)變量提供統(tǒng)計(jì)值。也就是,對(duì)數(shù)字變量示出最小、最大、平均和標(biāo)準(zhǔn)偏差,對(duì)符號(hào)變量示出模式和頻率。當(dāng)用戶點(diǎn)擊了圖6A右下端的“BASIC STATISTICSDISTRIBUTION”按鈕時(shí),示出模塊將被執(zhí)行以圓圖的形式示出符號(hào)變量,以關(guān)于基本統(tǒng)計(jì)值的直方圖形式示出數(shù)字變量。圖6B示出了基本統(tǒng)計(jì)值的圓圖和直方圖。另外,當(dāng)用戶點(diǎn)擊了圖6A左下端的“SECONDARY SCATTER DIAGRAM”按鈕時(shí),將示出兩個(gè)屬性之間的基本關(guān)聯(lián)性。圖6C說明了一個(gè)示出了表示創(chuàng)建時(shí)間CREATIONTIME1(a.m.和p.m.格式)的變量與表示延誤過程實(shí)例STATE1的變量之間的關(guān)聯(lián)性??梢钥闯?,當(dāng)變量CREATIONTIME1的值為AM,并且變量STATE1的值為NOverDue時(shí),這兩個(gè)變量之間有非常緊密的關(guān)聯(lián)性。
分析模塊38在預(yù)處理模塊34預(yù)處理的變量和屬性以及數(shù)據(jù)的基礎(chǔ)上,分析決策樹或關(guān)聯(lián)性。
圖7A至7E是描述了決策樹分析模塊的一個(gè)處理過程的視圖。
決策樹分析以決策樹的形式為對(duì)象變量(類變量)產(chǎn)生可能的規(guī)則。
圖7A示出了決策樹分析模塊執(zhí)行時(shí)的初始屏幕。通過按下圖7A頂端的“DECISION MAKING TREE ANALYSIS”開關(guān)按鈕來開始決策樹分析模塊。當(dāng)決策樹分析模塊被執(zhí)行時(shí),由用戶選擇用于決策分析的算法。根據(jù)本發(fā)明,由J Ross Quinlan所建議的C4.5算法被用作決策樹分析算法,但并不意味著僅限于此。如圖7B所示,當(dāng)用戶選擇了算法,決策樹分析模塊裝載預(yù)處理的屬性數(shù)據(jù),并且讓用戶決定是否通過變量來使用數(shù)據(jù)作分析。圖7C示出了一個(gè)選擇完分析用的變量以及對(duì)類完成指定后的狀態(tài)。類指出了一個(gè)是可能規(guī)則的演繹對(duì)象的變量。在決策樹分析中,一對(duì)類變量以及一個(gè)特定的值成為規(guī)則的結(jié)果。例如,當(dāng)用戶想要獲得針對(duì)表示延誤過程實(shí)例STATE1(變量STATE1和變量OverDUE的對(duì))的延誤情況的可能規(guī)則,變量STATE1成為類,并且為了決策樹分析,此類需要是符號(hào)型的。因此,在預(yù)處理過程中數(shù)字型的類變量必須要由離散化過濾器轉(zhuǎn)化為符號(hào)變量。因?yàn)闆Q策樹分析是一種直接的分析方法,表示分析對(duì)象的變量之一必須要被指定為類。
參考圖7C,最后一個(gè)變量STATE2被選擇不用作分析,被指定為類的變量為STATE1。當(dāng)選擇完了變量,用戶點(diǎn)擊“EXECUTION”按鈕來進(jìn)行決策樹分析。分析結(jié)果如圖7D所示以文本的形式示出。通過點(diǎn)擊“VISUALIZATION”按鈕,如圖7E所示還可以以圖形的形式示出。圖7D和7E示出了當(dāng)類變量是STATE1時(shí)的關(guān)于搜索影響延誤過程的變量的分析。對(duì)STATE1最有影響作用的變量是CREATIONDATE1,隨后的影響變量是AR10、CREATIONTIME3和AR5。
也就是說,過程在下面的場(chǎng)合下是延誤的1)過程在下午執(zhí)行,2)過程在上午執(zhí)行,并且第十活動(dòng)的執(zhí)行時(shí)間低于5,3)過程在上午執(zhí)行,第十活動(dòng)的執(zhí)行時(shí)間高于5,并且過程在6之后執(zhí)行,4)過程在上午執(zhí)行,第十活動(dòng)的執(zhí)行時(shí)間高于5,過程在6之后執(zhí)行,并且第五活動(dòng)的執(zhí)行時(shí)間高于1512。
如圖7E所示,提供了四個(gè)內(nèi)部節(jié)點(diǎn)。每一個(gè)節(jié)點(diǎn)示出為一個(gè)圓圈形。外部的圓圈示出了類變量在父節(jié)點(diǎn)中的分布率,內(nèi)部圓圈示出了根據(jù)相應(yīng)節(jié)點(diǎn)的標(biāo)準(zhǔn)間隔的類變量的間隔率。矩形表示一個(gè)葉節(jié)點(diǎn),括號(hào)內(nèi)的數(shù)字是屬于相應(yīng)葉節(jié)點(diǎn)的數(shù)據(jù)集中的實(shí)例的數(shù)目。當(dāng)樹很復(fù)雜時(shí),可以通過整理來減少復(fù)雜性。特別地,通過點(diǎn)擊某個(gè)特定節(jié)點(diǎn),可以示出從最重要的節(jié)點(diǎn)到相應(yīng)的節(jié)點(diǎn)所生成的規(guī)則。
在上面解釋了通過使用經(jīng)過預(yù)處理的數(shù)據(jù)來分析決策樹的過程,但是另外一種分析可以用來分析關(guān)聯(lián)性。
關(guān)聯(lián)性分析意味著在支持和可靠性的基礎(chǔ)上搜索數(shù)據(jù)庫中的獨(dú)立項(xiàng)之間的關(guān)聯(lián)性或規(guī)則。這里,項(xiàng)是包括屬性和屬性的特定值的對(duì),關(guān)聯(lián)性分析是用于在所有在給定數(shù)據(jù)庫中的可能的項(xiàng)的集合之間搜索關(guān)聯(lián)性的一種分析方法。首先,支持意味著滿足條件X和結(jié)果Y的過程實(shí)例或執(zhí)行活動(dòng)的數(shù)目與所有過程實(shí)例或執(zhí)行活動(dòng)的數(shù)目的比值。
S(X,Y)=P(X,Y)/所有過程實(shí)例或執(zhí)行活動(dòng)實(shí)例的數(shù)目X條件Y結(jié)果P(X,Y)過程或執(zhí)行活動(dòng)的實(shí)例(包括X和Y聯(lián)合組成的三項(xiàng))的數(shù)目S(X,Y)滿足規(guī)則“如果條件是X,則結(jié)果是Y”這種支持可以被認(rèn)為是規(guī)則的統(tǒng)計(jì)重要性。因?yàn)橹С忠馕吨粋€(gè)模型或規(guī)則經(jīng)常被生成的頻率,所以它應(yīng)該被增加以提高模型或規(guī)則的應(yīng)用。
另一方面,可靠性意味著滿足結(jié)果Y的過程實(shí)例或執(zhí)行活動(dòng)的實(shí)例與滿足條件X的過程實(shí)例或執(zhí)行活動(dòng)的實(shí)例的比值。這種比值成為測(cè)量規(guī)則“如果滿足條件X,則結(jié)果為Y”的準(zhǔn)確性的一個(gè)指標(biāo)。因此,高準(zhǔn)確性產(chǎn)生了準(zhǔn)確的預(yù)測(cè)。
C(X,Y)=P(X,Y)/P(X)X條件Y結(jié)果P(X,Y)包括由X和Y的聯(lián)合組成的三個(gè)項(xiàng)的過程或執(zhí)行活動(dòng)的實(shí)例的數(shù)目C(X,Y)規(guī)則“如果條件是X,則結(jié)果是Y”的可靠性總之,規(guī)則的可靠性示出了結(jié)果可以被應(yīng)用到條件中的頻率,而支持示出了整個(gè)規(guī)則的可靠性。
另一方面,用于分析關(guān)聯(lián)性的所有變量(作為分析對(duì)象)必須是符號(hào)型的。因此,數(shù)字變量需要通過預(yù)處理過程中的數(shù)字化過濾器被轉(zhuǎn)化成符號(hào)變量。
圖8A至8D是描述了關(guān)聯(lián)性分析模塊的一個(gè)處理過程的視圖。
圖8A示出了關(guān)聯(lián)性分析模塊被執(zhí)行時(shí)的初始屏幕。關(guān)聯(lián)性分析模塊是通過按下圖8A的屏幕的頂端的“ASSOCIATION”開關(guān)按鈕而被啟動(dòng)的。當(dāng)關(guān)聯(lián)性模塊執(zhí)行時(shí),用戶需要選擇用于分析的算法。根據(jù)本發(fā)明,Apriori算法被用作分析關(guān)聯(lián)性的算法,但并不僅限于此。如圖8B所示,當(dāng)用戶選擇了算法,關(guān)聯(lián)性分析模塊將提供一個(gè)用于設(shè)置分析用的輸入變量的輸入窗口。輸入變量包括許多所需的規(guī)則、最小可靠性、最小支持邊界值、支持的降低值、和最大支持邊界值。當(dāng)規(guī)則被構(gòu)造后,將確定是否使用一個(gè)興趣(interest)項(xiàng),并且用作興趣項(xiàng)的一個(gè)變量和一個(gè)興趣項(xiàng)值被指定以將興趣項(xiàng)加入到規(guī)則的結(jié)果中。
當(dāng)設(shè)置完在Apriori算法中執(zhí)行分析模塊所需的輸入變量后,用戶點(diǎn)擊“ASSOCIATION ANALYSIS START”按鈕以執(zhí)行Apriori算法。關(guān)聯(lián)性分析模塊執(zhí)行Apriori算法,并如圖8C所示生成一個(gè)執(zhí)行結(jié)果。這里,關(guān)聯(lián)性分析結(jié)果被以文本的形式示出,但是可以通過點(diǎn)擊“OUTPUT”按鈕而如圖8D所示以表的形式示出。
圖8C和8D的分析結(jié)果是在圖8B中輸入的輸入值的基礎(chǔ)上生成的規(guī)則。圖8D的分析結(jié)果中的規(guī)則10具有如下的意思條件1)過程是在星期五上午執(zhí)行的(CREATETIME1=AM,CREATIONTIME2=FRI)條件2)第2活動(dòng)的執(zhí)行時(shí)間超過179(AR2=′179-inf′)條件3)第9活動(dòng)的執(zhí)行時(shí)間低于112(AR9=′-inf-112′)條件4)第10活動(dòng)的執(zhí)行時(shí)間低于19(AR9=′-inf-19′)結(jié)論)過程是延誤的(STATE1=OverDue)另外,規(guī)則10的支持和可靠性分別是19%和100%。因此,整個(gè)分析對(duì)象數(shù)據(jù)庫的19%的過程可以被上述的規(guī)則所解釋,并且規(guī)則的可靠性是100%。也就是,當(dāng)滿足條件時(shí),與結(jié)果相對(duì)應(yīng)的結(jié)論總是會(huì)出現(xiàn)。
其它規(guī)則可以用與規(guī)則10相似的方式來解釋。
圖9示出了一個(gè)根據(jù)本發(fā)明的工作流挖掘方法的流程圖。
首先,當(dāng)工作流挖掘想要在一個(gè)特定的過程或活動(dòng)上執(zhí)行時(shí),將生成一個(gè)對(duì)應(yīng)的過程分析表或活動(dòng)分析表(S100)。
當(dāng)生成完分析表后,預(yù)處理過程將作為用于決策樹或關(guān)聯(lián)性分析的在先過程而執(zhí)行(S110)。在預(yù)處理過程中,數(shù)據(jù)從分析表中裝載,特定數(shù)據(jù)集的屬性被去除,特定區(qū)域的記錄被去除,或者通過適當(dāng)?shù)膮^(qū)域劃分將數(shù)字變量轉(zhuǎn)化為符號(hào)變量。特別是對(duì)關(guān)聯(lián)性分析,數(shù)字變量必須被轉(zhuǎn)化成符號(hào)變量。
此后,是一個(gè)用來確定選擇性經(jīng)過預(yù)處理的數(shù)據(jù)的基本統(tǒng)計(jì)資料的過程(S120)。也就是,統(tǒng)計(jì)資料示出了數(shù)字變量的最大、最小、平均和標(biāo)準(zhǔn)偏差,以及與經(jīng)過預(yù)處理的數(shù)據(jù)相關(guān)的符號(hào)變量的模式和頻率。另外,如果需要,可以以直方圖的形式示出數(shù)字變量,以圓圖的形式示出符號(hào)變量。
當(dāng)預(yù)處理過程結(jié)束后,可以用決策樹分析或關(guān)聯(lián)性分析來分析數(shù)據(jù)集。為了分析決策樹,用于決策樹分析的算法被選擇(S130),預(yù)處理屬性數(shù)據(jù)被裝載(S140),是否使用數(shù)據(jù)來分析由變量來決定,并且類變量被指定(S150)。這里,類變量必須是符號(hào)變量。當(dāng)數(shù)字變量被指定為類變量時(shí),程序?qū)⑥D(zhuǎn)向預(yù)處理過程來完成轉(zhuǎn)化。當(dāng)變量的選擇完成后,用于決策樹分析的算法被執(zhí)行來產(chǎn)生結(jié)果(S160)。
另一方面,當(dāng)打算在預(yù)處理過程之后執(zhí)行關(guān)聯(lián)性分析時(shí),用于關(guān)聯(lián)性分析的算法被選擇(S170)。當(dāng)選擇完算法后,用于設(shè)置分析關(guān)聯(lián)性所需的輸入變量的輸入窗口將被提供(S180)。在輸入窗口中指定了規(guī)則的數(shù)目、最小可靠性、最小支持邊界值、支持的降低值、最大支持邊界值、對(duì)興趣項(xiàng)的使用、興趣項(xiàng)變量和興趣項(xiàng)值(S190)之后,用于關(guān)聯(lián)性分析的算法將被執(zhí)行來生成結(jié)果(S200)。
本發(fā)明在不脫離其精神和本質(zhì)特征前提下,可以有多種具體實(shí)施方式
,應(yīng)當(dāng)理解上述實(shí)施例并不僅限于上述的任何細(xì)節(jié),而應(yīng)該在所附權(quán)利要求所定義的精神和范圍內(nèi)被廣泛地解釋,因此所有落在權(quán)利要求的邊界和范圍內(nèi)的或者與這些邊界和范圍等價(jià)的變化和修改都試圖包含在附加權(quán)利要求內(nèi)。
如前面所討論的,根據(jù)本發(fā)明,工作流挖掘系統(tǒng)和方法通過在工作流系統(tǒng)的運(yùn)行過程中累積的記錄數(shù)據(jù)中以及在由連接到工作流系統(tǒng)的應(yīng)用系統(tǒng)所累積的數(shù)據(jù)中使用特定的數(shù)據(jù)發(fā)掘技術(shù),以評(píng)價(jià)、分析和確定過程或活動(dòng)的先前執(zhí)行結(jié)果,從而系統(tǒng)性地重調(diào)整通用的商務(wù)過程。
權(quán)利要求
1.一種安裝在具有一個(gè)工作流引擎和一個(gè)數(shù)據(jù)庫的工作流服務(wù)器上的工作流挖掘系統(tǒng),用于基于數(shù)據(jù)庫的記錄數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,包括一個(gè)用于從數(shù)據(jù)庫中提取必要的數(shù)據(jù)并生成分析表的數(shù)據(jù)提取和處理裝置;一個(gè)用于在所提取的數(shù)據(jù)的基礎(chǔ)上除去不必要的屬性或者將數(shù)字變量轉(zhuǎn)換成符號(hào)變量的預(yù)處理裝置;一個(gè)用于分析決策樹,通過使用經(jīng)過預(yù)處理的數(shù)據(jù)來推斷決策樹類型的可能規(guī)則,或者在屬性之間的支持和可靠性的基礎(chǔ)上分析關(guān)聯(lián)性的分析裝置。
2.如權(quán)利要求1所述的系統(tǒng),還包括一個(gè)用來在經(jīng)過預(yù)處理的數(shù)據(jù)的基礎(chǔ)上,以文本或圖形的形式為數(shù)據(jù)集提供統(tǒng)計(jì)值的數(shù)據(jù)統(tǒng)計(jì)模塊。
3.如權(quán)利要求1所述的系統(tǒng),其中的分析表包括一個(gè)過程分析表和一個(gè)活動(dòng)分析表。
4.如權(quán)利要求1所述的系統(tǒng),其中的預(yù)處理裝置包括一個(gè)用于裝載分析表的數(shù)據(jù)的分析表數(shù)據(jù)裝載裝置。
5.如權(quán)利要求1所述的系統(tǒng),其中用于分析決策樹的算法是C4.5算法。
6.如權(quán)利要求1所述的系統(tǒng),其中用于分析關(guān)聯(lián)性的算法是Apriori算法。
7.一種在工作流服務(wù)器的數(shù)據(jù)庫中的記錄數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘的工作流挖掘方法,包括(a)一個(gè)用于從數(shù)據(jù)庫中提取必要的數(shù)據(jù)并生成分析表的步驟;(b)一個(gè)用于在所提取的數(shù)據(jù)的基礎(chǔ)上除去不必要的屬性或者將數(shù)字變量轉(zhuǎn)換成符號(hào)變量的預(yù)處理步驟;以及(c)一個(gè)用于分析決策樹,通過使用經(jīng)過預(yù)處理的數(shù)據(jù)來推斷決策樹類型的可能規(guī)則,或者在屬性之間的支持和可靠性的基礎(chǔ)上分析關(guān)聯(lián)性的分析步驟。
8.如權(quán)利要求7所述的方法,還包括一個(gè)在步驟(b)和(c)之間在經(jīng)過預(yù)處理的數(shù)據(jù)的基礎(chǔ)上,以文本或圖形的形式為數(shù)據(jù)集提供統(tǒng)計(jì)值的步驟。
9.如權(quán)利要求7所述的方法,其中的分析表包括一個(gè)過程分析表和一個(gè)活動(dòng)分析表。
10.如權(quán)利要求7所述的方法,其中的預(yù)處理步驟包括一個(gè)用于裝載分析表的數(shù)據(jù)的分析表數(shù)據(jù)裝載步驟。
11.如權(quán)利要求7所述的方法,其中用于分析決策樹的算法是C4.5算法。
12.如權(quán)利要求7所述的方法,其中用于分析關(guān)聯(lián)性的算法是Apriori算法。
13.如權(quán)利要求7所述的方法,其中當(dāng)關(guān)聯(lián)性分析在步驟(c)中執(zhí)行時(shí),用于將數(shù)字變量轉(zhuǎn)化為符號(hào)變量的過程總是在步驟(b)中執(zhí)行。
全文摘要
本發(fā)明披露了一種通過在工作流系統(tǒng)的運(yùn)行過程中累積的工作流記錄數(shù)據(jù)中使用特定的數(shù)據(jù)發(fā)掘技術(shù),而可以評(píng)價(jià)、分析和確定過程或活動(dòng)的先前執(zhí)行結(jié)果的工作流系統(tǒng),以及由此得到的方法。工作流挖掘系統(tǒng)從工作流服務(wù)器的數(shù)據(jù)庫中提取必要的數(shù)據(jù),生成分析表,執(zhí)行一個(gè)用于在所提取的數(shù)據(jù)的基礎(chǔ)上去除不必要的屬性或者將數(shù)字變量轉(zhuǎn)化成符號(hào)變量的預(yù)處理過程,并且通過使用經(jīng)過預(yù)處理的數(shù)據(jù)來分析決策樹或關(guān)聯(lián)性。C4.5算法被用于決策樹分析,Apriori算法被用于關(guān)聯(lián)性分析。
文檔編號(hào)G06F15/00GK1479902SQ02803281
公開日2004年3月3日 申請(qǐng)日期2002年9月30日 優(yōu)先權(quán)日2001年10月18日
發(fā)明者金榮鎬, 金昇, 郭柄權(quán), 申容云 申請(qǐng)人:翰迪斯福特公司