專利名稱:一種表達數(shù)據(jù)挖掘流程的方法
技術(shù)領(lǐng)域:
本發(fā)明屬數(shù)據(jù)庫技術(shù)領(lǐng)域,具體涉及一種新穎的表達數(shù)據(jù)挖掘流程的方法。
背景技術(shù):
自從上個世紀60年代以來,數(shù)據(jù)庫和信息技術(shù)已經(jīng)系統(tǒng)地由原始的文件處理演化到復(fù)雜的功能強大的數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)量也在應(yīng)用的擴展中不斷地積累。數(shù)據(jù)的豐富帶來了對強有力地數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富,但信息貧乏”??焖僭鲩L的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)庫中,沒有強有力的工具,理解他們已經(jīng)遠遠超出了人的能力。這樣,重要的決定常常不是基于數(shù)據(jù)庫中信息豐富的數(shù)據(jù),而是基于決策者的直觀。但是,如果通過數(shù)據(jù)挖掘工具進行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,對商務(wù)決策、知識庫、科學(xué)和醫(yī)學(xué)研究等領(lǐng)域都會起到相當大的作用,從而使得數(shù)據(jù)和信息之間的“鴻溝”不再存在了。
數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是決策支持系統(tǒng)的重要內(nèi)容。通過對歷史數(shù)據(jù)集合進行挖掘,用戶能夠找出所隱藏的一些知識和應(yīng)用,并且對將來的行為產(chǎn)生指導(dǎo)。在具體應(yīng)用中,一個數(shù)據(jù)挖掘任務(wù)的成功執(zhí)行必須經(jīng)由多個步驟的緊密合作,才能夠完成。
近十年來,數(shù)據(jù)挖掘技術(shù)得到了充分的發(fā)展,針對不同的領(lǐng)域問題,學(xué)術(shù)界提出了多種解決的算法,例如分類、聚類、關(guān)聯(lián)規(guī)則、孤立點查詢等等。對于如何在一個框架之下合理整合各種算法,歷來是各個數(shù)據(jù)挖掘公司的核心技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種用形式化的方法表達數(shù)據(jù)挖掘流程,以解決數(shù)據(jù)挖掘軟件中流程難以表示和維護的問題。
本發(fā)明提出的表達數(shù)據(jù)挖掘流程的方法,首先是準確劃分一個完整數(shù)據(jù)挖掘任務(wù),然后用流程的方法描述數(shù)據(jù)挖掘的任務(wù)。
劃分數(shù)據(jù)挖掘任務(wù)將一個完整的數(shù)據(jù)挖掘任務(wù)劃分為三個階段數(shù)據(jù)預(yù)處理、算法執(zhí)行和可視化。不同的階段又可以根據(jù)其功能再進行細分。下面具體介紹各個任務(wù)的功能。
數(shù)據(jù)預(yù)處理選擇數(shù)據(jù)源,并且對數(shù)據(jù)源做一些必要的變換,作為算法執(zhí)行的輸入。因此,這個階段可以細分為兩類子功能,(一)選擇數(shù)據(jù)源??梢允俏谋緮?shù)據(jù)源,或者是ODBC等其他數(shù)據(jù)源。(二)處理數(shù)據(jù)集。原始數(shù)據(jù)源可能并不能夠充分適應(yīng)數(shù)據(jù)挖掘任務(wù),需要進行一些變換,這包括了數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)規(guī)約等。
算法執(zhí)行選擇特定的算法,設(shè)置算法的參數(shù),運行算法并且保存結(jié)果。數(shù)據(jù)挖掘領(lǐng)域的算法很多,包括數(shù)據(jù)分類、聚類、關(guān)聯(lián)規(guī)則、離群點檢測等等。這些算法大體可以劃分為兩大類,一種是受監(jiān)督的算法,另外一種是不受監(jiān)督的算法。對于受監(jiān)督的算法,一個必須的操作就是設(shè)定目標字段。另外,為了提高算法的精度,往往選取部分字段參與最后的運算。因此,選擇字段對于算法而言也是很重要的?;诖耍@個階段可以細分為兩類子功能。(一)設(shè)定數(shù)據(jù)集屬性。內(nèi)容不僅包括了設(shè)定集合的目標字段,為受監(jiān)督的算法服務(wù),還包括設(shè)定字段是否參與算法的運行。(二)選擇算法,設(shè)置參數(shù)。選擇特定的算法,例如聚類、分類、關(guān)聯(lián)規(guī)則等,并且設(shè)定它們自身的參數(shù)。
可視化將算法的執(zhí)行結(jié)果顯示給用戶;將流程的中間結(jié)果顯示給用戶??梢暬瘜τ谌魏诬浖远际欠浅V匾囊画h(huán)。數(shù)據(jù)挖掘任務(wù)中的可視化可以分為兩類,(一)表示算法結(jié)果。由于算法多種多樣,對于結(jié)果的表達也是多種多樣的。(二)表示數(shù)據(jù)集合。從原始數(shù)據(jù)源開始,到作為算法的輸入為止,數(shù)據(jù)集合一直在變化,需要能夠?qū)τ诓煌闹虚g數(shù)據(jù)集合進行可視化表示。
通過對于數(shù)據(jù)挖掘任務(wù)的分析,我們可以用圖來表示分解一個數(shù)據(jù)挖掘任務(wù)(見圖1)。
2流程描述首先,用戶需要選擇數(shù)據(jù)源,這個數(shù)據(jù)源可以是數(shù)據(jù)庫的,也可以是文本的數(shù)據(jù)源。其次,在處理數(shù)據(jù)集這個步驟,用戶可以對原始數(shù)據(jù)源進行一些修改,例如增添字段,檢測相關(guān)性,對數(shù)據(jù)集合進行標準化等等。接下來,就需要設(shè)定數(shù)據(jù)集合屬性了,這部分的操作包括設(shè)定集合的目標字段,取消一些不參與算法的字段。上述三個步驟均可以產(chǎn)出一個新的數(shù)據(jù)集合,因此,表示數(shù)據(jù)集合步驟可以用來查看新的數(shù)據(jù)集合的內(nèi)容。在設(shè)定數(shù)據(jù)集合屬性之后,可以選擇算法,創(chuàng)建一個數(shù)據(jù)挖掘模型。模型創(chuàng)建之后,表示算法結(jié)果步驟,可以提供可視化的手法來表示算法的運行結(jié)果。各步驟之間的流程關(guān)系見圖2所示。
描述數(shù)據(jù)挖掘流程是數(shù)據(jù)挖掘軟件的核心技術(shù)。本發(fā)明通過分解數(shù)據(jù)挖掘任務(wù),提供了一種描述數(shù)據(jù)挖掘任務(wù)的方法。該方法具有以下的優(yōu)點。
1、分解合理,使用方便。
對數(shù)據(jù)挖掘任務(wù)進行分解,各個步驟完成一個子功能,有利于用戶創(chuàng)建任務(wù)。
2、良好的可擴展性。
本發(fā)明主要涉及如何分解數(shù)據(jù)挖掘任務(wù),對于數(shù)據(jù)挖掘任務(wù)中具體步驟,并沒有特定限制,可以進一步擴展。例如在算法執(zhí)行中,列舉了聚類、分類、關(guān)聯(lián)規(guī)則算法等,同時可以添加其他算法。
圖1為一個數(shù)據(jù)挖掘任務(wù)的分解圖示。
圖2為數(shù)據(jù)挖掘各步驟之間的流轉(zhuǎn)關(guān)系圖示。
圖3為實施例中對數(shù)據(jù)挖掘任務(wù)的分解。
圖4為實施例的數(shù)據(jù)挖掘流程。
圖中標號1為用戶,2為選擇數(shù)據(jù)源,3為處理數(shù)據(jù)集,4為設(shè)定數(shù)據(jù)集合屬性,5為表示數(shù)據(jù)集合,6為選擇算法,7為表示算法結(jié)果。
具體實施例方式
下面通過一個實施例來說明如何表示一個數(shù)據(jù)挖掘任務(wù)。
數(shù)據(jù)挖掘任務(wù)可以分解成為幾個小的步驟。圖3描述了數(shù)據(jù)挖掘任務(wù)中所用到的一些元素。其中,1、數(shù)據(jù)源,包括;(1)文本數(shù)據(jù)源,(2)數(shù)據(jù)庫,(3)測試文本,(4)測試數(shù)據(jù)庫;2、瀏覽,包括查看;3、預(yù)處理,包括(1)數(shù)據(jù)集屬性,(2)屬性變換;4、挖掘模型,包括(1)決策樹,(2)關(guān)聯(lián)規(guī)則,(3)聚類;5、結(jié)果顯示,包括(1)關(guān)聯(lián)規(guī)則結(jié)果,(2)聚類結(jié)果。
圖3所描述的并不是涵蓋整個數(shù)據(jù)挖掘領(lǐng)域的所有元素的,保留將來進行擴展的能力。例如,數(shù)據(jù)挖掘的算法種類繁多,我們這里僅僅選取了四種代表性的算法。
基于上述的任務(wù)分解,我們可以構(gòu)造出一個具體的數(shù)據(jù)挖掘任務(wù)。Iris.arff是一個典型的數(shù)據(jù)集合,內(nèi)含有151種花的信息,常用來做分類或者聚類算法的輸入集合。該數(shù)據(jù)集合有五個字段,分別是sepallength,sepalwidth,petallength,petalwidth和class。也就是記錄了各個種類的花,以及它們的花萼,花瓣的信息。在這里,我們從這個數(shù)據(jù)集合出發(fā),進行聚類分析。圖4就是我們所建立的流程圖。
這個流程圖中包含了多個步驟。最左邊的是一個文本數(shù)據(jù)源,將文本文件iris.arff作為原始的數(shù)據(jù)源。文本數(shù)據(jù)源指向一個變換,其目的是為了將原始數(shù)據(jù)源進行一些數(shù)據(jù)預(yù)處理,包括標準化等等。變換之后,數(shù)據(jù)源還需要設(shè)置數(shù)據(jù)集屬性。在這個環(huán)節(jié),需要過濾無用的字段(class),所產(chǎn)生的數(shù)據(jù)集合作為算法的輸入數(shù)據(jù)集合。我們選擇聚類算法作為這個流程的執(zhí)行算法。聚類的結(jié)果也在新建中得到呈現(xiàn)。上述流程中還包括三個查看步驟,這些步驟的用途是用來監(jiān)視中間數(shù)據(jù)集合的信息。
以上八個步驟,以及它們之間的相互聯(lián)系,就構(gòu)成了一個完整的流程。
權(quán)利要求
1.一種表達數(shù)據(jù)挖掘流程的方法,其特征在于首先準確劃分一個完整數(shù)據(jù)挖掘任務(wù),然后用流程方法描述數(shù)據(jù)劃分的任務(wù),具體步驟為(1)劃分數(shù)據(jù)挖掘任務(wù)將一個完整的數(shù)據(jù)挖掘任務(wù)劃分為三個階段①數(shù)據(jù)預(yù)處理選擇數(shù)據(jù)源,并對數(shù)據(jù)源作必要的變換,作為算法的輸入,其中再細分為兩類子功能(a)選擇數(shù)據(jù)源,(b)處理數(shù)據(jù)集;②算法執(zhí)行選擇算法,設(shè)置算法參數(shù),運行算法并且保存結(jié)果,其中再細分為兩類子功能(a)設(shè)定數(shù)據(jù)集屬性,(b)選擇算法,設(shè)置算法參數(shù)。③可視化將算法的執(zhí)行結(jié)果顯示給用戶,將流程的中間結(jié)果顯示給用戶,其中再分為兩類(a)表示算法結(jié)果,(b)表示數(shù)據(jù)集合;(2)流程描述首先選擇數(shù)據(jù)源,其次處理數(shù)據(jù)集,然后設(shè)定數(shù)據(jù)集合屬性,這3個步驟均可產(chǎn)生出一個新的數(shù)據(jù)集合,表示數(shù)據(jù)集合的步驟可用來查看新的數(shù)據(jù)集合的內(nèi)容;在設(shè)定數(shù)據(jù)集合屬性之后,選擇算法,創(chuàng)建一個數(shù)據(jù)挖掘模型;然后表示算法結(jié)果步驟,提供可視化手段來表示算法的運行結(jié)果。
全文摘要
本發(fā)明為一種表達數(shù)據(jù)挖掘流程的方法。首先是準確劃分一個完整的數(shù)據(jù)挖掘任務(wù),然后由流程的方法描述數(shù)據(jù)挖掘的任務(wù)。前者包括分為數(shù)據(jù)預(yù)處理、算法執(zhí)行、可視化等。本發(fā)明方法分解合理,使用方便,并具有良好的可擴展性。
文檔編號G06F17/30GK1588361SQ20041006623
公開日2005年3月2日 申請日期2004年9月9日 優(yōu)先權(quán)日2004年9月9日
發(fā)明者金澈清, 周傲英 申請人:復(fù)旦大學(xué)