一種對數(shù)據(jù)挖掘算法的評估與選擇方法

文檔序號：6519060閱讀：1481來源：國知局

一種對數(shù)據(jù)挖掘算法的評估與選擇方法
【專利摘要】本發(fā)明公開了一種對數(shù)據(jù)挖掘算法的評估與選擇方法，包括：選取測試基準數(shù)據(jù)集；選取數(shù)據(jù)挖掘算法的評價標準；得到算法在這些基準數(shù)據(jù)集上的屬性值；使用多屬性決策的方法計算每一個候選算法在不同基準數(shù)據(jù)集上的效用值；計算用戶給定數(shù)據(jù)集與每一個基準數(shù)據(jù)集的相似程度；再次使用多屬性決策的方法得到每一個候選算法的質(zhì)量值；選擇質(zhì)量值較高的算法，并推薦給用戶。本發(fā)明在海量數(shù)據(jù)的背景下，保證數(shù)據(jù)挖掘服務(wù)的服務(wù)質(zhì)量。
【專利說明】一種對數(shù)據(jù)挖掘算法的評估與選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種對數(shù)據(jù)挖掘算法的評估與選擇方法，具體是一種基于數(shù)據(jù)模型以及用戶需求的數(shù)據(jù)挖掘服務(wù)的評估與選擇方法，核心技術(shù)是多屬性決策(MADM)。
【背景技術(shù)】
[0002]在云計算以及海量數(shù)據(jù)的背景下，數(shù)據(jù)挖掘任務(wù)也作為一種服務(wù)被發(fā)布在云端。同時，數(shù)據(jù)挖掘服務(wù)也同其他的計算機軟硬件服務(wù)一樣，需要保證較高的服務(wù)質(zhì)量(QoS)，而影響數(shù)據(jù)挖掘服務(wù)的QoS主要有以下兩個因素:1)數(shù)據(jù)挖掘算法本身的性能；2)數(shù)據(jù)挖掘算法在用戶特定的需求下，即用戶特定的數(shù)據(jù)集以及用戶對于數(shù)據(jù)挖掘算法不同屬性的偏好的前提下，數(shù)據(jù)挖掘算法的表現(xiàn)情況。
[0003]對于數(shù)據(jù)挖掘算法的評估問題，現(xiàn)有的研究主要是針對于將用于評價數(shù)據(jù)挖掘算法性能的多個指標，例如準確度，訓練時間等綜合起來考慮，并形成一個統(tǒng)一的評價指標。這一類的問題是可以被描述在多屬性決策(MADM)問題的框架之下，而對于多屬性決策問題本身，現(xiàn)在已經(jīng)有相當成熟的技術(shù)來解決。另外，數(shù)據(jù)挖掘算法在不同的數(shù)據(jù)集上性能差異很明顯，也就是說數(shù)據(jù)集也應(yīng)該是評估數(shù)據(jù)挖掘算法性能的一個重要因素，但是現(xiàn)有的研究并沒有對數(shù)據(jù)集本身的模型進行研究與探討。同時現(xiàn)有的研究工作并沒有考慮到用戶對于數(shù)據(jù)挖掘服務(wù)特定的需求，也就是說，對于用戶的需求模型用于數(shù)據(jù)挖掘算法的評估方面目前還沒有系統(tǒng)的研究工作。

【發(fā)明內(nèi)容】

[0004]發(fā)明目的:針對上述現(xiàn)有技術(shù)存在的問題和不足，本發(fā)明的目的是提供一種新的數(shù)據(jù)挖掘算法的評估與選擇方法。該方法在海量數(shù)據(jù)的背景下，考慮到數(shù)據(jù)集的信息以及用戶的需求，以保證數(shù)據(jù)挖掘服務(wù)的服務(wù)質(zhì)量。
[0005]技術(shù)方案:為實現(xiàn)上述發(fā)明目的，本發(fā)明采用的技術(shù)方案為一種基于數(shù)據(jù)模型以及用戶需求的數(shù)據(jù)挖掘算法的評估與選擇方法，包括如下步驟:
(1)選取多個測試基準數(shù)據(jù)集；
(2)選取對待評估的數(shù)據(jù)挖掘算法的評價指標；
(3)將待評估的數(shù)據(jù)挖掘算法在測試基準數(shù)據(jù)集上進行測試，得到所述數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上所有評價指標的屬性值；
(4)根據(jù)用戶對于算法不同評價指標的偏好信息，使用多屬性決策的方法計算每個所述數(shù)據(jù)挖掘算法分別在不同測試基準數(shù)據(jù)集上的評估值；
(5)計算用戶給定的數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度；
(6)將每個評估值作為所述數(shù)據(jù)挖掘算法的屬性，使用多屬性決策的方法得到每個數(shù)據(jù)挖掘算法在多個測試基準數(shù)據(jù)集上的綜合評估值；
(7)對所述綜合評估值進行排序，選擇綜合評估值高的數(shù)據(jù)挖掘算法推薦給用戶。
[0006]進一步的,所述步驟(4)包括: 1)為數(shù)據(jù)挖掘算法的每一個屬性分配一個權(quán)重值；
2)得到每一個屬性的權(quán)重值后，使用多屬性決策的方法得到數(shù)據(jù)挖掘算法的綜合屬性值。
[0007]進一步的，所述步驟(5)包括:
1)選取一組數(shù)據(jù)集的特征；
2)計算測試基準數(shù)據(jù)集與用戶給定的數(shù)據(jù)集的特征值；
3)根據(jù)用戶給定的數(shù)據(jù)集的特征與所有測試基準數(shù)據(jù)集的特征的差異來計算所述數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度。
[0008]進一步的,所述步驟(6)包括:
1)為數(shù)據(jù)挖掘算法的每一個評估值分配一個權(quán)重值；該權(quán)重值使用某種權(quán)值估計的方法計算；
2)得到所述權(quán)重值后，使用多屬性決策的方法得到數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上的綜合評估值。
[0009]有益效果:本發(fā)明旨在預測出候選數(shù)據(jù)挖掘算法中，在用戶特定的數(shù)據(jù)挖掘任務(wù)，特定的數(shù)據(jù)挖掘?qū)傩云靡约坝脩糁付ǖ臄?shù)據(jù)集上性能最好的算法。使用的方法框架為多屬性決策(MADM)，根據(jù)本發(fā)明的方法推薦給用戶的數(shù)據(jù)挖掘算法在用戶特定的數(shù)據(jù)挖掘任務(wù)中的性能要好于候選數(shù)據(jù)挖掘算法中的其他算法。
【專利附圖】

【附圖說明】
[0010]圖1為本發(fā)明方法的組成結(jié)構(gòu)圖；
圖2為本發(fā)明方法的流程圖。
【具體實施方式】
[0011]下面結(jié)合附圖和具體實施例，進一步闡明本發(fā)明，應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍，在閱讀了本發(fā)明之后，本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0012]如圖1所示，本發(fā)明方法包含數(shù)據(jù)挖掘算法評估和數(shù)據(jù)挖掘算法選擇兩個模塊。
[0013]本發(fā)明方法流程如圖2所示，下面詳細說明:
步驟1，選定多個數(shù)據(jù)集，并得到這些數(shù)據(jù)集的特征描述(簡單的特征例如屬性維度，數(shù)據(jù)集樣本個數(shù)等等)。這些數(shù)據(jù)集稱為測試基準數(shù)據(jù)集。
[0014]步驟2，選取一組用于評估數(shù)據(jù)挖掘算法(簡稱“算法”)的評價指標，例如分類精度，訓練時間等等。
[0015]步驟3，將待評估的算法在測試基準數(shù)據(jù)集上進行測試，并得到這些算法在不同的測試基準數(shù)據(jù)集上所有評價指標的具體數(shù)值。
[0016]步驟4，根據(jù)用戶對于數(shù)據(jù)挖掘算法的各個評價指標的偏好，使用多屬性決策的方法的一種(例如Simple Additive Weighting),得到算法分別在每個測試基準數(shù)據(jù)集上的評估值，這個評估值稱為算法在特定測試基準數(shù)據(jù)集上的“效用”。
[0017]步驟5，計算用戶給定的數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度，并做歸一化處理將這個相似度的值作為步驟6中進行多屬性決策時每一個測試基準數(shù)據(jù)集的權(quán)重值。[0018]步驟6，步驟4所計算的效用值是算法在一個測試基準數(shù)據(jù)集上的綜合屬性，而對于多個測試基準數(shù)據(jù)集，我們可以得到算法綜合屬性的列表。這時我們需要再次使用多屬性決策(MADM)的方法(例如TOPSIS方法)，而此時多屬性決策所需要的算法在每一個測試基準數(shù)據(jù)集上綜合屬性的權(quán)重值則使用步驟5所計算出來的對應(yīng)測試基準數(shù)據(jù)集與用戶數(shù)據(jù)集的相似度。最終得到數(shù)據(jù)挖掘算法在多個測試基準數(shù)據(jù)集上的綜合評估值，這個綜合評估值稱為算法的“質(zhì)量”。
[0019]步驟7，對按照此法所計算出來的候選數(shù)據(jù)挖掘算法的“質(zhì)量”值進行排序，得到“質(zhì)量”最高的那幾個算法，并推薦這些算法給用戶的特定數(shù)據(jù)挖掘任務(wù)。
[0020]所述步驟4的多屬性決策過程如下:
O為數(shù)據(jù)挖掘算法的每一個屬性分配一個權(quán)重值。權(quán)值估計的方法使用Nakhaeizadeh 教授在其 1997 年的文章 “Development of Mult1-Criteria Metrics forEvaluation of Data Mining Algorithms” 中所提到的方法;
2)得到每一個屬性的權(quán)重值后，將所有屬性值的加權(quán)和作為算法的“效用”。
[0021 ] 步驟5的相似度計算如下:
1)選取一組數(shù)據(jù)集的特征；
2)計算測試基準數(shù)據(jù)集每個特征的值。所有的特征值將構(gòu)成一個向量。同時計算用戶給定的數(shù)據(jù)集的特征值；
3)計算用戶數(shù)據(jù)集特征向量與所有測試基準數(shù)據(jù)集的特征向量之間的歐氏距離，該距離作為所述數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度。
【權(quán)利要求】
1.一種對數(shù)據(jù)挖掘算法的評估與選擇方法，包括如下步驟: (1)選取多個測試基準數(shù)據(jù)集； (2)選取對待評估的數(shù)據(jù)挖掘算法的評價指標； (3)將待評估的數(shù)據(jù)挖掘算法在測試基準數(shù)據(jù)集上進行測試，得到所述數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上所有評價指標的屬性值； (4)根據(jù)用戶對于算法不同評價指標的偏好信息，使用多屬性決策的方法計算每個所述數(shù)據(jù)挖掘算法分別在不同測試基準數(shù)據(jù)集上的評估值； (5)計算用戶給定的數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度； (6)將每個評估值作為所述數(shù)據(jù)挖掘算法的屬性，使用多屬性決策的方法得到每個數(shù)據(jù)挖掘算法在多個測試基準數(shù)據(jù)集上的綜合評估值； (7)對所述綜合評估值進行排序，選擇綜合評估值高的數(shù)據(jù)挖掘算法推薦給用戶。
2.根據(jù)權(quán)利要求1所述一種對數(shù)據(jù)挖掘算法的評估與選擇方法，其特征在于:所述步驟(4)包括: O為數(shù)據(jù)挖掘算法的每一個屬性分配一個權(quán)重值； 2)得到每一個屬性的權(quán)重值后，使用多屬性決策的方法得到數(shù)據(jù)挖掘算法的綜合屬性值。
3.根據(jù)權(quán)利要求1所述一種對數(shù)據(jù)挖掘算法的評估與選擇方法，其特征在于:所述步驟(5)包括: 1)選取一組數(shù)據(jù)集的特征； 2)計算測試基準數(shù)據(jù)集與用戶給定的數(shù)據(jù)集的特征值； 3)根據(jù)用戶給定的數(shù)據(jù)集的特征與所有測試基準數(shù)據(jù)集的特征的差異來計算所述數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度。
4.根據(jù)權(quán)利要求1所述一種對數(shù)據(jù)挖掘算法的評估與選擇方法，其特征在于:所述步驟(6)包括: 1)為數(shù)據(jù)挖掘算法的每一個評估值分配一個權(quán)重值；該權(quán)重值使用某種權(quán)值估計的方法計算； 2)得到所述權(quán)重值后，使用多屬性決策的方法得到數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上的綜合評估值。
【文檔編號】G06F17/30GK103559303SQ201310570978
【公開日】2014年2月5日申請日期:2013年11月15日優(yōu)先權(quán)日:2013年11月15日
【發(fā)明者】高陽, 林木豐, 史穎歡申請人:南京大學, 江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高陽;林木豐;史穎歡
技術(shù)所有人：南京大學;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司
我是此專利的發(fā)明人

上一篇：加密存儲設(shè)備及其認證系統(tǒng)、認證方法
上一篇：一種自動查找pcb板疊層中銅箔空隙的設(shè)計方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)挖掘算法相關(guān)技術(shù)

數(shù)據(jù)挖掘十大算法相關(guān)技術(shù)

數(shù)據(jù)挖掘算法實例相關(guān)技術(shù)

大數(shù)據(jù)挖掘算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對數(shù)據(jù)挖掘算法的評估與選擇方法