欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對數(shù)據(jù)挖掘算法的評估與選擇方法

文檔序號:6519060閱讀:1481來源:國知局
一種對數(shù)據(jù)挖掘算法的評估與選擇方法
【專利摘要】本發(fā)明公開了一種對數(shù)據(jù)挖掘算法的評估與選擇方法,包括:選取測試基準數(shù)據(jù)集;選取數(shù)據(jù)挖掘算法的評價標準;得到算法在這些基準數(shù)據(jù)集上的屬性值;使用多屬性決策的方法計算每一個候選算法在不同基準數(shù)據(jù)集上的效用值;計算用戶給定數(shù)據(jù)集與每一個基準數(shù)據(jù)集的相似程度;再次使用多屬性決策的方法得到每一個候選算法的質(zhì)量值;選擇質(zhì)量值較高的算法,并推薦給用戶。本發(fā)明在海量數(shù)據(jù)的背景下,保證數(shù)據(jù)挖掘服務(wù)的服務(wù)質(zhì)量。
【專利說明】一種對數(shù)據(jù)挖掘算法的評估與選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種對數(shù)據(jù)挖掘算法的評估與選擇方法,具體是一種基于數(shù)據(jù)模型以及用戶需求的數(shù)據(jù)挖掘服務(wù)的評估與選擇方法,核心技術(shù)是多屬性決策(MADM)。
【背景技術(shù)】
[0002]在云計算以及海量數(shù)據(jù)的背景下,數(shù)據(jù)挖掘任務(wù)也作為一種服務(wù)被發(fā)布在云端。同時,數(shù)據(jù)挖掘服務(wù)也同其他的計算機軟硬件服務(wù)一樣,需要保證較高的服務(wù)質(zhì)量(QoS),而影響數(shù)據(jù)挖掘服務(wù)的QoS主要有以下兩個因素:1)數(shù)據(jù)挖掘算法本身的性能;2)數(shù)據(jù)挖掘算法在用戶特定的需求下,即用戶特定的數(shù)據(jù)集以及用戶對于數(shù)據(jù)挖掘算法不同屬性的偏好的前提下,數(shù)據(jù)挖掘算法的表現(xiàn)情況。
[0003]對于數(shù)據(jù)挖掘算法的評估問題,現(xiàn)有的研究主要是針對于將用于評價數(shù)據(jù)挖掘算法性能的多個指標,例如準確度,訓練時間等綜合起來考慮,并形成一個統(tǒng)一的評價指標。這一類的問題是可以被描述在多屬性決策(MADM)問題的框架之下,而對于多屬性決策問題本身,現(xiàn)在已經(jīng)有相當成熟的技術(shù)來解決。另外,數(shù)據(jù)挖掘算法在不同的數(shù)據(jù)集上性能差異很明顯,也就是說數(shù)據(jù)集也應(yīng)該是評估數(shù)據(jù)挖掘算法性能的一個重要因素,但是現(xiàn)有的研究并沒有對數(shù)據(jù)集本身的模型進行研究與探討。同時現(xiàn)有的研究工作并沒有考慮到用戶對于數(shù)據(jù)挖掘服務(wù)特定的需求,也就是說,對于用戶的需求模型用于數(shù)據(jù)挖掘算法的評估方面目前還沒有系統(tǒng)的研究工作。

【發(fā)明內(nèi)容】

[0004]發(fā)明目的:針對上述現(xiàn)有技術(shù)存在的問題和不足,本發(fā)明的目的是提供一種新的數(shù)據(jù)挖掘算法的評估與選擇方法。該方法在海量數(shù)據(jù)的背景下,考慮到數(shù)據(jù)集的信息以及用戶的需求,以保證數(shù)據(jù)挖掘服務(wù)的服務(wù)質(zhì)量。
[0005]技術(shù)方案:為實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為一種基于數(shù)據(jù)模型以及用戶需求的數(shù)據(jù)挖掘算法的評估與選擇方法,包括如下步驟:
(1)選取多個測試基準數(shù)據(jù)集;
(2)選取對待評估的數(shù)據(jù)挖掘算法的評價指標;
(3)將待評估的數(shù)據(jù)挖掘算法在測試基準數(shù)據(jù)集上進行測試,得到所述數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上所有評價指標的屬性值;
(4)根據(jù)用戶對于算法不同評價指標的偏好信息,使用多屬性決策的方法計算每個所述數(shù)據(jù)挖掘算法分別在不同測試基準數(shù)據(jù)集上的評估值;
(5)計算用戶給定的數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度;
(6)將每個評估值作為所述數(shù)據(jù)挖掘算法的屬性,使用多屬性決策的方法得到每個數(shù)據(jù)挖掘算法在多個測試基準數(shù)據(jù)集上的綜合評估值;
(7)對所述綜合評估值進行排序,選擇綜合評估值高的數(shù)據(jù)挖掘算法推薦給用戶。
[0006]進一步的,所述步驟(4)包括: 1)為數(shù)據(jù)挖掘算法的每一個屬性分配一個權(quán)重值;
2)得到每一個屬性的權(quán)重值后,使用多屬性決策的方法得到數(shù)據(jù)挖掘算法的綜合屬性值。
[0007]進一步的,所述步驟(5)包括:
1)選取一組數(shù)據(jù)集的特征;
2)計算測試基準數(shù)據(jù)集與用戶給定的數(shù)據(jù)集的特征值;
3)根據(jù)用戶給定的數(shù)據(jù)集的特征與所有測試基準數(shù)據(jù)集的特征的差異來計算所述數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度。
[0008]進一步的,所述步驟(6)包括:
1)為數(shù)據(jù)挖掘算法的每一個評估值分配一個權(quán)重值;該權(quán)重值使用某種權(quán)值估計的方法計算;
2)得到所述權(quán)重值后,使用多屬性決策的方法得到數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上的綜合評估值。
[0009]有益效果:本發(fā)明旨在預測出候選數(shù)據(jù)挖掘算法中,在用戶特定的數(shù)據(jù)挖掘任務(wù),特定的數(shù)據(jù)挖掘?qū)傩云靡约坝脩糁付ǖ臄?shù)據(jù)集上性能最好的算法。使用的方法框架為多屬性決策(MADM),根據(jù)本發(fā)明的方法推薦給用戶的數(shù)據(jù)挖掘算法在用戶特定的數(shù)據(jù)挖掘任務(wù)中的性能要好于候選數(shù)據(jù)挖掘算法中的其他算法。
【專利附圖】

【附圖說明】
[0010]圖1為本發(fā)明方法的組成結(jié)構(gòu)圖;
圖2為本發(fā)明方法的流程圖。
【具體實施方式】
[0011]下面結(jié)合附圖和具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0012]如圖1所示,本發(fā)明方法包含數(shù)據(jù)挖掘算法評估和數(shù)據(jù)挖掘算法選擇兩個模塊。
[0013]本發(fā)明方法流程如圖2所示,下面詳細說明:
步驟1,選定多個數(shù)據(jù)集,并得到這些數(shù)據(jù)集的特征描述(簡單的特征例如屬性維度,數(shù)據(jù)集樣本個數(shù)等等)。這些數(shù)據(jù)集稱為測試基準數(shù)據(jù)集。
[0014]步驟2,選取一組用于評估數(shù)據(jù)挖掘算法(簡稱“算法”)的評價指標,例如分類精度,訓練時間等等。
[0015]步驟3,將待評估的算法在測試基準數(shù)據(jù)集上進行測試,并得到這些算法在不同的測試基準數(shù)據(jù)集上所有評價指標的具體數(shù)值。
[0016]步驟4,根據(jù)用戶對于數(shù)據(jù)挖掘算法的各個評價指標的偏好,使用多屬性決策的方法的一種(例如Simple Additive Weighting),得到算法分別在每個測試基準數(shù)據(jù)集上的評估值,這個評估值稱為算法在特定測試基準數(shù)據(jù)集上的“效用”。
[0017]步驟5,計算用戶給定的數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度,并做歸一化處理將這個相似度的值作為步驟6中進行多屬性決策時每一個測試基準數(shù)據(jù)集的權(quán)重值。[0018]步驟6,步驟4所計算的效用值是算法在一個測試基準數(shù)據(jù)集上的綜合屬性,而對于多個測試基準數(shù)據(jù)集,我們可以得到算法綜合屬性的列表。這時我們需要再次使用多屬性決策(MADM)的方法(例如TOPSIS方法),而此時多屬性決策所需要的算法在每一個測試基準數(shù)據(jù)集上綜合屬性的權(quán)重值則使用步驟5所計算出來的對應(yīng)測試基準數(shù)據(jù)集與用戶數(shù)據(jù)集的相似度。最終得到數(shù)據(jù)挖掘算法在多個測試基準數(shù)據(jù)集上的綜合評估值,這個綜合評估值稱為算法的“質(zhì)量”。
[0019]步驟7,對按照此法所計算出來的候選數(shù)據(jù)挖掘算法的“質(zhì)量”值進行排序,得到“質(zhì)量”最高的那幾個算法,并推薦這些算法給用戶的特定數(shù)據(jù)挖掘任務(wù)。
[0020]所述步驟4的多屬性決策過程如下:
O為數(shù)據(jù)挖掘算法的每一個屬性分配一個權(quán)重值。權(quán)值估計的方法使用Nakhaeizadeh 教授在其 1997 年的文章 “Development of Mult1-Criteria Metrics forEvaluation of Data Mining Algorithms” 中所提到的方法;
2)得到每一個屬性的權(quán)重值后,將所有屬性值的加權(quán)和作為算法的“效用”。
[0021 ] 步驟5的相似度計算如下:
1)選取一組數(shù)據(jù)集的特征;
2)計算測試基準數(shù)據(jù)集每個特征的值。所有的特征值將構(gòu)成一個向量。同時計算用戶給定的數(shù)據(jù)集的特征值;
3)計算用戶數(shù)據(jù)集特征向量與所有測試基準數(shù)據(jù)集的特征向量之間的歐氏距離,該距離作為所述數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度。
【權(quán)利要求】
1.一種對數(shù)據(jù)挖掘算法的評估與選擇方法,包括如下步驟: (1)選取多個測試基準數(shù)據(jù)集; (2)選取對待評估的數(shù)據(jù)挖掘算法的評價指標; (3)將待評估的數(shù)據(jù)挖掘算法在測試基準數(shù)據(jù)集上進行測試,得到所述數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上所有評價指標的屬性值; (4)根據(jù)用戶對于算法不同評價指標的偏好信息,使用多屬性決策的方法計算每個所述數(shù)據(jù)挖掘算法分別在不同測試基準數(shù)據(jù)集上的評估值; (5)計算用戶給定的數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度; (6)將每個評估值作為所述數(shù)據(jù)挖掘算法的屬性,使用多屬性決策的方法得到每個數(shù)據(jù)挖掘算法在多個測試基準數(shù)據(jù)集上的綜合評估值; (7)對所述綜合評估值進行排序,選擇綜合評估值高的數(shù)據(jù)挖掘算法推薦給用戶。
2.根據(jù)權(quán)利要求1所述一種對數(shù)據(jù)挖掘算法的評估與選擇方法,其特征在于:所述步驟(4)包括: O為數(shù)據(jù)挖掘算法的每一個屬性分配一個權(quán)重值; 2)得到每一個屬性的權(quán)重值后,使用多屬性決策的方法得到數(shù)據(jù)挖掘算法的綜合屬性值。
3.根據(jù)權(quán)利要求1所述一種對數(shù)據(jù)挖掘算法的評估與選擇方法,其特征在于:所述步驟(5)包括: 1)選取一組數(shù)據(jù)集的特征; 2)計算測試基準數(shù)據(jù)集與用戶給定的數(shù)據(jù)集的特征值; 3)根據(jù)用戶給定的數(shù)據(jù)集的特征與所有測試基準數(shù)據(jù)集的特征的差異來計算所述數(shù)據(jù)集與測試基準數(shù)據(jù)集的相似度。
4.根據(jù)權(quán)利要求1所述一種對數(shù)據(jù)挖掘算法的評估與選擇方法,其特征在于:所述步驟(6)包括: 1)為數(shù)據(jù)挖掘算法的每一個評估值分配一個權(quán)重值;該權(quán)重值使用某種權(quán)值估計的方法計算; 2)得到所述權(quán)重值后,使用多屬性決策的方法得到數(shù)據(jù)挖掘算法在不同測試基準數(shù)據(jù)集上的綜合評估值。
【文檔編號】G06F17/30GK103559303SQ201310570978
【公開日】2014年2月5日 申請日期:2013年11月15日 優(yōu)先權(quán)日:2013年11月15日
【發(fā)明者】高陽, 林木豐, 史穎歡 申請人:南京大學, 江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
连云港市| 台前县| 鄯善县| 金华市| 辽源市| 临西县| 许昌市| 甘谷县| 双峰县| 印江| 山东| 札达县| 巫溪县| 定兴县| 修武县| 东丽区| 许昌市| 易门县| 清丰县| 凤凰县| 成武县| 平乡县| 宁城县| 通河县| 涞源县| 台中市| 德江县| 宁陵县| 凤台县| 新乡县| 金山区| 海宁市| 永寿县| 文登市| 武清区| 景泰县| 安福县| 汤阴县| 承德县| 扶风县| 赤壁市|