本發(fā)明涉及數(shù)據(jù)挖掘領域,特別涉及一種建立數(shù)據(jù)挖掘自動回饋系統(tǒng)的方法。
背景技術:
隨著大數(shù)據(jù)技術飛速發(fā)展,數(shù)據(jù)挖掘技術被更加廣泛的應用,高校、科研單位、政府以及技術企業(yè)都在廣泛的使用數(shù)據(jù)挖掘技術。
一個完整的數(shù)據(jù)挖掘過程往往包括:數(shù)據(jù)預處理、數(shù)據(jù)挖掘算法執(zhí)行以及數(shù)據(jù)結(jié)果報告等。其中最關鍵的步驟就是通過數(shù)據(jù)挖掘算法的執(zhí)行得到數(shù)據(jù)挖掘的結(jié)果,這個步驟往往需要大量的人工干預與反饋。人工干預與反饋表現(xiàn)為通過專家的經(jīng)驗模型觀察執(zhí)行算法的結(jié)果,再根據(jù)結(jié)果重新調(diào)整算法參數(shù)重新執(zhí)行算法得到新結(jié)果,直到數(shù)據(jù)挖掘得到滿意的結(jié)果。這一過程往往耗費大量的人力成本,浪費了時間和精力。雖然大多數(shù)數(shù)據(jù)挖掘算法可以不斷的迭代和收斂,但是由于初始參數(shù)和計算過程中的局部最優(yōu)解造成的數(shù)據(jù)挖掘結(jié)果不理想,并不能通過算法本身迭代解決。
技術實現(xiàn)要素:
本發(fā)明的目的在于解決目前數(shù)據(jù)挖掘?qū)崿F(xiàn)過程中的需要不斷人工反饋調(diào)優(yōu)的問題,提供一種建立高效、可實現(xiàn)、自動化數(shù)據(jù)挖掘自動回饋系統(tǒng)的方法。
本發(fā)明所涉及的一種建立數(shù)據(jù)挖掘自動回饋系統(tǒng)的方法,所述數(shù)據(jù)挖掘自動回饋系統(tǒng)包括數(shù)據(jù)分割模塊、結(jié)果評價模塊、參數(shù)調(diào)整模塊;數(shù)據(jù)分割模塊用于將數(shù)據(jù)分割為訓練數(shù)據(jù)和評價數(shù)據(jù);結(jié)果評價模塊用于評價數(shù)據(jù)挖掘結(jié)果的滿意度,評價的結(jié)果反饋給參數(shù)數(shù)據(jù)調(diào)整模塊;參數(shù)調(diào)整模塊根據(jù)結(jié)果評價模塊的評價調(diào)整數(shù)據(jù)挖掘算法參數(shù)。
本發(fā)明所涉及的一種建立數(shù)據(jù)挖掘自動回饋系統(tǒng)的方法,其步驟如下:
步驟1、將待挖掘源數(shù)據(jù)按比例隨機分割為訓練數(shù)據(jù)和測試數(shù)據(jù),其中訓練數(shù)據(jù)將用于訓練數(shù)據(jù)挖掘算法模型,測試數(shù)據(jù)用于評價數(shù)據(jù)挖掘模型的準確性,為每一次過程執(zhí)行進行多次分割且使用不同隨機原型,避免因隨機分割的偶然性影響對算法結(jié)果的評價;
步驟2、如果數(shù)據(jù)挖掘算法輸出為模型,則將步驟1中數(shù)據(jù)分割產(chǎn)生的測試數(shù)據(jù)的自變量作為輸入,使用數(shù)據(jù)挖掘算法訓練產(chǎn)生的算法模型進行數(shù)據(jù)挖掘,比對步驟1中測試數(shù)據(jù)中原本的數(shù)據(jù)結(jié)果和使用算法模型進行挖掘的輸出,計算二者匹配程度,匹配上計算出MSE以及RMSE等網(wǎng)絡性能指標得出對算法模型的準確度評估;
如果數(shù)據(jù)挖掘算法輸出為結(jié)果數(shù)據(jù),則將訓練數(shù)據(jù)產(chǎn)生的數(shù)據(jù)挖掘結(jié)果與測試數(shù)據(jù)相比較,計算二者匹配程度,匹配上的數(shù)據(jù)計算出MSE以及RMSE等網(wǎng)絡性能指標,并將將匹配程度和網(wǎng)絡性能指標反饋給參數(shù)數(shù)據(jù)調(diào)整模塊;
步驟3、根據(jù)步驟2中對數(shù)據(jù)挖掘算法模型測試結(jié)果及對算法模型的準確度評估,根據(jù)結(jié)果評價模塊的反饋結(jié)果,使用參數(shù)自動調(diào)整算法對數(shù)據(jù)挖掘的參數(shù)進行調(diào)整;
步驟4、將調(diào)整參數(shù)后的數(shù)據(jù)挖掘算法模型作為新的算法模型,重新執(zhí)行步驟1,直至數(shù)據(jù)挖掘算法模型的測試結(jié)果達到要求;
其中步驟3所述參數(shù)自動調(diào)整算法包括:將參數(shù)劃分為標量參數(shù)和矢量參數(shù);進行調(diào)參時,優(yōu)先調(diào)整標量參數(shù),調(diào)整標量參數(shù)仍不能滿足需求時,以粒度由粗變細的方式,逐步調(diào)整各個矢量參數(shù);
進一步地,上述標量參數(shù)指參數(shù)的值為有限個數(shù)的值,如相似度距離方法僅能為歐幾里得距離、明可夫斯基距離、曼哈頓距離等有限的取值;
進一步地,上述矢量參數(shù)指可以在一定范圍能以任意浮點數(shù)調(diào)整的參數(shù),如樸素貝葉斯分類算法的平滑參數(shù);
其中步驟2所述MSE一種網(wǎng)絡的性能函數(shù),為網(wǎng)絡的均方誤差,其計算方法如下:
其中步驟2所述RMSE一種網(wǎng)絡的性能函數(shù),為網(wǎng)絡的均方根誤差,其計算方法如下:
本發(fā)明的方法所建立的一種數(shù)據(jù)挖掘自動回饋系統(tǒng),其數(shù)據(jù)分割模塊、結(jié)果評價模塊、參數(shù)調(diào)整模塊協(xié)同工作形成反饋,自動調(diào)整、優(yōu)化數(shù)據(jù)挖掘算法的參數(shù),比以往進行數(shù)據(jù)挖掘更節(jié)約人力成本。通過數(shù)據(jù)分割模塊將數(shù)據(jù)分割為訓練數(shù)據(jù)和測試數(shù)據(jù),使數(shù)據(jù)挖掘效果驗證有據(jù)可依。通過結(jié)果評價模塊對數(shù)據(jù)挖掘算法結(jié)果做評價,對數(shù)據(jù)挖掘效果做出反饋,使參數(shù)調(diào)整更科學。通過參數(shù)調(diào)整模塊對數(shù)據(jù)挖掘算法的參數(shù)自動調(diào)整,減少使用專家經(jīng)驗模型帶來的人力浪費。通過參數(shù)自動調(diào)整算法高效地、精準地自動調(diào)整算法參數(shù),有效的提高參數(shù)調(diào)整效率,減少自動化過程中過多的遍歷參數(shù)取值范圍造成的實際浪費。
附圖說明
圖1為本發(fā)明實施例中數(shù)據(jù)挖掘自動回饋系統(tǒng)工作流程圖;
其中,1為數(shù)據(jù)分割模塊,2為結(jié)果評價模塊,3為參數(shù)調(diào)整模塊。
圖2為本發(fā)明實施例中數(shù)據(jù)分割模塊工作流程圖;
圖3為本發(fā)明實施例中結(jié)果評價模塊工作流程圖;
圖4為本發(fā)明實施例中結(jié)果評價模塊工作流程圖;
圖5為本發(fā)明實施例中參數(shù)調(diào)整模塊工作流程圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明進一步說明。
實施例一
通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
本實施例所涉及的一種數(shù)據(jù)挖掘自動回饋系統(tǒng),其工作流程圖如圖1所示,具體步驟如下:
步驟1、數(shù)據(jù)分割
如圖2所示,將待挖掘源數(shù)據(jù)按比例隨機分割為訓練數(shù)據(jù)和測試數(shù)據(jù),其中訓練數(shù)據(jù)將用于訓練數(shù)據(jù)挖掘算法模型,測試數(shù)據(jù)用于評價數(shù)據(jù)挖掘模型的準確性,為每一次過程執(zhí)行進行多次分割且使用不同隨機原型,避免因隨機分割的偶然性影響對算法結(jié)果的評價。
步驟2、訓練并評估數(shù)據(jù)挖掘算法
如圖3所示,如果數(shù)據(jù)挖掘算法輸出為模型則將步驟1中數(shù)據(jù)分割產(chǎn)生的測試數(shù)據(jù)的自變量作為輸入,使用數(shù)據(jù)挖掘算法訓練產(chǎn)生的算法模型進行數(shù)據(jù)挖掘,比對步驟1中測試數(shù)據(jù)中原本的數(shù)據(jù)結(jié)果和使用算法模型進行挖掘的輸出,計算二者匹配程度,匹配上計算出MSE以及RMSE等網(wǎng)絡性能指標得出對算法模型的準確度評估。
如圖4所示,如果數(shù)據(jù)挖掘算法輸出為結(jié)果數(shù)據(jù),則將訓練數(shù)據(jù)產(chǎn)生的數(shù)據(jù)挖掘結(jié)果與測試數(shù)據(jù)相比較,計算二者匹配程度,匹配上的數(shù)據(jù)計算出MSE以及RMSE等網(wǎng)絡性能指標,并將將匹配程度和網(wǎng)絡性能指標反饋給參數(shù)數(shù)據(jù)調(diào)整模塊。
其中步驟2所述MSE一種網(wǎng)絡的性能函數(shù),為網(wǎng)絡的均方誤差,其計算方法如下:
其中步驟2所述RMSE一種網(wǎng)絡的性能函數(shù),為網(wǎng)絡的均方根誤差,其計算方法如下:
步驟3、調(diào)整數(shù)據(jù)挖掘算法參數(shù)優(yōu)化數(shù)據(jù)挖掘算法
如圖5所示,根據(jù)結(jié)果評價模塊的反饋結(jié)果,使用參數(shù)自動調(diào)整算法對數(shù)據(jù)挖掘的參數(shù)進行調(diào)整。其中參數(shù)自動調(diào)整算法包括:將參數(shù)劃分為標量參數(shù)和矢量參數(shù);進行調(diào)參時,優(yōu)先調(diào)整標量參數(shù),調(diào)整標量參數(shù)仍不能滿足需求時,以粒度由粗變細的方式,逐步調(diào)整各個矢量參數(shù)。其中標量參數(shù)指參數(shù)的值為有限個數(shù)的值,如相似度距離方法僅能為歐幾里得距離、明可夫斯基距離、曼哈頓距離等有限的取值;其中矢量參數(shù)指可以在一定范圍能以任意浮點數(shù)調(diào)整的參數(shù),如樸素貝葉斯分類算法的平滑參數(shù)。
如圖1所示,該數(shù)據(jù)挖掘自動回饋系統(tǒng)包含3個模塊:數(shù)據(jù)分割模塊1,結(jié)果評價模塊2、參數(shù)調(diào)整模塊3。
其中,結(jié)果評價模塊2、參數(shù)調(diào)整模塊3與數(shù)據(jù)挖掘算法形成成一個反饋環(huán),在得到滿意的數(shù)據(jù)挖掘結(jié)果前,不斷地在反饋環(huán)中進行正反饋優(yōu)化。數(shù)據(jù)挖掘算法的計算結(jié)果或得出的模型輸入到算法評價模塊,算法評價模塊的輸出結(jié)果輸入到參數(shù)調(diào)整模塊,參數(shù)調(diào)整的結(jié)果又作用到數(shù)據(jù)挖掘算法中,形成一個環(huán)形的運算體系。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。