本申請涉及大數(shù)據(jù)分析、人工智能和特征工程,尤其涉及一種特征篩選方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù):
1、特征工程技術(shù)是現(xiàn)代人工智能模型的基礎(chǔ),特別是對于回歸和分類問題,模型所使用特征變量數(shù)據(jù)的質(zhì)量高低直接決定了模型的預(yù)測效果。
2、傳統(tǒng)的特征工程技術(shù)主要依賴建模者自身的建模經(jīng)驗(yàn),缺乏能夠智能化篩選特征的技術(shù),從而影響建模的效率。
技術(shù)實(shí)現(xiàn)思路
1、本申請?zhí)峁┮环N特征篩選方法、裝置、設(shè)備和介質(zhì),用以解決現(xiàn)有技術(shù)中無法實(shí)現(xiàn)智能化篩選特征的問題。
2、第一方面,本申請?zhí)峁┝艘环N特征篩選方法,包括:
3、獲取n個樣本在m個維度特征下的特征數(shù)據(jù)表,并將任一維度特征下的n個特征數(shù)據(jù)作為特征數(shù)據(jù)序列;
4、分別計算每個特征的特征數(shù)據(jù)序列與其他特征的特征數(shù)據(jù)序列的關(guān)聯(lián)度指標(biāo),得到關(guān)聯(lián)度指標(biāo)表;
5、從所述關(guān)聯(lián)度指標(biāo)表中選擇絕對值最高的關(guān)聯(lián)度指標(biāo)所對應(yīng)的特征i和特征j;
6、如果所述絕對值最高的關(guān)聯(lián)度指標(biāo)超出預(yù)設(shè)閾值,則根據(jù)特征i和特征j各自與其他特征的相關(guān)性,從所述特征i和特征j中確定待刪除特征;
7、將所述待刪除特征及其特征數(shù)據(jù)序列刪除,得到新的特征數(shù)據(jù)表;
8、針對所述新的特征數(shù)據(jù)表,返回執(zhí)行所述分別計算每個特征的特征數(shù)據(jù)序列與其他特征的特征數(shù)據(jù)序列的關(guān)聯(lián)度指標(biāo)的步驟,直到所述新的特征數(shù)據(jù)表的關(guān)聯(lián)度指標(biāo)表中,絕對值最高的關(guān)聯(lián)度指標(biāo)未超出所述預(yù)設(shè)閾值為止,并將此時剩余的特征作為篩選得到的目標(biāo)特征。
9、第二方面,本申請?zhí)峁┝艘环N特征篩選裝置,包括:
10、特征數(shù)據(jù)獲取模塊,用于獲取n個樣本在m個維度特征下的特征數(shù)據(jù)表,并將任一維度特征下的n個特征數(shù)據(jù)作為特征數(shù)據(jù)序列;
11、關(guān)聯(lián)度指標(biāo)計算模塊,用于分別計算每個特征的特征數(shù)據(jù)序列與其他特征的特征數(shù)據(jù)序列的關(guān)聯(lián)度指標(biāo),得到關(guān)聯(lián)度指標(biāo)表;
12、選擇模塊,用于從所述關(guān)聯(lián)度指標(biāo)表中選擇絕對值最高的關(guān)聯(lián)度指標(biāo)所對應(yīng)的特征i和特征j;
13、待刪除特征確定模塊,用于如果所述絕對值最高的關(guān)聯(lián)度指標(biāo)超出預(yù)設(shè)閾值,則根據(jù)特征i和特征j各自與其他特征的相關(guān)性,從所述特征i和特征j中確定待刪除特征;
14、特征刪除模塊,用于將所述待刪除特征及其特征數(shù)據(jù)序列刪除,得到新的特征數(shù)據(jù)表;
15、循環(huán)處理模塊,用于針對所述新的特征數(shù)據(jù)表,返回執(zhí)行所述分別計算每個特征的特征數(shù)據(jù)序列與其他特征的特征數(shù)據(jù)序列的關(guān)聯(lián)度指標(biāo)的步驟,直到所述新的特征數(shù)據(jù)表的關(guān)聯(lián)度指標(biāo)表中,絕對值最高的關(guān)聯(lián)度指標(biāo)未超出所述預(yù)設(shè)閾值為止,并將此時剩余的特征作為篩選得到的目標(biāo)特征。
16、第三方面,本申請還提供了一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如本申請實(shí)施例中任一所述的特征篩選方法。
17、第四方面,本申請還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)如本申請實(shí)施例中任一所述的特征篩選方法。
18、第五方面,本申請還提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如本申請實(shí)施例中任一所述的特征篩選方法。
19、本申請?zhí)峁┑奶卣骱Y選方法、裝置、設(shè)備和介質(zhì),通過關(guān)聯(lián)度指標(biāo)來衡量不同特征之間的相關(guān)性,先計算任意兩個特征之間的關(guān)聯(lián)度指標(biāo),然后從中選擇絕對值最高的關(guān)聯(lián)度指標(biāo),繼而確定對應(yīng)的兩個特征,特征i和特征j。接著,分別考察特征i和特征j各自與其他特征的整體相關(guān)性,并根據(jù)整體相關(guān)性從特征i和特征j中確定待刪除特征進(jìn)行刪除。由此,基于刪除后的特征循環(huán)執(zhí)行上述操作,直到不存在任意兩個特征之間的關(guān)聯(lián)度指標(biāo)絕對值超出預(yù)設(shè)閾值為止,即可得到最終的特征集合。通過上述方法對特征進(jìn)行智能篩選,得到的特征集合更加精簡,且特征集合所包含的信息量更多,極大提高了特征篩選的有效性。
1.一種特征篩選方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)特征i和特征j各自與其他所有特征的相關(guān)性,從所述特征i和特征j中確定待刪除特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述關(guān)聯(lián)度指標(biāo)序列i和所述關(guān)聯(lián)度指標(biāo)序列j中各個關(guān)聯(lián)度指標(biāo)的大小和所述預(yù)設(shè)閾值,從所述特征i和特征j中確定待刪除特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述關(guān)聯(lián)度指標(biāo)序列i和所述關(guān)聯(lián)度指標(biāo)序列j中各個關(guān)聯(lián)度指標(biāo)的大小和所述預(yù)設(shè)閾值,從所述特征i和特征j中確定待刪除特征,還包括:
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,所述關(guān)聯(lián)度指標(biāo)包括如下至少之一皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、肯德爾秩相關(guān)系數(shù)和同步變化率,其中,所述同步變化率用于在一定時間跨度區(qū)域內(nèi)觀察數(shù)據(jù)的變化同頻現(xiàn)象。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述同步變化率用如下公式表示:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述目標(biāo)特征的維度數(shù)表示為k,所述方法還包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述比較打亂前各維度特征的影響程度評價指標(biāo)、打亂后的所述影響程度評價指標(biāo)均值與設(shè)定合理范圍的關(guān)系,并根據(jù)比較結(jié)果對k個維度特征進(jìn)行修正,包括:
9.根據(jù)權(quán)利要求7或8所述的方法,其特征在于,所述影響程度評價指標(biāo)包括如下至少之一:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述分別計算每個特征的特征數(shù)據(jù)序列與其他特征的特征數(shù)據(jù)序列的關(guān)聯(lián)度指標(biāo)之前,所述方法還包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述數(shù)據(jù)同質(zhì)化程度通過如下至少之一種方式進(jìn)行判斷:
12.根據(jù)權(quán)利要求7所述的方法,其特征在于,經(jīng)所述修正得到的特征用于對所述目標(biāo)模型進(jìn)行訓(xùn)練。
13.一種特征篩選裝置,其特征在于,包括:
14.一種電子設(shè)備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;
15.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實(shí)現(xiàn)如權(quán)利要求1-12中任一項(xiàng)所述的特征篩選方法。
16.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-12中任一項(xiàng)所述的特征篩選方法。