本申請涉及數(shù)據處理技術領域,尤其是涉及一種系統(tǒng)及其指標優(yōu)化方法及裝置。
背景技術:
隨著時間的推移,一些系統(tǒng)在實際應用過程中,其相關統(tǒng)計信息在不斷累積豐富,而通過對統(tǒng)計信息的分析和處理,可能會發(fā)現(xiàn)需要有新指標添加進來并在此基礎上重構系統(tǒng),以提升其性能。
而隨著計算機網絡及信息技術的不斷發(fā)展變化,目前已有一些系統(tǒng)具有自動構建新指標集的功能,這些新指標集可以幫助系統(tǒng)適應新的變化,從而有利于提高系統(tǒng)性能。但由于通常新指標集中的新指標的數(shù)量往往較大,而其中有些系統(tǒng)(比如在線系統(tǒng))的資源有限,因而可能無法滿足使用全部的新指標。在這種情況下,需要從新指標集里優(yōu)選出最有效的指標,以便于實現(xiàn)以較少的指標集帶來較大的系統(tǒng)性能提升。
目前針對新指標優(yōu)選的方法主要是將新指標集中所有新指標依次單獨加入已有系統(tǒng)的原指標集,重新訓練,然后根據系統(tǒng)性能的提升幅度來排序,并最終依據排序選擇一部分新指標。
然而,本申請的發(fā)明人發(fā)現(xiàn):上述方法需要逐個遍歷新指標集中每一個新指標,非常耗時。同時,如果已有系統(tǒng)已經較為復雜,新增的單個指標實際并不一定能夠為該系統(tǒng)帶來實際的性能提升。有時候,系統(tǒng)性能的抖動甚至可能是由于隨機參數(shù)的選取造成的,因此,一般的,往往需要同時加入一組指標,才可能看到實際的效果。而按照現(xiàn)有技術從一個新指標集中優(yōu)選一組指標的遍歷復雜度是指數(shù)級的,這會占用太多的系統(tǒng)資源,工程上幾乎難以實施。
技術實現(xiàn)要素:
本申請實施例的目的在于提供一種系統(tǒng)及其指標優(yōu)化方法及裝置,以提高系統(tǒng)指標優(yōu)選效率,降低系統(tǒng)性能的抖動。
為達到上述目的,一方面本申請實施例提供了一種系統(tǒng)指標優(yōu)化方法,包括以下步驟:
獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值,以及所有待選用指標參數(shù)及其數(shù)值;
基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理,獲得對應的特征參數(shù)集及其數(shù)值;
以所述特征參數(shù)集的數(shù)值作為輸入,并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出,訓練預設的機器學習模型,獲得所述所有待選用指標參數(shù)的數(shù)值的預測值;
獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值;
選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。
另一方面,本申請實施例還提供了一種系統(tǒng)指標優(yōu)化裝置,包括:
數(shù)據獲取模塊,用于獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值,以及所有待選用指
標參數(shù)及其數(shù)值;
數(shù)據降維模塊,用于基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理,獲得對應的特征參數(shù)集及其數(shù)值;
數(shù)據預測模塊,用于以所述特征參數(shù)集的數(shù)值作為輸入,并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出,訓練預設的機器學習模型,獲得所述所有待選用指標參數(shù)的數(shù)值的預測值;
差異獲取模塊,用于獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值;
指標篩選模塊,用于選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。
再一方面,本申請實施例還提供了一種系統(tǒng),其包括上述的系統(tǒng)指標優(yōu)化裝置。
本申請實施例的系統(tǒng)指標優(yōu)化方案通過兩次處理即完成對所有待選用新指標參數(shù)的評價,與現(xiàn)有技術要逐個遍歷所有待選用指標參數(shù)中的每一個并分別進行單獨評價相比,系統(tǒng)指標參數(shù)優(yōu)選的效率的得到極大的提升,同時,本申請實施例這種將所有待選用指標參數(shù)進行整體評價的方式,也避免了現(xiàn)有技術多次訓練單一指標參數(shù)所帶來的系統(tǒng)性能隨機抖動。一般的,在篩選出新增指標參數(shù)后,基于所有已用指標參數(shù)和新增指標而重新構建的系統(tǒng)一般會更加有效,即實現(xiàn)了以盡可能少的新增指標參 數(shù)帶來盡可能大的系統(tǒng)性能提升。
附圖說明
此處所說明的附圖用來提供對本申請實施例的進一步理解,構成本申請實施例的一部分,并不構成對本申請實施例的限定。在附圖中:
圖1為本申請實施例的系統(tǒng)指標優(yōu)化方法的流程圖;
圖2為本申請某些實施例的系統(tǒng)指標優(yōu)化裝置的結構框圖。
具體實施方式
為使本申請實施例的目的、技術方案和優(yōu)點更加清楚明白,下面結合實施例和附圖,對本申請實施例做進一步詳細說明。在此,本申請實施例的示意性實施例及其說明用于解釋本申請實施例,但并不作為對本申請實施例的限定。
下面結合附圖,對本申請實施例的具體實施方式作進一步的詳細說明。
參考圖1所示,本申請實施例的系統(tǒng)指標優(yōu)化方法包括以下步驟:
步驟s101、獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值,以及所有待選用指標參數(shù)及其數(shù)值。
本申請實施例中,系統(tǒng)可以為在線系統(tǒng),也可以為離線系統(tǒng);所有已用指標參數(shù)是指當前已應用于衡量系統(tǒng)性能的所有指標參數(shù)的集合;待選用指標參數(shù)為尚未應用于衡量系統(tǒng)性能的所有待選指標參數(shù)的集合。
步驟s102、基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理,獲得對應的特征參數(shù)集及其數(shù)值。本申請實例中,將所述所有已用指標參數(shù)及其數(shù)值進行數(shù)據降維處理的目的之一在于消除數(shù)據冗余,減少被處理數(shù)據的數(shù)量。其中,所述特征參數(shù)集就是所述所有已用指標參數(shù)的特征映射,即所述特征參數(shù)集可以認為已經包含所述所有已用指標參數(shù)的所有特征。
本申請實施例中,其中特征參數(shù)集中的特征參數(shù)的數(shù)量可由用戶預先設定。一般而言,特征參數(shù)集的數(shù)量依據數(shù)據集大小及輸入指標參數(shù)數(shù)量多少來調整,數(shù)據集越大,指標參數(shù)數(shù)量越大,特征參數(shù)集可以越大。
在本申請的一個實施例中,所述數(shù)據降維算法例如可以為自動編碼器(autoencoder),這樣,將所述所有已用指標參數(shù)同時作為所述自動編碼器的輸入節(jié) 點和目標輸出節(jié)點,并以所述所有已用指標參數(shù)的數(shù)值作為第一訓練數(shù)據集,訓練所述自動編碼機,就可以獲得對應的特征參數(shù)集及其數(shù)值。在本申請的另一個實施例中,所述數(shù)據降維算法還可以為核pca(kernelprincipalcomponentanalysis,基于核的主成分分析)等。
步驟s103、以所述特征參數(shù)集的數(shù)值作為輸入,并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出,訓練預設的機器學習模型,獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。
在本申請的一個實施例中,機器學習模型例如可以為深度神經網絡,這樣,將所述特征參數(shù)集及所述所有待選用指標參數(shù)對應作為所述深度神經網絡的輸入節(jié)點和目標輸出節(jié)點,并將所述特征參數(shù)集的數(shù)值作為第二訓練數(shù)據集,訓練深度神經網絡,就可以獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。在本申請的另一個實施例中,機器學習模型還可以為其它機器學習模型。
需要說明的是,在本申請實施例中,作為一種優(yōu)選方式,當數(shù)據降維算法采用自動編碼器,并且機器學習模型采用深度神經網絡時,由于自動編碼器和深度神經網絡都屬于神經網絡類的算法,這樣可以在相同或等同的參照系下,方便比較新舊指標參數(shù)的擬合程度,即在步驟s102中,進行數(shù)據降維處理的主要目的是訓練目標的擬合程度(即實際預測結果與目標輸出的吻合程度),以實現(xiàn)定量的評價特征參數(shù)集對所述所有已用指標參數(shù)的表達有效性。這樣,再通過步驟s103的再次訓練,就可以得到所述所有已用指標參數(shù)對所述所有待選用指標參數(shù)的表達有效性。并且,在步驟s103中使用所述所有已用指標參數(shù)的特征參數(shù)集作為輸入節(jié)點而不是直接使用所述所有已用指標參數(shù),還可以避免對述所有待選用指標參數(shù)的過度擬合而影響了機器學習模型的泛化能力(generalizationability)。
步驟s104、獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值。
在本申請一個實施例中,所述的差異度量值例如可以為殘差平方和,在本申請另一實施例中,也可以采用其他的偏差計算方式(比如總體標準偏差等)。
步驟s105、選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。
在本申請另一實施例中,為了便于篩選,在步驟s105之前,還可以按照對應差 異度量值的大小將所述所有待選用指標參數(shù)進行排序(比如由大到小排序)。
本申請實施例的系統(tǒng)指標優(yōu)化方法通過兩次處理即完成對所有待選用新指標參數(shù)的評價,與現(xiàn)有技術要逐個遍歷所有待選用指標參數(shù)中的每一個并分別進行單獨評價相比,系統(tǒng)指標參數(shù)優(yōu)選的效率的得到極大的提升,同時,本申請實施例這種將所有待選用指標參數(shù)進行整體評價的方式,也避免了現(xiàn)有技術多次訓練單一指標參數(shù)所帶來的系統(tǒng)性能隨機抖動。一般的,在篩選出新增指標參數(shù)后,基于所有已用指標參數(shù)和新增指標而重新構建的系統(tǒng)一般會更加有效,即實現(xiàn)了以盡可能少的新增指標參數(shù)帶來盡可能大的系統(tǒng)性能提升。
雖然上文描述的過程流程包括以特定順序出現(xiàn)的多個操作,但是,應當清楚了解,這些過程可以包括更多或更少的操作,這些操作可以順序執(zhí)行或并行執(zhí)行(例如使用并行處理器或多線程環(huán)境)。
為了便于理解,下面結合實例來說明書本申請實施例的系統(tǒng)指標優(yōu)化方法。
假設現(xiàn)有網絡安全模型a一共使用了100個指標,記為x1-x100?,F(xiàn)有新構造的150個指標,記為v1-v150,最終要求是從150個新構造的指標中選出10個最有效的指標vx1-vx10,使得利用指標集{x1-x100,vx1-vx10}訓練出的網絡安全模型更有效。其中,{vxi}是{vi}的子集。
另外,有數(shù)據集d(例如下表1所示),其中每一條數(shù)據(即指標值的每一列)均包含{x1-x100,v1-v150}共250個指標:
表1
其主要過程如下:
使用x1-x100同時作為自動編碼機的輸入節(jié)點和目標輸出節(jié)點,x1-x100的數(shù)值作為訓練數(shù)據集,訓練自動編碼機。獲得所述x1-x100的特征參數(shù)集及其數(shù)值, 假設特征參數(shù)集的編碼數(shù)量(即特征參數(shù))設置為50個,則特征參數(shù)集記為c1-c50。
另外,有數(shù)據集d’(例如下表2所示),其中每一條數(shù)據(即指標值的每一列)均包含{c1-c50,v1-v150}共200個指標:
表2
使用c1-c50作為深度神經網絡的輸入節(jié)點,v1-v150作為深度神經網絡的目標輸出節(jié)點,以c1-c50的數(shù)值作為訓練數(shù)據集,訓練深度神經網絡。假設v1的取值分別為{b11,b12,…,b1n},訓練出的深度神經網絡對v1的預測值為{b11’,b12’,…,b1n’},則對v1的數(shù)值與其對應的預測值的殘差平方和為:
本申請的系統(tǒng)包括系統(tǒng)指標優(yōu)化裝置,一般的,本申請的系統(tǒng)為在線系統(tǒng)。參考圖2所示,其中,該系統(tǒng)指標優(yōu)化裝置包括:
數(shù)據獲取模塊21,用于獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值,以及所有待選用指標參數(shù)及其數(shù)值。
本申請實施例中,系統(tǒng)可以為在線系統(tǒng),也可以為離線系統(tǒng);所有已用指標參數(shù)是指當前已應用于衡量系統(tǒng)性能的所有指標參數(shù)的集合;待選用指標參數(shù)為尚未應用于衡量系統(tǒng)性能的所有待選指標參數(shù)的集合。
數(shù)據降維模塊22,用于基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理,獲得對應的特征參數(shù)集及其數(shù)值。
本申請實例中,將所述所有已用指標參數(shù)及其數(shù)值進行數(shù)據降維處理的目的之一在于消除數(shù)據冗余,減少被處理數(shù)據的數(shù)量。其中,所述特征參數(shù)集就是所述所有已 用指標參數(shù)的特征映射,即所述特征參數(shù)集可以認為已經包含所述所有已用指標參數(shù)的所有特征。
本申請實施例中,其中特征參數(shù)集中的特征參數(shù)的數(shù)量可由用戶預先設定。一般而言,特征參數(shù)集的數(shù)量依據數(shù)據集大小及輸入指標參數(shù)數(shù)量多少來調整,數(shù)據集越大,指標參數(shù)數(shù)量越大,特征參數(shù)集可以越大。
在本申請的一個實施例中,所述數(shù)據降維算法例如可以為自動編碼器(autoencoder),這樣,將所述所有已用指標參數(shù)同時作為所述自動編碼器的輸入節(jié)點和目標輸出節(jié)點,并以所述所有已用指標參數(shù)的數(shù)值作為第一訓練數(shù)據集,訓練所述自動編碼機,就可以獲得對應的特征參數(shù)集及其數(shù)值。在本申請的另一個實施例中,所述數(shù)據降維算法還可以為核pca等。
數(shù)據預測模塊23,用于以所述特征參數(shù)集的數(shù)值作為輸入,并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出,訓練預設的機器學習模型,獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。
在本申請的一個實施例中,機器學習模型例如可以為深度神經網絡,這樣,將所述特征參數(shù)集及所述所有待選用指標參數(shù)對應作為所述深度神經網絡的輸入節(jié)點和目標輸出節(jié)點,并將所述特征參數(shù)集的數(shù)值作為第二訓練數(shù)據集,訓練深度神經網絡,就可以獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。在本申請的另一個實施例中,機器學習模型還可以為其它機器學習模型。
需要說明的是,在本申請實施例中,作為一種優(yōu)選方式,當數(shù)據降維算法采用自動編碼器,并且機器學習模型采用深度神經網絡時,由于自動編碼器和深度神經網絡都屬于神經網絡類的算法,這樣可以在相同或等同的參照系下,方便比較新舊指標參數(shù)的擬合程度,即通過數(shù)據降維模塊22進行數(shù)據降維處理的主要目的是訓練目標的擬合程度(即實際預測結果與目標輸出的吻合程度),可以定量的評價特征參數(shù)集對所述所有已用指標參數(shù)的表達有效性。這樣,再通過數(shù)據預測模塊23的再次訓練,就可以得到所述所有已用指標參數(shù)對所述所有待選用指標參數(shù)的表達有效性。并且,在數(shù)據預測模塊23中使用所述所有已用指標參數(shù)的特征參數(shù)集作為輸入節(jié)點而不是直接使用所述所有已用指標參數(shù),還可以避免對述所有待選用指標參數(shù)的過度擬合而影響了機器學習模型的泛化能力。
差異獲取模塊24,用于獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值 與其對應預測值的差異度量值。
在本申請一個實施例中,所述的差異度量值例如可以為殘差平方和,在本申請另一實施例中,也可以采用其他的偏差計算方式(比如總體標準偏差等)。
指標篩選模塊25,用于選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。
在本申請另一實施例中,為了便于篩選,系統(tǒng)指標優(yōu)化裝置還可以包括:
差異排序模塊,用于在所述指標篩選模塊選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標之前,按照對應差異度量值的大小將所述所有待選用指標參數(shù)進行排序。
本申請實施例的系統(tǒng)指標優(yōu)化方案通過兩次處理即完成對所有待選用新指標參數(shù)的評價,與現(xiàn)有技術要逐個遍歷所有待選用指標參數(shù)中的每一個并分別進行單獨評價相比,系統(tǒng)指標參數(shù)優(yōu)選的效率的得到極大的提升,同時,本申請實施例這種將所有待選用指標參數(shù)進行整體評價的方式,也避免了現(xiàn)有技術多次訓練單一指標參數(shù)所帶來的系統(tǒng)性能隨機抖動。一般的,在篩選出新增指標參數(shù)后,基于所有已用指標參數(shù)和新增指標而重新構建的系統(tǒng)一般會更加有效,即實現(xiàn)了以盡可能少的新增指標參數(shù)帶來盡可能大的系統(tǒng)性能提升。
為了描述的方便,描述以上裝置時以功能分為各種模塊分別描述。當然,在實施本申請時可以把各模塊的功能在同一個模塊中實現(xiàn)。
以上本申請實施例所描述的方法或裝置可以直接嵌入可由處理器執(zhí)行的軟件模塊中。軟件模塊可以存儲于ram存儲器、閃存、rom存儲器、eprom存儲器、eeprom存儲器、寄存器、硬盤、可移動磁盤、cd-rom或本領域中其它任意形式的存儲媒介中。示例性地,存儲媒介可以與處理器連接,以使得處理器可以從存儲媒介中讀取信息,并可以向存儲媒介存寫信息??蛇x地,存儲媒介還可以集成到處理器中。
以上所述的具體實施例,對本申請的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本申請實施例的具體實施例而已,并不用于限定本申請的保護范圍,凡在本申請的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請的保護范圍之內。