系統(tǒng)及其指標優(yōu)化方法及裝置與流程

文檔序號：12035209閱讀：364來源：國知局

本申請涉及數(shù)據處理技術領域，尤其是涉及一種系統(tǒng)及其指標優(yōu)化方法及裝置。

背景技術：

隨著時間的推移，一些系統(tǒng)在實際應用過程中，其相關統(tǒng)計信息在不斷累積豐富，而通過對統(tǒng)計信息的分析和處理，可能會發(fā)現(xiàn)需要有新指標添加進來并在此基礎上重構系統(tǒng)，以提升其性能。

而隨著計算機網絡及信息技術的不斷發(fā)展變化，目前已有一些系統(tǒng)具有自動構建新指標集的功能，這些新指標集可以幫助系統(tǒng)適應新的變化，從而有利于提高系統(tǒng)性能。但由于通常新指標集中的新指標的數(shù)量往往較大，而其中有些系統(tǒng)(比如在線系統(tǒng))的資源有限，因而可能無法滿足使用全部的新指標。在這種情況下，需要從新指標集里優(yōu)選出最有效的指標，以便于實現(xiàn)以較少的指標集帶來較大的系統(tǒng)性能提升。

目前針對新指標優(yōu)選的方法主要是將新指標集中所有新指標依次單獨加入已有系統(tǒng)的原指標集，重新訓練，然后根據系統(tǒng)性能的提升幅度來排序，并最終依據排序選擇一部分新指標。

然而，本申請的發(fā)明人發(fā)現(xiàn)：上述方法需要逐個遍歷新指標集中每一個新指標，非常耗時。同時，如果已有系統(tǒng)已經較為復雜，新增的單個指標實際并不一定能夠為該系統(tǒng)帶來實際的性能提升。有時候，系統(tǒng)性能的抖動甚至可能是由于隨機參數(shù)的選取造成的，因此，一般的，往往需要同時加入一組指標，才可能看到實際的效果。而按照現(xiàn)有技術從一個新指標集中優(yōu)選一組指標的遍歷復雜度是指數(shù)級的，這會占用太多的系統(tǒng)資源，工程上幾乎難以實施。

技術實現(xiàn)要素：

本申請實施例的目的在于提供一種系統(tǒng)及其指標優(yōu)化方法及裝置，以提高系統(tǒng)指標優(yōu)選效率，降低系統(tǒng)性能的抖動。

為達到上述目的，一方面本申請實施例提供了一種系統(tǒng)指標優(yōu)化方法，包括以下步驟：

獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值，以及所有待選用指標參數(shù)及其數(shù)值；

基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理，獲得對應的特征參數(shù)集及其數(shù)值；

以所述特征參數(shù)集的數(shù)值作為輸入，并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出，訓練預設的機器學習模型，獲得所述所有待選用指標參數(shù)的數(shù)值的預測值；

獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值；

選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。

另一方面，本申請實施例還提供了一種系統(tǒng)指標優(yōu)化裝置，包括：

數(shù)據獲取模塊，用于獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值，以及所有待選用指

標參數(shù)及其數(shù)值；

數(shù)據降維模塊，用于基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理，獲得對應的特征參數(shù)集及其數(shù)值；

數(shù)據預測模塊，用于以所述特征參數(shù)集的數(shù)值作為輸入，并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出，訓練預設的機器學習模型，獲得所述所有待選用指標參數(shù)的數(shù)值的預測值；

差異獲取模塊，用于獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值；

指標篩選模塊，用于選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。

再一方面，本申請實施例還提供了一種系統(tǒng)，其包括上述的系統(tǒng)指標優(yōu)化裝置。

本申請實施例的系統(tǒng)指標優(yōu)化方案通過兩次處理即完成對所有待選用新指標參數(shù)的評價，與現(xiàn)有技術要逐個遍歷所有待選用指標參數(shù)中的每一個并分別進行單獨評價相比，系統(tǒng)指標參數(shù)優(yōu)選的效率的得到極大的提升，同時，本申請實施例這種將所有待選用指標參數(shù)進行整體評價的方式，也避免了現(xiàn)有技術多次訓練單一指標參數(shù)所帶來的系統(tǒng)性能隨機抖動。一般的，在篩選出新增指標參數(shù)后，基于所有已用指標參數(shù)和新增指標而重新構建的系統(tǒng)一般會更加有效，即實現(xiàn)了以盡可能少的新增指標參數(shù)帶來盡可能大的系統(tǒng)性能提升。

附圖說明

此處所說明的附圖用來提供對本申請實施例的進一步理解，構成本申請實施例的一部分，并不構成對本申請實施例的限定。在附圖中：

圖1為本申請實施例的系統(tǒng)指標優(yōu)化方法的流程圖；

圖2為本申請某些實施例的系統(tǒng)指標優(yōu)化裝置的結構框圖。

具體實施方式

為使本申請實施例的目的、技術方案和優(yōu)點更加清楚明白，下面結合實施例和附圖，對本申請實施例做進一步詳細說明。在此，本申請實施例的示意性實施例及其說明用于解釋本申請實施例，但并不作為對本申請實施例的限定。

下面結合附圖，對本申請實施例的具體實施方式作進一步的詳細說明。

參考圖1所示，本申請實施例的系統(tǒng)指標優(yōu)化方法包括以下步驟：

步驟s101、獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值，以及所有待選用指標參數(shù)及其數(shù)值。

本申請實施例中，系統(tǒng)可以為在線系統(tǒng)，也可以為離線系統(tǒng)；所有已用指標參數(shù)是指當前已應用于衡量系統(tǒng)性能的所有指標參數(shù)的集合；待選用指標參數(shù)為尚未應用于衡量系統(tǒng)性能的所有待選指標參數(shù)的集合。

步驟s102、基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理，獲得對應的特征參數(shù)集及其數(shù)值。本申請實例中，將所述所有已用指標參數(shù)及其數(shù)值進行數(shù)據降維處理的目的之一在于消除數(shù)據冗余，減少被處理數(shù)據的數(shù)量。其中，所述特征參數(shù)集就是所述所有已用指標參數(shù)的特征映射，即所述特征參數(shù)集可以認為已經包含所述所有已用指標參數(shù)的所有特征。

本申請實施例中，其中特征參數(shù)集中的特征參數(shù)的數(shù)量可由用戶預先設定。一般而言，特征參數(shù)集的數(shù)量依據數(shù)據集大小及輸入指標參數(shù)數(shù)量多少來調整，數(shù)據集越大，指標參數(shù)數(shù)量越大，特征參數(shù)集可以越大。

在本申請的一個實施例中，所述數(shù)據降維算法例如可以為自動編碼器(autoencoder)，這樣，將所述所有已用指標參數(shù)同時作為所述自動編碼器的輸入節(jié) 點和目標輸出節(jié)點，并以所述所有已用指標參數(shù)的數(shù)值作為第一訓練數(shù)據集，訓練所述自動編碼機，就可以獲得對應的特征參數(shù)集及其數(shù)值。在本申請的另一個實施例中，所述數(shù)據降維算法還可以為核pca(kernelprincipalcomponentanalysis，基于核的主成分分析)等。

步驟s103、以所述特征參數(shù)集的數(shù)值作為輸入，并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出，訓練預設的機器學習模型，獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。

在本申請的一個實施例中，機器學習模型例如可以為深度神經網絡，這樣，將所述特征參數(shù)集及所述所有待選用指標參數(shù)對應作為所述深度神經網絡的輸入節(jié)點和目標輸出節(jié)點，并將所述特征參數(shù)集的數(shù)值作為第二訓練數(shù)據集，訓練深度神經網絡，就可以獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。在本申請的另一個實施例中，機器學習模型還可以為其它機器學習模型。

需要說明的是，在本申請實施例中，作為一種優(yōu)選方式，當數(shù)據降維算法采用自動編碼器，并且機器學習模型采用深度神經網絡時，由于自動編碼器和深度神經網絡都屬于神經網絡類的算法，這樣可以在相同或等同的參照系下，方便比較新舊指標參數(shù)的擬合程度，即在步驟s102中，進行數(shù)據降維處理的主要目的是訓練目標的擬合程度(即實際預測結果與目標輸出的吻合程度)，以實現(xiàn)定量的評價特征參數(shù)集對所述所有已用指標參數(shù)的表達有效性。這樣，再通過步驟s103的再次訓練，就可以得到所述所有已用指標參數(shù)對所述所有待選用指標參數(shù)的表達有效性。并且，在步驟s103中使用所述所有已用指標參數(shù)的特征參數(shù)集作為輸入節(jié)點而不是直接使用所述所有已用指標參數(shù)，還可以避免對述所有待選用指標參數(shù)的過度擬合而影響了機器學習模型的泛化能力(generalizationability)。

步驟s104、獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值。

在本申請一個實施例中，所述的差異度量值例如可以為殘差平方和，在本申請另一實施例中，也可以采用其他的偏差計算方式(比如總體標準偏差等)。

步驟s105、選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。

在本申請另一實施例中，為了便于篩選，在步驟s105之前，還可以按照對應差異度量值的大小將所述所有待選用指標參數(shù)進行排序(比如由大到小排序)。

本申請實施例的系統(tǒng)指標優(yōu)化方法通過兩次處理即完成對所有待選用新指標參數(shù)的評價，與現(xiàn)有技術要逐個遍歷所有待選用指標參數(shù)中的每一個并分別進行單獨評價相比，系統(tǒng)指標參數(shù)優(yōu)選的效率的得到極大的提升，同時，本申請實施例這種將所有待選用指標參數(shù)進行整體評價的方式，也避免了現(xiàn)有技術多次訓練單一指標參數(shù)所帶來的系統(tǒng)性能隨機抖動。一般的，在篩選出新增指標參數(shù)后，基于所有已用指標參數(shù)和新增指標而重新構建的系統(tǒng)一般會更加有效，即實現(xiàn)了以盡可能少的新增指標參數(shù)帶來盡可能大的系統(tǒng)性能提升。

雖然上文描述的過程流程包括以特定順序出現(xiàn)的多個操作，但是，應當清楚了解，這些過程可以包括更多或更少的操作，這些操作可以順序執(zhí)行或并行執(zhí)行(例如使用并行處理器或多線程環(huán)境)。

為了便于理解，下面結合實例來說明書本申請實施例的系統(tǒng)指標優(yōu)化方法。

假設現(xiàn)有網絡安全模型a一共使用了100個指標，記為x1-x100?，F(xiàn)有新構造的150個指標，記為v1-v150，最終要求是從150個新構造的指標中選出10個最有效的指標vx1-vx10，使得利用指標集{x1-x100，vx1-vx10}訓練出的網絡安全模型更有效。其中，{vxi}是{vi}的子集。

另外，有數(shù)據集d(例如下表1所示)，其中每一條數(shù)據(即指標值的每一列)均包含{x1-x100，v1-v150}共250個指標：

表1

其主要過程如下：

使用x1－x100同時作為自動編碼機的輸入節(jié)點和目標輸出節(jié)點，x1－x100的數(shù)值作為訓練數(shù)據集，訓練自動編碼機。獲得所述x1－x100的特征參數(shù)集及其數(shù)值，假設特征參數(shù)集的編碼數(shù)量(即特征參數(shù))設置為50個，則特征參數(shù)集記為c1-c50。

另外，有數(shù)據集d’(例如下表2所示)，其中每一條數(shù)據(即指標值的每一列)均包含{c1-c50，v1-v150}共200個指標：

表2

使用c1-c50作為深度神經網絡的輸入節(jié)點，v1－v150作為深度神經網絡的目標輸出節(jié)點，以c1-c50的數(shù)值作為訓練數(shù)據集，訓練深度神經網絡。假設v1的取值分別為{b11，b12，…，b1n}，訓練出的深度神經網絡對v1的預測值為{b11’，b12’，…，b1n’}，則對v1的數(shù)值與其對應的預測值的殘差平方和為：

以此類推，可以得到所有v1－v150的數(shù)值與其對應的預測值的殘差平方和a1，a2，…，a150。在對a1，a2，…，a150進行排序后，取其中最大的10個值對應的待選用指標參數(shù)即可滿足要求。

本申請的系統(tǒng)包括系統(tǒng)指標優(yōu)化裝置，一般的，本申請的系統(tǒng)為在線系統(tǒng)。參考圖2所示，其中，該系統(tǒng)指標優(yōu)化裝置包括：

數(shù)據獲取模塊21，用于獲取系統(tǒng)的所有已用指標參數(shù)及其數(shù)值，以及所有待選用指標參數(shù)及其數(shù)值。

數(shù)據降維模塊22，用于基于預設的數(shù)據降維算法將所述所有已用指標參數(shù)及其數(shù)值進行降維處理，獲得對應的特征參數(shù)集及其數(shù)值。

本申請實例中，將所述所有已用指標參數(shù)及其數(shù)值進行數(shù)據降維處理的目的之一在于消除數(shù)據冗余，減少被處理數(shù)據的數(shù)量。其中，所述特征參數(shù)集就是所述所有已用指標參數(shù)的特征映射，即所述特征參數(shù)集可以認為已經包含所述所有已用指標參數(shù)的所有特征。

在本申請的一個實施例中，所述數(shù)據降維算法例如可以為自動編碼器(autoencoder)，這樣，將所述所有已用指標參數(shù)同時作為所述自動編碼器的輸入節(jié)點和目標輸出節(jié)點，并以所述所有已用指標參數(shù)的數(shù)值作為第一訓練數(shù)據集，訓練所述自動編碼機，就可以獲得對應的特征參數(shù)集及其數(shù)值。在本申請的另一個實施例中，所述數(shù)據降維算法還可以為核pca等。

數(shù)據預測模塊23，用于以所述特征參數(shù)集的數(shù)值作為輸入，并以所述所有待選用指標參數(shù)的數(shù)值作為目標輸出，訓練預設的機器學習模型，獲得所述所有待選用指標參數(shù)的數(shù)值的預測值。

需要說明的是，在本申請實施例中，作為一種優(yōu)選方式，當數(shù)據降維算法采用自動編碼器，并且機器學習模型采用深度神經網絡時，由于自動編碼器和深度神經網絡都屬于神經網絡類的算法，這樣可以在相同或等同的參照系下，方便比較新舊指標參數(shù)的擬合程度，即通過數(shù)據降維模塊22進行數(shù)據降維處理的主要目的是訓練目標的擬合程度(即實際預測結果與目標輸出的吻合程度)，可以定量的評價特征參數(shù)集對所述所有已用指標參數(shù)的表達有效性。這樣，再通過數(shù)據預測模塊23的再次訓練，就可以得到所述所有已用指標參數(shù)對所述所有待選用指標參數(shù)的表達有效性。并且，在數(shù)據預測模塊23中使用所述所有已用指標參數(shù)的特征參數(shù)集作為輸入節(jié)點而不是直接使用所述所有已用指標參數(shù)，還可以避免對述所有待選用指標參數(shù)的過度擬合而影響了機器學習模型的泛化能力。

差異獲取模塊24，用于獲取所述所有待選用指標參數(shù)中每個待選用指標的數(shù)值與其對應預測值的差異度量值。

在本申請一個實施例中，所述的差異度量值例如可以為殘差平方和，在本申請另一實施例中，也可以采用其他的偏差計算方式(比如總體標準偏差等)。

指標篩選模塊25，用于選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標。

在本申請另一實施例中，為了便于篩選，系統(tǒng)指標優(yōu)化裝置還可以包括：

差異排序模塊，用于在所述指標篩選模塊選取出預設數(shù)量個其差異度量值最大的待選用指標作為所述系統(tǒng)的新增指標之前，按照對應差異度量值的大小將所述所有待選用指標參數(shù)進行排序。

為了描述的方便，描述以上裝置時以功能分為各種模塊分別描述。當然，在實施本申請時可以把各模塊的功能在同一個模塊中實現(xiàn)。

以上本申請實施例所描述的方法或裝置可以直接嵌入可由處理器執(zhí)行的軟件模塊中。軟件模塊可以存儲于ram存儲器、閃存、rom存儲器、eprom存儲器、eeprom存儲器、寄存器、硬盤、可移動磁盤、cd-rom或本領域中其它任意形式的存儲媒介中。示例性地，存儲媒介可以與處理器連接，以使得處理器可以從存儲媒介中讀取信息，并可以向存儲媒介存寫信息?？蛇x地，存儲媒介還可以集成到處理器中。

以上所述的具體實施例，對本申請的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本申請實施例的具體實施例而已，并不用于限定本申請的保護范圍，凡在本申請的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本申請的保護范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2