本公開涉及數(shù)據(jù)處理領域,具體地,涉及一種數(shù)據(jù)分類的方法和裝置。
背景技術:
風能作為最具規(guī)模開發(fā)潛力的可再生新能源,近年來發(fā)展十分迅速,但是,當風力發(fā)電機的某些部件發(fā)生異常時,使得風力發(fā)電機的實際發(fā)電量無法達到目標發(fā)電量(即風力發(fā)電廠給風力發(fā)電機下達的發(fā)電量),從而造成限功率。
為了解決這種情況,可以通過采集風力發(fā)電機的工作數(shù)據(jù),并通過已知的限功率數(shù)據(jù)和非限功率數(shù)據(jù)對采集的工作數(shù)據(jù)進行分類,以確定該工作數(shù)據(jù)是造成限功率的限功率數(shù)據(jù)還是未造成限功率的非限功率數(shù)據(jù),并根據(jù)分類結果確定會造成限功率的工作數(shù)據(jù),從而調(diào)整風力發(fā)電機的工作數(shù)據(jù),以避免限功率的發(fā)生?,F(xiàn)有的分類方法包括獲取未確定分類結果的待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本(即限功率數(shù)據(jù)和非限功率數(shù)據(jù)),并將數(shù)據(jù)分類樣本代入svm(supportvectormachine,支持向量機)模型中進行訓練得到訓練后的分類模型,通過該訓練后的分類模型對待分類數(shù)據(jù)進行分類得到初始分類結果,為了提高初始分類結果的準確率,進一步采用tsvm(transductivesupportvectormachine,直推支持向量機)方法根據(jù)預先為該待分類數(shù)據(jù)設置的分類權重對初始分類結果不斷進行迭代,直至迭代后得到的分類結果對應的目標分類權重滿足預設分類終止條件,從而提高分類結果的準確率。
但是,在對初始分類結果不斷迭代的過程中,當分類結果中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,會使得即使分類錯誤,該目標分類權重也會滿足預設分類終止條件,例如,若采集到的風力發(fā)電機的工作數(shù)據(jù)共有100個,其中限功率數(shù)據(jù)包含的數(shù)據(jù)的第一數(shù)量為95個,非限功率數(shù)據(jù)包含的數(shù)據(jù)的第二數(shù)量為5個,那么即使將該另一類數(shù)據(jù)全部錯誤劃分到該一類數(shù)據(jù)中,該數(shù)據(jù)分類結果的正確率也達到了95%(但實際分類是錯誤的),因此,采用上述分類方式在第一數(shù)量和第二數(shù)量相差較大時,數(shù)據(jù)分類結果仍然存在分類錯誤的數(shù)據(jù)。
技術實現(xiàn)要素:
為克服相關技術中存在的問題,本公開提供一種數(shù)據(jù)分類的方法和裝置。
根據(jù)本公開實施例的第一方面,提供一種數(shù)據(jù)分類的方法,所述方法包括:獲取待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本;根據(jù)所述數(shù)據(jù)分類樣本對所述待分類數(shù)據(jù)進行分類得到第一分類結果;獲取所述數(shù)據(jù)分類樣本的第一分類權重和所述待分類數(shù)據(jù)的第二分類權重,其中,所述第一分類權重表示所述數(shù)據(jù)分類樣本的分類結果的置信度,所述第二分類權重表示所述待分類數(shù)據(jù)的分類結果的置信度;根據(jù)所述第二分類權重得到對應所述第一分類結果的第三分類權重和第四分類權重;根據(jù)所述第三分類權重和所述第四分類權重得到目標分類權重;在所述目標分類權重和所述第一分類權重滿足預設分類終止條件時,確定分類完成。
可選地,所述第一分類結果包括第一類數(shù)據(jù)和第二類數(shù)據(jù),在所述根據(jù)所述第二分類權重得到對應所述第一分類結果的第三分類權重和第四分類權重前,所述方法還包括:獲取所述第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和所述第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量;計算所述第一數(shù)量和所述第二數(shù)量之間的和值;所述根據(jù)所述第二分類權重得到對應所述第一分類結果的第三分類權重和第四分類權重包括:根據(jù)所述和值以及第二分類權重得到所述第一類數(shù)據(jù)對應的第三分類權重和所述第二類數(shù)據(jù)對應的第四分類權重。
可選地,所述根據(jù)所述和值以及第二分類權重得到所述第一類數(shù)據(jù)對應的第三分類權重和所述第二類數(shù)據(jù)對應的第四分類權重包括:
通過以下公式獲取所述第三分類權重:
其中,
通過以下公式獲取所述第四分類權重:
其中,
可選地,在所述根據(jù)所述第三分類權重和所述第四分類權重得到目標分類權重前,所述方法還包括:計算所述第一數(shù)量和所述第二數(shù)量之間的差值;確定所述差值是否大于或者等于0;所述根據(jù)所述第三分類權重和所述第四分類權重得到目標分類權重包括:在所述差值大于或者等于0時,通過以下公式得到所述目標分類權重:
其中,
在所述差值小于0時,通過以下公式得到所述目標分類權重:
其中,
可選地,所述預設分類終止條件包括:根據(jù)所述目標分類權重得到的第五分類權重大于或者等于所述第一分類權重,所述第五分類權重為所述目標分類權重與預設參數(shù)的乘積,所述預設參數(shù)為大于1的數(shù)值。
可選地,所述方法還包括:在所述目標分類權重和所述第一分類權重不滿足所述預設分類終止條件時,將所述第五分類權重替換所述第二分類權重,并繼續(xù)根據(jù)所述第五分類權重對所述第一分類結果進行重新分類得到第二分類結果,并根據(jù)所述第五分類權重得到對應所述第二分類結果的第六分類權重和第七分類權重,根據(jù)所述第六分類權重和所述第七分類權重得到新的目標分類權重,直至所述新的目標分類權重和所述第一分類權重滿足預設分類終止條件。
根據(jù)本公開實施例的第二方面,提供一種數(shù)據(jù)分類的裝置,所述裝置包括:第一獲取模塊,用于獲取待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本;分類模塊,用于根據(jù)所述數(shù)據(jù)分類樣本對所述待分類數(shù)據(jù)進行分類得到第一分類結果;第二獲取模塊,用于獲取所述數(shù)據(jù)分類樣本的第一分類權重和所述待分類數(shù)據(jù)的第二分類權重,其中,所述第一分類權重表示所述數(shù)據(jù)分類樣本的分類結果的置信度,所述第二分類權重表示所述待分類數(shù)據(jù)的分類結果的置信度;第三獲取模塊,用于根據(jù)所述第二分類權重得到對應所述第一分類結果的第三分類權重和第四分類權重;第四獲取模塊,用于根據(jù)所述第三分類權重和所述第四分類權重得到目標分類權重;第一確定模塊,用于在所述目標分類權重和所述第一分類權重滿足預設分類終止條件時,確定分類完成。
可選地,所述第一分類結果包括第一類數(shù)據(jù)和第二類數(shù)據(jù),所述裝置還包括:第五獲取模塊,用于獲取所述第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和所述第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量;第一計算模塊,用于計算所述第一數(shù)量和所述第二數(shù)量之間的和值;所述第三獲取模塊,用于根據(jù)所述和值以及第二分類權重得到所述第一類數(shù)據(jù)對應的第三分類權重和所述第二類數(shù)據(jù)對應的第四分類權重。
可選地,所述第三獲取模塊,還用于通過以下公式獲取所述第三分類權重:
其中,
通過以下公式獲取所述第四分類權重:
其中,
可選地,所述裝置還包括:第二計算模塊,用于計算所述第一數(shù)量和所述第二數(shù)量之間的差值;第二確定模塊,用于確定所述差值是否大于或者等于0;該第四獲取模塊,用于在所述差值大于或者等于0時,通過以下公式得到所述目標分類權重:
其中,
在所述差值小于0時,通過以下公式得到所述目標分類權重:
其中,
可選地,所述預設分類終止條件包括:根據(jù)所述目標分類權重得到的第五分類權重大于或者等于所述第一分類權重,所述第五分類權重為所述目標分類權重與預設參數(shù)的乘積,所述預設參數(shù)為大于1的數(shù)值。
可選地,所述裝置還包括:循環(huán)模塊,用于在所述目標分類權重和所述第一分類權重不滿足所述預設分類終止條件時,將所述第五分類權重替換所述第二分類權重,并繼續(xù)根據(jù)所述第五分類權重對所述第一分類結果進行重新分類得到第二分類結果,并根據(jù)所述第五分類權重得到對應所述第二分類結果的第六分類權重和第七分類權重,根據(jù)所述第六分類權重和所述第七分類權重得到新的目標分類權重,直至所述新的目標分類權重和所述第一分類權重滿足預設分類終止條件。
通過上述技術方案,可以獲取待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本,根據(jù)該數(shù)據(jù)分類樣本對該待分類數(shù)據(jù)進行分類得到第一分類結果,獲取該數(shù)據(jù)分類樣本的第一分類權重和該待分類數(shù)據(jù)的第二分類權重,根據(jù)該第二分類權重得到對應該第一分類結果的第三分類權重和第四分類權重,根據(jù)該第三分類權重和該第四分類權重得到目標分類權重;在該目標分類權重和該第一分類權重滿足預設分類終止條件時,確定分類完成,這樣,若在分類后的第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,可以通過第一類數(shù)據(jù)對應的第三分類權重和第二類數(shù)據(jù)對應的第四分類數(shù)據(jù)得到目標分類權重,從而均衡考慮了不同分類結果對目標分類權重的影響,避免了在分類結果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,數(shù)量較多的數(shù)據(jù)在迭代過程中對目標分類權重影響較大,而造成在目標分類權重滿足預設分類終止條件時,數(shù)據(jù)分類結果仍然存在分類錯誤的數(shù)據(jù)。
本公開的其他特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。
附圖說明
附圖是用來提供對本公開的進一步理解,并且構成說明書的一部分,與下面的具體實施方式一起用于解釋本公開,但并不構成對本公開的限制。在附圖中:
圖1是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類的方法的流程圖;
圖2是根據(jù)一示例性實施例示出的另一種數(shù)據(jù)分類的方法的流程圖;
圖3是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類的方法的示意圖;
圖4是根據(jù)一示例性實施例示出的一種基于數(shù)據(jù)分類的方法構建的決策樹的示意圖;
圖5是根據(jù)一示例性實施例示出的第一種數(shù)據(jù)分類的裝置的框圖;
圖6是根據(jù)一示例性實施例示出的第二種數(shù)據(jù)分類的裝置的框圖;
圖7是根據(jù)一示例性實施例示出的第三種數(shù)據(jù)分類的裝置的框圖;
圖8是根據(jù)一示例性實施例示出的第四種數(shù)據(jù)分類的裝置的框圖。
具體實施方式
以下結合附圖對本公開的具體實施方式進行詳細說明。應當理解的是,此處所描述的具體實施方式僅用于說明和解釋本公開,并不用于限制本公開。
本公開可以應用于數(shù)據(jù)分類的場景,在該場景下,采集用于分類的工作數(shù)據(jù),該用于分類的工作數(shù)據(jù)可以包括已知分類結果的數(shù)據(jù)分類樣本和未確定分類結果的待分類數(shù)據(jù),并根據(jù)數(shù)據(jù)分類樣本對待分類數(shù)據(jù)進行分類,示例地,在風力發(fā)電領域中,數(shù)據(jù)分類樣本包括已經(jīng)確定是否會造成風力發(fā)電機限功率的工作數(shù)據(jù),如限功率數(shù)據(jù)和非限功率數(shù)據(jù),而待分類數(shù)據(jù)可以包括還未確定是否會造成風力發(fā)電機限功率的工作數(shù)據(jù),例如,若采集的工作數(shù)據(jù)包括變頻器發(fā)電機側(cè)功率為1375w,發(fā)電機轉(zhuǎn)矩為1240n·m,1號葉片角度為1.9,超速傳感器轉(zhuǎn)速為12.9m/s,發(fā)電機定子溫度為86度,機艙氣象站風速為8.9m/s,輪轂轉(zhuǎn)速為12m/s,在確定該工作數(shù)據(jù)造成風力發(fā)電機限功率時,則確定該工作數(shù)據(jù)為限功率數(shù)據(jù);又如,若采集的工作數(shù)據(jù)包括變頻器發(fā)電機側(cè)功率為1380w,發(fā)電機轉(zhuǎn)矩為1260n·m,1號葉片角度為2.3,超速傳感器轉(zhuǎn)速為14m/s,發(fā)電機定子溫度為82度,機艙氣象站風速為8.6m/s,輪轂轉(zhuǎn)速為11m/s,在確定該工作數(shù)據(jù)未造成風力發(fā)電機限功率時,則確定該工作數(shù)據(jù)為非限功率數(shù)據(jù),上述變頻器發(fā)電機側(cè)功率、發(fā)電機轉(zhuǎn)矩、1號葉片角度和超速傳感器轉(zhuǎn)速以及發(fā)電機定子溫度、機艙氣象站風速和輪轂轉(zhuǎn)速即為數(shù)據(jù)特征,這樣,當采集到待分類數(shù)據(jù)時,可通過上述限功率數(shù)據(jù)和非限功率數(shù)據(jù)對該待分類數(shù)據(jù)進行分類,從而確定該待分類數(shù)據(jù)為限功率數(shù)據(jù),還是為非限功率數(shù)據(jù),上述示例只是舉例說明,本公開對此不作限定。
現(xiàn)有技術在數(shù)據(jù)分類的過程中,在數(shù)據(jù)初始分類完成后,通過待分類數(shù)據(jù)的分類權重(本公開中為第二分類權重)對初始分類結果(本公開中為第一分類結果)進行迭代,并得到迭代后的分類結果對應的目標分類權重,該目標分類權重表示對待分類數(shù)據(jù)的初始分類結果進行迭代后得到的分類結果的置信度,當目標分類權重滿足預設分類終止條件時,確定迭代完成,進而確定分類完成,但是,當分類結果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,則確定數(shù)量較多的數(shù)據(jù)的分類結果的可信程度更高,使得目標分類權重會偏向該數(shù)量較多的數(shù)據(jù)的分類結果,造成數(shù)量較少的數(shù)據(jù)的分類結果的可信程度對目標分類權重的影響較小,導致迭代完成后的分類結果的可信程度更接近數(shù)量較多的數(shù)據(jù)的分類結果的可信程度(即數(shù)量較多的數(shù)據(jù)的分類結果對目標分類權重的影響較大),從而使得在分類完成后,分類結果中仍然存在分類錯誤的數(shù)據(jù)。
為了解決上述問題,本公開提供一種數(shù)據(jù)分類的方法和裝置,能夠?qū)⒌诙诸悪嘀匕凑粘跏挤诸惤Y果進行劃分得到第三分類權重和第四分類權重,并根據(jù)第三分類權重和第四分類權重得到目標分類權重,從而均衡考慮了不同分類結果對目標分類權重的影響,避免了在分類結果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,數(shù)量較多的數(shù)據(jù)在迭代過程中對目標分類權重影響較大,而造成在目標分類權重滿足預設分類終止條件時,數(shù)據(jù)分類結果仍然存在分類錯誤的數(shù)據(jù)。
下面通過具體實施例對本公開提供的數(shù)據(jù)分類方法進行詳細說明。
圖1是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類的方法的流程圖,如圖1所示,該方法包括以下步驟:
s101,獲取待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本。
示例地,以風力發(fā)電領域中的限功率數(shù)據(jù)和非限功率數(shù)據(jù)為例,當采集到的工作數(shù)據(jù)包括變頻器發(fā)電機側(cè)功率為1375w,發(fā)電機轉(zhuǎn)矩為1240n·m,1號葉片角度為1.9,超速傳感器轉(zhuǎn)速為12.9m/s,發(fā)電機定子溫度為86度,機艙氣象站風速為8.9m/s,輪轂轉(zhuǎn)速為12m/s時,若確定該工作數(shù)據(jù)會造成風力發(fā)電機限功率,則該工作數(shù)據(jù)為限功率數(shù)據(jù)(相當于數(shù)據(jù)分類樣本);當采集到的工作數(shù)據(jù)包括變頻器發(fā)電機側(cè)功率為1380w,發(fā)電機轉(zhuǎn)矩為1260n·m,1號葉片角度為2.3,超速傳感器轉(zhuǎn)速為14m/s,發(fā)電機定子溫度為82度,機艙氣象站風速為8.6m/s,輪轂轉(zhuǎn)速為11m/s時,若確定該工作數(shù)據(jù)未造成風力發(fā)電機限功率,則該工作數(shù)據(jù)為非限功率數(shù)據(jù)(相當于數(shù)據(jù)分類樣本);若采集到的工作數(shù)據(jù)為還未確定是否會造成風力發(fā)電機限功率的工作數(shù)據(jù),則該工作數(shù)據(jù)為待分類數(shù)據(jù)。
s102,根據(jù)該數(shù)據(jù)分類樣本對該待分類數(shù)據(jù)進行分類得到第一分類結果。
在本步驟中,將數(shù)據(jù)分類樣本代入svm模型中進行訓練得到訓練后的分類模型,通過該訓練后的分類模型對待分類數(shù)據(jù)進行初始分類得到第一分類結果,其中,svm模型是一種二類分類模型,其模型可以定義為空間上的間隔最大的線性分類器。
s103,獲取該數(shù)據(jù)分類樣本的第一分類權重和該待分類數(shù)據(jù)的第二分類權重。
在本步驟中,該第一分類權重與該第二分類權重都是預先設置的,該第一分類權重表示該數(shù)據(jù)分類樣本的分類結果的置信度,該第二分類權重表示該待分類數(shù)據(jù)的分類結果的置信度,其中,該置信度表示數(shù)據(jù)的分類結果的可信程度,即該置信度越大,則該數(shù)據(jù)的分類結果越可信,反之,該置信度越小,則該數(shù)據(jù)的分類結果越不可信。
需要說明的是,由于該數(shù)據(jù)分類樣本為已知分類結果的數(shù)據(jù),則該數(shù)據(jù)分類樣本的分類結果的可信程度較高,所以可以將第一分類權重設置的較大,而該待分類數(shù)據(jù)為未確定分類結果的數(shù)據(jù),因此,該待分類數(shù)據(jù)的分類結果的可信程度較低,所以可以將該第二分類權重設置為一個小于該第一分類權重的較小值。
s104,根據(jù)該第二分類權重得到對應該第一分類結果的第三分類權重和第四分類權重。
其中,該第一分類結果可以包括第一類數(shù)據(jù)和第二類數(shù)據(jù),在本步驟中,獲取該第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和該第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量,這樣,可以按照該第一數(shù)量和該第二數(shù)量之間的比值將該第二分類權重分成該第一類數(shù)據(jù)對應的第三分類權重和該第二類數(shù)據(jù)對應的第四分類權重。
s105,根據(jù)該第三分類權重和該第四分類權重得到目標分類權重。
在本步驟中,若該第一數(shù)量與該第二數(shù)量之間的差值大于或者等于0,則根據(jù)預設權重函數(shù)調(diào)整該第三分類權重,該目標分類權重即為該第四分類權重與調(diào)整后的第三分類權重的和值;若該第一數(shù)量與該第二數(shù)量之間的差值小于0,則根據(jù)預設權重函數(shù)調(diào)整該第四分類權重,該目標分類權重即為該第三分類權重與調(diào)整后的第四分類權重的和值。
這樣,通過調(diào)整數(shù)量較多的數(shù)據(jù)對應的分類權重,從而均衡不同分類結果對目標分類權重的影響,避免了數(shù)量較多的數(shù)據(jù)對目標分類權重的影響較大,造成在分類完成后,仍然存在分類錯誤的問題。
s106,在該目標分類權重和該第一分類權重滿足預設分類終止條件時,確定分類完成。
采用上述方法,能夠?qū)⒌诙诸悪嘀匕凑粘跏挤诸惤Y果進行劃分得到第三分類權重和第四分類權重,并根據(jù)第三分類權重和第四分類權重得到目標分類權重,從而均衡考慮了不同分類結果對目標分類權重的影響,避免了在分類結果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,數(shù)量較多的數(shù)據(jù)在迭代過程中對目標分類權重影響較大,而造成在目標分類權重滿足預設分類終止條件時,數(shù)據(jù)分類結果仍然存在分類錯誤的數(shù)據(jù)。
圖2是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類的方法的流程圖,如圖2所示,該方法包括以下步驟:
s201,獲取待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本。
其中,關于待分類數(shù)據(jù)和數(shù)據(jù)分類樣本的說明可以參考上述實施例中步驟s101的說明,此處不再贅述。
s202,根據(jù)該數(shù)據(jù)分類樣本對該待分類數(shù)據(jù)進行分類得到第一類數(shù)據(jù)和第二類數(shù)據(jù)。
在本步驟中,可以將數(shù)據(jù)分類樣本代入svm模型中進行訓練得到訓練后的分類模型,通過該訓練后的分類模型對待分類數(shù)據(jù)進行初始分類得到第一分類結果,即將該待分類數(shù)據(jù)分為第一類數(shù)據(jù)和第二類數(shù)據(jù)。
其中,svm模型是一種二類分類模型,其模型可以定義為空間上的間隔最大的線性分類器,這樣,可以將該數(shù)據(jù)分類樣本和該待分類數(shù)據(jù)映射到n維空間中,并根據(jù)該數(shù)據(jù)分類樣本獲取超平面,其中,該超平面的一邊的數(shù)據(jù)分類樣本為一類數(shù)據(jù),該超平面的另一邊的數(shù)據(jù)分類樣本為另一類數(shù)據(jù),并且該超平面將該待分類數(shù)據(jù)進行初始分類得到第一分類結果,若該待分類數(shù)據(jù)在該超平面的一邊,則該待分類數(shù)據(jù)與該超平面的一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù),即為第一類數(shù)據(jù),若該待分類數(shù)據(jù)在該超平面的另一邊,則該待分類數(shù)據(jù)與該超平面的另一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù),即為第二類數(shù)據(jù),繼續(xù)以上述風力發(fā)電為例進行說明,如圖3所示,加號表示限功率數(shù)據(jù),減號表示非限功率數(shù)據(jù),圓圈表示待分類數(shù)據(jù),圖3中的實線即為超平面,該超平面將該限功率數(shù)據(jù)和該非限功率數(shù)據(jù)劃分到該實線的兩邊,實線左邊為限功率數(shù)據(jù),實線右邊為非限功率數(shù)據(jù),此時,位于實線左邊的待分類數(shù)據(jù),則初步認為是限功率數(shù)據(jù),位于實線右邊的待分類數(shù)據(jù),則初步認為是非限功率數(shù)據(jù)。
為了方便描述,本公開實施例以將該數(shù)據(jù)分類樣本和該待分類數(shù)據(jù)映射至二維平面為例進行說明,可以采用以下方式獲取超平面:
首先,建立該超平面函數(shù)y(x)=wx+b,并假設該超平面為wx+b=0;其次,該假設的超平面將該數(shù)據(jù)分類樣本進行分類,其中,超平面的一邊的數(shù)據(jù)分類樣本中存在一個距離該超平面最近的點a,則過點a存在一個平行該超平面的第一平面wx+b=1,同樣,超平面的另一邊的數(shù)據(jù)分類樣本中存在一個距離該超平面最近的點b,則過點b存在一個平行該超平面的第二平面wx+b=-1;然后,獲取該第一平面和該第二平面之間的距離公式,如d=2/||w||,d為該第一平面與該第二平面之間的距離,由于在svm模型中,d越大則第一分類結果越準確,因此,在假設d為最大值即||w||為最小值的情況下,可以根據(jù)該距離公式和該超平面的一邊的數(shù)據(jù)分類樣本的限制條件(wx+b≥1)以及該超平面的另一邊的數(shù)據(jù)分類樣本的限制條件(wx+b≤-1)利用拉格朗日乘子法求解得到w和b的值,從而確定該超平面。
另外,在獲取到超平面后,將該待分類數(shù)據(jù)代入超平面函數(shù)y(x)=wx+b中,若y≥1,則確定該待分類數(shù)據(jù)與超平面的一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù),若y≤-1,則確定該待分類數(shù)據(jù)與超平面的另一邊的數(shù)據(jù)分類樣本為同一類數(shù)據(jù)。
s203,獲取該數(shù)據(jù)分類樣本的第一分類權重和該待分類數(shù)據(jù)的第二分類權重。
在本步驟中,該第一分類權重與該第二分類權重都是預先設置的,該第一分類權重表示該數(shù)據(jù)分類樣本的分類結果的置信度,該第二分類權重表示該待分類數(shù)據(jù)的分類結果的置信度,其中,該置信度表示數(shù)據(jù)的分類結果的可信程度,即該置信度越大,則該數(shù)據(jù)的分類結果越可信,反之,該置信度越小,則該數(shù)據(jù)的分類結果越不可信。
需要說明的是,由于該數(shù)據(jù)分類樣本為已知分類結果的數(shù)據(jù),則該數(shù)據(jù)分類樣本的分類結果的可信程度較高,所以可以將第一分類權重設置的較大,而該待分類數(shù)據(jù)為未確定分類結果的數(shù)據(jù),因此,該待分類數(shù)據(jù)的分類結果的可信程度較低,所以可以將該第二分類權重設置為一個小于該第一分類權重的較小值。示例地,可以將該第二分類權重設置為該第一分類權重的百分之一,如該第一分類權重為100,則該第二分類權重為1,上述示例只是舉例說明,本公開對此不作限定。
s204,獲取該第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和該第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量。
s205,計算該第一數(shù)量與該第二數(shù)量之間的和值。
s206,根據(jù)該和值以及該第二分類權重得到該第一類數(shù)據(jù)對應的第三分類權重和該第二類數(shù)據(jù)對應的第四分類權重。
其中,該第三分類權重可以用于表示該第一類數(shù)據(jù)的分類結果的置信度,該第四分類權重可以用于表示該第二類數(shù)據(jù)的分類結果的置信度。
在本步驟中,可以通過以下公式獲取該第三分類權重:
其中,
可以通過以下公式獲取該第四分類權重:
其中,
s207,計算該第一數(shù)量與該第二數(shù)量之間的差值。
s208,確定該差值是否大于或者等于0。
在該差值大于或者等于0時,執(zhí)行步驟s209和步驟s211;
在該差值小于0時,執(zhí)行步驟s210和步驟s211。
s209,根據(jù)該第三分類權重和第四分類權重通過第一公式得到目標分類權重。
其中,該第一公式包括:
其中,
s210,根據(jù)該第三分類權重和第四分類權重通過第二公式得到目標分類權重。
其中,該第二公式包括:
其中,
需要說明的是,隨著該第一數(shù)量與該第二數(shù)量的差值的增大,該預設權重函數(shù)趨近于0,從而該目標分類權重比該第二分類權重小,由于預設分類終止條件與該目標分類權重相關,因此,若該目標分類權重與該第二分類權重相比減小時,則在后續(xù)步驟中對該第一分類結果進行迭代時需要經(jīng)過多次迭代才可以滿足迭代終止條件(相當于增加了迭代次數(shù)),從而提高了分類結果的準確率;隨著該第一數(shù)量與該第二數(shù)量的差值的減小,該預設權重函數(shù)趨近于1,從而該目標分類權重與該第二分類權重近似相等,從而在后續(xù)步驟中對該第一分類結果進行迭代時迭代次數(shù)變化較小。
s211,確定該目標分類權重和該第一分類權重是否滿足預設分類終止條件。
其中,該預設分類終止條件可以包括:根據(jù)該目標分類權重得到的第五分類權重大于或者等于該第一分類權重,該第五分類權重為該目標分類權重與預設參數(shù)的乘積,該預設參數(shù)為大于1的數(shù)值,若該預設參數(shù)越大,則該目標分類權重增長地越快,這樣,減少了對該第一分類結果進行迭代的迭代次數(shù),使得該目標分類權重可以快速滿足預設分類終止條件,從而提高了分類效率,但是由于相應地減少了迭代次數(shù),使得分類準確率較低;相反,若該預設參數(shù)越小,則在迭代的過程中,該目標分類權重增長地越慢,這樣,增加了對該第一分類結果進行迭代的迭代次數(shù),從而提高分類準確率,但由于相應地增加了迭代次數(shù),從而降低了分類效率,因此,該預設參數(shù)可以兼顧分類效率和分類準確率進行設置,例如,該預設參數(shù)可以設置為2。
在確定該目標分類權重和該第一分類權重滿足預設分類終止條件時,執(zhí)行步驟s212;
在確定該目標分類權重和該第一分類權重不滿足預設分類終止條件時,執(zhí)行步驟s213。
s212,確定分類完成。
需要說明的是,在該分類完成后,可以根據(jù)該分類后的第一類數(shù)據(jù)和第二類數(shù)據(jù)構建分類模型,這樣,當重新獲取到一個新的待分類數(shù)據(jù)時,可以通過該分類模型對該新的待分類數(shù)據(jù)進行分類,從而得到該新的待分類數(shù)據(jù)的分類結果。
在一種可能的實現(xiàn)方式中,該分類模型可以是決策樹,可以獲取分類后的全部數(shù)據(jù)的數(shù)據(jù)特征,并通過獲取的數(shù)據(jù)特征建立該決策樹,在建立決策樹的過程中,可以獲取每個數(shù)據(jù)特征的信息熵,該信息熵越小,則對應的數(shù)據(jù)特征在決策樹中的位置越靠近根節(jié)點。
示例地,仍然以上述風力發(fā)電為例進行說明,得到的第一類數(shù)據(jù)可以是限功率數(shù)據(jù),得到的第二類數(shù)據(jù)可以是非限功率數(shù)據(jù),例如,根據(jù)該限功率數(shù)據(jù)和非限功率數(shù)據(jù)獲取的數(shù)據(jù)特征可以是變頻器發(fā)電機側(cè)功率、發(fā)電機轉(zhuǎn)矩、1號葉片角度和超速傳感器轉(zhuǎn)速以及發(fā)電機定子溫度、機艙氣象站風速和輪轂轉(zhuǎn)速,若通過計算得到該數(shù)據(jù)特征為變頻器發(fā)電機側(cè)功率的信息熵最小,則該數(shù)據(jù)特征為變頻器發(fā)電機側(cè)功率位于決策樹的根節(jié)點,此時根據(jù)該變頻器發(fā)電機側(cè)功率的范圍將該決策樹分成兩個分枝,示例地,將變頻器發(fā)電機側(cè)功率大于1373w和變頻器發(fā)電機側(cè)功率小于或者等于1373w作為兩個分枝,此時在變頻器發(fā)電機側(cè)功率大于1373w時,繼續(xù)計算滿足變頻器發(fā)電機側(cè)功率大于1373w的工作數(shù)據(jù)對應的數(shù)據(jù)特征的信息熵,將最小信息熵對應的數(shù)據(jù)特征作為分枝“變頻器發(fā)電機側(cè)功率大于1373w”的決策節(jié)點,以此類推,可以示例性地構建出如圖4所示的決策樹,當然,上述示例只是舉例說明,本公開對此不作限定。
這樣,在獲取到新的待分類數(shù)據(jù)后,可以根據(jù)該決策樹確定該新的待分類數(shù)據(jù)的類別,例如,該新的待分類數(shù)據(jù)包括:變頻器發(fā)電機側(cè)功率1388w,發(fā)電機轉(zhuǎn)矩1240n·m,1號葉片角度1.72,超速傳感器轉(zhuǎn)速14.5m/s,發(fā)電機定子溫度86℃,機艙氣象站風速9.41m/s和輪轂轉(zhuǎn)速12.21m/s,則將該待分類數(shù)據(jù)代入決策樹中,確定該變頻器發(fā)電機側(cè)功率1388w是否小于或者等于1373w,由于該變頻器發(fā)電機側(cè)功率1388w大于1373w,則如圖4所示,該新的待分類數(shù)據(jù)被劃分到該決策樹的根節(jié)點為變頻器發(fā)電機側(cè)功率的右側(cè)部分,繼續(xù)確定發(fā)電機轉(zhuǎn)矩1240n·m是否小于或者等于1255n·m,由于發(fā)電機轉(zhuǎn)矩1240n·m小于1255n·m,則該待分類數(shù)據(jù)被劃分到該決策節(jié)點為發(fā)電機轉(zhuǎn)矩的左側(cè),依次類推,可以確定該新的待分類數(shù)據(jù)為限功率數(shù)據(jù);又如,該新的待分類數(shù)據(jù)包括:變頻器發(fā)電機側(cè)功率1397w,發(fā)電機轉(zhuǎn)矩1261n·m,1號葉片角度1.83,超速傳感器轉(zhuǎn)速13.5m/s,發(fā)電機定子溫度84.5℃,機艙氣象站風速7.91m/s和輪轂轉(zhuǎn)速11.25m/s時,則將該待分類數(shù)據(jù)代入決策樹中,確定該變頻器發(fā)電機側(cè)功率1397w是否小于或者等于1373w,由于該變頻器發(fā)電機側(cè)功率1397w大于1373w,則如圖4所示,該新的待分類數(shù)據(jù)被劃分到該決策樹的根節(jié)點為變頻器發(fā)電機側(cè)功率的右側(cè)部分,繼續(xù)確定發(fā)電機轉(zhuǎn)矩1261n·m是否小于或者等于1255n·m,由于發(fā)電機轉(zhuǎn)矩1261n·m大于1255n·m,則該新的待分類數(shù)據(jù)被劃分到該決策節(jié)點為發(fā)電機轉(zhuǎn)矩的右側(cè),則確定該新的待分類數(shù)據(jù)為非限功率數(shù)據(jù),上述示例只是舉例說明,本公開對此不作限定。
此外,上述的分類是以分成兩類為例進行的說明,也可以分成更多類,如三類,此時,仍然可以采用上述數(shù)據(jù)分類的方法將待分類數(shù)據(jù)分為第一數(shù)據(jù)和第二數(shù)據(jù),其中該第一數(shù)據(jù)包括第一種類型數(shù)據(jù),該第二數(shù)據(jù)包括除該第一種類型數(shù)據(jù)外的其他數(shù)據(jù),并繼續(xù)通過上述數(shù)據(jù)分類的方法將該第二數(shù)據(jù)進行分類,直至該第二數(shù)據(jù)按照不同類型數(shù)據(jù)全部分類完成。例如,對于疾病數(shù)據(jù)的類別包括健康數(shù)據(jù),亞健康數(shù)據(jù)和疾病數(shù)據(jù)三類,則可以通過上述數(shù)據(jù)分類的方法將待分類數(shù)據(jù)分為第一數(shù)據(jù)(包括疾病數(shù)據(jù))和第二數(shù)據(jù)(包括健康數(shù)據(jù)和亞健康數(shù)據(jù)),再繼續(xù)通過數(shù)據(jù)分類的方法將該第二數(shù)據(jù)進行分類,分成第三數(shù)據(jù)(包括健康數(shù)據(jù))和第四數(shù)據(jù)(包括亞健康數(shù)據(jù)),上述示例只是舉例說明,本公開對此不作限定。
s213,將該第五分類權重替換該第二分類權重,并繼續(xù)根據(jù)該第五分類權重對該第一分類結果進行重新分類得到第二分類結果,并根據(jù)該第五分類權重得到對應該第二分類結果的第六分類權重和第七分類權重,根據(jù)該第六分類權重和該第七分類權重得到新的目標分類權重,直至該新的目標分類權重和該第一分類權重滿足預設分類終止條件。
在本步驟中,根據(jù)該第五分類權重對該第一分類結果進行重新分類得到第二分類結果的過程如下:
由上述步驟s202可知該第一分類結果是在只考慮該數(shù)據(jù)分類樣本的情況下確定的該超平面,導致該第一分類結果可能不準確,因此,為了提高第一分類結果的準確率,可以引入松弛變量以減小初始分類導致的誤差,此時,可以根據(jù)該松弛變量以及該待分類數(shù)據(jù)和該數(shù)據(jù)分類樣本的限制條件重新獲取新的超平面,示例地,以該待分類數(shù)據(jù)的限制條件為例進行說明,若該待分類數(shù)據(jù)經(jīng)過初始分類后被劃分到超平面的一邊,則該超平面的一邊的待分類數(shù)據(jù)的限制條件為:
當獲取到該限制條件后,可以根據(jù)該第一分類權重和該第五分類權重以及該松弛變量得到目標函數(shù)
其中,根據(jù)該新的超平面將該待分類數(shù)據(jù)重新進行分類得到待確定分類結果,但是該待確定分類結果中可能仍然存在明顯分類錯誤的數(shù)據(jù),為了提高分類準確率,在一種可能的實現(xiàn)方式中,可以通過以下方式確定該待確定分類結果中是否存在明顯分類錯誤的數(shù)據(jù):
首先,分別獲取新的超平面的一邊的每個待分類數(shù)據(jù)的第一目標松弛變量
其次,計算
再次,確定
最后,在確定
其中,該預設閾值可以取值為2,在確定該待確定分類結果中存在明顯分類錯誤的數(shù)據(jù)后,交換該
采用上述方法,能夠?qū)⒌诙诸悪嘀匕凑粘跏挤诸惤Y果進行劃分得到第三分類權重和第四分類權重,并根據(jù)第三分類權重和第四分類權重得到目標分類權重,從而均衡考慮了不同分類結果對目標分類權重的影響,避免了在分類結果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,數(shù)量較多的數(shù)據(jù)在迭代過程中對目標分類權重影響較大,而造成在目標分類權重滿足預設分類終止條件時,數(shù)據(jù)分類結果仍然存在分類錯誤的數(shù)據(jù)。
圖5是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類的裝置的框圖,參照圖5,該裝置包括第一獲取模塊501,分類模塊502,第二獲取模塊503,第三獲取模塊504和第四獲取模塊505以及第一確定模塊506。
該第一獲取模塊501,用于獲取待分類數(shù)據(jù)以及已知分類結果的數(shù)據(jù)分類樣本;
該分類模塊502,用于根據(jù)該數(shù)據(jù)分類樣本對該待分類數(shù)據(jù)進行分類得到第一分類結果;
該第二獲取模塊503,用于獲取該數(shù)據(jù)分類樣本的第一分類權重和該待分類數(shù)據(jù)的第二分類權重,其中,該第一分類權重表示該數(shù)據(jù)分類樣本的分類結果的置信度,該第二分類權重表示該待分類數(shù)據(jù)的分類結果的置信度;
該第三獲取模塊504,用于根據(jù)該第二分類權重得到對應該第一分類結果的第三分類權重和第四分類權重;
該第四獲取模塊505,用于根據(jù)該第三分類權重和該第四分類權重得到目標分類權重;
該第一確定模塊506,用于在該目標分類權重和該第一分類權重滿足預設分類終止條件時,確定分類完成。
可選地,圖6是圖5所示實施例示出的一種數(shù)據(jù)分類的裝置的框圖,該第一分類結果包括第一類數(shù)據(jù)和第二類數(shù)據(jù),該裝置還包括:
第五獲取模塊507,用于獲取該第一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量和該第二類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量;
第一計算模塊508,用于計算該第一數(shù)量和該第二數(shù)量之間的和值;
該第三獲取模塊504,用于根據(jù)該和值以及第二分類權重得到該第一類數(shù)據(jù)對應的第三分類權重和該第二類數(shù)據(jù)對應的第四分類權重。
可選地,該第三獲取模塊504,用于通過以下公式獲取該第三分類權重:
其中,
通過以下公式獲取該第四分類權重:
其中,
可選地,圖7是圖6所示實施例示出的一種數(shù)據(jù)分類的裝置的框圖,該裝置還包括:
第二計算模塊509,用于計算該第一數(shù)量和該第二數(shù)量之間的差值;
第二確定模塊510,用于確定該差值是否大于或者等于0;
第四獲取模塊505,用于在該差值大于或者等于0時,通過以下公式得到該目標分類權重:
其中,
在該差值小于0時,通過以下公式得到該目標分類權重:
其中,
可選地,該預設分類終止條件包括:根據(jù)該目標分類權重得到的第五分類權重大于或者等于該第一分類權重,該第五分類權重為該目標分類權重與預設參數(shù)的乘積,該預設參數(shù)為大于1的數(shù)值。
可選地,圖8是圖5所示實施例示出的一種數(shù)據(jù)分類的裝置的框圖,該裝置還包括:
循環(huán)模塊511,用于在該目標分類權重和該第一分類權重不滿足該預設分類終止條件時,將該第五分類權重替換該第二分類權重,并繼續(xù)根據(jù)該第五分類權重對該第一分類結果進行重新分類得到第二分類結果,并根據(jù)該第五分類權重得到對應該第二分類結果的第六分類權重和第七分類權重,根據(jù)該第六分類權重和該第七分類權重得到新的目標分類權重,直至該新的目標分類權重和該第一分類權重滿足預設分類終止條件。
采用上述裝置,能夠?qū)⒌诙诸悪嘀匕凑粘跏挤诸惤Y果進行劃分得到第三分類權重和第四分類權重,并根據(jù)第三分類權重和第四分類權重得到目標分類權重,從而均衡考慮了不同分類結果對目標分類權重的影響,避免了在分類結果中其中一類數(shù)據(jù)包括的數(shù)據(jù)的第一數(shù)量與另一類數(shù)據(jù)包括的數(shù)據(jù)的第二數(shù)量相差較大時,數(shù)量較多的數(shù)據(jù)在迭代過程中對目標分類權重影響較大,而造成在目標分類權重滿足預設分類終止條件時,數(shù)據(jù)分類結果仍然存在分類錯誤的數(shù)據(jù)。
以上結合附圖詳細描述了本公開的優(yōu)選實施方式,但是,本公開并不限于上述實施方式中的具體細節(jié),在本公開的技術構思范圍內(nèi),可以對本公開的技術方案進行多種簡單變型,這些簡單變型均屬于本公開的保護范圍。
另外需要說明的是,在上述具體實施方式中所描述的各個具體技術特征,在不矛盾的情況下,可以通過任何合適的方式進行組合,為了避免不必要的重復,本公開對各種可能的組合方式不再另行說明。
此外,本公開的各種不同的實施方式之間也可以進行任意組合,只要其不違背本公開的思想,其同樣應當視為本公開所公開的內(nèi)容。