一種自動構建分類模板方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種自動構建分類模板方法及系統(tǒng),上述方法包括以下步驟:樣本分組模塊按照預設分組策略將所有樣本分配至不同組并將分組結果發(fā)送至樣本約減模塊;樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減并將約減結果發(fā)送至模板生成模塊;模板生成模塊將組內剩余樣本數據按照預設模板生成策略,獲取模板數據并將所述模板數據發(fā)送至模板篩選模塊;模板篩選模塊按照預設模板篩選策略,刪除對應的模板數據后,獲得目標模板數據并將所述目標模板數據發(fā)送至模板類別標記模塊;模板類別標記模塊對目標模板數據標記對應的模板類別,能夠有效地從中構建作為分類標準的模板數據。
【專利說明】一種自動構建分類模板方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明屬于數據分類領域,尤其涉及一種自動構建分類模板方法及系統(tǒng)。
【背景技術】
[0002]分類問題是數據挖掘、機器學習和模式識別中一個重要的研宄內容,分類算法通過對已知類別訓練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預測新數據的類別。基于模板匹配的分類方法計算待測樣本和所有模板的距離,取距離最小的一個模板的類別作為待測樣本的類別。因此,模板的構建是此類算法非常重要的一個步驟,同時,分類性能很大程度上依賴于模板庫質量。
[0003]因此,如何構建高質量的模板數據是亟需解決的技術問題。
【發(fā)明內容】
[0004]本發(fā)明提供一種自動構建分類模板方法及系統(tǒng),以解決上述問題。
[0005]本發(fā)明提供一種自動構建分類模板方法。上述方法包括以下步驟:
[0006]樣本分組模塊按照預設分組策略將所有樣本分配至不同組并將分組結果發(fā)送至樣本約減模塊;
[0007]所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減并將約減結果發(fā)送至模板生成模塊;
[0008]所述模板生成模塊將組內剩余樣本數據按照預設模板生成策略,獲取模板數據并將所述模板數據發(fā)送至模板篩選模塊;
[0009]所述模板篩選模塊按照預設模板篩選策略,刪除對應的模板數據后,獲得目標模板數據并將所述目標模板數據發(fā)送至所述模板類別標記模塊;
[0010]所述模板類別標記模塊對所述目標模板數據標記對應的模板類別。
[0011]本發(fā)明還提供一種自動構建分類模板系統(tǒng),包括樣本分組模塊、樣本約減模塊、模板生成模塊、模板篩選模塊、模板類別標記模塊;其中,所述樣本分組模塊通過所述樣本約減模塊與所述模板生成模塊相連;所述樣本約減模塊通過所述模板生成模塊與所述模板篩選模塊相連;所述模板生成模塊通過所述模板篩選模塊與所述模板類別標記模塊相連。
[0012]本發(fā)明提供一種自動構建分類模板方法及系統(tǒng),針對大規(guī)模高維數據的特點,能夠有效地從中構建作為分類標準的模板數據。
【專利附圖】
【附圖說明】
[0013]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0014]圖1所示為本發(fā)明實施例1的自動構建分類模板方法流程圖;
[0015]圖2所示為本發(fā)明實施例2的自動構建分類模板系統(tǒng)結構圖。
【具體實施方式】
[0016]下文中將參考附圖并結合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0017]圖1所示為本發(fā)明實施例1的自動構建分類模板方法流程圖,包括以下步驟:
[0018]步驟101:樣本分組模塊按照預設分組策略將所有樣本分配至不同組并將分組結果發(fā)送至樣本約減模塊;
[0019]同一樣本數據分配方式包括:同一樣本分配至同一組;同一樣本分配至不同組。
[0020]樣本分組模塊按照預設分組策略將所有樣本分配至不同組的過程為:樣本分組模塊按照無監(jiān)督分組方法將所有樣本分配至不同組。
[0021]所述無監(jiān)督分組方法將樣本本身信息作為唯一分組索引。
[0022]所述無監(jiān)督分組方法采用聚類算法。
[0023]樣本分組模塊按照預設分組策略將所有樣本分配至不同組的過程為:樣本分組模塊按照半監(jiān)督分組方法將所有樣本分配至不同組。
[0024]其中,所述半監(jiān)督分組方法將樣本本身信息、樣本背景知識作為分組索引。
[0025]所述半監(jiān)督分組方法將樣本背景知識作為約束條件來約束半監(jiān)督聚類算法,或直接以背景知識作為分組索引。
[0026]步驟102:所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減并將約減結果發(fā)送至模板生成模塊;
[0027]所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減的過程為:所述樣本約減模塊依據離散數據挖掘方法或貪婪迭代方法,對不同組中的樣本進行約減。
[0028]所述離散數據挖掘方法包括離散挖掘方法、8110離散挖掘方法。
[0029]通過離散數據挖掘,篩選出不同組中的樣本孤立點,去掉該樣本孤立點的方式來提高不同分組中樣本的純度。
[0030]所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減的過程為:所述樣本約減模塊依據貪婪迭代方法,對不同組中的樣本進行約減。
[0031]所述樣本約減模塊依據貪婪迭代方法,對不同組中的樣本進行約減的過程為:獲取組內樣本之間的距離并與距離分布平均值加2倍方差之和進行比較,若大于距離分布平均值加2倍方差之和,則刪除所述樣本。
[0032]樣本之間距離的獲取采用歐氏距離、曼哈頓距離或余弦距離。
[0033]樣本分組及距離計算時,預先對原始樣本數據進行特征變換或篩選。
[0034]樣本約減的目的是去掉每個組中的雜質數據,保證組中樣本純度;組中樣本純度是指樣本的距離,其中,平均距離越小,則樣本純度越高。
[0035]步驟103:所述模板生成模塊將組內剩余樣本數據按照預設模板生成策略,獲取模板數據并將所述模板數據發(fā)送至模板篩選模塊;
[0036]所述模板生成模塊將組內剩余樣本數據按照預設模板生成策略,獲取模板數據的過程為:
[0037]所述模板生成模塊將組內剩余樣本數據進行歸一化,選擇方差貢獻率大于預設值的樣本數據進行重建;
[0038]以重建后的樣本數據為信號數據,對重建前的歸一化樣本數據計算信噪比;
[0039]將所述信噪比作為權重,加權平均組內所有剩余樣本數據后,獲得平均數據即為本組的模板數據。
[0040]步驟104:所述模板篩選模塊按照預設模板篩選策略,刪除對應的模板數據后,獲得目標模板數據并將所述目標模板數據發(fā)送至所述模板類別標記模塊;
[0041]所述模板篩選模塊按照預設模板篩選策略,刪除對應的模板數據的過程為:
[0042]所述模板篩選模塊刪除數據缺失的模板數據、數據無法提取的模板數據。
[0043]步驟105:所述模板類別標記模塊對所述目標模板數據標記對應的模板類別。
[0044]圖2所示為本發(fā)明實施例2的自動構建分類模板系統(tǒng)結構圖,包括樣本分組模塊、樣本約減模塊、模板生成模塊、模板篩選模塊、模板類別標記模塊;其中,所述樣本分組模塊通過所述樣本約減模塊與所述模板生成模塊相連;所述樣本約減模塊通過所述模板生成模塊與所述模板篩選模塊相連;所述模板生成模塊通過所述模板篩選模塊與所述模板類別標記模塊相連。
[0045]所述樣本分組模塊、所述樣本約減模塊、所述模板生成模塊、所述模板篩選模塊、所述類別標記模塊的開發(fā)均采用拓妨編程語言4++編程語言或718皿1 88810編程語言。
[0046]樣本分組模塊,用于按照預設分組策略將所有樣本分配至不同組并將分組結果發(fā)送至樣本約減模塊;
[0047]所述樣本約減模塊,用于按照預設約減策略,對不同組中的樣本進行約減并將約減結果發(fā)送至模板生成模塊;
[0048]所述模板生成模塊,用于將組內剩余樣本數據按照預設模板生成策略,獲取模板數據并將所述模板數據發(fā)送至模板篩選模塊;
[0049]所述模板篩選模塊,用于按照預設模板篩選策略,刪除對應的模板數據后,獲得目標模板數據并將所述目標模板數據發(fā)送至所述模板類別標記模塊;
[0050]所述模板類別標記模塊,用于對所述目標模板數據標記對應的模板類別。
[0051]本發(fā)明提供一種自動構建分類模板方法及系統(tǒng),針對大規(guī)模高維數據的特點,能夠有效地從中構建作為分類標準的模板數據。
[0052]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種自動構建分類模板方法,其特征在于,包括以下步驟: 樣本分組模塊按照預設分組策略將所有樣本分配至不同組并將分組結果發(fā)送至樣本約減模塊; 所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減并將約減結果發(fā)送至模板生成模塊; 所述模板生成模塊將組內剩余樣本數據按照預設模板生成策略,獲取模板數據并將所述模板數據發(fā)送至模板篩選模塊; 所述模板篩選模塊按照預設模板篩選策略,刪除對應的模板數據后,獲得目標模板數據并將所述目標模板數據發(fā)送至所述模板類別標記模塊; 所述模板類別標記模塊對所述目標模板數據標記對應的模板類別。
2.根據權利要求1所述的方法,其特征在于,樣本分組模塊按照預設分組策略將所有樣本分配至不同組的過程為:樣本分組模塊按照無監(jiān)督分組方法將所有樣本分配至不同組,其中,所述無監(jiān)督分組方法將樣本本身信息作為唯一分組索引。
3.根據權利要求1所述的方法,其特征在于,樣本分組模塊按照預設分組策略將所有樣本分配至不同組的過程為:樣本分組模塊按照半監(jiān)督分組方法將所有樣本分配至不同組,其中,所述半監(jiān)督分組方法將樣本本身信息、樣本背景知識作為分組索引。
4.根據權利要求1所述的方法,其特征在于,所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減的過程為:所述樣本約減模塊依據離散數據挖掘方法,對不同組中的樣本進行約減,其中,所述離散數據挖掘方法包括:New-BMIC離散挖掘方法、BMIC離散挖掘方法。
5.根據權利要求1所述的方法,其特征在于,所述樣本約減模塊按照預設約減策略,對不同組中的樣本進行約減的過程為:所述樣本約減模塊依據貪婪迭代方法,對不同組中的樣本進行約減。
6.根據權利要求5所述的方法,其特征在于,所述樣本約減模塊依據貪婪迭代方法,對不同組中的樣本進行約減的過程為:獲取組內樣本之間的距離并與距離分布平均值加2倍方差之和進行比較,若大于距離分布平均值加2倍方差之和,則刪除所述樣本。
7.根據權利要求1所述的方法,其特征在于,所述模板生成模塊將組內剩余樣本數據按照預設模板生成策略,獲取模板數據的過程為: 所述模板生成模塊將組內剩余樣本數據進行歸一化,選擇方差貢獻率大于預設值的樣本數據進行重建; 以重建后的樣本數據為信號數據,對重建前的歸一化樣本數據計算信噪比; 將所述信噪比作為權重,加權平均組內所有剩余樣本數據后,獲得平均數據即為本組的模板數據。
8.根據權利要求1所述的方法,其特征在于,所述模板篩選模塊按照預設模板篩選策略,刪除對應的模板數據的過程為: 所述模板篩選模塊刪除數據缺失的模板數據、數據無法提取的模板數據。
9.一種自動構建分類模板系統(tǒng),其特征在于,包括樣本分組模塊、樣本約減模塊、模板生成模塊、模板篩選模塊、模板類別標記模塊;其中,所述樣本分組模塊通過所述樣本約減模塊與所述模板生成模塊相連;所述樣本約減模塊通過所述模板生成模塊與所述模板篩選模塊相連;所述模板生成模塊通過所述模板篩選模塊與所述模板類別標記模塊相連。
10.根據權利要求9所述的系統(tǒng),其特征在于, 樣本分組模塊,用于按照預設分組策略將所有樣本分配至不同組并將分組結果發(fā)送至樣本約減模塊; 所述樣本約減模塊,用于按照預設約減策略,對不同組中的樣本進行約減并將約減結果發(fā)送至模板生成模塊; 所述模板生成模塊,用于將組內剩余樣本數據按照預設模板生成策略,獲取模板數據并將所述模板數據發(fā)送至模板篩選模塊; 所述模板篩選模塊,用于按照預設模板篩選策略,刪除對應的模板數據后,獲得目標模板數據并將所述目標模板數據發(fā)送至所述模板類別標記模塊; 所述模板類別標記模塊,用于對所述目標模板數據標記對應的模板類別。
【文檔編號】G06F17/30GK104504148SQ201510005053
【公開日】2015年4月8日 申請日期:2015年1月5日 優(yōu)先權日:2015年1月5日
【發(fā)明者】韋鵬, 付興旺, 吳楠 申請人:浪潮(北京)電子信息產業(yè)有限公司