技術總結
本發(fā)明提出了一種基于機器學習的數(shù)據(jù)分類方法,包括如下步驟:S11,基于學習數(shù)據(jù)確定每種數(shù)據(jù)對應的第一特征詞群;S12,根據(jù)特征詞對學習數(shù)據(jù)進行分類;S13,判斷學習數(shù)據(jù)的分類是否正確,如果是,至步驟S15;如果否,調整第一特征詞群,至步驟S12;S15,基于第一特征詞群建立數(shù)據(jù)分類模型;一種基于機器學習的數(shù)據(jù)分類設備包括第一特征詞群確定模塊、第一數(shù)據(jù)分類模塊、判斷分類模塊、第二特征詞群確定模塊、建模模塊。本發(fā)明對文件內容進行切詞處理,采用TFIDF算法,算出詞的權重,然后計算文件相似度,將同類文件進行聚類。特征詞提取。特征詞不同于關鍵字,特征詞更具代表性,更適合作為敏感信息,來與其他類加以區(qū)分。
技術研發(fā)人員:李洋;張志勇;高政偉
受保護的技術使用者:上海上訊信息技術股份有限公司
文檔號碼:201710051325
技術研發(fā)日:2017.01.23
技術公布日:2017.06.09