1.一種短信類型判別方法,其特征在于,包括:
獲取待檢測(cè)短信;
判斷所述待檢測(cè)短信是否與預(yù)先創(chuàng)建的白模版集中的任一白模版相匹配;其中,所述白模版集中的每一白模版均為對(duì)容易被誤判短信類型的歷史正常短信進(jìn)行固定語(yǔ)句提取后得到的模版;
若判定出所述待檢測(cè)短信與所述白模版集中的任一白模版相匹配,則確定所述待檢測(cè)短信的短信類型為正常短信;
若判定出所述待檢測(cè)短信與所述白模版集中的任一白模版均不匹配,則利用預(yù)先獲取的垃圾短信集判斷所述待檢測(cè)短信的短信類型是否為垃圾短信。
2.根據(jù)權(quán)利要求1所述的短信類型判別方法,其特征在于,所述白模版集的創(chuàng)建過(guò)程,具體包括:
獲取用戶上傳的容易被誤判短信類型的歷史正常短信,得到相應(yīng)的正常短信集;
分別從所述正常短信集中的每一正常短信中提取能反映出該正常短信的短信特征的固定語(yǔ)句,得到所述白模版集;其中,所述白模版集中的每個(gè)白模版與所述正常短信集中的每一正常短信分別一一對(duì)應(yīng),并且每個(gè)白模版中均包括至少一句固定語(yǔ)句。
3.根據(jù)權(quán)利要求2所述的短信類型判別方法,其特征在于,所述獲取用戶上傳的容易被誤判短信類型的歷史正常短信的過(guò)程,包括:
獲取管理員用戶和/或普通用戶上傳的容易被誤判短信類型的歷史正常短信。
4.根據(jù)權(quán)利要求2所述的短信類型判別方法,其特征在于,所述判斷所述待檢測(cè)短信是否與預(yù)先創(chuàng)建的白模版集中的任一白模版相匹配的過(guò)程,包括:
利用所述待檢測(cè)短信,對(duì)預(yù)先創(chuàng)建的與所述白模版集對(duì)應(yīng)的哈希表森林?jǐn)?shù)據(jù)結(jié)構(gòu)按照由高層至低層的順序進(jìn)行逐字檢索,得到與所述待檢測(cè)短信對(duì)應(yīng)的固定語(yǔ)句集;
利用所述固定語(yǔ)句集,對(duì)所述白模版集展開篩選操作,以試圖從所述白模版集中篩選出與所述固定語(yǔ)句集完全匹配的目標(biāo)白模版;其中,目標(biāo)白模版為所述白模版集中包含所述固定語(yǔ)句集的所有固定語(yǔ)句的一個(gè)白模版;
若從所述白模版集中篩選到目標(biāo)白模版,則判定所述待檢測(cè)短信與該目標(biāo)白模版相匹配;
若從所述白模版集中未能篩選到目標(biāo)白模版,則判定所述待檢測(cè)短信與所述白模版集中的任一白模版均不匹配。
5.根據(jù)權(quán)利要求4所述的短信類型判別方法,其特征在于,所述哈希表森林?jǐn)?shù)據(jù)結(jié)構(gòu)的創(chuàng)建過(guò)程,包括:
為所述白模版集的每個(gè)白模版中的每句固定語(yǔ)句均創(chuàng)建相應(yīng)的鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu),得到與所述白模版集中的所有固定語(yǔ)句對(duì)應(yīng)的鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)集合;其中,任一鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)中的任一存儲(chǔ)單元用來(lái)存儲(chǔ)相應(yīng)固定語(yǔ)句中的一個(gè)漢字;
對(duì)所述鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)集合中的所有鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)進(jìn)行結(jié)構(gòu)排序,得到所述哈希表森林結(jié)構(gòu);其中,每一鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)中的第一個(gè)漢字均位于所述哈希表森林結(jié)構(gòu)的最高層,每一鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)中的其余漢字均依序分布在所述哈希表森林結(jié)構(gòu)的其余層。
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的短信類型判別方法,其特征在于,所述利用預(yù)先獲取的垃圾短信集判斷所述待檢測(cè)短信的短信類型是否為垃圾短信的過(guò)程,包括:
分別從所述垃圾短信集中的每一垃圾短信中提取能反映出該垃圾短信的短信特征的固定語(yǔ)句,得到相應(yīng)的黑模版集;其中,所述黑模版集中的每個(gè)黑模版與所述垃圾短信集中的每一垃圾短信分別一一對(duì)應(yīng),并且每個(gè)黑模版中均包括至少一句固定語(yǔ)句;
判斷所述待檢測(cè)短信是否與所述黑模版集中的任一黑模版相匹配,如果是,則確定所述待檢測(cè)短信的短信類型為垃圾短信,如果否,則確定所述待檢測(cè)短信的短信類型為正常短信。
7.一種短信類型判別系統(tǒng),其特征在于,包括:
第一獲取模塊,用于獲取待檢測(cè)短信;
白模版集創(chuàng)建模塊,用于預(yù)先創(chuàng)建白模版集;其中,所述白模版集中的每一白模版均為對(duì)容易被誤判短信類型的歷史正常短信進(jìn)行固定語(yǔ)句提取后得到的模版;
第一判斷模塊,用于判斷所述待檢測(cè)短信是否與所述白模版集中的任一白模版相匹配;
第一確定模塊,用于當(dāng)所述第一判斷模塊判定出所述待檢測(cè)短信與所述白模版集中的任一白模版相匹配,則確定所述待檢測(cè)短信的短信類型為正常短信;
第二獲取模塊,用于預(yù)先獲取垃圾短信集;
第二判斷模塊,用于當(dāng)所述第一判斷模塊判定出所述待檢測(cè)短信與所述白模版集中的任一白模版均不匹配,則利用所述垃圾短信集判斷所述待檢測(cè)短信的短信類型是否為垃圾短信。
8.根據(jù)權(quán)利要求7所述的短信類型判別系統(tǒng),其特征在于,所述白模版集創(chuàng)建模塊,包括:
歷史正常短信獲取單元,用于獲取用戶上傳的容易被誤判短信類型的歷史正常短信,得到相應(yīng)的正常短信集;
固定語(yǔ)句提取單元,用于分別從所述正常短信集中的每一正常短信中提取能反映出該正常短信的短信特征的固定語(yǔ)句,得到所述白模版集;其中,所述白模版集中的每個(gè)白模版與所述正常短信集中的每一正常短信分別一一對(duì)應(yīng),并且每個(gè)白模版中均包括至少一句固定語(yǔ)句。
9.根據(jù)權(quán)利要求8所述的短信類型判別系統(tǒng),其特征在于,所述第一判斷模塊,包括:
結(jié)構(gòu)創(chuàng)建子模塊,用于預(yù)先創(chuàng)建與所述白模版集對(duì)應(yīng)的哈希表森林?jǐn)?shù)據(jù)結(jié)構(gòu);
檢索子模塊,用于利用所述待檢測(cè)短信,對(duì)所述哈希表森林?jǐn)?shù)據(jù)結(jié)構(gòu)按照由高層至低層的順序進(jìn)行逐字檢索,得到與所述待檢測(cè)短信對(duì)應(yīng)的固定語(yǔ)句集;
篩選子模塊,用于利用所述固定語(yǔ)句集,對(duì)所述白模版集展開篩選操作,以試圖從所述白模版集中篩選出與所述固定語(yǔ)句集完全匹配的目標(biāo)白模版;其中,目標(biāo)白模版為所述白模版集中包含所述固定語(yǔ)句集的所有固定語(yǔ)句的一個(gè)白模版;
第一判定子模塊,用于當(dāng)所述篩選子模塊從所述白模版集中篩選到目標(biāo)白模版,則判定所述待檢測(cè)短信與該目標(biāo)白模版相匹配;
第二判定子模塊,用于當(dāng)所述篩選子模塊從所述白模版集中未能篩選到目標(biāo)白模版,則判定所述待檢測(cè)短信與所述白模版集中的任一白模版均不匹配。
10.根據(jù)權(quán)利要求9所述的短信類型判別系統(tǒng),其特征在于,所述結(jié)構(gòu)創(chuàng)建子模塊,包括:
結(jié)構(gòu)創(chuàng)建單元,用于為所述白模版集的每個(gè)白模版中的每句固定語(yǔ)句均創(chuàng)建相應(yīng)的鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu),得到與所述白模版集中的所有固定語(yǔ)句對(duì)應(yīng)的鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)集合;其中,任一鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)中的任一存儲(chǔ)單元用來(lái)存儲(chǔ)相應(yīng)固定語(yǔ)句中的一個(gè)漢字;
結(jié)構(gòu)排序單元,用于對(duì)所述鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)集合中的所有鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)進(jìn)行結(jié)構(gòu)排序,得到所述哈希表森林結(jié)構(gòu);其中,每一鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)中的第一個(gè)漢字均位于所述哈希表森林結(jié)構(gòu)的最高層,每一鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)中的其余漢字均依序分布在所述哈希表森林結(jié)構(gòu)的其余層。
11.一種短信管理平臺(tái),其特征在于,包括如權(quán)利要求7至10任一項(xiàng)所述的短信類型判別系統(tǒng)。