技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,具體涉及識(shí)別垃圾短信的方法、客戶端、云端服務(wù)器和系統(tǒng)。
背景技術(shù):
隨著移動(dòng)通信技術(shù)的發(fā)展、移動(dòng)設(shè)備的普及和短信資費(fèi)的下降,短信成為移動(dòng)終端之間進(jìn)行信息傳遞的重要方法之一。用戶在享受短信通信帶來的便捷時(shí),卻也遭受到一些廣告短信、詐騙短信等垃圾短信的騷擾,這些垃圾短信影響到用戶的短信使用體驗(yàn),給用戶的人身、信息、財(cái)產(chǎn)安全帶來隱患。因此,對垃圾短信的識(shí)別和攔截是亟待解決的問題。
現(xiàn)有技術(shù)中,對垃圾短信的識(shí)別往往通過將短信的內(nèi)容直接上傳到服務(wù)器,由服務(wù)器對該短信的內(nèi)容進(jìn)行識(shí)別,將識(shí)別結(jié)果返回給移動(dòng)終端,如果該短信為垃圾短信,則移動(dòng)終端對該短信進(jìn)行攔截或者對用戶進(jìn)行提示。
該方案存在的問題是:1、短信的內(nèi)容往往涉及到用戶的個(gè)人信息,在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器侵犯了用戶的個(gè)人隱私,對用戶的信息安全造成了損害。2、移動(dòng)終端每次接收到短信時(shí),將短信的內(nèi)容上傳給服務(wù)器,該過程往往耗費(fèi)相當(dāng)?shù)木W(wǎng)絡(luò)流量,且處理速度受到移動(dòng)終端所處的網(wǎng)絡(luò)狀態(tài)的限制,不符合用戶需求。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種識(shí)別垃圾短信的方法、客戶端、云端服務(wù)器和系統(tǒng)。
依據(jù)本發(fā)明的一個(gè)方面,提供了一種識(shí)別垃圾短信的方法,該方法包括:
對移動(dòng)終端中的短信接收事件進(jìn)行檢測;
當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值;
將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器,并接收所述云端服務(wù)器返回的識(shí)別信息;
根據(jù)所述識(shí)別信息確定所述短信是否為垃圾短信。
可選地,所述計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值包括:
對所述短信的內(nèi)容進(jìn)行分詞處理;
對分詞后的各個(gè)詞賦予不同的向量值,匯總計(jì)算得到所述短信的內(nèi)容對應(yīng)的simhash值。
可選地,該方法進(jìn)一步包括:
當(dāng)所述移動(dòng)終端接收到短信時(shí),先根據(jù)移動(dòng)終端的本地規(guī)則判斷所述短信是否為白短信;
如果不是,則執(zhí)行所述計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值,以及將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器的后續(xù)處理;
如果是,則不再進(jìn)行后續(xù)的處理。
可選地,所述先根據(jù)移動(dòng)終端的本地規(guī)則判斷所述短信是否為白短信包括如下一種或多種判斷方法:
根據(jù)移動(dòng)終端本地的電話號(hào)碼白名單判斷發(fā)送所述短信的源號(hào)碼是否在所述電話號(hào)碼白名單中,是則所述短信為白短信;
在移動(dòng)終端本地對短信的內(nèi)容進(jìn)行分詞處理,利用貝葉斯算法計(jì)算分詞后的各個(gè)詞屬于垃圾短信的概率,匯總計(jì)算得到該短信是垃圾短信的概率,判斷該概率是否小于一個(gè)預(yù)設(shè)值,是則該短信為白短信;
在移動(dòng)終端本地計(jì)算短信的內(nèi)容對應(yīng)的哈希值,再根據(jù)移動(dòng)終端本地的哈希值白名單判斷該短信的內(nèi)容對應(yīng)的哈希值是否在哈希值白名單中,是則該短信為白短信。
可選地,該方法進(jìn)一步包括:
在第一次啟動(dòng)時(shí)彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器;
如果用戶選擇了同意,則當(dāng)所述移動(dòng)終端接收到短信時(shí),直接將所述短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識(shí)別;
如果用戶選擇了不同意,則當(dāng)所述移動(dòng)終端接收到短信時(shí),執(zhí)行所述計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值,以及將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器的后續(xù)步驟。
可選地,該方法進(jìn)一步包括:
當(dāng)確定所述短信是垃圾短信時(shí),對所述短信進(jìn)行攔截處理。
依據(jù)本發(fā)明的另一個(gè)方面,提供了一種識(shí)別垃圾短信的方法,該方法包括:
接收客戶端側(cè)上傳的短信的內(nèi)容對應(yīng)的哈希值;
將所述短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配;其中,所述哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識(shí)別信息;
將從哈希值庫中匹配到的哈希值對應(yīng)的識(shí)別信息返回給所述客戶端。
可選地,所述短信的內(nèi)容對應(yīng)的哈希值為所述短信的內(nèi)容對應(yīng)的simhash值。
可選地,該方法進(jìn)一步包括:
接收用戶舉報(bào)的短信內(nèi)容;
對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識(shí)別,并生成對應(yīng)的simhash值,將simhash值和對應(yīng)的識(shí)別信息保存到所述哈希值庫中。
依據(jù)本發(fā)明的又一個(gè)方面,提供了一種識(shí)別垃圾短信的客戶端,該客戶端包括:
接收處理單元,適于對移動(dòng)終端中的短信接收事件進(jìn)行檢測;當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送至識(shí)別交互單元;
所述識(shí)別交互單元,適于將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器,并接收所述云端服務(wù)器返回的識(shí)別信息;根據(jù)所述識(shí)別信息確定所述短信是否為垃圾短信。
可選地,所述接收處理單元,適于對所述短信的內(nèi)容進(jìn)行分詞處理;對分詞后的各個(gè)詞賦予不同的向量值,匯總計(jì)算得到所述短信的內(nèi)容對應(yīng)的simhash值。
可選地,所述接收處理單元,進(jìn)一步適于當(dāng)所述移動(dòng)終端接收到短信時(shí),先根據(jù)移動(dòng)終端的本地規(guī)則判斷所述短信是否為白短信;如果不是,則計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送至所述識(shí)別交互單元;如果是,則不再進(jìn)行后續(xù)處理。
可選地,所述接收處理單元,適于根據(jù)如下一種或多種判斷方法判斷所述短信是否為白短信:
根據(jù)移動(dòng)終端本地的電話號(hào)碼白名單判斷發(fā)送所述短信的源號(hào)碼是否在所述電話號(hào)碼白名單中,是則所述短信為白短信;
在移動(dòng)終端本地對短信的內(nèi)容進(jìn)行分詞處理,利用貝葉斯算法計(jì)算分詞后的各個(gè)詞屬于垃圾短信的概率,匯總計(jì)算得到該短信是垃圾短信的概率,判斷該概率是否小于一個(gè)預(yù)設(shè)值,是則該短信為白短信;
在移動(dòng)終端本地計(jì)算短信的內(nèi)容對應(yīng)的哈希值,再根據(jù)移動(dòng)終端本地的哈希值白名單判斷該短信的內(nèi)容對應(yīng)的哈希值是否在哈希值白名單中,是則該短信為白短信。
可選地,該客戶端進(jìn)一步包括:
初始配置單元,適于在第一次啟動(dòng)時(shí)彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器;
所述接收處理單元,適于在用戶選擇了同意后,當(dāng)所述移動(dòng)終端接收到短信時(shí),直接將所述短信的內(nèi)容發(fā)送給所述識(shí)別交互單元;以及適于在用戶選擇了不同意后,當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送給所述識(shí)別交互單元;
所述識(shí)別交互單元,適于當(dāng)接收到所述短信的內(nèi)容時(shí),直接將所述短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識(shí)別;以及適于當(dāng)接收到所述短信的內(nèi)容對應(yīng)哈希值時(shí),執(zhí)行所述將所述短信的內(nèi)容對應(yīng)哈希值上傳到云端服務(wù)器的后續(xù)步驟。
可選地,該客戶端進(jìn)一步包括:
攔截處理單元,適于當(dāng)確定所述短信是垃圾短信時(shí),對所述短信進(jìn)行攔截處理。
依據(jù)本發(fā)明的再一個(gè)方面,提供了一種識(shí)別垃圾短信的云端服務(wù)器,該云端服務(wù)器包括:
接收單元,適于接收客戶端側(cè)上傳的短信的內(nèi)容對應(yīng)的哈希值;
識(shí)別單元,適于將所述短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配;其中,所述哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識(shí)別信息;
反饋單元,適于將從哈希值庫中匹配到的哈希值對應(yīng)的識(shí)別信息返回給所述客戶端。
可選地,所述短信的內(nèi)容對應(yīng)的哈希值為所述短信的內(nèi)容對應(yīng)的simhash值。
可選地,所述接收單元,進(jìn)一步適于接收用戶舉報(bào)的短信內(nèi)容;
所述識(shí)別單元,進(jìn)一步適于對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識(shí)別,并生成對應(yīng)的simhash值,將simhash值和對應(yīng)的識(shí)別信息保存到所述哈希值庫中。
依據(jù)本發(fā)明的又一個(gè)方面,提供了一種識(shí)別垃圾短信的系統(tǒng),其中,該系統(tǒng)包括如上任一項(xiàng)所述的識(shí)別垃圾短信的客戶端以及如上任一項(xiàng)所述的識(shí)別垃圾短信的云端服務(wù)器。
由上述可知,本發(fā)明提供的技術(shù)方案在以短信的內(nèi)容對應(yīng)哈希值為識(shí)別對象的基礎(chǔ)上進(jìn)行移動(dòng)終端本地與云端服務(wù)器的交互,實(shí)現(xiàn)了對垃圾短信的識(shí)別。該方案在保證垃圾短信識(shí)別有效性的基礎(chǔ)上,避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題,且經(jīng)過本地的計(jì)算處理后減輕了客戶端與云端服務(wù)器的交互負(fù)擔(dān)以及云端服務(wù)器的處理壓力,提高了識(shí)別效率,符合用戶需求。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的方法的流程圖;
圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種識(shí)別垃圾短信的方法的流程圖;
圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的客戶端的示意圖;
圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種識(shí)別垃圾短信的客戶端的示意圖;
圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的云端服務(wù)器的示意圖;
圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的系統(tǒng)的示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的方法的流程圖。如圖1所示,該方法包括:
步驟S110,對移動(dòng)終端中的短信接收事件進(jìn)行檢測。
步驟S120,當(dāng)移動(dòng)終端接收到短信時(shí),計(jì)算出該短信的內(nèi)容對應(yīng)哈希值。
步驟S130,將短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器,并接收云端服務(wù)器返回的識(shí)別信息。
步驟S140,根據(jù)識(shí)別信息確定短信是否為垃圾短信。
可見,圖1所示的方法從客戶端的角度描述了以短信的內(nèi)容對應(yīng)的哈希值為識(shí)別對象,客戶端與云端服務(wù)器進(jìn)行交互的過程,實(shí)現(xiàn)了對垃圾短信的識(shí)別。該方法在保證垃圾短信識(shí)別有效性的基礎(chǔ)上,避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題;且經(jīng)過本地的計(jì)算處理后減輕了客戶端與云端服務(wù)器的交互負(fù)擔(dān)以及云端服務(wù)器的處理壓力,提高了識(shí)別效率,符合用戶需求。
在本發(fā)明的一個(gè)實(shí)施例中,圖1所示的方法進(jìn)一步包括:
步驟S150,當(dāng)確定所述短信是垃圾短信時(shí),對所述短信進(jìn)行攔截處理。這里的攔截處理具體可以包括:直接刪除垃圾短信;或者將垃圾短息轉(zhuǎn)移到指定的文件夾中,等待用戶的處理;或者對用戶進(jìn)行垃圾短信的提示。
在本發(fā)明的一個(gè)實(shí)施例中,步驟S120中所述的計(jì)算出該短信的內(nèi)容對應(yīng)的哈希值是指:根據(jù)一定的傳統(tǒng)哈希算法,將該短信的內(nèi)容映射為固定長度的數(shù)值,該數(shù)值稱為哈希值,該哈希值是該短信的內(nèi)容的唯一且極其緊湊的數(shù)值表示形式。
本實(shí)施例所述的哈希算法包括:HAVAL、MD2、MD4、MD5或SHA1等,此類傳統(tǒng)哈希算法都有如下一個(gè)基本特征:在輸入域中很少出現(xiàn)散列沖突,即對于可能差距只有一個(gè)字節(jié)的文本也會(huì)映射出兩個(gè)完全不同的哈希值。
例如,兩條詐騙短信的內(nèi)容分別為:“恭喜你中了五萬元大獎(jiǎng)”和“恭喜你中了一萬元大獎(jiǎng)”,由傳統(tǒng)哈希算法計(jì)算出這兩條短信的內(nèi)容對應(yīng)哈希值分別為286和523。可以看到,兩條詐騙手段非常相似的短信所計(jì)算出的哈希值完全不同,可能導(dǎo)致后續(xù)處理中云端服務(wù)器的識(shí)別壓力過大。
因此,為了去除小范圍差異的短信的內(nèi)容對應(yīng)哈希值之間的偏差,減輕后續(xù)處理中云端服務(wù)器的識(shí)別壓力,在本發(fā)明的另一個(gè)實(shí)施例中,步驟S120中所述的計(jì)算出該短信的內(nèi)容對應(yīng)哈希值是指:計(jì)算出該短信的內(nèi)容對應(yīng)的simhash值。具體過程如下:
步驟S121,對短信的內(nèi)容進(jìn)行分詞處理。
步驟S122,對分詞后的各個(gè)詞賦予不同的向量值,匯總計(jì)算得到短信的內(nèi)容對應(yīng)的simhash值。
下面以表1和表2為例對本發(fā)明的方案進(jìn)行詳細(xì)說明。
表1
表2
表1示出了根據(jù)本發(fā)明一個(gè)具體的實(shí)施例計(jì)算短信的內(nèi)容對應(yīng)的simhash值的過程。如表1所示,在本實(shí)施例中,移動(dòng)終端接收到的短信是:“本公司代開普通發(fā)票,本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票?!?/p>
首先,初始化simhash值對應(yīng)的向量形式:A=Ao={0,0,0,0,0,0}。
接著,對該短信的內(nèi)容進(jìn)行分詞處理:本公司/代開/普通/發(fā)票/,本公司/不/代開/增值稅/專用/發(fā)票/和/專業(yè)/發(fā)票;得到分詞后的各個(gè)詞是:本公司,代開,不,增值稅,專用,發(fā)票,普通,和,專業(yè)。
根據(jù)一定的傳統(tǒng)哈希算法,分別計(jì)算出各個(gè)詞對應(yīng)的6位哈希值:本公司:100110,代開:110000,不:101111,增值稅:110001,專用:010110,發(fā)票:101011,普通:110100,和:110110,專業(yè):001001。
再計(jì)算各個(gè)詞的詞頻作為對應(yīng)的向量值,代表各個(gè)詞在短信內(nèi)容中的權(quán)重:本公司:2,代開:2,不:1,增值稅:1,專用:1,發(fā)票:3,普通:1,和:1,專業(yè):1。
構(gòu)成一個(gè)向量B:{本公司/100110/2,代開/110000/2,不/101111/1,增值稅/110001/1,專用/010110/1,發(fā)票/101011/3,普通/110100/1,和/110110/1,專業(yè)/001001/1}。
依次對向量B中的各個(gè)詞做處理,處理方式如下:對于各個(gè)詞,如果其哈希值的第i位上是“1”,則對向量A的第i維加上該詞的詞頻;如果其哈希值的第i位上是“0”,則對向量A的第i維減去該詞的詞頻。例如,對于本公司/100110/2,向量A變?yōu)閧2,-2,-2,2,2,-2};對于代開/110000/2,向量A變?yōu)閧2,2,-2,-2,-2,-2};以此類推,得到各個(gè)詞對應(yīng)的向量A,如表1中所示。
將各個(gè)詞對應(yīng)的向量A進(jìn)行匯總求和,得到向量Atotal={9,-1,-3,1,5,1},如果該向量的第i維為不為負(fù)數(shù),則令simhash值對應(yīng)向量的第i維為“1”;如果該向量的第i維為負(fù)數(shù),則令simhash值對應(yīng)向量的第i維為“0”;據(jù)此得到最終simhash值對應(yīng)向量Afinal={1,0,0,1,1,1}。
因此,短信“本公司代開普通發(fā)票,本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票。”的simhash值為100111。
表2示出了根據(jù)本發(fā)明另一個(gè)具體的實(shí)施例計(jì)算短信的內(nèi)容對應(yīng)的simhash值的過程。如表2所示,在本實(shí)施例中,移動(dòng)終端接收到的短信是:“本公司代開普通發(fā)票,本公司不代開專用發(fā)票和專業(yè)發(fā)票?!逼鋝imhash值的計(jì)算過程同理于表1,在此不再贅述。可以看到,表2中示出了匯總求和后得到向量Atotal={8,-2,-2,0,6,0},得到最終simhash值對應(yīng)向量Afinal={1,0,0,1,1,1}。因此,短信“本公司代開普通發(fā)票,本公司不代開專用發(fā)票和專業(yè)發(fā)票。”的simhash值為100111,與短信本公司代開普通發(fā)票,本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票?!钡膕imhash值相同。
由上述可知,simhash值的計(jì)算過程中,在保持各個(gè)詞權(quán)重的基礎(chǔ)上,逐漸忽略各個(gè)詞的哈希值的具體大小,而是將其匯總求和后以值的正負(fù)來區(qū)分各個(gè)詞,而往往相似的短信內(nèi)容會(huì)以其相似的文本結(jié)構(gòu)得到符號(hào)相同的求和向量Atotal,因此,相似的短信會(huì)具有相同的simhash值,克服了傳統(tǒng)哈希算法的散列問題。
在本發(fā)明的其他實(shí)施例中,可以通過其他方式對分詞后的各個(gè)詞賦予向量值。
在本發(fā)明的一個(gè)實(shí)施例中,為了進(jìn)一步提高垃圾短信的識(shí)別效率,圖1所示的方法進(jìn)一步包括:當(dāng)移動(dòng)終端接收到短信時(shí),先根據(jù)移動(dòng)終端的本地規(guī)則判斷該短信是否為白短信;如果不是,則執(zhí)行前文所述的計(jì)算出該短信的內(nèi)容對應(yīng)哈希值,以及將該短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器的后續(xù)處理;如果是,則確定該短信不是垃圾短信,不再進(jìn)行后續(xù)的處理。
具體地,根據(jù)移動(dòng)終端的本地規(guī)則判斷短信是否為白短信的方法包括:
方案1,根據(jù)移動(dòng)終端本地的電話號(hào)碼白名單判斷發(fā)送該短信的源號(hào)碼是否在電話號(hào)碼白名單中,是則該短信為白短信。其中,該電話號(hào)碼白名單是由移動(dòng)終端設(shè)本地設(shè)置的,或者,是由云端服務(wù)器下發(fā)到移動(dòng)終端本地的。進(jìn)一步地,云端服務(wù)器可以每隔一定時(shí)間對移動(dòng)終端本地的電話號(hào)碼白名單進(jìn)行更新。
方案2,在移動(dòng)終端本地對短信的內(nèi)容進(jìn)行分詞處理,利用貝葉斯算法計(jì)算分詞后的各個(gè)詞屬于白短信的概率,匯總計(jì)算得到該短信是白短信的概率,判斷該概率是否大于一個(gè)預(yù)設(shè)值,是則該短信為白短信。
具體地,針對分詞后的每個(gè)詞,可在預(yù)先訓(xùn)練的貝葉斯模型中查找與該詞匹配的特征詞,并獲取該特征詞的正向權(quán)重值和負(fù)向權(quán)重值,正向權(quán)重值作為該詞屬于白短信的概率,負(fù)向權(quán)重值作為該詞不屬于白短信的概率;根據(jù)分詞后的各個(gè)詞的屬于白短信的概率匯總計(jì)算得到短信是白短信的概率,根據(jù)分詞后的各個(gè)詞的不屬于白短信的概率匯總計(jì)算得到短信不是白短信的概率,如果該短信是白短信的概率較大且超過預(yù)設(shè)值時(shí),則該短信為白短信。其中,匯總計(jì)算方法包括各個(gè)詞的概率的權(quán)重值的加和或加權(quán)乘積,本實(shí)施例不做限定。
方案3,在移動(dòng)終端本地依據(jù)上文中所述的方法計(jì)算短信的內(nèi)容對應(yīng)的哈希值,再根據(jù)移動(dòng)終端本地的哈希值白名單判斷該短信的內(nèi)容對應(yīng)的哈希值是否在哈希值白名單中,是則該短信為白短信。其中,該哈希值白名單是由移動(dòng)終端本地設(shè)置的,或者,是由云端服務(wù)器下發(fā)到移動(dòng)終端本地的,進(jìn)一步地,云端服務(wù)器可以每隔一定時(shí)間對移動(dòng)終端本地的哈希值白名單進(jìn)行更新。其中,本方案中所述的哈希值為傳統(tǒng)哈希值或simhash值,由于傳統(tǒng)哈希值白名單中記錄了較多的哈希值,適合容量較大的移動(dòng)終端。
在進(jìn)行垃圾短信識(shí)別的過程中,用戶的意愿是選擇識(shí)別方法的重要依據(jù)之一,因此,在本發(fā)明的一個(gè)實(shí)施例中,圖1所示的方法進(jìn)一步包括:當(dāng)用戶在移動(dòng)終端第一次啟動(dòng)用于進(jìn)行垃圾短信識(shí)別的客戶端時(shí),彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器;如果用戶選擇了同意,則當(dāng)移動(dòng)終端接收到短信時(shí),直接將該短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識(shí)別;如果用戶選擇了不同意,則當(dāng)移動(dòng)終端接收到短信時(shí),執(zhí)行前文所述的計(jì)算出該短信的內(nèi)容對應(yīng)哈希值,以及將該短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器的后續(xù)步驟。本實(shí)施例從用戶的意愿出發(fā),從根本上解決了現(xiàn)有技術(shù)中存在的侵犯用戶個(gè)人隱私、危害用戶信息安全的問題。
圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種識(shí)別垃圾短信的方法的流程圖。如圖2所示,該方法包括:
步驟S210,接收客戶端側(cè)上傳的短信的內(nèi)容對應(yīng)的哈希值。
步驟S220,將該短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配。
在本步驟中,哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識(shí)別信息。在本發(fā)明的一個(gè)實(shí)施例中,該哈希值庫是云端服務(wù)器根據(jù)歷史識(shí)別記錄所設(shè)置的,云端服務(wù)器每次進(jìn)行垃圾短信的識(shí)別后,無論選取何種識(shí)別方法,均將所識(shí)別的短信的內(nèi)容、關(guān)鍵詞或哈希值等特征與識(shí)別信息對應(yīng)記錄下來,取其中的哈希值與識(shí)別信息的對應(yīng)記錄,建立哈希值庫。
步驟S230,將從哈希值庫中匹配到的哈希值對應(yīng)的識(shí)別信息返回給客戶端。
可見,圖2所示的方法描述了云端服務(wù)器接收到客戶端發(fā)來的短信的內(nèi)容對應(yīng)哈希值后,對該哈希值進(jìn)行識(shí)別并將識(shí)別信息返回給客戶端的過程。該方法在保證垃圾短信識(shí)別有效性的基礎(chǔ)上,避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題;且經(jīng)過本地的計(jì)算處理后減輕了云端服務(wù)器的處理壓力以及云端服務(wù)器與客戶端的交互負(fù)擔(dān),提高了識(shí)別效率,符合用戶需求。
在本發(fā)明的一個(gè)實(shí)施例中,云端服務(wù)器所接收到的短信的內(nèi)容對應(yīng)的哈希值為該短信的內(nèi)容對應(yīng)的simhash值,與之對應(yīng)地,云端服務(wù)器的哈希值庫具體為simhash值庫。
在本發(fā)明的一個(gè)實(shí)施例中,圖2所示的方法進(jìn)一步包括:
步驟S240,接收用戶舉報(bào)的短信內(nèi)容。
步驟S250,對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識(shí)別,并生成對應(yīng)的simhash值,將simhash值和對應(yīng)的識(shí)別信息保存到哈希值庫中。
本步驟中,由云端服務(wù)器計(jì)算短信的內(nèi)容對應(yīng)simhash值,其過程與上文中所述的客戶端計(jì)算simhash的過程類似,在此不再贅述。
圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的客戶端的示意圖。如圖3所示,該識(shí)別垃圾短信的客戶端300包括:
接收處理單元310,適于對移動(dòng)終端中的短信接收事件進(jìn)行檢測;當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出該短信的內(nèi)容對應(yīng)哈希值并發(fā)送至識(shí)別交互單元320;
識(shí)別交互單元320,適于將該短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器,并接收云端服務(wù)器返回的識(shí)別信息;根據(jù)該識(shí)別信息確定短信是否為垃圾短信。
可見,圖3所示的客戶端通過各單元的相互配合,完成了以短信的內(nèi)容對應(yīng)哈希值為識(shí)別對象,與云端服務(wù)器進(jìn)行交互的過程,實(shí)現(xiàn)了對垃圾短信的識(shí)別。該方案在保證垃圾短信識(shí)別有效性的基礎(chǔ)上,避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題;且經(jīng)過本地的計(jì)算處理后減輕了客戶端與云端服務(wù)器的交互負(fù)擔(dān)以及云端服務(wù)器的處理壓力,提高了識(shí)別效率,符合用戶需求。
在本發(fā)明的一個(gè)實(shí)施例中,接收處理單元310適于根據(jù)一定的傳統(tǒng)哈希算法,計(jì)算出短信的內(nèi)容對應(yīng)的哈希值。本實(shí)施例所述的哈希算法包括:HAVAL、MD2、MD4、MD5或SHA1等,由上文可知,此類傳統(tǒng)哈希算法都有如下一個(gè)基本特征:在輸入域中很少出現(xiàn)散列沖突,即對于可能差距只有一個(gè)字節(jié)的文本也會(huì)映射出兩個(gè)完全不同的哈希值。
因此,為了去除小范圍差異的短信的內(nèi)容對應(yīng)哈希值之間的偏差,減輕后續(xù)處理中云端服務(wù)器的識(shí)別壓力,在本發(fā)明的另一個(gè)實(shí)施例中,接收處理單元310,適于對短信的內(nèi)容進(jìn)行分詞處理;對分詞后的各個(gè)詞賦予不同的向量值,匯總計(jì)算得到該短信的內(nèi)容對應(yīng)的simhash值。其中,接收處理單元310計(jì)算短信的內(nèi)容對應(yīng)的simhash值的一個(gè)具體實(shí)施例如表1所示,上文中已詳細(xì)描述,在此不再贅述。
在本發(fā)明的一個(gè)實(shí)施例中,為了進(jìn)一步提高垃圾短信的識(shí)別效率,圖3所示客戶端的接收處理單元310,進(jìn)一步適于當(dāng)移動(dòng)終端接收到短信時(shí),先根據(jù)移動(dòng)終端的本地規(guī)則判斷該短信是否為白短信;如果不是,則計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送至所述識(shí)別交互單元;如果是,則不再進(jìn)行后續(xù)處理。
具體地,接收處理單元310根據(jù)移動(dòng)終端的本地規(guī)則判斷短信是否為白短信的方案包括:
方案1,接收處理單元310根據(jù)移動(dòng)終端本地的電話號(hào)碼白名單判斷發(fā)送該短信的源號(hào)碼是否在電話號(hào)碼白名單中,是則該短信為白短信。其中,該電話號(hào)碼白名單是由移動(dòng)終端設(shè)本地設(shè)置的,或者,是由云端服務(wù)器下發(fā)到移動(dòng)終端本地的。進(jìn)一步地,云端服務(wù)器可以每隔一定時(shí)間對移動(dòng)終端本地的電話號(hào)碼白名單進(jìn)行更新。
方案2,接收處理單元310在移動(dòng)終端本地對短信的內(nèi)容進(jìn)行分詞處理,利用貝葉斯算法計(jì)算分詞后的各個(gè)詞屬于白短信的概率,匯總計(jì)算得到該短信是白短信的概率,判斷該概率是否大于一個(gè)預(yù)設(shè)值,是則該短信為白短信。本方案的具體實(shí)施過程在上文中已詳細(xì)說明,在此不再贅述。
方案3,接收處理單元310在移動(dòng)終端本地依據(jù)上文中所述的方法計(jì)算短信的內(nèi)容對應(yīng)哈希值,再根據(jù)移動(dòng)終端本地的哈希值白名單判斷該短信的內(nèi)容對應(yīng)的哈希值是否在哈希值白名單中,是則該短信為白短信。其中,該哈希值白名單是由移動(dòng)終端本地設(shè)置的,或者,是由云端服務(wù)器下發(fā)到移動(dòng)終端本地的,進(jìn)一步地,云端服務(wù)器可以每隔一定時(shí)間對移動(dòng)終端本地的哈希值白名單進(jìn)行更新。其中,本方案中所述的哈希值為傳統(tǒng)哈希值或simhash值,由于傳統(tǒng)哈希值白名單中記錄了較多的哈希值,適合容量較大的移動(dòng)終端。
圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種識(shí)別垃圾短信的客戶端的示意圖。如圖4所示,本實(shí)施例的識(shí)別垃圾短信的客戶端400在進(jìn)行垃圾短信識(shí)別的過程中,以用戶的意愿作為選擇識(shí)別方法的重要依據(jù)之一,該識(shí)別垃圾短信的客戶端400包括:
初始配置單元410,適于在第一次啟動(dòng)時(shí)彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器。
接收處理單元420,適于在用戶選擇了同意后,當(dāng)移動(dòng)終端接收到短信時(shí),直接將該短信的內(nèi)容發(fā)送給識(shí)別交互單元430;以及適于在用戶選擇了不同意后,當(dāng)移動(dòng)終端接收到短信時(shí),計(jì)算出該短信的內(nèi)容對應(yīng)哈希值并發(fā)送給識(shí)別交互單元430。
識(shí)別交互單元430,適于當(dāng)接收到短信的內(nèi)容時(shí),直接將該述短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識(shí)別;當(dāng)接收到短信的內(nèi)容對應(yīng)哈希值時(shí),將該短信的內(nèi)容對應(yīng)哈希值上傳到云端服務(wù)器;以及適于接收云端服務(wù)器返回的識(shí)別信息;根據(jù)該識(shí)別信息確定短信是否為垃圾短信。
攔截處理單元440,適于當(dāng)確定短信是垃圾短信時(shí),對該短信進(jìn)行攔截處理。
這里的攔截處理具體可以包括:直接刪除垃圾短信;或者將垃圾短息轉(zhuǎn)移到指定的文件夾中,等待用戶的處理;或者對用戶進(jìn)行垃圾短信的提示。
由上述可知。圖4所示的客戶端400從用戶的意愿出發(fā),從根本上解決了現(xiàn)有技術(shù)中存在的侵犯用戶個(gè)人隱私、危害用戶信息安全的問題。
圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的云端服務(wù)器的示意圖。如圖5所示,該識(shí)別垃圾短信的云端服務(wù)器500包括:
接收單元510,適于接收客戶端側(cè)上傳的短信的內(nèi)容對應(yīng)的哈希值。
識(shí)別單元520,適于將該短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配。
在本單元中,哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識(shí)別信息。在本發(fā)明的一個(gè)實(shí)施例中,該哈希值庫是云端服務(wù)器500根據(jù)歷史識(shí)別記錄所設(shè)置的,云端服務(wù)器500每次進(jìn)行垃圾短信的識(shí)別后,無論選取何種識(shí)別方法,均將所識(shí)別的短信的內(nèi)容、關(guān)鍵詞或哈希值等特征與識(shí)別信息對應(yīng)記錄下來,取其中的哈希值與識(shí)別信息的對應(yīng)記錄,建立哈希值庫。
反饋單元530,適于將從哈希值庫中匹配到的哈希值對應(yīng)的識(shí)別信息返回給客戶端。
可見,圖5所示的方案說明了接收單元510接收到客戶端發(fā)來的短信的內(nèi)容對應(yīng)哈希值后,識(shí)別單元520對該哈希值進(jìn)行識(shí)別,反饋單元530再將識(shí)別信息返回給客戶端的過程。該方案在保證垃圾短信識(shí)別有效性的基礎(chǔ)上,避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題;且經(jīng)過本地的計(jì)算處理后減輕了云端服務(wù)器的處理壓力以及云端服務(wù)器與客戶端的交互負(fù)擔(dān),提高了識(shí)別效率,符合用戶需求。
在本發(fā)明的一個(gè)實(shí)施例中,接收單元510所接收到的短信的內(nèi)容對應(yīng)的哈希值為該短信的內(nèi)容對應(yīng)的simhash值,與之對應(yīng)地,云端服務(wù)器的哈希值庫具體為simhash值庫。
在本發(fā)明的一個(gè)實(shí)施例中,接收單元510,進(jìn)一步適于接收用戶舉報(bào)的短信內(nèi)容;識(shí)別單元520,進(jìn)一步適于對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識(shí)別,并生成對應(yīng)的simhash值,將simhash值和對應(yīng)的識(shí)別信息保存到所述哈希值庫中。其中,識(shí)別單元520計(jì)算短信的內(nèi)容對應(yīng)simhash值,其過程與上文中所述的客戶端計(jì)算simhash的過程類似,在此不再贅述。
圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種識(shí)別垃圾短信的系統(tǒng)的示意圖。如圖6所示,該識(shí)別垃圾短信的系統(tǒng)600包括識(shí)別垃圾短信的客戶端610以及識(shí)別垃圾短信的云端服務(wù)器620。其中識(shí)別垃圾短信的客戶端610可以是上文中的識(shí)別垃圾短信的客戶端300或識(shí)別垃圾短信的客戶端400,識(shí)別垃圾短信的云端服務(wù)器620可以是上文中的識(shí)別垃圾短信的云端服務(wù)器500。
綜上所述,本發(fā)明提供的技術(shù)方案在以短信的內(nèi)容對應(yīng)哈希值為識(shí)別對象的基礎(chǔ)上進(jìn)行移動(dòng)終端本地與云端服務(wù)器的交互,實(shí)現(xiàn)了對垃圾短信的識(shí)別。該方案在保證垃圾短信識(shí)別有效性的基礎(chǔ)上,避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題,且經(jīng)過本地的計(jì)算處理后減輕了客戶端與云端服務(wù)器的交互負(fù)擔(dān)以及云端服務(wù)器的處理壓力,提高了識(shí)別效率,符合用戶需求。
需要說明的是:
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬裝置或者其它設(shè)備固有相關(guān)。各種通用裝置也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類裝置所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一種識(shí)別垃圾短信的客戶端、云端服務(wù)器和系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
本發(fā)明公開了A1、一種識(shí)別垃圾短信的方法,其中,該方法包括:
對移動(dòng)終端中的短信接收事件進(jìn)行檢測;
當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值;
將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器,并接收所述云端服務(wù)器返回的識(shí)別信息;
根據(jù)所述識(shí)別信息確定所述短信是否為垃圾短信。
A2、如A1所述的方法,其中,所述計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值包括:
對所述短信的內(nèi)容進(jìn)行分詞處理;
對分詞后的各個(gè)詞賦予不同的向量值,匯總計(jì)算得到所述短信的內(nèi)容對應(yīng)的simhash值。
A3、如A1或A2所述的方法,其中,該方法進(jìn)一步包括:
當(dāng)所述移動(dòng)終端接收到短信時(shí),先根據(jù)移動(dòng)終端的本地規(guī)則判斷所述短信是否為白短信;
如果不是,則執(zhí)行所述計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值,以及將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器的后續(xù)處理;
如果是,則不再進(jìn)行后續(xù)的處理。
A4、如A3所述的方法,其中,所述先根據(jù)移動(dòng)終端的本地規(guī)則判斷所述短信是否為白短信包括如下一種或多種判斷方法:
根據(jù)移動(dòng)終端本地的電話號(hào)碼白名單判斷發(fā)送所述短信的源號(hào)碼是否在所述電話號(hào)碼白名單中,是則所述短信為白短信;
在移動(dòng)終端本地對短信的內(nèi)容進(jìn)行分詞處理,利用貝葉斯算法計(jì)算分詞后的各個(gè)詞屬于垃圾短信的概率,匯總計(jì)算得到該短信是垃圾短信的概率,判斷該概率是否小于一個(gè)預(yù)設(shè)值,是則該短信為白短信;
在移動(dòng)終端本地計(jì)算短信的內(nèi)容對應(yīng)的哈希值,再根據(jù)移動(dòng)終端本地的哈希值白名單判斷該短信的內(nèi)容對應(yīng)的哈希值是否在哈希值白名單中,是則該短信為白短信。
A5、如A1或A2所述的方法,其中,該方法進(jìn)一步包括:
在第一次啟動(dòng)時(shí)彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器;
如果用戶選擇了同意,則當(dāng)所述移動(dòng)終端接收到短信時(shí),直接將所述短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識(shí)別;
如果用戶選擇了不同意,則當(dāng)所述移動(dòng)終端接收到短信時(shí),執(zhí)行所述計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值,以及將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器的步驟。
A6、如A1或A2所述的方法,其中,該方法進(jìn)一步包括:
當(dāng)確定所述短信是垃圾短信時(shí),對所述短信進(jìn)行攔截處理。
本發(fā)明還公開了B7、一種識(shí)別垃圾短信的方法,其中,該方法包括:
接收客戶端側(cè)上傳的短信的內(nèi)容對應(yīng)的哈希值;
將所述短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配;其中,所述哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識(shí)別信息;
將從哈希值庫中匹配到的哈希值對應(yīng)的識(shí)別信息返回給所述客戶端。
B8、如B7所述的方法,其中,所述短信的內(nèi)容對應(yīng)的哈希值為所述短信的內(nèi)容對應(yīng)的simhash值。
B9、如B7或B8所述的方法,其中,該方法進(jìn)一步包括:
接收用戶舉報(bào)的短信內(nèi)容;
對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識(shí)別,并生成對應(yīng)的simhash值,將simhash值和對應(yīng)的識(shí)別信息保存到所述哈希值庫中。
本發(fā)明還公開了C10、一種識(shí)別垃圾短信的客戶端,其中,該客戶端包括:
接收處理單元,適于對移動(dòng)終端中的短信接收事件進(jìn)行檢測;當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送至識(shí)別交互單元;
所述識(shí)別交互單元,適于將所述短信的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器,并接收所述云端服務(wù)器返回的識(shí)別信息;根據(jù)所述識(shí)別信息確定所述短信是否為垃圾短信。
C11、如C10所述的客戶端,其中,
所述接收處理單元,適于對所述短信的內(nèi)容進(jìn)行分詞處理;對分詞后的各個(gè)詞賦予不同的向量值,匯總計(jì)算得到所述短信的內(nèi)容對應(yīng)的simhash值。
C12、如C10或C11所述的客戶端,其中,
所述接收處理單元,進(jìn)一步適于當(dāng)所述移動(dòng)終端接收到短信時(shí),先根據(jù)移動(dòng)終端的本地規(guī)則判斷所述短信是否為白短信;如果不是,則計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送至所述識(shí)別交互單元;如果是,則不再進(jìn)行后續(xù)處理。
C13、如C12所述的客戶端,其中,
所述接收處理單元,適于根據(jù)如下一種或多種判斷方法判斷所述短信是否為白短信:
根據(jù)移動(dòng)終端本地的電話號(hào)碼白名單判斷發(fā)送所述短信的源號(hào)碼是否在所述電話號(hào)碼白名單中,是則所述短信為白短信;
在移動(dòng)終端本地對短信的內(nèi)容進(jìn)行分詞處理,利用貝葉斯算法計(jì)算分詞后的各個(gè)詞屬于垃圾短信的概率,匯總計(jì)算得到該短信是垃圾短信的概率,判斷該概率是否小于一個(gè)預(yù)設(shè)值,是則該短信為白短信;
在移動(dòng)終端本地計(jì)算短信的內(nèi)容對應(yīng)的哈希值,再根據(jù)移動(dòng)終端本地的哈希值白名單判斷該短信的內(nèi)容對應(yīng)的哈希值是否在哈希值白名單中,是則該短信為白短信。
C14、如C10或C11所述的客戶端,其中,該客戶端進(jìn)一步包括:
初始配置單元,適于在第一次啟動(dòng)時(shí)彈出聲明協(xié)議,在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器;
所述接收處理單元,適于在用戶選擇了同意后,當(dāng)所述移動(dòng)終端接收到短信時(shí),直接將所述短信的內(nèi)容發(fā)送給所述識(shí)別交互單元;以及適于在用戶選擇了不同意后,當(dāng)所述移動(dòng)終端接收到短信時(shí),計(jì)算出所述短信的內(nèi)容對應(yīng)的哈希值并發(fā)送給所述識(shí)別交互單元;
所述識(shí)別交互單元,適于當(dāng)接收到所述短信的內(nèi)容時(shí),直接將所述短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識(shí)別;以及適于當(dāng)接收到所述短信的內(nèi)容對應(yīng)哈希值時(shí),執(zhí)行所述將所述短信的內(nèi)容對應(yīng)哈希值上傳到云端服務(wù)器的后續(xù)步驟。
C15、如C10或C11所述的客戶端,其中,該客戶端進(jìn)一步包括:
攔截處理單元,適于當(dāng)確定所述短信是垃圾短信時(shí),對所述短信進(jìn)行攔截處理。
本發(fā)明還公開了D16、一種識(shí)別垃圾短信的云端服務(wù)器,其中,該云端服務(wù)器包括:
接收單元,適于接收客戶端側(cè)上傳的短信的內(nèi)容對應(yīng)的哈希值;
識(shí)別單元,適于將所述短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配;其中,所述哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識(shí)別信息;
反饋單元,適于將從哈希值庫中匹配到的哈希值對應(yīng)的識(shí)別信息返回給所述客戶端。
D17、如D16所述的云端服務(wù)器,其中,所述短信的內(nèi)容對應(yīng)的哈希值為所述短信的內(nèi)容對應(yīng)的simhash值。
D18、如D16或D17所述的云端服務(wù)器,其中,
所述接收單元,進(jìn)一步適于接收用戶舉報(bào)的短信內(nèi)容;
所述識(shí)別單元,進(jìn)一步適于對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識(shí)別,并生成對應(yīng)的simhash值,將simhash值和對應(yīng)的識(shí)別信息保存到所述哈希值庫中。
本發(fā)明還公開了E19、一種識(shí)別垃圾短信的系統(tǒng),其中,該系統(tǒng)包括如C10-C15中任一項(xiàng)所述的識(shí)別垃圾短信的客戶端以及如D16-D18中任一項(xiàng)所述的識(shí)別垃圾短信的云端服務(wù)器。