一種垃圾短信過濾方法、系統(tǒng)、移動終端以及云服務器的制造方法
【專利摘要】本發(fā)明實施方式公開了一種垃圾短信過濾方法,包括:移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果,當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,移動終端將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集,移動終端獲得云服務器的詞庫更新信息以同步更新移動終端存儲的分類詞庫。本發(fā)明實施方式還公開了一種移動終端、云服務器、垃圾短信過濾系統(tǒng)。通過上述方式,本發(fā)明能夠提高移動終端對垃圾短信的過濾效率,使垃圾短信的過濾具有個性化。
【專利說明】一種垃圾短信過濾方法、系統(tǒng)、移動終端以及云服務器
【技術領域】
[0001]本發(fā)明涉及文本分類領域,特別是涉及一種垃圾短信過濾方法、系統(tǒng)、移動終端以及云服務器。
【背景技術】
[0002]隨著移動通信技術的飛速發(fā)展和手機普及率的迅速提升,短信正以其短小、迅速、簡便、價格低廉等諸多優(yōu)點日益成為人們的一種重要通信和交流方式,給用戶帶來了極大的交流方便,同時,垃圾短信日益猖獗,尤其是在智能手機快速普及、個人信息安全問題日益嚴峻的今天,不少用戶都深受垃圾短信的困擾。垃圾短信是指用戶沒有定制過的,包含有廣告、欺騙、色情等內容以及短時間內連續(xù)發(fā)送同樣內容,影響用戶正常使用、工作和生活的短信,常見的垃圾短信內容包括廣告信息、色情信息、假中獎信息、欺詐信息、惡作劇等,即對用戶沒有價值的信息,給用戶帶來了很多的煩惱,因此急需對垃圾短信進行監(jiān)控過濾。現(xiàn)有技術中主要包括兩種垃圾短信的過濾方法:一種方法是在短信服務中心(SMSC)等短信處理中心進行處理;另一種方法則是在手機等移動終端上用編制的內嵌程序執(zhí)行整個垃圾短信的過濾過程。
[0003]本申請發(fā)明人在長期研發(fā)中發(fā)現(xiàn),有些信息例如彩票信息、票務信息、廣告信息等對于一部分用戶來說可能是垃圾短信,但對于另一部分用戶來說則不屬于垃圾短信,在短信服務中心進行過濾可能導致被錯誤分類的信息無法到達用戶的移動終端上,垃圾短信的過濾缺乏考慮不同用戶的需求差異;此外由于移動終端的計算速度和空間都比較有限,在移動終端上執(zhí)行整個垃圾短信的過濾過程會消耗過多的時間與空間,影響用戶對短信的正常接收。
【發(fā)明內容】
[0004]本發(fā)明主要解決的技術問題是提供一種垃圾短信過濾方法、系統(tǒng)、移動終端以及云服務器,能夠提高移動終端對垃圾短信的過濾效率,使垃圾短信的過濾具有個性化。
[0005]為解決上述技術問題,本發(fā)明的第一方面是:提供一種垃圾短信過濾方法,包括:移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果,其中,分類結果為垃圾短信或非垃圾短信;當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,移動終端將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集,其中,分類錯誤信息包括待處理短信以及錯誤的分類結果;移動終端獲得云服務器的詞庫更新信息以同步更新移動終端存儲的分類詞庫,其中,詞庫更新信息為在云服務器存儲的與移動終端對應的私有短信訓練集和/或公有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習而獲得。
[0006]其中,移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果的步驟具體包括:移動終端對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征;移動終端將分類詞庫中存儲的垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P (C2)、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P(XkIC2)代入貝葉斯分類公式中,以獲得待處理短信屬于垃圾短信的概率P (C11X),貝葉斯分類公式具體如下所示:
[0007]PiC11X)=--氣-
Σ^)Π^.Ι^)]
^-1 k=l
[0008]移動終端獲得待處理短信屬于非垃圾短信的概率P (C21 X),具體如下所示:
[0009]P(C2Ix)=1-P (CjX)
[0010]移動終端獲得待處理短信的分類結果,其中,當P (C11X) >P (C21X)時則待處理短信屬于垃圾短信,否則待處理短信屬于非垃圾短信。
[0011]其中,在移動終端對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征的步驟之前還包括:移動終端判斷待處理短信的發(fā)送者號碼是否在與移動終端對應的私有黑白名單中,其中,當發(fā)送者號碼在與移動終端對應的私有黑名單中時則待處理短信屬于垃圾短信,當發(fā)送者號碼在與移動終端對應的私有白名單中時則待處理短信屬于非垃圾短信;當發(fā)送者號碼不在與移動終端對應的私有黑白名單中時,移動終端繼續(xù)判斷發(fā)送者號碼是否在公有黑白名單中,其中,當發(fā)送者號碼在公有黑名單中時則待處理短信屬于垃圾短信,當發(fā)送者號碼在公有白名單中時則待處理短信屬于非垃圾短信;當發(fā)送者號碼不在公有黑白名單中時,移動終端執(zhí)行對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征的步驟。
[0012]其中,當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,移動終端上傳到云服務器的分類錯誤信息還包括待處理短信的發(fā)送者號碼,移動終端將發(fā)送者號碼上傳到云服務器以判斷是否將發(fā)送者號碼加入云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中;當云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單更新時,移動終端獲得云服務器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動終端存儲的公有黑白名單和/或私有黑白名單。
[0013]其中,錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信;詞庫更新信息至少包括私有短信訓練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0014]為解決上述技術問題,本發(fā)明的第二方面是:提供一種垃圾短信過濾方法,包括:云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫,分類詞庫用于移動終端對待處理短信進行分類以獲得分類結果,其中,分類結果為垃圾短信或非垃圾短信;當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,云服務器接收移動終端上傳的分類錯誤信息,其中,分類錯誤信息包括待處理短信以及錯誤的分類結果;云服務器將待處理短信加入與移動終端對應的私有短信訓練集中以更新私有短信訓練集;在私有短信訓練集和/或公有短信訓練集更新后,云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新息。
[0015]其中,錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信;當錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信時,在私有短信訓練集更新后,云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息的步驟具體包括:云服務器對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征;云服務器根據(jù)公有短信訓練集中單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有訓練集中單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息,其中,第一詞庫更新信息包括私有短信訓練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例;當錯誤的分類結果為將屬于非垃圾短信的待處理短信分類為垃圾短信時,在私有短信訓練集更新后,云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息的步驟具體包括:云服務器對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征;云服務器根據(jù)公有短信訓練集中單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有訓練集中單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息,其中,第二詞庫更新信息包括私有短信訓練集更新后待處理短信的單詞特征以及規(guī)則特征在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0016]其中,分類錯誤信息還包括待處理短信的發(fā)送者號碼,云服務器判斷是否將發(fā)送者號碼加入云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中,若是則云服務器更新與移動終端對應的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息,以使移動終端同步更新移動終端存儲的公有黑白名單和/或私有黑白名單。
[0017]為解決上述技術問題,本發(fā)明的第三方面是:提供一種移動終端,包括:分類模塊,用于根據(jù)移動終端存儲的分類詞庫對待處理短信進行分類以獲得分類結果,其中,分類結果為垃圾短信或非垃圾短信,分類詞庫為云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習而獲得;上傳模塊,用于當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集,其中,分類錯誤信息包括待處理短信以及錯誤的分類結果;移動終端更新模塊,用于獲得云服務器的詞庫更新信息以同步更新移動終端中存儲的分類詞庫,其中,詞庫更新信息為在私有短信訓練集和/或公有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習而獲得。
[0018]為解決上述技術問題,本發(fā)明的第四方面是:提供一種云服務器,包括:學習模塊,用于對云服務器存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫,分類詞庫用于移動終端對待處理短信進行分類以獲得分類結果,其中,分類結果為垃圾短信或非垃圾短信;云服務器更新模塊,當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,用于接收移動終端上傳的分類錯誤信息,其中,分類錯誤信息包括待處理短信以及錯誤的分類結果;云服務器更新模塊還用于將待處理短信加入與移動終端對應的私有短信訓練集中以更新私有短信訓練集;學習模塊還用于在私有短信訓練集和/或公有短信訓練集更新后,對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息,進而使移動終端根據(jù)詞庫更新信息同步更新移動終端中存儲的分類詞庫。
[0019]為解決上述技術問題,本發(fā)明的第五方面是:提供一種垃圾短信過濾系統(tǒng),包括如前所述的移動終端以及如前所述的云服務器。
[0020]本發(fā)明的有益效果是:區(qū)別于現(xiàn)有技術的情況,本發(fā)明通過移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果,當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,移動終端將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集,移動終端獲得云服務器的詞庫更新信息以同步更新移動終端存儲的分類詞庫,通過云服務器的強大處理能力,對更新后的私有短信訓練集和公有短信訓練集進行再學習,為移動終端提供兼具個性化和普遍共性的分類詞庫,進而不斷提高移動終端對垃圾短信過濾的準確性,提高移動終端對垃圾短信的過濾效率,使垃圾短信的過濾具有個性化。
【專利附圖】
【附圖說明】
[0021]圖1是本發(fā)明垃圾短信過濾方法第一實施方式的流程圖;
[0022]圖2是本發(fā)明垃圾短信過濾方法第一實施方式中移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果的流程圖;
[0023]圖3是本發(fā)明垃圾短信過濾方法第二實施方式的流程圖;
[0024]圖4是本發(fā)明垃圾短信過濾方法第二實施方式中當錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信時云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息的流程圖;
[0025]圖5是本發(fā)明垃圾短信過濾方法第二實施方式中當錯誤的分類結果為將屬于非垃圾短信的待處理短信分類為垃圾短信時云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息的流程圖;
[0026]圖6是本發(fā)明移動終端一實施方式的原理框圖;
[0027]圖7是本發(fā)明云服務器一實施方式的原理框圖;
[0028]圖8是本發(fā)明垃圾短信過濾系統(tǒng)一實施方式的原理框圖。
【具體實施方式】
[0029]下面將結合本發(fā)明實施方式中的附圖,對本發(fā)明實施方式中的技術方案進行清楚、完整地描述,顯然,所描述的實施方式僅僅是本發(fā)明一部分實施方式,而不是全部的實施方式。基于本發(fā)明中的實施方式,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施方式,均屬于本發(fā)明保護的范圍。
[0030]請參閱圖1,本發(fā)明垃圾短信過濾方法第一實施方式包括:
[0031]步驟SlOl:對待處理短信進行分類以獲得分類結果;
[0032]移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得待處理短信對應的分類結果,其中,分類結果為垃圾短信或非垃圾短信。移動終端存儲的分類詞庫與云服務器存儲的分類詞庫隨時保持同步更新,云服務器存儲的分類詞庫為云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習而獲得。與移動終端對應的私有短信訓練集可為空或者存儲有移動終端上傳的已分類的垃圾短信和/或非垃圾短信,當與移動終端對應的私有短信訓練集為空時,分類詞庫為云服務器對公有短信訓練集以及為空的私有短信訓練集進行學習而獲得,即此時僅對公有短信訓練集進行學習;當與移動終端對應的私有短信訓練集不為空時,分類詞庫為云服務器對與移動終端對應的私有短信訓練集和公有短信訓練集進行學習而獲得。云服務器存儲有一個公有短信訓練集和多個與移動終端對應的私有短信訓練集,即云服務器存儲有一個共有短信訓練集和多個私有短信訓練集,其中,每個私有短信訓練集對應于一個移動終端。
[0033]其中,公有短信訓練集中存儲有一定數(shù)量的已分類的垃圾短信與非垃圾短信,云服務器上的所有移動終端共用一個公有短信訓練集;而私有短信訓練集存儲有移動終端上傳的已分類的垃圾短信與非垃圾短信,不同移動終端對應不同的私有短信訓練集。
[0034]步驟S102:將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集;
[0035]當移動終端獲得待處理短信的分類結果后,用戶判斷移動終端獲得的分類結果是否為錯誤的分類結果,其中,錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信。某些短信對于一些用戶而言可能是垃圾短信,但對于另一些用戶而言則可能是非垃圾短信,因此不同用戶對于同一條待處理短信的分類結果的正確與否可能有不同的判斷結果。
[0036]當用戶判定分類結果為錯誤的分類結果且移動終端接收到對應上述錯誤的分類結果的上傳指令時,移動終端根據(jù)上傳指令將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集,即移動終端在接收到上傳指令后將分類錯誤信息上傳到與服務器,以便云服務器對與該移動終端對應的私有短信訓練集進行更新,其中,分類錯誤信息包括待處理短信以及對應的錯誤的分類結果。
[0037]步驟S103:獲得云服務器的詞庫更新信息以同步更新移動終端存儲的分類詞庫。
[0038]移動終端獲得云服務器的詞庫更新信息以同步更新移動終端存儲的分類詞庫,其中,詞庫更新信息為在云服務器存儲的與移動終端對應的私有短信訓練集和/或公有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習而獲得,即詞庫更新信息為當私有短信訓練集和公有短信訓練集中的至少一個更新時而獲得,也即當出現(xiàn)如下三種情況中的一種情況的更新時而獲得詞庫更新信息:(I)公有短信訓練集更新,(2)私有短信訓練集更新,(3)私有短信訓練集和公有短信訓練集同時更新。云服務器可定期加入一定數(shù)量的已分類的垃圾短信和/或非垃圾短信到公有短信訓練集中以更新公有短信訓練集。其中,當私有短信訓練集為空即私有短信訓練集中沒有存儲移動終端上傳的已分類的短信且沒有更新私有短信訓練集時,詞庫更新信息為云服務器對更新后的公有短信訓練集以及為空的私有短信訓練集進行學習而獲得即此時僅對更新后的公有短信訓練集進行學習;當私有短信訓練集不為空時,詞庫更新信息為在私有短信訓練集和/或公有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習而獲得。當云服務器通過學習而獲得詞庫更新信息后,移動終端通過GPRS、WiFi等方式從云服務器上下載詞庫更新信息,移動終端只需下載信息容量較小的詞庫更新信息而無需下載云服務器中更新后的整個分類詞庫即可實現(xiàn)對移動終端存儲的分類詞庫的更新,減少移動終端更新分類詞庫所需的流量。移動終端根據(jù)更新后的分類詞庫對后續(xù)待處理短信進行分類,從而形成一個循環(huán)過程。
[0039]本發(fā)明通過云服務器的強大處理能力,根據(jù)移動終端上傳的分類錯誤信息更新與移動終端對應的私有短信訓練集,在私有短信訓練集和/或公有短信訓練集更新后,結合分詞詞庫和停用詞庫進行再學習,通過進一步學習為移動終端提供兼具共性和個性化的分類詞庫,進而不斷提高移動終端對垃圾短信過濾的處理速度和準確性,提高移動終端對垃圾短信的過濾效率,同時也為移動終端提供個性化的垃圾短信過濾,使垃圾短信的過濾具有個性化,滿足不同用戶對短信的不同過濾需求。
[0040]請參閱圖2,本發(fā)明垃圾短信過濾方法第一實施方式中移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果具體包括以下子步驟:
[0041]子步驟SlOll:對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征;
[0042]移動終端對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征,具體包括:
[0043]移動終端對待處理短信進行分詞,通過查詢其存儲的分詞詞庫將待處理短信分割成一個個有意義的單詞特征,其中,中文分詞是將中文短信文本分割成漢語最小的、能獨立活動的、有意義的語言成分即詞條;對于英文短信文本,根據(jù)詞之間的分隔標記例如空格將英文短信文本分隔成一個個單詞特征。本實施方式的分詞方法為智能分詞法,即利用隱馬爾科夫模型(Hidden Markov Model, HMM)算法。在其他實施方式中,也可利用詞典分詞法、切分標記法、基于統(tǒng)計的分詞法、基于規(guī)則的分詞法等方法進行分詞,此處不作過多限制。
[0044]移動終端根據(jù)其存儲的停用詞庫刪除對短信分類沒有貢獻的單詞特征,其包括分詞后形成的單個的字、嘆詞、語氣助詞、代詞等。
[0045]在刪除沒有貢獻的單詞特征后,移動終端進一步從剩余的單詞特征中選取對短信分類貢獻較高的單詞特征,通過計算各個剩余的單詞特征A出現(xiàn)與否和某個分類C的互信息MI (A; C),其中,分類C包括垃圾短信Cl與非垃圾短信C2兩類,互信息MI (A; C)的計算公式具體如下所示:
Pl A-Y ( ? - / Λ
[0046]Ml(A-C)= X 1>{A = x,C = c.)log
*E{0,l},ceSfl.e2}P(A — X)P(C — c)
[0047]進一步從中選取具有最高互信息MI (A;C)的單詞特征作為分類判斷所用的單詞特征。
[0048]移動終端獲得待處理短信的規(guī)則特征,規(guī)則特征包括短信長度、是否包含URL、是否包含電話號碼以及短信發(fā)送者號碼是否為手機號碼。
[0049]待處理短信X表示為:X={Xl,X2,…,xn},xk(k=l, 2,…,η)為待處理短信對應的單詞特征以及規(guī)則特征。
[0050]子步驟S1012:將垃圾短信、非垃圾短信所占的比例、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率以及非垃圾短信中的匹配概率代入貝葉斯分類公式中;
[0051]移動終端將分類詞庫中存儲的垃圾短信所占的比例P (C1)、非垃圾短信所占的比例P (C2)、待處理短信對應的單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P(XkIC2)代入貝葉斯分類公式中,以獲得待處理短信屬于垃圾短信的概率P (C11X),貝葉斯分類公式具體如下所示:
"(r丨)?/'、ι(')
[0052]P(Q IX) = --^-1:{PiC-h)Y{PiXk\ch)'\
h=l k-^l
[0053]其中,垃圾短信所占的比例P(C1)即與移動終端對應的私有短信訓練集和公有短信訓練集中垃圾短信數(shù)量占所有短信(即垃圾短信與非垃圾短信)數(shù)量的比例;非垃圾短信所占的比例P(C2)即與移動終端對應的私有短信訓練集和公有短信訓練集中非垃圾短信數(shù)量占所有短信數(shù)量的比例。與移動終端對應的分類詞庫中存儲有垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P(C2)、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P (Xk IC2),不同移動終端對應不同的分類詞庫。
[0054]子步驟S1013:獲得待處理短信屬于非垃圾短信的概率;
[0055]移動終端進一步獲得待處理短信屬于非垃圾短信的概率P (C21X),具體如下所示:
[0056]P(C2IX)=1-P (CjX)
[0057]在其他實施方式中,也可利用貝葉斯分類公式獲得待處理短信屬于非垃圾短信的概率,此處不作過多限制。
[0058]子步驟S1014:獲得待處理短信的分類結果。
[0059]移動終端根據(jù)待處理短信屬于垃圾短信的概率P (C11 X)以及屬于非垃圾短信的概率P(C21X)獲得待處理短信的分類結果,其中,當P(C11X) >P(C21X)時則待處理短信的分類結果為屬于垃圾短信,否則待處理短信的分類結果為屬于非垃圾短信。同時,也可通過判斷P(C1Ix)是否大于0.5而進行分類判斷,當P(C1IX)大于0.5時則屬于垃圾短信,否則屬于非垃圾短信。
[0060]當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,則至少云服務器存儲的與移動終端對應的私有短信訓練集得到更新,對應獲得的詞庫更新信息至少包括私有短信訓練集更新后待處理短信對應的單詞特征以及規(guī)則特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2),具體地,當錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信時對應更新單詞特征以及規(guī)則特征在垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2);當錯誤的分類結果為將屬于非垃圾短信的待處理短信分類為垃圾短信時對應更新單詞特征以及規(guī)則特征在非垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2)。
[0061]此外,在移動終端對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征的步驟之前還包括:
[0062]移動終端判斷待處理短信的發(fā)送者號碼是否在與移動終端對應的私有黑白名單中,其中,當發(fā)送者號碼在與移動終端對應的私有黑名單中時則待處理短信屬于垃圾短信,當發(fā)送者號碼在與移動終端對應的私有白名單中時則待處理短信屬于非垃圾短信。
[0063]當發(fā)送者號碼不在與移動終端對應的私有黑白名單中時,移動終端繼續(xù)判斷發(fā)送者號碼是否在公有黑白名單中,其中,當發(fā)送者號碼在公有黑名單中時則待處理短信屬于垃圾短信,當發(fā)送者號碼在公有白名單中時則待處理短信屬于非垃圾短信。
[0064]當發(fā)送者號碼不在公有黑白名單中時,移動終端執(zhí)行上述對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征的步驟即子步驟S1011。
[0065]在移動終端執(zhí)行上述步驟SlOl獲得待處理短信的分類結果后,當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,移動終端上傳到云服務器的分類錯誤信息還包括待處理短信的發(fā)送者號碼,移動終端將發(fā)送者號碼上傳到云服務器以判斷是否將發(fā)送者號碼加入云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中,若是則云服務器更新云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單。具體地,移動終端上傳的待處理短信的發(fā)送者號碼后,云服務器首先將發(fā)送者號碼加入與移動終端對應的私有黑白名單中,而在該發(fā)送者號碼達到一定數(shù)量后則加入公有黑白名單。例如,當超過一預設數(shù)量如I萬名用戶舉報一發(fā)送者號碼則將該發(fā)送者號碼加入公有黑名單中;當超過另一預設數(shù)量如100名用戶舉報一發(fā)送者號碼同時該短信內容明顯含有違法內容的則將該發(fā)送者號碼加入公有黑名單中。
[0066]當云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單更新時,移動終端通過GPRS、WiFi等方式獲得云服務器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動終端存儲的公有黑白名單和/或私有黑白名單。進一步地,移動終端利用更新后的公有黑白名單和/或私有黑白名單對后續(xù)待處理短信進行判斷。例如,在正確判斷得到待處理短信屬于垃圾短信或將屬于垃圾短信的待處理短信分類為非垃圾短信后,將待處理短信對應的發(fā)送者號碼上傳到云服務器中,云服務器進一步將該發(fā)送者號碼加入與移動終端對應的私有黑白名單中。
[0067]可以理解,本發(fā)明垃圾短信過濾方法第一實施方式通過移動終端根據(jù)云服務器對與移動終端對應的私有短信訓練集和公有短信訓練集進行學習而獲得的分類詞庫進行分類,當分類結果錯誤時,移動終端上傳分類錯誤信息以及時更新移與動終端對應的分類詞庫,移動終端無需進行短信樣本的學習就可進行分類,進而能夠提高移動終端對垃圾短信的過濾效率,且不同移動終端對應不同的私有短信訓練集以及分類詞庫,使垃圾短信的過濾具有個性化,且提高垃圾短信的過濾精度。
[0068]另外,本發(fā)明既利用分詞詞庫和停用詞庫獲取短信的單詞特征,也獲取短信長度、是否包含URL、是否包含電話號碼以及短信發(fā)送者號碼是否為手機號碼等的規(guī)則特征,通過將單詞特征和規(guī)則特征的匹配概率代入貝葉斯分類公式,更加準確直接計算出待處理短信屬于垃圾短信的概率,并迅速作出判斷,計算簡單快速效率高,極大減少了移動終端的處理工作量。
[0069]請參閱圖3,本發(fā)明垃圾短信過濾方法第二實施方式包括:
[0070]步驟S201:對私有短信訓練集和公有短信訓練集進行學習;
[0071]云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫。與移動終端對應的私有短信訓練集可為空或者存儲有移動終端上傳的已分類的垃圾短信和/或非垃圾短信,當與移動終端對應的私有短信訓練集為空時,云服務器對公有短信訓練集以及為空的私有短信訓練集進行學習以獲得分類詞庫即此時云服務器僅對公有短信訓練集進行學習;當與移動終端對應的私有短信訓練集不為空時,云服務器對與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得分類詞庫。云服務器對與移動終端對應的私有短信訓練集和公有短信訓練集進行學習具體包括:云服務器根據(jù)其存儲的分詞詞庫、停用詞庫對與移動終端對應的私有短信訓練集和公有短信訓練集進行預處理以獲得公有短信訓練集、私有短信訓練集中各個垃圾短信以及非垃圾短信對應的單詞特征以及規(guī)則特征,進一步根據(jù)垃圾短信數(shù)量以及非垃圾短信數(shù)量獲得各個單詞特征以及規(guī)則特征在垃圾短信、非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0072]當云服務器存儲的分詞詞庫和/或停用詞庫更新時,移動終端存儲的分詞詞庫和/或停用詞庫與云服務器保持同步更新。分類詞庫用于移動終端對待處理短信進行分類以獲得分類結果,其中,分類結果為垃圾短信或非垃圾短信。云服務器對應不同移動終端存儲有與各個移動終端分別對應的分類詞庫。公有短信訓練集中存儲有一定數(shù)量的已分類的垃圾短信與非垃圾短信。
[0073]在首次對待處理短信進行分類判斷前,移動終端可上傳用戶判斷得到一定數(shù)量的垃圾短信以及非垃圾短信到云服務器存儲的與移動終端對應的私有短信訓練集中;此外,垃圾短信過濾的初始時刻與移動終端對應的私有短信訓練集也可為空。在首次對待處理短信進行分類判斷前,移動終端通過GPRS、WiFi等方式獲得云服務中存儲的與移動終端對應的分類詞庫以進行分類判斷。
[0074]步驟S202:接收移動終端上傳的分類錯誤信息;
[0075]當用戶判斷得到移動終端獲得的分類結果為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,云服務器接收移動終端上傳的分類錯誤信息,分類錯誤信息包括待處理短信以及錯誤的分類結果,錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信。
[0076]步驟S203:將待處理短信加入私有短信訓練集中;
[0077]云服務器將分類錯誤信息中的待處理短信加入與移動終端對應的私有短信訓練集中以更新與移動終端對應的私有短信訓練集。當移動終端上傳的錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信時,云服務器將待處理短信加入私有短信訓練集中的垃圾短信類中;當移動終端上傳的錯誤的分類結果為將屬于非垃圾短信的待處理短信分類為垃圾短信時,云服務器將待處理短信加入私有短信訓練集中的非垃圾短信類中。
[0078]步驟S204:對私有短信訓練集和公有短信訓練集進行學習。
[0079]在私有短信訓練集和/或公有短信訓練集更新后,云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息,詞庫更新信息的獲得具體包括以下兩種情況:(1)當私有短信訓練集為空即私有短信訓練集中沒有存儲移動終端上傳的已分類的短信且沒有更新私有短信訓練集時,詞庫更新信息為云服務器對更新后的公有短信訓練集進行學習而獲得;(2)當私有短信訓練集不為空時,詞庫更新信息為在私有短信訓練集和/或公有短信訓練集更新后云服務器對公有短信訓練集和私有短信訓練集進行學習而獲得。移動終端根據(jù)詞庫更新信息同步更新移動終端中存儲的分類詞庫,此時云服務器中的分類詞庫同樣根據(jù)詞庫更新信息得到更新,其中,詞庫更新信息可存儲于云服務器上的與移動終端對應的分類詞庫中。在對待處理短信進行分類判斷前,移動終端存儲的分類詞庫中的各個單詞特征和規(guī)則特征在垃圾短信以及非垃圾短信中的匹配概率與云服務器上存儲的與移動終端對應的分類詞庫保持同步。
[0080]請參閱圖4,當錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信時,本發(fā)明垃圾短信過濾方法第二實施方式中在私有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息具體包括以下子步驟:
[0081]子步驟S2041a:對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征;
[0082]云服務器對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征,待處理短信X表示為=X=UyX2, - ,xn},xk(k=l,2,…,η)為待處理短信對應的單詞特征以及規(guī)則特征。
[0083]子步驟S2042a:根據(jù)單詞特征和規(guī)則特征的匹配頻次、垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息。
[0084]云服務器根據(jù)公有短信訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次、私有訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次、私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息,其中,第一詞庫更新信息包括在與移動終端對應的私有短信訓練集更新后待處理短信對應的單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。移動終端根據(jù)第一詞庫更新信息同步更新分類詞庫也即修改與移動終端對應的分類詞庫中存儲的單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率、將與移動終端對應的分類詞庫中沒有包括的單詞特征在垃圾短信中的匹配概率加入到分類詞庫中,以及修改分類詞庫中存儲的垃圾短信所占的比例以及非垃圾短信所占的比例。單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率等于公有短信訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次+私有訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次的和除以私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量。
[0085]請參閱圖5,當錯誤的分類結果為將屬于非垃圾短信的待處理短信分類為垃圾短信時,本發(fā)明垃圾短信過濾方法第二實施方式中在私有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息具體包括以下子步驟:
[0086]子步驟S2041b:對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征;
[0087]云服務器對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征。
[0088]子步驟S2042b:根據(jù)單詞特征、規(guī)則特征的匹配頻次、垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息。
[0089]云服務器根據(jù)公有短信訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次、私有訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次、私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息,其中,第二詞庫更新信息包括在與移動終端對應的私有短信訓練集更新后待處理短信對應的單詞特征以及規(guī)則特征Xk在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。移動終端根據(jù)第二詞庫更新信息同步更新分類詞庫也即修改與移動終端對應的分類詞庫中存儲的單詞特征以及規(guī)則特征Xk在非垃圾短信中的匹配概率、將與移動終端對應的分類詞庫中沒有包括的單詞特征在非垃圾短信中的匹配概率加入到分類詞庫中,以及修改分類詞庫中存儲的垃圾短信所占的比例以及非垃圾短信所占的比例。單詞特征以及規(guī)則特征Xk在非垃圾短信中的匹配概率等于公有短信訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次+私有訓練集中待處理短信對應的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次的和除以私有短信訓練集和公有短信訓練集中的非垃圾短信數(shù)量。
[0090]當公有短信訓練集更新時,公有短信訓練集的更新包括增加垃圾短信或增加非垃圾短信或同時增加垃圾短信以及非垃圾短信,與上述私有短信訓練集的更新與學習同理,對公有短信訓練集中更新部分的短信進行預處理,進一步根據(jù)單詞特征、規(guī)則特征的匹配頻次、垃圾短信數(shù)量、非垃圾短信數(shù)量獲得對應的詞庫更新信息,以更新單詞特征、規(guī)則特征在垃圾短信和/或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。當私有短信訓練集和公有短信訓練集同時更新時,亦與上述公有短信訓練集、私有短信訓練集的更新與學習同理,此處不再贅述。
[0091]云服務器對與移動終端對應的私有短信訓練集和公有短信訓練集進行學習即根據(jù)單詞特征、規(guī)則特征在垃圾短信以及非垃圾短信中的匹配頻次、垃圾短信數(shù)量以及非垃圾短信數(shù)量獲得單詞特征、規(guī)則特征在垃圾短信以及非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例,獲得的匹配概率、所占的比例存儲于分類詞庫中,不同移動終端對應不同的分類詞庫。當私有短信訓練集和/或公有短信訓練集更新時,云服務器只需對更新部分的短信進行預處理,即保留更新前私有短信訓練集和/或公有短信訓練集中的各個短信對應的單詞特征以及規(guī)則特征,能夠提高云服務器預處理以及學習的效率,進而提高更新分類詞庫的效率。
[0092]此外,云服務器接收移動終端上傳的分類錯誤信息中還包括待處理短信的發(fā)送者號碼,在接收到發(fā)送者號碼后云服務器判斷是否將發(fā)送者號碼加入云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中,若是則云服務器更新與移動終端對應的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息,以使移動終端同步更新移動終端存儲的公有黑白名單和/或私有黑白名單。公有黑白名單更新信息、私有黑白名單更新信息包括發(fā)送者號碼以及該發(fā)送者號碼對應加入的名單。例如,當超過一預設數(shù)量如I萬名用戶舉報一發(fā)送者號碼則將該發(fā)送者號碼加入公有黑名單中;當超過另一預設數(shù)量如100名用戶舉報一發(fā)送者號碼同時該短信內容明顯含有違法內容的則將該發(fā)送者號碼加入公有黑名單中。又例如,在正確判斷得到待處理短信屬于垃圾短信或將屬于垃圾短信的待處理短信分類為非垃圾短信后,將待處理短信對應的發(fā)送者號碼上傳到云服務器中,云服務器進一步將該發(fā)送者號碼加入與移動終端對應的私有黑白名單中。
[0093]可以理解,本發(fā)明垃圾短信過濾方法第二實施方式通過云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫,移動終端根據(jù)分類詞庫對待處理短信進行分類判斷,當接收到移動終端上傳的分類錯誤信息后云服務器進行學習而獲得詞庫更新信息,進而使移動終端同步更新移動終端存儲的分類詞庫,云服務器存儲占用空間較大的公有短信訓練集、私有短信訓練集以及執(zhí)行計算量較大的學習過程,能夠提高移動終端對垃圾短信的過濾效率以及減少移動終端的占用空間,且云服務器對應不同移動終端存儲有相應的私有短信訓練集以及分類詞庫,使垃圾短信的過濾具有個性化,進而提高垃圾短信的過濾精度。
[0094]請參閱圖6,本發(fā)明移動終端一實施方式包括:
[0095]分類模塊301,用于根據(jù)移動終端中存儲的分類詞庫對待處理短信進行分類以獲得分類結果,以及根據(jù)更新后的分類詞庫對后續(xù)待處理短信進行分類;具體實現(xiàn)可參考前述步驟SlOl對應的實現(xiàn)過程,在此不再重述。
[0096]上傳模塊302,用于當分類模塊301獲得的分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集;具體實現(xiàn)可參考前述步驟S102對應的實現(xiàn)過程,在此不再重述。
[0097]移動終端更新模塊303,用于獲得云服務器的詞庫更新信息以同步更新移動終端中存儲的分類詞庫,以及獲得云服務器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動終端存儲的公有黑白名單和/或私有黑白名單;具體實現(xiàn)可參考前述步驟S103對應的實現(xiàn)過程,在此不再重述。
[0098]請參閱圖7,本發(fā)明云服務器一實施方式包括:
[0099]學習模塊401,用于對云服務器存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫,還用于在私有短信訓練集和/或公有短信訓練集更新后,對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息,進而使移動終端根據(jù)詞庫更新信息同步更新移動終端中存儲的分類詞庫;具體實現(xiàn)可參考前述步驟S201對應的實現(xiàn)過程,在此不再重述。
[0100]云服務器更新模塊402,用于當分類結果被判定為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,接收移動終端上傳的分類錯誤信息,以及將分類錯誤信息中的待處理短信加入移動終端對應的私有短信訓練集中以更新私有短信訓練集;還用于判斷是否將發(fā)送者號碼加入其存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中,若是則云服務器更新模塊402更新與移動終端對應的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息;具體實現(xiàn)可參考前述步驟S202對應的實現(xiàn)過程,在此不再重述。
[0101]請參閱圖8,本發(fā)明短信過濾系統(tǒng)一實施方式包括移動終端以及服務器:
[0102]移動終端包括:私有黑白名單、公有黑白名單、分類詞庫、分詞詞庫、停用詞庫、私有黑白名單過濾模塊501、公有黑白名單過濾模塊502、分類模塊503、上傳模塊504以及移動終端更新模塊505,其中,私有黑白名單、公有黑白名單、分類詞庫、分詞詞庫及停用詞庫均通過移動終端更新模塊505與云服務器保持同步更新。
[0103]私有黑白名單過濾模塊501以及公有黑白名單過濾模塊502,用于通過私有黑白名單和公有黑白名單對待處理短信進行黑白名單的過濾,實現(xiàn)垃圾短信的初步快速過濾;具體實現(xiàn)可參考前述黑白名單過濾步驟對應的實現(xiàn)過程,在此不再重述。
[0104]分類模塊503用于在待處理短信不在公有、私有黑白名單中時,首先根據(jù)分詞詞庫和停用詞庫對待處理短信進行預處理獲得單詞特征和規(guī)則特征,其次根據(jù)移動終端中存儲的分類詞庫對待處理短信進行分類以獲得分類結果;具體實現(xiàn)可參考前述步驟SlOl對應的實現(xiàn)過程,在此不再重述。
[0105]上傳模塊504,用于當上述分類模塊503的分類結果為錯誤的分類結果且移動終端接收到對應錯誤的分類結果的上傳指令時,將分類錯誤信息上傳到云服務器以更新移動終端對應的私有短信訓練集和私有黑白名單;具體實現(xiàn)可參考前述步驟S102對應的實現(xiàn)過程,在此不再重述。
[0106]移動終端更新模塊505用于獲得云服務器的公有黑白名單更新信息和/或私有黑白名單更新信息以同步更新移動終端存儲的公有黑白名單和/或私有黑白名單;還用于獲得云服務器的詞庫更新信息以同步更新移動終端中存儲的分類詞庫;還用于獲得云服務器的分詞詞庫更新信息和/或停用詞庫更新信息以同步更新移動終端存儲的分詞詞庫和/或停用詞庫;具體實現(xiàn)可參考前述步驟S103對應的實現(xiàn)過程,在此不再重述。
[0107]云服務器包括:分詞詞庫、停用詞庫、公有短信訓練集、私有短信訓練集、公有黑白名單、私有黑白名單、分類詞庫、學習模塊506以及云服務器更新模塊507。其中,分詞詞庫、停用詞庫、公有短信訓練集及公有黑白名單均是垃圾過濾系統(tǒng)中所有移動終端共用的,而私有短信訓練集、私有黑白名單、分類詞庫則是分別對應各個移動終端,每個移動終端均不同。
[0108]學習模塊506,用于根據(jù)云服務器存儲的分詞詞庫以及停用詞庫對云服務器存儲的公有短信訓練集和/或移動終端對應的私有短信訓練集進行學習以獲得與移動終端對應的分類詞庫;還用于在公有短信訓練集和/或私有短信訓練集更新后,對公有短信訓練集和/或私有短信訓練集進行學習以獲得詞庫更新信息,進而使移動終端根據(jù)詞庫更新信息同步更新移動終端中存儲的分類詞庫;具體實現(xiàn)可參考前述步驟S201對應的實現(xiàn)過程,在此不再重述。
[0109]云服務器更新模塊507,用于接收移動終端上傳的分類錯誤信息;還用于將待處理短信加入移動終端對應的私有短信訓練集中以更新私有短信訓練集,以及用于更新公有黑白名單和/或私有黑白名單以獲得公有黑白名單更新信息和/或私有黑白名單更新信息;具體實現(xiàn)可參考前述步驟S202對應的實現(xiàn)過程,在此不再重述。
[0110]公有短信訓練集用于存儲一定數(shù)量的已分類的垃圾短信與非垃圾短信,云服務器獲得的公有短信訓練集中短信對應的單詞特征和規(guī)則特征在公有短信訓練集的垃圾短信中的匹配頻次、公有短信訓練集中垃圾短信數(shù)量、單詞特征和規(guī)則特征在公有短信訓練集的非垃圾短信中的匹配頻次、公有短信訓練集中非垃圾短信數(shù)量可存儲于公有短信訓練集中,也可存儲于云服務器的學習模塊506等其它存儲位置。私有短信訓練集用于存儲移動終端上傳的已分類的垃圾短信與非垃圾短信,同理云服務器獲得的私有短信訓練集中短信對應的單詞特征和規(guī)則特征在私有短信訓練集中的匹配頻次等信息可存儲于私有短信訓練集中,也可存儲于云服務器的學習模塊506等其它存儲位置。分類詞庫用于存儲云服務器對與移動終端對應的私有短信訓練集和公有短信訓練集進行學習而獲得的單詞特征和規(guī)則特征在垃圾短信中的匹配概率以及在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。分詞詞庫用于存儲短信對應的各個有意義的單詞特征。停用詞庫用于存儲對短信分類沒有貢獻的單詞特征,其包括分詞后形成的單個的字、嘆詞、語氣助詞、代詞等。公有黑白名單用于存儲用戶普遍加入黑名單的垃圾短信發(fā)送者號碼以及加入白名單的非垃圾短信發(fā)送者號碼。私有黑白名單用于與移動終端對應的加入黑名單的垃圾短信發(fā)送者號碼以及加入白名單的非垃圾短信發(fā)送者號碼。
[0111]本發(fā)明短信過濾系統(tǒng)為分布式結構,移動終端執(zhí)行短信的分類判斷,利用處理能力較強和處理速度較快的云服務器執(zhí)行分類判斷所需的學習過程,能夠提高垃圾短信的過濾效率,使垃圾短信的過濾具有個性化。
[0112]以上所述僅為本發(fā)明的實施方式,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的【技術領域】,均同理包括在本發(fā)明的專利保護范圍內。
【權利要求】
1.一種垃圾短信過濾方法,其特征在于,包括: 移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果,其中,所述分類結果為垃圾短信或非垃圾短信; 當所述分類結果被判定為錯誤的分類結果且移動終端接收到對應所述錯誤的分類結果的上傳指令時,所述移動終端將分類錯誤信息上傳到云服務器以更新與所述移動終端對應的私有短信訓練集,其中,所述分類錯誤信息包括待處理短信以及錯誤的分類結果; 所述移動終端獲得云服務器的詞庫更新信息以同步更新所述移動終端存儲的分類詞庫,其中,所述詞庫更新信息為在云服務器存儲的與移動終端對應的私有短信訓練集和/或公有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習而獲得。
2.根據(jù)權利要求1所述的方法,其特征在于,所述移動終端根據(jù)其存儲的分類詞庫對待處理短信進行分類以獲得分類結果的步驟具體包括: 所述移動終端對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征; 所述移動終端將分類詞庫中存儲的垃圾短信所占的比例P (C1)、非垃圾短信所占的比例P (C2)、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率P (Xk I C1)以及非垃圾短信中的匹配概率P(XkIc2)代入貝葉斯分類公式中,以獲得所述待處理短信屬于垃圾短信的概率P (C1IX),所述貝葉斯分類公式具體如下所示:
!(;) PiCl IX) = --氣-1k=\ 所述移動終端獲得待處理短信屬于非垃圾短信的概率P (C21X),具體如下所示:
P(C2Ix)=1-P(C1Ix) 所述移動終端獲得待處理短信的分類結果,其中,當P(C11X) >P(C21X)時則所述待處理短信屬于垃圾短信,否則所述待處理短信屬于非垃圾短信。
3.根據(jù)權利要求2所述的方法,其特征在于, 在所述移動終端對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征的步驟之前還包括: 所述移動終端判斷待處理短信的發(fā)送者號碼是否在與移動終端對應的私有黑白名單中,其中,當所述發(fā)送者號碼在與移動終端對應的私有黑名單中時則所述待處理短信屬于垃圾短信,當所述發(fā)送者號碼在與移動終端對應的私有白名單中時則所述待處理短信屬于非垃圾短信; 當所述發(fā)送者號碼不在與移動終端對應的私有黑白名單中時,所述移動終端繼續(xù)判斷發(fā)送者號碼是否在公有黑白名單中,其中,當所述發(fā)送者號碼在公有黑名單中時則所述待處理短信屬于垃圾短信,當所述發(fā)送者號碼在公有白名單中時則所述待處理短信屬于非垃圾短信; 當所述發(fā)送者號碼不在公有黑白名單中時,所述移動終端執(zhí)行所述對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征的步驟。
4.根據(jù)權利要求3所述的方法,其特征在于, 當所述分類結果被判定為錯誤的分類結果且移動終端接收到對應所述錯誤的分類結果的上傳指令時,所述移動終端上傳到云服務器的分類錯誤信息還包括待處理短信的發(fā)送者號碼,所述移動終端將發(fā)送者號碼上傳到云服務器以判斷是否將發(fā)送者號碼加入所述云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中; 當所述云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單更新時,所述移動終端獲得云服務器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動終端存儲的公有黑白名單和/或私有黑白名單。
5.根據(jù)權利要求1或4所述的方法,其特征在于, 所述錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信; 所述詞庫更新信息至少包括私有短信訓練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
6.一種垃圾短信過濾方法,其特征在于,包括: 云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫,所述分類詞庫用于移動終端對待處理短信進行分類以獲得分類結果,其中,所述分類結果為垃圾短信或非垃圾短信; 當所述分類結果被判定為錯誤的分類結果且移動終端接收到對應所述錯誤的分類結果的上傳指令時,所述云服務器接收移動終端上傳的分類錯誤信息,其中,所述分類錯誤信息包括待處理短信以及錯誤的分類結果; 所述云服務器將待處理短信加入與移動終端對應的私有短信訓練集中以更新私有短信訓練集; 在所述私有短信訓練集和/或公有短信訓練集更新后,所述云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息。
7.根據(jù)權利要求6所述的方法,其特征在于, 所述錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信; 當所述錯誤的分類結果為將屬于垃圾短信的待處理短信分類為非垃圾短信時,在所述私有短信訓練集更新后,所述云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息的步驟具體包括: 所述云服務器對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征; 所述云服務器根據(jù)公有短信訓練集中所述單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有訓練集中所述單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息,其中,所述第一詞庫更新信息包括私有短信訓練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例; 當所述錯誤的分類結果為將屬于非垃圾短信的待處理短信分類為垃圾短信時,在所述私有短信訓練集更新后,所述云服務器對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息的步驟具體包括: 所述云服務器對待處理短信進行預處理以獲得待處理短信對應的單詞特征以及規(guī)則特征; 所述云服務器根據(jù)公有短信訓練集中所述單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有訓練集中所述單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有短信訓練集和公有短信訓練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息,其中,所述第二詞庫更新信息包括私有短信訓練集更新后待處理短信的單詞特征以及規(guī)則特征在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
8.根據(jù)權利要求7所述的方法,其特征在于, 所述分類錯誤信息還包括待處理短信的發(fā)送者號碼,所述云服務器判斷是否將發(fā)送者號碼加入云服務器存儲的與移動終端對應的私有黑白名單和/或公有黑白名單中,若是則所述云服務器更新與移動終端對應的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息,以使所述移動終端同步更新移動終端存儲的公有黑白名單和/或私有黑白名單。
9.一種移動終端,其特征在于,包括: 分類模塊,用于根據(jù)移動終端存儲的分類詞庫對待處理短信進行分類以獲得分類結果,其中,所述分類結果為垃圾短信或非垃圾短信,所述分類詞庫為云服務器對其存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習而獲得; 上傳模塊,用于當所述分類結果被判定為錯誤的分類結果且移動終端接收到對應所述錯誤的分類結果的上傳指令時,將分類錯誤信息上傳到云服務器以更新與移動終端對應的私有短信訓練集,其中,所述分類錯誤信息包括待處理短信以及錯誤的分類結果; 移動終端更新模塊,用于獲得云服務器的詞庫更新信息以同步更新所述移動終端中存儲的分類詞庫,其中,所述詞庫更新信息為在私有短信訓練集和/或公有短信訓練集更新后云服務器對私有短信訓練集和公有短信訓練集進行學習而獲得。
10.一種云服務器,其特征在于,包括: 學習模塊,用于對云服務器存儲的與移動終端對應的私有短信訓練集和公有短信訓練集進行學習以獲得與移動終端對應的分類詞庫,所述分類詞庫用于移動終端對待處理短信進行分類以獲得分類結果,其中,所述分類結果為垃圾短信或非垃圾短信; 云服務器更新模塊,當所述分類結果被判定為錯誤的分類結果且移動終端接收到對應所述錯誤的分類結果的上傳指令時,用于接收移動終端上傳的分類錯誤信息,其中,所述分類錯誤信息包括待處理短信以及錯誤的分類結果; 所述云服務器更新模塊還用于將待處理短信加入與移動終端對應的私有短信訓練集中以更新私有短信訓練集; 所述學習模塊還用于在私有短信訓練集和/或公有短信訓練集更新后,對私有短信訓練集和公有短信訓練集進行學習以獲得詞庫更新信息,進而使所述移動終端根據(jù)詞庫更新信息同步更新移動終端中存儲的分類詞庫。
11.一種垃圾短信過濾系統(tǒng),其特征在于,包括:如權利要求9所述的移動終端以及如權利要求10所述的云服務器。
【文檔編號】H04W4/14GK104284306SQ201310279728
【公開日】2015年1月14日 申請日期:2013年7月4日 優(yōu)先權日:2013年7月4日
【發(fā)明者】何通慶, 郭偉, 方禮勇, 杜國楹 申請人:北京壹人壹本信息科技有限公司