專利名稱:一種垃圾短信監(jiān)控的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動通信領(lǐng)域中的短消息業(yè)務(wù),尤其涉及一種基于發(fā)送者行為特征的 垃圾短信監(jiān)控系統(tǒng)及方法。
背景技術(shù):
據(jù)統(tǒng)計(jì),中國手機(jī)用戶數(shù)量已超過6億,平均每天有超過6. 5億條短信在用戶的拇 指之間傳送。然而隨著手機(jī)使用的普及和短信業(yè)務(wù)的迅速發(fā)展,人們享受著快捷方便的通 信手段的同時(shí),伴隨而來的卻是日趨泛濫的垃圾短信。垃圾短信產(chǎn)生的根源在于短信的發(fā) 送成本極其低廉,而獲得的廣告效益卻非常之高。垃圾短信不僅對運(yùn)營商的網(wǎng)絡(luò)產(chǎn)生沖擊, 給廣大用戶的利益也帶來了巨大的損害,更造成了嚴(yán)重的不良的社會影響。國外在垃圾短 信的治理上,主要通過立法和先進(jìn)的技術(shù)手段來識別并處理欺詐性的信息及手機(jī),還有一 整套的打擊手機(jī)犯罪的先進(jìn)技術(shù)手段。在國內(nèi),垃圾短信防控任務(wù)主要由運(yùn)營商主導(dǎo)和負(fù) 責(zé),通常從技術(shù)和管理上采取措施,立法方面還比較欠缺。在目前普遍采用的垃圾短信監(jiān)控技術(shù)中,主要采用的是垃圾短信過濾機(jī)制。從原 理上,又可以分為黑白名單過濾、基于流量的過濾、基于關(guān)鍵字的內(nèi)容過濾幾種方式?;?黑名單的過濾方式是將確定已知垃圾短信制造者的主叫號碼,將其整理成黑名單,并部署 在短消息中心或者短信網(wǎng)關(guān),就可以拒絕來自黑名單的主叫號碼發(fā)送短消息。對黑名單可 以進(jìn)行號段或號碼的攔截。對于白名單的主叫號碼不做任何形式的攔截。基于流量的過濾 方式對用戶在某個(gè)時(shí)間段內(nèi)的群發(fā)數(shù)量進(jìn)行統(tǒng)計(jì),當(dāng)群發(fā)量超過預(yù)先設(shè)定的閾值時(shí),將其 手動或自動添加到黑名單中去?;陉P(guān)鍵字的內(nèi)容過濾方式對手機(jī)內(nèi)容進(jìn)行關(guān)鍵字查詢, 一旦命中,即將發(fā)送號碼加入到黑名單中去。不管是基于流量的過濾方式還是基于關(guān)鍵字的內(nèi)容過濾方式,都有其自身的弊 端?;诹髁康姆绞胶苋菀淄ㄟ^“在多個(gè)手機(jī)發(fā)送少量信息的形式”進(jìn)行屏蔽,同時(shí)這種方 式在很多手機(jī)終端實(shí)現(xiàn)了群發(fā)功能之后容易對過節(jié)類的祝賀短信產(chǎn)生大量的誤殺,而造成 用戶的投訴率的上升?;陉P(guān)鍵詞的方法可以通過“同音詞”、“錯(cuò)別字”、“結(jié)構(gòu)拆分”、“換 詞”等方式規(guī)避。目前運(yùn)營商已部署了大量的垃圾監(jiān)控系統(tǒng),評價(jià)一個(gè)垃圾監(jiān)控系統(tǒng)監(jiān)控效果有兩 個(gè)重要的指標(biāo)查準(zhǔn)率和查全率。查準(zhǔn)率即在檢測出的垃圾短信發(fā)送名單中真正為垃圾短 信發(fā)送者所占的比例;查全率為檢測出的真正為垃圾短信發(fā)送者的數(shù)量占網(wǎng)絡(luò)中實(shí)際垃圾 短信發(fā)送者數(shù)量的比例。顯然,一個(gè)好的垃圾監(jiān)控系統(tǒng)具備較高的查準(zhǔn)率和查全率。目前 運(yùn)營商已部署的基于以上傳統(tǒng)技術(shù)或基于傳統(tǒng)技術(shù)的改良的垃圾監(jiān)控系統(tǒng)這兩個(gè)方面的 指標(biāo)都不夠理想,而不得不依靠大量人力輔助檢查垃圾短信。因此如何提高垃圾短信查準(zhǔn) 率和查全率成為當(dāng)前迫切需要解決的問題。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種垃圾短信監(jiān)控的方法和系統(tǒng),以提高垃圾短信查準(zhǔn)率和查全率。為了解決上述技術(shù)問題,本發(fā)明提供了一種垃圾短信監(jiān)控的方法,包括若根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā)送者列入黑 名單,進(jìn)行垃圾短信的監(jiān)控,所述預(yù)定規(guī)則至少包括若短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征在預(yù)定時(shí)序特征,則將所述短 信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄 的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā) 送者。進(jìn)一步地,上述方法還具有下面特點(diǎn)在根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短 信發(fā)送者的步驟之前,還包括提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄中訓(xùn)練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征 來訓(xùn)練出所述預(yù)定時(shí)序特征;或?qū)⑺鰵v史短信記錄中的有相互通信記錄的節(jié)點(diǎn)之間以邊相連構(gòu)建所述已知垃 圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的社會關(guān)系網(wǎng)絡(luò)圖,通過所述邊數(shù)與所有節(jié) 點(diǎn)之間兩兩相連的總邊數(shù)的比值訓(xùn)練出所述預(yù)定值。進(jìn)一步地,上述方法還具有下面特點(diǎn)所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者在單位時(shí)間內(nèi)發(fā)送短信的條數(shù)超過 閾值。進(jìn)一步地,上述方法還具有下面特點(diǎn)所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟具體包括在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測所述短信發(fā)送者 發(fā)送短信的時(shí)序特征為所述預(yù)定時(shí)序特征,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者;或在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測所述短信發(fā)送者 與其發(fā)送短信的所有接收者之間以有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例 小于所述預(yù)定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。進(jìn)一步地,上述方法還具有下面特點(diǎn)所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括提取所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單;對所述短信話單進(jìn)行預(yù)處理。進(jìn)一步地,上述方法還具有下面特點(diǎn)所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者不在黑名單和白名單上。為了解決上述問題,本發(fā)明還提供了一種垃圾短信監(jiān)控的系統(tǒng),包括檢測模塊,用于若根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短 信發(fā)送者列入黑名單,然后將所述黑名單發(fā)送給監(jiān)控模塊;監(jiān)控模塊,用于根據(jù)所述黑名單進(jìn)行垃圾短信的監(jiān)控,所述預(yù)定規(guī)則至少包括若檢測短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征為預(yù)定時(shí)序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若檢測在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信 記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,則將所述短信發(fā)送者規(guī)定為垃圾短 信發(fā)送者。進(jìn)一步地,上述系統(tǒng)還具有下面特點(diǎn)還包括,訓(xùn)練模塊,用于提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信 記錄中訓(xùn)練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓(xùn)練出所述預(yù)定時(shí)序特征,然 后將所述預(yù)定時(shí)序特征發(fā)送給所述檢測模塊;或用于將所述歷史短信記錄中的有相互通信 記錄的節(jié)點(diǎn)之間以邊相連構(gòu)建所述已知垃圾短信發(fā)送者與其發(fā)送短信的所有接收者之間 的社會關(guān)系網(wǎng)絡(luò)圖,通過所述邊數(shù)與所有節(jié)點(diǎn)之間兩兩相連的總邊數(shù)的比值訓(xùn)練出所述預(yù) 定值,然后將所述預(yù)定值發(fā)送給所述檢測模塊。進(jìn)一步地,上述系統(tǒng)還具有下面特點(diǎn)所述檢測模塊包括,在線檢測模塊,用于在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若 檢測所述短信發(fā)送者發(fā)送短信的時(shí)序特征為所述預(yù)定時(shí)序特征,則判斷所述短信發(fā)送者為 垃圾短信發(fā)送者;或用于在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測 所述短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的 總對數(shù)的比例小于所述預(yù)定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。進(jìn)一步地,上述系統(tǒng)還具有下面特點(diǎn)所述在線檢測模塊在檢測短信發(fā)送者是否 為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者在單位時(shí)間內(nèi)發(fā)送短信的條數(shù)超過閾 值。進(jìn)一步地,上述系統(tǒng)還具有下面特點(diǎn)還包括話單預(yù)處理模塊,用于提取所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,對所 述短信話單進(jìn)行預(yù)處理后發(fā)送給所述在線檢測模塊。進(jìn)一步地,上述系統(tǒng)還具有下面特點(diǎn)所述檢測模塊根據(jù)預(yù)定規(guī)則檢測短信發(fā)送 者為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者不在黑名單和白名單上。有益效果傳統(tǒng)的基于內(nèi)容的垃圾監(jiān)控系統(tǒng)對垃圾短信過濾在查準(zhǔn)率和查全率兩個(gè)指標(biāo)上 都不是很理想,并且需要掃描短信內(nèi)容,系統(tǒng)資源開銷較大。而本發(fā)明提供的垃圾短信監(jiān)控 的方法和系統(tǒng)是基于發(fā)送者行為在時(shí)序和空間上的特征進(jìn)行垃圾短信監(jiān)控,具有較高的查 準(zhǔn)率和查全率,同時(shí)也提高了垃圾短信制造者的規(guī)避成本,并且不需要掃描短信內(nèi)容,系統(tǒng) 性能上也有了很大的提升。
圖1為本發(fā)明的垃圾短信監(jiān)控系統(tǒng)的示意圖;圖2為本發(fā)明的垃圾短信監(jiān)控的方法的流程圖;圖3為本發(fā)明實(shí)施例的垃圾短信監(jiān)控系統(tǒng)的示意圖;圖4為本發(fā)明實(shí)施例的垃圾短信監(jiān)控的方法的流程圖;圖5為本發(fā)明實(shí)施例的訓(xùn)練垃圾短信發(fā)送者的行為特征的流程圖;圖6為本發(fā)明實(shí)施例的在線檢測的流程圖。
具體實(shí)施例方式短信發(fā)送者在行為上具有一定的時(shí)間特征和空間特征,比如很多垃圾短信發(fā)送者 采用機(jī)器群發(fā)的方法發(fā)送商業(yè)廣告,在發(fā)送時(shí)序上所表現(xiàn)的頻率特征和普通短信發(fā)送者有 明顯的區(qū)別。機(jī)器群發(fā)頻率往往比較固定,比如發(fā)送短信的時(shí)間間隔一定,普通短信發(fā)送頻 率不固定,規(guī)律性不強(qiáng)。同樣在空間特征上,正常短信的發(fā)送者具有穩(wěn)定而獨(dú)特的社會關(guān)系網(wǎng)絡(luò)特征,且 關(guān)系較為隱蔽,而垃圾短信發(fā)送者體現(xiàn)出來的社會關(guān)系網(wǎng)絡(luò)混亂且不穩(wěn)定。因?yàn)?,每個(gè)人都 有自己較為固定的社交圈,正常發(fā)送短信的對象大部分為社交圈內(nèi)的,并且每個(gè)人的社交 圈都不同,也就是社會關(guān)系網(wǎng)絡(luò)不同;而垃圾短信發(fā)送的對象之間往往沒有任何關(guān)系。垃圾 短信制造者如果要規(guī)避基于社會關(guān)系網(wǎng)絡(luò)的監(jiān)控,就必須要獲取每個(gè)人的社會關(guān)系網(wǎng)絡(luò), 正因?yàn)槊總€(gè)人都有自己獨(dú)特的社會關(guān)系網(wǎng)絡(luò),所以垃圾短信制造者很難獲取到每個(gè)人的社 會關(guān)系網(wǎng)絡(luò)。簡單地說,關(guān)系較為隱蔽就是說我們通常并不知道別人的社交網(wǎng)絡(luò)怎樣,垃圾 短信制造者群發(fā)垃圾短信要獲取很多人的社交網(wǎng)絡(luò)更困難。本發(fā)明正是利用了垃圾短信發(fā)送者與正常短信發(fā)送者行為在時(shí)間特征和/或空 間特征上的不同進(jìn)行垃圾短信的監(jiān)控。通過分析垃圾短信制造者的時(shí)間特征和空間特征, 來提取時(shí)序特征和社會關(guān)系網(wǎng)絡(luò)特征,訓(xùn)練構(gòu)造垃圾短信制造者的時(shí)序特征和社會關(guān)系網(wǎng) 絡(luò)的度量模型,并用該模型用來度量短信發(fā)送者屬于垃圾制造者的概率。訓(xùn)練構(gòu)造垃圾短信制造者的時(shí)序特征和社會關(guān)系網(wǎng)絡(luò)的度量模型的過程實(shí)際上 就是,在獲取了一組已知的垃圾短信制造者名單的前提下,通過分析這組垃圾短信制造者 在時(shí)間和空間上的特征,提取出在時(shí)序上以及在社會關(guān)系網(wǎng)絡(luò)上具有共性的特征,以參數(shù) 值的形式體現(xiàn),作為檢驗(yàn)其他短信發(fā)送者是否為垃圾短信發(fā)送者的參照。時(shí)序特征模型就是從垃圾短信發(fā)送者的歷史短信記錄中訓(xùn)練分析得出的一組發(fā) 送短信的頻率特征參數(shù),例如,在某段時(shí)間內(nèi)所發(fā)送的每條短信之間在發(fā)送時(shí)間間隔上有 一定的規(guī)律,比如某個(gè)垃圾短信發(fā)送者每隔1秒發(fā)送一條短信,那么表現(xiàn)出的特征就是時(shí) 間間隔為1秒。而有些低頻的垃圾短信發(fā)送用戶可能為了逃避監(jiān)控發(fā)送的時(shí)間間隔會故意 設(shè)置得長一些,但是只要是通過機(jī)器群發(fā)的,在發(fā)送時(shí)間間隔上總會表現(xiàn)出一定的規(guī)律性。社會關(guān)系網(wǎng)絡(luò)特征(即空間特征模型)可以從一定時(shí)期內(nèi)發(fā)送者與接收者之間的 短信通信記錄的情況體現(xiàn)出來。垃圾短信接收者之間的社會關(guān)系比較疏遠(yuǎn),即相互之間的 通信記錄較少??梢岳盟卸绦沤邮照?包括短信發(fā)送者)之間有相互通信記錄的對數(shù) (例如,有發(fā)信有回信的兩用戶為一對)與所有短信接收者(短信發(fā)送者)之間兩兩組合的 總對數(shù)的比例,來衡量短信發(fā)送者與所有接收者之間的社會關(guān)系密切度。對垃圾短信的發(fā) 送者和接收者之間的社會關(guān)系比例一般很小??梢酝ㄟ^歷史短信記錄構(gòu)造出包含短信發(fā)送者與所有短信接收者之間的社會關(guān) 系網(wǎng)絡(luò)圖,將各個(gè)短信發(fā)送者與所有短信接收者分別視為一個(gè)節(jié)點(diǎn),互相有通信記錄的節(jié) 點(diǎn)之間以邊相連,然后可以根據(jù)該圖計(jì)算出的節(jié)點(diǎn)聚合程度參數(shù),具體可以用圖中實(shí)際相 連的邊數(shù)與各節(jié)點(diǎn)兩兩相連的總邊數(shù)的比例來衡量。圖的邊數(shù)越多意味著節(jié)點(diǎn)聚合程度越 高,通常由垃圾短信制造者構(gòu)造的社會關(guān)系網(wǎng)絡(luò)圖中節(jié)點(diǎn)聚合程度較低。垃圾短信制造者有高頻發(fā)送用戶和低頻發(fā)送用戶之分。高頻發(fā)送用戶由于在短時(shí)
7間內(nèi)發(fā)送大量垃圾短信,造成的危害性較大;低頻發(fā)送用戶不會在短時(shí)間內(nèi)產(chǎn)生大量垃圾 短信,短期內(nèi)不會造成危害。針對兩種情況,垃圾監(jiān)控系統(tǒng)需要在短時(shí)間內(nèi)檢測出高頻發(fā)送用戶,在一定時(shí)期 內(nèi)檢測出低頻發(fā)送用戶。為了滿足該要求,本發(fā)明采用了在線檢測和離線檢測相結(jié)合的方 法。在線檢測針對高頻發(fā)送用戶,考察當(dāng)前一段時(shí)間內(nèi)數(shù)據(jù),具有較強(qiáng)的時(shí)效性;離線檢測 考察一定時(shí)期(比如1周內(nèi)的數(shù)據(jù)),作為在線檢測的補(bǔ)充,離線檢測可以檢測出在線檢測 無法發(fā)現(xiàn)的低頻垃圾短信發(fā)送用戶。為了實(shí)現(xiàn)基于時(shí)序特征和空間特征的垃圾短信檢測,首先需要對一定時(shí)間內(nèi)歷史 話單中的垃圾短信制造者的短信發(fā)送記錄作為短信訓(xùn)練集合進(jìn)行離線的訓(xùn)練,以得到垃圾 短信制造者的時(shí)序特征和社會關(guān)系網(wǎng)絡(luò)度量模型,訓(xùn)練過程包括提取發(fā)送者時(shí)序特征和社 會關(guān)系網(wǎng)絡(luò)特征,進(jìn)行聚類分析,統(tǒng)計(jì)得到垃圾短信發(fā)送者的規(guī)律,最終生成包含垃圾短信 發(fā)送規(guī)律參數(shù)的模型文件。在進(jìn)行垃圾短信檢測時(shí),同樣提取實(shí)時(shí)短信中發(fā)送者的時(shí)序特征和社會關(guān)系網(wǎng)絡(luò) 特征,通過計(jì)算該樣本與模型文件相似度從而確定發(fā)送者是否為垃圾短信發(fā)送者。訓(xùn)練的 過程是自適應(yīng)的,系統(tǒng)會定期取話單進(jìn)行訓(xùn)練,并調(diào)整模板庫。在系統(tǒng)進(jìn)行垃圾短信檢測時(shí),首先,進(jìn)行基于黑白名單的檢測,如果短信發(fā)送者在 黑白名單列表上,則直接跳過該用戶。因?yàn)楹诿麊螢橐呀?jīng)確定為垃圾短信發(fā)送者用戶或者 是被運(yùn)營商設(shè)定禁止發(fā)送短信的特定用戶,對黑名單用戶再作檢測沒有意義,垃圾短信監(jiān) 控的目的就是找出垃圾短信發(fā)送者,將其加入到黑名單列表,既然已經(jīng)在黑名單列表上了 就無需再檢測了。同樣,白名單用戶通常為運(yùn)營商設(shè)定的不作監(jiān)控的用戶,白名單用戶不管 發(fā)送什么樣的短信,垃圾短信監(jiān)控系統(tǒng)都不能作為垃圾短信制造者來處理,因此對白名單 監(jiān)控也沒有意義。然后,可以進(jìn)行基于時(shí)序特征和/或空間特征的檢測,并且可以在線檢測 和離線檢測并行進(jìn)行;最后,可以對幾種不同的檢測方法導(dǎo)出的黑名單取并集,并將黑名單 同步給BOSS (業(yè)務(wù)操作支撐系統(tǒng))。為了更好地理解本發(fā)明,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步地描述。圖1為本發(fā)明的垃圾短信監(jiān)控系統(tǒng)的示意圖,如圖1所示,本發(fā)明的垃圾短信監(jiān)控 系統(tǒng)主要包括檢測模塊和監(jiān)控模塊,其中,檢測模塊,用于若根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短 信發(fā)送者列入黑名單,然后將所述黑名單發(fā)送給監(jiān)控模塊;監(jiān)控模塊,用于根據(jù)所述黑名單進(jìn)行垃圾短信的監(jiān)控,所述預(yù)定規(guī)則至少包括若檢測短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征為預(yù)定時(shí)序特征,例如在 單位時(shí)間內(nèi)發(fā)送短信的時(shí)間間隔一定,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若檢測在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信 記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,例如小于10%,則將所述短信發(fā)送 者規(guī)定為垃圾短信發(fā)送者。這樣,本發(fā)明的垃圾短信監(jiān)控系統(tǒng)即可以根據(jù)垃圾短信發(fā)送者的時(shí)序特征和/或 空間特征,實(shí)現(xiàn)對垃圾短信的監(jiān)控,以提高垃圾短信的查準(zhǔn)率和查全率。進(jìn)一步地,本發(fā)明的垃圾短信監(jiān)控系統(tǒng)還可以包括
訓(xùn)練模塊,用于提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信 記錄中訓(xùn)練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓(xùn)練出所述預(yù)定時(shí)序特征,然 后將所述預(yù)定時(shí)序特征發(fā)送給所述檢測模塊;或?qū)⑺鰵v史短信記錄中的有相互通信記 錄的節(jié)點(diǎn)之間以邊相連構(gòu)建所述已知垃圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的 社會關(guān)系網(wǎng)絡(luò)圖,通過所述邊數(shù)與所有節(jié)點(diǎn)之間兩兩相連的總邊數(shù)的比值訓(xùn)練出所述預(yù)定 值,然后將所述預(yù)定值發(fā)送給所述檢測模塊。這樣,本發(fā)明的垃圾短信監(jiān)控系統(tǒng)可以針對不同運(yùn)營商,訓(xùn)練出不同的時(shí)序特征 模型和空間特征模型。圖2為本發(fā)明的垃圾短信監(jiān)控的方法的流程圖,如圖2所述,本發(fā)明的方法包括下 面步驟步驟10,根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者是否為垃圾短信發(fā)送者,若是,則執(zhí)行步驟 20,否則重復(fù)執(zhí)行步驟10;步驟20,將所述短信發(fā)送者列入黑名單,進(jìn)行垃圾短信的監(jiān)控。其中,所述預(yù)定規(guī)則至少包括若短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征在預(yù)定時(shí)序特征,例如在預(yù)定 時(shí)間段內(nèi)發(fā)送短信的時(shí)間間隔一定,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄 的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā) 送者。這樣,根據(jù)本發(fā)明的垃圾短信監(jiān)控的方法即可基于垃圾短信發(fā)送者的時(shí)序特征和 /或空間特征,實(shí)現(xiàn)對垃圾短信的監(jiān)控,以提高垃圾短信的查準(zhǔn)率和查全率。優(yōu)選地,在步驟10之前,還可以包括下面步驟提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄中訓(xùn)練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征 來訓(xùn)練出所述預(yù)定時(shí)序特征;或?qū)⑺鰵v史短信記錄中的有相互通信記錄的節(jié)點(diǎn)之間以邊相連構(gòu)建所述已知垃 圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的社會關(guān)系網(wǎng)絡(luò)圖,通過所述邊數(shù)與所有節(jié) 點(diǎn)之間兩兩相連的總邊數(shù)的比值訓(xùn)練出所述預(yù)定值。下面通過具體實(shí)施例對本發(fā)明作詳細(xì)的說明。圖3為本發(fā)明實(shí)施例的垃圾短信監(jiān)控系統(tǒng)的示意圖,如圖3所示,本實(shí)施例的垃圾 監(jiān)控系統(tǒng)包括話單預(yù)處理模塊、訓(xùn)練模塊、人工標(biāo)注模塊、檢測模塊和黑白名單管理模塊。話單預(yù)處理模塊,負(fù)責(zé)對短信中心話單進(jìn)行預(yù)處理,主要功能為去除重復(fù)記錄,去 除非點(diǎn)對點(diǎn)短信,去除非目標(biāo)運(yùn)營商話單,提取有用字段,轉(zhuǎn)換格式為系統(tǒng)內(nèi)部格式和入庫 操作。話單記錄中有些記錄是因?yàn)橄到y(tǒng)原因發(fā)送失敗重試的記錄,這種記錄只能當(dāng)作1 條短信來處理;有些短信記錄是運(yùn)營商客服系統(tǒng)群發(fā)給用戶的,并非用戶發(fā)送的,無需監(jiān)控 要去除;運(yùn)營商只監(jiān)控屬于本運(yùn)營商的用戶,對于非本運(yùn)營商用戶發(fā)送短信給本運(yùn)營商用 戶,在短信中心也會產(chǎn)生話單記錄,對這類記錄也無需監(jiān)控;話單記錄會有很多字段,但對 于垃圾短信監(jiān)控只需要用到其中很少一部分字段,只需要提取有用字段。另外,還需要把話單轉(zhuǎn)換為系統(tǒng)內(nèi)部能夠識別的格式。其中,話單預(yù)處理模塊可以通過FTP(File Transfer Protocol,文件傳輸協(xié)議)方 式獲取短信中心的原始話單。訓(xùn)練模塊,用于訓(xùn)練已知為垃圾短信發(fā)送者的歷史話單,產(chǎn)生用于垃圾短信檢測 的模型文件。人工標(biāo)注模塊、主要用于在訓(xùn)練垃圾短信發(fā)送者的模型前對候選出的可能為垃圾 短信發(fā)送者的用戶正確地進(jìn)行用戶類別的標(biāo)注,以便模型訓(xùn)練得到的模型文件更加準(zhǔn)確地 符合垃圾短信發(fā)送者的規(guī)律特征。本實(shí)施例中的檢測模塊可以包括在線時(shí)序檢測模塊,用于在線檢測短信發(fā)送者的時(shí)序特征并導(dǎo)出黑名單。在線空間檢測模塊,用于在線檢測短信發(fā)送者的社會關(guān)系網(wǎng)絡(luò)特征并導(dǎo)出黑名 離線空間檢測模塊,用于離線檢測短信發(fā)送者的社會關(guān)系網(wǎng)絡(luò)特征并導(dǎo)出黑名黑白名單管理模塊,對以上3個(gè)檢測模塊導(dǎo)出的黑名單取并集后,將結(jié)果同步給 BOSS,并從BOSS獲取黑白名單列表同步給檢測模塊。黑白名單管理模塊和BOSS之間也可以通過FTP方式同步黑白名單。圖4為本發(fā)明實(shí)施例的垃圾短信監(jiān)控的方法的流程圖,如圖4所示,具體流程包括 如下步驟步驟201,獲取短信中心的原始話單,進(jìn)行預(yù)處理。話單預(yù)處理模塊預(yù)處理包括去除重復(fù)記錄,去除非點(diǎn)對點(diǎn)短信,去除非目標(biāo)運(yùn)營 商話單,提取有用字段,轉(zhuǎn)換格式為系統(tǒng)內(nèi)部格式,同時(shí)按提交短信的時(shí)間順序進(jìn)行排序, 其中,提取的有用字段包括消息id、發(fā)送者號碼、接收者號碼、短信提交時(shí)間、短信長度和 短信內(nèi)容。然后,話單預(yù)處理模塊將預(yù)處理后的短信話單發(fā)送給檢測模塊。步驟202,檢測模塊逐條掃描預(yù)處理后的話單,只記錄提交時(shí)間和發(fā)送者號碼和接 收者號碼。步驟203,檢測模塊對每條記錄進(jìn)行基于黑白名單的過濾,如果用戶在黑白名單列 表上,則直接忽略該用戶。步驟204,根據(jù)訓(xùn)練模塊訓(xùn)練產(chǎn)生的模型文件,基于短信發(fā)送者時(shí)序特征和/或空 間特征的進(jìn)行檢測。本實(shí)施例中可以進(jìn)行在線檢測,也可以進(jìn)行離線檢測,在線檢測可以對短信發(fā)送 者的時(shí)序特征進(jìn)行檢測,也可以對短信發(fā)送者的空間特征進(jìn)行檢測。離線檢測一般檢測短 信發(fā)送者在歷史一段時(shí)間內(nèi)的空間特征。在線時(shí)序檢測模塊、在線空間檢測模塊和離線空間檢測模塊可以并行操作,也可 以單獨(dú)操作。在線時(shí)序檢測模塊、在線空間檢測模塊分析當(dāng)前一段時(shí)間內(nèi)掃描到的用戶發(fā)送短 信的特征,離線空間檢測通常分析用戶在歷史較長一段時(shí)間內(nèi)(例如,一周)的社會關(guān)系網(wǎng) 絡(luò)特征。
10
步驟205,將檢測出的垃圾短信發(fā)送者列入黑名單。若以上3種檢測模塊并行操作,將獨(dú)立產(chǎn)生黑名單,黑白名單管理模塊對3個(gè)檢測 模塊導(dǎo)出的黑名單取并集得到最終的黑名單列表。這3個(gè)檢測模塊可以從3個(gè)角度檢測垃圾短信發(fā)送者,從檢測結(jié)果看,這3種方法 檢測出來的大部分黑名單都是相同的。這3種方法并行使用的目的是為了互補(bǔ),可能有少 部分垃圾短信發(fā)送者,有些方法能監(jiān)控到,有些監(jiān)控不到。比如低頻率的垃圾短信發(fā)送者通 過在線檢測方法比較難監(jiān)控到,而通過離線方法能監(jiān)控到。另外3種方法并行使用也起到 了提高垃圾短信制造者規(guī)避成本的目的。步驟206,黑白名單管理模塊將黑名單列表同步給BOSS。BOSS會把黑名單提供給短信中心的臨控模塊,短信中心在發(fā)送短信時(shí)會首先檢查 發(fā)送者是否在黑名單上,如果在黑名單上則禁止該用戶發(fā)送短信。圖5為本發(fā)明實(shí)施例的訓(xùn)練垃圾短信發(fā)送者的行為特征的流程圖;如圖5所示,具 體流程包括如下步驟步驟301,提取一段時(shí)期的歷史話單作預(yù)處理并入庫。步驟302,根據(jù)已有的經(jīng)驗(yàn)?zāi)P统醪将@取認(rèn)為可能為垃圾短信發(fā)送者的候選訓(xùn)練集。所述已有的經(jīng)驗(yàn)?zāi)P褪侵竿ㄟ^分析運(yùn)營商歷史話單數(shù)據(jù)中垃圾短信制造者的時(shí) 序特征和空間特征規(guī)律得出的一組參數(shù)。步驟303,評估訓(xùn)練集規(guī)模,如果訓(xùn)練集規(guī)模不夠,表明其中垃圾短信發(fā)送者數(shù)量 不大,則由該訓(xùn)練集訓(xùn)練得到的模型文件統(tǒng)計(jì)意義不大,須要重新返回步驟301獲取更多 話單重新進(jìn)行訓(xùn)練。如果認(rèn)為訓(xùn)練集規(guī)模足夠則進(jìn)入步驟304進(jìn)行下一步工作。步驟304,對訓(xùn)練集進(jìn)行人工標(biāo)注,利用人工標(biāo)注模塊提供的標(biāo)注工具,查看訓(xùn)練 集每個(gè)用戶所發(fā)送的短信,根據(jù)人工判斷對訓(xùn)練集用戶進(jìn)行分類標(biāo)注。人工分類標(biāo)注通常通過查看短信內(nèi)容,根據(jù)發(fā)送的短信內(nèi)容來判定該用戶有沒有 發(fā)送垃圾短信,通常垃圾短信的判定標(biāo)準(zhǔn)還要結(jié)合運(yùn)營商的要求。人工分類標(biāo)注通常將用戶分成4類,即正常短信發(fā)送者、垃圾短信發(fā)送者、混合短 信發(fā)送者和其它短信發(fā)送者。其中,混合短信發(fā)送者既發(fā)送了正常的短信又發(fā)送了垃圾短 信,其他短信發(fā)送者通常為亂碼或運(yùn)營商群發(fā)的祝福類短信。步驟305,根據(jù)標(biāo)注結(jié)果提取垃圾短信發(fā)送者的歷史話單,來訓(xùn)練時(shí)序特征和空間 特征。其中,可以將時(shí)序特征轉(zhuǎn)換為頻域信息,提取的空間特征參數(shù)可以包括發(fā)送短信 條數(shù)、接收短信條數(shù)、回復(fù)短信的接收者的數(shù)量、有相互通信記錄的接收者的對數(shù)等,可以 通過回復(fù)短信的數(shù)量,即有相互通信記錄的對數(shù),訓(xùn)練出空間特征模型。步驟306,通過頻域分析和社會關(guān)系網(wǎng)絡(luò)分析,確定垃圾短信發(fā)送者發(fā)送規(guī)律,分 別產(chǎn)生基于時(shí)序特征的模型文件和基于空間特征的模型文件。步驟307,將生成的模型文件同步給檢測模塊。根據(jù)不同運(yùn)營商對查準(zhǔn)率和查全率的不同要求,模型文件可以靈活調(diào)整。比如,如 果運(yùn)營商希望更高的查全率,則訓(xùn)練時(shí)對標(biāo)注為混合短信發(fā)送者這類用戶將歸為垃圾短信 來處理;如果運(yùn)營商希望更高的查準(zhǔn)率,則訓(xùn)練時(shí)只對標(biāo)注為垃圾短信發(fā)送者的用戶進(jìn)行訓(xùn)練。圖6為本發(fā)明實(shí)施例的在線檢測的流程圖,如圖6所示,具體流程包括如下步驟步驟401,逐條掃描預(yù)處理后的話單,只記錄提交時(shí)間和短信發(fā)送者和接收者的號 碼。步驟402,進(jìn)行在線檢測條件觸發(fā)判斷,滿足一定觸發(fā)條件才會進(jìn)入步驟403啟動 在線檢測算法,否則返回步驟401繼續(xù)掃描話單。比如用戶在單位時(shí)間內(nèi)發(fā)送短信條數(shù)超過一定閾值,這個(gè)閾值可以根據(jù)實(shí)際檢測 狀況進(jìn)行調(diào)整,則啟動在線檢測相關(guān)算法。步驟403,提取實(shí)時(shí)短信發(fā)送者的時(shí)序特征和空間特征。步驟404,確定該短信發(fā)送者的時(shí)序特征和空間特征后,與訓(xùn)練出的模型文件相比 較,從而判斷該發(fā)送者是否為垃圾發(fā)送者。本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過程序來指令 相關(guān)硬件完成,所述程序可以存儲于計(jì)算機(jī)可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤 等。可選地,上述實(shí)施例的全部或部分步驟也可以使用一個(gè)或多個(gè)集成電路來實(shí)現(xiàn)。相應(yīng) 地,上述實(shí)施例中的各模塊/單元可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的 形式實(shí)現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。以上僅為本發(fā)明的優(yōu)選實(shí)施例,當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本 發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變 和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
一種垃圾短信監(jiān)控的方法,包括若根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā)送者列入黑名單,進(jìn)行垃圾短信的監(jiān)控,所述預(yù)定規(guī)則至少包括若短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征在預(yù)定時(shí)序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者。
2.如權(quán)利要求1所述的方法,其特征在于在根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短 信發(fā)送者的步驟之前,還包括提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄中訓(xùn)練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓(xùn) 練出所述預(yù)定時(shí)序特征;或?qū)⑺鰵v史短信記錄中的有相互通信記錄的節(jié)點(diǎn)之間以邊相連構(gòu)建所述已知垃圾短 信發(fā)送者與其發(fā)送短信的所有接收者之間的社會關(guān)系網(wǎng)絡(luò)圖,通過所述邊數(shù)與所有節(jié)點(diǎn)之 間兩兩相連的總邊數(shù)的比值訓(xùn)練出所述預(yù)定值。
3.如權(quán)利要求1所述的方法,其特征在于所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者在單位時(shí)間內(nèi)發(fā)送短信的條數(shù)超過閾值。
4.如權(quán)利要求3所述的方法,其特征在于所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟具體包括在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測所述短信發(fā)送者發(fā)送 短信的時(shí)序特征為所述預(yù)定時(shí)序特征,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者;或在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測所述短信發(fā)送者與其 發(fā)送短信的所有接收者之間以有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于 所述預(yù)定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。
5.如權(quán)利要求4所述的方法,其特征在于所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾 短信發(fā)送者的步驟之前,還包括提取所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單; 對所述短信話單進(jìn)行預(yù)處理。
6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于所述根據(jù)預(yù)定規(guī)則檢測短信發(fā)送 者為垃圾短信發(fā)送者的步驟之前,還包括檢測所述短信發(fā)送者不在黑名單和白名單上。
7.一種垃圾短信監(jiān)控的系統(tǒng),包括檢測模塊,用于若根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā) 送者列入黑名單,然后將所述黑名單發(fā)送給監(jiān)控模塊; 監(jiān)控模塊,用于根據(jù)所述黑名單進(jìn)行垃圾短信的監(jiān)控, 所述預(yù)定規(guī)則至少包括若檢測短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征為預(yù)定時(shí)序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若檢測在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄 的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā) 送者。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于還包括,訓(xùn)練模塊,用于提取已知垃圾短信發(fā)送者的歷史短信記錄,通過從所述歷史短信記錄 中訓(xùn)練得到已知垃圾短信發(fā)送者發(fā)送短信的頻率特征來訓(xùn)練出所述預(yù)定時(shí)序特征,然后將 所述預(yù)定時(shí)序特征發(fā)送給所述檢測模塊;或用于將所述歷史短信記錄中的有相互通信記 錄的節(jié)點(diǎn)之間以邊相連構(gòu)建所述已知垃圾短信發(fā)送者與其發(fā)送短信的所有接收者之間的 社會關(guān)系網(wǎng)絡(luò)圖,通過所述邊數(shù)與所有節(jié)點(diǎn)之間兩兩相連的總邊數(shù)的比值訓(xùn)練出所述預(yù)定 值,然后將所述預(yù)定值發(fā)送給所述檢測模塊。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于所述檢測模塊包括,在線檢測模塊,用于在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測 所述短信發(fā)送者發(fā)送短信的時(shí)序特征為所述預(yù)定時(shí)序特征,則判斷所述短信發(fā)送者為垃圾 短信發(fā)送者;或用于在線檢測所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,若檢測所述 短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的總對 數(shù)的比例小于所述預(yù)定值,則判斷所述短信發(fā)送者為垃圾短信發(fā)送者。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于所述在線檢測模塊在檢測短信發(fā)送者是否 為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者在單位時(shí)間內(nèi)發(fā)送短信的條數(shù)超過閾值。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于還包括話單預(yù)處理模塊,用于提取所述短信發(fā)送者在當(dāng)前一段時(shí)間內(nèi)的短信話單,對所述短 信話單進(jìn)行預(yù)處理后發(fā)送給所述在線檢測模塊。
12.如權(quán)利要求7-11任一項(xiàng)所述的系統(tǒng),其特征在于所述檢測模塊根據(jù)預(yù)定規(guī)則檢 測短信發(fā)送者為垃圾短信發(fā)送者之前還用于,檢測所述短信發(fā)送者不在黑名單和白名單上。
全文摘要
本發(fā)明提供一種垃圾短信監(jiān)控的方法和系統(tǒng),該方法,包括若根據(jù)預(yù)定規(guī)則檢測短信發(fā)送者為垃圾短信發(fā)送者,則將所述短信發(fā)送者列入黑名單,進(jìn)行垃圾短信的監(jiān)控,所述預(yù)定規(guī)則至少包括若短信發(fā)送者在預(yù)定時(shí)間段內(nèi)發(fā)送短信的時(shí)序特征在預(yù)定時(shí)序特征,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者;或若在預(yù)定時(shí)間段內(nèi)短信發(fā)送者與其發(fā)送短信的所有接收者之間有相互通信記錄的對數(shù)與其兩兩組合的總對數(shù)的比例小于預(yù)定值,則將所述短信發(fā)送者規(guī)定為垃圾短信發(fā)送者。本發(fā)明基于發(fā)送者行為在時(shí)序和空間上的特征進(jìn)行垃圾短信監(jiān)控,具有較高的查準(zhǔn)率和查全率。
文檔編號H04W24/00GK101909261SQ20101025275
公開日2010年12月8日 申請日期2010年8月10日 優(yōu)先權(quán)日2010年8月10日
發(fā)明者馮亞軍, 王飛, 謝鋼鋒, 邢剛 申請人:中興通訊股份有限公司