專利名稱:一種垃圾消息的識別方法、裝置和系統(tǒng)的制作方法
一種垃:敗消息的識別方法、裝置和系統(tǒng)技術(shù)領(lǐng)域本申請涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,特別涉及一種垃圾消息的識別方法、裝 置和系統(tǒng)。背景4支術(shù)隨著通信技術(shù)的發(fā)展,各種通訊系統(tǒng)的發(fā)明使用大大方便了用戶之間的 相互交流。兩個或兩個以上的客戶端可以通過通訊網(wǎng)絡(luò)進4亍連4妾,即時地傳 遞文字、檔案、語音和視頻信息。然而,在大量的通訊消息中存在著相當一部分無用的、甚至帶有欺騙性 質(zhì)的垃圾消息,不僅給通訊系統(tǒng)中的服務(wù)器增加了額外的負擔,也給處于客 戶端的用戶造成了極其惡劣的影響。用戶接收到垃圾消息后,需要花費大量 的時間用于確認接收到的消息是否有用以及刪除確認無用的垃圾消息,甚至 還會由于大量的垃圾消息的聚集而錯過正常消息的接收,嚴重干擾了用戶之 間的正常交流。同時,大量的垃圾消息也會影響即時通訊系統(tǒng)運營商的信譽, 給網(wǎng)絡(luò)監(jiān)管帶來困難,甚至會使運營商的生產(chǎn)環(huán)境短時間內(nèi)癱瘓,使運營商 蒙受巨額的經(jīng)濟損失?,F(xiàn)有技術(shù)中,通常采用預設(shè)的關(guān)鍵詞對接收到的通訊消息進行過濾,以識別垃圾消息,具體步驟包括首先,通過對大量的垃圾消息的分析,總結(jié) 垃圾消息中常用到的一些關(guān)鍵詞,組成關(guān)鍵詞庫,放置到即時通訊系統(tǒng)服務(wù) 器或客戶端中,關(guān)鍵詞可以是"中獎"、"服裝大甩賣"、"匯款"、"轉(zhuǎn) 讓,,等詞語,在很大程度上表明該信息是以宣傳、廣告、詐騙等為目的的垃 圾信息;其次,接收到通訊消息后,提取該通訊消息的消息內(nèi)容,以供查驗; 最后,對照關(guān)鍵詞庫,查驗接收到的通訊消息的信息內(nèi)容中是否含有關(guān)鍵詞 庫內(nèi)存儲的關(guān)鍵詞,如果該消息內(nèi)容中含有關(guān)鍵詞,則判定該通訊消息為垃圾消息,對該通訊消息進行丟棄;如果該消息內(nèi)容中不含有關(guān)鍵詞,則判定 該通訊消息為正常消息。另外,還采用預i殳的正則表達式(regular expression )對4矣收到的通訊消 息的消息內(nèi)容中的某種格式進行匹配,以識別垃圾消息。正則表達式描述了 一種字符串匹配的模式,可以用于檢查一個字符串是否含有某種子字符串、 將匹配的子字符串做替換或者從某個字符串中取出符合某個條件的子字符串 等。正則表達式判斷消息內(nèi)容中是否存在匹配的關(guān)鍵特征,如網(wǎng)址、電話號 碼、即時通訊聯(lián)系號碼等信息,如果消息內(nèi)容中存在匹配的關(guān)鍵特征,則判 定該通訊消息為垃:圾消息。現(xiàn)有技術(shù)也可以對上述兩種識別垃圾消息的方法進行組合,綜合使用預 設(shè)的關(guān)鍵詞和正則表達式,過濾接收到的通訊消息,以識別垃圾消息。在實現(xiàn)本申請的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題現(xiàn)有技術(shù)中,通過對消息內(nèi)容進行規(guī)則匹配識別垃圾消息,識別的準確 率取決于關(guān)鍵詞和正則表達式的設(shè)定是否合適。關(guān)鍵詞和正則表達式一般是 根據(jù)經(jīng)驗設(shè)定或者從已經(jīng)標記為垃圾消息的消息中選取,具有一定的隨意性, 無法識別不在關(guān)鍵詞范圍內(nèi)或關(guān)鍵詞出現(xiàn)頻率較低的垃圾消息。而符合垃圾 消息的部分特征、但不屬于垃圾消息的消息,卻容易被誤判為垃圾消息。例 如,某些垃圾消息中包含"視頻聊天"的詞語,如果把"視頻聊天"設(shè)定為 關(guān)鍵詞來識別垃圾消息,則用戶希望邀請其他人進行視頻聊天的、包含"視 頻聊天,,的正常消息就會被誤判為垃圾消息。因此,現(xiàn)有的垃圾消息的識別 方法,僅僅對消息內(nèi)容進行機械式的識別,沒有考慮到消息發(fā)送的場景,對 垃圾消息的識別結(jié)果存在^艮大的誤判率和漏判率。發(fā)明內(nèi)容本申請?zhí)峁┮环N垃圾消息的識別方法、裝置和系統(tǒng),提高了識別垃圾消 息的準確率。本申請?zhí)峁┮环N垃圾消息的識別方法,包括 提取通訊消息中的發(fā)送方信息;根據(jù)所述提取的發(fā)送方信息,判斷所述通訊消息的發(fā)送方是否為可預期 發(fā)送方,如果所述通訊消息的發(fā)送方不是所述可預期發(fā)送方,則識別所述通 訊消息為垃圾消息,或繼續(xù)對所述通訊消息進行識別。本申請還提供一種通訊設(shè)備,包括 提取模塊,用于提取通訊消息中的發(fā)送方信息;第一判斷模塊,用于根據(jù)所述提取模塊提取的發(fā)送方信息,判斷所述通 訊消息的發(fā)送方是否為可預期發(fā)送方;識別模塊,用于在所述第一判斷模塊判斷所述通訊消息的發(fā)送方不是所 述可預期發(fā)送方時,識別所述通訊消息為垃圾消息,或繼續(xù)對所述通訊消息 進行識別。本申請還提供一種通訊系統(tǒng),包括第一通訊設(shè)備,用于提取通訊消息中的發(fā)送方信息,根據(jù)所述提取的發(fā) 送方信息,判斷所述通訊消息的發(fā)送方是否為可預期發(fā)送方,在所述通訊消 息的發(fā)送方不是所述可預期發(fā)送方時,將所述通訊消息標記為待識別消息, 向第二通訊設(shè)備轉(zhuǎn)發(fā)標記后的通訊消息;第二通訊設(shè)備,用于根據(jù)以下內(nèi)容中的至少一項,對接收到的來自所述 第 一通訊設(shè)備的通訊消息進行識別預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項。本申請包括以下優(yōu)點,由于通過判斷通訊消息的發(fā)送方是否為可預期用 戶,進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識 別垃圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任 一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
為了更清楚地說明本申請或現(xiàn)有技術(shù)的技術(shù)方案,下面將對本申請或現(xiàn) 有技術(shù)描述中所需要使用的附圖作筒單地介紹,顯而易見地,下面描述中的 附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出 創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請實施例一中的一種垃圾消息的識別方法流程圖; 圖2為本申請實施例二中的一種垃圾消息的識別方法流程圖; 圖3為本申請實施例三中的一種垃圾消息的識別方法流程圖; 圖4為本申請實施例四中的一種垃圾消息的識別方法流程圖; 圖5為本申請實施例五中的一種垃圾消息的識別方法流程圖; 圖6為本申請實施例六中的一種垃圾消息的識別方法流程圖; 圖7為本申請實施例七中的一種通訊設(shè)備結(jié)構(gòu)示意圖; 圖8為本申請實施例八中的一種通訊系統(tǒng)結(jié)構(gòu)示意圖。
具體實施方式
本申請的主要思想包括,提取通訊消息中的發(fā)送方信息;根據(jù)提取的發(fā) 送方信息,判斷通訊消息的發(fā)送方是否為可預期發(fā)送方;如果通訊消息的發(fā) 送方是可預期發(fā)送方,則識別該通訊消息為正常消息;如果通訊消息的發(fā)送 方不是可預期發(fā)送方,則識別該通訊消息為垃圾消息,或繼續(xù)對接收到的通 訊消息進行識別。本申請實施例中,可以由發(fā)送客戶端執(zhí)行上述對垃圾消息 的識別方法,對待發(fā)送的通訊消息進行識別;也可以由系統(tǒng)服務(wù)器執(zhí)行上述 對垃圾消息的識別方法,對中轉(zhuǎn)的通訊消息進行識別;還可以由接收客戶端 執(zhí)行上述對垃圾消息的識別方法,對接收到的通訊消息進行識別。不論在發(fā) 送客戶端、系統(tǒng)服務(wù)器或接收客戶端執(zhí)行上述對垃圾消息的識別方法,對垃 圾消息的識別效果相同,均可以達到本申請的發(fā)明目的。下面將結(jié)合本申請實施例中的附圖,對本申請中的技術(shù)方案進行清楚、 完整地描述,顯然,所描述的實施例僅僅是本申請的一部分實施例,而不是 全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng) 造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。如圖1所示,為本申請實施例一中的一種垃圾消息的識別方法流程圖, 包括以下步驟步驟IOI,提取通訊消息中的發(fā)送方信息。本申請實施例中的通訊消息可以為IM (Instant Messaging,即時通訊)系統(tǒng)中的即時消息、SMS ( Short Messaging Service,短消息業(yè)務(wù))消息、MMS (MultimediaMessaging Service, 多媒體短信業(yè)務(wù))消息或E-mail (electronic mail,電子郵件)等,通訊消息本身可以包括發(fā)送時間、發(fā)送方信息、接收方 信息和消息內(nèi)容等部分。通訊消息由發(fā)送客戶端發(fā)送,經(jīng)系統(tǒng)服務(wù)器轉(zhuǎn)發(fā)到 接收客戶端。其中,接收方信息包括接收方名稱、接收方ID (Identity,身份 標識號碼)和接收方地址等內(nèi)容。系統(tǒng)服務(wù)器或接收客戶端可以在接收到通訊消息后,提取通訊消息中的 發(fā)送方信息,發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址等內(nèi) 容。步驟102,根據(jù)提取的發(fā)送方信息,判斷通訊消息的發(fā)送方是否為可預期 發(fā)送方。如果通訊消息的發(fā)送方是可預期發(fā)送方,則執(zhí)行步驟103;如果通訊消息 的發(fā)送方不是可預期發(fā)送方,則執(zhí)行步驟104??深A期發(fā)送方包括以下用戶中的至少一種系統(tǒng)用戶、通訊消息的接收 方的好友用戶和通訊消息的接收方主動聯(lián)系過的非好友用戶。判斷通訊消息的發(fā)送方是否為可預期發(fā)送方,包括獲取系統(tǒng)用戶名單、 通信消息的接收方的好友用戶名單和通訊消息接收方主動聯(lián)系過的非好友用 戶名單;如果通訊消息的發(fā)送方信息記錄在系統(tǒng)用戶名單、通信消息的接收 方的好友用戶名單和通訊消息接收方主動聯(lián)系過的非好友用戶名單的任一項 中,則判斷通訊消息的發(fā)送方是可預期發(fā)送方。其中,系統(tǒng)用戶為發(fā)送通訊消息的第三方用戶,可以包括通訊服務(wù)提供 商。系統(tǒng)用戶向接收方發(fā)送的消息通常以通知或提醒的形式出現(xiàn),接收方可 以將系統(tǒng)用戶作為可預期發(fā)送方。系統(tǒng)用戶名單可以存儲在系統(tǒng)服務(wù)器中, 客戶端識別垃圾消息時,可以向系統(tǒng)服務(wù)器查詢系統(tǒng)用戶名單,也可以接收 來自系統(tǒng)服務(wù)器的系統(tǒng)用戶名單。通訊消息的接收方的好友用戶在向接收方發(fā)送通訊消息之前,與接收方 建立好友關(guān)系,并通過接收方的身份認證,接收方可以將自身的好友用戶作12端,系統(tǒng)服務(wù)器識別垃圾消息時,可以向接收方客戶端查詢接收方的好友用
通訊消息的接收方主動聯(lián)系過的非好友用戶在向接收方發(fā)送通訊消息之 前,未與接收方建立好友關(guān)系,但曾接收到該接收方發(fā)送的消息。通訊消息 接收方主動聯(lián)系過的非好友用戶名單可以存儲在接收方客戶端,接收方客戶 端可以周期性地或事件觸發(fā)性地將自身的好友用戶信息和自身主動聯(lián)系過的 非好友用戶信息上傳到系統(tǒng)服務(wù)器,也可以接受系統(tǒng)服務(wù)器或其他客戶端的 查詢,供系統(tǒng)服務(wù)器和其他客戶端識別垃圾消息。
步驟103,識別通訊消息為正常消息。
如果通訊消息的發(fā)送方是可預期發(fā)送方,則識別該通訊消息為正常消息, 并按照正常的流程處理該通訊消息。系統(tǒng)服務(wù)器識別接收到的通訊消息為正
常消息后,可以對該通訊消息進行正常的轉(zhuǎn)發(fā);4妄收客戶端識別接收到的通 訊消息為正常消息后,可以按照該通訊消息進行相應(yīng)的操作,并將該通訊消 息的發(fā)送方加入到白名單。
步驟104,識別通訊消息為垃圾消息,或繼續(xù)對該通訊消息進行識別。 如果通訊消息的發(fā)送方不是可預期發(fā)送方,則可以識別該通訊消息為垃 圾消息,對該通訊消息進行丟棄處理,并將該通訊消息的發(fā)送方加入到黑名 單;也可以繼續(xù)對該通訊消息進行識別,識別方法可以包括使用預設(shè)的關(guān)鍵 詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項中的至少一項進行識 別。
需要說明的是,本申請實施例可以根據(jù)實際需要對各個步驟順序進行調(diào) 整。上述使用預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別 選項中的至少一項識別垃圾消息的步驟,也可以在使用發(fā)送方信息識別垃圾 消息的步驟之前執(zhí)行。
本申請包括以下優(yōu)點,由于通過判斷通訊消息的發(fā)送方是否為可預期用 戶,進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識 別垃圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任 一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。如圖2所示,為本申請實施例二中的一種垃圾消息的識別方法流程圖,
包括以下步驟
步驟201 ,發(fā)送客戶端提取待發(fā)送的通訊消息中的發(fā)送方信息。
發(fā)送客戶端獲取待發(fā)送的通訊消息后,可以不立即將該通訊消息發(fā)送到 指定的客戶端,而是提取該通訊消息中的發(fā)送方信息,以進行垃圾消息的識 別。發(fā)送方信息可以包"^發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址等內(nèi)容。
步驟202,發(fā)送客戶端根據(jù)提取的發(fā)送方信息,判斷待發(fā)送的通訊消息的 發(fā)送方是否為可預期發(fā)送方。
如果待發(fā)送的通訊消息的發(fā)送方是可預期發(fā)送方,則執(zhí)行步驟203;如果 待發(fā)送的通訊消息的發(fā)送方不是可預期發(fā)送方,則執(zhí)行步驟205。
可預期發(fā)送方包括以下用戶中的至少一種系統(tǒng)用戶、通訊消息的接收 方的好友用戶和通訊消息的接收方主動聯(lián)系過的非好友用戶。
系統(tǒng)中的客戶端也可以將自身的好友用戶信息和自身主動聯(lián)系過的非好 友用戶信息,周期性地或事件觸發(fā)性地上傳到系統(tǒng)服務(wù)器。系統(tǒng)服務(wù)器也可 以將上述從客戶端接收到的信息,周期性地或事件觸發(fā)性地發(fā)送到系統(tǒng)中的 其他客戶端,或者接受其他客戶端的查詢,供其他客戶端進行垃圾消息的識 別。發(fā)送客戶端可以從待發(fā)送的通訊消息中提取接收方信息,并根據(jù)接收方 信息從系統(tǒng)服務(wù)器查詢接收方的好友用戶信息和接收方主動聯(lián)系過的非好友 用戶信息,進而判斷待發(fā)送的通訊信息的發(fā)送方是否為接收方的可預期發(fā)送 方。
步驟203,發(fā)送客戶端識別待發(fā)送的通訊消息為正常消息,將該通訊消息 發(fā)送到系統(tǒng)服務(wù)器。
如果通訊消息的發(fā)送方是可預期發(fā)送方,發(fā)送客戶端識別該通訊消息為 正常消息,并將該通訊消息發(fā)送到系統(tǒng)服務(wù)器。
步驟204,系統(tǒng)服務(wù)器將接收到的通訊消息轉(zhuǎn)發(fā)給接收客戶端,或?qū)邮?到的通訊消息進^"識別。
系統(tǒng)服務(wù)器接收到發(fā)送方客戶端發(fā)送的通訊消息后,可以提取該通訊消
息中的接收方信息,并4艮據(jù)該接收方信息將該通訊消息轉(zhuǎn)發(fā)給接收方客戶端;也可以繼續(xù)對接收到的通訊消息進行識別,識別方法可以包括使用預設(shè)的關(guān) 鍵詞列表、正則表達式和垃圾消息識別選項中的至少 一項進行識別。
步驟205,發(fā)送客戶端判斷待發(fā)送的通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)
4建詞列表匹配。
如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,則執(zhí)行步
驟206;如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配,則執(zhí) 行步驟207。
關(guān)鍵詞列表可以包含各種用于宣傳廣告信息、惡意傳播流言信息和不文 明信息的垃圾消息中常用的關(guān)鍵詞,例如,"服裝大甩賣"、"轉(zhuǎn)讓門面店"、"中 獎"、"請匯款"等用詞,還可以包含一些常用的英文廣告詞、英文不文明用 語等。關(guān)鍵詞列表可以由用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個
客戶端。
發(fā)送客戶端對待發(fā)送的通訊消息提取消息內(nèi)容,對照預設(shè)的關(guān)鍵詞列表, 查驗該消息內(nèi)容中是否包含關(guān)鍵詞列表中相應(yīng)的關(guān)鍵詞,如果查驗到該消息 內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配;如果查 驗到該消息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表 不匹配。
發(fā)送客戶端還可以對提取的消息內(nèi)容進行格式轉(zhuǎn)換,將消息內(nèi)容轉(zhuǎn)換為 統(tǒng)一的格式,再進行查驗,如全部轉(zhuǎn)換為小寫、半角格式,防止垃圾消息發(fā) 送者對一些關(guān)鍵詞進行大、小寫或全角、半角變換來規(guī)避查驗。
步驟206,發(fā)送客戶端識別待發(fā)送的通訊消息為垃圾消息。
如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,即該消息 內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則發(fā)送客戶端識別待發(fā)送的通訊消息為垃圾消息, 并對該待發(fā)送的通訊消息進行丟棄處理。
步驟207,發(fā)送客戶端判斷待發(fā)送的通訊消息的消息內(nèi)容是否符合預設(shè)的 垃圾消息識別選項。
如果待發(fā)送的通訊消息的消息內(nèi)容符合預設(shè)的垃圾消息識別選項,則執(zhí) 行步驟203;如果待發(fā)送的通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,則執(zhí)行步驟206。
如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配,即該消 息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則發(fā)送客戶端可以提取待發(fā)送的通訊消息的 消息內(nèi)容,并判斷提取到的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項。
預設(shè)的垃圾消息識別選項可以包括以下內(nèi)容中的至少一項a、不允許出 現(xiàn)電話號碼;b、不允許出現(xiàn)網(wǎng)絡(luò)鏈接;c、不允許出現(xiàn)IM號碼;d、不允許 出現(xiàn)圖片。用戶可以才艮據(jù)自身的需求,個性化設(shè)定上述垃圾消息識別選項。
需要說明的是,本申請實施例可以根據(jù)實際需要對各個步驟順序進行調(diào) 整。上述使用預設(shè)的垃圾消息識別選項識別垃圾消息的步驟,可以在使用預 設(shè)的關(guān)鍵詞列表識別垃圾消息的步驟之前執(zhí)行;上述使用預設(shè)的關(guān)鍵詞列表 和預設(shè)的垃圾消息識別選項識別垃圾消息的步驟,也可以在使用發(fā)送方信息 識別垃圾消息的步驟之前執(zhí)行。當上述使用預設(shè)的關(guān)鍵詞列表或預設(shè)的垃圾 消息識別選項識別垃圾消息的步驟,在使用發(fā)送方信息識別垃圾消息的步驟 之前執(zhí)行時,若通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配或消息內(nèi)容不 符合預設(shè)的垃圾消息識別選項,則暫時識別該通訊消息為垃圾消息,然后再 通過判斷該通訊消息的發(fā)送方是否是可預期用戶進行進一步確認。即,若該 通訊消息的發(fā)送方不是可預期用戶,則確認該通訊消息為垃圾消息,若該通 訊消息的發(fā)送方是可預期用戶,則更改該通訊消息為正常消息。作為本申請 實施例的替換方案,若通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配或消息 內(nèi)容不符合預設(shè)的垃圾消息識別選項,也可以直接識別該通訊消息為垃圾消 息,并對該通訊消息作丟棄處理。
本申請包括以下優(yōu)點,通過發(fā)送客戶端主動判斷通訊消息的發(fā)送方是否 為接收方的可預期用戶,以及根據(jù)預設(shè)的關(guān)鍵詞列表和垃圾消息識別選項進 行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃圾 消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn)品 并不一定需要同時達到以上所述的所有優(yōu)點。
本申請的以上實施方式中,由發(fā)送客戶端判斷待發(fā)送的通訊消息的發(fā)送 方是否為接收方的可預期用戶,并結(jié)合預設(shè)的關(guān)鍵詞列表和垃圾消息識別選項進行垃圾消息的識別。本申請實施例中,還可以由系統(tǒng)服務(wù)器判斷接收到 的通訊消息的發(fā)送方是否為接收方的可預期用戶,并由接收客戶端根據(jù)預設(shè) 的關(guān)鍵詞列表和正則表達式進行垃圾消息的識別。以下通過具體實施例進行 詳細描述。
如圖3所示,為本申請實施例三中的一種垃圾消息的識別方法流程圖,
包括以下步驟
步驟301,系統(tǒng)服務(wù)器接收發(fā)送客戶端發(fā)送的通訊消息。 通訊消息由發(fā)送客戶端發(fā)送,經(jīng)系統(tǒng)服務(wù)器轉(zhuǎn)發(fā)到接收客戶端,可以包
括發(fā)送時間、發(fā)送方信息、接收方信息和消息內(nèi)容等部分。
步驟302,系統(tǒng)服務(wù)器提取接收到的通訊消息中的發(fā)送方信息。 系統(tǒng)服務(wù)器接收到發(fā)送客戶端發(fā)送的通訊消息后,可以不立即將該通訊
消息轉(zhuǎn)發(fā)到指定的客戶端,而是提取該通訊消息中的發(fā)送方信息,以進行垃
圾消息的識別。發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址等內(nèi)容。
步驟303,系統(tǒng)服務(wù)器根據(jù)提取的發(fā)送方信息,判斷接收到的通訊消息的 發(fā)送方是否為可預期發(fā)送方。
如果接收到的通訊消息的發(fā)送方是可預期發(fā)送方,則執(zhí)行步驟304;如果 接收到的通訊消息的發(fā)送方不是可預期發(fā)送方,則執(zhí)行步驟306。
可預期發(fā)送方包括以下用戶中的至少一種系統(tǒng)用戶、通訊消息的接收 方的好友用戶和通訊消息的接收方主動聯(lián)系過的非好友用戶。
系統(tǒng)中的客戶端也可以將自身的好友用戶信息和自身主動聯(lián)系過的非好 友用戶信息,周期性地或事件觸發(fā)性地上傳到系統(tǒng)服務(wù)器。系統(tǒng)服務(wù)器也可 以將上述從客戶端接收到的信息,周期性地或事件觸發(fā)性地向系統(tǒng)中的其他 客戶端公布,供其他客戶端進行垃圾消息的識別。系統(tǒng)服務(wù)器可以從接收到 的通訊消息中提取接收方信息,并根據(jù)接收方信息查詢接收方的好友用戶信 息和接收方主動聯(lián)系過的非好友用戶信息,進而判斷接收到的通訊信息的發(fā)
送方是否為接收方的可預期發(fā)送方。
步驟304,系統(tǒng)服務(wù)器將接收到的通訊消息標記為正常消息,并向接收客戶端轉(zhuǎn)發(fā)標記后的通訊消息。
如果接收到的通訊消息的發(fā)送方是可預期發(fā)送方,系統(tǒng)服務(wù)器識別該通 訊消息為正常消息,并提取該通訊消息中的接收方信息,根據(jù)該接收方信息 將該通訊消息轉(zhuǎn)發(fā)給接收方客戶端。接收客戶端可以按照接收到的通訊消息 進4亍相應(yīng)的搮:作,不再對該通訊消息進4于識別。
步驟305,系統(tǒng)服務(wù)器將接收到的通訊消息標記為待識別消息,并向接收
客戶端轉(zhuǎn)發(fā)標記后的通訊消息。
如果接收到的通訊消息的發(fā)送方不是可預期發(fā)送方,系統(tǒng)服務(wù)器識別該 通訊消息為待識別消息,并提取該通訊消息中的接收方信息,根據(jù)該接收方 信息將該通訊消息轉(zhuǎn)發(fā)給接收方客戶端,由接收客戶端繼續(xù)對該通訊消息進 行識別。接收客戶端的識別方法可以包括使用預設(shè)的關(guān)鍵詞列表、正則表達 式和垃圾消息識別選項中的至少一項進行識別。
步驟306,接收客戶端使用預設(shè)的關(guān)鍵詞列表,對接收到的通訊消息的消 息內(nèi)容進行匹配,并獲取與消息內(nèi)容匹配的關(guān)鍵詞的分值。
關(guān)鍵詞列表用于判斷通訊消息中是否包含垃圾消息的特征詞語,可以由 用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個客戶端。每個關(guān)鍵詞對應(yīng) 預設(shè)的分值,用于標示該關(guān)鍵詞出現(xiàn)在垃圾消息中的可能性,不同關(guān)鍵詞的 分值可以相同或不同。
接收客戶端對接收到的通訊消息提取消息內(nèi)容,對照預設(shè)的關(guān)鍵詞列表, 查驗該消息內(nèi)容中是否包含關(guān)鍵詞列表中相應(yīng)的關(guān)鍵詞,如果查驗到該消息 內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則判斷該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,并 獲取與該消息內(nèi)容匹配的關(guān)鍵詞的分值。與消息內(nèi)容匹配的正則表達式為一 個以上時,接收客戶端可以獲取所有與消息內(nèi)容匹配的正則表達式的分值。
接收客戶端還可以對提取的消息內(nèi)容進行格式轉(zhuǎn)換,將消息內(nèi)容轉(zhuǎn)換為 統(tǒng)一的格式,再進行查驗,如全部轉(zhuǎn)換為小寫、半角格式,防止垃圾消息發(fā) 送者對一些關(guān)鍵詞進行大、小寫或全角、半角變換來規(guī)避查驗。
步驟307,接收客戶端使用預設(shè)的正則表達式,對接收到的通訊消息的消 息內(nèi)容進行匹配,并獲取與消息內(nèi)容匹配的正則表達式的分值。正則表達式用于從消息內(nèi)容中辨別某些關(guān)鍵特征,比如電話號碼、網(wǎng)絡(luò) 鏈接或IM號碼等。不同的正則表達式對應(yīng)不同的關(guān)鍵特征,接收客戶端可以 通過特定的正則表達式,判斷接收到的通訊消息的消息內(nèi)容中是否包含特定 的關(guān)鍵特征,如果該消息內(nèi)容中包含該關(guān)鍵特征,則該消息內(nèi)容與該關(guān)鍵特 征對應(yīng)的正則表達式匹配。
正則表達式可以由用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個客 戶端。每個正則表達式對應(yīng)預設(shè)的分值,用于標示該正則表達式從消息內(nèi)容 中辨別的關(guān)鍵特征出現(xiàn)在垃圾消息中的可能性,不同關(guān)鍵詞的分值可以相同 或不同。與消息內(nèi)容匹配的正則表達式為一個以上時,接收客戶端可以獲取 所有與消息內(nèi)容匹配的正則表達式的分值。
需要說明的是,本步驟與步驟306的執(zhí)行順序沒有先后之分,即接收客 戶端可以在使用預設(shè)的關(guān)鍵詞列表,對接收到的通訊消息的消息內(nèi)容進行匹 配之前或之后,使用預設(shè)的正則表達式,對接收到的通訊消息的消息內(nèi)容進 4亍匹配。
步驟308,接收客戶端根據(jù)與消息內(nèi)容匹配的關(guān)鍵詞和正則表達式的分 值,獲取該消息內(nèi)容的匹配總分值。
接收客戶端將所有與消息內(nèi)容匹配的關(guān)鍵詞的分值和正則表達式的分值 相加,即可獲取該消息內(nèi)容的匹配總分值。
步驟309,接收客戶端判斷消息內(nèi)容的匹配總分值是否大于或等于預設(shè)的 閾值。
如果消息內(nèi)容的匹配總分值大于或等于預設(shè)的閾值,則執(zhí)行步驟310;如 果消息內(nèi)容的匹配總分值小于預設(shè)的閾值,則執(zhí)行步驟311。
上述閾值可以設(shè)置為固定值,也可以根據(jù)通訊消息的長度動態(tài)設(shè)置,即 不同長度的通訊消息對應(yīng)不同的闊值。
步驟310,接^^戶端識別接收到的通訊消息為垃圾消息。
如果消息內(nèi)容的匹配總分值大于或等于預設(shè)的閾值,則接收客戶端識別 接收到的通訊消息為垃圾消息,并對該通訊消息進行丟棄處理。
步驟311,接收客戶端識別接收到的通訊消息為正常消息。如果消息內(nèi)容的匹配總分值小于預設(shè)的閾值,則接收客戶端識別接收到 的通訊消息為正常消息,并按照該通訊消息進行相應(yīng)的操作。
需要說明的是,本申請實施例可以根據(jù)實際需要對各個步驟順序進行調(diào) 整。上述使用預設(shè)的關(guān)鍵詞列表和預設(shè)的正則表達式識別垃圾消息的步驟, 也可以在使用發(fā)送方信息識別垃圾消息的步驟之前執(zhí)行。當上述使用預設(shè)的 關(guān)鍵詞列表和預設(shè)的正則表達式識別垃圾消息的步驟,在使用發(fā)送方信息識 別垃圾消息的步驟之前執(zhí)行時,若通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表 匹配或消息內(nèi)容的匹配總分值大于或等于預設(shè)的閾值,則暫時識別該通訊消 息為垃圾消息,然后再通過判斷該通訊消息的發(fā)送方是否是可預期用戶進行 進一步確認。即,若該通訊消息的發(fā)送方不是可預期用戶,則確認該通訊消 息為垃圾消息,若該通訊消息的發(fā)送方是可預期用戶,則更改該通訊消息為 正常消息。作為本申請實施例的替換方案,若通訊消息的消息內(nèi)容與預設(shè)的 關(guān)鍵詞列表匹配或消息內(nèi)容的匹配總分值大于或等于預設(shè)的閾值,也可以直 接識別該通訊消息為垃圾消息,并對該通訊消息作丟棄處理。
本申請包括以下優(yōu)點,通過系統(tǒng)服務(wù)器判斷通訊消息的發(fā)送方是否為接 收方的可預期用戶,并由接收客戶端根據(jù)預設(shè)的關(guān)鍵詞列表和正則表達式進 行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃圾 消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn)品 并不一定需要同時達到以上所述的所有優(yōu)點。
如圖4所示,為本申請實施例四中的一種垃圾消息的識別方法流程圖,
包括以下步驟
步驟401,客戶端獲取自身的可預期發(fā)送方信息。
客戶端運行后,可以從本地或者系統(tǒng)服務(wù)器獲取自身的可預期發(fā)送方信 息??蛻舳说目深A期發(fā)送方包括系統(tǒng)用戶、客戶端的好友用戶和客戶端主動 聯(lián)系過的非好友用戶中的至少一項。
步驟402,客戶端根據(jù)自身發(fā)送的通訊消息中的接收方信息,更新自身的 可預期發(fā)送方信息。
客戶端發(fā)送通訊消息時,可以根據(jù)步驟401獲取的可預期發(fā)送方信息,確定該通訊消息的接收方的屬性。如果該通訊消息的接收方不是該客戶端的可預期發(fā)送方時,該客戶端將該通訊消息的接收方信息添加到自身的可預期發(fā)送方信息中。
具體地,客戶端可以將該通訊消息的接收方設(shè)置為自身主動聯(lián)系過的非
好友用戶,并記錄該通訊消息的接收方信息,該接收方信息包括接收方名
稱、接收方ID、接收方地址和最新聯(lián)系時間等內(nèi)容。其中,最新聯(lián)系時間為
客戶端向該接收方發(fā)送通訊消息的時間。
步驟403,客戶端提取接收到的通訊消息中的發(fā)送方信息??蛻舳私邮盏酵ㄓ嵪⒑?,可以提取該通訊消息中的發(fā)送方信息,以進
行垃圾消息的識別。發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地
址等內(nèi)容。
步驟404,客戶端根據(jù)提取的發(fā)送方信息,判斷接收到的通訊消息的發(fā)送方是否為可預期發(fā)送方。
如果接收到的通訊消息的發(fā)送方是可預期發(fā)送方,則執(zhí)行步驟405;如果接收到的通訊消息的發(fā)送方不是可預期發(fā)送方,則執(zhí)行步驟406。
客戶端可以將自身的好友用戶信息和自身主動聯(lián)系過的非好友用戶信息,周期性地或事件觸發(fā)性地上傳到系統(tǒng)服務(wù)器。系統(tǒng)服務(wù)器也可以將上述從客戶端接收到的信息,周期性地或事件觸發(fā)性地向系統(tǒng)中的其他客戶端公布,供其他客戶端進行垃圾消息的識別。
客戶端可以首先判斷該通訊消息的發(fā)送方是否為該客戶端的好友用戶,如果該發(fā)送方是該客戶端的好友用戶,則判斷該發(fā)送方為可預期發(fā)送方;如果該發(fā)送方不是該客戶端的好友用戶,則繼續(xù)判斷該發(fā)送方是否為系統(tǒng)用戶。
如果該發(fā)送方是系統(tǒng)用戶,則判斷該發(fā)送方為可預期發(fā)送方;如果該發(fā)送方不是系統(tǒng)用戶,則繼續(xù)判斷該發(fā)送方是否為該客戶端主動聯(lián)系過的非好友用戶。
如果該發(fā)送方不是該客戶端主動聯(lián)系過的非好友用戶,則判斷該發(fā)送方不是可預期發(fā)送方;如果該發(fā)送方是該客戶端主動聯(lián)系過的非好友用戶,則查詢該客戶端與該發(fā)送方的最新聯(lián)系時間,判斷該發(fā)送方是否為該客戶端在設(shè)定時間內(nèi)主動聯(lián)系過的非好友用戶,即該發(fā)送方與該客戶端的最新聯(lián)系時
間與當前時間之間的時間間隔是否超過預設(shè)時間間隔Tmax。
如果該發(fā)送方與該客戶端的最新聯(lián)系時間與當前時間之間的時間間隔超過Tmax,則判斷該發(fā)送方不是可預期發(fā)送方;如果該發(fā)送方與該客戶端的最新聯(lián)系時間與當前時間之間的時間間隔不超過Tmax,則判斷該發(fā)送方是可預期發(fā)送方。
需要說明的是,本步驟可以根據(jù)實際需要對各個判斷順序進行調(diào)整。
步驟405,客戶端識別接收到的通訊消息為正常消息。
如果接收到的通訊消息的發(fā)送方是可預期發(fā)送方,客戶端識別該通訊消息為正常消息,并按照該通訊消息進行相應(yīng)的操作。
步驟406,客戶端判斷接收到的通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列表匹配。
如果接收到的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,則執(zhí)行步驟407;如果接收到的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配,則執(zhí)行步驟408。
客戶端對接收到的通訊消息提取消息內(nèi)容,對照預設(shè)的關(guān)鍵詞列表,查驗該消息內(nèi)容中是否包含關(guān)鍵詞列表中相應(yīng)的關(guān)鍵詞,如果查驗到該消息內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配;如果查驗到該消息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配。
客戶端還可以對提取的消息內(nèi)容進行格式轉(zhuǎn)換,將消息內(nèi)容轉(zhuǎn)換為統(tǒng)一的格式,再進行查驗,如全部轉(zhuǎn)換為小寫、半角格式,防止垃圾消息發(fā)送者對一些關(guān)鍵詞進行大、小寫或全角、半角變換來規(guī)避查驗。
步驟407,客戶端識別接收到的通訊消息為垃圾消息。
如果接收到的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,即該消息內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則客戶端識別接收到的通訊消息為垃圾消息,并對該接收到的通訊消息進行丟棄處理。
步驟408,客戶端判斷接收到的通訊消息的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項。
如果接收到的通訊消息的消息內(nèi)容符合預設(shè)的垃圾消息識別選項,則執(zhí)
行步驟405;如果接收到的通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,則執(zhí)行步驟407。
如果接收到的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配,即該消息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則客戶端可以提取接收到的通訊消息的消息內(nèi)容,并判斷提取到的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項。
需要說明的是,本申請實施例可以根據(jù)實際需要對各個步驟順序進行調(diào)整。上述使用預設(shè)的垃圾消息識別選項識別垃圾消息的步驟,可以在使用預設(shè)的關(guān)鍵詞列表識別垃圾消息的步驟之前執(zhí)行;上述使用預設(shè)的關(guān)鍵詞列表和預設(shè)的垃圾消息識別選項識別垃圾消息的步驟,也可以在使用發(fā)送方信息識別垃圾消息的步驟之前執(zhí)行。
本申請包括以下優(yōu)點,通過客戶端根據(jù)發(fā)送的通訊消息中的接收方信息,更新自身的可預期發(fā)送方信息,并根據(jù)更新后的可預期發(fā)送方信息判斷通訊消息的發(fā)送方是否為接收方的可預期用戶,以及根據(jù)預設(shè)的關(guān)鍵詞列表和垃圾消息識別選項進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
需要說明的是,上述根據(jù)預設(shè)的關(guān)鍵詞列表、正則表達式和垃圾消息識別選項進行垃圾消息的識別的流程,可以由系統(tǒng)服務(wù)器執(zhí)行,也可以由系統(tǒng)服務(wù)器和客戶端組合執(zhí)行。上述根據(jù)預設(shè)的關(guān)鍵詞列表、正則表達式和垃圾消息識別選項進行垃圾消息的識別的流程,與根據(jù)發(fā)送方信息進行垃圾消息的識別的流程之間,沒有先后順序之分。
如圖5所示,為本申請實施例五中的一種垃圾消息的識別方法流程圖,包括以下步驟
步驟501,系統(tǒng)服務(wù)器設(shè)置黑名單列表和白名單列表。
系統(tǒng)服務(wù)器識別垃圾消息的過程中,可以將被識別出的垃圾消息的發(fā)送方信息添加到黑名單列表中,還可以將被識別出的正常消息的發(fā)送方信息添加到白名單列表中。系統(tǒng)服務(wù)器可以周期性地或事件觸發(fā)性地向系統(tǒng)中的客戶端公布黑名單列表和白名單列表,供客戶端識別垃圾消息。黑名單列表中的發(fā)送方信息包括垃圾消息發(fā)送方的名稱、ID和地址等內(nèi)容,白名單列表中
的發(fā)送方信息包括正常消息發(fā)送方的名稱、ID和地址等內(nèi)容。
客戶端識別垃圾消息的過程中,也可以將被識別出的垃圾消息的發(fā)送方
信息添加到黑名單列表中,將被識別出的正常消息的發(fā)送方信息添加到白名
單列表中,并將上述黑名單列表和白名單列表周期性地或事件觸發(fā)性地上傳
到系統(tǒng)服務(wù)器,供系統(tǒng)服務(wù)器識別垃圾消息。
需要說明的是,上述黑名單列表和白名單列表也可以單獨設(shè)置,即系統(tǒng)
服務(wù)器可以只設(shè)置黑名單列表或只設(shè)置白名單列表。系統(tǒng)服務(wù)器只設(shè)置黑名
單列表時,可以只根據(jù)黑名單列表識別垃圾消息;系統(tǒng)服務(wù)器只設(shè)置白名單
列表時,可以只根據(jù)白名單列表識別垃圾消息。
步驟502,系統(tǒng)服務(wù)器接收發(fā)送客戶端發(fā)送的通訊消息。通訊消息由發(fā)送客戶端發(fā)送,經(jīng)系統(tǒng)服務(wù)器轉(zhuǎn)發(fā)到接收客戶端,可以包
括發(fā)送時間、發(fā)送方信息、接收方信息和消息內(nèi)容等部分。
步驟503,系統(tǒng)服務(wù)器提取接收到的通訊消息中的發(fā)送方信息。
系統(tǒng)服務(wù)器接收到發(fā)送客戶端發(fā)送的通訊消息后,可以不立即將該通訊
消息轉(zhuǎn)發(fā)到指定的客戶端,而是提取該通訊消息中的發(fā)送方信息,以進行垃
圾消息的識別。發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址等內(nèi)容。
步驟504,系統(tǒng)服務(wù)器判斷提取到的發(fā)送方信息是否記錄在白名單列表中。
如果提取到的發(fā)送方信息記錄在白名單列表中,則執(zhí)行步驟505;如果提取到的發(fā)送方信息沒有記錄在白名單列表中,則執(zhí)行步驟506。
系統(tǒng)服務(wù)器提取接收到的通訊消息中的發(fā)送方信息后,可以從本地或客戶端獲取白名單列表,并判斷提取到的發(fā)送方信息是否記錄白名單列表中。
步驟505,系統(tǒng)服務(wù)器識別接收到的通訊消息為正常消息。
如果提取到的發(fā)送方信息記錄在白名單列表中,則系統(tǒng)服務(wù)器判斷接收到的通訊消息的發(fā)送方是可預期發(fā)送方,識別接收到的通訊消息為正常消息,并將該識別為正常消息的通訊消息轉(zhuǎn)發(fā)給接收客戶端。
接收客戶端可以按照接收到的通訊消息進行相應(yīng)的操作,不再對該通訊
消息進4于識別;也可以繼續(xù)對該通訊消息進4于識別。4妄收客戶端的識別方法
可以包括使用預設(shè)的關(guān)鍵詞列表、正則表達式和垃圾消息識別選項中的至少一項進4于識別。
步驟506,系統(tǒng)服務(wù)器判斷提取到的發(fā)送方信息是否記錄在黑名單列表中。
如果提取到的發(fā)送方信息記錄在黑名單列表中,則執(zhí)行步驟507;如果提取到的發(fā)送方信息沒有記錄在黑名單列表中,則執(zhí)行步驟508。
系統(tǒng)服務(wù)器提取接收到的通訊消息中的發(fā)送方信息后,可以從本地或客戶端獲取黑名單列表,并判斷提取到的發(fā)送方信息是否記錄黑名單列表中。
步驟507,系統(tǒng)服務(wù)器識別接收到的通訊消息為垃圾消息。
如果提取到的發(fā)送方信息記錄在黑名單列表中,則系統(tǒng)服務(wù)器識別接收到的通訊消息為垃圾消息,并將該識別為垃圾消息的通訊消息進行丟棄處理。
步驟508,系統(tǒng)服務(wù)器使用預設(shè)的關(guān)鍵詞列表,對接收到的通訊消息的消息內(nèi)容進行匹配,并獲取與消息內(nèi)容匹配的關(guān)鍵詞的分值。
系統(tǒng)服務(wù)器對接收到的通訊消息提取消息內(nèi)容,對照預設(shè)的關(guān)鍵詞列表,查驗該消息內(nèi)容中是否包含關(guān)鍵詞列表中相應(yīng)的關(guān)鍵詞,如果查驗到該消息內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則判斷該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,并獲取與該消息內(nèi)容匹配的關(guān)鍵詞的分值。與消息內(nèi)容匹配的正則表達式為一個以上時,系統(tǒng)服務(wù)器可以獲取所有與消息內(nèi)容匹配的正則表達式的分值。
系統(tǒng)服務(wù)器還可以對提取的消息內(nèi)容進行格式轉(zhuǎn)換,將消息內(nèi)容轉(zhuǎn)換為統(tǒng)一的格式,再進行查驗,如全部轉(zhuǎn)換為小寫、半角格式,防止垃圾消息發(fā)送者對一些關(guān)鍵詞進行大、小寫或全角、半角變換來規(guī)避查驗。
步驟509,系統(tǒng)服務(wù)器使用預設(shè)的正則表達式,對接收到的通訊消息的消息內(nèi)容進行匹配,并獲取與消息內(nèi)容匹配的正則表達式的分值。
系統(tǒng)服務(wù)器可以通過特定的正則表達式,判斷接收到的通訊消息的消息內(nèi)容中是否包含特定的關(guān)鍵特征,如果該消息內(nèi)容中包含該關(guān)鍵特征,則該消息內(nèi)容與該關(guān)鍵特征對應(yīng)的正則表達式匹配。
正則表達式可以由用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個客戶端。每個正則表達式對應(yīng)預設(shè)的分值,用于標示該正則表達式從消息內(nèi)容中辨別的關(guān)鍵特征出現(xiàn)在垃圾消息中的可能性,不同關(guān)鍵詞的分值可以相同或不同。與消息內(nèi)容匹配的正則表達式為一個以上時,系統(tǒng)服務(wù)器可以獲取所有與消息內(nèi)容匹配的正則表達式的分值。
需要說明的是,本步驟與步驟508的執(zhí)行順序沒有先后之分,即系統(tǒng)服務(wù)器可以在使用預設(shè)的關(guān)鍵詞列表,對接收到的通訊消息的消息內(nèi)容進行匹配之前或之后,使用預設(shè)的正則表達式,對接收到的通訊消息的消息內(nèi)容進4亍匹配。
步驟510,系統(tǒng)服務(wù)器根據(jù)與消息內(nèi)容匹配的關(guān)鍵詞和正則表達式的分值,獲取該消息內(nèi)容的匹配總分值。
系統(tǒng)服務(wù)器將所有與消息內(nèi)容匹配的關(guān)鍵詞的分值和正則表達式的分值相加,即可獲取該消息內(nèi)容的匹配總分值。
步驟511,系統(tǒng)服務(wù)器判斷消息內(nèi)容的匹配總分值是否大于或等于預設(shè)的閾值。
如果消息內(nèi)容的匹配總分值大于或等于預設(shè)的閾值,則執(zhí)行步驟507;如果消息內(nèi)容的匹配總分值小于預設(shè)的閾值,則執(zhí)行步驟505。
上述閾值可以設(shè)置為固定值,也可以根據(jù)通訊消息的長度動態(tài)設(shè)置,即不同長度的通訊消息對應(yīng)不同的閾值。
需要說明的是,本申請實施例可以根據(jù)實際需要對各個步驟順序進行調(diào)整。上述使用預設(shè)的關(guān)鍵詞列表和預設(shè)的正則表達式識別垃圾消息的步驟,也可以在使用黑名單列表和白名單列表識別垃圾消息的步驟之前執(zhí)行。
本申請包括以下優(yōu)點,由系統(tǒng)服務(wù)器根據(jù)設(shè)置的黑名單列表和白名單列表,以及預設(shè)的關(guān)鍵詞列表和正則表達式進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
如圖6所示,為本申請實施例六中的一種垃圾消息的識別方法流程圖,
包括以下步驟
步驟601,發(fā)送客戶端判斷待發(fā)送的通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列表匹配。
如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,則執(zhí)行步驟602;如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配,則執(zhí)行步驟603。
發(fā)送客戶端對待發(fā)送的通訊消息提取消息內(nèi)容,對照預設(shè)的關(guān)鍵詞列表,查驗該消息內(nèi)容中是否包含關(guān)鍵詞列表中相應(yīng)的關(guān)鍵詞,如果查驗到該消息內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配;如果查驗到該消息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配。
發(fā)送客戶端還可以對提取的消息內(nèi)容進行格式轉(zhuǎn)換,將消息內(nèi)容轉(zhuǎn)換為統(tǒng)一的格式,再進行查驗,如全部轉(zhuǎn)換為小寫、半角格式,防止垃圾消息發(fā)送者對一些關(guān)鍵詞進行大、小寫或全角、半角變換來規(guī)避查驗。步驟602,發(fā)送客戶端暫時識別待發(fā)送的通訊消息為垃圾消息。如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,即該消息內(nèi)容中包含相應(yīng)的關(guān)4建詞,則發(fā)送客戶端暫時識別待發(fā)送的通訊消息為垃圾消息,并將該通訊消息發(fā)送到系統(tǒng)服務(wù)器,由系統(tǒng)服務(wù)器通過判斷該通訊消息的發(fā)送方是否是可預期用戶進行進一步確認。
做為步驟602的替代方案,如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配,即該消息內(nèi)容中包含相應(yīng)的關(guān)鍵詞,發(fā)送客戶端可以直接識別待發(fā)送的通訊消息為垃圾消息,并對該通訊消息進行丟棄處理。步驟603,發(fā)送客戶端將待發(fā)送的通訊消息發(fā)送給系統(tǒng)服務(wù)器。如果待發(fā)送的通訊消息的消息內(nèi)容與預設(shè)的關(guān)鍵詞列表不匹配,即該消息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則發(fā)送客戶端將該待發(fā)送的通訊消息發(fā)送給系統(tǒng)服務(wù)器,由系統(tǒng)服務(wù)器繼續(xù)判斷該通訊消息是否為垃圾消息。步驟604,系統(tǒng)服務(wù)器判斷接收到的通訊消息的消息內(nèi)容是否符合預設(shè)的
垃圾消息識別選項。
如果接收到的通訊消息的消息內(nèi)容符合預設(shè)的垃圾消息識別選項,則執(zhí)
行步驟606;如果接收到的通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,則執(zhí)行步驟605。
系統(tǒng)服務(wù)器接收到發(fā)送客戶端發(fā)送的通訊消息后,可以提取接收到的通訊消息的消息內(nèi)容,并判斷提取到的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項。
步驟605,系統(tǒng)服務(wù)器暫時識別接收到的通訊消息為垃圾消息。如果接收到的通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,則系統(tǒng)服務(wù)器暫時識別接收到的通訊消息為垃圾消息,并將該通訊消息發(fā)送到接收客戶端,由接收客戶端通過判斷該通訊消息的發(fā)送方是否是可預期用戶進行進一步確認。
做為步驟605的替代方案,如果接收到的通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,系統(tǒng)服務(wù)器可以直接識別接收到的通訊消息為垃圾消息,并對該垃圾消息做丟棄處理。
步驟606,系統(tǒng)服務(wù)器將接收到的通訊消息轉(zhuǎn)發(fā)給接收客戶端。
如果接收到的通訊消息的消息內(nèi)容符合預設(shè)的垃圾消息識別選項,則系統(tǒng)服務(wù)器將該接收到的通訊消息轉(zhuǎn)發(fā)給接收客戶端,由接收客戶端繼續(xù)識別該通訊消息是否為垃^及消息。
步驟607,接收客戶端提取接收到的通訊消息中的發(fā)送方信息。
接收客戶端接收到系統(tǒng)服務(wù)器轉(zhuǎn)發(fā)的通訊消息后,可以提取該通訊消息中的發(fā)送方信息,以進行垃圾消息的識別。發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址等內(nèi)容。
步驟608,接收客戶端根據(jù)提取的發(fā)送方信息,判斷接收到的通訊消息的發(fā)送方是否為可預期發(fā)送方。
如果接收到的通訊消息的發(fā)送方是可預期發(fā)送方,則執(zhí)行步驟609;如果接收到的通訊消息的發(fā)送方不是可預期發(fā)送方,則執(zhí)行步驟610。系統(tǒng)中的客戶端也可以將自身的好友用戶信息和自身主動聯(lián)系過的非好友用戶信息,周期性地或事件觸發(fā)性地上傳到系統(tǒng)服務(wù)器。系統(tǒng)服務(wù)器也可以將上述從客戶端接收到的信息,周期性地或事件觸發(fā)性地向系統(tǒng)中的其他客戶端公布,供其他客戶端進行垃圾消息的識別。
步驟609,接收客戶端識別接收到的通訊消息為正常消息。如果通訊消息的發(fā)送方是可預期發(fā)送方,接收客戶端識別該通訊消息為正常消息,并按照該通訊消息進行相應(yīng)的操作。
步驟610,接收客戶端識別接收到的通訊消息為垃圾消息。如果通訊消息的發(fā)送方不是可預期發(fā)送方,則接收客戶端識別該通訊消息為垃圾消息,并對該通訊消息進行丟棄處理。
需要說明的是,本申請實施例可以根據(jù)實際需要對各個步驟順序進行調(diào)整。上述使用預設(shè)的垃圾消息識別選項識別垃圾消息的步驟,可以在使用預設(shè)的關(guān)鍵詞列表識別垃圾消息的步驟之前執(zhí)行。
本申請包括以下優(yōu)點,先后由發(fā)送客戶端通過判斷通訊消息的發(fā)送方是否為接收方的可預期用戶、由系統(tǒng)服務(wù)器根據(jù)預設(shè)的關(guān)鍵詞列表,以及由接收客戶端根據(jù)垃圾消息識別選項進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
如圖7所示,為本申請實施例七中的一種通訊設(shè)備結(jié)構(gòu)示意圖,該通訊設(shè)備700,包括
提取模塊701 ,用于提取通訊消息中的發(fā)送方信息。
本申請實施例中的通訊消息可以為IM系統(tǒng)中的即時消息、SMS消息、MMS消息或E-mail等,通訊消息本身可以包括發(fā)送時間、發(fā)送方信息、接收方信息和消息內(nèi)容等部分。通訊消息由發(fā)送客戶端發(fā)送,經(jīng)系統(tǒng)服務(wù)器轉(zhuǎn)發(fā)到接收客戶端。其中,接收方信息包括接收方名稱、接收方ID和接收方地址等內(nèi)容,發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址等內(nèi)容。
本申請實施例中的通訊設(shè)備為發(fā)送客戶端時,提取模塊701提取待發(fā)送的通訊消息中的發(fā)送方信息;通訊設(shè)備為系統(tǒng)服務(wù)器或接收客戶端時,提取模塊701提取接收到的通訊消息中的發(fā)送方信息。
上述提取模塊701是以上所述通訊設(shè)備700中負責提取通訊消息中的發(fā)送方信息的部分,可以是軟件、硬件或兩者的結(jié)合。
第一判斷模塊702,用于根據(jù)提取模塊701提取的發(fā)送方信息,判斷通訊消息的發(fā)送方是否為可預期發(fā)送方。
可預期發(fā)送方包括以下用戶中的至少一種系統(tǒng)用戶、通訊消息的接收方的好友用戶和通訊消息的接收方主動聯(lián)系過的非好友用戶。
第一判斷模塊702,還用于獲取系統(tǒng)用戶名單、通信消息的接收方的好友用戶名單和通訊消息接收方主動聯(lián)系過的非好友用戶名單;如果通訊消息的發(fā)送方信息記錄在系統(tǒng)用戶名單、通信消息的接收方的好友用戶名單和通訊消息接收方主動聯(lián)系過的非好友用戶名單的任一項中,判斷通訊消息的發(fā)送方是可預期發(fā)送方。
其中,系統(tǒng)用戶為發(fā)送通訊消息的第三方用戶,可以包括通訊服務(wù)提供商。系統(tǒng)用戶向接收方發(fā)送的消息通常以通知或提醒的形式出現(xiàn),接收方可以將系統(tǒng)用戶作為可預期發(fā)送方。
通訊消息的接收方的好友用戶在向接收方發(fā)送通訊消息之前,與接收方建立好友關(guān)系,并通過接收方的身份認證,接收方可以將自身的好友用戶作為可預期發(fā)送方。
通訊消息的接收方主動聯(lián)系過的非好友用戶在向接收方發(fā)送通訊消息之前,未與接收方建立好友關(guān)系,但曾接收到該接收方發(fā)送的消息。系統(tǒng)中的客戶端也可以周期性地或事件觸發(fā)性地將自身的好友用戶信息和自身主動聯(lián)系過的非好友用戶信息上傳到系統(tǒng)服務(wù)器,供系統(tǒng)服務(wù)器識別垃圾消息。
上述第一判斷模塊702是以上所述通訊設(shè)備700中負責根據(jù)提取的發(fā)送方信息,判斷通訊消息的發(fā)送方是否為可預期發(fā)送方的部分,可以是軟件、硬件或兩者的結(jié)合。
識別模塊703,用于在第一判斷模塊702判斷通訊消息的發(fā)送方不是可預期發(fā)送方時,識別該通訊消息為垃圾消息,或繼續(xù)對該通訊消息進^f亍識別。識別模塊703可以在通訊消息的發(fā)送方不是可預期發(fā)送方時,識別該通訊消息為垃圾消息,對該通訊消息進行丟棄處理,并將該通訊消息的發(fā)送方加入到黑名單;也可以繼續(xù)對該通訊消息進行識別,識別方法可以包括使用預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項中的至少一項進行識別。
上述識別模塊703是以上所述通訊設(shè)備700中負責在通訊消息的發(fā)送方不是可預期發(fā)送方時,識別該通訊消息為垃圾消息,或繼續(xù)對該通訊消息進行識別的部分,可以是軟件、硬件或兩者的結(jié)合。
上述通訊i殳備700,還包括
更新模塊704,用于根據(jù)發(fā)送的通訊消息中的接收方信息,更新可預期發(fā)送方信息。
更新才莫塊704可以確定發(fā)送的通訊消息的接收方的屬性,并在該通訊消息的接收方不是可預期發(fā)送方時,將該通訊消息的接收方信息添加到可預期發(fā)送方信息中。
具體地,更新模塊704可以將該通訊消息的接收方設(shè)置為主動聯(lián)系過的非好友用戶,并記錄該通訊消息的接收方信息,該接收方信息包括接收方名稱、接收方ID、接收方地址和最新聯(lián)系時間等內(nèi)容。其中,最新聯(lián)系時間為客戶端向該接收方發(fā)送通訊消息的時間。
上述更新模塊704是以上所述通訊設(shè)備700中負責根據(jù)發(fā)送的通訊消息中的接收方信息,更新可預期發(fā)送方信息的部分,可以是軟件、硬件或兩者的結(jié)合。
設(shè)置模塊705,用于設(shè)置黑名單列表和/或白名單列表,該黑名單列表中包括被識別出的垃圾消息的發(fā)送方信息,該白名單列表中包括被識別出的正常消息的發(fā)送方信息。
設(shè)置模塊705可以將被識別出的垃圾消息的發(fā)送方信息添加到黑名單列表中,還可以將被識別出的正常消息的發(fā)送方信息添加到白名單列表中。黑名單列表中的發(fā)送方信息包括垃圾消息發(fā)送方的名稱、ID和地址等內(nèi)容,白名單列表中的發(fā)送方信息包括正常消息發(fā)送方的名稱、ID和地址等內(nèi)容。上述設(shè)置模塊705是以上所述通訊設(shè)備700中負責設(shè)置黑名單列表和/或 白名單列表的部分,可以是軟件、硬件或兩者的結(jié)合。
上述第一判斷模塊702,還用于在通訊消息的發(fā)送方信息記錄在黑名單列 表中時,判斷通訊消息的發(fā)送方不是可預期發(fā)送方;和/或
在通訊消息的發(fā)送方信息記錄在白名單列表中時,判斷通訊消息的發(fā)送 方是可預期發(fā)送方。
上述通訊設(shè)備700,還包括
第二判斷模塊706,用于判斷通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列 表匹配。
關(guān)鍵詞列表可以包含各種用于宣傳廣告信息、惡意傳播流言信息和不文 明信息的垃圾消息中常用的關(guān)鍵詞,例如,"服裝大甩賣"、"轉(zhuǎn)讓門面店"、"中 獎"、"請匯款"等用詞,還可以包含一些常用的英文廣告詞、英文不文明用 語等。關(guān)鍵詞列表可以由用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個 客戶端。
第二判斷模塊706將通訊消息中的消息內(nèi)容,對照預設(shè)的關(guān)鍵詞列表, 查驗該消息內(nèi)容中是否包含關(guān)鍵詞列表中相應(yīng)的關(guān)鍵詞,如果查驗到該消息 內(nèi)容中包含相應(yīng)的關(guān)鍵詞,則判斷該消息內(nèi)容與預設(shè)的關(guān)鍵詞列表匹配;如 果查驗到該消息內(nèi)容中不包含相應(yīng)的關(guān)鍵詞,則判斷該消息內(nèi)容與預設(shè)的關(guān) 4建詞列表不匹配。
第二判斷模塊706還可以對提取的消息內(nèi)容進行格式轉(zhuǎn)換,將消息內(nèi)容 轉(zhuǎn)換為統(tǒng)一的格式,再進行查驗,如全部轉(zhuǎn)換為小寫、半角格式,防止垃圾 消息發(fā)送者對一些關(guān)鍵詞進行大、小寫或全角、半角變換來規(guī)避查驗。
上述第二判斷模塊706是以上所述通訊設(shè)備700中負責判斷通訊消息的 消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列表匹配的部分,可以是軟件、硬件或兩者的 結(jié)合。
上述識別模塊703,還用于在第二判斷模塊706判斷通訊消息的消息內(nèi)容 與預設(shè)的關(guān)鍵詞列表匹配時,識別該通訊消息為垃圾消息。 上述通訊設(shè)備700,還包括第三判斷模塊707,用于判斷通訊消息的消息內(nèi)容是否符合預設(shè)的垃圾消 息識別選項。
預設(shè)的垃^t及消息識別選項可以包括以下內(nèi)容中的至少一項a、不允許出 現(xiàn)電話號碼;b、不允許出現(xiàn)網(wǎng)絡(luò)鏈接;c、不允許出現(xiàn)IM號碼;d、不允許 出現(xiàn)圖片。用戶可以才艮據(jù)自身的需求,個性化設(shè)定上述垃圾消息識別選項。
上述第三判斷^^莫塊707是以上所述通訊設(shè)備700中負責判斷通訊消息的 消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項的部分,可以是軟件、硬件或兩 者的結(jié)合。
上述識別模塊703,還用于在第三判斷模塊707判斷通訊消息的消息內(nèi)容 不符合預設(shè)的垃圾消息識別選項時,識別該通訊消息為垃圾消息。 上述通訊設(shè)備700,還包括
第 一 匹配模塊708,用于使用預設(shè)的關(guān)鍵詞列表,對通訊消息的消息內(nèi)容 進行匹配,獲取與該消息內(nèi)容匹配的關(guān)鍵詞的分值。
關(guān)鍵詞列表用于判斷通訊消息中是否包含垃圾消息的特征詞語,可以由 用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個客戶端。每個關(guān)鍵詞對應(yīng) 預設(shè)的分值,用于標示該關(guān)鍵詞出現(xiàn)在垃圾消息中的可能性,不同關(guān)鍵詞的 分值可以相同或不同。
上述第一匹配模塊708是以上所述通訊設(shè)備700中負責使用預設(shè)的關(guān)鍵 詞列表,對通訊消息的消息內(nèi)容進行匹配,獲取與該消息內(nèi)容匹配的關(guān)鍵詞 的分值的部分,可以是軟件、硬件或兩者的結(jié)合。
第二匹配模塊709,用于使用預設(shè)的正則表達式,對通訊消息的消息內(nèi)容 進行匹配,獲取與該消息內(nèi)容匹配的正則表達式的分值。
正則表達式用于從消息內(nèi)容中辨別某些關(guān)鍵特征,比如電話號碼、網(wǎng)絡(luò) 鏈接或IM號碼等。不同的正則表達式對應(yīng)不同的關(guān)鍵特征,第二匹配模塊 709可以通過特定的正則表達式,判斷接收到的通訊消息的消息內(nèi)容中是否包 含特定的關(guān)鍵特征,如果該消息內(nèi)容中包含該關(guān)鍵特征,則該消息內(nèi)容與該 關(guān)鍵特征對應(yīng)的正則表達式匹配。
正則表達式可以由用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā)到各個客戶端。每個正則表達式對應(yīng)預設(shè)的分值,用于標示該正則表達式從消息內(nèi)容 中辨別的關(guān)鍵特征出現(xiàn)在垃圾消息中的可能性,不同關(guān)鍵詞的分值可以相同
或不同。與消息內(nèi)容匹配的正則表達式為一個以上時,第二匹配模塊709可 以獲取所有與消息內(nèi)容匹配的正則表達式的分值。
上述第二匹配模塊709是以上所述通訊設(shè)備700中負責使用預設(shè)的正則 表達式,對通訊消息的消息內(nèi)容進行匹配,獲取與該消息內(nèi)容匹配的正則表 達式的分值的部分,可以是軟件、硬件或兩者的結(jié)合。
獲取模塊710,用于根據(jù)第一匹配模塊708和第二匹配模塊709獲取的與 消息內(nèi)容匹配的關(guān)鍵詞和正則表達式的分值,獲取該消息內(nèi)容的匹配總分值。
獲取模塊710將所有與消息內(nèi)容匹配的關(guān)鍵詞的分值和正則表達式的分 值相加,即可獲取該消息內(nèi)容的匹配總分值。
上述獲取模塊710是以上所述通訊設(shè)備700中負責根據(jù)與消息內(nèi)容匹配 的關(guān)鍵詞和正則表達式的分值,獲取該消息內(nèi)容的匹配總分值的部分,可以 是軟件、硬件或兩者的結(jié)合。
第四判斷模塊711,用于判斷獲取模塊710獲取的消息內(nèi)容的匹配總分值 是否大于或等于預設(shè)的閾值。
上述閾值可以設(shè)置為固定值,也可以根據(jù)通訊消息的長度動態(tài)設(shè)置,即 不同長度的通訊消息對應(yīng)不同的閾值。
上述第四判斷模塊711是以上所述通訊設(shè)備700中負責判斷消息內(nèi)容的 匹配總分值是否大于或等于預設(shè)的閾值的部分,可以是軟件、硬件或兩者的 結(jié)合。
上述識別模塊703,還用于在第四判斷模塊711判斷消息內(nèi)容的匹配總分 值大于或等于預設(shè)的閾值時,識別該通訊消息為垃圾消息。
上述模塊可以分布于一個裝置,也可以分布于多個裝置。上述模塊可以 合并為一個模塊,也可以進一步拆分成多個子模塊。
本申請包括以下優(yōu)點,通過判斷通訊消息的發(fā)送方是否為可預期用戶, 進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃 圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
如圖8所示,為本申請實施例八中的一種通訊系統(tǒng)結(jié)構(gòu)示意圖,包括
第一通訊設(shè)備810,用于提取通訊消息中的發(fā)送方信息,根據(jù)提取的發(fā)送 方信息,判斷通訊消息的發(fā)送方是否為可預期發(fā)送方,在該通訊消息的發(fā)送 方不是可預期發(fā)送方時,將該通訊消息標記為待識別消息,通過網(wǎng)絡(luò)向第二 通訊設(shè)備820轉(zhuǎn)發(fā)標記后的通訊消息。
通訊消息中的發(fā)送方信息可以包括發(fā)送方名稱、發(fā)送方ID和發(fā)送方地址 等內(nèi)容,可預期發(fā)送方包括以下用戶中的至少一種系統(tǒng)用戶、通訊消息的 接收方的好友用戶和通訊消息的接收方主動聯(lián)系過的非好友用戶。
第二通訊設(shè)備820,用于根據(jù)以下內(nèi)容中的至少一項,對接收到的來自第 一通訊設(shè)備810的通訊消息進行識別
預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項。
關(guān)鍵詞列表可以包含各種用于宣傳廣告信息、惡意傳播流言信息和不文 明信息的垃圾消息中常用的關(guān)鍵詞,可以由用戶個性化設(shè)定,也可以由系統(tǒng) 服務(wù)器下發(fā)到各個客戶端。
正則表達式用于從消息內(nèi)容中辨別某些關(guān)鍵特征,比如電話號碼、網(wǎng)絡(luò) 鏈接或IM號碼等。不同的正則表達式對應(yīng)不同的關(guān)鍵特征,可以通過特定的 正則表達式,判斷接收到的通訊消息的消息內(nèi)容中是否包含特定的關(guān)鍵特征, 如果該消息內(nèi)容中包含該關(guān)鍵特征,則該消息內(nèi)容與該關(guān)鍵特征對應(yīng)的正則 表達式匹配。正則表達式可以由用戶個性化設(shè)定,也可以由系統(tǒng)服務(wù)器下發(fā) 到各個客戶端。每個正則表達式對應(yīng)預設(shè)的分值,用于標示該正則表達式從 消息內(nèi)容中辨別的關(guān)鍵特征出現(xiàn)在垃圾消息中的可能性,不同關(guān)鍵詞的分值 可以相同或不同。與消息內(nèi)容匹配的正則表達式為一個以上時,接收客戶端 可以獲取所有與消息內(nèi)容匹配的正則表達式的分值。
預設(shè)的垃^t及消息識別選項可以包括以下內(nèi)容中的至少一項a、不允許出 現(xiàn)電話號碼;b、不允許出現(xiàn)網(wǎng)絡(luò)鏈接;c、不允許出現(xiàn)IM號碼;d、不允許 出現(xiàn)圖片。用戶可以根據(jù)自身的需求,個性化設(shè)定上述垃圾消息識別選項。
上述第一通訊設(shè)備810,還用于在通訊消息的發(fā)送方是可預期發(fā)送方時,將該通訊消息標記為正常消息,通過網(wǎng)絡(luò)向該第二通訊設(shè)備轉(zhuǎn)發(fā)標記后的通 訊消息。
上述第 一通訊設(shè)備810、第二通訊設(shè)備820可以分別為發(fā)送客戶端和系統(tǒng) 服務(wù)器,也可以分別為系統(tǒng)服務(wù)器和接收客戶端。
上述第二通訊設(shè)備820,還用于將識別后的通訊消息標記為待識別消息, 通過網(wǎng)絡(luò)向第三通訊設(shè)備830轉(zhuǎn)發(fā)標記后的通訊消息。 上述通訊系統(tǒng),還包括
第三通訊設(shè)備830,用于對接收到的來自第二通訊設(shè)備820的通訊消息采 用預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項中的至 少一種進4于識別。
上述第一通訊設(shè)備810、第二通訊設(shè)備820和第三通訊設(shè)備830,可以分 別為發(fā)送客戶端、系統(tǒng)服務(wù)器和接收客戶端。
本申請包括以下優(yōu)點,通過判斷通訊消息的發(fā)送方是否為可預期用戶, 進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃 圾消息的準確率,進而增強了信息過濾的效果。當然,實施本申請的任一產(chǎn) 品并不一定需要同時達到以上所述的所有優(yōu)點。
為了描述的方便,以上所述通訊設(shè)備的各部分以功能分為各種模塊分別 描述。當然,在實施本申請時可以把各模塊的功能在同一個或多個軟件或硬 件中實現(xiàn)。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申 請可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)。 基于這樣的理解,本申請的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟 件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是CD-ROM, U盤,移動硬 盤等)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服 務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例所述的方法。
本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附圖中的 模塊或流程并不 一 定是實施本申請所必須的。
本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的才莫塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應(yīng)變化位于不同于本實施例的一 個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆 分成多個子模塊。
上述本申請實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
以上公開的僅為本申請的幾個具體實施例,但是,本申請并非局限于此, 任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請的保護范圍。
權(quán)利要求
1、一種垃圾消息的識別方法,其特征在于,包括提取通訊消息中的發(fā)送方信息;根據(jù)所述提取的發(fā)送方信息,判斷所述通訊消息的發(fā)送方是否為可預期發(fā)送方,如果所述通訊消息的發(fā)送方不是所述可預期發(fā)送方,則識別所述通訊消息為垃圾消息,或繼續(xù)對所述通訊消息進行識別。
2、 如權(quán)利要求l所述的方法,其特征在于,所述判斷通訊消息的發(fā)送方 是否為可預期發(fā)送方之后,還包括如果所述通訊消息的發(fā)送方是所述可預期發(fā)送方,則識別所述通訊消息 為正常消息。
3、 如權(quán)利要求1或2所述的方法,其特征在于, 所述可預期發(fā)送方,包括以下用戶中的至少一種系統(tǒng)用戶、所述通訊消息的接收方的好友用戶和所述通訊消息的接收方 主動聯(lián)系過的非好友用戶。
4、 如權(quán)利要求3所述的方法,其特征在于,所述判斷通訊消息的發(fā)送方 是否為可預期發(fā)送方,包括獲取系統(tǒng)用戶名單、所述通信消息的接收方的好友用戶名單和所述通訊 消息接收方主動聯(lián)系過的非好友用戶名單;如果所述通訊消息的發(fā)送方信息記錄在所述系統(tǒng)用戶名單、所述通信消 息的接收方的好友用戶名單和所述通訊消息接收方主動聯(lián)系過的非好友用戶 名單的任一項中,則判斷所述通訊消息的發(fā)送方是可預期發(fā)送方。
5、 如權(quán)利要求3所述的方法,其特征在于,所述通訊消息的接收方主動聯(lián)系過的非好友用戶,包括所述通訊消息的 接收方在設(shè)定時間內(nèi)主動聯(lián)系過的非好友用戶。
6、 如權(quán)利要求3所述的方法,其特征在于,還包括根據(jù)自身發(fā)送的通訊消息中的接收方信息,更新自身的可預期發(fā)送方信自
7、 如權(quán)利要求l所述的方法,其特征在于,所述判斷通訊消息的發(fā)送方 是否為可預期發(fā)送方,包括設(shè)置黑名單列表和/或白名單列表,所述黑名單列表中包括被識別出的垃 圾消息的發(fā)送方信息,所述白名單列表中包括被識別出的正常消息的發(fā)送方信息;如果所述通訊消息的發(fā)送方信息記錄在所述黑名單列表中,則判斷所述 通訊消息的發(fā)送方不是可預期發(fā)送方;和/或如果所述通訊消息的發(fā)送方信息記錄在所述白名單列表中,則判斷所述 通訊消息的發(fā)送方是可預期發(fā)送方。
8、 如權(quán)利要求l所述的方法,其特征在于,所述繼續(xù)對通訊消息進行識 別,包括判斷所述通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列表匹配; 如果所述通訊消息的消息內(nèi)容與所述預設(shè)的關(guān)鍵詞列表匹配,則識別所 述通訊消息為垃圾消息。
9、 如權(quán)利要求l所述的方法,其特征在于,所述提取通訊消息中的發(fā)送 方信息之前,還包括判斷所述通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列表匹配; 如果所述通訊消息的消息內(nèi)容與所述預設(shè)的關(guān)鍵詞列表匹配,則暫時識 別所述通訊消息為垃:歐消息,或直接識別所述通訊消息為垃圾消息。
10、 如權(quán)利要求8或9所述的方法,其特征在于,所述使用預設(shè)的關(guān)鍵 詞列表,對所述通訊消息的消息內(nèi)容進行匹配之后,還包括如果所述通訊消息的消息內(nèi)容與所述預設(shè)的關(guān)鍵詞列表不匹配,則識別 所述通訊消息為正常消息,或繼續(xù)對所述通訊消息進行識別。
11、 如權(quán)利要求1所述的方法,其特征在于,所述繼續(xù)對通訊消息進行 識別,包括判斷所述通訊消息的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項; 如果所述通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,則識別所述通訊消息為垃;及消息。
12 、如權(quán)利要求l所述的方法,其特征在于,所述提取通訊消息中的發(fā)送方信息之前,還包括判斷所述通訊消息的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項; 如果所述通訊消息的消息內(nèi)容不符合預設(shè)的垃圾消息識別選項,則暫時識別所述通訊消息為垃^及消息,或直接識別所述通訊消息為垃圾消息。
13、 如權(quán)利要求11或12所述的方法,其特征在于,所述垃圾消息識別 選項,包括以下內(nèi)容中的至少一項不允許出現(xiàn)電話號碼、不允許出現(xiàn)網(wǎng)絡(luò)鏈"t妄、不允許出現(xiàn)IM即時通訊號 碼和不允許出現(xiàn)圖片。
14、 如權(quán)利要求11或12所述的方法,其特征在于,所述判斷通訊消息 的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項之后,還包括如果所述通訊消息的消息內(nèi)容符合預設(shè)的垃圾消息識別選項,則識別所 述通訊消息為正常消息,或繼續(xù)對所述通訊消息進行識別。
15、 如權(quán)利要求1所述的方法,其特征在于,所述繼續(xù)對通訊消息進行 識別,包括使用預設(shè)的關(guān)鍵詞列表,對所述通訊消息的消息內(nèi)容進行匹配,獲取與 所述消息內(nèi)容匹配的關(guān)鍵詞的分值;使用預設(shè)的正則表達式,對所述通訊消息的消息內(nèi)容進行匹配,獲取與 所述消息內(nèi)容匹配的正則表達式的分值;根據(jù)與所述消息內(nèi)容匹配的關(guān)鍵詞和正則表達式的分值,獲取所述消息 內(nèi)容的匹配總分值;判斷所述消息內(nèi)容的匹配總分值是否大于或等于預設(shè)的閾值;如果所述消息內(nèi)容的匹配總分值大于或等于所述預設(shè)的閾值,則識別所 述通訊消息為垃:t及消息。
16 、如權(quán)利要求l所述的方法,其特征在于,所述提取通訊消息中的發(fā) 送方信息之前,還包括使用預設(shè)的關(guān)鍵詞列表,對所述通訊消息的消息內(nèi)容進行匹配,獲取與 所述消息內(nèi)容匹配的關(guān)鍵詞的分值;使用預設(shè)的正則表達式,對所述通訊消息的消息內(nèi)容進行匹配,獲取與 所述消息內(nèi)容匹配的正則表達式的分值;根據(jù)與所述消息內(nèi)容匹配的關(guān)鍵詞和正則表達式的分值,獲取所述消息內(nèi)容的匹配總分值;判斷所述消息內(nèi)容的匹配總分值是否大于或等于預設(shè)的閾值; 如果所述消息內(nèi)容的匹配總分值大于或等于所述預設(shè)的閾值,則暫時識別所述通訊消息為垃圾消息,或直接識別所述通訊消息為垃圾消息。
17、 如權(quán)利要求15或16所述的方法,其特征在于,所述判斷消息內(nèi)容 的匹配總分值是否大于或等于預設(shè)的閾值之后,還包括如果所述消息內(nèi)容的匹配總分值小于所述預設(shè)的閾值,則識別所述通訊 消息為正常消息,或繼續(xù)對所述通訊消息進行識別。
18、 一種通訊設(shè)備,其特征在于,包括 提取模塊,用于提取通訊消息中的發(fā)送方信息;第一判斷模塊,用于根據(jù)所述提取模塊提取的發(fā)送方信息,判斷所述通 訊消息的發(fā)送方是否為可預期發(fā)送方;識別模塊,用于在所述第一判斷模塊判斷所述通訊消息的發(fā)送方不是所 述可預期發(fā)送方時,識別所述通訊消息為垃圾消息,或繼續(xù)對所述通訊消息 進行識別。
19、 如權(quán)利要求18所述的通訊設(shè)備,其特征在于,所述第一判斷模塊, 還用于獲取系統(tǒng)用戶名單、所述通信消息的接收方的好友用戶名單和所述通 訊消息接收方主動聯(lián)系過的非好友用戶名單;如果所述通訊消息的發(fā)送方信息記錄在所述系統(tǒng)用戶名單、所述通信消 息的接收方的好友用戶名單和所述通訊消息接收方主動聯(lián)系過的非好友用戶 名單的任一項中,判斷所述通訊消息的發(fā)送方是可預期發(fā)送方。
20、 如權(quán)利要求18所述的通訊設(shè)備,其特征在于,還包括 更新模塊,用于根據(jù)發(fā)送的通訊消息中的接收方信息,更新可預期發(fā)送方信息。
21、 如權(quán)利要求18所述的通訊設(shè)備,其特征在于,還包括 設(shè)置模塊,用于設(shè)置黑名單列表和/或白名單列表,所述黑名單列表中包括被識別出的垃圾消息的發(fā)送方信息,所述白名單列表中包括被識別出的正常消息的發(fā)送方信息;所述第一判斷模塊,還用于在所述通訊消息的發(fā)送方信息記錄在所述黑 名單列表中時,判斷所述通訊消息的發(fā)送方不是可預期發(fā)送方;和/或在所述通訊消息的發(fā)送方信息記錄在所述白名單列表中時,判斷所述通 訊消息的發(fā)送方是可預期發(fā)送方。
22、 如權(quán)利要求18所述的通訊設(shè)備,其特征在于,還包括第二判斷模塊,用于判斷所述通訊消息的消息內(nèi)容是否與預設(shè)的關(guān)鍵詞列表匹配;所述識別模塊,還用于在所述第二判斷模塊判斷所述通訊消息的消息內(nèi) 容與所述預設(shè)的關(guān)鍵詞列表匹配時,識別所述通訊消息為垃圾消息。
23、 如權(quán)利要求18所述的通訊設(shè)備,其特征在于,還包括 第三判斷模塊,用于判斷所述通訊消息的消息內(nèi)容是否符合預設(shè)的垃圾消息識別選項;所述識別模塊,還用于在所述第三判斷模塊判斷所述通訊消息的消息內(nèi) 容不符合預設(shè)的垃圾消息識別選項時,識別所述通訊消息為垃圾消息。
24、 如權(quán)利要求18所述的通訊設(shè)備,其特征在于,還包括 第一匹配模塊,用于使用預設(shè)的關(guān)鍵詞列表,對所述通訊消息的消息內(nèi)容進行匹配,獲取與所述消息內(nèi)容匹配的關(guān)鍵詞的分值;第二匹配模塊,用于使用預設(shè)的正則表達式,對所述通訊消息的消息內(nèi) 容進行匹配,獲取與所述消息內(nèi)容匹配的正則表達式的分值;獲取模塊,用于根據(jù)所述第 一 匹配模塊和所述第二匹配模塊獲取的與所 述消息內(nèi)容匹配的關(guān)鍵詞和正則表達式的分值,獲取所述消息內(nèi)容的匹配總 分值;第四判斷模塊,用于判斷所述獲取模塊獲取的所述消息內(nèi)容的匹配總分 值是否大于或等于預設(shè)的閾值;所述識別模塊,還用于在所述第四判斷模塊判斷所述消息內(nèi)容的匹配總 分值大于或等于所述預設(shè)的閾值時,識別所述通訊消息為垃圾消息。
25、 一種通訊系統(tǒng),其特征在于,包括第一通訊設(shè)備,用于提取通訊消息中的發(fā)送方信息,根據(jù)所述提取的發(fā) 送方信息,判斷所述通訊消息的發(fā)送方是否為可預期發(fā)送方,在所述通訊消 息的發(fā)送方不是所述可預期發(fā)送方時,將所述通訊消息標記為待識別消息, 向第二通訊設(shè)備轉(zhuǎn)發(fā)標記后的通訊消息;第二通訊設(shè)備,用于根據(jù)以下內(nèi)容中的至少一項,對接收到的來自所述 第 一通訊設(shè)備的通訊消息進行識別預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項。
26、 如權(quán)利要求25所述的通訊系統(tǒng),其特征在于,所述第一通訊設(shè)備,還用于在所述通訊消息的發(fā)送方是所述可預期發(fā)送 方時,將所述通訊消息標記為正常消息,向所述第二通訊設(shè)備轉(zhuǎn)發(fā)標記后的 通訊消息。
27、 如權(quán)利要求25所述的通訊系統(tǒng),其特征在于,還包括 第三通訊設(shè)備,用于對接收到的來自所述第二通訊設(shè)備的通訊消息采用預設(shè)的關(guān)鍵詞列表、預設(shè)的正則表達式和預設(shè)的垃圾消息識別選項中的至少 一種進行識別;所述第二通訊設(shè)備,還用于將識別后的所述通訊消息標記為待識別消息, 向所述第三通訊設(shè)備轉(zhuǎn)發(fā)標記后的通訊消息。
全文摘要
本申請公開了一種垃圾消息的識別方法、裝置和系統(tǒng),該方法包括提取通訊消息中的發(fā)送方信息;根據(jù)所述提取的發(fā)送方信息,判斷所述通訊消息的發(fā)送方是否為可預期發(fā)送方,如果所述通訊消息的發(fā)送方不是所述可預期發(fā)送方,則識別所述通訊消息為垃圾消息,或繼續(xù)對所述通訊消息進行識別。本申請通過判斷通訊消息的發(fā)送方是否為可預期用戶,進行垃圾消息的識別,降低了對垃圾消息的漏判率和誤判率,提高了識別垃圾消息的準確率,進而增強了信息過濾的效果。
文檔編號H04L12/58GK101534261SQ200910131229
公開日2009年9月16日 申請日期2009年4月10日 優(yōu)先權(quán)日2009年4月10日
發(fā)明者張利明, 波 聞 申請人:阿里巴巴集團控股有限公司