欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

由計算機實施的消息過濾方法、消息過濾裝置及系統(tǒng)的制作方法

文檔序號:6430203閱讀:136來源:國知局
專利名稱:由計算機實施的消息過濾方法、消息過濾裝置及系統(tǒng)的制作方法
技術領域
本申請涉及數(shù)據(jù)處理技術,尤其涉及一種由計算機實施的消息過濾方法、消息過濾裝置及系統(tǒng)。
背景技術
消息收發(fā)功能用于使通過網(wǎng)絡連接的不同用戶之間進行交互。但是,也有一些用意不良的用戶,企圖大量發(fā)送重復消息或相似消息(這些消息中可能包含一些釣魚網(wǎng)站的地址、垃圾廣告等),以增加點擊率。這些情況例如發(fā)生在電子商務系統(tǒng)或郵件系統(tǒng)中。這樣,會造成系統(tǒng)的負載和流量增大,給系統(tǒng)服務器的存儲能力及數(shù)據(jù)處理能力帶來很大壓 力。已知的消息過濾方法如下。一種是基于規(guī)則的消息過濾方法。例如,把發(fā)送垃圾消息比較多的用戶的用戶名加入到一個專門的黑名單中,如果通過黑名單中的用戶名再次發(fā)送重復的消息,則阻止該重復消息的發(fā)送。又例如,針對消息的某些字段,建立相關的關鍵字,只要消息的這些字段中包含這些關鍵字,就過濾該消息。這種基于規(guī)則的消息過濾方法存在的問題是這種方式盡管比較簡單、直接而且響應快,然而見效快,失效也快。規(guī)則的更新速度慢,而消息的內容卻是不斷在變化的。基于這些規(guī)則,用戶名或消息內容變化后的消息容易被確定為非垃圾消息,這樣,容易導致大量垃圾消息無法被過濾掉,消息過濾的成功率低。例如,用戶可以更換一個新的用戶名,只要該用戶名不在黑名單中,該用戶就又可以大量發(fā)送垃圾消息了。而消息過濾的成功率低導致數(shù)據(jù)處理效率無法得到有效提高。而且,規(guī)則的建立和更新需要大量專業(yè)人員的參與,需要很多的人力和物力,成本相對較高。另一種是基于機器學習的消息過濾方法,包括先人工收集一些被確定為垃圾的消息以及一些被確定為正常的消息,建立基礎樣本庫。收集數(shù)量需要到一定程度,覆蓋面需要比較廣。針對這些基礎樣本庫,建立對應的分類模型以及選定相關的參數(shù)等。分類模型建立好之后,就可以獲得關于垃圾消息和非垃圾消息的參考數(shù)據(jù)。在獲得用于判斷垃圾消息和非垃圾消息的參考數(shù)據(jù)后,就可以使用這些參考數(shù)據(jù)來進行消息過濾了。具體地,對于當前消息,判定當前消息的分類情況,根據(jù)關于垃圾消息和非垃圾消息的參考數(shù)據(jù)判斷當前消息是垃圾消息還是非垃圾消息,然后將垃圾消息過濾掉。這種基于機器學習的消息過濾方法存在的問題是收集樣本、建立分類模型以及獲得參考數(shù)據(jù)都非常復雜,而且需要不斷更新分類模型和參考數(shù)據(jù)。由于樣本庫規(guī)模龐大,動輒幾十萬,模型成長比較緩慢,機器學習需要幾個月的適應期,導致數(shù)據(jù)處理量龐大,耗費時間比較長。另外,模型的建立需要專門的建模人員的參與,程序實現(xiàn)則又需要非常專業(yè)的程序員參與,整體耗費較多,需要很多的人力和物力,成本相對較高。此外,上述這兩種方法均難以支持多語言?;谝?guī)則的消息過濾方法需要運營團隊能夠很好地處理各種語言,而基于機器學習的消息過濾方法則更加困難,因為涉及到某些語言的復雜的分詞情況、存儲情況、語義分析情況等。而在一些面向國際的網(wǎng)站上,多語言是基礎的服務。

發(fā)明內容
本申請針對現(xiàn)有技術中存在的問題,提供一種由計算機實施的消息過濾方法、消息過濾裝置及系統(tǒng),實現(xiàn)無需人工參與的自動化消息過濾,降低成本,并提高消息過濾的成功率,提高數(shù)據(jù)處理效率。本申請?zhí)峁┝艘环N由計算機實施的消息過濾方法,包括步驟101、接收消息;步驟102、提取出所述消息中的文本;步驟103、判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文·本;如果過濾容器中的樣本中包括與所述提取出的消息中的文本相似的文本,則執(zhí)行步驟104 ;如果過濾容器中的樣本中不包括與所述提取出的消息中的文本相似的文本,則執(zhí)行步驟 105 ;步驟104、為所述提取出的消息中的文本建立新的樣本,將所述新的樣本添加到所述過濾容器中的歸屬樣本庫,并且不發(fā)送所述消息;步驟105、為所述提取出的消息中的文本建立新的樣本,將所述新的樣本添加到在所述過濾容器中新的樣本庫中,并發(fā)送所述消息。本申請還提供了一種消息過濾裝置,包括接收模塊,用于接收消息;提取模塊,用于提取所述消息中的文本;判斷模塊,用于判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文本;第一處理模塊,用于在所述判斷模塊確定所述過濾容器中的樣本中包括與所述提取出的消息中的文本相似的文本的情況下,為所述提取出的消息中的文本建立新的樣本,將所述新的樣本添加到所述過濾容器中的歸屬樣本庫,并且不發(fā)送所述消息;第二處理模塊,用于在所述判斷模塊確定所述過濾容器中的樣本中不包括與所述提取出的消息中的文本相似的文本的情況下,為所述提取出的文本建立新的樣本,將所述新的樣本添加到在所述過濾容器中新的樣本庫中,并發(fā)送所述消息。本申請還提供了一種消息過濾系統(tǒng),包括至少一個接收方消息響應模塊、至少一個發(fā)送方消息響應模塊,還包括至少一個如前所述的消息過濾裝置;所述發(fā)送方消息響應模塊用于接收發(fā)送方發(fā)送的消息,并將接收到的消息發(fā)送給所述消息過濾裝置,由所述消息過濾裝置對所述消息進行過濾;所述接收方消息響應模塊用于將從所述消息過濾裝置接收到的消息發(fā)送給接收方。本申請?zhí)峁┑南⑦^濾方法、裝置及系統(tǒng)中,對于接收到的消息中的文本,根據(jù)該文本是否與樣本庫的樣本中的文本相似,來選擇性地將消息中的文本作為樣本添加到歸屬樣本庫中或者是新的樣本庫中;并根據(jù)該文本是否與樣本庫的樣本中的文本相似來確定是否將消息發(fā)送,從而實現(xiàn)了消息的過濾。樣本庫中的樣本無需人工預先收集,而是在接收消息的過程中不斷地自動累積、更新,實現(xiàn)了自動化消息過濾。由于無需人工參與,從而可以節(jié)省人力和物力,降低成本。由于樣本庫中的樣本是隨著不斷接收消息而不斷更新的,因而樣本庫中的樣本能夠與消息的最新變化相適應,不會像基于規(guī)則的消息過濾方法那樣由于規(guī)則沒有及時更新而導致消息的漏過濾 ,也不會像基于機器學習的消息過濾方法那樣,由于建立的模型或參考數(shù)據(jù)沒有及時更新而導致消息的漏過濾,降低了消息漏過濾的可能性,提高了消息過濾的成功率。而且,由于降低了消息漏過濾的可能性,能夠使得不必要被處理的重復消息盡可能地被過濾,減少了消息處理量,提高了數(shù)據(jù)處理效率。而且,本申請?zhí)峁┑南⑦^濾方法、裝置及系統(tǒng)中,不涉及到規(guī)則的建立,也不涉及到機器學習模型的建立,整個過程是針對文本中的字符的分析,而不是針對文本的語義,因而可以支持多語言,適用于任何語言的文本。通過以下參照附圖對優(yōu)選實施例的說明,本申請的上述以及其它目的、特征和優(yōu)點將更加明顯。


圖I示例性示出本申請消息過濾系統(tǒng)的一種結構示意圖;圖2示例性示出本申請由計算機實施的消息過濾方法實施例一的流程圖;圖3示例性示出根據(jù)圖2中的方法建立的過濾容器的示意圖;圖4示例性示出本申請由計算機實施的消息過濾方法實施例二的流程圖;圖5示例性示出本申請消息過濾裝置的結構示意圖;圖6示例性示出本申請消息過濾系統(tǒng)實施例的另一種結構示意圖;圖7示例性示出本申請消息過濾系統(tǒng)實施例的又一種結構示意圖。
具體實施例方式下面將詳細描述本申請的實施例。應當注意,這里描述的實施例只用于舉例說明,并不用于限制本申請。圖I示例性示出本申請消息過濾系統(tǒng)的一種結構示意圖,該系統(tǒng)設置在發(fā)送方的用戶終端側與接收方的用戶終端側之間,包括發(fā)送方消息響應模塊I、消息過濾裝置2和接收方消息響應模塊3。該消息過濾系統(tǒng)用于處理從發(fā)送方發(fā)送到接收方的消息。發(fā)送方消息響應模塊I針對發(fā)送方發(fā)出的消息作出響應,具體是接收發(fā)送方發(fā)送的消息,將接收到的消息發(fā)送到消息過濾裝置2。接收方消息響應模塊3針對待發(fā)送給接收方的消息作出響應,具體是將從消息過濾裝置12接收到的消息發(fā)送到接收方。發(fā)送方消息響應模塊I、消息過濾裝置2和接收方消息響應模塊3的數(shù)量可以是一個或多個。發(fā)送方與接收方之間傳輸?shù)南⒖梢园òl(fā)送方字段、接收方字段以及主體部分(body),主體部分可以是文本。下面結合圖I所示的系統(tǒng)說明本申請消息過濾方法的實現(xiàn)過程。圖2示例性示出本申請由計算機實施的消息過濾方法實施例一的流程圖,包括
步驟101、接收消息。具體可以是由消息過濾裝置2從發(fā)送方消息響應模塊I接收消息。步驟102、提取出消息中的文本。步驟103、判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文本;如果過濾容器中的樣本中包括與所述提取出的消息中的文本相似的文本,則執(zhí)行步驟104 ;如果過濾容器中的樣本中不包括與提取出的消息中的文本相似的文本,則執(zhí)行步驟105。本申請的實施例中,過濾容器是一個或多個樣本庫的集合,每個樣本庫包括一個或多個相似的樣本。所述樣本可以包括文本本身以及文本的特征信息,例如文本的向量、文本的長度、文本的類別等。當然可以理解的是所述樣本也可以只包括文本本身。過濾容器的樣本中的文本是之前接收過的消息中的文本。如果過濾容器中的樣本中包括與從當前接收到的消息中提取出的文本相似的文本,則說明之前已經(jīng)接收過相似的消息,在步驟104 中可以將步驟101中接收到的消息過濾掉。如果過濾容器中的樣本中不包括與從當前接收到的消息中提取出的文本相似的文本,說明之前沒有接收過相似的消息,在步驟105中可以將步驟101中接收到的消息發(fā)送。在本申請的實施例中,對于過濾容器的樣本中的文本與提取出的消息中的文本相似的樣本,也可以稱作相似樣本。步驟104、為所述提取出的消息中的文本建立新的樣本,將新的樣本添加到過濾容器中的歸屬樣本庫,并且將步驟101中接收到的消息過濾掉,即,不發(fā)送步驟101中接收到的消息。具體地,可以將步驟101中接收到的消息丟棄,不再進行后續(xù)處理。步驟105、為所述提取出的消息中的文本建立新的樣本,將新的樣本添加到在過濾容器中新的樣本庫中,并發(fā)送步驟101中接收到的消息。在步驟105中可以在過濾容器中建立新的樣本庫。建立新的樣本庫的步驟可以在建立新的樣本的步驟之后執(zhí)行,或者可以與建立新的樣本的步驟同時執(zhí)行。當然,在步驟105中也可以在建立新的樣本之前預先建立新的樣本庫。在步驟105中,消息過濾裝置2可以將步驟101中接收到的消息發(fā)送給接收方消息響應模塊3。之后,接收方消息響應模塊3可以將消息發(fā)送給接收方。根據(jù)本申請的實施例,在步驟104中,歸屬樣本庫是指樣本中包括的文本與步驟102中提取出的消息中的文本相似的樣本所在的樣本庫。圖3示例性示出根據(jù)圖2中的方法建立的過濾容器的示意圖。過濾容器包括3個樣本庫,分別是樣本庫A、樣本庫B和樣本庫C。樣本庫A中保存有樣本al、樣本a2和樣本a3。樣本庫B中保存有相似的樣本bl、樣本b2和樣本b3。樣本庫C中保存有相似的樣本Cl、樣本c2和樣本c3。對于步驟101中接收到的消息Q而言,如果過濾容器中某個樣本的文本與從消息Q中提取出的文本q相似,例如樣本庫B中的樣本bl的文本與提取出的文本q相似,則樣本bl為相似樣本,在步驟104中為文本q建立新的樣本,將新的樣本添加到樣本庫B中,樣本庫B為歸屬樣本庫。如果遍歷過濾容器中的所有樣本庫都找不到一個樣本的文本與從消息Q中提取出的文本q相似,則為文本q建立新的樣本,并在過濾容器中建立一個新的樣本庫,將新的樣本添加到新的樣本庫中。本申請實施例一提供的方法中,對于接收到的消息中的文本,根據(jù)該文本是否與樣本庫的樣本中的文本相似,來選擇性地將消息中的文本作為樣本添加到歸屬樣本庫中或者是新的樣本庫中;并根據(jù)該文本是否與樣本庫的樣本中的文本相似來確定是否將消息發(fā)送,從而實現(xiàn)了消息的過濾。樣本庫中的樣本無需人工預先收集,而是在接收消息的過程中不斷地自動累積、更新,實現(xiàn)了自動化消息過濾。由于無需人工參與,從而可以節(jié)省人力和物力,降低成本。由于樣本庫中的樣本是隨著不斷接收消息而不斷更新的,因而樣本庫中的樣本能夠與消息的最新變化相適應,不會像基于規(guī)則的消息過濾方法那樣由于規(guī)則沒有及時更新而導致消息的漏過濾,也不會像基于機器學習的消息過濾方法那樣,由于建立的模型或參考數(shù)據(jù)沒有及時更新而導致消息的漏過濾,降低了消息漏過濾的可能性,提高了消息過濾的成功率。例如,對于同一個用戶,如果他用兩個用戶名先后發(fā)送了相同的消息,那么采用本申請?zhí)峁┑姆椒?,即使用戶名不同,也可以從過濾容器的樣本庫找到之前他發(fā)送過的消息對應的樣本,從而將重復發(fā)送的消息過濾掉,避免了用戶利用不同用戶名發(fā)送大量重復消息的情況。 而且,由于降低了消息漏過濾的可能性,能夠使得不必要被處理的重復消息盡可能地被過濾,減少了消息處理量,提高了數(shù)據(jù)處理效率。另外,本申請?zhí)峁┑南⑦^濾方法中,不涉及到規(guī)則的建立,也不涉及到機器學習模型的建立,整個過程是針對文本中的字符的分析,而不是針對文本的語義,因而一方面可以省去人工參與,另一方面可以支持多語言,可以適用于任何語言的文本。在本申請的實施例中,如果在接收消息之前已建立了樣本庫和樣本,則可以判斷已建立的樣本庫中是否存在文本與提取出的消息中的文本相似的樣本。如果還沒有建立樣本庫和樣本,則可以為步驟101中接收到的消息中的文本建立樣本,將建立的樣本作為第一份樣本添加到一個新的樣本庫中。后續(xù)接收到新的消息后,即可以不斷更新該新的樣本庫中的樣本。在步驟103中,可以通過各種方式確定樣本中是否包括與所述提取出的消息中的文本相似的文本。例如可以根據(jù)向量方式來確定,或者可以根據(jù)最長公共子串方式(Longest Common String,簡稱LCS)來確定,或者可以根據(jù)向量方式和LCS方式的組合方式來確定。(I)基于向量的方式兩個文本之間的相似度可以用向量相似度來表示,向量相似度可以用兩個文本的向量之間的夾角的余弦來表示。在步驟103中,可以獲取提取出的消息中的文本的向量以及過濾容器的樣本庫的樣本中文本的向量;判斷是否存在樣本中的文本的向量與提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的樣本。相似度閾值可以根據(jù)數(shù)據(jù)處理的需要來預先設置。一個文本通常包括多個詞(term),該詞可以是一個英文單詞或者一個中文字。詞頻(Term Frequency,簡稱TF)表示一個詞在一個文本中出現(xiàn)的次數(shù)。逆向文件頻率(Inverse Document Frequency, IDF)表不一個詞的普遍重要性。文本中一個詞的權重可以用該詞的詞頻和該詞的逆向文件頻率的乘積表示。一個文本的向量w可以表示為w =(wl, w2,......wn),其中wl, w2,......wn分別是各個詞的權重。在獲得兩個文本的向量之后,可以計算出這兩個文本向量之間的夾角的余弦,該夾角的余弦越大,表示兩個文本之間的相似度越大。對于本申請的實施例而言,可以獲取提取出的消息中的文本的向量以及樣本庫中的樣本中文本的向量,計算出提取出的消息中的文本的向量以及樣本庫的樣本中文本的向量之間的夾角的余弦,判斷該夾角的余弦是否大于或等于相似度閾值。如果找到一個樣本中文本的向量與提取出的消息中文本的向量之間的夾角的余弦大于或等于相似度閾值,則確定存在樣本中的文本與提取出的消息中的文本之間的相似度大于或等于相似度閾值的樣本,即,過濾容器中的樣本中包括與提取出的消息中的文本相似的文本。如果遍歷所有的樣本庫都沒有找到一個樣本中文本的向量與提取出的消息中的文本的向量之間的夾角的余弦大于或等于相似度閾值,則確定不存在樣本中的文本與提取出的消息中的文本之間的相似度大于或等于相似度閾值的樣本,即,過濾容器中的樣本中不包括與提取出的消息中的文本相似的文本。為了更準確地計算出兩個文本之間的相似度,減少相似度計算的空間復雜度和時間復雜度,可以采用位置敏感哈希方法(Local Sensitive Hashing,簡稱LSH)計算提取出的消息中的文本和樣本庫中的樣本中的文本的高維向量,計算提取出的消息中的文本的高維向量與樣本庫的樣本中文本的高維向量之間的相似度。高維向量相似度可以表示文本相似度。此處,高維向量可以表征的文本特征更豐富。在計算高維向量之前,可以先將文本或樣本離散化。(2)基于LCS的方式LCS是兩個或多個給定字符串的最長的公共子串,它是一個不一定連續(xù)但按順序取自給定字符串中的字符序列,可以表示兩個或多個字符串之間的相似度。以兩個字符串為例,如果LCS越長,表示這兩個字符串之間的相似度越大。文本可以看作是相對較長的字符串。如果基于LCS的方式,則步驟103可以包括判斷過濾容器的樣本庫中是否存在樣本中的文本與提取出的消息中的文本之間的LCS的長度大于或等于子串長度閾值的樣本。子串長度閾值可以是預先設置的值。如果某個樣本所包括的文本與提取出的消息中的文本之間的LCS的長度大于或等于子串長度閾值,則確定存在樣本中的文本與提取出消息中的文本之間的LCS的長度大于或等于子串長度閾值的樣本,即,過濾容器中的樣本中包括與所提取出的消息中的文本相似的文本;否則,確定不存在樣本中的文本與提取出的消息中的文本之間的LCS的長度大于或等于子串長度閾值的樣本,即,過濾容器中的樣本中不包括與所提取出的消息中的文本相似的文本。(3)基于向量和LCS的組合方式組合方式的一個例子可以包括首先,獲取提取出消息中的文本的向量以及過濾容器的樣本庫的樣本中文本的向量;判斷是否存在樣本中的文本的向量與提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的相似樣本。通過該步驟獲取的相似樣本可以看作是第一候選相似樣本。然后,再判斷第一候選相似樣本中是否存在文本與提取出的消息中的文本之間的LCS的長度大于或等于子串長度閾值的第二候選相似樣本。如果存在第二候選相似樣本,則可以確定第二候選相似樣本即為文本與提取出的文本相似的相似樣本,也就可以確定過濾容器中的樣本中包括與所提取出的消息中的文本相似的文本。當然也可以先基于LCS方式判斷是否存在候選相似樣本,然后再從候選相似樣本中基于向量方式判斷候選相似樣本中是否存在樣本中的文本的向量與提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的相似樣本。如果存在,則可以確定樣本中的文本向量與提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的相似樣本即為樣本中的文本與提取出的消息中的文本相似的相似樣本。這種組合方式實質上是一種雙重檢驗方式,可以更準確地判斷提取出的消息中的文本與過濾容器的樣本庫中樣本所包括的文本是否相似,從而可以提供更準確的消息過濾。 在本申請的實施例中,為了防止過濾容器的樣本庫數(shù)量和樣本數(shù)量無限制增長,同時保證樣本的實時更新,可以基于最少使用原則(Least Recently Used,簡稱LRU)動態(tài)地淘汰掉部分樣本和樣本庫。在步驟104中,將新的樣本添加到相似樣本的歸屬樣本庫,具體可以包括步驟1041、判斷歸屬樣本庫中是否存在需要被刪除的樣本;如果歸屬樣本庫中不存在需要被刪除的樣本,則執(zhí)行步驟1042 ;如果歸屬樣本庫中存在需要被刪除的樣本,則執(zhí)行步驟1043。步驟1042、將新的樣本添加到歸屬樣本庫。步驟1043、將歸屬樣本庫中需要被刪除的樣本刪除,然后將新的樣本添加到歸屬樣本庫。在步驟1041中,具體可以判斷將新的樣本添加到歸屬樣本庫后是否會使得歸屬樣本庫中的樣本總數(shù)超出預設樣本總數(shù);如果將新的樣本添加到歸屬樣本庫后會使得歸屬樣本庫中的樣本總數(shù)超出預設樣本總數(shù),則確定歸屬樣本庫中存在需要被刪除的樣本;如果將新的樣本添加到歸屬樣本庫后不會使得歸屬樣本庫中的樣本總數(shù)超出預設樣本總數(shù),則確定歸屬樣本庫中不存在需要被刪除的樣本。預設樣本總數(shù)可以由本領域技術人員根據(jù)消息處理的實際運行情況來動態(tài)設置,是可以實時變化的。在步驟1043中,將需要被刪除的樣本刪除的方式例如可以包括獲取歸屬樣本庫中各樣本的使用次數(shù),根據(jù)獲取的各樣本的使用次數(shù)將需要被刪除的樣本刪除。例如,可以將使用次數(shù)最少的樣本刪除。使用次數(shù)是指樣本被作為相似樣本使用的次數(shù)。當然本領域技術人員也可以采用其他改型方式來淘汰樣本,例如保留使用次數(shù)大于或等于預設閾值的樣本。以圖3為例,在為從消息Q中提取出的文本q建立新的樣本后,判斷將新的樣本添加到樣本庫B(即相似樣本的歸屬樣本庫)中是否會使得樣本庫B的樣本總數(shù)超出預設樣本總數(shù)。假設當前預設樣本總數(shù)為3,如果將新的樣本添加到樣本庫B會導致樣本庫B的樣本總數(shù)超過3,則確定樣本庫B中存在需要被刪除的樣本。然后,可以分別獲得樣本bl、樣本b2和樣本b3的使用次數(shù),將使用次數(shù)最少的那個樣本刪除,再將新的樣本添加到樣本庫B中。通過動態(tài)地設置預設樣本總數(shù),可以動態(tài)地淘汰掉樣本庫中的部分使用次數(shù)不多的樣本,使得樣本庫中的樣本能夠動態(tài)地更新,而且樣本庫的容量不會無限制地增大,這樣,消息過濾系統(tǒng)的消息處理量也能夠得到動態(tài)的調整和有效的控制。在步驟105中,在過濾容器中建立新的樣本庫,可以包括步驟1051、判斷過濾容器中是否存在需要被刪除的樣本庫;如果不存在需要被刪除的樣本庫,則執(zhí)行步驟1052 ;如果存在需要被刪除的樣本庫,則執(zhí)行步驟1053 ;步驟1052、建立新的樣本庫;步驟1053、將需要被刪除的樣本庫刪除,然后建立新的樣本庫。在步驟1051中,具體可以判斷建立新的樣本庫后是否會使得過濾容器中樣本庫的總數(shù)超出預設樣本庫總數(shù)。如果建立新的樣本庫后會使得過濾容器中樣本庫的總數(shù)超出預設樣本庫總數(shù),則確定存在需要被刪除的樣本庫;如果建立新的樣本庫后不會使得過濾容器中樣本庫的總數(shù)超出預設樣本庫總數(shù),則確定不存在需要被刪除的樣本庫。 預設樣本庫總數(shù)也是可以根據(jù)消息處理系統(tǒng)的實際運行情況來動態(tài)設置,是可以實時變化的。在步驟1053中將需要被刪除的樣本庫刪除的方式例如可以包括獲取各樣本庫的總使用次數(shù),根據(jù)各樣本庫的總使用次數(shù)將需要被刪除的樣本庫刪除。例如可以將總使用次數(shù)最少的樣本庫淘汰。樣本庫的總使用次數(shù)是樣本庫中各個樣本的使用次數(shù)與樣本庫中樣本總數(shù)的乘積。當然本領域技術人員也可以采用其他改型來刪除樣本庫,例如保留總使用次數(shù)大于或等于預設次數(shù)閾值的樣本庫。以圖3為例,如果遍歷樣本庫A、樣本庫B和樣本庫C都找不到樣本中的文本與從消息Q中提取出的文本q相似的相似樣本,則為文本q建立新的樣本,判斷是否存在需要被淘汰的樣本庫。假設當前的預設樣本庫總數(shù)為3,建立新的樣本庫后會使得過濾容器中樣本庫總數(shù)超過3,則確定存在需要被刪除的樣本庫。分別獲取樣本庫A、樣本庫B和樣本庫C的總使用次數(shù),將總使用次數(shù)最少的樣本庫刪除,然后建立新的樣本庫,將新的樣本添加到新的樣本庫。如果不存在需要被刪除的樣本庫,則可以直接在過濾容器中建立一個新的樣本庫,將新的樣本添加到新的樣本庫。通過動態(tài)地設置預設樣本庫總數(shù),可以動態(tài)地淘汰掉部分總使用次數(shù)不多的樣本庫,使得樣本庫夠動態(tài)地更新,而且樣本庫的總數(shù)不會無限制地增大,這樣消息過濾系統(tǒng)的消息處理量也能夠得到動態(tài)的調整和有效的控制。圖4示例性示出本申請由計算機實施的消息過濾方法實施例二的流程圖,包括步驟201、接收消息。步驟202、提取出消息中的文本。步驟203、對提取出的文本進行格式化操作。例如,對于含有富文本格式(RichText Format,簡稱RTF)的文本,可以去掉標簽。對于被轉義過的文本,可以將文本轉義回來。步驟204、將提取出的文本進行離散化處理后,采用LSH方法獲取文本的高維向量VI。步驟205、判斷過濾容器中的樣本中是否包括與所述提取出的消息中的文本相似的文本,即,判斷過濾容器中是否存在文本的高維向量與高維向量Vl相似的樣本。如果存在樣本中的文本與提取出的消息中的文本相似的樣本,則執(zhí)行步驟206 ;如果遍歷過濾容器中所有的樣本庫都找不到樣本中的文本與提取出的消息中的文本相似的樣本,則執(zhí)行步驟 207。步驟206包括如下子步驟步驟2061、為提取出的文本建立新的樣本。步驟2062、判斷歸屬樣本庫中是否存在需要被淘汰的樣本,即,判斷將新的樣本添加到歸屬樣本庫之后是否會使得歸屬樣本庫的樣本總數(shù)超過預設樣本總數(shù)。如果歸屬樣本庫中存在需要被淘汰的樣本,則執(zhí)行步驟2063 ;如果歸屬樣本庫中不存在需要被淘汰的樣本,則執(zhí)行步驟2064。步驟2063、獲取歸屬樣本庫中各樣本的使用次數(shù),將使用次數(shù)最少的樣本淘汰,然后將步驟2061中建立的新的樣本添加到歸屬樣本庫中,然后執(zhí)行步驟2065。 步驟2064、將步驟2061中建立的新的樣本添加到歸屬樣本庫中,然后執(zhí)行步驟2065。步驟2065、將步驟201中接收到的消息過濾,S卩,不發(fā)送步驟201中接收到的消息,具體地,可以將該消息丟棄或者可以緩存到其他指定設備進行其他處理。步驟207包括如下子步驟步驟2071、為提取出的消息中的文本建立新的樣本。步驟2072、判斷過濾容器中是否存在需要被淘汰的樣本庫,即,判斷建立新的樣本庫之后是否會使過濾容器中樣本庫的總數(shù)超過預設樣本庫總數(shù)。如果存在需要被淘汰的樣本庫,則執(zhí)行步驟2074 ;如果不存在需要被淘汰的樣本庫,則執(zhí)行步驟2073。步驟2073、建立新的樣本庫,然后執(zhí)行步驟2075。步驟2074、獲取過濾容器中各樣本庫的總使用次數(shù),將總使用次數(shù)最少的樣本庫淘汰,建立新的樣本庫,然后執(zhí)行步驟2075。步驟2075、將新的樣本添加到新的樣本庫。步驟2076、將步驟201中接收到的消息發(fā)送。實施例二中,是通過LSH方法獲取高維向量的方法來判斷是否存在文本與提取出的文本相似的樣本,當然也可以采用其他的方法。在步驟205中,確定過濾容器中存在高維向量與提取出的文本的高維向量Vl相似的樣本之后,可以將高維向量與提取出的文本的高維向量Vl相似的樣本當作候選相似樣本,然后進一步判斷是否存在文本與提取出的文本之間的LCS的長度大于或等于子串長度閾值的候選相似樣本,從而確定過濾容器中的樣本中是否包括與所提取出的消息中的文本相似的文本。前述各個實施例中以發(fā)送方消息響應模塊I、消息過濾裝置2和接收方消息響應模塊3的數(shù)量是I個的情況為例進行介紹。根據(jù)另一個實施例,發(fā)送方消息響應模塊I可以包括多個,接收方消息響應模塊3也包括多個??梢酝ㄟ^一個消息處理模塊將發(fā)送方消息響應模塊I發(fā)送的消息進行解析、存儲后進行路由處理,將消息路由到相應的接收方消息響應模塊3。可以在發(fā)送方消息響應模塊I和消息處理模塊之間設置消息過濾裝置2,在消息處理模塊和各個接收方消息響應模塊3之間分別設置消息過濾裝置。參見圖7,對于發(fā)送方消息響應模塊la、lb和Ic和消息處理模塊4之間設置的第一消息過濾裝置2a,在步驟101中第一消息過濾裝置2a可以接收未經(jīng)路由處理之前的所有消息,即所有發(fā)送方消息響應模塊la、Ib和Ic發(fā)送給消息處理模塊4的消息都先經(jīng)過第一消息過濾裝置2a的處理。步驟103中的過濾容器是針對所有未經(jīng)路由處理之前的消息設置的過濾容器,即,對于所有的消息發(fā)送方響應模塊la、lb和Ic發(fā)送過來的消息都采用同一個過濾容器。通過在送方消息響應模塊la、Ib和Ic和消息處理模塊4之間設置第一消息過濾裝置2a,可以通過判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文本的方式來進行過濾,例如,無論是采用不同用戶名發(fā)送的重復消息還是采用同一用戶名發(fā)送的重復消息,都可以通過判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文本的方式來進行過濾,避免了惡意用戶通過更換用戶名發(fā)送重復消息的情況。對于在消息處理模塊4和各個接收方消息響應模塊3a、3b、3c和3d之間分別設置的第二消息過濾裝置2b、第三消息過濾裝置2c、第四消息過濾裝置2d和第五消息過濾裝置2e,步驟101中第二消息過濾裝置2b、第三消息過濾裝置2c、第四消息過濾裝置2d和第五消息過濾裝置2e可以接收經(jīng)過路由處理之后的消息。在步驟103中的過濾容器是針對消 息的單個目標接收方用戶名設置的過濾容器,即,針對不同的接收方用戶名分別設置一個過濾容器。通過在消息處理模塊4和各個接收方消息響應模塊3a、3b、3c和3d之間分別設置各個消息過濾裝置2b、2c、2d和2e,針對每個接收方用戶名單獨設置過濾容器,這樣,可以實現(xiàn)進一步的過濾,例如,可以進一步過濾掉重復消息。圖5示例性示出本申請消息過濾裝置的結構示意圖,該裝置包括接收模塊21、提取模塊22、判斷模塊23、第一處理模塊24和第二處理模塊25。接收模塊21用于接收消息。提取模塊22與接收模塊21連接,用于提取接收模塊21接收到的消息中的文本。判斷模塊23與提取模塊22連接,用于判斷過濾容器中的樣本中是否包括與所述提取出的消息中的文本相似的文本。第一處理模塊24與判斷模塊23、接收模塊21和提取模塊22連接,用于在判斷模塊23確定過濾容器中的樣本中包括與提取出的消息中的文本相似的文本的情況下,為提取模塊22提取出的文本建立新的樣本,將新的樣本添加到過濾容器中的歸屬樣本庫,并且不發(fā)送接收模塊21接收到的消息,例如可以將接收模塊21接收到的消息丟棄。第二處理模塊25與判斷模塊23、接收模塊21和提取模塊22連接,用于在判斷模塊23確定過濾容器中的樣本中不包括與提取出的文本相似的文本的情況下,為提取模塊22提取出的文本建立新的樣本,將新的樣本添加到在過濾容器中新的樣本庫中,并發(fā)送接收模塊21接收到的消息。判斷模塊23可以根據(jù)向量方式和最長公共子串方式中的任意一種或根據(jù)向量方式和最長公共子串方式的組合方式來判斷是否存在文本與提取出的文本相似的相似樣本。例如,判斷模塊23可以用于獲取提取出的文本的向量以及過濾容器的樣本庫的樣本中的文本的向量,判斷是否存在樣本中文本的向量與提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的樣本?;蛘撸袛嗄K23可以用于判斷過濾容器的樣本庫中是否存在樣本中的文本與提取出的消息中的文本之間的最長公共子串的長度大于或等于子串長度閾值的樣本。圖5所示的消息過濾裝置中,第一處理模塊24可以包括第一樣本建立子模塊241、第一樣本添加子模塊242和第一消息處理子模塊243。其中,第一樣本建立子模塊241可以與判斷模塊23和提取模塊22連接,用于在判斷模塊23確定過濾容器中的樣本中包括與提取出的消息中的文本相似的文本的情況下,為提取模塊22提取出的文本建立新的樣本。第一樣本添加子模塊242可以與樣本建立子模塊241連接,用于將第一樣本建立子模塊241建立的樣本添加到過濾容器的歸屬樣本庫中。第一消息處理子模塊243可以與判斷模塊23和接收模塊21連接,用于在判斷模塊23確定過濾容器中的樣本中包括與提取出的消息中的文本相似的文本的情況下,將接收模塊21接收到的消息過濾掉,即,不發(fā)送接收模塊21接收到的消息。第一樣本添加子模塊242在添加樣本時可以判斷歸屬樣本庫中是否存在需要淘汰的樣本,如果存在,則可以將需要淘汰的樣本淘汰掉之后,將新的樣本添加到歸屬樣本庫中。圖5所示的消息過濾裝置中,第二處理模塊25可以包括樣本庫建立子模塊251、第二樣本建立子模塊252、第二樣本添加子模塊253和第二消息處理子模塊254。樣本庫建 立子模塊251可以與判斷模塊23連接,用于在判斷模塊23確定過濾容器中的樣本中不包括與提取出的消息中的文本相似的文本的情況下,在過濾容器中建立新的樣本庫。第二樣本建立子模塊252可以與判斷模塊23和提取模塊22連接,用于在判斷模塊23確定過濾容器中的樣本中不包括與提取出的消息中的文本相似的文本的情況下,為提取模塊22提取出的文本建立新的樣本。第二樣本添加在模塊253可以與樣本庫建立子模塊251和第二樣本建立子模塊252連接,用于將第二樣本建立子模塊252建立的新的樣本添加到樣本庫建立子模塊251建立的新的樣本庫中。第二消息處理子模塊254可以與判斷模塊23和接收模塊21連接,用于在所述判斷模塊確定過濾容器中的樣本中不包括與提取出的消息中的文本相似的文本的情況下,將接收模塊21接收到的消息發(fā)送。樣本庫建立子模塊251在建立新的樣本庫時,可以判斷過濾容器中是否存在需要被淘汰的樣本庫,如果存在,則將需要被淘汰的樣本庫淘汰后建立新的樣本庫。圖6示例性示出本申請消息過濾系統(tǒng)實施例的另一種結構示意圖,該系統(tǒng)包括至少一個發(fā)送方消息響應模塊I、至少一個消息過濾裝置2、消息處理模塊4和至少一個接收方消息響應模塊3。消息處理模塊4通過至少一個消息過濾裝置2與至少一個發(fā)送方消息響應模塊I連接,消息處理模塊4通過至少一個消息過濾裝置2與至少一個接收方消息響應模塊3連接。其中,發(fā)送方消息響應模塊I用于接收發(fā)送方發(fā)送的消息,并將接收到的消息發(fā)送給消息處理模塊處理4。針對不同的發(fā)送方(例如,可以采用用戶名來區(qū)分不同的發(fā)送方),可以分別設置發(fā)送方消息響應模塊I。接收方消息響應模塊3用于將從消息處理模塊4接收到的消息發(fā)送給接收方(例如,可以采用用戶名來區(qū)分不同的接收方)。針對不同的接收方,可以分別設置接收方消息響應模塊3。消息處理模塊4用于將接收到的消息解析,并將接收到的消息路由到相應的接收方消息響應模塊。消息處理模塊4可以將接收到的消息進行解析,解析出其中的接收方字段,然后可以根據(jù)接收方的信息將消息路由(route)到相應的接收方。如有多個接收方,則消息處理模塊4可以將接收到的消息復制成多份,分別發(fā)送到相應的接收方。在消息處理模塊4和接收方消息響應模塊3之間設置消息過濾裝置2,可以過濾掉發(fā)送到接收方消息響應模塊3的重復消息,從而進一步提高消息過濾的成功率。從圖6的系統(tǒng)中可以看出,假設,發(fā)送方用戶有N個,針對每個發(fā)送方用戶設置一個發(fā)送方消息響應模塊1,則發(fā)送方消息響應模塊有N個;接收方用戶有K個,針對每個接收方用戶設置一個接收方消息響應模塊,則接收方消息響應模塊有K個。如果在某一時間段里,每個發(fā)送方用戶集中發(fā)送M個文本相似的消息給K個接收方用戶,如果不進行消息過濾,則有M*N個消息進入消息處理模塊4中,平均每個接收方用戶需要接收(M*N)/K個消息。如果采用消息過濾裝置進行消息過濾,則理想情況下只有N個消息進入消息處理模塊4,大大減少了消息量,減輕了消息處理模塊4的存儲壓力和數(shù)據(jù)處理壓力,提高了數(shù)據(jù)處理效率。圖7示例性示出本申請消息過濾系統(tǒng)的又一種結構示意圖,該系統(tǒng)包括第一發(fā)送方消息響應模塊la、第二發(fā)送方消息響應模塊Ib和第三發(fā)送方消息響應模塊Ic,這三個發(fā)送方消息響應模塊分別是針對第一用戶名、第二用戶名和第三用戶名的消息響應模塊。還包括第一接收方消息響應模塊3a、第二接收方消息響應模塊3b、第三接收方消息響應模塊 3c和第四接收方消息響應模塊3d,這四個接收方消息響應模塊分別是針對第四用戶名、第五用戶名、第六用戶名和第七用戶名的接收方消息響應模塊。在各發(fā)送方消息響應模塊la、IbUc和消息處理模塊4之間設置有第一消息過濾裝置2a,在各接收方消息響應模塊3a、3b、3c和消息處理模塊4之間分別設置有第二消息過濾裝置2b、第三消息過濾裝置2c、第四消息過濾裝置2d和第五消息過濾裝置2e。第一消息過濾裝置2a、第二消息過濾裝置2b、第三消息過濾裝置2c、第四消息過濾裝置2d和第五消息過濾裝置2e可以共享同一個過濾容器。這種方式下,過濾容器中樣本庫或樣本的數(shù)量累積速度較快,在較短的時間內樣本或樣本庫的數(shù)量也許就能夠達到預設的數(shù)量,從而部分樣本或樣本庫會被淘汰掉,即,樣本或樣本庫淘汰的速度快。對于不同時間接收到的重復消息,由于兩個消息的接收時間差比較大而樣本或樣本庫淘汰速度快,也許之前一個消息的樣本已經(jīng)被淘汰掉了,因而,過濾重復消息的效果稍差。第一消息過濾裝置2a、第二消息過濾裝置2b、第三消息過濾裝置2c、第四消息過濾裝置2d和第五消息過濾裝置2e也可以分別采用不同的過濾容器,即,針對所有的發(fā)送方用戶設置了同一個過濾容器,對于每個接收方用戶分別設置一個過濾容器。第一消息過濾裝置2a可以對所有發(fā)送方發(fā)送的消息中的重復消息進行過濾,所采用的過濾容器是針對所有發(fā)送方用戶的過濾容器。第二消息過濾裝置2b、第三消息過濾裝置2c、第四消息過濾裝置2d和第五消息過濾裝置2e分別是針對發(fā)送給單個接收方用戶的消息進行過濾,所采用的過濾容器可以是針對消息的單個目標接收用戶設置的過濾容器,即,針對每個接收方用戶名單獨設置一個過濾容器。這樣,各個過濾容器中樣本和樣本庫的數(shù)量增加不會很快,因而樣本和樣本庫的淘汰速度不會過快,從而能夠更有效地過濾重復消息。例如,第一發(fā)送方消息響應模塊Ia接收到消息Q1,該消息Ql的文本是ql,該消息Ql的接收方用戶名是第四用戶名。第二發(fā)送方消息響應模塊Ib接收到了消息Q2,該消息Q2的文本也是ql,該消息Q2的接收方用戶名是第四用戶名和第六用戶名。第三發(fā)送方消息響應模塊Ic接收到了消息Q3,該消息Q3的文本是q3,該消息Q3的接收方用戶名是第七用戶名。理論上來講,由于消息Ql和Q2的文本相同,則消息Ql和Q2被第一消息過濾裝置2a處理后,消息Ql和Q2中只有一個消息可以被發(fā)送到消息處理模塊4。但是有的情況下,例如,消息Ql和Q2的發(fā)送時間不同,第二消息過濾裝置2a的過濾容器中可能已經(jīng)淘汰掉了為先前發(fā)送的消息建立的樣本,因而無法有效過濾重復消息,使得文本相似的兩個消息Ql和Q2都被發(fā)送到消息處理模塊4。如果在接收方消息響應模塊一側不設置消息過濾裝置,則消息處理模塊4會將消息Ql發(fā)送到第一接收方消息響應模塊3a,將消息Q2發(fā)送給第一接收方消息響應模塊3a和第三接收方消息響應模塊3c。這樣,第一接收方消息響應模塊Ia就會接收到具有相同文本ql的兩個消息Ql和Q2。而如果在接收方消息響應模塊一側設置消息過濾裝置,則第二消息過濾裝置2b可以采用自身的過濾容器(該過濾容器因只對應于第一接收方消息響應模塊3a,樣本和樣本庫的數(shù)量增長不會太快,因而樣本和樣本庫的淘汰速度不會過快)將發(fā)送給第一接收方消息響應模塊3a的兩個消息Ql和Q2進行過濾處理,使得這兩個消息中只有一個消息可以發(fā)送到第一接收方消息響應模塊3a(如圖7所示)。
·
可見,通過在接收方消息響應模塊一側設置消息過濾裝置,可以過濾掉進入接收方消息響應模塊的重復消息,提高消息過濾的成功率,提高了數(shù)據(jù)處理效率,而且使得用戶無需接收到大量重復的消息,提升了用戶體驗。對于某些惡意用戶通過注冊不同的用戶名發(fā)送重復消息的情況可以有效遏制。本申請?zhí)峁┑南⑦^濾方法及其步驟可以由具有數(shù)據(jù)處理能力的一個或多個處理設備例如一個或多個計算機運行計算機可執(zhí)行指令來實現(xiàn)。存儲介質中可以存儲各種用于執(zhí)行本申請?zhí)峁┑南⑦^濾方法的各個步驟的指令。本申請的消息過濾裝置可以由運行計算機可執(zhí)行指令的一個或多個處理設備實現(xiàn)。該消息過濾裝置中的模塊可以為該處理設備運行計算機可執(zhí)行指令時具有相應功能的設備組件。例如,接收模塊可以是由處理設備中的CPU、接收接口、相關線路以及相應功能的計算機可執(zhí)行指令來構成。本申請?zhí)峁┑南⑦^濾系統(tǒng)可以是具有消息收發(fā)功能的計算機系統(tǒng),例如電子商務系統(tǒng)、郵件系統(tǒng)等。該消息過濾系統(tǒng)中的消息過濾裝置為上面描述的消息過濾裝置。該消息過濾系統(tǒng)中的發(fā)送方消息響應模塊、接收方消息響應模塊和消息處理模塊可以由計算機系統(tǒng)中運行計算機可執(zhí)行指令從而具有發(fā)送消息、處理消息和接收消息等相應功能的系統(tǒng)組件實現(xiàn)。本申請?zhí)峁┑南⑦^濾方法可以以JAVA編程語言開發(fā),部署環(huán)境可以為Linux系統(tǒng),當然,并不限于此,還可以采用其他的開發(fā)語言和開發(fā)系統(tǒng)。綜上所述,本申請?zhí)峁┑南⑦^濾方法、裝置及系統(tǒng),利用文本相似度的手段,利用重復消息的局部性原理(即,重復消息可以是短時間內集中發(fā)送的文本相似同或相似的消息,一條消息被發(fā)送過一次后,短時間可能再次被發(fā)送),從發(fā)送方、接收方兩個入口上共同或選擇性地控制進入系統(tǒng)的相似消息,能夠獲得如下優(yōu)點(I)無縫支持多語言所有的中間處理過程,都是針對字符本身,而不關心字符是屬于哪種語言,會有什么樣的語義等。(2)自動化程度高對于全部的處理過程,不需要大量的人力參與,因為是針對字符、文本本身,而不是針對語義。
(3)實現(xiàn)方便、維護簡單整體的結構簡單清晰,對于本申請中的“文本相似去重復”的實現(xiàn)方式,其實針對不同的場景有很多不同的實現(xiàn)方式,本申請的實施例中只是列舉了一些示例性的方式;對于樣本庫以及樣本的更新的方法,也可以根據(jù)不同場景選擇不同的方案。(4)定時過期、動態(tài)調整本申請實施例中的過濾容器的容器大小是可以配置的,所以可以實現(xiàn)動態(tài)的過期,而不會讓容器容量無限制地增長導致對于正常的消息發(fā)送的限制;本申請的技術方案更多的是防止惡意用戶利用多賬號和/或利用機器頻繁發(fā)送重復的內容,所以本申請的一個實施例中從發(fā)送方、接收方一起控制進入用戶賬戶的消息。(5)本申請?zhí)峁┑募夹g方案對于多賬號輪流發(fā)送以及機器頻繁發(fā)送產(chǎn)生的大量重復消息可以進行有效控制。雖然已參照典型實施例描述了本申請,但應當理解,所用的術語是說明和示例性、而非限制性的術語。由于本申請能夠以多種形式具體實施而不脫離發(fā)明的精神或實質,所以應當理解,上述實施例不限于任何前述的細節(jié),而應在隨附權利要求所限定的精神和范圍內廣泛地解釋,因此落入權利要求或其等效范圍內的全部變化和改型都應為隨附權利要·求所涵蓋。
權利要求
1. 一種由計算機實施的消息過濾方法,包括步驟101、接收消息;步驟102、提取出所述消息中的文本;步驟103、判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文本; 如果過濾容器中的樣本中包括與所述提取出的消息中的文本相似的文本,則執(zhí)行步驟104 ; 如果過濾容器中的樣本中不包括與所述提取出的消息中的文本相似的文本,則執(zhí)行步驟 105 ;步驟104、為所述提取出的消息中的文本建立新的樣本,將所述新的樣本添加到所述過濾容器中的歸屬樣本庫,并且不發(fā)送所述消息;步驟105、為所述提取出的消息中的文本建立新的樣本,將所述新的樣本添加到在所述過濾容器中新的樣本庫中,并發(fā)送所述消息。
2.根據(jù)權利要求I所述的方法,所述歸屬樣本庫是指樣本中包括的文本與所述提取出的消息中的文本相似的樣本所在的樣本庫。
3.根據(jù)權利要求I所述的方法,所述步驟103包括根據(jù)向量方式和最長公共子串方式其中之一或組合來判斷樣本中是否包括與所述提取出的消息中的文本相似的文本。
4.根據(jù)權利要求3所述的方法,所述根據(jù)向量方式來判斷樣本中是否包括與所述提取出的消息中的文本相似的文本包括獲取提取出的消息中的文本的向量以及過濾容器的樣本庫的樣本中文本的向量;判斷是否存在樣本中的文本的向量與提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的樣本;所述根據(jù)最長公共子串方式來判斷樣本中是否包括與所述提取出的消息中的文本相似的文本包括判斷過濾容器的樣本庫中是否存在樣本中的文本與提取出的消息中的文本之間的最長公共子串的長度大于或等于子串長度閾值的樣本。
5.根據(jù)權利要求3所述的方法,所述根據(jù)向量方式和最長公共子串方式的組合方式來判斷樣本中是否包括與所述提取出的消息中的文本相似的文本包括獲取提取出的消息中的文本的向量以及過濾容器的樣本庫的樣本中文本的向量; 判斷是否存在樣本中的文本的向量與所述提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的第一候選相似樣本;如果存在所述第一候選相似樣本,則判斷所述第一候選相似樣本中是否存在文本與所述提取出消息中的文本之間的最長公共子串的長度大于或等于子串長度閾值的第二候選相似樣本;如果存在所述第二候選相似樣本,則確定樣本中包括與所述提取出的消息中的文本相似的文本;如果不存在所述第二候選相似樣本,則確定樣本中不包括與所述提取出的消息中的文本相似的文本。
6.根據(jù)權利要求I所述的方法,所述步驟104中將所述新的樣本添加到所述過濾容器中的歸屬樣本庫,包括步驟1041、判斷所述歸屬樣本庫中是否存在需要被刪除的樣本;如果所述歸屬樣本庫中不存在需要被刪除的樣本,則執(zhí)行步驟1042 ;如果所述歸屬樣本庫中存在需要被刪除的樣本,則執(zhí)行步驟1043 ;步驟1042、將所述新的樣本添加到所述歸屬樣本庫;步驟1043、將所述歸屬樣本庫中需要被刪除的樣本刪除,然后將所述新的樣本添加到所述歸屬樣本庫。
7.根據(jù)權利要求6所述的方法,所述步驟1041包括判斷將所述新的樣本添加到所述歸屬樣本庫后是否會使得所述歸屬樣本庫中的樣本總數(shù)超出預設樣本總數(shù);如果將所述新的樣本添加到所述歸屬樣本庫后會使得所述歸屬樣本庫中的樣本總數(shù)超出預設樣本總數(shù),則確定所述歸屬樣本庫中存在需要被刪除的樣本;如果將所述新的樣本添加到所述歸屬樣本庫后不會使得所述歸屬樣本庫中的樣本總數(shù)超出預設樣本總數(shù),則確定所述歸屬樣本庫中不存在需要被刪除的樣本;所述步驟1043中將所述歸屬樣本庫中需要被淘汰的樣本刪除,包括獲取所述歸屬樣本庫中各樣本的使用次數(shù);根據(jù)所述各樣本的使用次數(shù)將所述歸屬樣本庫中需要被刪除的樣本刪除。
8.根據(jù)權利要求I所述的方法,所述步驟105包括在所述過濾容器中建立所述新的樣本庫;在所述過濾容器中建立所述新的樣本庫的步驟包括步驟1051、判斷所述過濾容器中是否存在需要被刪除的樣本庫;如果不存在需要被刪除的樣本庫,則執(zhí)行步驟1052 ;如果存在需要被刪除的樣本庫,則執(zhí)行步驟1053 ;步驟1052、在所述過濾容器中建立新的樣本庫;步驟1053、將所述過濾容器中需要被刪除的樣本庫刪除,然后建立新的樣本庫。
9.根據(jù)權利要求8所述的方法,所述步驟1051包括判斷建立新的樣本庫后是否會使得所述過濾容器中樣本庫的總數(shù)超出預設樣本庫總數(shù);如果建立新的樣本庫后會使得所述過濾容器中樣本庫的總數(shù)超出預設樣本庫總數(shù),則確定所述過濾容器中存在需要被刪除的樣本庫;如果建立新的樣本庫后不會使得所述過濾容器中樣本庫的總數(shù)超出預設樣本庫總數(shù), 則確定所述過濾容器中不存在需要被刪除的樣本庫;所述步驟1053中將所述過濾容器中需要被刪除的樣本庫刪除,包括獲取各樣本庫的總使用次數(shù);根據(jù)所述各樣本庫的總使用次數(shù)將所述過濾容器中需要被刪除的樣本庫刪除。
10.根據(jù)權利要求1-9中任一權利要求所述的方法,所述步驟101包括接收未經(jīng)路由處理之前的所有消息;所述步驟103中的過濾容器為針對所有未經(jīng)路由處理之前的消息設置的過濾容器。
11.根據(jù)權利要求1-9中任一權利要求所述的方法,所述步驟101包括接收經(jīng)過路由處理之后的消息;所述步驟103中的過濾容器為針對所述消息的單個目標接收用戶名設置的過濾容器。
12.一種消息過濾裝置,包括接收模塊,用于接收消息;提取模塊,用于提取所述消息中的文本;判斷模塊,用于判斷過濾容器中的樣本中是否包括與提取出的消息中的文本相似的文本;第一處理模塊,用于在所述判斷模塊確定所述過濾容器中的樣本中包括與所述提取出的消息中的文本相似的文本的情況下,為所述提取出的消息中的文本建立新的樣本,將所述新的樣本添加到所述過濾容器中的歸屬樣本庫,并且不發(fā)送所述消息;第二處理模塊,用于在所述判斷模塊確定所述過濾容器中的樣本中不包括與所述提取出的消息中的文本相似的文本的情況下,為所述提取出的文本建立新的樣本,將所述新的樣本添加到在所述過濾容器中新的樣本庫中,并發(fā)送所述消息。
13.根據(jù)權利要求12所述的裝置,其中,所述判斷模塊用于獲取提取出的文本的向量以及過濾容器的樣本庫的樣本中文本的向量,判斷是否存在樣本中的文本的向量與所述提取出的消息中的文本的向量之間的相似度大于或等于相似度閾值的樣本。
14.根據(jù)權利要求12所述的裝置,其中,所述判斷模塊用于判斷過濾容器的樣本庫中是否存在樣本中的文本與提取出的消息中的文本之間的最長公共子串的長度大于或等于子串長度閾值的樣本。
15.一種消息過濾系統(tǒng),包括至少一個接收方消息響應模塊、至少一個發(fā)送方消息響應模塊,還包括至少一個如權利要求12-14中任一權利要求所述的消息過濾裝置;所述發(fā)送方消息響應模塊用于接收發(fā)送方發(fā)送的消息,并將接收到的消息發(fā)送給所述消息過濾裝置,由所述消息過濾裝置對所述消息進行過濾;所述接收方消息響應模塊用于將從所述消息過濾裝置接收到的消息發(fā)送給接收方。
16.根據(jù)權利要求15所述的系統(tǒng),還包括消息處理模塊,所述消息處理模塊通過所述至少一個消息過濾裝置與所述至少一個發(fā)送方消息響應模塊連接,所述消息處理模塊通過另外的至少一個如權利要求12-14中任一權利要求所述的消息過濾裝置與所述至少一個接收方消息響應模塊連接;所述消息處理模塊用于從所述發(fā)送方消息響應模塊接收消息,將接收到的消息解析, 將接收到的消息進行路由處理,并將接收到的消息路由到相應的接收方消息響應模塊。
17.根據(jù)權利要求16所述的系統(tǒng),所有的發(fā)送方消息響應模塊與同一個消息過濾裝置連接;每個接收方消息響應模塊分別與一個消息過濾裝置連接。
全文摘要
本申請公開了一種由計算機實施的消息過濾方法、消息過濾裝置及系統(tǒng),方法包括步驟101、接收消息;步驟102、提取出消息中的文本;步驟103、判斷過濾容器中的樣本中是否包括與所述提取出的消息中的文本相似的文本;如果包括,則執(zhí)行步驟104;如果不包括,則執(zhí)行步驟105;步驟104、為所述提取出的消息中文本建立新的樣本,將新的樣本添加到過濾容器中的歸屬樣本庫,并且不發(fā)送所述消息;步驟105、為所述提取出的消息中的文本建立新的樣本,將新的樣本添加到過濾容器中新的樣本庫中,并發(fā)送所述消息。本申請?zhí)峁┑姆椒?、裝置及系統(tǒng),降低了消息漏過濾的可能性,提高了消息過濾的成功率,提高了數(shù)據(jù)處理效率。
文檔編號G06F17/30GK102929872SQ20111022534
公開日2013年2月13日 申請日期2011年8月8日 優(yōu)先權日2011年8月8日
發(fā)明者王燁, 唐志慧 申請人:阿里巴巴集團控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
罗平县| 平阳县| 上蔡县| 靖边县| 东至县| 丰原市| 淮滨县| 永登县| 鱼台县| 姚安县| 彭水| 沙雅县| 三穗县| 嵊州市| 社旗县| 遂川县| 万荣县| 论坛| 武宣县| 松潘县| 乌海市| 大英县| 富裕县| 蒙自县| 桐梓县| 涟水县| 清涧县| 昌黎县| 义乌市| 河曲县| 且末县| 泾源县| 大同县| 建瓯市| 繁昌县| 临夏县| 河东区| 广元市| 藁城市| 许昌县| 云龙县|