專利名稱:對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法和過濾系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通訊信息處理技術(shù),尤其涉及對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法和過濾系統(tǒng)。
背景技術(shù):
近年來,通訊技術(shù)飛速的發(fā)展,各種通訊系統(tǒng)的發(fā)明使用大大方便了人們的相互交流。例如有線、無線電話系統(tǒng),互聯(lián)網(wǎng)系統(tǒng)等可以非常方便地收發(fā)通訊信息。
但是,在大量的通訊信息中,其中有相當(dāng)一部分為垃圾信息。例如互聯(lián)網(wǎng)系統(tǒng)中的網(wǎng)上聊天室是網(wǎng)民在互聯(lián)網(wǎng)上聚集在一起聊天的虛擬場所,在網(wǎng)上聊天室中,往往充斥著許多聊天室廣告,所述聊天室廣告為廣告發(fā)送者作為聊天用戶在網(wǎng)上聊天室里通過發(fā)送帶有廣告信息的聊天信息來吸引聊天用戶訪問,聊天室廣告大多帶有色情和欺騙性質(zhì),大部分屬于垃圾信息,并且很多是采用廣告發(fā)送程序來發(fā)送,導(dǎo)致聊天室里廣告泛濫,影響正常的聊天秩序。針對這種情況,目前出現(xiàn)了針對聊天室廣告的過濾技術(shù),目前采用比較多的是單純的關(guān)鍵字過濾技術(shù)或正則表達(dá)式過濾技術(shù),即通過收集在廣告中經(jīng)常出現(xiàn)的關(guān)鍵詞語和信息,對這些信息設(shè)置正則表達(dá)式,針對每一句聊天內(nèi)容使用關(guān)鍵詞語或正則表達(dá)式來進(jìn)行匹配,從而判斷是否有這些關(guān)鍵詞語和正則表達(dá)式匹配的信息在聊天內(nèi)容中,如果有,就過濾掉這句聊天內(nèi)容。
現(xiàn)有過濾技術(shù)的缺陷在于由于聊天室采用了一些基于內(nèi)容的過濾方法來過濾聊天室的廣告,因此廣告發(fā)送者為了躲避這些過濾的方法,達(dá)到他們發(fā)送廣告的目的,采用了一些躲避過濾的技巧。這些躲避過濾的技巧主要的目的有兩個(gè)方面,一方面需要能夠改變廣告信息內(nèi)容的表現(xiàn)形式,從而能夠使得這些廣告信息不會被關(guān)鍵字或者正則表達(dá)式所過濾掉。另一方面,廣告發(fā)送者需要確保廣告信息要表達(dá)的內(nèi)容沒有被改變。也就是要確保聊天用戶還是能夠看懂廣告信息所要表達(dá)的意思。以下兩個(gè)例子比較好的體現(xiàn)了上述兩方面,比如針對過濾網(wǎng)址的正則表達(dá)式過濾,廣告發(fā)送就會采用“www點(diǎn)xx點(diǎn)com”的方式來表達(dá)他們的網(wǎng)址,這樣就不會被網(wǎng)址正則表達(dá)式過濾掉;再如,一些廣告中有“色情視頻聊天”的詞,如果把“色情視頻聊天”作為過濾關(guān)鍵字進(jìn)行過濾,而真正的廣告發(fā)送者可能把這個(gè)關(guān)鍵詞改成“色情視屏聊天”,從而避免被過濾。
因此,現(xiàn)有的單純的基于文字的過濾技術(shù)存在著較高的漏判率和誤判率。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,可以降低對過濾信息的漏判率和誤判率。
對應(yīng)于本發(fā)明所提供的一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,本發(fā)明還提供一種對通訊信息進(jìn)行過濾的過濾系統(tǒng),以降低對過濾信息的漏判率和誤判率。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明的主要技術(shù)方案為一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,該方法包括預(yù)設(shè)過濾條件及其對應(yīng)的變通形式信息;按照過濾條件以及變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或過濾條件的變通形式匹配,則過濾該通訊信息。
優(yōu)選地,該方法進(jìn)一步包括預(yù)設(shè)針對所述過濾條件變通形式的特例信息,在所述通訊信息的內(nèi)容能夠匹配所述過濾條件的變通形式時(shí),則再判斷該通訊信息的內(nèi)容是否與所述特例信息匹配,如果是,則不過濾所述通訊信息,否則,過濾所述通訊信息。
優(yōu)選地,所述通訊信息的內(nèi)容與所述特例信息匹配是指通訊信息內(nèi)容中包括符合所述特例信息的內(nèi)容。
優(yōu)選地,所述的過濾條件為關(guān)鍵字和或正則表達(dá)式。
優(yōu)選地,在所述過濾條件為關(guān)鍵字的情況下,所述通訊信息內(nèi)容與所述關(guān)鍵字匹配是指通訊信息內(nèi)容中包括所述關(guān)鍵字;所述通訊信息內(nèi)容與所述關(guān)鍵字變通形式匹配是指通訊信息內(nèi)容中包括所述關(guān)鍵字的變通形式;在所述過濾條件為正則表達(dá)式的情況下,所述通訊信息內(nèi)容與所述正則表達(dá)式匹配是指通訊信息內(nèi)容中包括符合所述正則表達(dá)式的內(nèi)容;所述通訊信息內(nèi)容與所述正則表達(dá)式的變通形式匹配是指通訊信息內(nèi)容中包括符合所述正則表達(dá)式的變通形式的內(nèi)容。
優(yōu)選地,所述通訊系統(tǒng)為網(wǎng)上聊天室系統(tǒng),所述通訊信息為網(wǎng)上聊天室中的聊天信息。
一種對通訊信息進(jìn)行過濾的過濾系統(tǒng),該系統(tǒng)包括后臺管理模塊,用于提供輸入設(shè)置接口,接受過濾條件及其變通形式信息的設(shè)置指令;數(shù)據(jù)庫,用于存儲后臺管理模塊所接受的過濾條件及其變通形式信息;前臺過濾模塊,具體包括匹配模塊和過濾模塊;匹配模塊用于讀取所述數(shù)據(jù)庫的內(nèi)容,按照過濾條件及其變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或者過濾條件的變通形式匹配,則觸發(fā)過濾模塊過濾該通訊信息。
優(yōu)選的,該過濾系統(tǒng)的所述數(shù)據(jù)庫中存儲有所述過濾條件變通形式的特例信息,所述前臺過濾模塊進(jìn)一步包括判斷模塊,用于在所述通訊信息的內(nèi)容與所述過濾條件的變通形式匹配時(shí),則再判斷該通訊信息的內(nèi)容是否與所述特例信息匹配,如果是,則不觸發(fā)過濾模塊進(jìn)行過濾,否則,觸發(fā)過濾模塊過濾所述通訊信息。
優(yōu)選的,所述通訊信息為網(wǎng)上聊天室系統(tǒng)中的聊天信息。
優(yōu)選的,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的發(fā)送端,用于對發(fā)送的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的接收端,用于對接收的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的信息中轉(zhuǎn)端,用于對中轉(zhuǎn)的通訊信息進(jìn)行過濾。
本發(fā)明不僅設(shè)置了過濾條件,而且還設(shè)置了過濾條件的變通形式信息,在過濾時(shí)利用過濾條件及其變通形式匹配通訊信息,匹配成功則過濾,因此本發(fā)明可以很好地識別出通訊信息中包含變通信息的躲避技巧,從而將這些利用躲避技巧的通訊信息過濾掉,很好地提高了過濾的準(zhǔn)確性,降低誤判率和漏判率。利用本發(fā)明,可以高效地對通訊系統(tǒng)的通訊信息進(jìn)行過濾,降低了大量垃圾信息的泛濫。
圖1為本發(fā)明所述對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法的流程圖;圖2為本發(fā)明所述對通訊信息進(jìn)行過濾的過濾系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面通過具體實(shí)施例和附圖對本發(fā)明做進(jìn)一步詳細(xì)說明。
本發(fā)明可以適用于所有通訊系統(tǒng)中的通訊信息的過濾,以下實(shí)施例以互聯(lián)網(wǎng)的網(wǎng)上聊天室系統(tǒng)為例對本發(fā)明進(jìn)行說明,在該實(shí)施例中,所述通訊信息為網(wǎng)上聊天室中的聊天信息,需要過濾的垃圾信息為聊天室廣告信息。其他通訊系統(tǒng),例如即時(shí)通訊系統(tǒng),無線短信系統(tǒng)等等,其實(shí)現(xiàn)方法和系統(tǒng)與以下實(shí)施例相同,本文不再贅述。
本發(fā)明的核心技術(shù)方案為基于文字的變通過濾技術(shù),預(yù)設(shè)過濾條件及其對應(yīng)的變通形式信息;按照過濾條件以及變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或者過濾條件的變通形式匹配,則過濾該通訊信息。
所述過濾條件可以為關(guān)鍵字和或正則表達(dá)式,例如,關(guān)鍵字為“色情視頻聊天”,正則表達(dá)式可以為用于匹配網(wǎng)址的正則表達(dá)式www.**.com等等。
所述變通形式可以根據(jù)廣告發(fā)送者的過濾躲避技巧內(nèi)容進(jìn)行設(shè)定,例如針對關(guān)鍵字“色情視頻聊天”,廣告發(fā)送者采用“色情視屏聊天”的表現(xiàn)形式來發(fā)送信息,則該關(guān)鍵字的變通形式可設(shè)置為“色情視屏聊天”;針對過濾網(wǎng)址的正則表達(dá)式,廣告發(fā)送者采用“www點(diǎn)xx點(diǎn)com”的表現(xiàn)形式來表達(dá)他們的網(wǎng)址,則可以設(shè)置一個(gè)變通形式的正則表達(dá)式來匹配“***點(diǎn)***點(diǎn)***”。
在所述過濾條件為關(guān)鍵字的情況下,所述通訊信息內(nèi)容與所述關(guān)鍵字匹配是指通訊信息內(nèi)容中包括所述關(guān)鍵字;所述通訊信息內(nèi)容與所述關(guān)鍵字變通形式匹配是指通訊信息內(nèi)容中包括所述關(guān)鍵字的變通形式。
在所述過濾條件為正則表達(dá)式的情況下,所述通訊信息內(nèi)容與所述正則表達(dá)式匹配是指通訊信息內(nèi)容中包括符合所述正則表達(dá)式的內(nèi)容;所述通訊信息內(nèi)容與所述正則表達(dá)式的變通形式匹配是指通訊信息內(nèi)容中包括符合所述正則表達(dá)式的變通形式的內(nèi)容。
圖1為本發(fā)明所述對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法的流程圖。參見圖1,該流程包括步驟101、預(yù)設(shè)過濾條件及其對應(yīng)的變通形式信息。
步驟102、接收客戶端當(dāng)前的聊天信息。
在本實(shí)施例的網(wǎng)上聊天室系統(tǒng)中,可以在網(wǎng)上聊天室系統(tǒng)的中轉(zhuǎn)服務(wù)器側(cè)采用本發(fā)明的方法對中轉(zhuǎn)的每條聊天信息進(jìn)行過濾;也可以在發(fā)送客戶端上執(zhí)行本發(fā)明的方法,用于對發(fā)送的聊天信息進(jìn)行過濾;或者,也可以在接收客戶端上執(zhí)行本發(fā)明的方法,用于對接收的聊天信息進(jìn)行過濾。不論在發(fā)送端、中轉(zhuǎn)端、或接收端,其過濾的效果相同,都可以達(dá)到本發(fā)明的發(fā)明目的。
步驟103、按照過濾條件以及變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,判斷所述通訊信息的內(nèi)容是否與所述過濾條件或者過濾條件的變通形式匹配,如果是,則執(zhí)行步驟104,否則執(zhí)行步驟105。
步驟104、判斷所述通訊信息的內(nèi)容是否與預(yù)設(shè)的、針對所述過濾條件變通形式的特例信息匹配,如果是,則判定該通訊信息不是廣告(即垃圾信息)執(zhí)行步驟105,否則,判定該通訊信息為廣告(即垃圾信息),執(zhí)行步驟106。
本步驟104為可選步驟,如果所設(shè)置的過濾條件及其變通形式不夠詳細(xì),可能會將沒有過濾意向的內(nèi)容過濾掉,例如某個(gè)過濾條件的變通形式為用于匹配“***點(diǎn)***點(diǎn)***”的正則表達(dá)式,則該正則表達(dá)式不光會觸發(fā)過濾包括類似于“www點(diǎn)xxx點(diǎn)com”網(wǎng)址信息的通訊信息,也可能會觸發(fā)過濾掉包括類似于“發(fā)車時(shí)間為13點(diǎn)到16點(diǎn)30分”的信息,而這些信息是本來不需過濾的正常信息,因此本發(fā)明還可設(shè)置特例信息,用于檢查上述用于判斷過濾躲避的變通形式是否會影響到正常的信息,所述通訊信息的內(nèi)容與所述特例信息匹配是指通訊信息內(nèi)容中包括符合所述特例信息的內(nèi)容。例如針對上述例子,可以設(shè)置特例信息為用于匹配“
{1}點(diǎn)
{1}點(diǎn)”的正則表達(dá)式。如果通訊信息中有可以與所述特例信息匹配的內(nèi)容,就應(yīng)該把具備所述特例信息的通訊信息從判斷方法里篩選出來,不對其進(jìn)行過濾,從而進(jìn)一步降低誤判率。
步驟105、發(fā)送聊天信息給聊天室的其他用戶,接著可以結(jié)束流程,也可以返回步驟102對下一條通訊信息進(jìn)行處理。
步驟106、過濾所述的通訊信息,接著可以結(jié)束流程,也可以返回步驟102對下一條通訊信息進(jìn)行處理。
通常而言,廣告發(fā)送者采用的針對過濾條件的過濾躲避技巧是一般的聊天用戶不會使用的,因此,針對這些躲避技巧信息,可以設(shè)定相應(yīng)的過濾條件變通形式,利用該變通形式再對聊天信息進(jìn)行判斷,就可以判斷出該聊天信息是廣告信息。
圖2為本發(fā)明所述對通訊信息進(jìn)行過濾的過濾系統(tǒng)結(jié)構(gòu)圖。參見圖2,該系統(tǒng)包括
后臺管理模塊21,用于提供輸入設(shè)置接口,接受過濾條件及其變通形式信息的設(shè)置指令。
數(shù)據(jù)庫22,用于存儲后臺管理模塊21所接受的過濾條件及其變通形式信息。
前臺過濾模塊23,與通訊系統(tǒng)的通訊模塊(圖2中未示出)連接,對通訊系統(tǒng)的每一條通訊信息的內(nèi)容進(jìn)行分析判斷。該前臺過濾模塊23具體包括匹配模塊231和過濾模塊232;匹配模塊231用于讀取所述數(shù)據(jù)庫22的內(nèi)容,按照過濾條件及其變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或者過濾條件的變通形式匹配,則觸發(fā)過濾模塊232過濾該通訊信息。
該過濾系統(tǒng)還可接受所述過濾條件變通形式的特例信息,存儲在數(shù)據(jù)庫22中,所述前臺過濾模塊23進(jìn)一步包括判斷模塊233,用于在所述通訊信息的內(nèi)容能夠匹配所述過濾條件的變通形式時(shí),則再判斷該通訊信息的內(nèi)容是否匹配所述特例信息,如果是,則不觸發(fā)過濾模塊232進(jìn)行過濾,否則,觸發(fā)過濾模塊232過濾所述通訊信息。
上述過濾系統(tǒng)可以設(shè)置在通訊系統(tǒng)的發(fā)送端,用于對發(fā)送的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的接收端,用于對接收的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的信息中轉(zhuǎn)端(例如某些即時(shí)通訊系統(tǒng)的中轉(zhuǎn)服務(wù)器,或者網(wǎng)上聊天系統(tǒng)的中轉(zhuǎn)服務(wù)器),用于對中轉(zhuǎn)的通訊信息進(jìn)行過濾。
上述實(shí)施例所述的過濾系統(tǒng)所設(shè)置的通訊系統(tǒng)可以為網(wǎng)上聊天室系統(tǒng),該過濾系統(tǒng)用于對網(wǎng)上聊天室系統(tǒng)中的聊天信息進(jìn)行過濾。當(dāng)然,該過濾系統(tǒng)還可以設(shè)置在其它的通訊系統(tǒng)中,例如即時(shí)通訊系統(tǒng),無線短信系統(tǒng)等等,其實(shí)現(xiàn)方式與上述實(shí)施例相同,本文不再贅述。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,其特征在于,該方法包括預(yù)設(shè)過濾條件及其對應(yīng)的變通形式信息;按照過濾條件以及變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或過濾條件的變通形式匹配,則過濾該通訊信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法進(jìn)一步包括預(yù)設(shè)針對所述過濾條件變通形式的特例信息,在所述通訊信息的內(nèi)容與所述過濾條件的變通形式匹配時(shí),則再判斷該通訊信息的內(nèi)容是否與所述特例信息匹配,如果是,則不過濾所述通訊信息,否則,過濾所述通訊信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通訊信息的內(nèi)容與所述特例信息匹配是指通訊信息內(nèi)容中包括符合所述特例信息的內(nèi)容。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的過濾條件為關(guān)鍵字和或正則表達(dá)式。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述過濾條件為關(guān)鍵字的情況下,所述通訊信息內(nèi)容與所述關(guān)鍵字匹配是指通訊信息內(nèi)容中包括所述關(guān)鍵字;所述通訊信息內(nèi)容與所述關(guān)鍵字變通形式匹配是指通訊信息內(nèi)容中包括所述關(guān)鍵字的變通形式;在所述過濾條件為正則表達(dá)式的情況下,所述通訊信息內(nèi)容與所述正則表達(dá)式匹配是指通訊信息內(nèi)容中包括符合所述正則表達(dá)式的內(nèi)容;所述通訊信息內(nèi)容與所述正則表達(dá)式的變通形式匹配是指通訊信息內(nèi)容中包括符合所述正則表達(dá)式的變通形式的內(nèi)容。
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述通訊系統(tǒng)為網(wǎng)上聊天室系統(tǒng),所述通訊信息為網(wǎng)上聊天室中的聊天信息。
7.一種對通訊信息進(jìn)行過濾的過濾系統(tǒng),其特征在于,該系統(tǒng)包括后臺管理模塊,用于提供輸入設(shè)置接口,接受過濾條件及其變通形式信息的設(shè)置指令;數(shù)據(jù)庫,用于存儲后臺管理模塊所接受的過濾條件及其變通形式信息;前臺過濾模塊,具體包括匹配模塊和過濾模塊;匹配模塊用于讀取所述數(shù)據(jù)庫的內(nèi)容,按照過濾條件及其變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或者過濾條件的變通形式匹配,則觸發(fā)過濾模塊過濾該通訊信息。
8.根據(jù)權(quán)利要求7所述的過濾系統(tǒng),其特征在于,該過濾系統(tǒng)的所述數(shù)據(jù)庫中存儲有所述過濾條件變通形式的特例信息,所述前臺過濾模塊進(jìn)一步包括判斷模塊,用于在所述通訊信息的內(nèi)容與所述過濾條件的變通形式匹配時(shí),則再判斷該通訊信息的內(nèi)容是否匹配所述特例信息,如果是,則不觸發(fā)過濾模塊進(jìn)行過濾,否則,觸發(fā)過濾模塊過濾所述通訊信息。
9.根據(jù)權(quán)利要求7或8所述的過濾系統(tǒng),其特征在于,所述通訊信息為網(wǎng)上聊天室系統(tǒng)中的聊天信息。
10.根據(jù)權(quán)利要求7或8所述的過濾系統(tǒng),其特征在于,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的發(fā)送端,用于對發(fā)送的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的接收端,用于對接收的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的信息中轉(zhuǎn)端,用于對中轉(zhuǎn)的通訊信息進(jìn)行過濾。
全文摘要
本發(fā)明公開了一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法和過濾系統(tǒng),該過濾系統(tǒng)包括后臺管理模塊,用于提供輸入設(shè)置接口;數(shù)據(jù)庫,用于存儲過濾條件及其變通形式信息;前臺過濾模塊,具體包括匹配模塊和過濾模塊。所述方法包括預(yù)設(shè)過濾條件及其對應(yīng)的變通形式信息;按照過濾條件以及變通形式對當(dāng)前傳輸?shù)耐ㄓ嵭畔⒌膬?nèi)容進(jìn)行匹配,如果所述通訊信息的內(nèi)容與所述過濾條件或者過濾條件的變通形式匹配,則過濾該通訊信息。利用本發(fā)明,可以降低對過濾信息的漏判率和誤判率。
文檔編號H04M3/42GK101079877SQ200610099120
公開日2007年11月28日 申請日期2006年7月27日 優(yōu)先權(quán)日2006年7月27日
發(fā)明者王欣磊 申請人:騰訊科技(深圳)有限公司