本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種敏感詞過濾方法和裝置。
背景技術(shù):
互聯(lián)網(wǎng)的出現(xiàn)極大地促進了各種信息內(nèi)容在用戶之間的發(fā)布和傳播,例如,即時通信工具因其可以方便、快捷的完成客戶端之間的溝通而被越來越多的人使用。在這個過程中,常常會有人利用各種互聯(lián)網(wǎng)工具發(fā)送包括“敏感詞”的文本信息。其中,敏感詞包括不文明詞匯、涉及國家安全的詞匯等。傳統(tǒng)的對文本內(nèi)容中的敏感詞的識別大多通過人工方式來進行的,但是通過人工方式檢查不僅耗時耗力,而且效率低。
技術(shù)實現(xiàn)要素:
基于此,為了解決上述查找敏感詞效率低的問題,提出了一種敏感詞過濾方法和裝置。
一種敏感詞過濾的方法,所述方法包括:接收待檢查的文本內(nèi)容;將接收到的所述文本內(nèi)容進行分詞處理;將處理得到的分詞與敏感詞庫中的敏感詞進行匹配;若匹配成功,則將所述分詞標(biāo)記為敏感詞;將所述標(biāo)記為敏感詞的分詞進行隱藏處理。
在其中一個實施例中,在所述接收待檢查的文本內(nèi)容的步驟之前還包括:建立樹狀敏感詞庫,包括:將敏感詞中的第一個字作為第一層節(jié)點,將所述敏感詞中的第二個字作為第二層節(jié)點,將具有相同第一個字和第二個字的所有敏感詞作為第三層。
在其中一個實施例中,所述將接收到的所述文本內(nèi)容進行分詞處理的步驟為:根據(jù)文本內(nèi)容的長度n和敏感詞庫中的最大敏感詞長度m進行分詞處理,建立分詞列表;所述建立分詞列表的步驟包括:將文本內(nèi)容中的第k個字放入第一列第k行的位置,將文本內(nèi)容中的第k個和第k+1個字放入第二列第k行 的位置,依次類推,直到將第k至第k+m-1個字放入第m列第k行的位置,其中,所述k為大于0小于n的正整數(shù),k+m-1小于等于n的正整數(shù)。
在其中一個實施例中,所述將處理得到的分詞與敏感詞庫中的敏感詞進行匹配的步驟包括:在敏感詞庫的第一層節(jié)點中查找與所述分詞列表中第一列第k行匹配的關(guān)鍵字,其中,首次讀取所述分詞列表中的第一列第一行中的分詞,之后每次讀取第一列中下一行中的分詞;若在所述敏感詞庫的第一層節(jié)點中未查找到與所述第一列第k行匹配的關(guān)鍵字,則繼續(xù)在所述第一層節(jié)點中查找與第一列第k+1行匹配的關(guān)鍵字;若在所述敏感詞庫的第一層節(jié)點中查找到了與所述第一列第k行匹配的關(guān)鍵字,則在所述第一層節(jié)點下的第二層節(jié)點中查找與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,如果在所述第二層節(jié)點中未查到與所述第k行第二列分詞中的第二個字匹配的關(guān)鍵字,則回到敏感詞庫的第一層節(jié)點查找與第一列第k+1行匹配的關(guān)鍵字;如果在所述第二層節(jié)點中查找到了與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,則獲取與所述第二層節(jié)點對應(yīng)的敏感詞列表,在所述敏感詞列表中查找與第k行中的分詞匹配的敏感詞。
在其中一個實施例中,所述將標(biāo)記為敏感詞的分詞進行隱藏處理的步驟為:用符號代替標(biāo)記為敏感詞的分詞。
一種敏感詞過濾的裝置,所述裝置包括:接收模塊,用于接收待檢查的文本內(nèi)容;分詞模塊,用于將接收到的所述文本內(nèi)容進行分詞處理;匹配模塊,用于將處理得到的分詞與敏感詞庫中的敏感詞進行匹配;標(biāo)記模塊,用于若分詞與敏感詞庫中的敏感詞匹配成功,則將所述分詞標(biāo)記為敏感詞;
隱藏模塊,用于將所述標(biāo)記為敏感詞的分詞進行隱藏處理。
在其中一個實施例中,所述裝置還包括:建立模塊,用于建立樹狀敏感詞庫,包括:將敏感詞中的第一個字作為第一層節(jié)點,將所述敏感詞中的第二個字作為第二層節(jié)點,將具有相同第一個字和第二個字的所有敏感詞作為第三層。
在其中一個實施例中,所述分詞模塊還用于根據(jù)文本內(nèi)容的長度n和敏感詞庫中的最大敏感詞長度m進行分詞處理,建立分詞列表;所述建立分詞列表 的步驟包括:將文本內(nèi)容中的第k個字放入第一列第k行的位置,將文本內(nèi)容中的第k個和第k+1個字放入第二列第k行的位置,依次類推,直到將第k至第k+m-1個字放入第m列第k行的位置,其中,所述k為大于0小于n的正整數(shù),k+m-1小于等于n的正整數(shù)。
在其中一個實施例中,所述匹配模塊還用于在敏感詞庫的第一層節(jié)點中查找與所述分詞列表中第一列第k行匹配的關(guān)鍵字,其中,首次讀取所述分詞列表中的第一列第一行中的分詞,之后每次讀取第一列中下一行中的分詞;若在所述敏感詞庫的第一層節(jié)點中未查找到與所述第一列第k行匹配的關(guān)鍵字,則繼續(xù)在所述第一層節(jié)點中查找與第一列第k+1行匹配的關(guān)鍵字;若在所述敏感詞庫的第一層節(jié)點中查找到了與所述第一列第k行匹配的關(guān)鍵字,則在所述第一層節(jié)點下的第二層節(jié)點中查找與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,如果在所述第二層節(jié)點中未查到與所述第k行第二列分詞中的第二個字匹配的關(guān)鍵字,則回到敏感詞庫的第一層節(jié)點查找與第一列第k+1行匹配的關(guān)鍵字;如果在所述第二層節(jié)點中查找到了與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,則獲取與所述第二層節(jié)點對應(yīng)的敏感詞列表,在所述敏感詞列表中查找與第k行中的分詞匹配的敏感詞。
在其中一個實施例中,所述標(biāo)記模塊還用于用符號代替標(biāo)記為敏感詞的分詞。
上述敏感詞過濾的方法和裝置,通過接收待檢查的文本內(nèi)容,將接收到的文本內(nèi)容進行分詞處理,將處理得到的分詞與敏感詞庫中的敏感詞進行匹配,若匹配成功,則將所述分詞標(biāo)記為敏感詞,并將標(biāo)記為敏感詞的分詞進行隱藏處理。該方法通過計算機將接收到的文本內(nèi)容進行分詞處理,進而將得到的分詞與敏感庫中的敏感詞進行匹配,若匹配成功,則將該分詞標(biāo)記為敏感詞,并進行隱藏處理,這個過程全自動進行,提高了敏感詞查找的效率。
附圖說明
圖1為一個實施例中敏感詞過濾的方法流程圖;
圖2為另一個實施例中敏感詞過濾的方法流程圖;
圖3為一個實施例中敏感詞庫的示意圖;
圖4為一個實施例中將分詞與敏感詞庫匹配的方法流程圖;
圖5為一個實施例中敏感詞過濾裝置的結(jié)構(gòu)框圖;
圖6為另一個實施例中敏感詞過濾裝置的結(jié)構(gòu)框圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,提出了一種敏感詞過濾的方法,該方法包括:
步驟102,接收待檢查的文本內(nèi)容。
在本實施例中,服務(wù)器接收終端發(fā)送的待檢查的文本內(nèi)容。具體的,終端首先接收用戶輸入的文本內(nèi)容,再將所接收的文本內(nèi)容作為待檢查的文本內(nèi)容上傳到服務(wù)器,服務(wù)器接收終端發(fā)送的待檢查的文本內(nèi)容。
步驟104,將接收到的文本內(nèi)容進行分詞處理。
具體的,分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。將接收到的文本內(nèi)容進行分詞處理,就是要將文本內(nèi)容劃分為一個個的字或詞,便于后續(xù)與敏感詞庫中的敏感詞進行匹配。在本實施例中,是根據(jù)文本內(nèi)容的長度和敏感詞庫中最大敏感詞長度(即敏感詞庫中最長的敏感詞的長度)來確定具體的分詞數(shù)目的。比如,假設(shè)敏感詞庫中最大敏感詞長度為4,那么進行分詞時,分別將文本內(nèi)容,分為一個字,兩個字,三個字和四個字的詞。
步驟106,將處理得到的分詞與敏感詞庫中的敏感詞進行匹配,若匹配成功,則進入步驟108,若匹配失敗,則結(jié)束。
具體的,敏感詞庫為樹狀敏感詞庫,其中,敏感詞的第一個字作為第一層節(jié)點,敏感詞的第二個字作為第二層節(jié)點,將具有相同第一個字和第二個字的所有敏感詞作為第三層,具有相同第一個字和第二個字的所有敏感詞組成了第二層節(jié)點下的敏感詞列表。將處理得到的分詞與敏感詞庫中的敏感詞進行匹配,若匹配成功,則將該分詞進行標(biāo)記,若匹配失敗,則說明該分詞不是敏感詞, 不作處理。
步驟108,將分詞標(biāo)記為敏感詞。
具體的,當(dāng)分詞與敏感庫中的敏感詞匹配成功時,說明該分詞為敏感詞,將該分詞進行標(biāo)記,便于后續(xù)進行隱藏處理。
步驟110,將標(biāo)記為敏感詞的分詞進行隱藏處理。
具體的,將標(biāo)記為敏感詞的分詞用其他字符代替或者不顯示。比如,可以用“*”代替標(biāo)記為敏感詞的分詞,這樣在用戶端,該敏感詞就顯示為“*”。
在本實施例中,通過接收待檢查的文本內(nèi)容,將接收到的文本內(nèi)容進行分詞處理,將處理得到的分詞與敏感詞庫中的敏感詞進行匹配,若匹配成功,則將所述分詞標(biāo)記為敏感詞,并將標(biāo)記為敏感詞的分詞進行隱藏處理。該方法通過計算機將接收到的文本內(nèi)容進行分詞處理,進而將得到的分詞與敏感庫中的敏感詞進行匹配,若匹配成功,則將該分詞標(biāo)記為敏感詞,并進行隱藏處理,這個過程全自動進行,提高了敏感詞查找的效率。
如圖2所示,在一個實施例中,在接收待檢查的文本內(nèi)容的步驟之前還包括:步驟101,建立樹狀敏感詞庫,包括:將敏感詞中的第一個字作為第一層節(jié)點,將所述敏感詞中的第二個字作為第二層節(jié)點,將具有相同第一個字和第二個字的所有敏感詞作為第三層。
具體的,樹狀敏感詞一共分為三層,其中,將敏感詞中的第一個字作為第一層節(jié)點,將敏感詞的第二個字作為第二層節(jié)點,將具有相同第一個字和第二個字的所有敏感詞作為第三層。比如將“真錢斗”,“真錢投注”,“真錢賭博”,“真實文憑”,“真實資格”,“真實視頻”等詞作為敏感詞,在敏感詞庫中的表示如圖3所示,其中,敏感詞的第一個字“真”作為第一層節(jié)點,第二個字“錢”或“實”作為第二層節(jié)點,“真錢斗”,“真錢投注”,“真錢賭博”“真實文憑”,“真實資格”,“真實視頻”在第三層。
在一個實施例中,將接收到的所述文本內(nèi)容進行分詞處理的步驟為:根據(jù)文本內(nèi)容的長度n和敏感詞庫中的最大敏感詞長度m進行分詞處理,建立分詞列表;所述建立分詞列表的步驟包括:將文本內(nèi)容中的第k個字放入第一列第k 行的位置,將文本內(nèi)容中的第k個和第k+1個字放入第二列第k行的位置,依次類推,直到將第k至第k+m-1個字放入第m列第k行的位置,其中,所述k為大于0小于n的正整數(shù),k+m-1小于等于n的正整數(shù)。
在本實施例中,將接收到的文本內(nèi)容進行分詞處理是根據(jù)文本內(nèi)容的長度n和敏感詞庫中的最大敏感詞長度m來進行分詞處理的,建立分詞列表,通過將文本內(nèi)容中的第k個放入分詞列表中的第一列第k行的位置,將文本內(nèi)容中的第k個和第k+1個字放入第二列第k行的位置,依次類推,直到將第k至第k+m-1個字放入第m列第k行的位置,其中,n為文本內(nèi)容的長度,m為敏感詞庫中最大的敏感詞長度,k為大于0小于等于n的正整數(shù),k+m-1小于等于n的正整數(shù)。最終的分詞總數(shù)為nm-[m(m-1)/2]。具體的,假設(shè)敏感詞庫中最大的敏感詞長度為4,輸入的文本內(nèi)容長度為5,那么其總的分詞總數(shù)為18。比如,文本內(nèi)容為“我是博雅人”,首先,將文本內(nèi)容的第一個字“我”放入分詞列表中的第一列第一行的位置,將第一個字“我”和第二個字“是”一起放入第二列第一行的位置,依次類推,直到將第一個字至第四個字“我是博雅”一起放入第四列第一行的位置。按照上述規(guī)則,將文本內(nèi)容的第二個字“是”放入分詞列表中的第一列第二行的位置,依次類推。最后得到的分詞列表如表1所示:
表1
如圖4所示,在一個實施例中,將處理得到的分詞與敏感詞庫中的敏感詞進行匹配的步驟包括:
步驟106a,在敏感詞庫的第一層節(jié)點中查找與分詞列表中第一列第k行匹配的關(guān)鍵字,其中,首次讀取分詞列表中的第一列第一行中的分詞,之后每次讀取第一列中下一行中的分詞;若匹配失敗則進入步驟106b,若匹配成功,則進入步驟106c。
具體的,首先在敏感詞庫中的第一層節(jié)點查找與分詞列表中第一列第k行匹配的敏感詞,其中,k為大于0小于等于文字內(nèi)容長度n的正整數(shù),第一列中的分詞為單個字的分詞,如表1所示。首次讀取分詞列表中的分詞是從第一列的第一行開始的,之后每次讀取第一列中下一行中的分詞。若在敏感詞庫的第一層節(jié)點中沒有查找到與第一列第k行匹配的關(guān)鍵詞,則繼續(xù)在敏感詞庫中的第一層節(jié)點查找與第一列第k+1行匹配的關(guān)鍵詞。若在敏感詞庫中的第一層節(jié)點中查找到了與第一列第k行匹配的關(guān)鍵詞,則繼續(xù)在敏感詞庫中的第二層節(jié)點中查找與第k行第二列分詞中的第二個字匹配的關(guān)鍵詞。
步驟106b,在第一層節(jié)點中查找與第一列第k+1行匹配的關(guān)鍵字。
具體的,當(dāng)在敏感詞庫中的第一層節(jié)點中沒有查找到與分詞列表中的第一列第k行匹配的關(guān)鍵詞,則繼續(xù)在敏感詞庫中的第一層節(jié)點中查找與第一列第k+1行匹配的關(guān)鍵詞,依次類推。
步驟106c,在第一層節(jié)點下的第二層節(jié)點中查找與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,若匹配失敗,則進入步驟106b,若匹配成功,則進入步驟106d。
具體的,當(dāng)在敏感詞庫中的第一層節(jié)點中查找到了與分詞列表中的第一列第k行匹配的關(guān)鍵詞,則在該第一層節(jié)點下的第二層節(jié)點中查找與第k行第二列分詞中的第二個字匹配的關(guān)鍵詞,如果在敏感詞庫中的第二層節(jié)點沒有查找到與第k行第二列匹配的關(guān)鍵詞,則回到到第一層節(jié)點查找與第一列第k+1行匹配的關(guān)鍵詞。如果在該第一層節(jié)點下的第二層節(jié)點中查找到了與第k行第二列匹配的關(guān)鍵詞,則獲取與該第二層節(jié)點對應(yīng)的敏感詞列表,在該敏感詞列表中查找與第k行中的分詞匹配的敏感詞。
步驟106d,獲取與第二層節(jié)點對應(yīng)的敏感詞列表,在敏感詞列表中查找與第k行中的分詞匹配的敏感詞,若匹配成功,則進入步驟108,若匹配失敗,則 進入步驟106b。
具體的,當(dāng)在第一層節(jié)點下的第二層節(jié)點中查找到了與第k行第二列匹配的關(guān)鍵詞,則在敏感詞列表中查找與第k行中的分詞匹配的敏感詞,若匹配成功,則將對應(yīng)的分詞標(biāo)記為敏感詞。若匹配失敗,則回到第一層節(jié)點查找與第一列第k+1行匹配的關(guān)鍵字。
在本實施例中,通過建立分詞列表,根據(jù)上述設(shè)定的規(guī)則將分詞列表中的分詞與敏感詞庫中的敏感詞進行匹配,該算法先在第一層節(jié)點中匹配關(guān)鍵字,只有匹配到關(guān)鍵字才進入第二層節(jié)點,該算法時間復(fù)雜度低,最好的情況下時間復(fù)制度為o(n),最壞的情況下時間復(fù)雜度為o(nm),其中,n表示文本內(nèi)容的長度,m表示敏感詞庫中最大敏感詞的長度,其中,o(n)、o(nm)為線性階。
在一個實施例中,將處理得到的分詞與敏感詞庫中的敏感詞進行匹配的具體過程為:將分詞列表按照xy軸結(jié)構(gòu)組織,將分詞列表中的行作為x軸,將列作為y軸,以表1為例來進行說明,分詞列表的行1,2,3,4分別表示x1,x2,x3,x4;分詞列表的列1,2,3,4,5分別表示為y1,y2,y3,y4,y5。比如,“我”所在的位置為x1y1。將文本內(nèi)容“我是博雅人”與敏感詞庫匹配的步驟如下:首先,取x1y1位置的“我”與敏感詞庫中的第一層節(jié)點匹配,此時時間復(fù)雜度為o(1),如果匹配不成功,則說明處于y1橫軸上的詞不存在于于敏感詞庫中,可直接跳過y1橫軸上的其他分詞匹配,接下來去取x1y2位置的“是”與敏感詞庫中的第一層節(jié)點匹配。如果匹配成功,則取x2y1位置的“我是”中的第二個“是”字與第一層節(jié)點“我”下的第二層節(jié)點匹配,如果匹配不成功,同樣可直接跳過y1橫軸上的其他分詞,接下來去取x1y2位置的“是”與敏感詞庫中的第一層節(jié)點匹配。若匹配成功,則取出該第二層節(jié)點下的敏感詞列表,與y1軸中剩下的分詞進行匹配,若匹配成功,則將對應(yīng)的分詞標(biāo)記為敏感詞。
具體的,參考圖3中的敏感詞庫,當(dāng)取到x1y4位置的“博”可在敏感詞庫中的第一層節(jié)點中匹配到“博”,則繼續(xù)取x2y4位置的“博雅”中的第二個字“雅”與第一層節(jié)點“博”下面的第二層節(jié)點匹配,發(fā)現(xiàn)匹配到了第二層 節(jié)點中的“雅”,接下來取第二層節(jié)點“雅”對應(yīng)的敏感詞列表(“博雅”,“博雅人”,“博雅棋牌”),將y4橫軸上的分詞與敏感詞列表匹配,最后,標(biāo)記出“博雅”“博雅人”為敏感詞,將原始文本內(nèi)容中的“博雅”“博雅人”替換為“*”,則最終在用戶端顯示為“我是***”。
在一個實施例中,將標(biāo)記為敏感詞的分詞進行隱藏處理的步驟為:用符號代替標(biāo)記為敏感詞的分詞。
具體的,將標(biāo)記為敏感詞的分詞用其他符號代替進行隱藏。比如,可以用“*”代替標(biāo)記為敏感詞的分詞,這樣在用戶端,該敏感詞就顯示為“*”。
如圖5所示,在一個實施例中,提出了一種敏感詞過濾的裝置,所述裝置包括:
接收模塊502,用于接收待檢查的文本內(nèi)容;
分詞模塊504,用于將接收到的所述文本內(nèi)容進行分詞處理;
匹配模塊506,用于將處理得到的分詞與敏感詞庫中的敏感詞進行匹配;
標(biāo)記模塊508,用于若分詞與敏感詞庫中的敏感詞匹配成功,則將所述分詞標(biāo)記為敏感詞;
隱藏模塊510,用于將所述標(biāo)記為敏感詞的分詞進行隱藏處理。
如圖6所示,在一個實施例中,上述敏感詞過濾的裝置還包括:
建立模塊501,用于建立樹狀敏感詞庫,包括:將敏感詞中的第一個字作為第一層節(jié)點,將所述敏感詞中的第二個字作為第二層節(jié)點,將具有相同第一個字和第二個字的所有敏感詞作為第三層。
在一個實施例中,分詞模塊504還用于根據(jù)文本內(nèi)容的長度n和敏感詞庫中的最大敏感詞長度m進行分詞處理,建立分詞列表;所述建立分詞列表的步驟包括:將文本內(nèi)容中的第k個字放入第一列第k行的位置,將文本內(nèi)容中的第k個和第k+1個字放入第二列第k行的位置,依次類推,直到將第k至第k+m-1個字放入第m列第k行的位置,其中,所述k為大于0小于n的正整數(shù),k+m-1小于等于n的正整數(shù)。
在一個實施例中,匹配模塊506還用于在敏感詞庫的第一層節(jié)點中查找與 所述分詞列表中第一列第k行匹配的關(guān)鍵字,其中,首次讀取所述分詞列表中的第一列第一行中的分詞,之后每次讀取第一列中下一行中的分詞;若在所述敏感詞庫的第一層節(jié)點中未查找到與所述第一列第k行匹配的關(guān)鍵字,則繼續(xù)在所述第一層節(jié)點中查找與第一列第k+1行匹配的關(guān)鍵字;若在所述敏感詞庫的第一層節(jié)點中查找到了與所述第一列第k行匹配的關(guān)鍵字,則在所述第一層節(jié)點下的第二層節(jié)點中查找與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,如果在所述第二層節(jié)點中未查到與所述第k行第二列分詞中的第二個字匹配的關(guān)鍵字,則回到敏感詞庫的第一層節(jié)點查找與第一列第k+1行匹配的關(guān)鍵字;如果在所述第二層節(jié)點中查找到了與第k行第二列分詞中的第二個字匹配的關(guān)鍵字,則獲取與所述第二層節(jié)點對應(yīng)的敏感詞列表,在所述敏感詞列表中查找與第k行中的分詞匹配的敏感詞。
在一個實施例中,標(biāo)記模塊508還用于用符號代替標(biāo)記為敏感詞的分詞。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。