欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

敏感文本檢測(cè)方法及裝置的制造方法

文檔序號(hào):8543665閱讀:346來源:國知局
敏感文本檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種敏感文本檢測(cè)方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的興起,網(wǎng)絡(luò)文學(xué)以其方便閱讀且涵蓋海量數(shù)據(jù)等特點(diǎn),得到了快速的發(fā)展。而在網(wǎng)絡(luò)文學(xué)迅速普及且內(nèi)容快速增長(zhǎng)的同時(shí),也伴隨著大量?jī)?nèi)容涉及情色、暴力、政治言論等有害青少年身心健康的敏感文本的出現(xiàn),敏感文本給閱讀者造成了閱讀障礙。因此,為了給閱讀者創(chuàng)造一個(gè)良好的閱讀環(huán)境,如何檢測(cè)敏感文本,以將檢測(cè)出來的敏感文本及時(shí)進(jìn)行隔離,成為了一個(gè)關(guān)鍵問題。
[0003]現(xiàn)有技術(shù)預(yù)先配置一個(gè)關(guān)鍵詞列表,所述關(guān)鍵詞列表中包含多個(gè)關(guān)鍵詞。當(dāng)檢測(cè)到一個(gè)新文本后,首先從關(guān)鍵詞列表中選取一個(gè)關(guān)鍵詞,然后對(duì)該文本進(jìn)行從頭至尾的掃描,統(tǒng)計(jì)該關(guān)鍵詞在該文本中的出現(xiàn)頻率;以此類推,直至遍歷關(guān)鍵詞列表中的所有關(guān)鍵詞,得到關(guān)鍵詞列表中每個(gè)關(guān)鍵詞在該文本中的出現(xiàn)頻率。最后,根據(jù)關(guān)鍵詞列表中每個(gè)關(guān)鍵詞在該文本中的出現(xiàn)頻率檢測(cè)該文本是否為敏感文本;如果至少一個(gè)關(guān)鍵詞在該文本中的出現(xiàn)頻率大于預(yù)設(shè)閾值,則確定該文本為敏感文本。
[0004]在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005]由于在根據(jù)關(guān)鍵詞列表中的關(guān)鍵詞對(duì)文本進(jìn)行檢測(cè)時(shí),需根據(jù)每一個(gè)關(guān)鍵詞對(duì)文本進(jìn)行多次從頭至尾的掃描,所以消耗了大量的時(shí)間,導(dǎo)致文本檢測(cè)的效率低下。

【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種敏感文本檢測(cè)方法及裝置。所述技術(shù)方案如下:
[0007]一方面,提供了一種敏感文本檢測(cè)方法,所述方法包括:
[0008]獲取當(dāng)前檢測(cè)文本的特征文本字符串;
[0009]根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)所述特征文本字符串進(jìn)行檢測(cè),得到每個(gè)關(guān)鍵詞在所述特征文本字符串中的出現(xiàn)頻率,所述有限自動(dòng)狀態(tài)機(jī)中包括多個(gè)關(guān)鍵詞;
[0010]對(duì)于多個(gè)關(guān)鍵詞類別中的每個(gè)關(guān)鍵詞類別,基于所述關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞的出現(xiàn)頻率及所述每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重,計(jì)算所述關(guān)鍵詞類別在所述文本中的權(quán)重;
[0011]當(dāng)至少一個(gè)關(guān)鍵詞類別的權(quán)重大于預(yù)設(shè)閾值時(shí),確定所述文本為敏感文本。
[0012]另一方面,提供了一種敏感文本檢測(cè)裝置,所述裝置包括:
[0013]字符串獲取模塊,用于獲取當(dāng)前檢測(cè)文本的特征文本字符串;
[0014]關(guān)鍵詞檢測(cè)模塊,用于根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)所述特征文本字符串進(jìn)行檢測(cè),得到每個(gè)關(guān)鍵詞在所述特征文本字符串中的出現(xiàn)頻率,所述有限自動(dòng)狀態(tài)機(jī)中包括多個(gè)關(guān)鍵詞;
[0015]權(quán)重計(jì)算模塊,用于對(duì)于多個(gè)關(guān)鍵詞類別中的每個(gè)關(guān)鍵詞類別,基于所述關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞的出現(xiàn)頻率及所述每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重,計(jì)算所述關(guān)鍵詞類別在所述文本中的權(quán)重;
[0016]敏感文本確定模塊,用于當(dāng)至少一個(gè)關(guān)鍵詞類別的權(quán)重大于預(yù)設(shè)閾值時(shí),確定所述文本為敏感文本。
[0017]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0018]在獲取當(dāng)前檢測(cè)文本的特征文本字符串后,根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè),得到每個(gè)關(guān)鍵詞在特征文本字符串中的出現(xiàn)頻率;由于基于預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè),所以在檢測(cè)過程中,只需對(duì)特征文本字符串進(jìn)行一次從頭至尾的掃描,所以提高了檢測(cè)效率,加快了檢測(cè)速度,降低了資源占用率;且對(duì)于多個(gè)關(guān)鍵詞類別中的每個(gè)關(guān)鍵詞類別,基于關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞的出現(xiàn)頻率及每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重,計(jì)算關(guān)鍵詞類別在文本中的權(quán)重,并根據(jù)關(guān)鍵詞類別的權(quán)重確定當(dāng)前檢測(cè)文本是否為敏感文本,由于在確定敏感文本時(shí),還需基于關(guān)鍵詞的預(yù)設(shè)權(quán)重,所以提高了檢測(cè)粒度,提高了檢測(cè)精準(zhǔn)率,可凈化網(wǎng)絡(luò)閱讀環(huán)境。
【附圖說明】
[0019]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0020]圖1是本發(fā)明實(shí)施例一提供的一種敏感文本檢測(cè)方法流程圖;
[0021]圖2是本發(fā)明實(shí)施例二提供的一種敏感文本檢測(cè)方法流程圖;
[0022]圖3是本發(fā)明實(shí)施例二提供的一種有限自動(dòng)狀態(tài)機(jī)的結(jié)構(gòu)示意圖;
[0023]圖4是本發(fā)明實(shí)施例二提供的一種字符匹配之前的特征文本字符串的檢測(cè)示意圖;
[0024]圖5是本發(fā)明實(shí)施例二提供的一種字符匹配之后的特征文本字符串的檢測(cè)示意圖;
[0025]圖6是本發(fā)明實(shí)施例三提供的一種敏感文本檢測(cè)裝置的結(jié)構(gòu)示意圖;
[0026]圖7是本發(fā)明實(shí)施例四提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0028]實(shí)施例一
[0029]本發(fā)明實(shí)施例提供了一種敏感文本檢測(cè)方法,參見圖1,本實(shí)施例提供的方法流程包括:
[0030]101、獲取當(dāng)前檢測(cè)文本的特征文本字符串。
[0031]102、根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè),得到每個(gè)關(guān)鍵詞在特征文本字符串中的出現(xiàn)頻率,有限自動(dòng)狀態(tài)機(jī)中包括多個(gè)關(guān)鍵詞。
[0032]103、對(duì)于多個(gè)關(guān)鍵詞類別中的每個(gè)關(guān)鍵詞類別,基于關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞的出現(xiàn)頻率及每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重,計(jì)算關(guān)鍵詞類別在文本中的權(quán)重。
[0033]104、當(dāng)至少一個(gè)關(guān)鍵詞類別的權(quán)重大于預(yù)設(shè)閾值時(shí),確定文本為敏感文本。
[0034]本實(shí)施例提供的方法,在獲取當(dāng)前檢測(cè)文本的特征文本字符串后,根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè),得到每個(gè)關(guān)鍵詞在特征文本字符串中的出現(xiàn)頻率;由于基于預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè),所以在檢測(cè)過程中,只需對(duì)特征文本字符串進(jìn)行一次從頭至尾的掃描,所以提高了檢測(cè)效率,加快了檢測(cè)速度,降低了資源占用率;且對(duì)于多個(gè)關(guān)鍵詞類別中的每個(gè)關(guān)鍵詞類別,基于關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞的出現(xiàn)頻率及每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重,計(jì)算關(guān)鍵詞類別在文本中的權(quán)重,并根據(jù)關(guān)鍵詞類別的權(quán)重確定當(dāng)前檢測(cè)文本是否為敏感文本,由于在確定敏感文本時(shí),還需基于關(guān)鍵詞的預(yù)設(shè)權(quán)重,所以提高了檢測(cè)粒度,提高了檢測(cè)精準(zhǔn)率,可凈化網(wǎng)絡(luò)閱讀環(huán)境。
[0035]進(jìn)一步地,根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè)之前,該方法還包括:
[0036]配置關(guān)鍵詞列表,關(guān)鍵詞列表中至少包括多個(gè)關(guān)鍵詞、每個(gè)關(guān)鍵詞的關(guān)鍵詞類別及每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重;
[0037]確定關(guān)鍵詞列表中全部關(guān)鍵詞具有的公共如綴;
[0038]將公共前綴作為根節(jié)點(diǎn),建立樹狀有限自動(dòng)狀態(tài)機(jī),樹狀有限自動(dòng)狀態(tài)機(jī)的每一個(gè)分支中至少包含一個(gè)關(guān)鍵詞。
[0039]進(jìn)一步地,根據(jù)預(yù)先建立的有限自動(dòng)狀態(tài)機(jī)對(duì)特征文本字符串進(jìn)行檢測(cè),包括:
[0040]從特征文本字符串的尾部開始,基于有限自動(dòng)狀態(tài)機(jī)利用壞字符跳轉(zhuǎn)技術(shù)由后向前對(duì)特征文本字符串進(jìn)行檢測(cè)。
[0041]進(jìn)一步地,基于有限自動(dòng)狀態(tài)機(jī)利用壞字符跳轉(zhuǎn)技術(shù)由后向前對(duì)特征文本字符串進(jìn)行檢測(cè),包括:
[0042]步驟a、確定有限自動(dòng)狀態(tài)機(jī)中最小長(zhǎng)度字符串,將有限自動(dòng)狀態(tài)機(jī)由特征文本字符串的尾部向前移動(dòng),直至最小長(zhǎng)度字符串的尾字符與特征文本字符串的尾字符對(duì)齊;
[0043]步驟b、判斷公共前綴的首字符是否與公共前綴對(duì)齊的特征文本字符串的第一字符相匹配;
[0044]步驟C、如果匹配,則從與公共前綴的首字符對(duì)齊的字符開始,基于有限自動(dòng)狀態(tài)機(jī)判斷特征文本字符串中是否存在關(guān)鍵詞;如果存在關(guān)鍵詞,則將關(guān)鍵詞的出現(xiàn)頻率加1,并將有限自動(dòng)狀態(tài)機(jī)向前移動(dòng)最大長(zhǎng)度字符串對(duì)應(yīng)的長(zhǎng)度;
[0045]步驟d、如果不匹配,則判斷有限自動(dòng)狀態(tài)機(jī)中是否存在與第一字符相匹配的字符;如果存在與第一字符相匹配的字符,則將有限自動(dòng)狀態(tài)機(jī)向前移動(dòng),直至有限自動(dòng)狀態(tài)機(jī)中與第一字符相匹配的字符同第一字符對(duì)齊,從與公共前綴的首字符對(duì)齊的字符開始,基于有限自動(dòng)狀態(tài)機(jī)判斷特征文本字符串中是否存在關(guān)鍵詞;如果存在關(guān)鍵詞,則將關(guān)鍵詞的出現(xiàn)頻率加1,并將有限自動(dòng)狀態(tài)機(jī)向前移動(dòng)最大長(zhǎng)度字符串對(duì)應(yīng)的長(zhǎng)度;
[0046]步驟e、以此類推,重復(fù)執(zhí)行步驟b至步驟d,直至公共前綴到達(dá)特征文本字符串的首部。
[0047]進(jìn)一步地,計(jì)算關(guān)鍵詞類別在文本中的權(quán)重之前,該方法還包括:
[0048]確定關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞在文本中的位置權(quán)重;
[0049]計(jì)算關(guān)鍵詞類別在文本中的權(quán)重,包括:
[0050]基于關(guān)鍵詞類別對(duì)應(yīng)的每個(gè)關(guān)鍵詞的出現(xiàn)頻率、每個(gè)關(guān)鍵詞的預(yù)設(shè)權(quán)重及每個(gè)關(guān)鍵詞的位置權(quán)重,計(jì)算關(guān)鍵詞類別在文本中的權(quán)重。
[0051]進(jìn)一步地,確定文本為敏感文本之后,該方法還包括:
[0052]當(dāng)至少一個(gè)關(guān)鍵詞類別的權(quán)重大于預(yù)設(shè)閾值時(shí),根據(jù)權(quán)重最大的關(guān)鍵詞類別確定文本的類別;
[0053]根據(jù)權(quán)重最大的關(guān)鍵詞類別的權(quán)重與預(yù)設(shè)閾值的大小關(guān)系,確定文本的敏感程度;
[0054]輸出文本的敏感程度。
[0055]上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再--贅述。
[0056]實(shí)施例二
[0057]本發(fā)明實(shí)施例提供了一種敏感文本檢測(cè)方法,現(xiàn)結(jié)合上述實(shí)施例一的內(nèi)容,對(duì)本發(fā)明實(shí)施例提供的敏感文本檢測(cè)方式進(jìn)行詳細(xì)地解釋說明。參見圖2,本實(shí)施例提供的方法流程包括:
[0058]201、配置關(guān)鍵詞列表,關(guān)鍵詞列
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
金山区| 闵行区| 独山县| 绥芬河市| 探索| 东山县| 竹溪县| 鹤山市| 荔浦县| 丽水市| 奈曼旗| 遵义市| 宣化县| 德清县| 德保县| 镇雄县| 寿宁县| 灵台县| 昌吉市| 尉氏县| 沭阳县| 普格县| 新乐市| 余干县| 玛纳斯县| 临猗县| 波密县| 汪清县| 上蔡县| 鹤岗市| 兴文县| 衡水市| 天长市| 湘阴县| 红安县| 泽普县| 安仁县| 清水县| 长阳| 应用必备| 安阳县|