欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于確定目標(biāo)文本的敏感度的方法與設(shè)備的制作方法

文檔序號(hào):6358166閱讀:228來源:國知局
專利名稱:一種用于確定目標(biāo)文本的敏感度的方法與設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種用于確定目標(biāo)文本的敏感度的技術(shù)。
背景技術(shù)
現(xiàn)有技術(shù)中,對(duì)目標(biāo)文本的敏感度的識(shí)別多通過人工方式,或者人工建立敏感詞表,通過機(jī)器基于該敏感詞表對(duì)目標(biāo)文本進(jìn)行簡單的匹配查詢,以確定目標(biāo)文本的敏感度。
上述識(shí)別目標(biāo)文本敏感度的方法,需要不斷人工添加敏感詞,無法自動(dòng)進(jìn)行敏感詞表的擴(kuò)展,同時(shí),對(duì)于一些經(jīng)常與敏感賦值較高的敏感詞同時(shí)出現(xiàn),但是其本身又不具有明顯的色情、暴力、反動(dòng)含義的詞,上述方法無法識(shí)別,從而導(dǎo)致識(shí)別目標(biāo)文本的敏感度的效果較差。
因此,如何提供一種確定目標(biāo)文本的敏感度的方法或設(shè)備,同時(shí)提高機(jī)器識(shí)別目標(biāo)文本的敏感度的準(zhǔn)確率,成為目前急需解決的問題之一。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于確定目標(biāo)文本的敏感度的方法與設(shè)備。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于確定目標(biāo)文本的敏感度的方法,該方法包括以下步驟 a獲取待確定敏感度的目標(biāo)文本; b根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞; c根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于確定目標(biāo)文本的敏感度的設(shè)備,該設(shè)備包括 文本獲取裝置,用于獲取待確定敏感度的目標(biāo)文本; 敏感詞獲取裝置,用于根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞; 敏感度確定裝置,用于根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。
與現(xiàn)有技術(shù)相比,本發(fā)明通過識(shí)別目標(biāo)文本中的顯敏感詞和隱敏感詞,提高了機(jī)器確定目標(biāo)文本的敏感度的準(zhǔn)確率,并且減少了后期可能需要的人工復(fù)核成本,進(jìn)一步提高了目標(biāo)文本的審核效率,使得本發(fā)明的應(yīng)用范圍得到了較大的擴(kuò)展。


通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯 圖1示出根據(jù)本發(fā)明一個(gè)方面的用于確定目標(biāo)文本的敏感度的設(shè)備的示意圖; 圖2示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定目標(biāo)文本的敏感度的設(shè)備的示意圖; 圖3示出根據(jù)本發(fā)明另一個(gè)方面的用于確定目標(biāo)文本的敏感度的方法流程圖; 圖4示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定目標(biāo)文本的敏感度的方法流程圖。
附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
圖1為根據(jù)本發(fā)明一個(gè)方面的設(shè)備示意圖,示出一種用于確定目標(biāo)文本的敏感度的設(shè)備。其中,敏感度確定設(shè)備1包括文本獲取裝置11、敏感詞獲取裝置12和敏感度確定裝置13。具體地,文本獲取裝置11獲取待確定敏感度的目標(biāo)文本;隨后,敏感詞獲取裝置 12根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,敏感度確定裝置13根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。在此,敏感度確定設(shè)備1包括但不限于網(wǎng)絡(luò)設(shè)備,或者與文檔提交設(shè)備經(jīng)由網(wǎng)絡(luò)相連的專用設(shè)備;其中,網(wǎng)絡(luò)設(shè)備包括但不限于網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或基于云計(jì)算的計(jì)算機(jī)集合,在此,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī);網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò))、GSM、WCDMA、 CDMA2000、TD-SCDMA、GSM、CDMA lx、WIFI、WAPI、WiMax 等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述敏感度確定設(shè)備、網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的敏感度確定設(shè)備、網(wǎng)絡(luò)設(shè)備或者網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
更具體地,文本獲取裝置11獲取待確定敏感度的目標(biāo)文本。具體地,文本獲取裝置11通過諸如敏感度確定設(shè)備1向其他設(shè)備提供的應(yīng)用程序接口(API)接收文檔、或者按照約定的通信協(xié)議,如http、https等,接收來自其他設(shè)備的文檔等方式獲取待確定敏感度的目標(biāo)文本,諸如用戶提交的論壇帖、其他設(shè)備傳輸?shù)奈臋n、來自web服務(wù)器的網(wǎng)頁等。例如,文本獲取裝置11通過敏感度確定設(shè)備1向用戶設(shè)備提供的應(yīng)用程序接口(API),接收用戶經(jīng)由用戶設(shè)備提交的論壇貼,在此,該論壇帖即為待確定敏感度的目標(biāo)文本。又如,假設(shè)敏感度確定設(shè)備1為確定目標(biāo)文本敏感度的專用設(shè)備,文本獲取裝置11按照約定的通信協(xié)議,如http、https等,接收來自其他設(shè)備的文檔,在此,該文檔即為待確定敏感度的目標(biāo)文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式以及目標(biāo)文本僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本的方式或者目標(biāo)文本如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
隨后,敏感詞獲取裝置12根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢, 以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞。具體地,敏感詞獲取裝置12根據(jù)文本獲取裝置11獲取的目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該目標(biāo)文本中的顯敏感詞和隱敏感詞。在此,顯敏感詞包括具有確定的色情、暴力、反動(dòng)等含義的詞;隱敏感詞包括具有色情、暴力、反動(dòng)等傾向含義的詞,以及經(jīng)常與顯敏感詞同時(shí)出現(xiàn)在敏感度較高的文本中的詞;如脫衣為隱敏感詞,脫衣舞為顯敏感詞,并且當(dāng)隱敏感詞出現(xiàn)在敏感度較高的文本中的次數(shù)達(dá)到一定值時(shí),該隱敏感詞將被標(biāo)注為顯敏感詞。例如,文本獲取裝置11接收用戶提交的論壇帖,敏感詞獲取裝置12直接將該論壇貼在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢, 以獲得該論壇貼中的顯敏感詞和隱敏感詞。又如,文本獲取裝置11接收自其他設(shè)備發(fā)送的待確定敏感度的目標(biāo)文本,敏感詞獲取裝置12對(duì)該目標(biāo)文本進(jìn)行分詞處理,獲得相應(yīng)的關(guān)鍵詞,并對(duì)這些關(guān)鍵詞在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得與該目標(biāo)文本相對(duì)應(yīng)的顯敏感詞和隱敏感詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取顯敏感詞和隱敏感詞的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取顯敏感詞或隱敏感詞的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
接著,敏感度確定裝置13根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。具體地,敏感度確定裝置13根據(jù)敏感詞獲取裝置 12獲取的目標(biāo)文本中的顯敏感詞和隱敏感詞,以及該(等)顯敏感詞的敏感賦值和該(等) 隱敏感詞的敏感賦值,加權(quán)確定該目標(biāo)文本的敏感度。在此,顯敏感詞的敏感賦值和隱敏感詞的敏感賦值可以由預(yù)設(shè)敏感詞庫獲取,也可以由第三方設(shè)備的專用詞庫獲取。例如,文本獲取裝置11接收用戶提交的論壇帖,敏感詞獲取裝置12根據(jù)預(yù)設(shè)敏感詞庫獲取該論壇貼中的顯敏感詞和隱敏感詞,敏感度確定裝置13根據(jù)該預(yù)設(shè)敏感詞庫中這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,將這些敏感賦值疊加獲取該論壇貼的敏感度,或者根據(jù)各顯敏感詞和各隱敏感詞的權(quán)重,加權(quán)確定該論壇貼的敏感度。又如,文本獲取裝置11接收用戶提交的博客內(nèi)容,敏感詞獲取裝置12根據(jù)預(yù)設(shè)敏感詞庫獲取該博客內(nèi)容中的顯敏感詞和隱敏感詞,第三方設(shè)備的專用詞庫中存儲(chǔ)有顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,敏感度確定裝置13根據(jù)該博客內(nèi)容中的顯敏感詞和隱敏感詞向該第三方設(shè)備發(fā)送獲取相應(yīng)的敏感賦值的請(qǐng)求,并接收該第三方設(shè)備返回的基于該專用詞庫的這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并根據(jù)各顯敏感詞和各隱敏感詞的權(quán)重,加權(quán)確定該博客內(nèi)容的敏感度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定目標(biāo)文本的敏感度的方式僅為舉例, 其他現(xiàn)有的或今后可能出現(xiàn)的確定目標(biāo)文本的敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,文本獲取裝置11、敏感詞獲取裝置12和敏感度確定裝置13是持續(xù)不斷工作的。具體地,文本獲取裝置11獲取待確定敏感度的目標(biāo)文本;隨后,敏感詞獲取裝置 12根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,敏感度確定裝置13根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指本獲取裝置11、敏感詞獲取裝置12和敏感度確定裝置13分別按照設(shè)定的或?qū)崟r(shí)調(diào)整的工作模式要求進(jìn)行目標(biāo)文本的獲取、敏感詞的獲取、以及目標(biāo)文本敏感度的確定,直至敏感度確定設(shè)備1在較長時(shí)間內(nèi)停止獲取待確定敏感度的目標(biāo)文本。
圖2為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的設(shè)備示意圖,示出一種用于確定目標(biāo)文本的敏感度的設(shè)備。其中,敏感詞獲取裝置12’包括分詞單元121’和敏感詞獲取單元122’。具體地,分詞單元121’對(duì)所述目標(biāo)文本進(jìn)行分詞處理,以獲得所述目標(biāo)文本中的關(guān)鍵詞;敏感詞獲取單元122’根據(jù)所述關(guān)鍵詞,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。
分詞單元121’對(duì)所述目標(biāo)文本進(jìn)行分詞處理,以獲得所述目標(biāo)文本中的關(guān)鍵詞。 具體地,分詞單元121’通過諸如最大正向匹配法、最大反向匹配法、最大字概率法等分詞技術(shù),對(duì)目標(biāo)文本進(jìn)行分詞處理,以獲得目標(biāo)文本中的關(guān)鍵詞。例如,假設(shè)目標(biāo)文本為用戶經(jīng)由用戶設(shè)備提交的論壇貼,分詞單元121’通過諸如最大字概率法對(duì)該論壇貼進(jìn)行分詞處理,獲得該論壇貼中的關(guān)鍵詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述分詞技術(shù)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的分詞技術(shù)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
敏感詞獲取單元122’根據(jù)所述關(guān)鍵詞,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。具體地,敏感詞獲取單元122’根據(jù)分詞單元121’分詞獲得的關(guān)鍵詞,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得目標(biāo)文本中的顯敏感詞和隱敏感詞。例如,假設(shè)目標(biāo)文本為用戶經(jīng)由用戶設(shè)備提交的論壇貼,分詞單元121’對(duì)該論壇貼進(jìn)行分詞處理,獲得相應(yīng)的關(guān)鍵詞,敏感詞獲取單元122’根據(jù)這些關(guān)鍵詞在在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該論壇貼中的顯敏感詞和隱敏感詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取顯敏感詞和隱敏感詞的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取顯敏感詞或隱敏感詞的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D1),敏感度確定裝置13還根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,以及所述顯敏感詞和所述隱敏感詞分別在所述目標(biāo)文本中的出現(xiàn)頻次,加權(quán)確定所述敏感度。以下參照?qǐng)D1對(duì)該優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中, 文本獲取裝置11獲取待確定敏感度的目標(biāo)文本;隨后,敏感詞獲取裝置12根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;其具體過程與前述參照?qǐng)D1所描述的實(shí)施例中文本獲取裝置11和敏感詞獲取裝置12所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,敏感度確定裝置13還根據(jù)敏感詞獲取裝置12獲取的顯敏感詞的敏感賦值和敏感詞獲取裝置12獲取的隱敏感詞的敏感賦值,以及該(等)顯敏感詞和該(等)隱敏感詞分別在目標(biāo)文本中的出現(xiàn)頻次,加權(quán)確定該目標(biāo)文本的敏感度。在此,顯敏感詞的敏感賦值和隱敏感詞的敏感賦值可以由預(yù)設(shè)敏感詞庫獲取,也可以由第三方設(shè)備的專用詞庫獲取。例如,文本獲取裝置11接收用戶提交的論壇帖,敏感詞獲取裝置12根據(jù)預(yù)設(shè)敏感詞庫獲取該論壇貼中的顯敏感詞和隱敏感詞,敏感度確定裝置13根據(jù)這些顯敏感詞和隱敏感詞分別在該論壇貼中的出現(xiàn)頻次,確定各顯敏感詞和各隱敏感詞的權(quán)重,并根據(jù)該預(yù)設(shè)敏感詞庫中這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,加權(quán)確定該論壇貼的敏感度。又如,文本獲取裝置11接收用戶提交的博客內(nèi)容,敏感詞獲取裝置12根據(jù)預(yù)設(shè)敏感詞庫獲取該博客內(nèi)容中的顯敏感詞和隱敏感詞,第三方設(shè)備的專用詞庫中存儲(chǔ)有顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,敏感度確定裝置13根據(jù)該博客內(nèi)容中的顯敏感詞和隱敏感詞向該第三方設(shè)備發(fā)送獲取相應(yīng)的敏感賦值的請(qǐng)求,并接收該第三方設(shè)備返回的基于該專用詞庫的這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并根據(jù)該博客內(nèi)容中顯敏感詞和隱敏感詞的出現(xiàn)頻次,增加相應(yīng)顯敏感詞和隱敏感詞的敏感賦值,如顯敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加1,隱敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加0. 5,再根據(jù)這些顯敏感詞和隱敏感詞的最終敏感賦值確定各顯敏感詞和各隱敏感詞的權(quán)重,加權(quán)確定該博客內(nèi)容的敏感度;在此,各顯敏感詞和各隱敏感詞的權(quán)重,可以在其加入該預(yù)設(shè)敏感詞庫時(shí)預(yù)先設(shè)定,也可以根據(jù)其敏感賦值確定,還可以根據(jù)其在目標(biāo)文本中的出現(xiàn)頻次確定。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定各顯敏感詞和各隱敏感詞的權(quán)重的方式以及確定目標(biāo)文本的敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定各顯敏感詞和各隱敏感詞的權(quán)重的方式或者確定目標(biāo)文本的敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在另一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D1),敏感度確定設(shè)備1還包括預(yù)處理裝置(未示出),該預(yù)處理裝置根據(jù)預(yù)置的預(yù)處理規(guī)則,對(duì)所述目標(biāo)文本進(jìn)行預(yù)處理,以獲得與所述目標(biāo)文本相對(duì)應(yīng)的預(yù)處理文本;隨后,敏感詞獲取裝置12還根據(jù)所述預(yù)處理文本,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。以下參照?qǐng)D1對(duì)該另一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取待確定敏感度的目標(biāo)文本;敏感度確定裝置13根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度;其具體過程與前述參照?qǐng)D1所描述的實(shí)施例中文本獲取裝置11和敏感度確定裝置13所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,預(yù)處理裝置根據(jù)預(yù)置的預(yù)處理規(guī)則,諸如刪除目標(biāo)文本中的異常字符、將目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串等,對(duì)文本獲取裝置11獲取的目標(biāo)文本進(jìn)行預(yù)處理,以獲得與該目標(biāo)文本相對(duì)應(yīng)的預(yù)處理文本;隨后,敏感詞獲取裝置12還根據(jù)該預(yù)處理文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該目標(biāo)文本中的顯敏感詞和隱敏感詞。 在此,該預(yù)處理規(guī)則用于將文本獲取裝置11獲取的初始目標(biāo)文本轉(zhuǎn)換為可供直接進(jìn)行詞庫匹配或先進(jìn)行分詞處理再執(zhí)行詞庫匹配操作的預(yù)處理文本。例如,文本獲取裝置11獲取的目標(biāo)文本中的字符包括多個(gè)異常字符,如“*”、“&”、“ %”、“~”、“#”、“$”等,預(yù)處理裝置根據(jù)預(yù)置的預(yù)處理規(guī)則,如刪除目標(biāo)文本中的異常字符,基于異常字符集、正常字符集或兩者的結(jié)合,識(shí)別目標(biāo)文本中的異常字符,并刪除這些異常字符,以獲得對(duì)該目標(biāo)文本預(yù)處理后的預(yù)處理文本,敏感詞獲取裝置12根據(jù)該預(yù)處理文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢, 以獲得該目標(biāo)文本中的顯敏感詞和隱敏感詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對(duì)目標(biāo)文本進(jìn)行預(yù)處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對(duì)目標(biāo)文本進(jìn)行預(yù)處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,所述預(yù)處理裝置中的所述預(yù)置的預(yù)處理規(guī)則包括但不限于,以下至少任一項(xiàng) 1)刪除所述目標(biāo)文本中的異常字符; 2)將所述目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串。
具體地,預(yù)處理裝置中的預(yù)置的預(yù)處理規(guī)則,用于將目標(biāo)文本轉(zhuǎn)換為預(yù)處理文本, 在此,預(yù)處理規(guī)則包括但不限于,以下至少任一項(xiàng)1)刪除目標(biāo)文本中的異常字符,如“*”、 “&”、“% ”、“~”、“#”、“$”等;2)將目標(biāo)文本中的異形文字串,諸如豎形文字、藝術(shù)字等變形體的文字串,轉(zhuǎn)換為正常文字串。當(dāng)目標(biāo)文本中包括多個(gè)異常字符時(shí),這些異常字符會(huì)影響敏感詞獲取裝置12對(duì)目標(biāo)文本中顯敏感詞和隱敏感詞的識(shí)別;例如,敏感詞獲取裝置12按照預(yù)設(shè)敏感詞庫對(duì)目標(biāo)文本進(jìn)行匹配查詢時(shí),由于異常字符的存在,尤其是為了規(guī)避詞庫的匹配查詢,異常字符通常會(huì)穿插在顯敏感詞或者隱敏感詞中,使得無論是對(duì)該目標(biāo)文本的直接匹配,還是對(duì)該目標(biāo)文本中關(guān)鍵詞的匹配,都無法查詢獲得與該目標(biāo)文本相對(duì)應(yīng)的顯敏感詞或者隱敏感詞。當(dāng)預(yù)置的預(yù)處理規(guī)則包括刪除目標(biāo)文本中的異常字符時(shí),該預(yù)處理裝置,基于異常字符集、正常字符集或兩者的結(jié)合,識(shí)別目標(biāo)文本中的異常字符,并刪除這些異常字符,以獲得對(duì)該目標(biāo)文本預(yù)處理后的預(yù)處理文本。目標(biāo)文本中的異形文字串,諸如豎形文字、藝術(shù)字等變形體的文字串同樣會(huì)影響敏感詞獲取裝置12對(duì)目標(biāo)文本中顯敏感詞和隱敏感詞的識(shí)別,使得異形文字串成為不良發(fā)布者逃避對(duì)文本的敏感審核的有效手段。當(dāng)預(yù)置的預(yù)處理規(guī)則包括將目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串時(shí),該預(yù)處理裝置,基于異形文字集,識(shí)別目標(biāo)文本中的異形文字,并根據(jù)異形文字與正常文字的映射關(guān)系,將這些異形文字轉(zhuǎn)換為正常文字,以獲得對(duì)該目標(biāo)文本預(yù)處理后的預(yù)處理文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述各項(xiàng)預(yù)處理規(guī)則不僅能夠單獨(dú)用于將目標(biāo)文本轉(zhuǎn)換為預(yù)處理文本, 還可以相互結(jié)合用于將目標(biāo)文本轉(zhuǎn)換為預(yù)處理文本。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述預(yù)處理規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在再一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D1),敏感度確定設(shè)備1還包括更新裝置(未示出),該更新裝置根據(jù)敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度,更新所述敏感詞的敏感賦值;根據(jù)所述更新后敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫; 其中,所述敏感詞包括但不限于,以下至少任一項(xiàng) 1)所述顯敏感詞; 2)所述隱敏感詞。
以下參照?qǐng)D1對(duì)該再一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取待確定敏感度的目標(biāo)文本;隨后,敏感詞獲取裝置12根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,敏感度確定裝置13 根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度;其具體過程與前述參照?qǐng)D1所描述的實(shí)施例中文本獲取裝置11、敏感詞獲取裝置12和敏感度確定裝置13所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,更新裝置根據(jù)敏感詞,如顯敏感詞或隱敏感詞,在目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合該目標(biāo)文本的敏感度,更新該(等)敏感詞的敏感賦值,并根據(jù)更新后該(等) 敏感詞的敏感賦值,更新預(yù)設(shè)敏感詞庫。例如,當(dāng)目標(biāo)文本的敏感度超過其相應(yīng)的預(yù)設(shè)閾值時(shí),更新裝置根據(jù)該目標(biāo)文本中顯敏感詞和隱敏感詞的出現(xiàn)頻次,增加預(yù)設(shè)敏感詞庫中這些顯敏感詞和隱敏感詞的敏感賦值,如顯敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加0. 1,隱敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加0. 01,從而根據(jù)顯敏感詞和隱敏感詞的敏感賦值的變化,更新該預(yù)設(shè)敏感詞庫。優(yōu)選地,當(dāng)隱敏感詞增加后的敏感賦值達(dá)到其相應(yīng)的預(yù)設(shè)閾值時(shí),更新裝置將該隱敏感詞標(biāo)注為顯敏感詞;當(dāng)顯敏感詞增加后的敏感賦值達(dá)到其相應(yīng)的預(yù)設(shè)閾值時(shí),提高該顯敏感詞的敏感級(jí)別,如從1級(jí)升至2級(jí),從而更新該預(yù)設(shè)敏感詞庫。優(yōu)選地,該敏感級(jí)別將直接影響目標(biāo)文本的處理方式,或者更改該顯敏感詞對(duì)應(yīng)的處理方式, 如從以“*”替換該顯敏感詞變更為刪除該目標(biāo)文本。又如,更新裝置累加同一顯敏感詞或者隱敏感詞在敏感度超過其預(yù)設(shè)閾值的目標(biāo)文本的出現(xiàn)頻次,當(dāng)同一顯敏感詞的累加出現(xiàn)頻次超過其相應(yīng)頻次閾值時(shí),將該顯敏感詞的敏感賦值加1 ;當(dāng)同一隱敏感詞的累加出現(xiàn)頻次超過其相應(yīng)頻次閾值時(shí),將該顯敏感詞的敏感賦值加0. 5 ;從而更新該預(yù)設(shè)敏感詞庫。 本領(lǐng)域技術(shù)人員應(yīng)能理解上述更新敏感詞的敏感賦值和預(yù)設(shè)敏感詞庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新敏感詞的敏感賦值或者預(yù)設(shè)敏感詞庫的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,敏感度確定設(shè)備1還包括候選詞獲取裝置(未示出),該候選詞獲取裝置根據(jù)所述敏感詞,在所述目標(biāo)文本中進(jìn)行近似查詢,以獲得與所述敏感詞相對(duì)應(yīng)的候選敏感詞;更新裝置還根據(jù)所述候選敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度,更新所述候選敏感詞的敏感賦值;根據(jù)所述更新后候選敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫。具體地,候選詞獲取裝置根據(jù)目標(biāo)文本中的敏感詞,包括顯敏感詞和隱敏感詞,在該目標(biāo)文本中進(jìn)行近似查詢,以獲得與顯敏感詞或者隱敏感詞相對(duì)應(yīng)的候選敏感詞;更新裝置還根據(jù)該(等)候選敏感詞在該目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合該目標(biāo)文本的敏感度,更新該候選敏感詞的敏感賦值,并根據(jù)該更新后候選敏感詞的敏感賦值,更新預(yù)設(shè)敏感詞庫。例如,敏感詞獲取裝置12獲取目標(biāo)文本中的顯敏感詞和隱敏感詞,如顯敏感詞“舞女”和隱敏感詞“脫衣”,候選詞獲取裝置根據(jù)這些顯敏感詞和隱敏感詞在該目標(biāo)文本中做近似查詢,如通過對(duì)該目標(biāo)文本做分詞處理后獲得的關(guān)鍵詞與這些顯敏感詞和隱敏感詞計(jì)算近似度,獲得與其中一個(gè)或多個(gè)顯敏感詞或者隱敏感詞相對(duì)應(yīng)的候選敏感詞,如 “脫衣舞”和“脫衣舞女”;更新裝置還根據(jù)這些候選敏感詞在該目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合該目標(biāo)文本的敏感度,更新該候選敏感詞的敏感賦值,例如,在首次發(fā)現(xiàn)一個(gè)候選敏感詞時(shí),對(duì)其賦予初始敏感賦值,再如,當(dāng)該候選敏感詞在該目標(biāo)文本中的出現(xiàn)頻次以及該目標(biāo)文本的敏感度均超過其相應(yīng)閾值時(shí),更新該候選敏感詞的敏感賦值,如使其敏感賦值增加5 ;該更新裝置根據(jù)該更新后候選敏感詞的敏感賦值,如當(dāng)該候選敏感詞的增加后的敏感賦值達(dá)到一定值,則將該候選敏感詞標(biāo)注為隱敏感詞,從而更新該預(yù)設(shè)敏感詞庫。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取候選敏感詞與更新預(yù)設(shè)敏感詞庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取候選敏感詞或者更新預(yù)設(shè)敏感詞庫的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在又一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D1),敏感度確定設(shè)備1還包括處理裝置(未示出),該處理裝置根據(jù)預(yù)置的敏感文本處理規(guī)則,基于所述目標(biāo)文本的敏感度,對(duì)所述目標(biāo)文本做敏感處理,以獲得敏感處理后的所述目標(biāo)文本。以下參照?qǐng)D1對(duì)該又一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取待確定敏感度的目標(biāo)文本;隨后,敏感詞獲取裝置12根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,敏感度確定裝置13根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度;其具體過程與前述參照?qǐng)D1所描述的實(shí)施例中文本獲取裝置11、敏感詞獲取裝置12和敏感度確定裝置13所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,處理裝置根據(jù)預(yù)置的敏感文本處理規(guī)則,諸如超過設(shè)定的敏感度閾值的目標(biāo)文本將被刪除,或者根據(jù)不同的敏感度級(jí)別對(duì)目標(biāo)文本采取不同的處理方式等,基于敏感度確定裝置13確定的目標(biāo)文本的敏感度,對(duì)目標(biāo)文本做敏感處理,以獲得敏感處理后的目標(biāo)文本。在此,預(yù)置的敏感文本處理規(guī)則用于根據(jù)不同的目標(biāo)應(yīng)用要求,對(duì)相應(yīng)的目標(biāo)文本進(jìn)行不同的敏感處理。例如,預(yù)置的敏感文本處理規(guī)則為設(shè)定一個(gè)敏感度閾值,超過該敏感度閾值的目標(biāo)文本將被刪除,低于該敏感度閾值的目標(biāo)文本中的顯敏感詞和隱敏感詞將被以“*”替代,處理裝置根據(jù)該預(yù)置的敏感文本處理規(guī)則,基于目標(biāo)文本的敏感度,對(duì)該目標(biāo)文本進(jìn)行敏感處理,如若其敏感度低于該設(shè)定的敏感度閾值,將該目標(biāo)文本中的顯敏感詞和隱敏感詞以“*”替代,以獲得敏感處理后的目標(biāo)文本。又如,假設(shè)敏感度確定設(shè)備 1為瀏覽器,預(yù)置的敏感文本處理規(guī)則為對(duì)于敏感級(jí)別為1級(jí)的網(wǎng)頁,禁止家里的小朋友訪問,對(duì)于敏感級(jí)別為2級(jí)的網(wǎng)頁,以“*”替換其中的敏感詞,對(duì)于敏感級(jí)別為3級(jí)的網(wǎng)頁,禁止所有人訪問;處理裝置根據(jù)當(dāng)前網(wǎng)頁服務(wù)器返回的網(wǎng)頁的敏感度,假設(shè)其敏感級(jí)別為3 級(jí),按照該預(yù)置的敏感文本處理規(guī)則,禁止所有人訪問該網(wǎng)頁,如轉(zhuǎn)向404錯(cuò)誤頁面。本領(lǐng)域技術(shù)人員應(yīng)能理解上述敏感文本處理規(guī)則與對(duì)目標(biāo)文本做敏感處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的敏感文本處理規(guī)則或者對(duì)目標(biāo)文本做敏感處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,敏感度確定設(shè)備1還包括提供裝置(未示出),文本獲取裝置11還獲取與用戶通過用戶設(shè)備提交的訪問請(qǐng)求相對(duì)應(yīng)的所述目標(biāo)文本;提供裝置將所述敏感處理后的目標(biāo)文本提供給所述用戶設(shè)備。具體地, 文本獲取裝置11還通過諸如接收用戶經(jīng)由用戶設(shè)備發(fā)送的訪問請(qǐng)求,并基于該訪問請(qǐng)求獲取相應(yīng)的目標(biāo)文本,或者接收來自第三方設(shè)備的與用戶通過用戶設(shè)備提交的訪問請(qǐng)求相對(duì)應(yīng)的目標(biāo)文本,或者接受來自第三方設(shè)備的待提供給用戶設(shè)備以供用戶訪問的目標(biāo)文本;隨后,敏感詞獲取裝置12獲取該目標(biāo)文本中的顯敏感詞和隱敏感詞,敏感度確定裝置13加權(quán)確定該目標(biāo)文本的敏感度,處理裝置基于該敏感度對(duì)該目標(biāo)文本進(jìn)行敏感處理;提供裝置通過諸如頁面技術(shù),如ASP、JSP、PHP等,將敏感處理后的目標(biāo)文本生成新的頁面提供該用戶設(shè)備,或者將目標(biāo)文本替換為預(yù)置頁面,如404 錯(cuò)誤頁面,并將該預(yù)置頁面提供給該用戶設(shè)備。例如,假設(shè)敏感度確定設(shè)備1為web服務(wù)器,文本獲取裝置11接收用戶經(jīng)由用戶設(shè)備發(fā)送的訪問請(qǐng)求,并基于該訪問請(qǐng)求獲取相應(yīng)的網(wǎng)頁,敏感詞獲取裝置12按照預(yù)設(shè)敏感詞庫獲取該網(wǎng)頁中的顯敏感詞和隱敏感詞,敏感度確定裝置13根據(jù)這些顯敏感詞和隱敏感詞的敏感賦值,加權(quán)確定該目標(biāo)文本的敏感度, 處理裝置按照預(yù)置的敏感文本處理規(guī)則,如刪除超過敏感度閾值的目標(biāo)文本,基于該目標(biāo)文本的敏感度,如該目標(biāo)文本的敏感度超過該敏感度閾值,則刪除該目標(biāo)文本,此時(shí)會(huì)產(chǎn)生一個(gè)404錯(cuò)誤頁面;提供裝置將該404錯(cuò)誤頁面發(fā)送給該用戶設(shè)備。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本與提供敏感處理后的目標(biāo)文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本或提供敏感處理后的目標(biāo)文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
更優(yōu)選地,提供裝置還將所述敏感處理后的目標(biāo)文本及其所述敏感度提供給所述用戶設(shè)備。具體地,提供裝置還將經(jīng)處理裝置敏感處理后的目標(biāo)文本,以及該敏感處理后的目標(biāo)文本相應(yīng)的敏感度提供給該用戶設(shè)備。例如,在處理裝置對(duì)目標(biāo)文本按照預(yù)置的敏感文本處理規(guī)則進(jìn)行敏感處理后,提供裝置將該敏感處理后的目標(biāo)文本及其相應(yīng)的敏感度提供給該用戶設(shè)備,其中,該敏感度飄紅顯示,以使用戶知道該目標(biāo)文本中含有敏感內(nèi)容, 并作出相應(yīng)的應(yīng)對(duì)措施,如將該目標(biāo)文本所對(duì)應(yīng)的URL,甚至是所在的站點(diǎn)設(shè)置為禁止訪問等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述提供敏感處理后的目標(biāo)文本及其相應(yīng)敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的提供敏感處理后的目標(biāo)文本或者其相應(yīng)敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,敏感度確定裝置13還根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,并結(jié)合所述用戶的用戶相關(guān)信息,加權(quán)確定所述目標(biāo)文本的敏感度。具體地,敏感度確定裝置13還根據(jù)目標(biāo)文本中顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并結(jié)合所述用戶的用戶相關(guān)信息,諸如用戶的年齡、用戶當(dāng)前訪問應(yīng)用的應(yīng)用類型等會(huì)對(duì)目標(biāo)文本的敏感度的確定產(chǎn)生影響的、且與用戶自身或者其行為有關(guān)的信息,加權(quán)確定該目標(biāo)文本的敏感度。在此,顯敏感詞的敏感賦值和隱敏感詞的敏感賦值可以由預(yù)設(shè)敏感詞庫獲取, 也可以由第三方設(shè)備的專用詞庫獲取。例如,敏感度確定裝置13根據(jù)預(yù)設(shè)敏感詞庫中顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并結(jié)合用戶當(dāng)前訪問應(yīng)用的應(yīng)用類型,如用戶當(dāng)前訪問的頁面為醫(yī)學(xué)類,加權(quán)確定該頁面的敏感度,如先疊加顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,確定該頁面的初始敏感度,再根據(jù)該當(dāng)前訪問應(yīng)用的應(yīng)用類型,將該初始敏感度*0. 6,得到該頁面的敏感度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定目標(biāo)文本的敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定目標(biāo)文本的敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
更優(yōu)選地,所述用戶相關(guān)信息包括但不限于,以下至少任一項(xiàng) 1)所述用戶的基本屬性; 2)所述用戶所訪問應(yīng)用的應(yīng)用類型。
具體地,用戶相關(guān)信息包括但不限于,以下至少任一項(xiàng)1)用戶的基本屬性,諸如用戶的年齡、職業(yè)等,例如,同一文檔,對(duì)于兒童和成人來說,兒童所對(duì)應(yīng)的目標(biāo)文本的敏感度必須要遠(yuǎn)遠(yuǎn)高于成人所對(duì)應(yīng)的目標(biāo)文本的敏感度;2)用戶所訪問應(yīng)用的應(yīng)用類型,諸如用戶當(dāng)前訪問的頁面的類型、用戶當(dāng)前所使用的應(yīng)用服務(wù)的類型,例如,醫(yī)學(xué)類文檔的敏感度的確定標(biāo)準(zhǔn)應(yīng)當(dāng)?shù)陀谄胀ㄎ臋n的敏感度的確定標(biāo)準(zhǔn),論壇貼的敏感度的確定標(biāo)準(zhǔn)應(yīng)當(dāng)?shù)陀谛侣劸W(wǎng)頁的敏感度的確定標(biāo)準(zhǔn)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述各項(xiàng)用戶相關(guān)信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的用戶相關(guān)信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
此外,上述的用于確定目標(biāo)文本的敏感度的設(shè)備可以與現(xiàn)有的瀏覽器相結(jié)合,構(gòu)成一種新的瀏覽器,現(xiàn)有的瀏覽器可以是例如Microsoft公司的IE瀏覽器、Mozilla公司的Firefox瀏覽器、Google公司的Chrome瀏覽器、遨游公司的Maxthon瀏覽器、Opera公司的opera瀏覽器、360公司的360瀏覽器、搜狐公司的搜狗瀏覽器、騰訊公司的騰訊TT瀏覽嬰坐
-V^r ^t ο 上述的用于確定目標(biāo)文本的敏感度的設(shè)備可以作為瀏覽器插件,與現(xiàn)有的瀏覽器相結(jié)合,現(xiàn)有的瀏覽器可以是例如Microsoft公司的IE瀏覽器、Mozilla公司的Firefox瀏覽器、Google公司的Chrome瀏覽器、遨游公司的Maxthon瀏覽器、Opera公司的opera瀏覽器、360公司的360瀏覽器、搜狐公司的搜狗瀏覽器、騰訊公司的騰訊TT瀏覽器等。
圖3為根據(jù)本發(fā)明另一個(gè)方面的方法流程圖,示出一種用于確定目標(biāo)文本的敏感度的過程。具體地,在步驟Sl中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本;隨后, 在步驟S2中,敏感度確定設(shè)備1根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,在步驟S3中,敏感度確定設(shè)備1根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。在此,敏感度確定設(shè)備1包括但不限于網(wǎng)絡(luò)設(shè)備,或者與文檔提交設(shè)備經(jīng)由網(wǎng)絡(luò)相連的專用設(shè)備;其中,網(wǎng)絡(luò)設(shè)備包括但不限于網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或基于云計(jì)算的計(jì)算機(jī)集合,在此,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī);網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc 網(wǎng)絡(luò))、GSM、WCDMA、CDMA2000、TD-SCDMA、GSM、CDMAlx、WIFI、WAPI、 WiMax等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述敏感度確定設(shè)備、網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的敏感度確定設(shè)備、網(wǎng)絡(luò)設(shè)備或者網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
更具體地,在步驟Sl中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本。具體地,在步驟Sl中,敏感度確定設(shè)備1通過諸如其向其他設(shè)備提供的應(yīng)用程序接口(API)接收文檔、或者按照約定的通信協(xié)議,如http、https等,接收來自其他設(shè)備的文檔等方式獲取待確定敏感度的目標(biāo)文本,諸如用戶提交的論壇帖、其他設(shè)備傳輸?shù)奈臋n、來自web服務(wù)器的網(wǎng)頁等。例如,敏感度確定設(shè)備1通過其向用戶設(shè)備提供的應(yīng)用程序接口(API),接收用戶經(jīng)由用戶設(shè)備提交的論壇貼,在此,該論壇帖即為待確定敏感度的目標(biāo)文本。又如,假設(shè)敏感度確定設(shè)備1為確定目標(biāo)文本敏感度的專用設(shè)備,其按照約定的通信協(xié)議,如http、 https等,接收來自其他設(shè)備的文檔,在此,該文檔即為待確定敏感度的目標(biāo)文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本的方式以及目標(biāo)文本僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本的方式或者目標(biāo)文本如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
隨后,在步驟S2中,敏感度確定設(shè)備1根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞。具體地,在步驟S2中,敏感度確定設(shè)備1根據(jù)其在步驟Sl中獲取的目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該目標(biāo)文本中的顯敏感詞和隱敏感詞。在此,顯敏感詞包括具有確定的色情、暴力、反動(dòng)等含義的詞;隱敏感詞包括具有色情、暴力、反動(dòng)等傾向含義的詞,以及經(jīng)常與顯敏感詞同時(shí)出現(xiàn)在敏感度較高的文本中的詞;如脫衣為隱敏感詞,脫衣舞為顯敏感詞,并且當(dāng)隱敏感詞出現(xiàn)在敏感度較高的文本中的次數(shù)達(dá)到一定值時(shí),該隱敏感詞將被標(biāo)注為顯敏感詞。例如,在步驟Sl中,敏感度確定設(shè)備1接收用戶提交的論壇帖,在步驟S2中,該敏感度確定設(shè)備1 直接將該論壇貼在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該論壇貼中的顯敏感詞和隱敏感詞。又如,在步驟Sl中,敏感度確定設(shè)備1接收自其他設(shè)備發(fā)送的待確定敏感度的目標(biāo)文本,在步驟S2中,該敏感度確定設(shè)備1對(duì)該目標(biāo)文本進(jìn)行分詞處理,獲得相應(yīng)的關(guān)鍵詞,并對(duì)這些關(guān)鍵詞在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得與該目標(biāo)文本相對(duì)應(yīng)的顯敏感詞和隱敏感詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取顯敏感詞和隱敏感詞的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取顯敏感詞或隱敏感詞的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
接著,在步驟S3中,敏感度確定設(shè)備1根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。具體地,在步驟S3中,敏感度確定設(shè)備 1根據(jù)其在步驟S2中獲取的目標(biāo)文本中的顯敏感詞和隱敏感詞,以及該(等)顯敏感詞的敏感賦值和該(等)隱敏感詞的敏感賦值,加權(quán)確定該目標(biāo)文本的敏感度。在此,顯敏感詞的敏感賦值和隱敏感詞的敏感賦值可以由預(yù)設(shè)敏感詞庫獲取,也可以由第三方設(shè)備的專用詞庫獲取。例如,在步驟Sl中,敏感度確定設(shè)備1接收用戶提交的論壇帖;在步驟S2中, 該敏感度確定設(shè)備1根據(jù)預(yù)設(shè)敏感詞庫獲取該論壇貼中的顯敏感詞和隱敏感詞;在步驟S3 中,該敏感度確定設(shè)備1根據(jù)該預(yù)設(shè)敏感詞庫中這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,將這些敏感賦值疊加獲取該論壇貼的敏感度,或者根據(jù)各顯敏感詞和各隱敏感詞的權(quán)重,加權(quán)確定該論壇貼的敏感度。又如,在步驟Sl中,敏感度確定設(shè)備1接收用戶提交的博客內(nèi)容;在步驟S2中,該敏感度確定設(shè)備1根據(jù)預(yù)設(shè)敏感詞庫獲取該博客內(nèi)容中的顯敏感詞和隱敏感詞,第三方設(shè)備的專用詞庫中存儲(chǔ)有顯敏感詞的敏感賦值和隱敏感詞的敏感賦值;在步驟S3中,該敏感度確定設(shè)備1根據(jù)該博客內(nèi)容中的顯敏感詞和隱敏感詞向該第三方設(shè)備發(fā)送獲取相應(yīng)的敏感賦值的請(qǐng)求,并接收該第三方設(shè)備返回的基于該專用詞庫的這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并根據(jù)各顯敏感詞和各隱敏感詞的權(quán)重,加權(quán)確定該博客內(nèi)容的敏感度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定目標(biāo)文本的敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定目標(biāo)文本的敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。優(yōu)選地,敏感度確定設(shè)備1在步驟Si、步驟S2和步驟S3中是持續(xù)不斷工作的。具體地,在步驟Sl中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本;隨后,在步驟S2中, 該敏感度確定設(shè)備1根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,在步驟S3中,該敏感度確定設(shè)備1根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指敏感度確定設(shè)備1在步驟Si、步驟S2和步驟S3中分別按照設(shè)定的或?qū)崟r(shí)調(diào)整的工作模式要求進(jìn)行目標(biāo)文本的獲取、敏感詞的獲取、以及目標(biāo)文本敏感度的確定,直至敏感度確定設(shè)備1在較長時(shí)間內(nèi)停止獲取待確定敏感度的目標(biāo)文本。
圖4為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的方法流程圖,示出一種用于確定目標(biāo)文本的敏感度的過程。具體地,在步驟S21’中,敏感度確定設(shè)備1對(duì)所述目標(biāo)文本進(jìn)行分詞處理, 以獲得所述目標(biāo)文本中的關(guān)鍵詞;在步驟S22’中,敏感度確定設(shè)備1根據(jù)所述關(guān)鍵詞,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。其中,圖4中步驟 Si’、步驟S3’的內(nèi)容與圖3中步驟Si、步驟S3的內(nèi)容相同,為簡明起見,以引用方式包含于此,不再贅述。
在步驟S21’中,敏感度確定設(shè)備1對(duì)所述目標(biāo)文本進(jìn)行分詞處理,以獲得所述目標(biāo)文本中的關(guān)鍵詞。具體地,在步驟S21’中,敏感度確定設(shè)備1通過諸如最大正向匹配法、 最大反向匹配法、最大字概率法等分詞技術(shù),對(duì)目標(biāo)文本進(jìn)行分詞處理,以獲得目標(biāo)文本中的關(guān)鍵詞。例如,假設(shè)目標(biāo)文本為用戶經(jīng)由用戶設(shè)備提交的論壇貼,在步驟S21’中,敏感度確定設(shè)備1通過諸如最大字概率法對(duì)該論壇貼進(jìn)行分詞處理,獲得該論壇貼中的關(guān)鍵詞。 本領(lǐng)域技術(shù)人員應(yīng)能理解上述分詞技術(shù)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的分詞技術(shù)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在步驟S22’中,敏感度確定設(shè)備1根據(jù)所述關(guān)鍵詞,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。具體地,在步驟S22’中,敏感度確定設(shè)備 1根據(jù)其在步驟S21’中分詞獲得的關(guān)鍵詞,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得目標(biāo)文本中的顯敏感詞和隱敏感詞。例如,假設(shè)目標(biāo)文本為用戶經(jīng)由用戶設(shè)備提交的論壇貼,在步驟S21’中,敏感度確定設(shè)備1對(duì)該論壇貼進(jìn)行分詞處理,獲得相應(yīng)的關(guān)鍵詞;在步驟S22’中,該敏感度確定設(shè)備1根據(jù)這些關(guān)鍵詞在在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該論壇貼中的顯敏感詞和隱敏感詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取顯敏感詞和隱敏感詞的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取顯敏感詞或隱敏感詞的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D3),在步驟S3中,敏感度確定設(shè)備1還根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,以及所述顯敏感詞和所述隱敏感詞分別在所述目標(biāo)文本中的出現(xiàn)頻次,加權(quán)確定所述敏感度。以下參照?qǐng)D3對(duì)該優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,在步驟Sl中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本;隨后,在步驟S2中,該敏感度確定設(shè)備1根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;其具體過程與前述參照?qǐng)D3所描述的實(shí)施例中敏感度確定設(shè)備1在步驟Sl和步驟S2中所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,在步驟S3中,敏感度確定設(shè)備1還根據(jù)其在步驟S2中獲取的顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,以及該(等)顯敏感詞和該(等)隱敏感詞分別在目標(biāo)文本中的出現(xiàn)頻次,加權(quán)確定該目標(biāo)文本的敏感度。在此,顯敏感詞的敏感賦值和隱敏感詞的敏感賦值可以由預(yù)設(shè)敏感詞庫獲取,也可以由第三方設(shè)備的專用詞庫獲取。例如,在步驟 Sl中,敏感度確定設(shè)備1接收用戶提交的論壇帖;在步驟S2中,該敏感度確定設(shè)備1根據(jù)預(yù)設(shè)敏感詞庫獲取該論壇貼中的顯敏感詞和隱敏感詞;在步驟S3中,該敏感度確定設(shè)備1根據(jù)這些顯敏感詞和隱敏感詞分別在該論壇貼中的出現(xiàn)頻次,確定各顯敏感詞和各隱敏感詞的權(quán)重,并根據(jù)該預(yù)設(shè)敏感詞庫中這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,加權(quán)確定該論壇貼的敏感度。又如,在步驟Sl中,敏感度確定設(shè)備1接收用戶提交的博客內(nèi)容; 在步驟S2中,該敏感度確定設(shè)備1根據(jù)預(yù)設(shè)敏感詞庫獲取該博客內(nèi)容中的顯敏感詞和隱敏感詞,第三方設(shè)備的專用詞庫中存儲(chǔ)有顯敏感詞的敏感賦值和隱敏感詞的敏感賦值;在步驟S3中,該敏感度確定設(shè)備1根據(jù)該博客內(nèi)容中的顯敏感詞和隱敏感詞向該第三方設(shè)備發(fā)送獲取相應(yīng)的敏感賦值的請(qǐng)求,并接收該第三方設(shè)備返回的基于該專用詞庫的這些顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并根據(jù)該博客內(nèi)容中顯敏感詞和隱敏感詞的出現(xiàn)頻次,增加相應(yīng)顯敏感詞和隱敏感詞的敏感賦值,如顯敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加 1,隱敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加0.5,再根據(jù)這些顯敏感詞和隱敏感詞的最終敏感賦值確定各顯敏感詞和各隱敏感詞的權(quán)重,加權(quán)確定該博客內(nèi)容的敏感度;在此,各顯敏感詞和各隱敏感詞的權(quán)重,可以在其加入該預(yù)設(shè)敏感詞庫時(shí)預(yù)先設(shè)定,也可以根據(jù)其敏感賦值確定,還可以根據(jù)其在目標(biāo)文本中的出現(xiàn)頻次確定。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定各顯敏感詞和各隱敏感詞的權(quán)重的方式以及確定目標(biāo)文本的敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定各顯敏感詞和各隱敏感詞的權(quán)重的方式或者確定目標(biāo)文本的敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在另一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D3),該過程還包括步驟S4(未示出),在步驟S4 中,敏感度確定設(shè)備1根據(jù)預(yù)置的預(yù)處理規(guī)則,對(duì)所述目標(biāo)文本進(jìn)行預(yù)處理,以獲得與所述目標(biāo)文本相對(duì)應(yīng)的預(yù)處理文本;隨后,在步驟S2中,敏感度確定設(shè)備1還根據(jù)所述預(yù)處理文本,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。以下參照?qǐng)D3對(duì)該另一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,在步驟Sl中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本;在步驟S3中,敏感度確定設(shè)備1根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度;其具體過程與前述參照?qǐng)D3所描述的實(shí)施例中敏感度確定設(shè)備1在步驟Sl和中步驟S3中所執(zhí)行的過程相同,為簡明起見, 以引用方式包含于此,而不再贅述。
具體地,在步驟S4中,敏感度確定設(shè)備1根據(jù)預(yù)置的預(yù)處理規(guī)則,諸如刪除目標(biāo)文本中的異常字符、將目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串等,對(duì)其在步驟Sl中獲取的目標(biāo)文本進(jìn)行預(yù)處理,以獲得與該目標(biāo)文本相對(duì)應(yīng)的預(yù)處理文本;隨后,在步驟S2中,該敏感度確定設(shè)備1還根據(jù)該預(yù)處理文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該目標(biāo)文本中的顯敏感詞和隱敏感詞。在此,該預(yù)處理規(guī)則用于將敏感度確定設(shè)備1在步驟Sl中獲取的初始目標(biāo)文本轉(zhuǎn)換為可供直接進(jìn)行詞庫匹配或先進(jìn)行分詞處理再執(zhí)行詞庫匹配操作的預(yù)處理文本。例如,在步驟Sl中,敏感度確定設(shè)備1獲取的目標(biāo)文本中的字符包括多個(gè)異常字符,如“*”、“&”、“ % ”、“ “ ”、“#”、“$”等;在步驟S4中,該敏感度確定設(shè)備1根據(jù)預(yù)置的預(yù)處理規(guī)則,如刪除目標(biāo)文本中的異常字符,基于異常字符集、正常字符集或兩者的結(jié)合,識(shí)別目標(biāo)文本中的異常字符,并刪除這些異常字符,以獲得對(duì)該目標(biāo)文本預(yù)處理后的預(yù)處理文本;在步驟S2中,該敏感度確定設(shè)備1根據(jù)該預(yù)處理文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得該目標(biāo)文本中的顯敏感詞和隱敏感詞。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對(duì)目標(biāo)文本進(jìn)行預(yù)處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對(duì)目標(biāo)文本進(jìn)行預(yù)處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,敏感度確定設(shè)備1在步驟S4中的所述預(yù)置的預(yù)處理規(guī)則包括但不限于, 以下至少任一項(xiàng) 1)刪除所述目標(biāo)文本中的異常字符; 2)將所述目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串。
具體地,在步驟S4中,敏感度確定設(shè)備1預(yù)置的的預(yù)處理規(guī)則,用于將目標(biāo)文本轉(zhuǎn)換為預(yù)處理文本,在此,預(yù)處理規(guī)則包括但不限于,以下至少任一項(xiàng)1)刪除目標(biāo)文本中的異常字符,如“*”、“&”、“ % ”、“"”、“#”、“$”等;2)將目標(biāo)文本中的異形文字串,諸如豎形文字、藝術(shù)字等變形體的文字串,轉(zhuǎn)換為正常文字串。當(dāng)目標(biāo)文本中包括多個(gè)異常字符時(shí),這些異常字符會(huì)影響敏感度確定設(shè)備1在步驟S2中對(duì)目標(biāo)文本中顯敏感詞和隱敏感詞的識(shí)別;例如,在步驟S2中,敏感度確定設(shè)備1按照預(yù)設(shè)敏感詞庫對(duì)目標(biāo)文本進(jìn)行匹配查詢時(shí), 由于異常字符的存在,尤其是為了規(guī)避詞庫的匹配查詢,異常字符通常會(huì)穿插在顯敏感詞或者隱敏感詞中,使得無論是對(duì)該目標(biāo)文本的直接匹配,還是對(duì)該目標(biāo)文本中關(guān)鍵詞的匹配,都無法查詢獲得與該目標(biāo)文本相對(duì)應(yīng)的顯敏感詞或者隱敏感詞。當(dāng)預(yù)置的預(yù)處理規(guī)則包括刪除目標(biāo)文本中的異常字符時(shí),在步驟S4中,該敏感度確定設(shè)備1基于異常字符集、正常字符集或兩者的結(jié)合,識(shí)別目標(biāo)文本中的異常字符,并刪除這些異常字符,以獲得對(duì)該目標(biāo)文本預(yù)處理后的預(yù)處理文本。目標(biāo)文本中的異形文字串,諸如豎形文字、藝術(shù)字等變形體的文字串同樣會(huì)影響敏感度確定設(shè)備1在步驟S2中對(duì)目標(biāo)文本中顯敏感詞和隱敏感詞的識(shí)別,使得異形文字串成為不良發(fā)布者逃避對(duì)文本的敏感審核的有效手段。當(dāng)預(yù)置的預(yù)處理規(guī)則包括將目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串時(shí),在步驟S4中,敏感度確定設(shè)備1基于異形文字集,識(shí)別目標(biāo)文本中的異形文字,并根據(jù)異形文字與正常文字的映射關(guān)系,將這些異形文字轉(zhuǎn)換為正常文字,以獲得對(duì)該目標(biāo)文本預(yù)處理后的預(yù)處理文本。本領(lǐng)域技術(shù)人員應(yīng)能理解上述各項(xiàng)預(yù)處理規(guī)則不僅能夠單獨(dú)用于將目標(biāo)文本轉(zhuǎn)換為預(yù)處理文本, 還可以相互結(jié)合用于將目標(biāo)文本轉(zhuǎn)換為預(yù)處理文本。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述預(yù)處理規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)處理規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在再一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D3),該過程還包括步驟S5(未示出),在步驟S5 中,敏感度確定設(shè)備1根據(jù)敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度,更新所述敏感詞的敏感賦值;根據(jù)所述更新后敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫; 其中,所述敏感詞包括但不限于,以下至少任一項(xiàng) 1)所述顯敏感詞; 2)所述隱敏感詞。
以下參照?qǐng)D3對(duì)該再一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,在步驟S 1中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本;隨后,在步驟S2中,敏感度確定設(shè)備1根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞; 接著,在步驟S3中,敏感度確定設(shè)備1根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度;其具體過程與前述參照?qǐng)D3所描述的實(shí)施例中敏感度確定設(shè)備1在步驟Si、步驟S2和步驟S3中所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,在步驟S5中,敏感度確定設(shè)備1根據(jù)敏感詞,如顯敏感詞或隱敏感詞,在目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合該目標(biāo)文本的敏感度,更新該(等)敏感詞的敏感賦值,并根據(jù)更新后該(等)敏感詞的敏感賦值,更新預(yù)設(shè)敏感詞庫。例如,當(dāng)目標(biāo)文本的敏感度超過其相應(yīng)的預(yù)設(shè)閾值時(shí),在步驟S5中,敏感度確定設(shè)備1根據(jù)該目標(biāo)文本中顯敏感詞和隱敏感詞的出現(xiàn)頻次,增加預(yù)設(shè)敏感詞庫中這些顯敏感詞和隱敏感詞的敏感賦值,如顯敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加0. 1,隱敏感詞出現(xiàn)一次,其相應(yīng)的敏感賦值加0. 01,從而根據(jù)顯敏感詞和隱敏感詞的敏感賦值的變化,更新該預(yù)設(shè)敏感詞庫。優(yōu)選地,當(dāng)隱敏感詞增加后的敏感賦值達(dá)到其相應(yīng)的預(yù)設(shè)閾值時(shí),在步驟S5中,敏感度確定設(shè)備1將該隱敏感詞標(biāo)注為顯敏感詞;當(dāng)顯敏感詞增加后的敏感賦值達(dá)到其相應(yīng)的預(yù)設(shè)閾值時(shí),提高該顯敏感詞的敏感級(jí)別,如從1級(jí)升至2級(jí),從而更新該預(yù)設(shè)敏感詞庫。優(yōu)選地,該敏感級(jí)別將直接影響目標(biāo)文本的處理方式,或者更改該顯敏感詞對(duì)應(yīng)的處理方式,如從以“*”替換該顯敏感詞變更為刪除該目標(biāo)文本。又如,在步驟S5中,敏感度確定設(shè)備1累加同一顯敏感詞或者隱敏感詞在敏感度超過其預(yù)設(shè)閾值的目標(biāo)文本的出現(xiàn)頻次,當(dāng)同一顯敏感詞的累加出現(xiàn)頻次超過其相應(yīng)頻次閾值時(shí),將該顯敏感詞的敏感賦值加1 ;當(dāng)同一隱敏感詞的累加出現(xiàn)頻次超過其相應(yīng)頻次閾值時(shí),將該顯敏感詞的敏感賦值加0. 5 ;從而更新該預(yù)設(shè)敏感詞庫。 本領(lǐng)域技術(shù)人員應(yīng)能理解上述更新敏感詞的敏感賦值和預(yù)設(shè)敏感詞庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新敏感詞的敏感賦值或者預(yù)設(shè)敏感詞庫的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,該過程還包括步驟S6(未示出),在步驟S6中,敏感度確定設(shè)備1根據(jù)所述敏感詞,在所述目標(biāo)文本中進(jìn)行近似查詢,以獲得與所述敏感詞相對(duì)應(yīng)的候選敏感詞;在步驟S5中,該敏感度確定設(shè)備1還根據(jù)所述候選敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度,更新所述候選敏感詞的敏感賦值;根據(jù)所述更新后候選敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫。具體地,在步驟S6中,敏感度確定設(shè)備1根據(jù)目標(biāo)文本中的敏感詞,包括顯敏感詞和隱敏感詞,在該目標(biāo)文本中進(jìn)行近似查詢,以獲得與顯敏感詞或者隱敏感詞相對(duì)應(yīng)的候選敏感詞;在步驟S5中,該敏感度確定設(shè)備1還根據(jù)該(等) 候選敏感詞在該目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合該目標(biāo)文本的敏感度,更新該候選敏感詞的敏感賦值,并根據(jù)該更新后候選敏感詞的敏感賦值,更新預(yù)設(shè)敏感詞庫。例如,在步驟S2 中,敏感度確定設(shè)備1獲取目標(biāo)文本中的顯敏感詞和隱敏感詞,如顯敏感詞“舞女”和隱敏感詞“脫衣”;在步驟S6中,該敏感度確定設(shè)備1根據(jù)這些顯敏感詞和隱敏感詞在該目標(biāo)文本中做近似查詢,如通過對(duì)該目標(biāo)文本做分詞處理后獲得的關(guān)鍵詞與這些顯敏感詞和隱敏感詞計(jì)算近似度,獲得與其中一個(gè)或多個(gè)顯敏感詞或者隱敏感詞相對(duì)應(yīng)的候選敏感詞,如 “脫衣舞”和“脫衣舞女”;在步驟S5中,該敏感度確定設(shè)備1還根據(jù)這些候選敏感詞在該目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合該目標(biāo)文本的敏感度,更新該候選敏感詞的敏感賦值,例如, 在首次發(fā)現(xiàn)一個(gè)候選敏感詞時(shí),對(duì)其賦予初始敏感賦值,再如,當(dāng)該候選敏感詞在該目標(biāo)文本中的出現(xiàn)頻次以及該目標(biāo)文本的敏感度均超過其相應(yīng)閾值時(shí),更新該候選敏感詞的敏感賦值,如使其敏感賦值增加5 ;在步驟S5中,敏感度確定設(shè)備1根據(jù)該更新后候選敏感詞的敏感賦值,如當(dāng)該候選敏感詞的增加后的敏感賦值達(dá)到一定值,則將該候選敏感詞標(biāo)注為隱敏感詞,從而更新該預(yù)設(shè)敏感詞庫。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取候選敏感詞與更新預(yù)設(shè)敏感詞庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取候選敏感詞或者更新預(yù)設(shè)敏感詞庫的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在又一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D3),該過程還包括步驟S7(未示出),在步驟S7 中,敏感度確定設(shè)備1根據(jù)預(yù)置的敏感文本處理規(guī)則,基于所述目標(biāo)文本的敏感度,對(duì)所述目標(biāo)文本做敏感處理,以獲得敏感處理后的所述目標(biāo)文本。以下參照?qǐng)D3對(duì)該又一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,在步驟Sl中,敏感度確定設(shè)備1獲取待確定敏感度的目標(biāo)文本; 隨后,在步驟S2中,該敏感度確定設(shè)備1根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;接著,在步驟S3中,該敏感度確定設(shè)備 1根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度;其具體過程與前述參照?qǐng)D3所描述的實(shí)施例中敏感度確定設(shè)備1在步驟Si、步驟S2 和步驟S3中所執(zhí)行的過程相同,為簡明起見,以引用方式包含于此,而不再贅述。
具體地,在步驟S7中,敏感度確定設(shè)備1根據(jù)預(yù)置的敏感文本處理規(guī)則,諸如超過設(shè)定的敏感度閾值的目標(biāo)文本將被刪除,或者根據(jù)不同的敏感度級(jí)別對(duì)目標(biāo)文本采取不同的處理方式等,基于其在步驟S3中確定的目標(biāo)文本的敏感度,對(duì)目標(biāo)文本做敏感處理,以獲得敏感處理后的目標(biāo)文本。在此,預(yù)置的敏感文本處理規(guī)則用于根據(jù)不同的目標(biāo)應(yīng)用要求,對(duì)相應(yīng)的目標(biāo)文本進(jìn)行不同的敏感處理。例如,預(yù)置的敏感文本處理規(guī)則為設(shè)定一個(gè)敏感度閾值,超過該敏感度閾值的目標(biāo)文本將被刪除,低于該敏感度閾值的目標(biāo)文本中的顯敏感詞和隱敏感詞將被以“*”替代,在步驟S7中,該敏感度確定設(shè)備1根據(jù)該預(yù)置的敏感文本處理規(guī)則,基于目標(biāo)文本的敏感度,對(duì)該目標(biāo)文本進(jìn)行敏感處理,如若其敏感度低于該設(shè)定的敏感度閾值,將該目標(biāo)文本中的顯敏感詞和隱敏感詞以“*”替代,以獲得敏感處理后的目標(biāo)文本。又如,假設(shè)敏感度確定設(shè)備1為瀏覽器,預(yù)置的敏感文本處理規(guī)則為對(duì)于敏感級(jí)別為1級(jí)的網(wǎng)頁,禁止家里的小朋友訪問,對(duì)于敏感級(jí)別為2級(jí)的網(wǎng)頁,以“*”替換其中的敏感詞,對(duì)于敏感級(jí)別為3級(jí)的網(wǎng)頁,禁止所有人訪問;在步驟S7中,該敏感度確定設(shè)備 1根據(jù)當(dāng)前網(wǎng)頁服務(wù)器返回的網(wǎng)頁的敏感度,假設(shè)其敏感級(jí)別為3級(jí),按照該預(yù)置的敏感文本處理規(guī)則,禁止所有人訪問該網(wǎng)頁,如轉(zhuǎn)向404錯(cuò)誤頁面。本領(lǐng)域技術(shù)人員應(yīng)能理解上述敏感文本處理規(guī)則與對(duì)目標(biāo)文本做敏感處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的敏感文本處理規(guī)則或者對(duì)目標(biāo)文本做敏感處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,該過程還包括步驟S8(未示出),在步驟Sl中,敏感度確定設(shè)備1獲取與用戶通過用戶設(shè)備提交的訪問請(qǐng)求相對(duì)應(yīng)的所述目標(biāo)文本;在步驟S8中,該敏感度確定設(shè)備1將所述敏感處理后的目標(biāo)文本提供給所述用戶設(shè)備。具體地,在步驟Sl中,敏感度確定設(shè)備1還通過諸如接收用戶經(jīng)由用戶設(shè)備發(fā)送的訪問請(qǐng)求,并基于該訪問請(qǐng)求獲取相應(yīng)的目標(biāo)文本,或者接收來自第三方設(shè)備的與用戶通過用戶設(shè)備提交的訪問請(qǐng)求相對(duì)應(yīng)的目標(biāo)文本,或者接受來自第三方設(shè)備的待提供給用戶設(shè)備以供用戶訪問的目標(biāo)文本;隨后,在步驟S2中,該敏感度確定設(shè)備1獲取該目標(biāo)文本中的顯敏感詞和隱敏感詞,在步驟S3中,該敏感度確定設(shè)備1加權(quán)確定該目標(biāo)文本的敏感度,處理裝置基于該敏感度對(duì)該目標(biāo)文本進(jìn)行敏感處理;在步驟S8中,該敏感度確定設(shè)備1通過諸如頁面技術(shù),如ASP、JSP、PHP等,將敏感處理后的目標(biāo)文本生成新的頁面提供該用戶設(shè)備,或者將目標(biāo)文本替換為預(yù)置頁面, 如404錯(cuò)誤頁面,并將該預(yù)置頁面提供給該用戶設(shè)備。例如,假設(shè)敏感度確定設(shè)備1為web 服務(wù)器,在步驟Sl中,該敏感度確定設(shè)備1接收用戶經(jīng)由用戶設(shè)備發(fā)送的訪問請(qǐng)求,并基于該訪問請(qǐng)求獲取相應(yīng)的網(wǎng)頁;在步驟S2中,該敏感度確定設(shè)備1按照預(yù)設(shè)敏感詞庫獲取該網(wǎng)頁中的顯敏感詞和隱敏感詞;在步驟S3中,該敏感度確定設(shè)備1根據(jù)這些顯敏感詞和隱敏感詞的敏感賦值,加權(quán)確定該目標(biāo)文本的敏感度;在步驟S7中,該敏感度確定設(shè)備1按照預(yù)置的敏感文本處理規(guī)則,如刪除超過敏感度閾值的目標(biāo)文本,基于該目標(biāo)文本的敏感度, 如該目標(biāo)文本的敏感度超過該敏感度閾值,則刪除該目標(biāo)文本,此時(shí)會(huì)產(chǎn)生一個(gè)404錯(cuò)誤頁面;在步驟S8中,敏感度確定設(shè)備1將該404錯(cuò)誤頁面發(fā)送給該用戶設(shè)備。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取目標(biāo)文本與提供敏感處理后的目標(biāo)文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取目標(biāo)文本或提供敏感處理后的目標(biāo)文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
更優(yōu)選地,在步驟S8中,敏感度確定設(shè)備1還將所述敏感處理后的目標(biāo)文本及其所述敏感度提供給所述用戶設(shè)備。具體地,在步驟S8中,敏感度確定設(shè)備1還將經(jīng)其在步驟S7中敏感處理后的目標(biāo)文本,以及該敏感處理后的目標(biāo)文本相應(yīng)的敏感度提供給該用戶設(shè)備。例如,在步驟S7中,敏感度確定設(shè)備1對(duì)目標(biāo)文本按照預(yù)置的敏感文本處理規(guī)則進(jìn)行敏感處理;在步驟S8中,該敏感度確定設(shè)備1將該敏感處理后的目標(biāo)文本及其相應(yīng)的敏感度提供給該用戶設(shè)備,其中,該敏感度飄紅顯示,以使用戶知道該目標(biāo)文本中含有敏感內(nèi)容,并作出相應(yīng)的應(yīng)對(duì)措施,如將該目標(biāo)文本所對(duì)應(yīng)的URL,甚至是所在的站點(diǎn)設(shè)置為禁止訪問等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述提供敏感處理后的目標(biāo)文本及其相應(yīng)敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的提供敏感處理后的目標(biāo)文本或者其相應(yīng)敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
優(yōu)選地,在步驟S3中,敏感度確定設(shè)備1還根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,并結(jié)合所述用戶的用戶相關(guān)信息,加權(quán)確定所述目標(biāo)文本的敏感度。 具體地,在步驟S3中,敏感度確定設(shè)備1還根據(jù)目標(biāo)文本中顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并結(jié)合所述用戶的用戶相關(guān)信息,諸如用戶的年齡、用戶當(dāng)前訪問應(yīng)用的應(yīng)用類型等會(huì)對(duì)目標(biāo)文本的敏感度的確定產(chǎn)生影響的、且與用戶自身或者其行為有關(guān)的信息,加權(quán)確定該目標(biāo)文本的敏感度。在此,顯敏感詞的敏感賦值和隱敏感詞的敏感賦值可以由預(yù)設(shè)敏感詞庫獲取,也可以由第三方設(shè)備的專用詞庫獲取。例如,在步驟S3中,敏感度確定設(shè)備1根據(jù)預(yù)設(shè)敏感詞庫中顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,并結(jié)合用戶當(dāng)前訪問應(yīng)用的應(yīng)用類型,如用戶當(dāng)前訪問的頁面為醫(yī)學(xué)類,加權(quán)確定該頁面的敏感度,如先疊加顯敏感詞的敏感賦值和隱敏感詞的敏感賦值,確定該頁面的初始敏感度,再根據(jù)該當(dāng)前訪問應(yīng)用的應(yīng)用類型,將該初始敏感度*0. 6,得到該頁面的敏感度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定目標(biāo)文本的敏感度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定目標(biāo)文本的敏感度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
更優(yōu)選地,所述用戶相關(guān)信息包括但不限于,以下至少任一項(xiàng) 1)所述用戶的基本屬性; 2)所述用戶所訪問應(yīng)用的應(yīng)用類型。
具體地,用戶相關(guān)信息包括但不限于,以下至少任一項(xiàng)1)用戶的基本屬性,諸如用戶的年齡、職業(yè)等,例如,同一文檔,對(duì)于兒童和成人來說,兒童所對(duì)應(yīng)的目標(biāo)文本的敏感度必須要遠(yuǎn)遠(yuǎn)高于成人所對(duì)應(yīng)的目標(biāo)文本的敏感度;2)用戶所訪問應(yīng)用的應(yīng)用類型,諸如用戶當(dāng)前訪問的頁面的類型、用戶當(dāng)前所使用的應(yīng)用服務(wù)的類型,例如,醫(yī)學(xué)類文檔的敏感度的確定標(biāo)準(zhǔn)應(yīng)當(dāng)?shù)陀谄胀ㄎ臋n的敏感度的確定標(biāo)準(zhǔn),論壇貼的敏感度的確定標(biāo)準(zhǔn)應(yīng)當(dāng)?shù)陀谛侣劸W(wǎng)頁的敏感度的確定標(biāo)準(zhǔn)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述各項(xiàng)用戶相關(guān)信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的用戶相關(guān)信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權(quán)利要求
1.一種由計(jì)算機(jī)實(shí)現(xiàn)的用于確定目標(biāo)文本的敏感度的方法,其中,該方法包括以下步驟a獲取待確定敏感度的目標(biāo)文本;b根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;c根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟b還包括bl對(duì)所述目標(biāo)文本進(jìn)行分詞處理,以獲得所述目標(biāo)文本中的關(guān)鍵詞; b2根據(jù)所述關(guān)鍵詞,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟c還包括-根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,以及所述顯敏感詞和所述隱敏感詞分別在所述目標(biāo)文本中的出現(xiàn)頻次,加權(quán)確定所述敏感度。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中,該方法還包括r根據(jù)預(yù)置的預(yù)處理規(guī)則,對(duì)所述目標(biāo)文本進(jìn)行預(yù)處理,以獲得與所述目標(biāo)文本相對(duì)應(yīng)的預(yù)處理文本;其中,所述步驟b還包括-根據(jù)所述預(yù)處理文本,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述步驟r中所述預(yù)置的預(yù)處理規(guī)則包括以下至少任一項(xiàng)-刪除所述目標(biāo)文本中的異常字符;-將所述目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,其中,該方法還包括步驟i-根據(jù)敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度,更新所述敏感詞的敏感賦值;-根據(jù)所述更新后敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫; 其中,所述敏感詞包括以下至少任一項(xiàng) -所述顯敏感詞; -所述隱敏感詞。
7.根據(jù)權(quán)利要求6所述的方法,其中,該方法還包括-根據(jù)所述敏感詞,在所述目標(biāo)文本中進(jìn)行近似查詢,以獲得與所述敏感詞相對(duì)應(yīng)的候選敏感詞;其中,所述步驟i還包括-根據(jù)所述候選敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度, 更新所述候選敏感詞的敏感賦值;-根據(jù)所述更新后候選敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫。
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中,該方法還包括X根據(jù)預(yù)置的敏感文本處理規(guī)則,基于所述目標(biāo)文本的敏感度,對(duì)所述目標(biāo)文本做敏感處理,以獲得敏感處理后的所述目標(biāo)文本。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述步驟a還包括-獲取與用戶通過用戶設(shè)備提交的訪問請(qǐng)求相對(duì)應(yīng)的所述目標(biāo)文本; 其中,該方法還包括y將所述敏感處理后的目標(biāo)文本提供給所述用戶設(shè)備。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述步驟y還包括-將所述敏感處理后的目標(biāo)文本及其所述敏感度提供給所述用戶設(shè)備。
11.根據(jù)權(quán)利要求9或10所述的方法,其中,所述步驟C還包括-根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,并結(jié)合所述用戶的用戶相關(guān)信息,加權(quán)確定所述目標(biāo)文本的敏感度。
12.根據(jù)權(quán)利要求11所述的方法,其中,所述用戶相關(guān)信息包括以下至少任一項(xiàng) -所述用戶的基本屬性;-所述用戶所訪問應(yīng)用的應(yīng)用類型。
13.一種用于確定目標(biāo)文本的敏感度的設(shè)備,其中,該設(shè)備包括 文本獲取裝置,用于獲取待確定敏感度的目標(biāo)文本;敏感詞獲取裝置,用于根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;敏感度確定裝置,用于根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述敏感詞獲取裝置還包括分詞單元,用于對(duì)所述目標(biāo)文本進(jìn)行分詞處理,以獲得所述目標(biāo)文本中的關(guān)鍵詞; 敏感詞獲取單元,用于根據(jù)所述關(guān)鍵詞,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。
15.根據(jù)權(quán)利要求13或14所述的設(shè)備,其中,所述敏感度確定裝置還用于-根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,以及所述顯敏感詞和所述隱敏感詞分別在所述目標(biāo)文本中的出現(xiàn)頻次,加權(quán)確定所述敏感度。
16.根據(jù)權(quán)利要求13至15中任一項(xiàng)所述的設(shè)備,其中,該設(shè)備還包括預(yù)處理裝置,用于根據(jù)預(yù)置的預(yù)處理規(guī)則,對(duì)所述目標(biāo)文本進(jìn)行預(yù)處理,以獲得與所述目標(biāo)文本相對(duì)應(yīng)的預(yù)處理文本;其中,所述敏感詞獲取裝置還用于-根據(jù)所述預(yù)處理文本,在所述預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述顯敏感詞和所述隱敏感詞。
17.根據(jù)權(quán)利要求16所述的設(shè)備,其中,所述預(yù)處理裝置中的所述預(yù)置的預(yù)處理規(guī)則包括以下至少任一項(xiàng)-刪除所述目標(biāo)文本中的異常字符; -將所述目標(biāo)文本中的異形文字串轉(zhuǎn)換為正常文字串。
18.根據(jù)權(quán)利要求13至17中任一項(xiàng)所述的設(shè)備,其中,該設(shè)備還包括更新裝置,所述更新裝置用于-根據(jù)敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度,更新所述敏感詞的敏感賦值;-根據(jù)所述更新后敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫; 其中,所述敏感詞包括以下至少任一項(xiàng) -所述顯敏感詞; -所述隱敏感詞。
19.根據(jù)權(quán)利要求18所述的設(shè)備,其中,該設(shè)備還包括候選詞獲取裝置,用于根據(jù)所述敏感詞,在所述目標(biāo)文本中進(jìn)行近似查詢,以獲得與所述敏感詞相對(duì)應(yīng)的候選敏感詞; 其中,所述更新裝置還用于-根據(jù)所述候選敏感詞在所述目標(biāo)文本中的出現(xiàn)頻次,并結(jié)合所述目標(biāo)文本的敏感度, 更新所述候選敏感詞的敏感賦值;-根據(jù)所述更新后候選敏感詞的敏感賦值,更新所述預(yù)設(shè)敏感詞庫。
20.根據(jù)權(quán)利要求13至19中任一項(xiàng)所述的設(shè)備,其中,該設(shè)備還包括處理裝置,用于根據(jù)預(yù)置的敏感文本處理規(guī)則,基于所述目標(biāo)文本的敏感度,對(duì)所述目標(biāo)文本做敏感處理,以獲得敏感處理后的所述目標(biāo)文本。
21.根據(jù)權(quán)利要求20所述的設(shè)備,其中,所述文本獲取裝置還用于 -獲取與用戶通過用戶設(shè)備提交的訪問請(qǐng)求相對(duì)應(yīng)的所述目標(biāo)文本; 其中,該設(shè)備還包括提供裝置,用于將所述敏感處理后的目標(biāo)文本提供給所述用戶設(shè)備。
22.根據(jù)權(quán)利要求21所述的設(shè)備,其中,所述提供裝置還用于-將所述敏感處理后的目標(biāo)文本及其所述敏感度提供給所述用戶設(shè)備。
23.根據(jù)權(quán)利要求21或22所述的設(shè)備,其中,所述敏感度確定裝置還用于-根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,并結(jié)合所述用戶的用戶相關(guān)信息,加權(quán)確定所述目標(biāo)文本的敏感度。
24.根據(jù)權(quán)利要求23所述的設(shè)備,其中,所述用戶相關(guān)信息包括以下至少任一項(xiàng) -所述用戶的基本屬性;-所述用戶所訪問應(yīng)用的應(yīng)用類型。
25.一種用于確定目標(biāo)文本的敏感度的瀏覽器,其中,該瀏覽器包括如權(quán)利要求13至 24中任一項(xiàng)所述的裝置。
26.一種用于確定目標(biāo)文本的敏感度的瀏覽器插件,其中,該瀏覽器插件包括如權(quán)利要求13至M中任一項(xiàng)所述的裝置。
全文摘要
本發(fā)明的目的是提供一種用于確定目標(biāo)文本的敏感度的方法與設(shè)備。其中,敏感度確定設(shè)備獲取待確定敏感度的目標(biāo)文本;根據(jù)所述目標(biāo)文本,在預(yù)設(shè)敏感詞庫中進(jìn)行匹配查詢,以獲得所述目標(biāo)文本中的顯敏感詞和隱敏感詞;根據(jù)所述顯敏感詞的敏感賦值和所述隱敏感詞的敏感賦值,加權(quán)確定所述目標(biāo)文本的敏感度。與現(xiàn)有技術(shù)相比,本發(fā)明通過識(shí)別目標(biāo)文本中的顯敏感詞和隱敏感詞,提高了機(jī)器確定目標(biāo)文本的敏感度的準(zhǔn)確率,并且減少了后期可能需要的人工復(fù)核成本,進(jìn)一步提高了目標(biāo)文本的審核效率,使得本發(fā)明的應(yīng)用范圍得到了較大的擴(kuò)展。
文檔編號(hào)G06F17/30GK102184188SQ20111009598
公開日2011年9月14日 申請(qǐng)日期2011年4月15日 優(yōu)先權(quán)日2011年4月15日
發(fā)明者李彥宏, 舒迅, 袁聃, 帥帥, 李巖 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邯郸县| 吉安县| 汝州市| 嘉义市| 江华| 宣化县| 大丰市| 娱乐| 蒙自县| 西城区| 利川市| 长武县| 和林格尔县| 武宁县| 麟游县| 台中县| 河南省| 永善县| 乡城县| 岳池县| 治县。| 灵寿县| 腾冲县| 承德市| 阿拉善盟| 股票| 兰溪市| 澎湖县| 沁阳市| 板桥市| 张家港市| 咸丰县| 阳信县| 兴隆县| 两当县| 台南市| 彝良县| 三都| 大悟县| 平遥县| 德格县|