專利名稱:一種對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)字圖像處理技術(shù)領(lǐng)域,具體涉及一種彩色圖像內(nèi)容的分析與過濾方 法,進(jìn)一步則涉及一種數(shù)字圖像拷貝檢測和一種人體皮膚分割的方法,該系統(tǒng)可用于互聯(lián) 網(wǎng)不健康,暴力,反動(dòng)圖片的檢測與過濾。阻止不健康內(nèi)容的蔓延,保護(hù)青少年的身心健康。
背景技術(shù):
隨著Internet使用的日益普遍,網(wǎng)絡(luò)上存在的各種不良信息(色情、反動(dòng)、暴力等 等)越來越多地干擾著互聯(lián)網(wǎng)的正常秩序。由于缺乏傳統(tǒng)媒體對信息發(fā)布的有效監(jiān)控,大 量本應(yīng)受到嚴(yán)格管制的信息因而隨之泛濫。如何有效控制這些信息的傳播,并保障網(wǎng)絡(luò)的 內(nèi)容安全,成為不良信息檢索、監(jiān)控研究的主要內(nèi)容之一?,F(xiàn)有的一些網(wǎng)絡(luò)過濾系統(tǒng)大都是基于URL地址的過濾,該技術(shù)只是簡單地對網(wǎng)絡(luò) 用戶直接屏蔽掉設(shè)定在網(wǎng)絡(luò)運(yùn)營商防火墻中的不良內(nèi)容網(wǎng)站URL地址數(shù)據(jù)庫(俗稱“黑名 單”)中的網(wǎng)站,國內(nèi)外市面上鮮有直接針對網(wǎng)絡(luò)媒體(圖像與視頻)內(nèi)容過濾的商用系統(tǒng)。 雖然基于URL的屏蔽技術(shù)簡單高效,但其卻有著嚴(yán)重的局限性由于網(wǎng)絡(luò)運(yùn)營商無法及時(shí) 更新黑名單,這將導(dǎo)致很多新增色情網(wǎng)站成為漏網(wǎng)之魚;同時(shí),有些域名下并不是所有網(wǎng)頁 的內(nèi)容都是不健康的,這又將導(dǎo)致一些正常內(nèi)容被無辜屏蔽?;诿襟w內(nèi)容的過濾卻沒有 以上局限性,該技術(shù)是直接針對網(wǎng)絡(luò)上圖片進(jìn)行實(shí)時(shí)內(nèi)容分析,決定該圖片對象是否允許 下載到客戶端——所以基于內(nèi)容的過濾技術(shù)必然是互聯(lián)網(wǎng)過濾系統(tǒng)的發(fā)展趨勢。然而,由 于基于內(nèi)容的過濾系統(tǒng)需要對媒體對象進(jìn)行智能分析,對于不良圖片的分析又分為暴力、 反動(dòng),色情圖片分析,不幸的是,到目前為止,這種語義級別的分析本身就是一個(gè)無法很好 解決的難題。經(jīng)過大量觀察我們發(fā)現(xiàn),不良圖片(暴力、反動(dòng)、色情)圖片在網(wǎng)上傳輸有兩個(gè)特 點(diǎn),一個(gè)是數(shù)量大,另一個(gè)是具有重復(fù)性,也就是說一張同樣的不良圖片會(huì)被不同的人瀏覽 多次,所以對不良圖片的識別首先該系統(tǒng)采用拷貝檢測的方法,不考慮很難解決的語義問 題,而是搜集大量的暴力,反動(dòng),色情圖片語料庫,用待測圖片和語料庫中的圖片進(jìn)行比較, 若有相似的圖片,則認(rèn)為其為不良圖片。此外,對于色情圖片的檢測,我們還可以依靠人體皮膚區(qū)域分割技術(shù),加上人臉檢 測技術(shù)相互配合,解決色情圖片的識別。不過,人體皮膚區(qū)域分割技術(shù)本身就是一個(gè)無法很好解決的難題。在彩色數(shù)字圖 像中,人體皮膚的顏色由于受到兩個(gè)主要因素的影響變化非常劇烈,這兩個(gè)因素為(1)本 征膚色。不同的人種,如白種人、黃種人等,以及不同的身體條件,如不同的性別、年齡等,都 會(huì)擁有完全不同的本征膚色;(2)光源條件。在劇烈的光照下,一些向光皮膚區(qū)域會(huì)呈現(xiàn)顏 色極度不飽和現(xiàn)象,甚至完全變白,而背光皮膚區(qū)域則會(huì)變暗;皮膚同樣還會(huì)反射環(huán)境光, 就如同粉刷成白色的墻壁因?yàn)猷徑厣匕宓姆垂舛尸F(xiàn)出淡棕色。人類的視覺系統(tǒng)對 于這些因素引起的皮膚顏色變化是極其不敏感的,這種現(xiàn)象可以由Land的“顏色不變現(xiàn)象 (Color Constancy Phenomenon) " [13]解釋;然而,數(shù)字設(shè)備在成像過程中卻能精確地、客觀地捕獲皮膚顏色的這些變化,這種“客觀性”直接導(dǎo)致了 “通用膚色模型”無法包含所有 的膚色種類,即“通用模型不通用”的尷尬。當(dāng)然,包含所有的皮膚顏色并不是一件難事,但 是這里的前提是,膚色模型不能把除膚色之外的背景顏色也同時(shí)提取出來,否則,膚色模型 將沒有任何意義。經(jīng)過大量觀察我們發(fā)現(xiàn),傳統(tǒng)“通用膚色模型”或“一般膚色模型”([9,11,15,20]) 的局限性可以由兩對致命的矛盾進(jìn)行概括(1)通用性與查全率?!巴ㄓ媚w色模型”的性能通 常是在其容納一般膚色信息和特殊膚色信息的能力之間找到一個(gè)最佳的權(quán)衡。如果過于強(qiáng) 調(diào)通用性,模型中分配給各種膚色的能量都過于分散且微弱,檢測時(shí)大多數(shù)的樣本都能得 到一定的置信度,但卻不足夠高,達(dá)不到膚色閾值,從而導(dǎo)致低查全率;(2)完整性與準(zhǔn)確 率。利用“通用膚色模型”檢測出來的皮膚區(qū)域大多都很粗糙,不精確,因?yàn)樵谔囟▓D像中, 由于光照和陰影,很多情況下背景顏色比該圖像中的真實(shí)皮膚顏色更為接近于一般皮膚顏 色,因此,背景往往能得到比真實(shí)皮膚區(qū)域更高的置信度,如果此時(shí)因?yàn)閺?qiáng)調(diào)皮膚區(qū)域提取 的完整性而放松閾值想把皮膚陰影區(qū)域也提取出來,那后果就是更多的背景區(qū)域也相應(yīng)被 提取出,從而導(dǎo)致低準(zhǔn)確率[5,6,10,16,21,22]。以上的分析說明一個(gè)問題,就是“通用膚色模型”或者說“一般膚色模型(Generic SkinModel),,是不可能對所有的圖像都有效的,它只能在一般與特殊之間取一個(gè)權(quán)衡來使 性能最大化。所以我們可以建立專用膚色模型。另外,在皮膚分割技術(shù)不完備的前提下,單純的依靠皮膚面積的大小來判斷該圖 片是否為色情圖片必然會(huì)導(dǎo)致嚴(yán)重的誤判。若是加入人臉和皮膚分割技術(shù)相互協(xié)調(diào)作用, 定會(huì)增加整個(gè)系統(tǒng)的穩(wěn)定性。
發(fā)明內(nèi)容
本發(fā)明目的在于提出一種高準(zhǔn)確率,高效率,低時(shí)間復(fù)雜度的,對彩色數(shù)字圖像不 良內(nèi)容識別的方法。本發(fā)明提出的對彩色數(shù)字圖像不良內(nèi)容識別的方法是利用圖像拷貝檢測和色情 圖片識別共同作用達(dá)到的,其具體步驟是1)建立不良內(nèi)容圖片庫,根據(jù)內(nèi)容不同分類為色情圖片庫,反動(dòng)圖片庫,暴力圖片庫。2)對需要識別的圖片先進(jìn)行拷貝檢測,看不良圖片庫中是否有和該圖片相似的副 本。若有則直接返回該不良圖片庫的類別,作為待識別圖片的識別結(jié)果。3)若步驟b)中拷貝檢測沒有發(fā)現(xiàn)待識別圖片的副本,則再根據(jù)色情圖片識別算 法對該圖片進(jìn)行識別。最終得出最后識別結(jié)果。由以上介紹的方法得出的判定結(jié)果較之于傳統(tǒng)方法而言,存在兩大優(yōu)勢準(zhǔn)確率 高。以往的識別技術(shù)對色情圖片一方面單純用膚色檢測來判定圖像的色情程度,語義性較 差,分割出的結(jié)果誤差大。另一方面對整個(gè)不良圖片識別上,此方法的擴(kuò)展性很強(qiáng),針對于 新出現(xiàn)的不良圖片(包括暴力,反動(dòng),色情圖片)或色情圖片識別算法漏檢的圖片,我們可 以把其加入到不良圖片庫中去,使得我們整個(gè)算法的準(zhǔn)確性不斷提高,最終達(dá)到令人滿意 的效果。本發(fā)明采用兩個(gè)核心算法和一個(gè)系統(tǒng)框架。兩個(gè)核心算法是(1)拷貝檢測算法;(2)色情圖片識別算法。基于以上兩個(gè)核心算法,本發(fā)明設(shè)計(jì)了一種對彩色數(shù)字圖像不良內(nèi) 容識別的系統(tǒng)。下面介紹本發(fā)明對彩色數(shù)字圖像識別系統(tǒng)的框架及該框架的兩個(gè)核心算法。1.系統(tǒng)的框架該框架主要分為三部分(見圖1),拷貝檢測(CD),色情圖片識別(PR),和人工選擇。待測圖片首先進(jìn)行拷貝檢測,,若圖片庫中存在與其相似圖片,則輸出結(jié)果,若沒 有,則進(jìn)行色情圖片檢測來判斷該圖片是否為色情圖片,這里還可以有人工的參與,在色情 圖片檢測后,人工可以篩選識別算法誤判的圖片,把這些圖片加入到白名單圖片庫中,使其 在拷貝檢測中能直接判定其為正常圖片。2.圖像拷貝檢測算法圖像拷貝檢測算法的創(chuàng)意基于以下設(shè)想應(yīng)用精確的拷貝檢測算法對待測圖片和 大量圖片庫中的圖片庫進(jìn)行比較,需要花費(fèi)大量的計(jì)算代價(jià),但精確的拷貝檢測結(jié)果又是 我們需要的,所以只有設(shè)計(jì)一種既能得到比較準(zhǔn)確結(jié)果,又能節(jié)約計(jì)算資源的新算法?,F(xiàn)在描述如何設(shè)計(jì)符合以上兩個(gè)條件的新算法。新算法采用去粗取精的方法,先 用速度較快,準(zhǔn)確率比較低的方法縮小在圖片庫中的比較范圍,然后在小范圍內(nèi)使用時(shí)間 復(fù)雜度較高,較為精確的拷貝檢測算法。第一步,算法應(yīng)用圖像的二階熵來縮小在圖片庫中的比較范圍。圖像的二階熵不 僅反映了圖像灰度分布的聚集特征,而且反映了圖像灰度分布的空間特征。公式如下H = _ Hiyog2 %
=β F 其中i表示像素的灰度值(0 < = i < = 255),j表示鄰域灰度均值(0 < = j < = 255), Pij= (f(i,j))/N2。其中f(i,j)為特征二元組(i,j)出現(xiàn)的頻數(shù),N為圖像的尺度。 首先我們可以離線提取圖片庫中所有圖片的二階熵放入內(nèi)存中,形成“二階熵序列”,以便 后面快速的和待測圖片進(jìn)行比較。然后人工可以選定一個(gè)閾值,若待測圖片的二階熵和圖 片庫某一圖片的二階熵之差小于此閾值,則把該圖片和待測圖片進(jìn)行較精確比對。為了更 加快速的比較,也可以離線的對“二階熵序列”進(jìn)行排序,然后用折半查找的方法進(jìn)行比較。下面就是精確比較的算法,該算法采用的是SSIM算法[24],該算法主要關(guān)心比較 圖像之間的結(jié)構(gòu)信息,而圖像中又有光照和反射這些和事物結(jié)構(gòu)無關(guān)的干擾,如何去掉這 些因素的干擾是該算法關(guān)注內(nèi)容。該算法把判斷圖像相似度的任務(wù)分成了三個(gè)部分亮度比較,對比度比較和結(jié)果 比較。這三部分相互作用。見圖2首先,根據(jù)算法中的三部分,我們需要定義三個(gè)函數(shù)1 (X,y) ,c (x, y),s(x,y),其 中l(wèi)(x,y)表示信號x,y的亮度相似度。c(x,y)表示信號x,y的對比度相似度,s(x,y)表 示信號x,y的結(jié)構(gòu)相似度。為了使其相互能夠比較,三個(gè)函數(shù)必須滿足下面三個(gè)基本條件(以s(x,y)為例)(l)s (x, y) = s(y, χ)(2) s (χ, y) ^ 1
6
(3) s (x, y) = 1當(dāng)且僅當(dāng)χ = y (對于圖像來說就是每一個(gè)像素對應(yīng)相等)由此我們定義如下函數(shù)μ χ表示圖像的亮度平均值。Xi為圖像的第i個(gè)像素點(diǎn)的像素值。 對每一個(gè)像素去掉其平均亮度值,然后進(jìn)行處理就得出了標(biāo)準(zhǔn)方差δχ。 下面的公式1 (x,y),c (x,y),s (x, y)都滿足上滿的三個(gè)基本條件,常數(shù)項(xiàng)C的加 入是為了避免分母過小。
義級別的問題,一方面由于單一算法對于自身分類問題的分類效果不一定很好,另一方面 只根據(jù)一個(gè)算法得出的結(jié)果會(huì)使系統(tǒng)只能識別固定模式的圖片。但是把多個(gè)算法強(qiáng)加在一 起,又會(huì)使多個(gè)分類器相互干擾,這就要讓人規(guī)定一些規(guī)則,使其能協(xié)同工作。下面先對所 用到的兩個(gè)基本算法做簡要介紹皮膚分割算法該算法首先要從海量各種含有不同人體皮膚區(qū)域的圖像中手工提 取大量一般膚色像素樣本,用顏色直方圖建立“一般膚色模型”;該算法的創(chuàng)意在于希望在 在線處理圖像過程中系統(tǒng)能夠動(dòng)態(tài)建模針對特定圖像的膚色模型,但是“一般膚色模型”的 統(tǒng)計(jì)信息又不想完全丟失,即只希望利用從特定圖像中新得到的樣本集在原膚色模型的基 礎(chǔ)上進(jìn)行修正。另外為了使皮膚區(qū)域更加連續(xù),而又不會(huì)超過皮膚邊界進(jìn)行增長,該算法還 采用了基于邊緣的區(qū)域生長算法?;谶吘壍膮^(qū)域生長算法種子區(qū)域生長(Seeded Region Growing)是一項(xiàng)成熟 的技術(shù),然而該算法中的區(qū)域生長策略還必須考慮邊緣約束。結(jié)合邊緣信息與區(qū)域生長用 于圖像分割的研究也比較成熟,如[3,7,14],然而這些復(fù)雜的分割算法并不適用于皮膚區(qū) 域的分割(提取)。鑒此,一種結(jié)合了兩種經(jīng)典技術(shù)的新算法應(yīng)運(yùn)而生,它結(jié)合了 Carmy算 子[2]與Adam種子區(qū)域生長[1],該算法的步驟用偽代碼描述如下(1)把“主種子區(qū)域”中所有像素的鄰接未標(biāo)記像素點(diǎn)推入順序隊(duì)列;
3.色情圖片識別算法
色情圖片識別算法基于以下思想,
的算法(例如,皮膚分割算法)很難解決語
(2) while (順序隊(duì)列不為空)(3)從隊(duì)列中取出第一個(gè)像素ν ;(4)以ν為中心在圖像上覆蓋一個(gè)5x5像素的窗口 W ;(5)計(jì)算窗口 W中所有標(biāo)記過像素的YUV平均向量χ ;(6)計(jì)算像素ν的YUV向量;(7) if (| x-y < δ并且沒有邊緣穿過窗口 W)(8)把ν標(biāo)記為皮膚像素;(9)把ν的鄰接未標(biāo)記(不屬于“主種子區(qū)域”)像素點(diǎn)推入順序隊(duì)列;(10) end其中I · I表示歐幾里德距離,δ取經(jīng)驗(yàn)值24。增量式顏色直方圖由于圖像進(jìn)行了區(qū)域增長,增長的皮膚區(qū)域可以作為這張圖 像中特有的皮膚區(qū)域,這些特有的皮膚區(qū)域可以修正“一般膚色模型”,公式如下histoPara = histoParaX (1-ratio) +histoparaXratio ;其中histoPara為“一般膚色模型”,Histopara 為“專用膚色模型”。人臉檢測算法使用的是haar特征的級聯(lián)表,這個(gè)級聯(lián)表中包含的是級聯(lián) (boost)的分類器。級聯(lián)分類器的基本原理是由若干個(gè)簡單分類器級聯(lián)成的一個(gè)大的分類 器,被檢測的窗口依次通過每一個(gè)分類器,可以通過所有分類器的窗口即可判定為目標(biāo)區(qū) 域。同時(shí),為了考慮效率問題,可以將最嚴(yán)格的分類器放在整個(gè)級聯(lián)分類器的最頂端,那樣 可以減少匹配次數(shù)。對于人臉檢測,首先,人們采用樣本的haar特征進(jìn)行分類器的訓(xùn)練,從 而得到一個(gè)級聯(lián)的boost分類器。訓(xùn)練的方式包含兩方面1.正例樣本,即待人臉圖像目標(biāo)樣本2.反例樣本,其他任意的圖片首先將這些圖片統(tǒng)一成相同的尺寸,這個(gè)過程被稱為歸一化,然后進(jìn)行統(tǒng)計(jì)。一旦 分類器建立完成,就可以用來檢測輸入圖片中的感興趣區(qū)域的檢測了,一般來說,輸入的圖 片會(huì)大于樣本,那樣,需要移動(dòng)搜索窗口,為了檢索出不同大小的目標(biāo),分類器可以按比例 的改變自己的尺寸,這樣可能要對輸入圖片進(jìn)行多次的掃描。為了使這兩個(gè)算法協(xié)同工作,綜合兩個(gè)算法的特點(diǎn)和使用的場景,系統(tǒng)中規(guī)定了 四個(gè)分類器皮膚區(qū)域比例分類器,人臉個(gè)數(shù)分類器,不變矩分類器,皮膚區(qū)域分布分類器。皮膚區(qū)域比例分類器由于在色情圖片中,皮膚面積所占整張圖片的比例是一個(gè) 很重要的判定標(biāo)準(zhǔn),所以該分類器輸出皮膚分割算法檢測出的皮膚面積除以整個(gè)圖像的面 積這個(gè)比值。不變矩分類器對于有大量皮膚暴漏,而又不是色情圖片的例子(如人臉照而言, 皮膚區(qū)域所占面積很大,而其明顯不是色情圖片),為了避免這種情況的發(fā)生,系統(tǒng)用皮膚 區(qū)域的質(zhì)心和人臉區(qū)域的質(zhì)心兩者的距離表征該分類器的值,距離越大,說明非臉部皮膚 區(qū)域較多,這種情況,該圖片為色情圖片的幾率越大。人臉個(gè)數(shù)分類器人臉個(gè)數(shù)越多,越有可能為色情圖片。皮膚區(qū)域分布分類器在大量之后實(shí)驗(yàn)后,人體皮膚區(qū)域的分布在圖像中有一定 規(guī)律性。在色情圖片中皮膚主要分布在圖像的中間位置,所以我們設(shè)計(jì)了這樣的算法把皮 膚區(qū)域圖平均分割成5X5的格子,即長寬分別五等分。計(jì)算每個(gè)小格子中皮膚區(qū)域所占該
8格子面積的比例,得到一個(gè)區(qū)間在W,l]之間的值,然后按照從左到右、從上到下的順序把 25個(gè)值拉升為一個(gè)25維向量,作為皮膚區(qū)域分布的特征。然后設(shè)定一個(gè)權(quán)值向量,把圖像 也按照從左到右、從上到下的順序拉升為一個(gè)25維向量,圖像相對中間位置在向量中對應(yīng) 的位置填上較高置信度,其他位置填上較低置信度。九個(gè)值相加為1。然后用皮膚區(qū)域分布 特征和權(quán)值向量做內(nèi)積。得出的值為皮膚區(qū)域分類器的值。四個(gè)分類器得出的值都在W,l]范圍內(nèi),分別把四個(gè)分類器賦予不同的置信度, 相加后得到強(qiáng)分類器的結(jié)果。該結(jié)果就是色情圖片識別的最終結(jié)果。
圖1:系統(tǒng)框架圖。圖2 :SSIM算法流程圖。
具體實(shí)施例方式圖1發(fā)明數(shù)字圖像內(nèi)容識別系統(tǒng)架構(gòu)圖,包括圖像拷貝檢測和圖像內(nèi)容識別模 塊。下面結(jié)合附圖對本發(fā)明內(nèi)容識別方法作做進(jìn)一步說明。所有測試圖像格式都屬于 以下格式的一種jpeg、jpg、bmp、png、tiff。圖片大小在IM以下。首先對色情圖片識別算法進(jìn)行測試。圖片集中包括正常圖片,暴漏圖片,色情圖 片。各占三分之一。對所有測試用例分別進(jìn)行色情圖片識別,最終得出識別置信度。經(jīng)過 統(tǒng)計(jì),識別準(zhǔn)確率達(dá)到85%。在開放測試時(shí),準(zhǔn)確率達(dá)到75%。在處理速度上,單核cpu,主 頻2. 13GHz,情況下,正常圖片0. 01秒/張,不良圖片0. 025秒/張。對于拷貝檢測,該算法可檢測與原圖像相似的圖片。為了具體實(shí)驗(yàn)設(shè)計(jì)如下。1.對原圖像集提取特征后,輸入一幅亂涂亂畫的原圖像,看能否檢測出來。經(jīng)過試 驗(yàn),對于涂畫面積比較大的情況,因?yàn)閬G失了大量的緣由圖片信息,基本檢測不出來;對于 涂畫面積比較小但涂畫顏色與原圖像顏色均值差異較大的情況,也檢測不出來。對于涂畫 面積和涂畫顏色合適的情況,檢測出的概率較高。2.對原圖像集提出特征后,輸入一幅剪切后的原圖像,看能否檢測出來。經(jīng)過試 驗(yàn),剪切面積在原圖像的十六分之一為一個(gè)臨界點(diǎn),若剪切后的圖片為面積小于這個(gè)臨界 值,測檢測不出來,大于臨界值,則檢測出來的概率較大。綜上所述,對于用拷貝檢測和色情圖片識別相結(jié)合的方法進(jìn)行不良內(nèi)容的識別可 以達(dá)到很高的查全率和查準(zhǔn)率,而且對于漏檢和誤檢的圖片,我可以用拷貝檢測的方法進(jìn) 行動(dòng)態(tài)學(xué)習(xí)。從而進(jìn)一步提高系統(tǒng)的魯棒性。引用資料[1]Adams, R. and Bischof, L. Seeded Region Growing, IEEE Trans, on Pattern Analysis and MachineIntelligence, 1994, vol. 16, pp.641-647.[2]Canny, J. A Computational Approach to Edge Detection, IEEE Trans, on Pattern Analysis andMachine Intelligence, 1986, vol. 8, pp.679-698.[3] Chang, Y. L. and Li, X. Adaptive Image Region-Growing, IEEE Trans, on Image Processing, 1994, vol. 3, pp.868—872.
[4]Figueiredo, M. and Jain, Α. K. Unsupervised Learning of Finite Mixture Models,IEEE Trans. onPattern Analysis and Machine Intelligence,March 2002, vol. 24,no. 3,pp. 381-396.[5]Fleck, Μ. Μ. , Forsyth, D. A. and Bregler, C. Finding Naked People,In Proc. of the Fourth EuropeanConf. on Computer Vision, Berlin,Germany,1996,vol.2, pp. 593-602.[6]Forsyth,D. A. and Fleck,Μ. M. Identifying Nude Pictures,In Proc. of the 3rd IEEE Workshop onApplications of Computer Vision, Dec 2-4,1996, pp.103-108.[7]Haddon,J. and Boyce, J. Image Segmentation by Unifying Region and Boundary Information,IEEETrans. on Pattern Analysis and Machine Intelligence, 1990,vol. 12.[8]Hall, P. and Hicks, Y. A Method to Add Gaussian Mixture Models, Tech. Rep.2004-03,Dept.ofComputer Science, Univ. of Bath, UK, April 2004.[9] Jedynak,B.,Zheng,H.,Daoudi,Μ. and Barret,D,Maximum Entropy Models for Skin Detection,Tech. Rep. XIII, Universite des Sciences et Technologies de Lille, France.[10] Jeong,C. Y.,Kim, J. S. and Hong, K. S. Appearance-Based Nude Image Detection,In Proc. of thel7th Int^1 Conf. on Pattern Recognition,Aug 23-26,2004, vol. 4,pp. 467-470.[11] Jones, M. J. and Rehg,J. M. Statistical Color Models with Application to Skin Detection,In Proc. ofthe Computer Vision and Pattern Recognition,1999, vol. 1,pp. 274-280.[12]Kimmel, R. , Elad, Μ. , Shaked, D. ,Keshet, R. and Sobel, I.A Variational Framework for Retinex, Hewlett Packard Tech. Rep. HPL-1999-151, June 1999.[13]Land, E. H. The Retinex Theory of Color Vision, Scientific American, 1977,vol. 237.[14]Pavlidis,T.and Liow,Y. T. Integrating Region Growing and Edge Detection,IEEE Trahs. on PatternAnalysis and Machine Intelligence,1990,vol.12, pp. 225-233.[15]Phung,S. L,Bouzerdoum, A. and Chai,D. Skin Segmentation Using Color Pixel Classification :Analysis and Comparison,IEEE Trans, on Pattern Aualysis and Machine Intelligence, January, 2005, vol. 27, no. 1,pp.148-154.[16]Phung,S. L,Chai, D. and Bouzerdoum, A. Adaptive Skin Segmentation in Color Images,In Proc. ofthe IEEE Int^ 1 Conf. on Acoustics,Speech,and Signal Processing,April 6—10,2003,vol. 3,pp.353-356.[17]Piater, J. H. Mixture Models and Expectation-Maximization, Lecture at ENSIMAG, May 2002,updated on Nov 15,2004.[18]Roberts,S. J. and Rezek,L. Bayesian Approaches to Gaussian Mixture Modeling,IEEE Trans. onPattern Analysis and Machine Intelligence,November 1998,
10vol. 20,no. 11.[19]Shaked,D. and Keshet,R. Robust Recursive Envelope Operators for Fast Retinex, Hewlett PackardTech. Rep. HPL-2002-74(R. 1), Mar 11,2004.[20] Zarit, B. D.,Super,B. J and Quek,K. H. Comparison of Five Color Models in Skin PixelClassification,In Proc. of the ICCV^ 99 Int^ 1 Workshop on Recognition, Analysis, and Tracking of Faces andGestures in Real-time System, September,1999,pp. 58-63.[21] Zheng,Q. F.,Zhang,M. J. and Wang, W. Q. A Hybrid Approach to Detect Adult Web Images, PCM2004,Springer-Verlag, Berlin, Heidelberg, 2004, pp. 609-616.[22]Zhu,Q. ,Wu,C. T.,Cheng,K. T. and Wu, Y. L. An Adaptive Skin Model and Its Application toObjectionable Image Filtering,In Proc.of the ACM Int’ 1 Conf. on Multimedia (MM,04),New York, NY, USA,Oct 10-16,2004.[23]Zivkovic,Z. and Heijden,F(xiàn). Recursive Unsupervised Learning of Finite Mixture Models,IEEETrans. on Pattern Analysis and Machine Intelligence,May 2004,vol. 26,no. 5.[24]Zhou Wang, Alan Conrad Bovik, Hamid Rahim Sheikh and Eero P. Simoncelli,IEEEImage QualityAssessment :From Error Visibility toStructural SimilarityIEEE TRANSACTIONS ON IMAGEPROCESSING, APRIL 2004,VOL 13,NO. 4.
權(quán)利要求
一種對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于具體步驟如下a)建立不良內(nèi)容圖片庫,根據(jù)內(nèi)容不同分類為色情圖片庫,反動(dòng)圖片庫,暴力圖片庫;b)對需要識別的圖片先進(jìn)行拷貝檢測,檢測不良圖片庫中是否有和該圖片相似的副本;若有則直接返回該不良圖片庫的類別,作為待識別圖片的識別結(jié)果;c)若步驟b)中拷貝檢測沒有發(fā)現(xiàn)待識別圖片的副本,則再根據(jù)色情圖片識別算法對該圖片進(jìn)行識別,最終得出最后識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所 述的拷貝檢測,是對待處理圖片進(jìn)行級聯(lián)的檢測,其步驟為先對待處理圖片和圖片庫中圖 片的二階熵進(jìn)行比較,縮小比較范圍,然后用SSIM算法比較圖片之間的結(jié)構(gòu)相似性,取相 似性最大的值作為衡量該圖片是否與圖片庫匯總某一圖片相似的依據(jù)。
3.根據(jù)權(quán)利要求2所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所 屬的圖像的二階熵計(jì)算公式如下 其中i表示像素的灰度值,0 <= i <= 255,j表示領(lǐng)域灰度均值,0 <= j <= 255, Pij= (f(i,j))/N2,其中f(i,j)為特征二元組(i,j)出現(xiàn)的頻數(shù),N為圖像的尺度。
4.根據(jù)權(quán)利要求2所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所 述的SSIM算法的計(jì)算公式為SSIM(x,y) = 1 (χ, y) = c(x, y)s(x,y)其中l(wèi)(x,y)表示信號x,y的亮度相似度,c(x,y)表示信號x,y的對比度相似度,s (χ, y)表示信號χ,y的結(jié)構(gòu)相似度,計(jì)算公式如下
5.根據(jù)權(quán)利要求1所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所述的色情圖片識別算法包括四個(gè)弱分類器,4個(gè)弱分類器輸出4個(gè)置信度,組成一個(gè)四維特征 向量,輸入一個(gè)強(qiáng)分類器,得到最后結(jié)果;強(qiáng)分類器結(jié)果越大,內(nèi)容為色情的概率越大;四 個(gè)弱分類器分別是皮膚區(qū)域比例分類器,人臉個(gè)數(shù)分類器,不變矩分類器,皮膚區(qū)域分布分 類器。
6.根據(jù)權(quán)利要求5所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所述 的皮膚區(qū)域比例分類器的計(jì)算具體步驟為a)離線處理從海量各種不同膚色的人體皮膚區(qū)域的圖像中手工提取大量的一般膚 色像素樣本,用顏色直方圖的方法表示這些膚色樣本,從而建立“一般膚色模型”;b)預(yù)處理從待測圖像中檢測Carmy邊緣,用“一般膚色模型”提取出“主種子區(qū)域”作 為生長源,作基于邊緣的區(qū)域生長,最后作光源補(bǔ)償;c)增量處理從主種子區(qū)域進(jìn)行“基于邊緣的區(qū)域生長”,得到該圖像中特定的膚色像 素樣本,應(yīng)用修正算法進(jìn)行在線膚色模型修正,用新得到的模型再次從該圖像中提取皮膚 區(qū)域、進(jìn)行區(qū)域生長,在線修正,循環(huán)直到該膚色模型收斂,得到針對于該特定圖像的“專用 膚色模型”;最終增長得到的皮膚面積除以待測圖像的面積最終得到該分類器的結(jié)果。
7.根據(jù)權(quán)利要求6所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所述 的主種子區(qū)域按如下步驟提取一個(gè)16x16像素的窗口在由“一般膚色模型”提取出的初始 化皮膚區(qū)域圖上移動(dòng),如果該窗口所覆蓋的區(qū)域中的皮膚面積占到100%,則該區(qū)域被標(biāo)記 為“主種子區(qū)域”,而所有沒有達(dá)到標(biāo)準(zhǔn)的窗口區(qū)域?qū)⒈缓雎浴?br>
8.根據(jù)權(quán)利要求6所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所述 的機(jī)遇邊緣的區(qū)域生長算法步驟如下a)把“主種子區(qū)域”中所有像素的鄰接未標(biāo)記像素點(diǎn)推入順序隊(duì)列;b)while,順序隊(duì)列不為空;c)從隊(duì)列中取出第一個(gè)像素ν;d)以ν為中心在圖像上覆蓋一個(gè)5x5像素的窗口W;e)計(jì)算窗口W中所有標(biāo)記過像素的YUV平均向量χ ;f)計(jì)算像素ν的YUV向量;g)if(|x-y< δ并且沒有邊緣穿過窗口 W);h)把ν標(biāo)記為皮膚像素;i)把ν的鄰接未標(biāo)記像素點(diǎn)推入順序隊(duì)列;j)End;其中I · I表示歐幾里德距離,δ取經(jīng)驗(yàn)值。
9.根據(jù)權(quán)利要求5所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,人臉個(gè)數(shù)分類 器,其特征在于所述的人臉個(gè)數(shù)分類器是用人臉檢測的方法,檢測待測圖片中人臉的個(gè)數(shù), 人臉個(gè)數(shù)越多,分類器返回的色情程度越大。
10.根據(jù)權(quán)利要求5所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,其特征在于所 述的不變矩類器分是用皮膚區(qū)域的質(zhì)心和人臉區(qū)域的質(zhì)心兩者的距離表征該分類器,距離 越大,分類器返回的色情程度越大。
11.根據(jù)權(quán)利要求5所述的對彩色數(shù)字圖像進(jìn)行不良內(nèi)容識別的方法,皮膚區(qū)域分布 分類器,其特征在于所述的皮膚區(qū)域分布分類器是根據(jù)人體皮膚區(qū)域的分布在圖像中的規(guī) 律性,把圖像中居于中心位置附近區(qū)域賦予較高的權(quán)值,邊緣區(qū)域賦予較低的權(quán)值。
全文摘要
本發(fā)明屬于數(shù)字圖像處理技術(shù)領(lǐng)域,具體為一種對彩色數(shù)字圖像進(jìn)行內(nèi)容識別的方法。該發(fā)明包含圖像拷貝檢測算法和色情圖片識別算法。其中圖像拷貝檢測算法用級聯(lián)的方法,先用圖像二階熵的比較縮小在圖片庫中的范圍。再用SSIM算法在縮小的范圍內(nèi)最終得出相似度。色情圖片識別算法包括四個(gè)弱分類器皮膚區(qū)域比例分類器,人臉個(gè)數(shù)分類器,不變矩分類器,皮膚區(qū)域分布分類器,它們輸出4個(gè)置信度,組成一個(gè)四維特征向量,輸入一個(gè)強(qiáng)分類器,得到最后結(jié)果。強(qiáng)分類器結(jié)果越大,內(nèi)容為色情的概率越大。該系統(tǒng)和方法對互聯(lián)網(wǎng)管控領(lǐng)域有廣發(fā)的應(yīng)用價(jià)值。
文檔編號G06K9/62GK101901346SQ20101016698
公開日2010年12月1日 申請日期2010年5月6日 優(yōu)先權(quán)日2010年5月6日
發(fā)明者丁汝一, 馮瑞, 薛向陽, 金城 申請人:復(fù)旦大學(xué)