本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,具體涉及一種視頻中不良內(nèi)容的檢測方法及裝置。
背景技術(shù):
網(wǎng)絡(luò)視頻已深入人們的日常生活,成為人們獲知知識和娛樂的手段。網(wǎng)絡(luò)視頻內(nèi)容涉及的范圍較廣,視頻內(nèi)容良莠不齊,常常會有暴力、反動或者欺詐等不良內(nèi)容信息混雜在內(nèi)。隨著包括不良內(nèi)容視頻的傳播,會擾亂社會秩序,破壞社會風(fēng)氣,給人們尤其是給青少年的健康成長造成極大的負(fù)面影響。因此常常需要對網(wǎng)絡(luò)視頻的內(nèi)容進(jìn)行檢查,以過濾掉不良內(nèi)容的網(wǎng)絡(luò)視頻。然而視頻的信息量通常比較大,現(xiàn)有過濾方式無法快速地排查出不良視頻,容易造成不良視頻的誤判。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例公開了一種視頻中不良內(nèi)容的檢測方法及裝置,用于提高視頻中不良內(nèi)容的識別準(zhǔn)確率,降低不良視頻的誤判率。
本發(fā)明第一方面公開了一種視頻中不良內(nèi)容的檢測方法,可包括:
獲取待檢測視頻文件;
對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息;
將所述音頻信息轉(zhuǎn)換成第一文本內(nèi)容,以及將所述圖像信息轉(zhuǎn)換成第二文本內(nèi)容;
對所述第一文本內(nèi)容和所述第二文本內(nèi)容進(jìn)行合并和去重處理,獲得目標(biāo)文本內(nèi)容;
對比所述目標(biāo)文本內(nèi)容與敏感詞匯列表,查找出所述目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得所述敏感詞匯的總字?jǐn)?shù);
根據(jù)所述敏感詞匯的總字?jǐn)?shù)與所述目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得所述待檢測視頻文件的不良內(nèi)容比例值;
根據(jù)所述不良內(nèi)容比例值,處理所述待檢測視頻文件。
作為一種可選的實(shí)施方式,在本發(fā)明第一方面中,所述根據(jù)所述不良內(nèi)容比例值,處理所述待檢測視頻文件,包括:
當(dāng)所述不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,確定所述待檢測視頻文件為內(nèi)容健康的視頻文件;當(dāng)所述不良內(nèi)容比例值大于所述預(yù)設(shè)閾值時,啟動刪除程序刪除所述待檢測視頻文件。
作為一種可選的實(shí)施方式,在本發(fā)明第一方面中,所述獲取待檢測視頻文件之后,以及所述對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,所述方法還包括:
獲取所述待檢測視頻文件的文件名稱;
對比所述文件名稱與所述敏感詞匯列表;
當(dāng)所述文件名稱包含有所述敏感詞匯列表中的敏感詞匯且所包含的敏感詞匯數(shù)量達(dá)到預(yù)設(shè)數(shù)量時,啟動刪除程序刪除所述待檢測視頻文件;
當(dāng)所述文件名稱包含的敏感詞匯數(shù)量未達(dá)到預(yù)設(shè)數(shù)量時,執(zhí)行所述對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。
作為一種可選的實(shí)施方式,在本發(fā)明第一方面中,所述獲取待檢測視頻文件之后,以及所述對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,所述方法還包括:
獲取所述待檢測視頻文件的來源信息;
判斷所述來源信息所指示的來源地址是否與預(yù)設(shè)的非法來源地址列表中的某一個非法來源地址相匹配;
如果匹配,啟動刪除程序刪除所述待檢測視頻文件;
如果不匹配,執(zhí)行所述對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。
作為一種可選的實(shí)施方式,在本發(fā)明第一方面中,所述根據(jù)所述不良內(nèi)容比例值,處理所述待檢測視頻文件,包括:
當(dāng)所述不良內(nèi)容比例值大于所述預(yù)設(shè)閾值時,啟動刪除程序刪除所述待檢測視頻文件;
當(dāng)所述不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,從所述待檢測視頻文件中提取連續(xù)多個關(guān)鍵幀,所述連續(xù)多個關(guān)鍵幀呈現(xiàn)所述待檢測視頻文件中的某一關(guān)鍵場景;
獲取所述某一關(guān)鍵場景中鏡頭的平均運(yùn)動強(qiáng)度;
判斷所述運(yùn)動強(qiáng)度是否大于預(yù)設(shè)強(qiáng)度值;
如果所述運(yùn)動強(qiáng)度大于所述預(yù)設(shè)強(qiáng)度值,從所述連續(xù)多個關(guān)鍵幀提取圖像特征數(shù)據(jù)和音頻特征數(shù)據(jù);
當(dāng)所述圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且所述音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,啟動刪除程序刪除所述待檢測視頻文件;
當(dāng)所述圖像特征數(shù)據(jù)不在預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且所述音頻特征數(shù)據(jù)不在預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,確定所述待檢測視頻文件為內(nèi)容健康文件。
本發(fā)明第二方面公開了一種視頻中不良內(nèi)容的檢測裝置,可包括:
獲取單元,用于獲取待檢測視頻文件;
分離單元,用于對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息;
文本轉(zhuǎn)換單元,用于將所述音頻信息轉(zhuǎn)換成第一文本內(nèi)容,以及將所述圖像信息轉(zhuǎn)換成第二文本內(nèi)容;
合并及去重單元,用于對所述第一文本內(nèi)容和所述第二文本內(nèi)容進(jìn)行合并和去重處理,獲得目標(biāo)文本內(nèi)容;
查找單元,用于對比所述目標(biāo)文本內(nèi)容與敏感詞匯列表,查找出所述目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得所述敏感詞匯的總字?jǐn)?shù);
計算單元,用于根據(jù)所述敏感詞匯的總字?jǐn)?shù)與所述目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得所述待檢測視頻文件的不良內(nèi)容比例值;
處理單元,用于根據(jù)所述不良內(nèi)容比例值,處理所述待檢測視頻文件。
作為一種可選的實(shí)施方式,在本發(fā)明第二方面中,所述處理單元用于根據(jù)所述不良內(nèi)容比例值,處理所述待檢測視頻文件的方式具體為:
所述處理單元用于,當(dāng)所述計算單元確定出不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,確定所述待檢測視頻文件為內(nèi)容健康的視頻文件;當(dāng)所述計算單元確定出不良內(nèi)容比例值大于所述預(yù)設(shè)閾值時,啟動刪除程序刪除所述待檢測視頻文件。
作為一種可選的實(shí)施方式,在本發(fā)明第二方面中,所述裝置還包括:
名稱檢測單元,用于在所述獲取單元獲取待檢測視頻文件之后,以及所述分離單元對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,獲取所述待檢測視頻文件的文件名稱,對比所述文件名稱與所述敏感詞匯列表;
所述處理單元還用于,當(dāng)所述名稱檢測單元確定文件名稱包含有所述敏感詞匯列表中的敏感詞匯且所包含的敏感詞匯數(shù)量達(dá)到預(yù)設(shè)數(shù)量時,啟動刪除程序刪除所述待檢測視頻文件;
所述分離單元還用于,當(dāng)所述名稱檢測單元確定文件名稱包含的敏感詞匯數(shù)量未達(dá)到預(yù)設(shè)數(shù)量時,執(zhí)行所述對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息。
作為一種可選的實(shí)施方式,在本發(fā)明第二方面中,所述裝置還包括:
來源檢測單元,用于在所述獲取單元獲取待檢測視頻文件之后,以及所述分離單元對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,獲取所述待檢測視頻文件的來源信息,判斷所述來源信息所指示的來源地址是否與預(yù)設(shè)的非法來源地址列表中的某一個非法來源地址相匹配;
所述處理單元還用于,當(dāng)所述來源檢測單元的判斷結(jié)果為匹配時,啟動刪除程序刪除所述待檢測視頻文件;
所述分離單元還用于,當(dāng)所述來源檢測單元的判斷結(jié)果為不匹配時,執(zhí)行所述對所述待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息。
作為一種可選的實(shí)施方式,在本發(fā)明第二方面中,所述處理單元用于根據(jù)所述不良內(nèi)容比例值,處理所述待檢測視頻文件的方式具體為:
所述處理單元用于,當(dāng)所述計算單元確定出不良內(nèi)容比例值大于所述預(yù)設(shè)閾值時,啟動刪除程序刪除所述待檢測視頻文件;
當(dāng)所述不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,從所述待檢測視頻文件中提取連續(xù)多個關(guān)鍵幀,所述連續(xù)多個關(guān)鍵幀呈現(xiàn)所述待檢測視頻文件中的某一關(guān)鍵場景;獲取所述某一關(guān)鍵場景中鏡頭的平均運(yùn)動強(qiáng)度;判斷所述運(yùn)動強(qiáng)度是否大于預(yù)設(shè)強(qiáng)度值;如果所述運(yùn)動強(qiáng)度大于所述預(yù)設(shè)強(qiáng)度值,從所述連續(xù)多個關(guān)鍵幀提取圖像特征數(shù)據(jù)和音頻特征數(shù)據(jù);當(dāng)所述圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且所述音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,啟動刪除程序刪除所述待檢測視頻文件;當(dāng)所述圖像特征數(shù)據(jù)不在預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且所述音頻特征數(shù)據(jù)不在預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,確定所述待檢測視頻文件為內(nèi)容健康文件。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下有益效果:
在本發(fā)明實(shí)施例中,獲取待檢測視頻文件,分離待檢測視頻文件中的音頻和視頻圖像,得到音頻信息和圖像信息,然后分別將音頻信息轉(zhuǎn)換成第一文本內(nèi)容、將圖像信息轉(zhuǎn)換成第二文本內(nèi)容,將第一文本內(nèi)容和第二文本內(nèi)容合并,然后去重,得到目標(biāo)文本內(nèi)容。然后將目標(biāo)文本內(nèi)容與敏感詞匯列表中的敏感詞匯進(jìn)行一一對比,查找出目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得從目標(biāo)文本內(nèi)容中查找到的所有敏感詞匯的總字?jǐn)?shù),進(jìn)一步根據(jù)敏感詞匯的總字?jǐn)?shù)與目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得待檢測視頻文件的不良內(nèi)容比例值,然后根據(jù)不良內(nèi)容比例值處理待檢測視頻文件??梢钥闯?,實(shí)施本發(fā)明實(shí)施例,通過將第一文本內(nèi)容和第二文本內(nèi)容合并及去重,能夠確保目標(biāo)文本內(nèi)容中內(nèi)容的唯一性,提高文本內(nèi)容與敏感詞匯列表的對比速度及準(zhǔn)確度,提高視頻中不良內(nèi)容的識別準(zhǔn)確率,降低不良視頻的誤判率。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測方法的流程示意圖;
圖2為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測方法的另一流程示意圖;
圖3為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測裝置的另一結(jié)構(gòu)示意圖;
圖5為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測裝置的另一結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
需要說明的是,本發(fā)明實(shí)施例的術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
本發(fā)明實(shí)施例公開了一種視頻中不良內(nèi)容的檢測方法,用于提高視頻中不良內(nèi)容的識別準(zhǔn)確率,降低不良視頻的誤判率。本發(fā)明實(shí)施例還公開了一種視頻中不良內(nèi)容的檢測裝置。
下面將結(jié)合具體實(shí)施例,對本發(fā)明技術(shù)方案進(jìn)行詳細(xì)介紹。
實(shí)施例一
請參閱圖1,圖1為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測方法的流程示意圖;如圖1所示,一種視頻中不良內(nèi)容的檢測方法可包括:
101、獲取待檢測視頻文件。
可以理解,待檢測視頻文件的視頻內(nèi)容由音頻和視頻圖像組成。在一些實(shí)施例中,待檢測視頻文件可以是用戶即將要播放的視頻文件,在播放之前先對其進(jìn)行內(nèi)容檢測,具體包括:接收用戶對該待檢測視頻文件輸入的播放指令,基于該播放指令,調(diào)用視頻檢測接口以啟用視頻中不良內(nèi)容的檢測裝置,執(zhí)行獲取待檢測視頻文件的步驟,其中,該視頻檢測接口與視頻中不良內(nèi)容的檢測裝置隱性關(guān)聯(lián)。
進(jìn)一步地,在接收用戶對該待檢測視頻文件輸入的播放指令之后,以及基于該播放指令,調(diào)用視頻檢測接口以啟用視頻中不良內(nèi)容的檢測裝置之前,檢測用戶是否允許調(diào)用該視頻檢測接口,如果用戶未允許調(diào)用該視頻檢測接口,則提示用戶使能調(diào)用該視頻檢測接口的功能;并在提示用戶使能調(diào)用該視頻檢測接口的功能之后,判定是否接收到用戶對調(diào)用該視頻檢測接口的功能的使能操作,如果接收到,執(zhí)行基于該播放指令,調(diào)用視頻檢測接口以啟用視頻中不良內(nèi)容的檢測裝置的步驟;如果沒有接收到,拒絕播放該待檢測視頻文件。
在另一些實(shí)施例中,待檢測視頻文件是用戶指定的需要進(jìn)行檢測的視頻文件,步驟101具體包括:接收用戶輸入的該待檢測視頻文件對應(yīng)的文件名稱,在視頻庫中搜索該文件名稱對應(yīng)的待檢測視頻文件,以獲得待檢測視頻文件。
進(jìn)一步地,在接收用戶輸入的該待檢測視頻文件對應(yīng)的文件名稱之后,以及在視頻庫中搜索該文件名稱對應(yīng)的待檢測視頻文件,以獲得待檢測視頻文件之前,檢測用戶是否允許調(diào)用視頻檢測接口,其中,該視頻檢測接口與視頻中不良內(nèi)容的檢測裝置隱性關(guān)聯(lián),如果用戶未允許調(diào)用該視頻檢測接口,則提示用戶使能調(diào)用該視頻檢測接口的功能;并在提示用戶使能調(diào)用該視頻檢測接口的功能之后,判定是否接收到用戶對調(diào)用該視頻檢測接口的功能的使能操作,如果接收到,執(zhí)行在視頻庫中搜索該文件名稱對應(yīng)的待檢測視頻文件,以獲得待檢測視頻文件的步驟;如果沒有接收到,結(jié)束流程。
102、對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息。
其中,可以采用視頻編輯軟件分離待檢測視頻文件中的音頻信息和圖像信息,例如,將待檢測視頻文件導(dǎo)入視頻軌(時間軸),然后將音頻分割出來,即將音頻和視頻圖像分割開來,然后將音頻保存為音頻格式對應(yīng)的文件即可得到音頻信息,另外的保存為圖像文件,得到圖像信息。
103、將音頻信息轉(zhuǎn)換成第一文本內(nèi)容,以及將圖像信息轉(zhuǎn)換成第二文本內(nèi)容。
作為一種可選的實(shí)施方式,將音頻信息轉(zhuǎn)換成第一文本內(nèi)容具體包括:
根據(jù)音頻信息的時間軸順序?qū)⒁纛l信息中含有的語音轉(zhuǎn)換為文本。具體地,根據(jù)音頻信息的時間軸順序從音頻信息中依次提取語音,通過語音至文本(speechtotest,簡稱stt)功能或者算法將語音轉(zhuǎn)換成文本,然后根據(jù)音頻信息中語音的停頓進(jìn)行文本斷句排版,得到第一文本內(nèi)容。
作為一種可選的實(shí)施方式,將圖像信息轉(zhuǎn)換成第二文本內(nèi)容具體包括:
通過圖像識別工具,對圖像信息進(jìn)行識別以轉(zhuǎn)換成文本內(nèi)容,得到該第二文本內(nèi)容。
104、對第一文本內(nèi)容和第二文本內(nèi)容進(jìn)行合并和去重處理,獲得目標(biāo)文本內(nèi)容。
將第一文本內(nèi)容和第二文本內(nèi)容進(jìn)行合并后,然后進(jìn)行去重,即將重復(fù)的內(nèi)容去掉,使得目標(biāo)文本內(nèi)容中沒有重復(fù)內(nèi)容。
105、對比目標(biāo)文本內(nèi)容與敏感詞匯列表,查找出目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得敏感詞匯的總字?jǐn)?shù)。
其中,敏感詞匯列表預(yù)先建立。具體地,可以建立包括暴力、反動、欺詐等不良內(nèi)容的敏感詞匯基礎(chǔ)數(shù)據(jù)庫,先從網(wǎng)絡(luò)中自動抓取與暴力、反動、欺詐等相關(guān)的敏感詞匯存入基礎(chǔ)數(shù)據(jù)庫,然后再去抓取敏感詞匯相似或者相近的詞匯存入基礎(chǔ)數(shù)據(jù)庫,或者獲取用戶反饋的各種不健康詞匯作為敏感詞匯存入基礎(chǔ)數(shù)據(jù)庫,最后可以人工對基礎(chǔ)數(shù)據(jù)庫中的敏感詞匯進(jìn)行識別,將最后確定出來的敏感詞匯建立敏感詞匯列表。
106、根據(jù)敏感詞匯的總字?jǐn)?shù)與目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得待檢測視頻文件的不良內(nèi)容比例值。
其中,不良內(nèi)容比例值k的計算公式為:
k=n/m;
其中,n為目標(biāo)文本內(nèi)容所包括的屬于敏感詞匯列表中的所有敏感詞匯的總字?jǐn)?shù),m為目標(biāo)文本內(nèi)容的總字?jǐn)?shù)。
舉例來說,與敏感詞匯列表對比確定出目標(biāo)文本內(nèi)容包括5個敏感詞匯,其中有2個敏感詞匯分別包括2個字,另外3個敏感詞匯分別包括3個字,那么目標(biāo)文本內(nèi)容中所有敏感詞匯的總字?jǐn)?shù)為(單位為個):2*2+3*3=13(個)。
107、根據(jù)不良內(nèi)容比例值,處理待檢測視頻文件。
作為一種可選的實(shí)施方式,根據(jù)不良內(nèi)容比例值,處理待檢測視頻文件具體包括:
當(dāng)不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,確定待檢測視頻文件為內(nèi)容健康的視頻文件;當(dāng)不良內(nèi)容比例值大于預(yù)設(shè)閾值時,啟動刪除程序刪除待檢測視頻文件。在該實(shí)施方式中,當(dāng)不良內(nèi)容比例值大于預(yù)設(shè)閾值時,說明待檢測視頻文件中包含有大多的不良內(nèi)容,且該不良內(nèi)容已經(jīng)超過了預(yù)設(shè)的可接受范圍,那么將禁止播放該待檢測視頻文件,從而啟動刪除程序,刪除待檢測視頻文件,以防止不良內(nèi)容的視頻文件在網(wǎng)絡(luò)上傳播。
在本發(fā)明實(shí)施例中,獲取待檢測視頻文件,分離待檢測視頻文件中的音頻和視頻圖像,得到音頻信息和圖像信息,然后分別將音頻信息轉(zhuǎn)換成第一文本內(nèi)容、將圖像信息轉(zhuǎn)換成第二文本內(nèi)容,將第一文本內(nèi)容和第二文本內(nèi)容合并,然后去重,得到目標(biāo)文本內(nèi)容。然后將目標(biāo)文本內(nèi)容與敏感詞匯列表中的敏感詞匯進(jìn)行一一對比,查找出目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得從目標(biāo)文本內(nèi)容中查找到的所有敏感詞匯的總字?jǐn)?shù),進(jìn)一步根據(jù)敏感詞匯的總字?jǐn)?shù)與目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得待檢測視頻文件的不良內(nèi)容比例值,然后根據(jù)不良內(nèi)容比例值處理待檢測視頻文件??梢钥闯?,實(shí)施本發(fā)明實(shí)施例,通過將第一文本內(nèi)容和第二文本內(nèi)容合并及去重,能夠確保目標(biāo)文本內(nèi)容中內(nèi)容的唯一性,提高文本內(nèi)容與敏感詞匯列表的對比速度及準(zhǔn)確度,提高視頻中不良內(nèi)容的識別準(zhǔn)確率,降低不良視頻的誤判率。
實(shí)施例二
請參閱圖2,圖2為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測方法的另一流程示意圖;如圖2所示,一種視頻中不良內(nèi)容的檢測方法可包括:
201、獲取待檢測視頻文件。
可以參閱步驟101中的詳細(xì)說明,在此不再贅述。
202、對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息。
作為一種可選的實(shí)施方式,在步驟201獲取待檢測視頻文件之后,以及在步驟202對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,本發(fā)明實(shí)施例還包括:
獲取待檢測視頻文件的文件名稱;
對比文件名稱與敏感詞匯列表;
當(dāng)文件名稱包含有敏感詞匯列表中的敏感詞匯且所包含的敏感詞匯數(shù)量達(dá)到預(yù)設(shè)數(shù)量時,啟動刪除程序刪除待檢測視頻文件;
當(dāng)文件名稱包含的敏感詞匯數(shù)量未達(dá)到預(yù)設(shè)數(shù)量時,執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。
在上述實(shí)施例中,在獲取待檢測視頻文件之后,進(jìn)一步獲取待檢測視頻文件的文件名稱,如果確定出文件名稱中包括有一定數(shù)量的敏感詞匯,且是敏感詞匯列表中的敏感詞匯時,直接刪除該待檢測視頻文件。
還可以理解,對比文件名稱與敏感詞匯列表,獲得文件名稱的敏感詞匯,然后獲取文件名稱中所有敏感詞匯加起來的總字?jǐn)?shù),該總字?jǐn)?shù)與文件名稱的總字?jǐn)?shù)進(jìn)行對比,得到一個比例值,如果這個比例值超過指定值時,刪除該待檢測視頻文件。如果小于或者等于指定值,可以進(jìn)一步執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。
作為另一種可選的實(shí)施方式,在步驟201獲取待檢測視頻文件之后,以及步驟202對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,本發(fā)明實(shí)施例還包括:
獲取待檢測視頻文件的來源信息;
判斷來源信息所指示的來源地址是否與預(yù)設(shè)的非法來源地址列表中的某一個非法來源地址相匹配;
如果匹配,啟動刪除程序刪除待檢測視頻文件;
如果不匹配,執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。
其中,來源信息包括源互聯(lián)網(wǎng)協(xié)議地址(internetprotocoladdress,簡稱ip),源網(wǎng)關(guān)等。通過上述實(shí)施方式,能夠通過待檢測視頻文件的來源信息,初步判斷其來源是否為合法來源,再進(jìn)一步執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。如果為非法來源,那么說明該待檢測視頻文件為禁播視頻,那么將直接刪除該待檢測視頻文件,以防止非法視頻在網(wǎng)絡(luò)上傳播。
作為另一種可選的實(shí)施方式,在步驟201獲取待檢測視頻文件之后,以及步驟202對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,本發(fā)明實(shí)施例還包括:
獲取待檢測視頻文件的來源信息;
判斷來源信息所指示的來源地址是否與預(yù)設(shè)的非法來源地址列表中的某一個非法來源地址相匹配;
如果匹配,啟動刪除程序刪除待檢測視頻文件;
如果不匹配,獲取待檢測視頻文件的文件名稱;
對比文件名稱與敏感詞匯列表;
當(dāng)文件名稱包含有敏感詞匯列表中的敏感詞匯且所包含的敏感詞匯數(shù)量達(dá)到預(yù)設(shè)數(shù)量時,啟動刪除程序刪除待檢測視頻文件;
當(dāng)文件名稱包含的敏感詞匯數(shù)量未達(dá)到預(yù)設(shè)數(shù)量時,執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的步驟。
通過上述實(shí)施方式,能夠結(jié)合待檢測視頻文件來源和文件名稱,對待檢測視頻文件進(jìn)行初稿過濾,且多層識別能夠降低不良視頻的誤判率。
203、將音頻信息轉(zhuǎn)換成第一文本內(nèi)容,以及將圖像信息轉(zhuǎn)換成第二文本內(nèi)容。
204、對第一文本內(nèi)容和第二文本內(nèi)容進(jìn)行合并和去重處理,獲得目標(biāo)文本內(nèi)容。
205、對比目標(biāo)文本內(nèi)容與敏感詞匯列表,查找出目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得敏感詞匯的總字?jǐn)?shù)。
206、根據(jù)敏感詞匯的總字?jǐn)?shù)與目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得待檢測視頻文件的不良內(nèi)容比例值。
207、當(dāng)不良內(nèi)容比例值大于預(yù)設(shè)閾值時,啟動刪除程序刪除待檢測視頻文件。
208、當(dāng)不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,從待檢測視頻文件中提取連續(xù)多個關(guān)鍵幀,該連續(xù)多個關(guān)鍵幀呈現(xiàn)待檢測視頻文件中的某一關(guān)鍵場景。
在本發(fā)明實(shí)施例中,當(dāng)不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,進(jìn)一步結(jié)合某一關(guān)鍵場景,以獲得正確處理該待檢測視頻文件的方法,提高視頻中不良內(nèi)容的識別準(zhǔn)確率。
209、獲取某一關(guān)鍵場景中鏡頭的平均運(yùn)動強(qiáng)度。
該鏡頭的平均運(yùn)動強(qiáng)度等于場景中所有鏡頭的運(yùn)動強(qiáng)度之和與場景中的鏡頭數(shù)量之比,具體計算方式為現(xiàn)有技術(shù),在此不再贅述。
210、判斷運(yùn)動強(qiáng)度是否大于預(yù)設(shè)強(qiáng)度值。
如果運(yùn)動強(qiáng)度小于或等于預(yù)設(shè)強(qiáng)度值,結(jié)束流程。
211、如果運(yùn)動強(qiáng)度大于預(yù)設(shè)強(qiáng)度值,從連續(xù)多個關(guān)鍵幀提取圖像特征數(shù)據(jù)和音頻特征數(shù)據(jù)。
其中,該圖像特征數(shù)據(jù)包括每個關(guān)鍵幀的圖像特征數(shù)據(jù),音頻特征數(shù)據(jù)包括該場景的音頻特征數(shù)據(jù)。
具體地,每個關(guān)鍵幀的圖像特征數(shù)據(jù)包括每個關(guān)鍵幀的顏色直方圖,那么從連續(xù)多個關(guān)鍵幀中提取圖像特征數(shù)據(jù)包括:從連續(xù)多個關(guān)鍵幀中提取每幀圖像的顏色直方圖。
具體地,上述音頻特征數(shù)據(jù)包括音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣。進(jìn)一步地,音頻特征數(shù)據(jù)還可以包括音頻數(shù)據(jù)的能量熵。
212、當(dāng)圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,啟動刪除程序刪除待檢測視頻文件。
其中,在每個關(guān)鍵幀的圖像特征數(shù)據(jù)包括每個關(guān)鍵幀的顏色直方圖時,確定圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)包括:
當(dāng)確定該關(guān)鍵幀的顏色直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計數(shù)量,處于預(yù)先從特定場景中提取到的視頻幀的顏色直方圖中對應(yīng)顏色的統(tǒng)計數(shù)量范圍之內(nèi)時,確定圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)。
確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)包括:計算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當(dāng)確定該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,與預(yù)先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的相似度大于第三預(yù)設(shè)閾值時,確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)。
當(dāng)音頻特征數(shù)據(jù)還包括音頻數(shù)據(jù)的能量熵時,確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)包括:將該場景中的音頻數(shù)據(jù)分為多段,計算每段音頻數(shù)據(jù)的能量熵,當(dāng)多段音頻數(shù)據(jù)的能量熵中至少一段音頻數(shù)據(jù)的能量熵小于第四預(yù)設(shè)閾值時,確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)。
213、當(dāng)圖像特征數(shù)據(jù)不在預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且音頻特征數(shù)據(jù)不在預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,確定待檢測視頻文件為內(nèi)容健康文件。
可以看出,在本發(fā)明實(shí)施例中,當(dāng)不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,進(jìn)一步分析待檢測視頻文件中的音頻信息和圖像信息,以進(jìn)一步分析其所含的不良內(nèi)容的比重,提高不良視頻的判斷準(zhǔn)確率。
實(shí)施例三
請參閱圖3,圖3為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測裝置的結(jié)構(gòu)示意圖;如圖3所示,一種視頻中不良內(nèi)容的檢測裝置可包括:
獲取單元310,用于獲取待檢測視頻文件;
分離單元320,用于對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息;
文本轉(zhuǎn)換單元330,用于將音頻信息轉(zhuǎn)換成第一文本內(nèi)容,以及將圖像信息轉(zhuǎn)換成第二文本內(nèi)容;
合并及去重單元340,用于對第一文本內(nèi)容和第二文本內(nèi)容進(jìn)行合并和去重處理,獲得目標(biāo)文本內(nèi)容;
查找單元350,用于對比目標(biāo)文本內(nèi)容與敏感詞匯列表,查找出目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得敏感詞匯的總字?jǐn)?shù);
計算單元360,用于根據(jù)敏感詞匯的總字?jǐn)?shù)與目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得待檢測視頻文件的不良內(nèi)容比例值;
處理單元370,用于根據(jù)不良內(nèi)容比例值,處理待檢測視頻文件。
在本發(fā)明實(shí)施例中,獲取單元310獲取待檢測視頻文件,分離單元320分離待檢測視頻文件中的音頻和視頻圖像,得到音頻信息和圖像信息,然后文本轉(zhuǎn)換單元330分別將音頻信息轉(zhuǎn)換成第一文本內(nèi)容、將圖像信息轉(zhuǎn)換成第二文本內(nèi)容,合并及去重單元340將第一文本內(nèi)容和第二文本內(nèi)容合并,然后去重,得到目標(biāo)文本內(nèi)容。然后查找單元350將目標(biāo)文本內(nèi)容與敏感詞匯列表中的敏感詞匯進(jìn)行一一對比,查找出目標(biāo)文本內(nèi)容中的敏感詞匯以及獲得從目標(biāo)文本內(nèi)容中查找到的所有敏感詞匯的總字?jǐn)?shù),計算單元360進(jìn)一步根據(jù)敏感詞匯的總字?jǐn)?shù)與目標(biāo)文本內(nèi)容的總字?jǐn)?shù),獲得待檢測視頻文件的不良內(nèi)容比例值,然后處理單元370根據(jù)不良內(nèi)容比例值處理待檢測視頻文件??梢钥闯觯瑢?shí)施本發(fā)明實(shí)施例,通過將第一文本內(nèi)容和第二文本內(nèi)容合并及去重,能夠確保目標(biāo)文本內(nèi)容中內(nèi)容的唯一性,提高文本內(nèi)容與敏感詞匯列表的對比速度及準(zhǔn)確度,提高視頻中不良內(nèi)容的識別準(zhǔn)確率,降低不良視頻的誤判率。
作為一種可選的實(shí)施方式,待檢測視頻文件可以是用戶即將要播放的視頻文件,在播放之前先對其進(jìn)行內(nèi)容檢測,獲取單元310用于獲取待檢測視頻文件的方式具體為:獲取單元310用于接收用戶對該待檢測視頻文件輸入的播放指令,基于該播放指令,調(diào)用視頻檢測接口以啟用視頻中不良內(nèi)容的檢測裝置,執(zhí)行獲取待檢測視頻文件,其中,該視頻檢測接口與視頻中不良內(nèi)容的檢測裝置隱性關(guān)聯(lián)。
進(jìn)一步地,獲取單元310在接收用戶對該待檢測視頻文件輸入的播放指令之后,以及基于該播放指令,調(diào)用視頻檢測接口以啟用視頻中不良內(nèi)容的檢測裝置之前,檢測用戶是否允許調(diào)用該視頻檢測接口,如果用戶未允許調(diào)用該視頻檢測接口,則提示用戶使能調(diào)用該視頻檢測接口的功能;并在提示用戶使能調(diào)用該視頻檢測接口的功能之后,判定是否接收到用戶對調(diào)用該視頻檢測接口的功能的使能操作,如果接收到,執(zhí)行基于該播放指令,調(diào)用視頻檢測接口以啟用視頻中不良內(nèi)容的檢測裝置;如果沒有接收到,拒絕播放該待檢測視頻文件。
在另一些實(shí)施例中,待檢測視頻文件是用戶指定的需要進(jìn)行檢測的視頻文件,獲取單元310具體用于接收用戶輸入的該待檢測視頻文件對應(yīng)的文件名稱,在視頻庫中搜索該文件名稱對應(yīng)的待檢測視頻文件,以獲得待檢測視頻文件。
進(jìn)一步地,獲取單元310在接收用戶輸入的該待檢測視頻文件對應(yīng)的文件名稱之后,以及在視頻庫中搜索該文件名稱對應(yīng)的待檢測視頻文件,以獲得待檢測視頻文件之前,檢測用戶是否允許調(diào)用視頻檢測接口,其中,該視頻檢測接口與視頻中不良內(nèi)容的檢測裝置隱性關(guān)聯(lián),如果用戶未允許調(diào)用該視頻檢測接口,則提示用戶使能調(diào)用該視頻檢測接口的功能;并在提示用戶使能調(diào)用該視頻檢測接口的功能之后,判定是否接收到用戶對調(diào)用該視頻檢測接口的功能的使能操作,如果接收到,執(zhí)行在視頻庫中搜索該文件名稱對應(yīng)的待檢測視頻文件,以獲得待檢測視頻文件;如果沒有接收到,結(jié)束流程。
作為一種可選的實(shí)施方式,處理單元370用于根據(jù)不良內(nèi)容比例值,處理待檢測視頻文件的方式具體為:
處理單元370用于,當(dāng)計算單元360確定出不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,確定待檢測視頻文件為內(nèi)容健康的視頻文件;當(dāng)計算單元360確定出不良內(nèi)容比例值大于預(yù)設(shè)閾值時,啟動刪除程序刪除待檢測視頻文件。
在上述實(shí)施方式中,當(dāng)不良內(nèi)容比例值大于預(yù)設(shè)閾值時,說明待檢測視頻文件中包含有大多的不良內(nèi)容,且該不良內(nèi)容已經(jīng)超過了預(yù)設(shè)的可接受范圍(預(yù)設(shè)閾值),那么將禁止播放該待檢測視頻文件,從而啟動刪除程序,刪除待檢測視頻文件,以防止不良內(nèi)容的視頻文件在網(wǎng)絡(luò)上傳播。
作為一種可選的實(shí)施方式,合并及去重單元340用于將音頻信息轉(zhuǎn)換成第一文本內(nèi)容的方式具體為:合并及去重單元340用于根據(jù)音頻信息的時間軸順序?qū)⒁纛l信息中含有的語音轉(zhuǎn)換為文本。具體地,合并及去重單元340用于根據(jù)音頻信息的時間軸順序從音頻信息中依次提取語音,通過語音至文本(speechtotest,簡稱stt)功能或者算法將語音轉(zhuǎn)換成文本,然后根據(jù)音頻信息中語音的停頓進(jìn)行文本斷句排版,得到第一文本內(nèi)容。
作為一種可選的實(shí)施方式,合并及去重單元340用于將圖像信息轉(zhuǎn)換成第二文本內(nèi)容的方式具體為:合并及去重單元340用于通過圖像識別工具,對圖像信息進(jìn)行識別以轉(zhuǎn)換成文本內(nèi)容,得到該第二文本內(nèi)容。
實(shí)施例四
請參閱圖4,圖4為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測裝置的另一結(jié)構(gòu)示意圖;圖4所示的視頻中不良內(nèi)容的檢測裝置是在圖3所示的視頻中不良內(nèi)容的檢測裝置基礎(chǔ)上進(jìn)行優(yōu)化得到,如圖4所示,該視頻中不良內(nèi)容的檢測裝置還包括:
名稱檢測單元410,用于在獲取單元310獲取待檢測視頻文件之后,以及分離單元320對該待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,獲取待檢測視頻文件的文件名稱,對比文件名稱與敏感詞匯列表;
處理單元370還用于,當(dāng)名稱檢測單元410確定文件名稱包含有敏感詞匯列表中的敏感詞匯且所包含的敏感詞匯數(shù)量達(dá)到預(yù)設(shè)數(shù)量時,啟動刪除程序刪除待檢測視頻文件;
分離單元320還用于,當(dāng)名稱檢測單元410確定文件名稱包含的敏感詞匯數(shù)量未達(dá)到預(yù)設(shè)數(shù)量時,執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息。
其中,分離單元320對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息的方式具體為:分離單元320將待檢測視頻文件導(dǎo)入視頻編輯軟件的視頻軌(時間軸),然后將音頻分割出來,即將音頻和視頻圖像分割開來,然后將音頻保存為音頻格式對應(yīng)的文件即可得到音頻信息,另外的保存為圖像文件,得到圖像信息。
實(shí)施例五
請參閱圖5,圖5為本發(fā)明實(shí)施例公開的視頻中不良內(nèi)容的檢測裝置的另一結(jié)構(gòu)示意圖;圖5所示的視頻中不良內(nèi)容的檢測裝置是在圖3所示的視頻中不良內(nèi)容的檢測裝置基礎(chǔ)上進(jìn)行優(yōu)化得到,如圖5所示,該視頻中不良內(nèi)容的檢測裝置還包括:
來源檢測單元510,用于在獲取單元310獲取待檢測視頻文件之后,以及分離單元320對該待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息之前,獲取待檢測視頻文件的來源信息,判斷來源信息所指示的來源地址是否與預(yù)設(shè)的非法來源地址列表中的某一個非法來源地址相匹配;
處理單元370還用于,當(dāng)來源檢測單元510的判斷結(jié)果為匹配時,啟動刪除程序刪除待檢測視頻文件;
分離單元320還用于,當(dāng)來源檢測單元510的判斷結(jié)果為不匹配時,執(zhí)行對待檢測視頻文件進(jìn)行視頻音頻分離,獲得音頻信息和圖像信息。
作為一種可選的實(shí)施方式,處理單元370用于根據(jù)不良內(nèi)容比例值,處理待檢測視頻文件的方式具體為:
處理單元370用于,當(dāng)計算單元360確定出不良內(nèi)容比例值大于預(yù)設(shè)閾值時,啟動刪除程序刪除待檢測視頻文件;
當(dāng)計算單元360確定出不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,從待檢測視頻文件中提取視頻關(guān)鍵幀;提取視頻關(guān)鍵幀的運(yùn)動特征信息,運(yùn)動特征信息用于表征視頻關(guān)鍵幀的鏡頭所呈現(xiàn)的運(yùn)動強(qiáng)度;判斷運(yùn)動強(qiáng)度是否大于預(yù)設(shè)強(qiáng)度值;如果運(yùn)動強(qiáng)度大于預(yù)設(shè)強(qiáng)度值,從視頻關(guān)鍵幀提取圖像特征數(shù)據(jù)和音頻特征數(shù)據(jù);當(dāng)圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,啟動刪除程序刪除待檢測視頻文件;當(dāng)圖像特征數(shù)據(jù)不在預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)且音頻特征數(shù)據(jù)不在預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)時,確定待檢測視頻文件為內(nèi)容健康文件。
其中,在每個關(guān)鍵幀的圖像特征數(shù)據(jù)包括每個關(guān)鍵幀的顏色直方圖時,處理單元370用于確定圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)的方式具體為:
處理單元370當(dāng)確定該關(guān)鍵幀的顏色直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計數(shù)量,處于預(yù)先從特定場景中提取到的視頻幀的顏色直方圖中對應(yīng)顏色的統(tǒng)計數(shù)量范圍之內(nèi)時,確定圖像特征數(shù)據(jù)處于預(yù)設(shè)的不良圖像特征數(shù)據(jù)范圍內(nèi)。
處理單元370用于確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)的方式具體為:處理單元370用于計算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當(dāng)確定該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,與預(yù)先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的相似度大于第三預(yù)設(shè)閾值時,確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)。
當(dāng)音頻特征數(shù)據(jù)還包括音頻數(shù)據(jù)的能量熵時,處理單元370用于確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)的方式具體為:處理單元370用于將該場景中的音頻數(shù)據(jù)分為多段,計算每段音頻數(shù)據(jù)的能量熵,當(dāng)多段音頻數(shù)據(jù)的能量熵中至少一段音頻數(shù)據(jù)的能量熵小于第四預(yù)設(shè)閾值時,確定音頻特征數(shù)據(jù)處于預(yù)設(shè)的不良音頻特征數(shù)據(jù)范圍內(nèi)。
實(shí)施上述裝置,通過將第一文本內(nèi)容和第二文本內(nèi)容合并及去重,能夠確保目標(biāo)文本內(nèi)容中內(nèi)容的唯一性,提高文本內(nèi)容與敏感詞匯列表的對比速度及準(zhǔn)確度,提高視頻中不良內(nèi)容的識別準(zhǔn)確率,降低不良視頻的誤判率。當(dāng)不良內(nèi)容比例值小于或等于預(yù)設(shè)閾值時,進(jìn)一步分析待檢測視頻文件中的音頻信息和圖像信息,以進(jìn)一步分析其所含的不良內(nèi)容的比重,提高不良視頻的準(zhǔn)確判斷率。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)包括只讀存儲器(read-onlymemory,rom)、隨機(jī)存儲器(randomaccessmemory,ram)、可編程只讀存儲器(programmableread-onlymemory,prom)、可擦除可編程只讀存儲器(erasableprogrammablereadonlymemory,eprom)、一次可編程只讀存儲器(one-timeprogrammableread-onlymemory,otprom)、電子抹除式可復(fù)寫只讀存儲器(electrically-erasableprogrammableread-onlymemory,eeprom)、只讀光盤(compactdiscread-onlymemory,cd-rom)或其他光盤存儲器、磁盤存儲器、磁帶存儲器、或者能夠用于攜帶或存儲數(shù)據(jù)的計算機(jī)可讀的任何其他介質(zhì)。
以上對本發(fā)明實(shí)施例公開的一種視頻中不良內(nèi)容的檢測方法及裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。