全媒體中多維檢測特定目標(biāo)的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種從全媒體數(shù)據(jù)中檢測特定目標(biāo)出現(xiàn)的方法,尤其涉及一種全媒體 中多維檢測特定目標(biāo)的方法。
【背景技術(shù)】
[0002] 全媒體信息包含文字、語音、圖片、視頻等多種形式的數(shù)據(jù),從這些信息中找特定 的目標(biāo)(人、物),涉及聲紋識別、語音識別、圖像識別、視頻指紋、文字分析等多項技術(shù),是 一項復(fù)雜的系統(tǒng)工程。并且,由于聲紋、語音、圖像識別及視頻指紋技術(shù)都處于發(fā)展階段,單 一一項技術(shù)無法達(dá)到預(yù)期的查全、查準(zhǔn)等性能指標(biāo)要求。在媒體中聲紋、語音、圖像、視頻指 紋、文字信息,具有一定的內(nèi)在關(guān)聯(lián)性,例如,視頻信息一般包括文字、聲音、視頻畫面,聲音 數(shù)據(jù)包括可以識別成文字的說話音,也包含說話人不同于他人的生物特征等,這些信息通 過內(nèi)容分析,可以建立一定的關(guān)系,這就為通過多種方式檢索共同目標(biāo)提供了技術(shù)基礎(chǔ)。
[0003] 基于對聲紋、語音、圖像、視頻指紋、文字信息的長期研究,我們發(fā)現(xiàn)可以通過一定 的統(tǒng)計分析,提取這些信息中兩項、三項、多項之間的共同特征或描述內(nèi)容,利用一種檢索 方式的結(jié)果,拓展到幾種方式協(xié)同檢索,提供綜合檢索結(jié)果。例如,從聲紋檢測,判斷出說話 的人是誰,同時,提取這個人說話的片段信息;知道了說話人是誰后,可以從語音識別中,找 到涉及這個說話人的內(nèi)容;也可以查詢到說話人的圖片和相關(guān)視頻片段;還可以進(jìn)一步找 到相關(guān)的文字信息。
[0004] 由于語音識別、圖像識別、視頻指紋識別采用DNN、HMM等技術(shù),它們大多數(shù)是基于 統(tǒng)計分析模型,這些技術(shù)均有一定的缺陷,單一技術(shù)手段不能達(dá)到預(yù)期的識別效果。為了提 高單一技術(shù)的性能,需要大幅提高統(tǒng)計分析的樣本模型庫的數(shù)據(jù)量,但是,環(huán)境噪聲、說話 人的口音、語速、性別等外部因素影響語音和聲紋識別的性能,拍攝圖像和視頻的光照、分 辨率、背景復(fù)雜度也對圖像識別、視頻指紋識別有很大影響,單一技術(shù)手段都不能達(dá)到滿意 效果,因此,需要采取多種手段結(jié)合,提高識別的查全率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明是通過多種方式,檢索全媒體信息的不同類型特征向量,如:文本關(guān)鍵詞、 聲紋、語音內(nèi)容、圖像色彩、圖像語義等,匯總要查詢目標(biāo)的各項信息,能更全面獲得與檢索 目標(biāo)相關(guān)的信息元數(shù)據(jù)片段及記錄元數(shù)據(jù)的位置,多種方式不同維度的檢索,提高了數(shù)據(jù) 的查全率和查準(zhǔn)率。
[0006] 為實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案是:全媒體中多維檢測特定目標(biāo)的方 法,具體步驟如下:
[0007] S1 :根據(jù)檢索條件樣本,如文本關(guān)鍵詞、聲紋特征語音、內(nèi)容語音、特征圖片、特征 視頻,確定搜索引擎和檢測識別引擎要檢索和識別的目標(biāo)參考樣本數(shù)據(jù)的數(shù)據(jù)類型;
[0008] S2 :根據(jù)的搜索引擎和檢測識別引擎要檢索和識別的目標(biāo)參考樣本數(shù)據(jù)的數(shù)據(jù)類 型,選擇匹配的檢測識別引擎,如關(guān)鍵詞識別引擎,聲紋識別引擎、語音語義識別引擎、形狀 識別引擎;
[0009]S3:分析每個檢測識別引擎的結(jié)果,得到檢索關(guān)鍵詞、目標(biāo)特征量數(shù)據(jù),作為檢索 條件發(fā)送給搜索引擎進(jìn)行檢索;
[0010]S4:相關(guān)的每個搜索引擎從輸入的目標(biāo)檢索數(shù)據(jù)中檢索符合條件的數(shù)據(jù),并記錄 數(shù)據(jù)片段和出現(xiàn)位置;
[0011] S5:每個搜索引擎檢索不同的數(shù)據(jù),得到不同的檢索結(jié)果,將這些檢索結(jié)果再進(jìn)行 匯總、分類輸出。
[0012] 進(jìn)一步的,再步驟S2中,如有多個不同數(shù)據(jù)類型檢索條件,則選擇多個檢測識別 引擎。
[0013]進(jìn)一步的,再步驟S3中,如檢索條件中含有3個以上的關(guān)鍵詞,則進(jìn)一步分解成關(guān) 鍵詞組。
[0014] 進(jìn)一步的,再步驟S3中,如某項數(shù)據(jù)無需啟用與之對應(yīng)的識別引擎處理數(shù)據(jù),將 條件值設(shè)置成空值。
[0015]進(jìn)一步的,步驟S4中的目標(biāo)檢索數(shù)據(jù)來自數(shù)據(jù)庫、數(shù)據(jù)文件、網(wǎng)絡(luò)流媒體,包括:文本、語音、圖片、視頻數(shù)據(jù)。
[0016]進(jìn)一步的,步驟S5中檢索結(jié)果是文本、語音、圖片、視頻中的一種或幾種,對于語 音、視頻的檢索結(jié)果,再提取關(guān)聯(lián)內(nèi)容片段或記錄入點和時長。
[0017] 更進(jìn)一步的,在步驟S5中,檢索結(jié)果是依據(jù)下面公式實現(xiàn)的:
[0018]
[0019] XVf又里漢可可抓叨:
[0020] SR,檢索結(jié)果;SEi,搜索引擎;i,引擎編號,如,SEi代表聲紋搜索引擎,SE2代表語 音搜索引擎;N,表示全媒體中的數(shù)據(jù)類型數(shù);RE,,檢測識別引擎,檢測識別引擎具有目標(biāo)檢 測和目標(biāo)識別的功能,針對不同數(shù)據(jù),可以同時具有檢測和識別兩項功能,也可以只具有單 一功能,不同檢測識別引擎處理不同數(shù)據(jù)內(nèi)容;j,檢測識別引擎編號,例如,REi代表聲紋識 別引擎,識別說話的人是誰;RE2代表語音識別引擎,識別語音中的內(nèi)容及關(guān)鍵詞;k,表示樣 本庫中的樣本號,也表示樣本識別循環(huán)次數(shù);M,表示樣本庫中的樣本數(shù),有多少樣本可以識 另IJ認(rèn)證;P],搜索引擎和檢測識別引擎要檢索和識別的目標(biāo)參考樣本數(shù)據(jù)噸,搜索引擎檢 索對象,即搜索引擎從哪些數(shù)據(jù)中檢索目標(biāo)信息。
[0021] 作為更進(jìn)一步的,所述的檢測識別引擎具有檢測識別和檢索兩層功能,不同數(shù)據(jù) 類型對象進(jìn)行處理的引擎作為不同處理維度。
[0022] 本發(fā)明專利由于采用以上技術(shù)方案,能夠取得如下的技術(shù)效果:通過多種方式, 檢索全媒體信息的不同類型特征向量,如文本關(guān)鍵詞、聲紋、語音內(nèi)容、圖像色彩、圖像語義 等,匯總要查詢目標(biāo)的各項信息,能更全面獲得與檢索目標(biāo)相關(guān)的信息元數(shù)據(jù)片段及記錄 元數(shù)據(jù)的位置。多種方式不同維度的檢索,提高了數(shù)據(jù)的查全率和查準(zhǔn)率。采用本發(fā)明方 法,可以彌補(bǔ)單一識別引擎的查全率低的問題,提高全媒體檢索的查全率和查準(zhǔn)率,針對不 同的應(yīng)用環(huán)境和檢索樣本,可以將查全率提高10% -30%。
【附圖說明】
[0023] 本發(fā)明共有附圖1幅:
[0024] 圖1是本發(fā)明的流程圖。 具體實施例
[0025] 下面通過具體實施例,并結(jié)合附圖,對本發(fā)明的技術(shù)方案作進(jìn)一步的解釋說明。
[0026] 如圖1所示,本發(fā)明提供的是:一種全媒體中多維檢測特定目標(biāo)的方法,具體步驟 如下:
[0027]S1 :根據(jù)檢索條件樣本,如文本關(guān)鍵詞、文本句子、聲紋特征語音(說話人的語音 或其他要檢索的物體發(fā)出的聲音數(shù)據(jù))、內(nèi)容語音(語音中說到檢索目標(biāo)的語音數(shù)據(jù))、特 征圖片(人臉、人形、物體形狀、顏色、聚集狀態(tài)特征圖片)、特征視頻(一小段含有人臉、人 形、物體形狀、顏色、聚集狀態(tài)特征的視頻數(shù)據(jù)),確定搜索引擎和檢測識別引擎要檢索和識 別的目標(biāo)參考樣本數(shù)據(jù)的數(shù)據(jù)類型;檢索條件樣本類似普通搜索引擎的檢索關(guān)鍵字,由于 全媒體檢索的條件可能是文本、語音(片段)、圖片、視頻(片段)形式中的一種或幾種組 合。文本可以是"關(guān)鍵詞"單詞組合;也可以是文本句子;也可以是中文與其他語言的混合 文本。語音(片段)是輸入一段聲音數(shù)據(jù),在本發(fā)明的方法中默認(rèn)支持WAV格式,其他格 式的聲音數(shù)據(jù)可以轉(zhuǎn)換,語音的內(nèi)容可以是完整的句子,也可以是短語。圖片采用基本的 BMP格式,其他格式的可以轉(zhuǎn)換為BMP使用,圖片中要有檢索的目標(biāo)人、物體,最低分辨率 32X32,顏色值不限。視頻(片段)格式以AVI為基礎(chǔ),其他格式可以轉(zhuǎn)換,包含要檢索的人、 目標(biāo),要檢索的目標(biāo)分辨率不低于32X32像素。
[0028]S2 :根據(jù)的搜索引擎和檢測識別引擎要檢索和識別的目標(biāo)參考樣本數(shù)據(jù)的數(shù)據(jù)類 型,選擇匹配的檢測識別引擎,如關(guān)鍵詞識別引擎,聲紋識別引擎、語音語義識別引擎、形狀 識別引擎;圖1中的REi……REN代表不同的檢測識別引擎,檢測識別引擎可以檢測或識別 文本關(guān)鍵詞、聲紋、語音語義、視頻指紋、形狀、物體顏色、聚集狀態(tài)等特征。
[0029]S3 :分析每個檢測識別引擎的結(jié)果,得到檢索關(guān)鍵詞、目標(biāo)特征量數(shù)據(jù),作為檢索 條件發(fā)送給搜索引擎進(jìn)行檢索;檢測識別引擎處理結(jié)果:
[0030] 關(guān)鍵詞檢測識別引擎,提取文本句子中關(guān)鍵詞;
[0031] 聲紋檢測識別引擎,識別出說話人是誰,說話人的ID或名