專利名稱:一種對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于多媒體內(nèi)容分析領(lǐng)域,涉及一種在電影視頻中對(duì)自動(dòng)的人臉圖像進(jìn)行 自動(dòng)標(biāo)識(shí)的方法。
背景技術(shù):
隨著電影工業(yè)的蓬勃發(fā)展,大批的電影相繼制作產(chǎn)生。對(duì)于海量電影視頻數(shù)據(jù)的 索引、組織和管理也變得越來(lái)越重要。在電影中,由于情節(jié)皆是圍繞人物展開(kāi)的,因此人物 通常是觀眾關(guān)注的焦點(diǎn),是電影中需要標(biāo)注和索引的重要內(nèi)容。人臉標(biāo)識(shí)技術(shù)以往主要是 面向新聞視頻,因?yàn)樵谛侣勔曨l中,可以在通過(guò)語(yǔ)音轉(zhuǎn)錄的文本中獲取大量人名,而且該轉(zhuǎn) 錄文本與視頻在時(shí)間上是自動(dòng)對(duì)齊的,可以根據(jù)時(shí)間的一致性實(shí)現(xiàn)人臉與人名的關(guān)聯(lián)。這 種方法可以稱為“局部匹配”。然而在電影視頻中,局部匹配卻并不適用。這是因?yàn)殡娪叭宋?的對(duì)話中并不經(jīng)常出現(xiàn)人名,所以從語(yǔ)音轉(zhuǎn)錄文本中無(wú)法提取到足夠的人名。在電影劇本 中,雖然包含有人物的姓名,但是卻沒(méi)有時(shí)間信息,無(wú)法將劇本與視頻在時(shí)間上進(jìn)行對(duì)齊, 即無(wú)法采用局部匹配來(lái)實(shí)現(xiàn)人臉與人名的匹配。因此目前尚缺乏利用電影劇本對(duì)電影視頻 中的人臉進(jìn)行自動(dòng)標(biāo)識(shí)的方法。
發(fā)明內(nèi)容
本發(fā)明的目的是在電影劇本中提取人物的姓名,對(duì)電影中的人臉進(jìn)行識(shí)別和標(biāo) 注,由于劇本中不包含時(shí)間信息,無(wú)法將其與視頻在時(shí)間上進(jìn)行對(duì)齊,本發(fā)明利用圖匹配的 方法,在給定電影視頻和劇本的條件下,提出一種對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法。為達(dá)成所述目的,本發(fā)明提出一種對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法,本發(fā)明 的技術(shù)方案通過(guò)以下步驟來(lái)實(shí)現(xiàn)步驟1 利用多視角的人臉檢測(cè)和跟蹤器,在一電影視頻中自動(dòng)獲取人臉序列,對(duì) 人臉序列進(jìn)行聚類以對(duì)應(yīng)不同的人物;步驟S2 根據(jù)不同人物的人臉序列在相同場(chǎng)景中共同出現(xiàn)的頻次,來(lái)度量人臉之 間關(guān)系,建立人臉關(guān)系網(wǎng)絡(luò);步驟S3 利用計(jì)算機(jī)從電影劇本數(shù)據(jù)庫(kù)下載并存儲(chǔ)與所述一電影視頻相對(duì)應(yīng)的 純文本電影劇本,計(jì)算機(jī)統(tǒng)計(jì)純文本電影劇本中不同人物的姓名在相同場(chǎng)景中共同出現(xiàn)的 頻次;步驟S4 依據(jù)所述頻次來(lái)度量人名之間的關(guān)系,建立人名關(guān)系網(wǎng)絡(luò);步驟S5 計(jì)算機(jī)將人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)分別表示成人臉無(wú)向圖和人名 無(wú)向圖的形式,將人臉無(wú)向圖和人名無(wú)向圖進(jìn)行匹配,實(shí)現(xiàn)人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò) 中頂點(diǎn)之間的匹配,即實(shí)現(xiàn)將人臉和人名融合的標(biāo)識(shí)。本發(fā)明的優(yōu)點(diǎn)在于本發(fā)明的方法與傳統(tǒng)的局部匹配方法相比,本發(fā)明方法擺脫 了對(duì)時(shí)間信息的要求,而是在全局范圍內(nèi),在視頻和文本兩個(gè)模態(tài)中分別計(jì)算人臉和人名 的統(tǒng)計(jì)信息,建立人臉關(guān)系網(wǎng)和人名關(guān)系網(wǎng)絡(luò)。然后通過(guò)圖匹配的方法在兩個(gè)網(wǎng)絡(luò)的頂點(diǎn)之間建立對(duì)應(yīng)關(guān)系,以實(shí)現(xiàn)對(duì)人臉的自動(dòng)標(biāo)識(shí)。本發(fā)明給定電影視頻以及其對(duì)應(yīng)的劇本,即 可實(shí)現(xiàn)自動(dòng)的人臉標(biāo)識(shí),為視頻中出現(xiàn)的人臉自動(dòng)標(biāo)注上其對(duì)應(yīng)人物的姓名,可以為電影 視頻檢索、視頻摘要自動(dòng)生成等應(yīng)用提供支持。
圖1是本發(fā)明對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)整體構(gòu)架示意圖;
圖2是本發(fā)明對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問(wèn)題。如圖1示出本發(fā)明對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)整體構(gòu)架示意圖,實(shí)現(xiàn)本發(fā)明的 自動(dòng)標(biāo)識(shí)整體構(gòu)架的所需的基本的硬件條件為一臺(tái)主頻為2. 4GHz,內(nèi)存為IG的計(jì)算機(jī); 所需軟件條件為編程環(huán)境(Visual C++6.0)。利用計(jì)算機(jī)實(shí)現(xiàn)多視角的人臉檢測(cè)和跟蹤 器2、人臉網(wǎng)絡(luò)建立單元3、純文本電影劇本存儲(chǔ)單元5、人名網(wǎng)絡(luò)建立單元6和匹配單元7 的功能。圖1示出本發(fā)明的自動(dòng)標(biāo)識(shí)整體構(gòu)架包括電影視頻庫(kù)1、多視角的人臉檢測(cè)和跟 蹤器2、人臉網(wǎng)絡(luò)建立單元3、電影劇本數(shù)據(jù)庫(kù)4、純文本電影劇本存儲(chǔ)單元5、人名網(wǎng)絡(luò)建立 單元6和匹配單元7,多視角的人臉檢測(cè)和跟蹤器2與電影視頻庫(kù)1連接,多視角的人臉檢 測(cè)和跟蹤器2接收影視頻庫(kù)1中的一電影視頻,在電影視頻中自動(dòng)獲取人臉序列,對(duì)人臉序 列進(jìn)行聚類以對(duì)應(yīng)不同的人物,根據(jù)不同人物的人臉序列在相同場(chǎng)景中共同出現(xiàn)的頻次, 來(lái)度量人臉之間關(guān)系;人臉網(wǎng)絡(luò)建立單元3與多視角的人臉檢測(cè)和跟蹤器2連接,人臉網(wǎng)絡(luò) 建立單元3根據(jù)人臉之間關(guān)系建立人臉關(guān)系網(wǎng)絡(luò);純文本電影劇本存儲(chǔ)單元5與電影劇本 數(shù)據(jù)庫(kù)4連接,純文本電影劇本存儲(chǔ)單元5從電影劇本數(shù)據(jù)庫(kù)4下載并存儲(chǔ)與所述一電影 視頻相對(duì)應(yīng)的純文本電影劇本,根據(jù)純文本電影劇本中不同人物的姓名在相同場(chǎng)景中共同 出現(xiàn)的頻次,依據(jù)所述頻次來(lái)度量人名之間的關(guān)系;人名網(wǎng)絡(luò)建立單元6與純文本電影劇 本存儲(chǔ)單元5連接;人名網(wǎng)絡(luò)建立單元6根據(jù)人名之間的關(guān)系建立人名關(guān)系網(wǎng)絡(luò);匹配單 元 分別與人臉網(wǎng)絡(luò)建立單元3和人名網(wǎng)絡(luò)建立單元6連接,匹配單元7將人臉網(wǎng)絡(luò)建立 單元3生成的人臉關(guān)系網(wǎng)絡(luò)和人臉網(wǎng)絡(luò)建立單元6生成的人名關(guān)系網(wǎng)絡(luò),分別表示成人臉 無(wú)向圖和人名無(wú)向圖的形式,將人臉無(wú)向圖和人名無(wú)向圖進(jìn)行匹配,實(shí)現(xiàn)人臉關(guān)系網(wǎng)絡(luò)和 人名關(guān)系網(wǎng)絡(luò)中頂點(diǎn)之間的匹配,即實(shí)現(xiàn)將人臉和人名融合的標(biāo)識(shí)。如圖2示出本發(fā)明一種對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法流程圖,該方法的流 程包含五個(gè)步驟步驟Sl 人臉檢測(cè)與聚類、步驟S2 建立人臉關(guān)系網(wǎng)絡(luò),步驟S3 人名統(tǒng) 計(jì)、步驟S4:建立人名關(guān)系網(wǎng)絡(luò)和步驟S5 將人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)用圖模型來(lái)表 示,進(jìn)行圖匹配。1.建立人臉關(guān)系網(wǎng)絡(luò)步驟Sl 在電影視頻中,我們采用一個(gè)多視角的人臉檢測(cè)和跟蹤器(Y. Li, H. Z. Ai,C. Huang,and S. H. Lao. Robust head tracking with particles based onmultiple cues fusion. In Proceedings of HCI/ECCV, pages 29-39,2006.)自動(dòng)獲取人臉序列,對(duì) 人臉序列進(jìn)行聚類以對(duì)應(yīng)不同的人物。在人臉序列中,每幅人臉圖像都被歸一化為64X64的灰度圖像,并表示成64X64維的灰度特征向量,然后通過(guò)局部線性嵌入方法將特征向量 降至4維。在進(jìn)行人臉序列的聚類時(shí),我們采用泥土搬運(yùn)距離[2] (Y. Rubner, C. Tomasi, and L. J. Guibas. A metric for distributions with applications to image databases. In Proceedings ofIEEE International Conference on Computer Vision,pages 59—66, 1998.)作為人臉序列之間的距離度量。泥土搬運(yùn)距離是一種集合之間的距離度量方式,產(chǎn) 生于運(yùn)輸問(wèn)題,其本質(zhì)是求解加權(quán)點(diǎn)集轉(zhuǎn)換過(guò)程中的最小代價(jià),屬于約束最優(yōu)化問(wèn)題。它具 備以下兩個(gè)性質(zhì)(1)允許部分相似,而且不要求兩個(gè)數(shù)據(jù)集合的大小相等,這對(duì)于含有不 同圖像數(shù)量的人臉序列之間距離的度量尤為重要。(2)對(duì)于數(shù)據(jù)集合間出現(xiàn)的較為嚴(yán)重的 不相似情況,能夠給予懲罰。這主要是因?yàn)樵陔娪耙曨l中,由于光照、姿態(tài)等因素影響,在有 些情況下不同人物的人臉可能會(huì)看起來(lái)比較相似。對(duì)于這種來(lái)自不同人物的人臉序列之間 部分圖像的相似性,必須依靠對(duì)其它圖像的不相似性加以懲罰,才能避免將它們混為同一 人。在確立距離度量方式后,我們采用凝聚層次聚類的方法進(jìn)行人臉序列的聚類。
步驟S2 根據(jù)不同人物的人臉序列在相同場(chǎng)景中共同出現(xiàn)的頻次,來(lái)度量人臉之 間關(guān)系,建立人臉關(guān)系網(wǎng)絡(luò);在計(jì)算人臉之間的關(guān)系時(shí),我們統(tǒng)計(jì)兩兩人臉在電影中同一場(chǎng) 景里共同出現(xiàn)的頻次。首先,我們統(tǒng)計(jì)每一個(gè)人臉在各個(gè)場(chǎng)景中出現(xiàn)的頻次。由于我們已 經(jīng)完成了對(duì)人臉序列的聚類,因此只需統(tǒng)計(jì)每個(gè)簇內(nèi)人臉序列在各個(gè)場(chǎng)景中的分布情況, 即可得到一個(gè)人臉出現(xiàn)頻次分布矩陣Ofaee = [OH^^,,其中mf是人臉序列聚類的個(gè) 數(shù),nf是視頻中場(chǎng)景的個(gè)數(shù),矩陣中的元素0ikfara表示第i個(gè)人臉在第k個(gè)場(chǎng)景中出現(xiàn)的 頻次。矩陣中的第i行Opee = (OgcejOgcei ...,OgeeI即為第i個(gè)人臉在整部電影各個(gè) 場(chǎng)景中出現(xiàn)頻次的分布。然后我們計(jì)算任兩個(gè)人臉在同一個(gè)場(chǎng)景中共同出現(xiàn)的頻次Cijk, 計(jì)算方式為= mill (OgceiOgce)其中min(0ikfa。e,oJkface)是取第i和j個(gè)人臉在人臉
頻次分布矩陣中第k列的元素Oikfac^和兩者中較小的值,該式表明為第i和第j個(gè) 人臉在第k個(gè)場(chǎng)景中共同出現(xiàn)的頻次Cijk ;則這兩個(gè)人臉在整部電影各個(gè)場(chǎng)景中共同出現(xiàn) 的頻次計(jì)算如下:rfce = ElL1Cj 二 Σ^η ι (o|ce,ogce〕,nf為視頻中場(chǎng)景的個(gè)數(shù)。 通過(guò)求取兩兩人臉之間的關(guān)系,我們可以建立人臉關(guān)系網(wǎng)絡(luò)。該人臉關(guān)系網(wǎng)絡(luò)由鄰接矩陣 Rfac = [1^1_><胃來(lái)表示。鄰接矩陣為%Xmf的方陣,其非對(duì)角線元素ri/aee為對(duì)應(yīng)的
兩個(gè)人臉在整部電影中共同出現(xiàn)的頻次,對(duì)角線上的元素r/-為第i個(gè)人臉自身在整部 電影中出現(xiàn)的頻次。2.建立人名關(guān)系網(wǎng)絡(luò)步驟S3 利用計(jì)算機(jī)從電影劇本數(shù)據(jù)庫(kù)下載并存儲(chǔ)與所述一電影視頻相對(duì)應(yīng)的 純文本電影劇本,計(jì)算機(jī)統(tǒng)計(jì)純文本電影劇本中不同人物的姓名在相同場(chǎng)景中共同出現(xiàn)的 頻次;步驟S4:依據(jù)所述頻次來(lái)度量人名之間的關(guān)系,建立人名關(guān)系網(wǎng)絡(luò);與人臉關(guān)系網(wǎng) 絡(luò)建立方法類似,在建立人名關(guān)系網(wǎng)絡(luò)時(shí),其關(guān)系也是通過(guò)兩者在劇本中同一場(chǎng)景里共同 出現(xiàn)的頻次來(lái)度量。首先我們統(tǒng)計(jì)每個(gè)人名在各個(gè)場(chǎng)景中出現(xiàn)的頻次,得到一個(gè)人名出現(xiàn) 頻次分布矩陣= [OmffljlXm51,其中%是人名的個(gè)數(shù),~是劇本中場(chǎng)景的個(gè)數(shù)。
然后根據(jù)公式Ifame = Ζ;=!mm (ofkame,o|ame)計(jì)算兩兩人名之間共同出現(xiàn)的頻次生成人名關(guān)系網(wǎng),該網(wǎng)絡(luò)同樣由一個(gè)鄰接矩陣lame 二 [礙^^^^!^來(lái)表示,mn 為人名的個(gè)數(shù)。3.人臉與人名的匹配步驟S5 計(jì)算機(jī)將人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)分別表示成人臉無(wú)向圖和人名無(wú)向圖的形式,將人臉無(wú)向圖和人名無(wú)向圖進(jìn)行匹配,實(shí)現(xiàn)人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò) 中頂點(diǎn)之間的匹配,即實(shí)現(xiàn)將人臉和人名融合的標(biāo)識(shí)。在建立了人臉關(guān)系網(wǎng)絡(luò)Rfare和人名 關(guān)系網(wǎng)絡(luò)Rna 后,它們分別可以通過(guò)無(wú)向圖來(lái)表示Gface = <Vf, Ef, Wf>, Gname = <Vn, En, Wn>。在人臉無(wú)向圖Gfaee中,頂點(diǎn)Vf = {f1; f2,…,fj代表%個(gè)人臉,邊Ef表示 兩兩人臉之間的關(guān)系,邊的權(quán)重1Vff= {rfee]記錄兩者間關(guān)系的密切程度,頂點(diǎn)的權(quán)重 Wf = {r『e勹記錄對(duì)應(yīng)的人臉在整部電影中出現(xiàn)的頻次。在人名無(wú)向圖Gname中,頂點(diǎn)Vn= {叫, ,…,nm}代表mn個(gè)人名,同樣的,邊En和 權(quán)重Wn表示人名之間的相互關(guān)系。由于在建立人臉關(guān)系網(wǎng)絡(luò)與人名關(guān)系網(wǎng)絡(luò)時(shí),視頻中人臉序列聚類的數(shù)目與劇本 中人名的數(shù)目是保持一致的,因此在用無(wú)向圖來(lái)表示這兩個(gè)網(wǎng)絡(luò)時(shí),人臉無(wú)向圖和人名無(wú) 向圖的頂點(diǎn)數(shù)是一致的,這里統(tǒng)一用m來(lái)表示。給定人臉無(wú)向圖、人名無(wú)向圖為Gfare和Gn_, 分別包含m個(gè)頂點(diǎn),則有mXm種候選的人臉與人名的匹配,我們將它們存儲(chǔ)在一個(gè)列表L 中。對(duì)于每個(gè)候選匹配a=汍,叫‘),為了評(píng)價(jià)人臉&與人名η/之間的匹配程度,我們 定義了一個(gè)指標(biāo)M(a),稱為“匹配度”<formula>formula see original document page 7</formula>
其中riif·為人臉無(wú)向圖Gf_中頂點(diǎn)的權(quán)重,IV i' n"e為人名無(wú)向圖Gnanre中頂點(diǎn) 的權(quán)重,σ是調(diào)節(jié)對(duì)噪聲容忍程度的敏感系數(shù),可自由調(diào)節(jié),exp {}為以e為底的指數(shù)函數(shù)。 M (a)可以被看作是該匹配的特征,當(dāng)一個(gè)匹配是正確的時(shí)候,其匹配度M(a)將會(huì)較高。對(duì)于任兩個(gè)人臉與人名的匹配(a,b),其中a = (fi Hi, ),f,為一人臉,Hi,為一 人名,b = (fj; Iij, ),fj為一人臉,Iij,為一人名,在人臉無(wú)向圖Gfare中,第i個(gè)人臉&和第 j個(gè)人臉。之間的關(guān)系為巧/·;在人名無(wú)向圖Gnanre中,第i個(gè)人名IV和第j個(gè)人名IV之 間的關(guān)系為IV j' n"e0如果這兩個(gè)匹配a和b都是正確的,則關(guān)系值巧/_和IV j' _應(yīng) 該是接近的,我們稱之為相容;反之這兩個(gè)關(guān)系值相差較大,我們稱之為相斥。因此,針對(duì)這 兩個(gè)匹配我們同樣定義了一個(gè)指標(biāo)M (a,b),稱為“相容度”
<formula>formula see original document page 7</formula> M(a, b)可以看作是這兩個(gè)匹配的特征,如果它們都是正確的,則它們的相容度 M(a,b)將會(huì)較高?;诙x,M(a,b)的取值是非負(fù)的,且是對(duì)稱的(Μ(a,b) =M(b,a))。 與此同時(shí),對(duì)于這兩個(gè)匹配,我們還需考慮人名與人臉之間的一一映射約束,當(dāng)它們與這一 約束沖突時(shí),如a = (fi; rv ),b = (fi; Iij,),即人臉&既與人名rv匹配又與人名 匹 配,則將這兩個(gè)匹配的相容度M(a,b)置為0。至此,兩個(gè)圖頂點(diǎn)之間的匹配問(wèn)題就簡(jiǎn)化為 在所有可能的候選匹配中搜尋一個(gè)匹配集合C,該集合在滿足一對(duì)一映射約束的同時(shí),其所包含匹配的匹配度和相容度之和能夠取得最大值。其目標(biāo)函數(shù)定義為S =Σ a,becM(a,b)+Σ aecM(a)為此,我們用一個(gè)新的無(wú)向圖來(lái)表示所有可能的候選匹配,圖的頂點(diǎn)對(duì)應(yīng)每個(gè)候 選的匹配,其權(quán)重即為匹配度M(a),圖的邊對(duì)應(yīng)兩個(gè)候選匹配之間的關(guān)系,其權(quán)重即為相容 度M(a,b)。因?yàn)楣灿衜Xm個(gè)可能的候選匹配,所以圖中的頂點(diǎn)數(shù)為m2。該圖的鄰接矩陣 *Mm2xm2,其元素即為各匹配度M(a)和相容度M(a,b)。因此,我們的目標(biāo)實(shí)際上是在 矩陣Ifim2xm2中尋找元素集合C,在滿足一對(duì)一映射的約束條件下,使得集合內(nèi)元素之和取 得最大值。為了解決這一帶約束的優(yōu)化問(wèn)題,我們引入了一種譜的方法[3] (M. Leordeanu and Μ. Hebert. A spectral technique forcorrespondence problems using pairwise constraints. In Proceedings of the IOth IEEEInternational Conference on Computer Vision, pages 1482-1489,2005.)。該方法由 Leordeanu 和 Hebert 提出,能夠在矩陣中搜 尋占主導(dǎo)地位的元素集合。首先,我們定義一個(gè)歸一化的指示向量X G R 、1,其元素值
x(i)為所對(duì)應(yīng)的第i個(gè)匹配 屬于目標(biāo)集合C的置信度,其模值為1。我們希望求得最優(yōu) 解χ*,使得χ" = argxmax (xTMix)。根據(jù)匹配度M(a)和相容度M(a,b)的定義可知,矩陣 腿m2xm2為非負(fù)對(duì)稱矩陣。因此,根據(jù)Rayleigh商定理,當(dāng)χ為矩陣鯆的主特征向量時(shí), 叉1腿^可以取得最大值,且根據(jù)Perron-Frobenius定理,所求得的主特征向量的元素值嚴(yán) 格分布在區(qū)間W,l]內(nèi),這恰好符合我們之前對(duì)指示向量的定義,遂完成對(duì)最優(yōu)的指示向 量χ*的求解。由于我們已經(jīng)將所有候選匹配存入列表L中,于是在獲得該最優(yōu)解后,我們首 先搜索到該向量中的最大元素值xia*),其對(duì)應(yīng)的匹配f即為最可能的匹配,遂將其保留。 然后根據(jù)一對(duì)一映射約束,我們將所有與a*相沖突的匹配從列表L中刪除,同時(shí)將χ*中的 對(duì)應(yīng)元素值置O。接下來(lái),我們繼續(xù)尋找χ*中的最大元素值,保留其在列表L中對(duì)應(yīng)的匹配, 并刪除與之相沖突的其他匹配。以此類推,循環(huán)至對(duì)所有的匹配都完成了保留或刪除的操 作。最終保留下來(lái)的匹配即為所求。這樣在步驟Sl中生成的每個(gè)人臉序列聚類都匹配了 一個(gè)人名,類內(nèi)的人臉序列皆用該人名進(jìn)行標(biāo)識(shí)。以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法,其特征在于,該方法包括步驟如下步驟1利用多視角的人臉檢測(cè)和跟蹤器,在一電影視頻中自動(dòng)獲取人臉序列,對(duì)人臉序列進(jìn)行聚類以對(duì)應(yīng)不同的人物;步驟2根據(jù)不同人物的人臉序列在相同場(chǎng)景中共同出現(xiàn)的頻次,來(lái)度量人臉之間關(guān)系,建立人臉關(guān)系網(wǎng)絡(luò);步驟3利用計(jì)算機(jī)從電影劇本數(shù)據(jù)庫(kù)下載并存儲(chǔ)與所述一電影視頻相對(duì)應(yīng)的純文本電影劇本,計(jì)算機(jī)統(tǒng)計(jì)純文本電影劇本中不同人物的姓名在相同場(chǎng)景中共同出現(xiàn)的頻次;步驟4依據(jù)所述頻次來(lái)度量人名之間的關(guān)系,建立人名關(guān)系網(wǎng)絡(luò);步驟5計(jì)算機(jī)將人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)分別表示成人臉無(wú)向圖和人名無(wú)向圖的形式,將人臉無(wú)向圖和人名無(wú)向圖進(jìn)行匹配,實(shí)現(xiàn)人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)中頂點(diǎn)之間的匹配,即實(shí)現(xiàn)將人臉和人名融合的標(biāo)識(shí)。
2.如權(quán)利要求1所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,度量人臉之間關(guān)系時(shí)首先是統(tǒng) 計(jì)人臉序列聚類中包含的人臉序列在各個(gè)場(chǎng)景中的分布情況,得到一個(gè)人臉出現(xiàn)頻次分布 矩陣Ofaee = [ogee]mfXnf,其中mf是人臉序列聚類的個(gè)數(shù),nf是視頻中場(chǎng)景的個(gè)數(shù),矩陣 中的元素oikfara表示第i個(gè)人臉在第k個(gè)場(chǎng)景中出現(xiàn)的頻次。
3.如權(quán)利要求1所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,計(jì)算任兩個(gè)人臉在同一個(gè)場(chǎng)景中共同出現(xiàn)的頻次計(jì)算方式為c| 二,其中該式表示第i和第j個(gè)人臉在第k個(gè)場(chǎng)景中共同出現(xiàn)的頻次Cijk ;min(oikface,oJkface)是取第i和第j個(gè)人臉在人臉 頻次分布矩陣中第k列的元素oikfara和兩者中較小的值。
4.如權(quán)利要求1所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,兩個(gè)人臉在整部電影中共同出 現(xiàn)的頻次 ―計(jì)算方式為rfce = 2SU畔二 mm(o|fe,ofe),其中第i和第j個(gè)人臉在第k個(gè)場(chǎng)景中共同出現(xiàn)的頻次是ri/ac;%min(0ikfac;%0jkfara)是取第i和第j個(gè)人臉在人臉頻次分布矩陣中 第k列的元素oikfara和兩者中較小的值,nf為視頻中場(chǎng)景的個(gè)數(shù)。
5.如權(quán)利要求1所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,所述人臉關(guān)系網(wǎng)絡(luò)是由鄰接矩陣Rface 二 [rfee〗mfxmf來(lái)表示,鄰接矩陣為mfXmf的方陣,mf為人臉序列聚類的個(gè)數(shù),其非對(duì)角線元素為對(duì)應(yīng)的兩個(gè)人臉在整部電影中共同出現(xiàn)的頻次,對(duì)角線上的元素 -為第i個(gè)人臉自身在整部電影中出現(xiàn)的頻次。
6.如權(quán)利要求1所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,所述度量人名之間的關(guān) 系時(shí)首先統(tǒng)計(jì)每個(gè)人名在各個(gè)場(chǎng)景中出現(xiàn)的頻次,得到一個(gè)人名出現(xiàn)頻次分布矩陣= [Oiame〗mnxnn,其中mn是人名序列聚類的個(gè)數(shù),nn是劇本中場(chǎng)景的個(gè)數(shù);矩陣 中的元素oiknanre表示第i個(gè)人名在第k個(gè)場(chǎng)景中出現(xiàn)的頻次。
7.如權(quán)利要求6所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,根據(jù)公式 rfme = mill〔off,計(jì)算兩兩人名之間共同出現(xiàn)的頻次,生成人名關(guān) 系網(wǎng)絡(luò)。
8.如權(quán)利要求7所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,所述人名關(guān)系網(wǎng)絡(luò)由一個(gè)鄰接矩陣<formula>formula see original document page 3</formula>來(lái)表不。
9.如權(quán)利要求1所述的自動(dòng)標(biāo)識(shí)的方法,其特征在于,所述人臉關(guān)系網(wǎng)絡(luò)Rf_和人名 關(guān)系網(wǎng)絡(luò)通過(guò)無(wú)向圖來(lái)表示Gf_ = <Vf, Ef,fff>, Gname = <Vn, En,Wn> ;由于在建立人臉 關(guān)系網(wǎng)絡(luò)與人名關(guān)系網(wǎng)絡(luò)時(shí),視頻中人臉序列聚類的數(shù)目與劇本中人名的數(shù)目是保持一致 的,因此在用無(wú)向圖來(lái)表示這兩個(gè)網(wǎng)絡(luò)時(shí),人臉無(wú)向圖和人名無(wú)向圖的頂點(diǎn)數(shù)是一致的,統(tǒng) 一用m來(lái)表示,在人臉無(wú)向圖Gf_中,頂= {f\,f2,...,fm}代表m個(gè)人臉,邊Ef表示兩 兩人臉之間的關(guān)系,邊的權(quán)重Wf=rfee〗記錄兩兩人臉之間關(guān)系的密切程度,頂點(diǎn)的權(quán) 重記錄對(duì)應(yīng)的人臉在整部電影中出現(xiàn)的頻次;在人名無(wú)向圖Gn_中,頂點(diǎn)Vn = {ni,n2,..., nffl}代表m個(gè)人名,同樣的,邊En和權(quán)重Wn表示人名之間的相互關(guān)系。
全文摘要
本發(fā)明涉及一種對(duì)電影人臉圖像進(jìn)行自動(dòng)標(biāo)識(shí)的方法,該方法包括步驟1利用多視角的人臉檢測(cè)和跟蹤器,在電影視頻中自動(dòng)獲取人臉序列并進(jìn)行聚類以對(duì)應(yīng)不同的人物;步驟2根據(jù)不同人物的人臉序列在相同場(chǎng)景中共同出現(xiàn)的頻次度量人臉之間關(guān)系,建立人臉關(guān)系網(wǎng)絡(luò);步驟3利用計(jì)算機(jī)從電影劇本數(shù)據(jù)庫(kù)下載并存儲(chǔ)與電影視頻相對(duì)應(yīng)的純文本電影劇本,計(jì)算機(jī)統(tǒng)計(jì)純文本電影劇本中不同人物的姓名在相同場(chǎng)景中共同出現(xiàn)的頻次;步驟4依據(jù)頻次來(lái)度量人名之間的關(guān)系,建立人名關(guān)系網(wǎng)絡(luò);步驟5計(jì)算機(jī)將人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)的人臉無(wú)向圖和人名無(wú)向圖進(jìn)行匹配,實(shí)現(xiàn)人臉關(guān)系網(wǎng)絡(luò)和人名關(guān)系網(wǎng)絡(luò)中頂點(diǎn)之間的匹配,實(shí)現(xiàn)將人臉和人名融合的標(biāo)識(shí)。
文檔編號(hào)G06F17/30GK101833569SQ20101014191
公開(kāi)日2010年9月15日 申請(qǐng)日期2010年4月8日 優(yōu)先權(quán)日2010年4月8日
發(fā)明者盧漢清, 張一帆, 徐常勝, 程健 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所