專(zhuān)利名稱(chēng):為媒體文件添加標(biāo)簽方法和使用該方法的系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及標(biāo)簽添加方法和使用該方法的系統(tǒng),并且更具體地,涉及一種為內(nèi)容文件添加標(biāo)簽的方法和系統(tǒng)。
背景技術(shù):
隨著數(shù)字技術(shù)的普及,現(xiàn)在已經(jīng)產(chǎn)生了大量的媒體文件,例如音頻文件、視頻文件、圖片、文本以及其組合文件。大量音視頻文件的出現(xiàn)為人們生動(dòng)地記錄和保存各種信息帶來(lái)了便利。但是,隨著這種媒體文件的大量產(chǎn)生,用戶如何迅速地從這些大量的媒體文件中找到自己所需的文件成為一個(gè)問(wèn)題。為了解決這個(gè)問(wèn)題,人們提出為媒體文件添加能夠描述其內(nèi)容的文字標(biāo)簽,從而方便人們通過(guò)文字標(biāo)簽來(lái)查找各種媒體文件,這種為媒體文件添加文字標(biāo)簽的方法稱(chēng)之為“媒體文件標(biāo)簽法”,就是一種為圖片、音樂(lè)片段以及視頻片段添加關(guān)鍵字或關(guān)鍵詞(也稱(chēng)之為標(biāo)簽)的一種行為。這些標(biāo)簽可以用于隨后的各種媒體文件相關(guān)的應(yīng)用中,例如用于多媒體管理、多媒體搜索、版權(quán)保護(hù)以及對(duì)象識(shí)別等等。傳統(tǒng)的媒體標(biāo)簽法采用人力對(duì)媒體文件添加標(biāo)簽,顯然非常地費(fèi)時(shí)費(fèi)力,面對(duì)現(xiàn)今日益增長(zhǎng)的媒體文件,單靠人力不可能對(duì)每個(gè)媒體文件添加標(biāo)簽。為此,美國(guó)專(zhuān)利申請(qǐng) US2008/0229192的發(fā)明人就提出了一種通過(guò)人機(jī)交互為圖像添加標(biāo)簽的方法。該專(zhuān)利申請(qǐng)從墨跡注釋出發(fā),基于墨跡注釋的結(jié)果執(zhí)行墨跡識(shí)別處理,識(shí)別結(jié)果用于形成與圖像文件相關(guān)聯(lián)的一個(gè)或多個(gè)標(biāo)簽。然而,在實(shí)踐中,大多數(shù)文件并不包含墨跡注釋?zhuān)绕涫且曨l文件和音頻文件。因此,對(duì)于沒(méi)有墨跡注釋的文件,該專(zhuān)利申請(qǐng)所披露的技術(shù)方案是不能生成任何標(biāo)簽的。美國(guó)專(zhuān)利2009(^89942提出一種圖像自動(dòng)標(biāo)注技術(shù),該方法首先建立一個(gè)標(biāo)簽詞典,基于標(biāo)簽詞典收集大量訓(xùn)練樣本,對(duì)標(biāo)簽詞典中存在的標(biāo)簽建立圖模型(Graph Model),通過(guò)圖的逐步迭代構(gòu)建標(biāo)簽?zāi)P?,該模型可自?dòng)完成對(duì)每個(gè)媒體文件添加標(biāo)簽。該專(zhuān)利的技術(shù)方案最大的缺陷在于只能處理有限的標(biāo)簽詞典,對(duì)于新輸入的圖像,如果新輸入的圖像含有的標(biāo)簽在標(biāo)簽詞典中不存在,則沒(méi)有標(biāo)簽輸出,導(dǎo)致失敗;其次,該方法必須全自動(dòng)完成,在標(biāo)注過(guò)程中用戶無(wú)法將先驗(yàn)知識(shí)傳遞給系統(tǒng),造成先驗(yàn)知識(shí)的浪費(fèi)。
發(fā)明內(nèi)容
有鑒于上述問(wèn)題,本發(fā)明提出了一種為媒體文件添加標(biāo)簽的方法和系統(tǒng),其能夠以全自動(dòng)方式或者用戶少量干預(yù)的半自動(dòng)方式,為輸入的媒體文件選擇合適的文字標(biāo)簽來(lái)描述其內(nèi)容,為后續(xù)的媒體文件檢索、管理等實(shí)際應(yīng)用提供有力的支持。根據(jù)本發(fā)明的一個(gè)方面,提供了一種為媒體文件添加標(biāo)簽的方法,包括基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型,基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù);輸入媒體文件,并從所輸入的媒體文件中提取視覺(jué)特征; 獲取所輸入的媒體文件的初始標(biāo)簽;以及基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽;以及基于所述輸入媒體文件的視覺(jué)特征以及共存系數(shù),使用標(biāo)簽檢測(cè)模型從候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的方法,所述基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型的步驟包括基于所述訓(xùn)練樣本形成標(biāo)簽詞典,并收集所述標(biāo)簽詞典中一個(gè)具體標(biāo)簽所屬的訓(xùn)練樣本;提取所收集的訓(xùn)練樣本的視覺(jué)特征;基于所收集的訓(xùn)練樣本以及所述訓(xùn)練樣本的視覺(jué)特征,構(gòu)建所述具體標(biāo)簽的檢測(cè)模型,其中所構(gòu)建的檢測(cè)模型給出所述具體標(biāo)簽在一個(gè)媒體文件中的存在概率。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的方法,所述基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù)的步驟包括針對(duì)所有訓(xùn)練樣本,統(tǒng)計(jì)兩個(gè)標(biāo)簽存在于同一媒體文件中的數(shù)量,確定標(biāo)簽兩兩之間的共存頻率;針對(duì)所有訓(xùn)練樣本,統(tǒng)計(jì)其中存在所述兩個(gè)標(biāo)簽兩者和兩者之一的媒體文件的數(shù)量或者統(tǒng)計(jì)其中存在所述兩個(gè)標(biāo)簽之中的一個(gè)標(biāo)簽的媒體文件的數(shù)量;基于上述統(tǒng)計(jì)的媒體文件的數(shù)量,獲得所述兩個(gè)標(biāo)簽的共存系數(shù)。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的方法,其中所述獲取所輸入的媒體文件的初始標(biāo)簽的步驟可以通過(guò)一下方式之一來(lái)實(shí)現(xiàn)用戶主動(dòng)提供初始標(biāo)簽、自動(dòng)提取所輸入的媒體文件自身攜帶的標(biāo)簽、自動(dòng)提取所輸入的媒體文件自身攜帶的其他信息,并轉(zhuǎn)化成標(biāo)簽形式、利用所輸入的媒體文件攜帶的其他信息,從第三方自動(dòng)獲取初始標(biāo)簽。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的方法,其中所述視覺(jué)特征包括但不限于媒體文件的顏色、紋理、邊緣方向等低層特征以及媒體文件的創(chuàng)建環(huán)境、創(chuàng)建時(shí)間等高層特征。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的方法,其中所述使用標(biāo)簽檢測(cè)模型從候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的步驟包括基于所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度;基于所述標(biāo)簽之間的共存系數(shù),獲取候選標(biāo)簽的共存系數(shù)矩陣,其中矩陣的維度等于候選標(biāo)簽的數(shù)量;基于所述候選標(biāo)簽的存在置信度和候選標(biāo)簽的共存系數(shù)矩陣,計(jì)算每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,其中標(biāo)簽存在得分越大,該標(biāo)簽越能描述所述輸入媒體文件的內(nèi)容;基于所述每個(gè)標(biāo)簽的存在得分,對(duì)所述候選標(biāo)簽的存在得分進(jìn)行排序;以及基于所述排序結(jié)果,選擇適于描述所述輸入媒體文件的一個(gè)或多個(gè)標(biāo)簽。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的方法,其中所述基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽的步驟包括當(dāng)所述初始標(biāo)簽為多個(gè)時(shí),對(duì)應(yīng)于所述多個(gè)初始標(biāo)簽中的每一個(gè)獲取一個(gè)候選標(biāo)簽列表;以及所述使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的步驟包括使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽列表中的每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度;基于每個(gè)候選標(biāo)簽列表中的所述標(biāo)簽之間的共存系數(shù),獲取相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的共存系數(shù)矩陣,其中矩陣的維度等于相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的數(shù)量;基于相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的存在置信度和所述標(biāo)簽的共存系數(shù)矩陣,計(jì)算相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,通過(guò)累計(jì)相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,獲得相應(yīng)候選標(biāo)簽列表的組合存在得分;其中候選標(biāo)簽列表的組合存在得分越大,該候選標(biāo)簽列表越能描述所述輸入媒體文件的內(nèi)容;基于所述候選標(biāo)簽列表的組合存在得分,對(duì)所述候選標(biāo)簽列表的組合存在得分進(jìn)行排序;以及基于所述排序結(jié)果,選擇描述所述輸入媒體文件的候選標(biāo)簽列表。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種為媒體文件添加標(biāo)簽的系統(tǒng),包括用于基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型的模塊;用于基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù)的模塊;用于輸入媒體文件,并從所輸入的媒體文件中提取視覺(jué)特征的模塊;用于獲取所輸入的媒體文件的初始標(biāo)簽的模塊;用于基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽的模塊;用于基于所述輸入媒體文件的視覺(jué)特征以及共存系數(shù),使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的模塊。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的系統(tǒng),其中所述用于使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的模塊包括用于使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度的模塊;用于基于所述標(biāo)簽之間的共存系數(shù),獲取候選標(biāo)簽的共存系數(shù)矩陣的模塊,矩陣的維度等于候選標(biāo)簽的數(shù)量;用于基于所述候選標(biāo)簽的存在置信度和候選標(biāo)簽的共存系數(shù)矩陣,計(jì)算每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分的模塊,其中,標(biāo)簽存在得分越大,該標(biāo)簽越能描述所述輸入媒體文件的內(nèi)容;用于基于所述每個(gè)標(biāo)簽的存在得分,對(duì)所述候選標(biāo)簽的存在得分進(jìn)行排序的模塊;以及用于基于所述排序結(jié)果,選擇描述所述輸入媒體文件的一個(gè)或多個(gè)標(biāo)簽的模塊。根據(jù)本發(fā)明的為媒體文件添加標(biāo)簽的系統(tǒng),其中所述用于基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽的模塊在所述初始標(biāo)簽為多個(gè)時(shí),對(duì)應(yīng)于所述多個(gè)初始標(biāo)簽中的每一個(gè)獲取一個(gè)候選標(biāo)簽列表;以及所述用于與使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的模塊包括用于使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽列表中的每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度的模塊;用于基于每個(gè)候選標(biāo)簽列表中的所述標(biāo)簽之間的共存系數(shù),獲取相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的共存系數(shù)矩陣的模塊,矩陣的維度等于相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的數(shù)量;用于基于相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的存在置信度和所述標(biāo)簽的共存系數(shù)矩陣,計(jì)算相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,通過(guò)累計(jì)相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,獲得相應(yīng)候選標(biāo)簽列表的組合存在得分的模塊;其中候選標(biāo)簽列表的組合存在得分越大,該候選標(biāo)簽列表越能描述所述輸入媒體文件的內(nèi)容;用于基于所述候選標(biāo)簽列表的組合存在得分,對(duì)所述候選標(biāo)簽列表的組合存在得分進(jìn)行排序的模塊;以及用于基于所述排序結(jié)果,選擇描述所述輸入媒體文件的候選標(biāo)簽列表的模塊。根據(jù)本發(fā)明所提供的文件標(biāo)簽方法和系統(tǒng),其中媒體文件可以是圖片、音頻或視頻文件以及任何其他媒體實(shí)體。根據(jù)本發(fā)明的系統(tǒng)在媒體文件輸入時(shí)會(huì)提示用戶提供一個(gè)或多個(gè)標(biāo)簽。如果用戶做出響應(yīng)(即輸入一個(gè)或多個(gè)標(biāo)簽),系統(tǒng)就會(huì)更有效率地基于該初始標(biāo)簽進(jìn)行處理,如果用戶沒(méi)有做出響應(yīng),系統(tǒng)就會(huì)以一種自動(dòng)生成初始標(biāo)簽的方式進(jìn)行處理。由于本發(fā)明的技術(shù)方案可以通過(guò)用戶獲得初始標(biāo)簽,因此能夠充分利用用戶的先驗(yàn)知識(shí)。如果用戶為一個(gè)輸入的媒體文件提供一個(gè)或多個(gè)初始標(biāo)簽或者系統(tǒng)自動(dòng)生成了一個(gè)或多個(gè)初始標(biāo)簽,系統(tǒng)就會(huì)基于預(yù)先計(jì)算的標(biāo)簽共存系數(shù)針對(duì)所述一個(gè)或多個(gè)初始標(biāo)簽獲得若干個(gè)候選標(biāo)簽。然后基于所輸入的媒體文件的視覺(jué)特征,候選標(biāo)簽隨后被作為標(biāo)
7簽輸入,計(jì)算每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,并依據(jù)得分獲得候選標(biāo)簽的排序列表。如果用戶為一個(gè)輸入的媒體文件提供多個(gè)初始標(biāo)簽或者系統(tǒng)自動(dòng)生成了多個(gè)初始標(biāo)簽,系統(tǒng)就會(huì)針對(duì)所述多個(gè)初始標(biāo)簽的每一個(gè)執(zhí)行前一段所描述的步驟,獲得包含若干個(gè)候選標(biāo)簽的候選標(biāo)簽列表。但是在此處,每個(gè)候選列表都被用于計(jì)算組合存在得分,最后,獲得最高組合存在得分的候選標(biāo)簽列表將是最后的標(biāo)簽列表。根據(jù)上面的描述,顯然,本發(fā)明所披露的技術(shù)方案使得系統(tǒng)為媒體文件添加標(biāo)簽變得非常方便,并且最后用于描述媒體文件的標(biāo)簽集合更準(zhǔn)確。
圖1是了一個(gè)具有標(biāo)簽列表的示例性圖像;圖2是為媒體文件添加標(biāo)簽的示例性配置框圖;圖3是根據(jù)本發(fā)明實(shí)施例200的更詳細(xì)的示例性配置框圖;圖4是示例性示出根據(jù)本發(fā)明例200的為媒體文件添加標(biāo)簽的流程圖。
具體實(shí)施例方式在下文中,將參考附圖詳細(xì)描述本發(fā)明的實(shí)施例。圖1所示是一個(gè)具有排序標(biāo)簽列表的示例性圖像100,其包括圖像102以及排序標(biāo)簽列表104。在該圖中顯示,一個(gè)媒體文件(一張圖片)對(duì)應(yīng)一個(gè)標(biāo)簽列表,這可形成了一個(gè)本發(fā)明所述的訓(xùn)練樣本。同樣,一個(gè)標(biāo)簽可對(duì)應(yīng)多個(gè)媒體文件,也就是說(shuō)一個(gè)標(biāo)簽可以對(duì)應(yīng)一個(gè)媒體文件列表,這種對(duì)應(yīng)關(guān)系也構(gòu)成了一個(gè)標(biāo)簽的訓(xùn)練樣本。多個(gè)訓(xùn)練樣本構(gòu)成了本發(fā)明所述的一種訓(xùn)練樣本集合。通常,我們通過(guò)人工標(biāo)注的方式構(gòu)建訓(xùn)練樣本,也可收集一個(gè)或多個(gè)網(wǎng)站中包含標(biāo)簽的媒體文件作為訓(xùn)練樣本。這些媒體文件可以表現(xiàn)為本發(fā)明所述的多種視覺(jué)特征,包括但不限于基于局部二進(jìn)制模式(Localbinary pattern, LBP)的紋理描述特征、顏色空間中基于塊的顏色矩(block-wisecolor moment in lab color space) 特征、邊緣方向直方圖特征、傅立葉描述子特征等,從而形成樣本集合的視覺(jué)特征空間。所述視覺(jué)特征的計(jì)算方法為本領(lǐng)域技術(shù)人員所知,在此不再詳述。圖2表示媒體文件標(biāo)簽添加系統(tǒng)的示例性總體框圖,總體采用200表示。如圖所示,該文件標(biāo)簽添加系統(tǒng)200包括用于輸入媒體文件的模塊202、用于輸入至少一個(gè)初始標(biāo)簽的模塊204、媒體文件標(biāo)簽器206、以及用于生成包含一個(gè)或多個(gè)標(biāo)簽210的排序標(biāo)簽列表的模塊208。具體而言,有K個(gè)標(biāo)簽210(1)、21(K2)... 210 (K),其中K為正整數(shù)。與如上參照?qǐng)D1所述的標(biāo)簽列表104由圖像102獲得的配置相似,在此不再詳述。圖3表示根據(jù)本發(fā)明的一個(gè)實(shí)施例的為媒體文件添加標(biāo)簽的系統(tǒng)300的框圖,該媒體文件標(biāo)簽添加系統(tǒng)300具有用于執(zhí)行標(biāo)簽排序/選擇函數(shù)的模塊314的媒體文件標(biāo)簽器306。如圖所示,除了文件標(biāo)簽器306之外,媒體文件添加標(biāo)簽的系統(tǒng)300還包括用于輸入媒體文件的模塊302、初始標(biāo)簽生成模塊304、標(biāo)簽共存系數(shù)提取器305、候選標(biāo)簽生成模塊307、以及用于生成最后標(biāo)簽集合的模塊308。文件標(biāo)簽器306包括用于執(zhí)行排序/選擇函數(shù)的模塊314、構(gòu)建標(biāo)簽檢測(cè)模型的模塊316以及視覺(jué)特征提取器318。其中執(zhí)行排序 /選擇函數(shù)的模塊314在執(zhí)行排序/選擇函數(shù)時(shí)會(huì)使用媒體文件特征310和標(biāo)簽特性312。
構(gòu)建標(biāo)簽檢測(cè)模型的模塊316基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型,訓(xùn)練樣本通常通過(guò)人工標(biāo)注的方式構(gòu)建,也可收集一個(gè)或多個(gè)網(wǎng)站中包含標(biāo)簽的媒體文件作為訓(xùn)練樣本。具體而言,基于所述訓(xùn)練樣本形成標(biāo)簽詞典,并收集所述標(biāo)簽詞典中每一個(gè)標(biāo)簽所屬的訓(xùn)練樣本。隨后,視覺(jué)特征提取器318提取所述訓(xùn)練樣本的視覺(jué)特征,并將所提取的訓(xùn)練樣本的視覺(jué)特征傳送給構(gòu)建標(biāo)簽檢測(cè)模型的模塊316。其中, 基于所提取的訓(xùn)練樣本的視覺(jué)特征,作為一個(gè)實(shí)例,可以使用支持向量機(jī)(SVM)構(gòu)建所述標(biāo)簽的檢測(cè)模型,其中所構(gòu)建的檢測(cè)模型給出所述標(biāo)簽在一個(gè)媒體文件中的存在概率。所述支持向量機(jī)(SVM)構(gòu)建標(biāo)簽檢測(cè)模型的方法為本領(lǐng)域技術(shù)人員所知,在此不再詳述。同時(shí),標(biāo)簽共存系數(shù)提取器305基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù),即標(biāo)簽特性312。標(biāo)簽共存系數(shù)提取器305獲得共存系數(shù)的過(guò)程具體為,針對(duì)所有訓(xùn)練樣本,統(tǒng)計(jì)任意兩個(gè)標(biāo)簽存在于同一媒體文件中的數(shù)量,確定標(biāo)簽兩兩之間的共存頻率。然后,針對(duì)所有訓(xùn)練樣本,統(tǒng)計(jì)其中存在所述兩個(gè)標(biāo)簽兩者和兩者之一的媒體文件的數(shù)量或者其中存在所述兩個(gè)標(biāo)簽兩者之一的媒體文件的數(shù)量。最后,基于上述統(tǒng)計(jì)的媒體文件的數(shù)量,獲得所述兩個(gè)標(biāo)簽的共存系數(shù)。如何獲得該共存系數(shù),可以參考后面所提及的公式(1)-(4) 0視覺(jué)特征提取器318除了在構(gòu)建標(biāo)簽檢測(cè)模型的模塊316構(gòu)建標(biāo)簽檢測(cè)模型時(shí)為對(duì)訓(xùn)練樣本提取視覺(jué)特征之外,還可以在媒體文件輸入后從所輸入的媒體文件中提取視覺(jué)特征,獲得媒體文件特征310。初始標(biāo)簽生成模塊304獲取所輸入的媒體文件的初始標(biāo)簽。初始標(biāo)簽307的獲得有多種方式,例如可以由用戶主動(dòng)提供初始標(biāo)簽,在有些輸入的媒體文件自身協(xié)攜帶標(biāo)簽的情況下自動(dòng)提取所述自身攜帶的標(biāo)簽,也可以自動(dòng)提取所輸入的媒體文件自身攜帶的其他信息(例如,文件的文件名,形成時(shí)間,媒體文件畫(huà)面中出現(xiàn)的文字信息等),并將這些信息轉(zhuǎn)化成標(biāo)簽形式,或者利用所輸入的媒體文件攜帶的其他信息(例如,網(wǎng)頁(yè)鏈接,視覺(jué)特征等),從第三方自動(dòng)獲取初始標(biāo)簽。但是這些初始標(biāo)簽往往過(guò)于粗略,不能準(zhǔn)確地描述所輸入的媒體文件。因此,為了形成針對(duì)所輸入的媒體文件的更為精確的標(biāo)簽,需要基于初始標(biāo)簽來(lái)對(duì)媒體文件進(jìn)行精確標(biāo)注。為進(jìn)行精確標(biāo)注,候選標(biāo)簽生成307基于初始標(biāo)簽生成模塊304 獲取所輸入的媒體文件的初始標(biāo)簽和同時(shí)標(biāo)簽共存系數(shù)提取器305提取的標(biāo)簽之間的共存系數(shù)獲取針對(duì)所輸入的媒體文件的候選標(biāo)簽。具體而言,就是將訓(xùn)練樣本集中的所有標(biāo)簽中與初始標(biāo)簽存在共存關(guān)系的標(biāo)簽都設(shè)置為候選標(biāo)簽。對(duì)于存在多個(gè)初始標(biāo)簽的情況, 候選標(biāo)簽生成307可以分別針對(duì)每個(gè)初始標(biāo)簽,生成對(duì)應(yīng)的候選標(biāo)簽列表,即一個(gè)初始標(biāo)簽對(duì)應(yīng)一個(gè)候選標(biāo)簽列表。但是候選標(biāo)簽往往比較多,如果直接使用這些候選標(biāo)簽來(lái)描述所輸入的媒體文件,將使得后續(xù)基于標(biāo)簽的媒體文件的查詢(xún)依然不夠精確,因此需要對(duì)這些候選標(biāo)簽進(jìn)行更為精確的篩選。為此,就需要對(duì)這些候選標(biāo)簽進(jìn)行一定程度的排序,以便從候選標(biāo)簽中選擇更適于描述所輸入的媒體文件的標(biāo)簽集合。為此,給出了基于所述輸入媒體文件的視覺(jué)特征以及共存系數(shù),使用標(biāo)簽檢測(cè)模型從候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的兩種方式,當(dāng)然,除了下面所提
9到的兩種選擇方式之外,還有其他方式,在此不逐一贅述?!N情況是,執(zhí)行標(biāo)簽排序/選擇的模塊314對(duì)一個(gè)或多個(gè)初始標(biāo)簽的所有候選標(biāo)簽進(jìn)行統(tǒng)一排序。首先,執(zhí)行標(biāo)簽排序/選擇的模塊314基于構(gòu)建標(biāo)簽檢測(cè)模型的模塊 316所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度?;谒鰳?biāo)簽之間的共存系數(shù),獲取候選標(biāo)簽的共存系數(shù)矩陣,其中矩陣的維度等于候選標(biāo)簽的數(shù)量?;谒龊蜻x標(biāo)簽的存在置信度和候選標(biāo)簽的共存系數(shù)矩陣,計(jì)算每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,其中標(biāo)簽存在得分越大,該標(biāo)簽越能描述所述輸入媒體文件的內(nèi)容。如何計(jì)算存在得分將在后面進(jìn)行具體描述。基于所述每個(gè)標(biāo)簽的存在得分, 對(duì)所述候選標(biāo)簽的存在得分進(jìn)行排序。最后,基于所述排序結(jié)果,選擇描述所述輸入媒體文件的一個(gè)或多個(gè)標(biāo)簽。另一種情況是,在存在多個(gè)初始標(biāo)簽的情況下,執(zhí)行標(biāo)簽排序/選擇的模塊314可以采用對(duì)每個(gè)初始標(biāo)簽所對(duì)應(yīng)的候選標(biāo)簽集合進(jìn)行排序的方式來(lái)選擇最后的標(biāo)簽集合。對(duì)于這種方式,使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)初始標(biāo)簽所對(duì)應(yīng)的每個(gè)候選標(biāo)簽列表中的每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度。然后基于每個(gè)候選標(biāo)簽列表中的所述標(biāo)簽之間的共存系數(shù),獲取相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的共存系數(shù)矩陣,矩陣的維度等于相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的數(shù)量。接著,基于相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的存在置信度和所述標(biāo)簽的共存系數(shù)矩陣,計(jì)算相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,通過(guò)累計(jì)相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,獲得相應(yīng)候選標(biāo)簽列表的組合存在得分,其中候選標(biāo)簽列表的組合存在得分越大,該候選標(biāo)簽列表越能描述所述輸入媒體文件的內(nèi)容。隨后,基于所述候選標(biāo)簽列表的組合存在得分,對(duì)所述候選標(biāo)簽列表的組合存在得分進(jìn)行排序。最后基于所述排序結(jié)果, 選擇描述所述輸入媒體文件的候選標(biāo)簽列表。最后,媒體文件標(biāo)簽器306將排序選擇的最后標(biāo)簽輸出為媒體文件的最后標(biāo)簽集合 308。圖4是示意性示出根據(jù)本發(fā)明例200的為媒體文件添加標(biāo)簽的流程圖。流程圖 400包括步驟402-414。在流程圖400中,在步驟402構(gòu)建一組標(biāo)簽檢測(cè)模型,以及在步驟404處構(gòu)建標(biāo)簽生成器。標(biāo)簽檢測(cè)模型的一種實(shí)施方式如下。首先對(duì)每個(gè)標(biāo)簽收集標(biāo)簽訓(xùn)練集合,并提取所述訓(xùn)練樣本的視覺(jué)特征,接著使用支持向量機(jī)(SVM)構(gòu)建標(biāo)簽檢測(cè)模型,并基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù)。在步驟406處,媒體文件被輸入。在步驟404處,用戶可以輸入初始標(biāo)簽。如果用戶不愿或沒(méi)有輸入初始標(biāo)簽,則在步驟404處可以使用其他標(biāo)簽自動(dòng)生成方式生成初始標(biāo)簽,例如1)自動(dòng)提取媒體文件自身攜帶的標(biāo)簽;2)自動(dòng)提取所輸入的媒體文件自身攜帶的其他信息,并轉(zhuǎn)化成標(biāo)簽形式;幻利用所輸入的媒體文件攜帶的其他信息,從第三方自動(dòng)獲取初始標(biāo)簽,其中從第三方自動(dòng)獲取初始標(biāo)簽可以使在有標(biāo)簽的網(wǎng)站上搜索相似媒體文件,并提取其標(biāo)簽信息。在步驟408中,提取所輸入的媒體文件的視覺(jué)特征,并且在步驟410中,基于來(lái)自步驟404處的初始標(biāo)簽獲取候選標(biāo)簽。基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽。其中共存系數(shù)可由所述訓(xùn)練樣本中標(biāo)簽兩兩之間共存的次數(shù),并通過(guò)歸一化得到。作為非限制性實(shí)施例,可基于如下一些共存系數(shù)計(jì)算方式
權(quán)利要求
1.一種為媒體文件添加標(biāo)簽的方法,包括基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型,基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù);輸入媒體文件,并從所輸入的媒體文件中提取視覺(jué)特征; 獲取所輸入的媒體文件的初始標(biāo)簽;基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽; 基于所輸入的媒體文件的視覺(jué)特征以及共存系數(shù),使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合。
2.根據(jù)權(quán)利要求1所述的為媒體文件添加標(biāo)簽的方法,其中,所述基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型的步驟包括基于所述訓(xùn)練樣本形成標(biāo)簽詞典,并分別收集所述標(biāo)簽詞典中的每一個(gè)具體標(biāo)簽所屬的訓(xùn)練樣本;提取所收集的訓(xùn)練樣本的視覺(jué)特征;基于所收集的訓(xùn)練樣本以及所述訓(xùn)練樣本的視覺(jué)特征,構(gòu)建所述具體標(biāo)簽的檢測(cè)模型,其中所構(gòu)建的檢測(cè)模型給出所述具體標(biāo)簽在一個(gè)媒體文件中的存在概率。
3.根據(jù)權(quán)利要求1所述的為媒體文件添加標(biāo)簽的方法,其中,所述基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù)的步驟包括針對(duì)所有訓(xùn)練樣本,統(tǒng)計(jì)兩個(gè)標(biāo)簽存在于同一媒體文件中的數(shù)量,確定標(biāo)簽兩兩之間的共存頻率;針對(duì)所有訓(xùn)練樣本,統(tǒng)計(jì)其中存在所述兩個(gè)標(biāo)簽兩者和兩者之一的媒體文件的數(shù)量或者統(tǒng)計(jì)其中存在所述兩個(gè)標(biāo)簽之中的一個(gè)標(biāo)簽的媒體文件的數(shù)量; 基于上述統(tǒng)計(jì)的媒體文件的數(shù)量,獲得所述兩個(gè)標(biāo)簽的共存系數(shù)。
4.根據(jù)權(quán)利要求1所述的為媒體文件添加標(biāo)簽的方法,其中所述獲取所輸入的媒體文件的初始標(biāo)簽的步驟可以通過(guò)以下方式之一來(lái)實(shí)現(xiàn)用戶主動(dòng)提供初始標(biāo)簽; 自動(dòng)提取所輸入的媒體文件自身攜帶的標(biāo)簽; 自動(dòng)提取所輸入的媒體文件自身攜帶的其他信息,并轉(zhuǎn)化成標(biāo)簽形式; 利用所輸入的媒體文件攜帶的其他信息,從第三方自動(dòng)獲取初始標(biāo)簽。
5.根據(jù)權(quán)利要求1所述的為媒體文件添加標(biāo)簽的方法,其中所述視覺(jué)特征包括但不限于媒體文件的顏色、紋理、邊緣方向等低層特征; 媒體文件的創(chuàng)建環(huán)境、創(chuàng)建時(shí)間等高層特征。
6.根據(jù)權(quán)利要求1所述的為媒體文件添加標(biāo)簽的方法,其中所述使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的步驟包括基于所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度;基于所述標(biāo)簽之間的共存系數(shù),獲取候選標(biāo)簽的共存系數(shù)矩陣,其中矩陣的維度等于候選標(biāo)簽的數(shù)量;基于所述候選標(biāo)簽的存在置信度和候選標(biāo)簽的共存系數(shù)矩陣,計(jì)算每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,其中標(biāo)簽存在得分越大,該標(biāo)簽越能描述所述輸入媒體文件的內(nèi)容;基于所述每個(gè)標(biāo)簽的存在得分,對(duì)所述候選標(biāo)簽的存在得分進(jìn)行排序;以及基于所述排序結(jié)果,選擇適于描述所述輸入媒體文件的一個(gè)或多個(gè)標(biāo)簽。
7.根據(jù)權(quán)利要求1所述的為媒體文件添加標(biāo)簽的方法,其中所述基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽的步驟包括當(dāng)所述初始標(biāo)簽為多個(gè)時(shí),對(duì)應(yīng)于所述多個(gè)初始標(biāo)簽中的每一個(gè)獲取一個(gè)候選標(biāo)簽列表;以及所述使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的步驟包括使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽列表中的每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度;基于每個(gè)候選標(biāo)簽列表中的所述標(biāo)簽之間的共存系數(shù),獲取相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的共存系數(shù)矩陣,其中矩陣的維度等于相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的數(shù)量;基于相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的存在置信度和所述標(biāo)簽的共存系數(shù)矩陣,計(jì)算相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,通過(guò)累計(jì)相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,獲得相應(yīng)候選標(biāo)簽列表的組合存在得分;其中候選標(biāo)簽列表的組合存在得分越大,該候選標(biāo)簽列表越能描述所述輸入媒體文件的內(nèi)容;基于所述候選標(biāo)簽列表的組合存在得分,對(duì)所述候選標(biāo)簽列表的組合存在得分進(jìn)行排序;以及基于所述排序結(jié)果,選擇描述所述輸入媒體文件的候選標(biāo)簽列表。
8.一種為媒體文件添加標(biāo)簽的系統(tǒng),包括用于基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型的模塊; 用于基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù)的模塊; 用于輸入媒體文件,并從所輸入的媒體文件中提取視覺(jué)特征的模塊; 用于獲取所輸入的媒體文件的初始標(biāo)簽的模塊;用于基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽的模塊;用于基于所述輸入媒體文件的視覺(jué)特征以及共存系數(shù),使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的模塊。
9.根據(jù)權(quán)利要求8所述的為媒體文件添加標(biāo)簽的系統(tǒng),其中所述用于使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的模塊包括用于使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度的模塊;用于基于所述標(biāo)簽之間的共存系數(shù),獲取候選標(biāo)簽的共存系數(shù)矩陣的模塊,矩陣的維度等于候選標(biāo)簽的數(shù)量;用于基于所述候選標(biāo)簽的存在置信度和候選標(biāo)簽的共存系數(shù)矩陣,計(jì)算每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分的模塊,其中,標(biāo)簽存在得分越大,該標(biāo)簽越能描述所述輸入媒體文件的內(nèi)容;用于基于所述每個(gè)標(biāo)簽的存在得分,對(duì)所述候選標(biāo)簽的存在得分進(jìn)行排序的模塊;以及用于基于所述排序結(jié)果,選擇描述所述輸入媒體文件的一個(gè)或多個(gè)標(biāo)簽的模塊。
10.根據(jù)權(quán)利要求8所述的為媒體文件添加標(biāo)簽的系統(tǒng),其中所述用于基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽的模塊在所述初始標(biāo)簽為多個(gè)時(shí),對(duì)應(yīng)于所述多個(gè)初始標(biāo)簽中的每一個(gè)獲取一個(gè)候選標(biāo)簽列表;以及所述用于與使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合的模塊包括用于使用所構(gòu)建的標(biāo)簽檢測(cè)模型,獲得每個(gè)候選標(biāo)簽列表中的每個(gè)候選標(biāo)簽針對(duì)所輸入的媒體文件的存在置信度的模塊;用于基于每個(gè)候選標(biāo)簽列表中的所述標(biāo)簽之間的共存系數(shù),獲取相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的共存系數(shù)矩陣的模塊,矩陣的維度等于相應(yīng)候選標(biāo)簽列表中的標(biāo)簽的數(shù)量;用于基于相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的存在置信度和所述標(biāo)簽的共存系數(shù)矩陣, 計(jì)算相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,通過(guò)累計(jì)相應(yīng)候選標(biāo)簽列表中的每個(gè)標(biāo)簽的針對(duì)所輸入的媒體文件的存在得分,獲得相應(yīng)候選標(biāo)簽列表的組合存在得分的模塊;其中候選標(biāo)簽列表的組合存在得分越大,該候選標(biāo)簽列表越能描述所述輸入媒體文件的內(nèi)容;用于基于所述候選標(biāo)簽列表的組合存在得分,對(duì)所述候選標(biāo)簽列表的組合存在得分進(jìn)行排序的模塊;以及用于基于所述排序結(jié)果,選擇描述所述輸入媒體文件的候選標(biāo)簽列表的模塊。
全文摘要
本發(fā)明提供了一種為媒體文件添加標(biāo)簽的方法,包括基于已有的含有標(biāo)簽的媒體文件的訓(xùn)練樣本構(gòu)建標(biāo)簽的檢測(cè)模型,基于所述訓(xùn)練樣本中標(biāo)簽的出現(xiàn)頻率提取標(biāo)簽之間的共存系數(shù);輸入媒體文件,并從所輸入的媒體文件中提取視覺(jué)特征;獲取所輸入的媒體文件的初始標(biāo)簽;基于所述初始標(biāo)簽和所述訓(xùn)練樣本中的標(biāo)簽之間的共存系數(shù)獲取候選標(biāo)簽;基于所輸入的媒體文件的視覺(jué)特征以及共存系數(shù),使用標(biāo)簽檢測(cè)模型從所述候選標(biāo)簽中選擇能夠描述輸入媒體文件的標(biāo)簽集合。
文檔編號(hào)G06F17/30GK102193946SQ20101012701
公開(kāi)日2011年9月21日 申請(qǐng)日期2010年3月18日 優(yōu)先權(quán)日2010年3月18日
發(fā)明者劉媛, 張磊, 徐盈輝, 李滔, 陳義 申請(qǐng)人:株式會(huì)社理光