多媒體文件分類方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種多媒體文件分類方法及裝置,該多媒體文件分類方法,利用訓(xùn)練得到的多個(gè)分類器逐個(gè)對(duì)待分類多媒體文件的類別進(jìn)行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數(shù)量等于為多媒體文件全部預(yù)定類別的數(shù)量。換言之,確定一個(gè)待分類多媒體文件的類別最多經(jīng)過N個(gè)分類器進(jìn)行判斷,其中,N為多媒體文件全部預(yù)定類別的數(shù)量,遠(yuǎn)遠(yuǎn)小于N*(N?1)/2個(gè)分類器,因此,大大減少了多媒體文件分類方法的運(yùn)算量,提高了分類速度和效率。
【專利說明】
多媒體文件分類方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及分類技術(shù)領(lǐng)域,特別是涉及一種多媒體文件分類方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)飛速發(fā)展,網(wǎng)絡(luò)傳輸速度不斷提高,各種多媒體信息不斷涌現(xiàn)。為了幫助用戶有效地檢索相關(guān)的多媒體信息或迅速獲取用戶感興趣的多媒體信息,就需要一些分類工具(分類器)幫助用戶提取相應(yīng)的內(nèi)容并對(duì)大量的多媒體信息進(jìn)行有效的分類操作。于是基于內(nèi)容的多媒體信息分類技術(shù)應(yīng)運(yùn)而生,從而實(shí)現(xiàn)自動(dòng)分析多媒體信息并對(duì)多媒體信息進(jìn)行分類。
[0003]現(xiàn)有的分類技術(shù)主要包括二分類和多分類;其中,二分類比較簡單,例如,某個(gè)視頻數(shù)據(jù)輸入分類器(該分類器用于判斷視頻是否屬于體育類),則分類器的輸出結(jié)果只包括兩種情況,即是體育類和不是體育類。多分類可以基于二分類實(shí)現(xiàn),例如,A、B、C、D、E五個(gè)分類,兩兩為一組訓(xùn)練分類器,需要訓(xùn)練AB,AC,AD,AE,BC,BD,BE,CD,CE,DE共1個(gè)分類器,其中,分類器AB用于判斷一個(gè)視頻數(shù)據(jù)屬于A類還是屬于B類。對(duì)于一個(gè)未知類型的視頻數(shù)據(jù),通過這10個(gè)分類進(jìn)行判斷給出投票結(jié)果,得票最多的一個(gè)類別就是該未知類型的視頻數(shù)據(jù)最終的類別。這樣,對(duì)于有N個(gè)類別的分類體系,需要訓(xùn)練練N*(N-1 )/2個(gè)二分類器,例如,對(duì)于有100個(gè)類別的體系,需要訓(xùn)練4950個(gè)分類器;顯然,采用此種多分類方法需要訓(xùn)練的分類器數(shù)量非常多,大大增加了分類過程中的運(yùn)算量,效率較低。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例中提供了一種多媒體文件分類方法及裝置,以解決現(xiàn)有技術(shù)中的分類過程中運(yùn)算量大、效率低的問題。
[0005]為了解決上述技術(shù)問題,本發(fā)明實(shí)施例公開了如下技術(shù)方案:
[0006]第一方面,本發(fā)明實(shí)施例提供一種多媒體文件分類方法,包括:
[0007]獲取待分類多媒體文件的特征信息;
[0008]由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;
[0009]當(dāng)所述第一分類器確定所述待分類多媒體文件不屬于所述第一分類器的類別時(shí),由第二分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別;
[0010]當(dāng)所述第二分類器確定所述待分類多媒體文件不屬于所述第二分類器的類別時(shí),繼續(xù)由下一個(gè)分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別時(shí)結(jié)束;
[0011]其中,分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量,且每個(gè)所述分類器用于識(shí)別一個(gè)類別,且不同的所述分類器所識(shí)別的類別不相同。
[0012]可選地,由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別,包括:
[0013]判斷所述特征信息經(jīng)過第一分類器的分類函數(shù)后計(jì)算得到的數(shù)值是否大于所述第一分類器的閾值;
[0014]若大于所述第一分類器的閾值,則所述待分類多媒體文件屬于第一分類器對(duì)應(yīng)的類別;
[0015]若小于或等于所述第一分類器的閾值,則所述待分類多媒體文件不屬于第一分類器對(duì)應(yīng)的類別。
[0016]可選地,所述方法還包括:
[0017]當(dāng)確定出所述待分類多媒體文件所屬的類別時(shí),利用所述多媒體文件所屬類別對(duì)應(yīng)的分類器所包含的子分類器確定所述多媒體文件所屬的子類。
[0018]可選地,在獲取待分類多媒體文件的特征信息之前,包括:
[0019]獲取全部訓(xùn)練樣本的特征信息;
[0020]分別利用所述訓(xùn)練樣本的特征信息訓(xùn)練得到N個(gè)分類器,每個(gè)所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別;
[0021]其中,所述訓(xùn)練樣本的類別已知,且訓(xùn)練樣本包含多媒體文件全部預(yù)定類別的樣本;N等于多媒體文件全部預(yù)定類別的數(shù)量。
[0022]可選地,若所述訓(xùn)練樣本是視頻文件,則所述獲取全部訓(xùn)練樣本的特征信息,包括:
[0023]利用爬蟲從視頻網(wǎng)站中爬取視頻文件的特征信息,作為所述訓(xùn)練樣本的特征信息。
[0024]第二方面,本發(fā)明實(shí)施例提供一種多媒體文件分類裝置,包括:
[0025]第一獲取模塊,用于獲取待分類多媒體文件的特征信息;
[0026]類別確定模塊,用于由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;如果所述待分類多媒體文件不屬于所述第一分類器的類別,由第二分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別;如果所述待分類多媒體文件不屬于所述第二分類器的類別,繼續(xù)由下一個(gè)分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別;
[0027]其中,所述類別確定模塊所包含的分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量,且每個(gè)所述分類器用于識(shí)別一個(gè)類別,且不同的所述分類器所識(shí)別的類別不相同。
[0028]可選地,其特征在于,所述類別確定模塊,包括:
[0029]判斷子模塊,用于判斷所述特征信息經(jīng)過分類器的分類函數(shù)后計(jì)算得到的數(shù)值是否大于所述分類器的閾值;
[0030]第一確定子模塊,用于當(dāng)計(jì)算得到的數(shù)值大于所述分類器的閾值時(shí),確定所述待分類多媒體文件屬于所述分類器對(duì)應(yīng)的類別;
[0031]第二確定子模塊,用于當(dāng)計(jì)算得到的數(shù)值小于或等于所述分類器的閾值時(shí),確定所述待分類多媒體文件不屬于所述分類器對(duì)應(yīng)的類別。
[0032]可選地,所述類別確定模塊包括:
[0033]子類確定子模塊,用于當(dāng)確定出所述待分類多媒體文件所屬的類別時(shí),利用所述多媒體文件所屬類別對(duì)應(yīng)的分類器所包含的子分類器確定所述多媒體文件所屬的子類別。
[0034]可選地,所述裝置還包括:
[0035]第二獲取模塊,用于獲取全部訓(xùn)練樣本的特征信息;
[0036]訓(xùn)練模塊,用于分別利用所述訓(xùn)練樣本的特征信息訓(xùn)練得到N個(gè)分類器,每個(gè)所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別;
[0037]其中,所述訓(xùn)練樣本的類別已知,且訓(xùn)練樣本包含多媒體文件全部預(yù)定類別的樣本;N等于多媒體文件全部預(yù)定類別的數(shù)量。
[0038]可選地,若所述訓(xùn)練樣本是視頻文件,則所述第二獲取模塊,用于利用爬蟲從視頻網(wǎng)站中爬取視頻文件的特征信息,作為所述訓(xùn)練樣本的特征信息。
[0039]由以上技術(shù)方案可見,本發(fā)明實(shí)施例提供的多媒體文件分類方法,利用多個(gè)分類器逐個(gè)對(duì)待分類多媒體文件的類別進(jìn)行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量。換言之,確定一個(gè)待分類多媒體文件的類別最多經(jīng)過N個(gè)分類器進(jìn)行判斷,其中,N為多媒體文件預(yù)定類別的總數(shù)量,遠(yuǎn)遠(yuǎn)小于N*(N_l)/2個(gè)分類器。因此,大大減少了多媒體文件分類方法的運(yùn)算量,提高了分類速度和效率。
【附圖說明】
[0040]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0041 ]圖1為本發(fā)明實(shí)施例一種多媒體文件分類方法的流程示意圖;
[0042]圖2為本發(fā)明實(shí)施例一種多媒體文件分類方法實(shí)例的流程示意圖;
[0043]圖3為本發(fā)明實(shí)施例另一種多媒體文件分類方法的流程示意圖;
[0044]圖4為本發(fā)明實(shí)施例一種多媒體文件分類裝置的框圖;
[0045]圖5為本發(fā)明實(shí)施例另一種多媒體文件分類裝置的框圖。
【具體實(shí)施方式】
[0046]為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0047]參見圖1,為本發(fā)明實(shí)施例提供的一種多媒體文件分類方法的流程示意圖,該方法應(yīng)用于服務(wù)器中,如圖1所示,該方法可以包括以下步驟:
[0048]S110,獲取待分類多媒體文件的特征信息。
[0049]多媒體文件的特征信息包括用于表征多媒體文件內(nèi)容類型的信息。例如,如果多媒體文件是視頻文件,則視頻文件的特征信息可以包括視頻文件的標(biāo)題、標(biāo)簽、描述信息及面包肩導(dǎo)航信息,通過這些信息表征視頻文件的內(nèi)容類型信息。
[0050]其中,面包肩導(dǎo)航信息用于告訴訪問者他們目前在網(wǎng)站中的位置,以及如何返回。[0051 ] S120,由第一分類器根據(jù)待分類多媒體文件的特征信息判斷該待分類多媒體文件是否屬于所述第一分類器的類別。
[0052]分類的概念就是在已有數(shù)據(jù)的基礎(chǔ)上建立一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型,即分類器,該分類函數(shù)或分類模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類中的某一個(gè)類別中。
[0053]本實(shí)施例中每個(gè)分類器對(duì)應(yīng)一個(gè)類別,即每個(gè)分類器均能識(shí)別一個(gè)類別。
[0054]待分類多媒體文件的特征信息輸入到第一分類器中,如果待分類多媒體文件的特征信息經(jīng)過第一分類器的分類函數(shù)后得到的數(shù)值大于該第一分類器的閾值(該閾值是根據(jù)訓(xùn)練樣本訓(xùn)練得到的分類模型的最佳閾值,每個(gè)分類器都會(huì)對(duì)應(yīng)一個(gè)最佳閾值,不同的分類器對(duì)應(yīng)的最佳閾值也不同),則認(rèn)為該待分類多媒體文件屬于第一分類器對(duì)應(yīng)的類別;否貝1J,如果計(jì)算得到的數(shù)值小于或等于第一分類器的閾值,則認(rèn)為待分類多媒體文件不屬于第一分類器對(duì)應(yīng)的類別。
[0055]S130,當(dāng)所述第一分類器確定所述待分類多媒體文件不屬于所述第一分類器的類別時(shí),由第二分類器判斷所述待分類多媒體文件是否屬于所述第二分類器的類別。
[0056]如果第一分類器確定待分類多媒體文件不屬于第一分類器所對(duì)應(yīng)的類別時(shí),將該待分類多媒體文件的特征信息輸入到第二分類器中,判斷該待分類多媒體文件的特征信息經(jīng)過第二分類器的分類函數(shù)得到的數(shù)值是否大于第二分類器對(duì)應(yīng)的閾值,如果計(jì)算得到的數(shù)值大于該閾值,則確定該待分類多媒體文件屬于第二分類器對(duì)應(yīng)的類別;否則,如果計(jì)算得到的數(shù)值小于或等于該閾值,則確定該待分類多媒體文件不屬于第二分類器對(duì)應(yīng)的類別。
[0057]S140,當(dāng)所述第二分類器確定所述待分類多媒體文件不屬于所述第二分類器的類別時(shí),繼續(xù)由下一個(gè)分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別時(shí)結(jié)束。
[0058]如果第二分類器確定待分類多媒體文件不屬于第二分類器的類別,則繼續(xù)由下一個(gè)分類器判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器已經(jīng)全部判斷完。
[0059]分類器的數(shù)量與多媒體文件全部預(yù)定類別的總數(shù)相同,且每個(gè)所述分類器用于識(shí)別一個(gè)類別,不同的所述分類器所識(shí)別的類別不相同。多媒體文件的全部預(yù)定類別是指預(yù)定為全部多媒體文件劃分的全部類別。
[0060]可選地,在確定出所述待分類多媒體文件所屬的類別后,進(jìn)一步還可以識(shí)別該待分類多媒體文件所屬的子類別,例如,體育類視頻又可以細(xì)分為籃球、足球、網(wǎng)球、高爾夫球等子類別,當(dāng)確定某個(gè)待分類視頻文件屬于體育類時(shí),還可以繼續(xù)判斷該待分類視頻屬于哪個(gè)子類別。其中,利用所述多媒體文件所屬類別對(duì)應(yīng)分類器所包含的子分類器確定所述多媒體文件所屬的子類。其中,每個(gè)分類器包含的子分類器的數(shù)量與該分類器對(duì)應(yīng)的類別所包含的子類別的數(shù)量相等,即每個(gè)子分類器用于識(shí)別一個(gè)子類別。與現(xiàn)有技術(shù)相比,利用該方法識(shí)別出多媒體文件的大類后,還能繼續(xù)利用該大類對(duì)應(yīng)的分類器所包含的子分類器識(shí)別該多媒體文件的子類別,實(shí)現(xiàn)對(duì)多媒體文件進(jìn)行更細(xì)化的分類,分類結(jié)果更精確。
[0061]本實(shí)施例提供的多媒體文件分類方法,利用訓(xùn)練得到的多個(gè)分類器逐個(gè)對(duì)待分類多媒體文件的類別進(jìn)行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量。換言之,確定一個(gè)待分類多媒體文件的類別最多經(jīng)過N個(gè)分類器進(jìn)行判斷,其中,N為多媒體文件全部預(yù)定類別的數(shù)量,遠(yuǎn)遠(yuǎn)小于Ν*(Ν-1)/2個(gè)分類器,因此,大大減少了多媒體文件分類方法的運(yùn)算量,提高了分類速度和效率。
[0062]參見圖2,為本申請(qǐng)實(shí)施例一種多媒體文件分類方法實(shí)例的流程圖,該實(shí)例中,多媒體文件為視頻文件,而且,視頻文件包括A、B、C、D、E五個(gè)類別,則需要五個(gè)分類器且每個(gè)分類器對(duì)應(yīng)一個(gè)類別,這五個(gè)分類器分別是第一分類器、第二分類器、第三分類器、第四分類器和第五分類器。第一分類器識(shí)別A類、第二分類器識(shí)別B類、第三分類器識(shí)別C類、第四分類器識(shí)別D類、第五分類器識(shí)別E類。
[0063]如圖2所示,該多媒體文件分類方法包括以下步驟:
[0064]S210,獲取待分類視頻文件的特征信息。特征信息可以包括標(biāo)題、標(biāo)簽、描述信息、
面包肩導(dǎo)航信息等。
[0065]S220,由第一分類器根據(jù)待分類視頻文件的特征信息判斷待分類視頻文件是否屬于A類;如果是,則執(zhí)行S230 ;如果否,則執(zhí)行S240。
[0066]S230,輸出待分類視頻文件的類別為A類。
[0067]S240,由第二分類器判斷待分類視頻文件是否屬于B類;如果是,則執(zhí)行S250;如果否,則執(zhí)行S260。
[0068]S250,輸出待分類視頻文件的類別是B類。
[0069]S260,由第三分類器判斷待分類視頻文件是否屬于C類;如果是,則執(zhí)行S270;如果否,則執(zhí)行S280。
[0070]S270,輸出待分類視頻文件的類別是C類。
[0071 ] S280,由第四分類器判斷待分類視頻文件是否屬于D類;如果是,則執(zhí)行S290;如果否,則執(zhí)行S2100。
[0072]S290,輸出待分類視頻文件的類別是D類。
[0073]S2100,由第五分類器判斷待分類視頻文件是否屬于E類;如果是,則執(zhí)行S2110;如果否,則執(zhí)行S2120。
[0074]S2110,輸出待分類視頻文件的類別是E類。
[0075 ] S2120,輸出待分類視頻文件的類別是除A、B、C、D、E五類之外的其它類別。
[0076]本實(shí)施例中,每個(gè)分類器均通過以下方法判斷待分類視頻文件是否屬于自身對(duì)應(yīng)的類別:分類器利用自身的分類函數(shù)及待分類視頻文件的特征信息計(jì)算得到一個(gè)數(shù)值,并比較該數(shù)值與分類器的閾值,如果計(jì)算得到的數(shù)值大于該閾值,則確定該待分類視頻文件屬于該分類器對(duì)應(yīng)的類別;如果計(jì)算得到的數(shù)值小于或等于該閾值,則確定該待分類視頻文件不屬于該分類器對(duì)應(yīng)的類別。
[0077]本實(shí)施例提供的視頻文件分類方法,視頻文件包括五個(gè)類別,則需要五個(gè)分類器逐個(gè)對(duì)待分類視頻文件的類別進(jìn)行判斷,直到確定出待分類視頻文件的類別,或者,全部分類器都不能確定該待分類視頻文件的類別。換言之,對(duì)于一個(gè)待分類視頻文件最多經(jīng)過五個(gè)分類器進(jìn)行判斷后就能確定出所屬類別,大大減少了視頻文件分類方法的運(yùn)算量,提高了分類速度和效率。
[0078]參見圖3,為本申請(qǐng)實(shí)施例又一種多媒體文件分類方法的流程示意圖,該方法在圖1所示實(shí)施例的基礎(chǔ)上還可以包括以下步驟:
[0079]S310,獲取全部訓(xùn)練樣本的特征信息。
[0080]訓(xùn)練樣本的目的是建立數(shù)學(xué)模型的參數(shù),根據(jù)訓(xùn)練樣本訓(xùn)練得到最佳的數(shù)據(jù)模型。訓(xùn)練樣本的類別已知,而且,訓(xùn)練樣本必須包含多媒體文件全部預(yù)定類別的樣本。
[0081]根據(jù)訓(xùn)練樣本的類別信息訓(xùn)練得到分類器的分類模型。
[0082]本實(shí)施例中,訓(xùn)練樣本可以從網(wǎng)絡(luò)中抓取,例如,對(duì)視頻文件分類時(shí),訓(xùn)練樣本可以通過爬蟲從視頻網(wǎng)站中爬取多個(gè)視頻文件作為訓(xùn)練樣本,并從視頻網(wǎng)站中爬取視頻文件訓(xùn)練樣本的特征信息(例如,標(biāo)題、標(biāo)簽、描述信息、面包肩導(dǎo)航信息等)。
[0083]S320,分別利用所述全部訓(xùn)練樣本的特征信息訓(xùn)練得到N個(gè)分類器;每個(gè)所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別,其中,N等于多媒體文件的預(yù)定類別的數(shù)量。
[0084]訓(xùn)練分類器時(shí)利用已知類別的多媒體文件經(jīng)過相應(yīng)的分類算法進(jìn)行運(yùn)算后,得到最佳的數(shù)據(jù)模型,同時(shí)得到分類器的最佳閾值。
[0085]分類器的分類模型其實(shí)就是屬于該分類器的類別的多媒體文件所具有的特征集合,要比較輸入的多媒體文件的特征值和分類器中的特征,就需要一個(gè)閾值,當(dāng)輸入的多媒體文件的特征值大于該閾值時(shí)才判斷該多媒體文件的類別是該分類器對(duì)應(yīng)的類別。訓(xùn)練分類器的過程實(shí)際就是尋找合適的分類器閾值,使得該分類器對(duì)所有訓(xùn)練樣本的判斷誤差最低。對(duì)于每個(gè)特征信息計(jì)算全部訓(xùn)練樣本的特征值,并進(jìn)行排序,對(duì)排好序的表中的每個(gè)元素,計(jì)算該元素的分類誤差,最后,得到分類誤差最小的元素,則該元素即最佳閾值。
[0086]使用分類器的過程時(shí),對(duì)于未知分類的多媒體文件,經(jīng)過分類器的分類模型計(jì)算后得到的數(shù)值與該分類器對(duì)應(yīng)的閾值比較,如果計(jì)算得到的數(shù)值大于該閾值,則確定該多媒體文件屬于該分類器對(duì)應(yīng)的類別;如果計(jì)算得到的數(shù)值小于或等于該閾值,則確定該多媒體文件不屬于該分類器對(duì)應(yīng)的類別。
[0087]本實(shí)施例提供的多媒體分類裝置利用訓(xùn)練樣本訓(xùn)練根據(jù)多媒體文件所劃分的類別訓(xùn)練相應(yīng)的分類器,為多媒體文件劃分多少個(gè)類別就需要訓(xùn)練多少個(gè)分類器,每個(gè)分類器能識(shí)別多媒體文件的一個(gè)類別。這樣,在利用訓(xùn)練得到的分類器判斷待分類多媒體文件的類別時(shí),最多經(jīng)過N個(gè)分類器就能判斷出來,N為多媒體文件全部預(yù)定類別的數(shù)量,遠(yuǎn)遠(yuǎn)小于Ν*(Ν-1)/2個(gè)分類器,大大減少了多媒體文件分類方法的運(yùn)算量,提高了分類速度和效率。
[0088]與上述本發(fā)明提供的多媒體文件分類方法實(shí)施例相對(duì)應(yīng),本發(fā)明還提供了多媒體文件分類裝置實(shí)施例。
[0089]參見圖4,為本發(fā)明實(shí)施例提供的一種多媒體文件分類裝置的結(jié)構(gòu)示意圖,該裝置應(yīng)用于服務(wù)器中,如圖4所示,該裝置包括:第一獲取模塊110、類別確定模塊120,其中類別確定模塊包括多個(gè)分類器,分類器的數(shù)量等于為多媒體文件所劃分類別的數(shù)量,每個(gè)分類器用于識(shí)別一個(gè)類別;
[0090]第一獲取模塊110,用于獲取待分類多媒體文件的特征信息。
[0091]多媒體文件的特征信息包括用于表征多媒體文件內(nèi)容類型的信息。例如,視頻文件的特征信息可以包括視頻文件的標(biāo)題、標(biāo)簽、描述信息及面包肩導(dǎo)航信息,通過這些信息表征視頻文件的內(nèi)容類型信息。
[0092]類別確定模塊120,用于由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;如果所述待分類多媒體文件不屬于所述第一分類器的類別,由第二分類器判根據(jù)所述特征信息斷所述待分類多媒體文件是否屬于所述第二分類器的類別;如果所述待分類多媒體文件不屬于所述第二分類器的類別,繼續(xù)由下一個(gè)分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別。
[0093]在本申請(qǐng)的一些實(shí)施例中,類別確定模塊120可以包括判斷子模塊、第一確定子模塊和第二確定子模塊;
[0094]判斷子模塊,用于判斷所述特征信息經(jīng)過分類器的分類函數(shù)后計(jì)算得到的數(shù)值是否大于所述分類器的閾值;第一確定子模塊,用于當(dāng)計(jì)算得到的數(shù)值大于所述分類器的閾值時(shí),確定所述待分類多媒體文件屬于所述分類器對(duì)應(yīng)的類別;第二確定子模塊,用于當(dāng)計(jì)算得到的數(shù)值小于或等于所述分類器的閾值,確定所述待分類多媒體文件不屬于所述分類器對(duì)應(yīng)的類別。
[0095]待分類多媒體文件的特征信息輸入到第一分類器中,如果待分類多媒體文件的特征信息經(jīng)過第一分類器的分類函數(shù)后得到的數(shù)值大于該第一分類器的閾值,則認(rèn)為該待分類多媒體文件屬于第一分類器對(duì)應(yīng)的類別;否則,如果計(jì)算得到的數(shù)值不大于第一分類器的閾值,則認(rèn)為待分類多媒體文件不屬于第一分類器對(duì)應(yīng)的類別。然后,待分類多媒體文件的特征信息繼續(xù)輸入到第二分類器中,繼續(xù)由第二分類器判斷待分類多媒體文件是否屬于第二分類器對(duì)應(yīng)的類別,依此類推,直到確定出待分類多媒體文件的類別,或者,全部分類器都無法確定待分類多媒體文件的類別。
[0096]可選地,在本申請(qǐng)的一些實(shí)施例中,類別確定模塊120還包括子類確定子模塊,該子類確定子模塊也通過分類器實(shí)現(xiàn),用于在確定出待分類多媒體文件所屬的類別后,利用多媒體文件所屬類別對(duì)應(yīng)的分類器所包含的子分類器確定多媒體文件所屬的子類別。其中,每個(gè)分類器包含的子分類器的數(shù)量與該分類器對(duì)應(yīng)的類別所包含的子類別的數(shù)量相等,即每個(gè)子分類器用于識(shí)別一個(gè)子類別。
[0097]本實(shí)施例提供的多媒體文件分類方法,利用訓(xùn)練得到的多個(gè)分類器逐個(gè)對(duì)待分類多媒體文件的類別進(jìn)行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量。換言之,確定一個(gè)待分類多媒體文件的類別最多經(jīng)過N個(gè)分類器進(jìn)行判斷,其中,N為多媒體文件全部預(yù)定類別的數(shù)量,遠(yuǎn)遠(yuǎn)小于N*(N_l)/2個(gè)分類器,因此,大大減少了多媒體文件分類方法的運(yùn)算量,提高了分類速度和效率。
[0098]參見圖5,為本發(fā)明實(shí)施例另一種多媒體文件分類裝置的框圖,該裝置在圖4所示實(shí)施例的基礎(chǔ)上還包括第二獲取模塊210和訓(xùn)練模塊220。
[0099]第二獲取模塊210,用于獲取全部訓(xùn)練樣本的特征信息。
[0100]本實(shí)施例中,訓(xùn)練樣本可以從網(wǎng)絡(luò)中抓取,例如,對(duì)視頻文件分類時(shí),訓(xùn)練樣本可以通過爬蟲從視頻網(wǎng)站中爬取多個(gè)視頻文件作為訓(xùn)練樣本,并從視頻網(wǎng)站中爬取視頻文件訓(xùn)練樣本的特征信息(例如,標(biāo)題、標(biāo)簽、描述信息、面包肩導(dǎo)航信息等)。
[0101]訓(xùn)練模塊220,用于分別利用所述訓(xùn)練樣本的特征信息訓(xùn)練得到N個(gè)分類器,每個(gè)所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別;
[0102]其中,訓(xùn)練樣本的類別已知,且訓(xùn)練樣本包含多媒體文件全部預(yù)定類別的樣本;N等于多媒體文件全部預(yù)定類別的數(shù)量。
[0103]訓(xùn)練樣本的類別已知,根據(jù)訓(xùn)練樣本的類別信息訓(xùn)練得到各個(gè)分類器的分類模型(即,分類函數(shù))。訓(xùn)練分類器的過程和使用分類器的逆過程,訓(xùn)練分類器時(shí)利用已知類別的多媒體文件經(jīng)過相應(yīng)的分類算法進(jìn)行運(yùn)算后,得到分類器的最佳閾值。
[0104]使用分類器的過程是,對(duì)于未知分類的多媒體文件,經(jīng)過分類器的分類模型計(jì)算后得到的數(shù)值與該分類器對(duì)應(yīng)的閾值比較,如果計(jì)算得到的數(shù)值大于該閾值,則確定該多媒體文件屬于該分類器對(duì)應(yīng)的類別;如果計(jì)算得到的數(shù)值不大于該閾值,則確定該多媒體文件不屬于該分類器對(duì)應(yīng)的類別。
[0105]本實(shí)施例提供的多媒體分類裝置利用訓(xùn)練樣本訓(xùn)練根據(jù)多媒體文件所劃分的類別訓(xùn)練相應(yīng)的分類器,為多媒體文件劃分多少個(gè)類別就需要訓(xùn)練多少個(gè)分類器,每個(gè)分類器能識(shí)別多媒體文件的一個(gè)類別。這樣,在利用訓(xùn)練得到的分類器判斷待分類多媒體文件的類別時(shí),最多經(jīng)過N個(gè)分類器就能判斷出來,N為多媒體文件全部預(yù)定類別的數(shù)量,遠(yuǎn)遠(yuǎn)小于Ν*(Ν-1)/2個(gè)分類器,大大減少了多媒體文件分類方法的運(yùn)算量,提高了分類速度和效率。
[0106]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置或系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0107]需要說明的是,在本文中,諸如“第一”和“第二”等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0108]以上所述僅是本發(fā)明的【具體實(shí)施方式】,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種多媒體文件分類方法,其特征在于,包括: 獲取待分類多媒體文件的特征信息; 由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別; 當(dāng)所述第一分類器確定所述待分類多媒體文件不屬于所述第一分類器的類別時(shí),由第二分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別; 當(dāng)所述第二分類器確定所述待分類多媒體文件不屬于所述第二分類器的類別時(shí),繼續(xù)由下一個(gè)分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別時(shí)結(jié)束; 其中,分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量,且每個(gè)所述分類器用于識(shí)別一個(gè)類別,且不同的所述分類器所識(shí)別的類別不相同。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別,包括: 判斷所述特征信息經(jīng)過第一分類器的分類函數(shù)后計(jì)算得到的數(shù)值是否大于所述第一分類器的閾值; 若大于所述第一分類器的閾值,則所述待分類多媒體文件屬于第一分類器對(duì)應(yīng)的類別; 若小于或等于所述第一分類器的閾值,則所述待分類多媒體文件不屬于第一分類器對(duì)應(yīng)的類別。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 當(dāng)確定出所述待分類多媒體文件所屬的類別時(shí),利用所述多媒體文件所屬類別對(duì)應(yīng)的分類器所包含的子分類器確定所述多媒體文件所屬的子類。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲取待分類多媒體文件的特征信息之前,包括: 獲取全部訓(xùn)練樣本的特征信息; 分別利用所述訓(xùn)練樣本的特征信息訓(xùn)練得到N個(gè)分類器,每個(gè)所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別; 其中,所述訓(xùn)練樣本的類別已知,且訓(xùn)練樣本包含多媒體文件全部預(yù)定類別的樣本;N等于多媒體文件全部預(yù)定類別的數(shù)量。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,若所述訓(xùn)練樣本是視頻文件,則所述獲取全部訓(xùn)練樣本的特征信息,包括: 利用爬蟲從視頻網(wǎng)站中爬取視頻文件的特征信息,作為所述訓(xùn)練樣本的特征信息。6.一種多媒體文件分類裝置,其特征在于,包括: 第一獲取模塊,用于獲取待分類多媒體文件的特征信息; 類別確定模塊,用于由第一分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;如果所述待分類多媒體文件不屬于所述第一分類器的類別,由第二分類器根據(jù)所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別;如果所述待分類多媒體文件不屬于所述第二分類器的類別,繼續(xù)由下一個(gè)分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別; 其中,所述類別確定模塊所包含的分類器的數(shù)量等于多媒體文件全部預(yù)定類別的數(shù)量,且每個(gè)所述分類器用于識(shí)別一個(gè)類別,且不同的所述分類器所識(shí)別的類別不相同。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述類別確定模塊,包括: 判斷子模塊,用于判斷所述特征信息經(jīng)過分類器的分類函數(shù)后計(jì)算得到的數(shù)值是否大于所述分類器的閾值; 第一確定子模塊,用于當(dāng)計(jì)算得到的數(shù)值大于所述分類器的閾值時(shí),確定所述待分類多媒體文件屬于所述分類器對(duì)應(yīng)的類別; 第二確定子模塊,用于當(dāng)計(jì)算得到的數(shù)值小于或等于所述分類器的閾值,確定所述待分類多媒體文件不屬于所述分類器對(duì)應(yīng)的類別。8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述類別確定模塊包括: 子類確定子模塊,用于當(dāng)確定出所述待分類多媒體文件所屬的類別時(shí),利用所述多媒體文件所屬類別對(duì)應(yīng)的分類器所包含的子分類器確定所述多媒體文件所屬的子類別。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 第二獲取模塊,用于獲取全部訓(xùn)練樣本的特征信息; 訓(xùn)練模塊,用于分別利用所述訓(xùn)練樣本的特征信息訓(xùn)練得到N個(gè)分類器,每個(gè)所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別; 其中,所述訓(xùn)練樣本的類別已知,且訓(xùn)練樣本包含多媒體文件全部預(yù)定類別的樣本;N等于多媒體文件全部預(yù)定類別的數(shù)量。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,若所述訓(xùn)練樣本是視頻文件,則所述第二獲取模塊,用于利用爬蟲從視頻網(wǎng)站中爬取視頻文件的特征信息,作為所述訓(xùn)練樣本的特征信息。
【文檔編號(hào)】G06K9/62GK105868272SQ201610158208
【公開日】2016年8月17日
【申請(qǐng)日】2016年3月18日
【發(fā)明人】李強(qiáng)
【申請(qǐng)人】樂視網(wǎng)信息技術(shù)(北京)股份有限公司