本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種多媒體數(shù)據(jù)的處理方法和裝置。
背景技術(shù):
在信息技術(shù)引領(lǐng)下,多媒體數(shù)據(jù)呈現(xiàn)爆炸式增長,合理利用多媒體數(shù)據(jù)可以使智能交互系統(tǒng)的服務(wù)達到事半功倍的效果。用戶可以通過智能交互系統(tǒng)提供的人機交互界面實現(xiàn)交互,因此,用戶既是智能交互系統(tǒng)的服務(wù)對象,又是智能交互系統(tǒng)的重要數(shù)據(jù)來源。
在大數(shù)據(jù)背景下的智能交互系統(tǒng)可以在海量的多媒體數(shù)據(jù)中,為用戶推薦其感興趣的多媒體數(shù)據(jù)。智能交互系統(tǒng)是根據(jù)多媒體數(shù)據(jù)的標(biāo)簽信息,為用戶推薦多媒體數(shù)據(jù)的,因此,只有具備準(zhǔn)確的標(biāo)簽信息,才能使智能交互系統(tǒng)準(zhǔn)確的為用戶推薦合適的多媒體數(shù)據(jù)?,F(xiàn)有音樂播放器中,都是通過音樂專家,人工為其音樂庫中的每個音頻數(shù)據(jù)(如歌曲,戲曲等)添加標(biāo)簽信息,以便于音樂播放器能夠根據(jù)每個音頻數(shù)據(jù)的標(biāo)簽信息,為使用該音樂播放器的用戶推薦其感興趣的歌曲、戲曲等內(nèi)容。但人工標(biāo)注方式會耗費巨大的人力及時間,準(zhǔn)確率較低。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種多媒體數(shù)據(jù)的處理方法和裝置,解決了人工標(biāo)注多媒體數(shù)據(jù)的標(biāo)簽信息會耗費巨大的人力及時間,且準(zhǔn)確率較低的問題。
第一方面,本發(fā)明提供一種多媒體數(shù)據(jù)的處理方法,所述方法包括:
接收待處理的多媒體數(shù)據(jù);
根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率,其中,所述覆蓋率用于表示所述多媒體數(shù)據(jù)與各分支樹的相似程度;
確定所述覆蓋率大于第一預(yù)設(shè)閾值的分支樹,并從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支;
將所述判斷條件分支上的葉子節(jié)點的值,確定為所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息。
一種可能的實施方式中,從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支,包括:
按照所述判斷條件分支的優(yōu)先級順序,依次將所述多媒體數(shù)據(jù)的特征信息與所述判斷條件分支的判斷條件進行匹配;
若所述多媒體數(shù)據(jù)的至少一個特征信息與任一判斷條件分支的判斷條件匹配,則確定所述多媒體數(shù)據(jù)的特征信息滿足所述判斷條件分支。
一種可能的實施方式中,所述方法還包括:
在所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息中,確定歸屬于同一類別且互斥的第一類標(biāo)簽信息;
若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,保留所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的一個第一類標(biāo)簽信息。
一種可能的實施方式中,所述方法還包括:
根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。
一種可能的實施方式中,根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息,包括:
對于每個日志集合,按照時間順序,確定屬于同一操作的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)是否包含特定標(biāo)簽信息,所述日志集合包含的網(wǎng)絡(luò)日志的數(shù)目大于K,K為大于0的整數(shù),所述特定標(biāo)簽信息為所述日志集合中至少K/A個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含的第一標(biāo)簽信息,A為設(shè)定的第二閾值;
若第j次確定出P1個連續(xù)的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,第j+1次確定出P2個連續(xù)的網(wǎng)絡(luò)日志應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,且在所述日志集合中按照時間順序位于第j次確定出的網(wǎng)絡(luò)日志和第j+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志的數(shù)目小于設(shè)定的第四閾值,將所述特定標(biāo)簽信息確定為位于第j次確定出的網(wǎng)絡(luò)日志和第i+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的第二類標(biāo)簽信息,j=1,2,…,L,所述L為正整數(shù),P1和P2均大于設(shè)定的第三閾值。
一種可能的實施方式中,所述方法還包括:
在添加了所述第二類標(biāo)簽信息的多媒體數(shù)據(jù)中,記錄添加所述第二類標(biāo)簽信息的時間信息;
在所述時間信息超過設(shè)定的時間閾值后,從所述多媒體數(shù)據(jù)中刪除所述第二類標(biāo)簽信息。
一種可能的實施方式中,根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率,包括:
對于所述分支樹,確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征的交集中包含的特征信息的數(shù)目M;
確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征信息的并集中包含的特征信息的數(shù)目N1,并根據(jù)所述M與所述N1的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率;或者確定所述多媒體數(shù)據(jù)的特征信息的數(shù)目與所述分支樹對應(yīng)的特征信息的數(shù)目的總數(shù)目N2,并根據(jù)所述M與所述N2的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
第二方面,本發(fā)明還提供一種多媒體數(shù)據(jù)的處理裝置,所述裝置包括:
接收模塊,用于接收待處理的多媒體數(shù)據(jù);
分支樹確定模塊,用于根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率,其中,所述覆蓋率用于表示所述多媒體數(shù)據(jù)與各分支樹的相似程度;
分支確定模塊,用于確定所述覆蓋率大于第一預(yù)設(shè)閾值的分支樹,并從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支;
標(biāo)簽確定模塊,用于將所述判斷條件分支上的葉子節(jié)點的值,確定為所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息。
一種可能的實施方式中,所述分支確定模塊具體用于:
按照所述判斷條件分支的優(yōu)先級順序,依次將所述多媒體數(shù)據(jù)的特征信息與所述判斷條件分支的判斷條件進行匹配;
若所述多媒體數(shù)據(jù)的至少一個特征信息與任一判斷條件分支的判斷條件匹配,則確定所述多媒體數(shù)據(jù)的特征信息滿足所述判斷條件分支。
一種可能的實施方式中,所述標(biāo)簽確定模塊還用于:
在所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息中,確定歸屬于同一類別且互斥的第一類標(biāo)簽信息;
若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,保留所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的一個第一類標(biāo)簽信息。
一種可能的實施方式中,所述標(biāo)簽確定模塊還用于:
根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行操作的網(wǎng)絡(luò)日志,確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。
一種可能的實施方式中,所述標(biāo)簽確定模塊具體用于:
對于每個日志集合,按照時間順序,確定屬于同一操作的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)是否包含特定標(biāo)簽信息,所述日志集合包含的網(wǎng)絡(luò)日志的數(shù)目大于K,K為大于0的整數(shù),所述特定標(biāo)簽信息為所述日志集合中至少K/A個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含的第一標(biāo)簽信息,A為設(shè)定的第二閾值;
若第j次確定出P1個連續(xù)的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,第j+1次確定出P2個連續(xù)的網(wǎng)絡(luò)日志應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,且在所述日志集合中按照時間順序位于第j次確定出的網(wǎng)絡(luò)日志和第j+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志的數(shù)目小于設(shè)定的第四閾值,將所述特定標(biāo)簽信息確定為位于第j次確定出的網(wǎng)絡(luò)日志和第i+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的第二類標(biāo)簽信息,j=1,2,…,L,所述L為正整數(shù),P1和P2均大于設(shè)定的第三閾值。
一種可能的實施方式中,所述分支樹確定模塊具體用于:
對于所述分支樹,確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征的交集中包含的特征信息的數(shù)目M;
確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征信息的并集中包含的特征信息的數(shù)目N1,并根據(jù)所述M與所述N1的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率;或者確定所述多媒體數(shù)據(jù)的特征信息的數(shù)目與所述分支樹對應(yīng)的特征信息的數(shù)目的總數(shù)目N2,并根據(jù)所述M與所述N2的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
本發(fā)明實施例提供的多媒體數(shù)據(jù)處理方法和裝置中,接收待處理的多媒體數(shù)據(jù);根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率;確定所述覆蓋率大于第一預(yù)設(shè)閾值的分支樹,并從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支;將所述判斷條件分支上的葉子節(jié)點的值,確定為所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息,從而能夠快速、準(zhǔn)確地確定出多媒體數(shù)據(jù)的標(biāo)簽信息。另外,由于覆蓋率大于預(yù)設(shè)的第一閾值的分支樹的數(shù)目可能不止一個,因此,確定出的多媒體數(shù)據(jù)的標(biāo)簽信息的數(shù)目也不止一個,使得多媒體數(shù)據(jù)的標(biāo)簽信息覆蓋更全面,基于多媒體數(shù)據(jù)的標(biāo)簽信息進行推薦的準(zhǔn)確性更高。
附圖說明
圖1為本發(fā)明實施例提供的一種多媒體數(shù)據(jù)的處理方法的流程示意圖;
圖2為本發(fā)明實施例提供的一種樹型結(jié)構(gòu)的示意圖;
圖3為本發(fā)明實施例提供的一種樹型結(jié)構(gòu)的分支樹的示意圖;
圖4為本發(fā)明實施例提供的另一種多媒體數(shù)據(jù)的處理方法的流程示意圖;
圖5為本發(fā)明實施例提供的一種多媒體數(shù)據(jù)的處理裝置的示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
下面結(jié)合說明書附圖對本發(fā)明實施例作進一步詳細描述。應(yīng)當(dāng)理解,此處所描述的實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
圖1所示的實施例中,提供了一種多媒體數(shù)據(jù)的處理方法,所述方法包括:
S11、接收待處理的多媒體數(shù)據(jù);
本步驟中,所接收的多媒體數(shù)據(jù)可以是用戶上傳的,也可以是從數(shù)據(jù)庫中獲取的,本發(fā)明實施例不對獲取多媒體數(shù)據(jù)的方式進行限定。
可選的,所述多媒體數(shù)據(jù)包括但不限于:音頻數(shù)據(jù)(如歌曲,戲曲等)和視頻數(shù)據(jù)(如電視劇、電影等)等。
以多媒體數(shù)據(jù)是歌曲為例,用于表征歌曲的特性的特征信息包括:歌曲名、歌手名、使用樂器、節(jié)奏、節(jié)拍、音樂類型、受歡迎程度、作詞、作曲、關(guān)鍵歌詞等等。例如,標(biāo)識(ID)為001的歌曲的特征信息形成的序列為:[思念,鄭鈞,熱門,私奔,流派,布魯斯,搖滾,百度,吉他,腰鼓,薩克斯,長安]。
S12、根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率,其中,所述覆蓋率用于表示所述多媒體數(shù)據(jù)與各分支樹的相似程度。
S13、確定所述覆蓋率大于第一預(yù)設(shè)閾值的分支樹,并從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支;
S14、將所述判斷條件分支上的葉子節(jié)點的值,確定為所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息。
具體的,對于每個覆蓋率大于預(yù)設(shè)的第一閾值的分支樹,均執(zhí)行S13~S14。由于覆蓋率大于預(yù)設(shè)的第一閾值的分支樹的數(shù)目可能不止一個,所述多媒體數(shù)據(jù)的標(biāo)簽信息的個數(shù)為至少一個。
本發(fā)明實施例中,接收待處理的多媒體數(shù)據(jù);根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率;確定所述覆蓋率大于第一預(yù)設(shè)閾值的分支樹,并從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支;將所述判斷條件分支上的葉子節(jié)點的值,確定為所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息,從而能夠快速、準(zhǔn)確地確定出多媒體數(shù)據(jù)的標(biāo)簽信息。另外,由于覆蓋率大于預(yù)設(shè)的第一閾值的分支樹的數(shù)目可能不止一個,因此,確定出的多媒體數(shù)據(jù)的標(biāo)簽信息的數(shù)目也不止一個,使得多媒體數(shù)據(jù)的標(biāo)簽信息覆蓋更全面,基于多媒體數(shù)據(jù)的標(biāo)簽信息進行推薦的準(zhǔn)確性更高。
一種可能的實施方式中,S12中根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率,包括以下兩種可能的實現(xiàn)方式:
一、對于每個所述分支樹,確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征的交集中包含的特征信息的數(shù)目M,并確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征信息的并集中包含的特征信息的數(shù)目N1;以及根據(jù)所述M與所述N1的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
例如,直接將所述M與所述N1的比值,確定為所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
二、對于每個所述分支樹,確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征的交集中包含的特征信息的數(shù)目M,并確定所述多媒體數(shù)據(jù)的特征信息的數(shù)目與所述分支樹對應(yīng)的特征信息的數(shù)目的總數(shù)目N2;以及根據(jù)所述M與所述N2的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
例如,直接將所述M與所述N2的比值,確定為所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
又如,由于不同分支樹對應(yīng)的特征信息的數(shù)目可能不同,為了提高多媒體數(shù)據(jù)與不同分支樹的覆蓋率的可比性,將所述M與所述N2的比值乘以2得到的值,確定為所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
當(dāng)然,本發(fā)明實施例不限于采用上述兩個方式確定覆蓋率,也可以采用其他方式,只要能確定兩個序列之間的覆蓋程度的方式均涵蓋在本發(fā)明所要保護的范圍內(nèi)。
一種可能的實施方式中,所述方法還包括:
在所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息中,確定歸屬于同一類別且互斥的第一類標(biāo)簽信息;
若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,保留所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的一個第一類標(biāo)簽信息。
具體的,根據(jù)設(shè)定的互斥規(guī)則,對所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息進行過濾,將所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息中歸屬于同一類別且互斥的第一類標(biāo)簽信息進行過濾,只保留一個即可,從而使得所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息更準(zhǔn)確。例如,基于上述S11~S14得到的第一類標(biāo)簽信息中歸屬于語言類且互斥的第一類標(biāo)簽信息包括韓語、日語和中文,由于同一多媒體數(shù)據(jù)只能添加一個語言類標(biāo)簽,因此,從該三個第一類標(biāo)簽信息中選擇一個,并刪除其余兩個。
可選的,若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,保留所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的一個第一類標(biāo)簽信息,包括以下可能的實施方式:
方式1、若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,從所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中隨機選擇一個標(biāo)簽信息,并刪除所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的其他標(biāo)簽信息。
方式2、若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,根據(jù)至少一個其他類別的第一類標(biāo)簽信息,從所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中選擇一個標(biāo)簽信息,并刪除所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的其他標(biāo)簽信息。
該方式中,可以基于其他類別的第一類標(biāo)簽信息,從所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中選擇一個標(biāo)簽信息,從而使保留下來的第一類標(biāo)簽信息更準(zhǔn)確。
舉例說明,若某個歌曲的標(biāo)簽信息中歸屬于語言類且互斥的第一類標(biāo)簽信息包括韓語、日語和中文,則進一步可以根據(jù)該歌曲中歌手名對應(yīng)的第一類標(biāo)簽信息進行選擇,具體的:若歌手名為中文,則從歸屬于語言類的第一類標(biāo)簽信息中選擇中文,若歌手名為韓文,則從歸屬于語言類的第一類標(biāo)簽信息中選擇韓文,若歌手名為日文,則從歸屬于語言類的第一類標(biāo)簽信息中選擇日文。又如,還可以根據(jù)該歌曲中歌曲名對應(yīng)的第一類標(biāo)簽信息進行選擇,具體的:若歌曲名為中文,則從歸屬于語言類的第一類標(biāo)簽信息中選擇中文,若歌曲名為韓文,則從歸屬于語言類的第一類標(biāo)簽信息中選擇韓文,若歌曲名為日文,則從歸屬于語言類的第一類標(biāo)簽信息中選擇日文。
基于上述任一實施例,一種可能的實施方式中,所述方法還包括:
根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。
具體的,通過對網(wǎng)絡(luò)日志的分析基于用戶行為形成modify(修改)使用規(guī)則,以確定多媒體數(shù)據(jù)的第二類標(biāo)簽信息,從而在基于多媒體數(shù)據(jù)的標(biāo)簽信息(包括第一類標(biāo)簽信息和第二類標(biāo)簽信息)為用戶推薦多媒體數(shù)據(jù)時,準(zhǔn)確性更高。
可選的,根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,周期性確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。即對于每個設(shè)定周期,根據(jù)該設(shè)定周期內(nèi)用于表示用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,以確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。例如,統(tǒng)計每天的網(wǎng)絡(luò)日志,以確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。
可選的,所述網(wǎng)絡(luò)日志中包括但不限于以下信息中的至少一種:
所操作的多媒體數(shù)據(jù)的標(biāo)識信息、所執(zhí)行的操作的標(biāo)識信息、執(zhí)行操作的時間信息、所操作的多媒體數(shù)據(jù)的標(biāo)簽信息(包括第一類標(biāo)簽信息和第二類標(biāo)簽信息)。
可選的,對多媒體數(shù)據(jù)執(zhí)行的操作包括但不限于以下操作:收藏操作、刪除操作、播放操作等。
一種可能的實施方式中,根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息,包括:
對于每個日志集合,按照時間順序,確定屬于同一操作的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)是否包含特定標(biāo)簽信息,所述日志集合包含的網(wǎng)絡(luò)日志的數(shù)目大于K,K為大于0的整數(shù),所述特定標(biāo)簽信息為所述日志集合中至少K/A個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含的第一標(biāo)簽信息,A為設(shè)定的第二閾值;
若第j次確定出P1個連續(xù)的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,第j+1次確定出P2個連續(xù)的網(wǎng)絡(luò)日志應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,且在所述日志集合中按照時間順序位于第j次確定出的網(wǎng)絡(luò)日志和第j+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志的數(shù)目小于設(shè)定的第四閾值,將所述特定標(biāo)簽信息確定為位于第j次確定出的網(wǎng)絡(luò)日志和第i+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的第二類標(biāo)簽信息,j=1,2,…,L,所述L為正整數(shù),P1和P2均大于設(shè)定的第三閾值。
具體的,對于每個日志集合,按時間順序,依次確定所述日志集合中的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的第一類標(biāo)簽信息中是否包含所述特定標(biāo)簽信息。進一步,若第j次確定出連續(xù)有P1個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)包含所述特定標(biāo)簽信息之后,連續(xù)有小于第四閾值個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)不包含所述特定標(biāo)簽信息,接下來又第j+1次確定出連續(xù)有P2個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)包含所述特定標(biāo)簽信息,則將所述特定標(biāo)簽信息確定為所述小于第四閾值個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的第二類標(biāo)簽信息中;若第j次確定出連續(xù)有P1個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)包含所述特定標(biāo)簽信息之后,連續(xù)有大于或等于第四閾值個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)不包含所述特定標(biāo)簽信息,接下來又第j+1次確定出連續(xù)有P2個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)包含所述特定標(biāo)簽信息,則不作任何處理,繼續(xù)確定接下來的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的標(biāo)簽信息中是否包含所述特定標(biāo)簽信息,并重復(fù)上述過程,直至所述日志集合中的最后一個網(wǎng)絡(luò)日志。
可選的,可以根據(jù)網(wǎng)絡(luò)日志的時間信息,以時間為單位,將網(wǎng)絡(luò)日志劃分為多個網(wǎng)絡(luò)日志組;例如,以1小時為單位進行劃分;再從所劃分的網(wǎng)絡(luò)日志組中確定出所包含的網(wǎng)絡(luò)日志的數(shù)目大于K個且至少K/A個網(wǎng)絡(luò)日志所操作的多媒體數(shù)據(jù)包含特定標(biāo)簽信息的網(wǎng)絡(luò)日志組(即所述日志集合)。也可以根據(jù)網(wǎng)絡(luò)日志的時間信息,以網(wǎng)絡(luò)日志的數(shù)目為單位,將網(wǎng)絡(luò)日志劃分為多個網(wǎng)絡(luò)日志組;例如,以所述K為單位進行劃分;再從所劃分的網(wǎng)絡(luò)日志組中確定出所包含的網(wǎng)絡(luò)日志中至少K/A個網(wǎng)絡(luò)日志所操作的多媒體數(shù)據(jù)包含特定標(biāo)簽信息的網(wǎng)絡(luò)日志組(即所述日志集合)。
可選的,由于不是所有的用戶操作都具有規(guī)律性,因此,可以基于設(shè)定操作,確定多媒體數(shù)據(jù)的第二類標(biāo)簽信息,以使確定出多媒體數(shù)據(jù)的第二類標(biāo)簽信息更加準(zhǔn)確。例如,基于播放操作,確定多媒體數(shù)據(jù)的第二類標(biāo)簽信息。
可選的,為了使確定出的第二類特定標(biāo)簽信息更為準(zhǔn)確,所述方法還包括:
對于添加了第二類標(biāo)簽信息的任一多媒體數(shù)據(jù),若已處理的設(shè)定數(shù)量的日志集合中,包含添加了任一第二類標(biāo)簽信息的該多媒體數(shù)據(jù)的數(shù)量與該多媒體數(shù)據(jù)的數(shù)量不滿足設(shè)定的約束條件,刪除該多媒體數(shù)據(jù)中的所述任一第二類標(biāo)簽信息。
其中,該多媒體數(shù)據(jù)的數(shù)量為沒有添加所述任一第二類標(biāo)簽信息的該多媒體數(shù)據(jù)的數(shù)量與添加了所述任一第二類標(biāo)簽信息的該多媒體數(shù)據(jù)的數(shù)量之和。
具體的,基于多個日志集合,為了判斷所確定的第二類標(biāo)簽信息是否準(zhǔn)確,對于添加了任一第二類標(biāo)簽信息的任一多媒體數(shù)據(jù),若已處理的設(shè)定數(shù)量的日志集合中。若包含添加了該第二類標(biāo)簽信息的該多媒體數(shù)據(jù)的數(shù)量與該多媒體數(shù)據(jù)的數(shù)量滿足設(shè)定的約束條件,則認(rèn)為該多媒體數(shù)據(jù)應(yīng)該包含該第二類標(biāo)簽信息;若包含添加了該第二類標(biāo)簽信息的該多媒體數(shù)據(jù)的數(shù)量與該多媒體數(shù)據(jù)的數(shù)量不滿足所述約束條件,則認(rèn)為該多媒體數(shù)據(jù)不應(yīng)該包含該第二類標(biāo)簽信息。
可選的,設(shè)定的約束條件為:包含添加了任一第二類標(biāo)簽信息的該多媒體數(shù)據(jù)的數(shù)量大于該多媒體數(shù)據(jù)的數(shù)量的一半。
舉例說明,對網(wǎng)絡(luò)日志進行時間切割,即將網(wǎng)絡(luò)日志以時間為單位劃分為多個日志集合,針對每個日志集合進行基于時間上下文的依賴關(guān)系提取與分析,對每個日志集合中網(wǎng)絡(luò)日志所操作的多媒體數(shù)據(jù)包含的特定標(biāo)簽信息,按時間順序,確定出最大化場景集合Ctag,具體如下:
1)按時間順序,從該日志集合內(nèi)包含有該特定標(biāo)簽信息tag的第一條網(wǎng)絡(luò)日志開始,進行場景集合的擴張,假設(shè)包含有tag的第一條網(wǎng)絡(luò)日志為該日志集合中的第gi個,將第gi個網(wǎng)絡(luò)日志添加至Ctag中;
2)若第gi+1個網(wǎng)絡(luò)日志也包含tag,則將第gi+1個網(wǎng)絡(luò)日志添加至Ctag中,重復(fù)執(zhí)行該步驟;否則進入步驟3);
3)從gi+1開始向后搜索連續(xù)不包含tag的網(wǎng)絡(luò)日志的個數(shù),設(shè)不包含tag的序列為gi+1,gi+2,…,gi+k,則繼續(xù)從gi+k+1開始向后搜索連續(xù)包含tag的網(wǎng)絡(luò)日志,設(shè)為gi+k+p個。如果p>k/2,則將第gi+1至gi+k+p個網(wǎng)絡(luò)日志加入Ctag,否則進入步驟4。
4)將gi+k+1開始向后的第一個包含tag的網(wǎng)絡(luò)日志作為本次場景集合的起始記錄,如果該網(wǎng)絡(luò)日志不是日志集合中的最后一個網(wǎng)絡(luò)日志,返回步驟2),否則進入步驟5)。
5)如果Ctag的大小大于最小場景序列閾值Φ,則在Ctag中所有不包含tag的網(wǎng)絡(luò)日志所操作的多媒體數(shù)據(jù)的特征信息中都添加該tag以及第一個包含tag的網(wǎng)絡(luò)日志的標(biāo)識信息,否則本次循環(huán)結(jié)束。
進一步,對所有添加了tag的多媒體數(shù)據(jù)進行計算,如果添加了tag的多媒體信息出現(xiàn)次數(shù)大于該多媒體信息出現(xiàn)次數(shù)的1/2,則為該多媒體信息添加此tag屬性及當(dāng)前時間作為modifytime屬性。
可選的,所述方法還包括:
在添加了第二類標(biāo)簽信息的多媒體數(shù)據(jù)中,記錄添加所述第二類標(biāo)簽信息的時間信息;
在所述時間信息超過設(shè)定的時間閾值后,從所述多媒體數(shù)據(jù)中刪除所述第二類標(biāo)簽信息。
具體的,全局動態(tài)場景管理過程中不斷循環(huán)對本階段添加的時間屬性modifytime(即添加tag的時間信息)進行核查,如果任一多媒體信息的時間屬性超出有效期閾值,則刪除該多媒體信息中已添加的第二類標(biāo)簽信息和時間屬性。
基于上述任一實施例,本發(fā)明實施例中可以按照如下步驟,生成所述樹型結(jié)構(gòu):
根據(jù)預(yù)先配置的樣本數(shù)據(jù)的標(biāo)簽信息所屬的標(biāo)簽類別,將所述樣本數(shù)據(jù)劃分為至少兩個數(shù)據(jù)集合,每個所述數(shù)據(jù)集合對應(yīng)所述樹型結(jié)構(gòu)的一個分支樹;
對于每個所述數(shù)據(jù)集合,根據(jù)所述數(shù)據(jù)集合包含的樣本數(shù)據(jù)的特征信息所屬的特征類別,將所述數(shù)據(jù)集合中的樣本數(shù)據(jù)劃分為至少一個類別組,并計算每個類別組的信息增益率,所述信息增益率是基于所述類別組中的樣本數(shù)據(jù)的特征信息的信息熵確定的;依次選擇信息增益率最大的類別組作為分裂屬性,根據(jù)信息增益率最大的類別組包含的樣本數(shù)據(jù)的特征信息,構(gòu)建所述分支樹的判斷條件分支,所述判斷條件分支上的葉子節(jié)點為所述數(shù)據(jù)集合中的樣本數(shù)據(jù)的標(biāo)簽信息。
其中,類別組的信息增益率越大,則該類別組對應(yīng)的判斷條件分支的優(yōu)先級越高。
例如,以歌曲為例,特征信息所屬的特征類別包括但不限于樂器類、發(fā)行年代類、歌手專輯類等。又如,以戲曲為例,特征信息所屬的特征類別包括但不限于唱法類、樂器類、角色類等。
可選的,在構(gòu)建所述分支樹的判斷條件分支時,若當(dāng)前信息增益率最大的類別組包括至少兩個,則從所述至少兩個分類組中選擇一個分類組作為分裂屬性。例如,從所述至少兩個分類組中隨機選擇一個分類組作為分裂屬性。
一種可能的實施方式中,根據(jù)預(yù)先配置的樣本數(shù)據(jù)的標(biāo)簽信息所屬的標(biāo)簽類別,將所述樣本數(shù)據(jù)劃分為至少兩個數(shù)據(jù)集合,具體包括:
根據(jù)任意兩個樣本數(shù)據(jù)的特征信息,確定所述任意兩個樣本數(shù)據(jù)的覆蓋率;
若所述覆蓋率大于設(shè)定的第五閾值,將所述任意兩個樣本數(shù)據(jù)進行合并,形成數(shù)據(jù)組,并返回確定覆蓋率的步驟,直至確定出的覆蓋率均小于或等于所述第五閾值后,將每個最終得到的數(shù)據(jù)組確定為一個數(shù)據(jù)集合。
上述過程稱為預(yù)剪支過程,即先將樣本數(shù)據(jù)作為樹型結(jié)構(gòu)的葉子節(jié)點,然后對其進行預(yù)剪支,使得不相關(guān)的樣本數(shù)據(jù)分配到不同分支樹中,具體如下:
a)任意兩個樣本數(shù)據(jù)間的覆蓋率(coverage_rate)。
假設(shè)樣本數(shù)據(jù)1的特征信息序列為L1=[l11,l12,l13,…],樣本數(shù)據(jù)2的特征信息序列為L2=[l21,l22,l23,…],則樣本數(shù)據(jù)1和樣本數(shù)據(jù)2間的覆蓋率coverage_rate12=2*len(L1∩L2)/len(L1+L2),其中,len(L1∩L2)表示L1∩L2中包含的元素個數(shù),len(L1+L2)表示L1中包含的元素個數(shù)和L2中包含的元素個數(shù)之和。
b)將coverage_rate>ω(即第五閾值)的兩個樣本數(shù)據(jù)合并。
c)重新計算覆蓋率。
d)重復(fù)步驟b和c直至沒有可合并的樣本數(shù)據(jù)或數(shù)據(jù)組。
通過上述預(yù)剪枝過程可減少初始的分支樹的個數(shù),從而減少后續(xù)決策分類的計算量,提高后續(xù)決策分類的處理效率。
可選的,在進行預(yù)剪支之前,還包括:
對樣本數(shù)據(jù)的特征信息進行歸一化處理;
對歸一化的樣本數(shù)據(jù)的特征信息進行去同化處理。
其中,歸一化處理是將所有樣本數(shù)據(jù)的特征信息中屬于同一特征類別的特征信息進行歸一,例如,將布魯斯、節(jié)奏布魯斯、藍調(diào)、R&B這些特征信息歸一到布魯斯類型。去同化處理是將樣本數(shù)據(jù)的特征信息中所有樣本數(shù)據(jù)都包含的特征信息剔除。
一種可能的實施方式中,根據(jù)任意兩個樣本數(shù)據(jù)的特征信息,確定所述任意兩個樣本數(shù)據(jù)的覆蓋率,包括:
對于任意兩個樣本數(shù)據(jù),確定所述任意兩個樣本數(shù)據(jù)的特征信息的交集中包含的特征信息的數(shù)目M,并確定所述任意兩個樣本數(shù)據(jù)的特征信息的總數(shù)目N2;以及根據(jù)所述M與所述N2的比值,確定所述任意兩個樣本數(shù)據(jù)的覆蓋率;或者
對于任意兩個樣本數(shù)據(jù),確定所述任意兩個樣本數(shù)據(jù)的特征信息的交集中包含的特征信息的數(shù)目M,并確定所述任意兩個樣本數(shù)據(jù)的特征信息的并集中包含的特征信息的數(shù)目N2;以及根據(jù)所述M與所述N2的比值,確定所述任意兩個樣本數(shù)據(jù)的覆蓋率。
例如,將所述M與所述N2的比值,確定為所述任意兩個樣本數(shù)據(jù)的覆蓋率。又如,將所述M與所述N2的比值乘以2得到的值,確定為所述任意兩個樣本數(shù)據(jù)的覆蓋率。又如,將所述M與所述N2的比值,確定為所述任意兩個樣本數(shù)據(jù)的覆蓋率。
本發(fā)明實施例中,每個類別組的信息增益率可以用于判斷該類別組中的樣本數(shù)據(jù)的特征信息,對于確定標(biāo)簽信息分類的能力。其中,類別組的息增益率越大,則說明該類別組中的樣本數(shù)據(jù)的特征信息,對于確定標(biāo)簽信息分類的能力越強。通過信息增益率來選擇分裂屬性構(gòu)建判斷條件分支,從而能夠克服通過信息增益來選擇分裂屬性時會偏向于屬性多的類別作為分裂屬性的不足。
一種可能的實施方式中,按照如下公式,計算每個類別組的信息增益率:
其中,A表示每個數(shù)據(jù)集合對應(yīng)的標(biāo)簽集合,C表示A中每類標(biāo)簽,ε為所有類別組的SplitInfo(A,C)的平均值;n為類別組的數(shù)目,mn為類別組中樣本數(shù)據(jù)的數(shù)目,C表示每類特征信息,c表示C中的特征信息,numc表示包含特征信息c的樣本數(shù)據(jù)的數(shù)目,numx表示數(shù)據(jù)集合中包含的樣本數(shù)據(jù)的數(shù)目。
其中,E(c)=sum(-p(I)*log(p(I))),I=1,2,…,X,X表示根據(jù)預(yù)先配置的分類規(guī)則劃分得到的數(shù)據(jù)組的數(shù)目(即數(shù)據(jù)集合的數(shù)目)。p(I)表示樣本數(shù)據(jù)中特征信息c出現(xiàn)在第I個數(shù)據(jù)集合中的概率。例如,樣本數(shù)據(jù)中出現(xiàn)特征信息a的樣本數(shù)據(jù)的數(shù)目為s,s個樣本數(shù)據(jù)中類別為I的樣本數(shù)據(jù)的數(shù)目為m,則p(I)=m/s。
舉例說明,以音頻數(shù)據(jù)為例進行說明,假設(shè)有8個樣本數(shù)據(jù),記為m1~m8。首先,根據(jù)樣本數(shù)據(jù)的描述信息,可以獲取到樣本數(shù)據(jù)的特征信息,將獲取到的特征信息進行清洗和聚合后,得到每個樣本數(shù)據(jù)對應(yīng)的特征信息序列,具體如下:
m1:[布魯斯,原聲吉他,電吉他,口琴,和聲,圣歌,即興,原創(chuàng)性,藍調(diào),安慰,緊張,哭訴,疏解];
m2:[搖滾,激情,節(jié)奏,架子鼓,貝司,solo,吉他];
m3:[呂劇,小生、小旦、小丑,墜子琴,洪亮];
m4:[輕音樂,舒緩,優(yōu)美,輕松,舒適,鋼琴,大提琴,薩克斯管,豎琴,長笛,單簧管,排簫,小提琴,民間樂器,曼陀羅,口琴,手風(fēng)琴,木琴,三腳鐵,碰鈴,沙錘,曼托瓦尼];
m5:[京劇,生,旦,凈,丑,梅派,馬派,京白,胡琴];
m6:[班得瑞,舒緩,優(yōu)美,輕松,舒適,小提琴,鋼琴,木琴,三腳鐵];
m7:[京劇,鑼鼓,洪亮,生,旦,凈];
m8:[呂劇,鑼鼓,洪亮,小旦、小丑]。
上述特征序列中的第一個元素為該樣本數(shù)據(jù)所屬類別,不參與后續(xù)處理。
接著,計算任意兩個樣本數(shù)據(jù)間的覆蓋率,基于得到的覆蓋率將樣本數(shù)據(jù)進行合并,假設(shè)上述8個樣本數(shù)據(jù)最終劃分為三個數(shù)據(jù)集合:[(m1,m2),(m3,m5,m7,m8),(m4,m6)],如圖2所示,即將整棵決策樹分成了三個分支樹。針對每個分支樹,計算該分支樹內(nèi)每個類別組的信息熵E:
以數(shù)據(jù)集合(m3,m5,m7,m8)為例,該四個樣本數(shù)據(jù)的標(biāo)簽信息只有兩個,即呂劇和京劇,結(jié)合預(yù)先配置的知識表,計算(m3,m5,m7,m8)中樣本數(shù)據(jù)的特征信息的信息熵E,具體如下:
E(小生、小旦、小丑)=-(1/2)*log2(1/2)-(1/2)*log2(1/2)=1;
E(生,旦,凈)=-(1/2)log2(1/2)-(1/2)log2(1/2)=1;
E(墜子琴)=-(1/2)log2(1/2)-(1/2)log2(1/2)=1;
E(鑼鼓)=-(1/2)log2(1/2)-(1/2)log2(1/2)=1;
E(洪亮)=-(1/3)log2(1/3)-(1/2)log2(1/2)=1.0266;
E(馬派)=-(1/1)log2(1/1)-(0/1)log2(0/1)=0。
然后,計算數(shù)據(jù)集合中的各類別組的信息增益,具體為:(m3,m5,m7,m8)中的樣本數(shù)據(jù)的特征信息分為角色類,唱法類和樂器類,其中:
Gain(樂器)=E(樂器)-(2/4)E(墜子琴)-(2/4)E(鑼鼓)=-(1/2)log2(1/2)-(1/2)log2(1/2)-1/2-1/2=0;
Gain(唱法)=E(唱法)-(1/4)E(馬派)-(3/4)E(洪亮)=1-(1/4)*0-(3/4)*1.0266=0.231;
Gain(角色)=E(角色)-(2/4)E(小生、小旦、小丑)-(2/4)E(生,旦,凈)=1-(2/4)*1-(2/4)*1=0。
然后,計算每個類別組的信息增益率,具體為:
GainRatio(樂器)=0;
GainRatio(角色)=0;
GainRatio(唱法)=0.3113/(SplitInfo+ε)=0.3113/(2.8775+1.63)=0.07。
然后,依次選取信息增益率最大的屬性作為分裂屬性,構(gòu)建分支樹的判斷條件分支,結(jié)構(gòu)如圖3所示。構(gòu)建分支樹的判斷條件分支時,終止條件為任一標(biāo)簽全部區(qū)分開來,或任一樣本數(shù)據(jù)的標(biāo)簽覆蓋到該標(biāo)簽所述的類別組的程度達到預(yù)先設(shè)定的覆蓋率閾值。
本發(fā)明實施例提供的方法的處理過程如圖4所示,包括:
1)預(yù)處理。具體為:在有多媒體數(shù)據(jù)輸入時,對多媒體數(shù)據(jù)的描述信息,進行預(yù)處理(包括清洗,聚合等處理),得到該多媒體數(shù)據(jù)的特征信息;
2)基于樹型結(jié)構(gòu)的判別階段。具體為:根據(jù)該多媒體數(shù)據(jù)的特征信息,基于預(yù)先生成的樹型結(jié)構(gòu),確定出該多媒體數(shù)據(jù)的標(biāo)簽信息;
3)基于Modify規(guī)則的處理。具體為:根據(jù)Modify規(guī)則,第一次更新該多媒體數(shù)據(jù)的標(biāo)簽信息;其中,Modify規(guī)則是分析網(wǎng)絡(luò)日志得到的。
4)基于互斥規(guī)則的處理。具體為:根據(jù)互斥規(guī)則,第二次更新該多媒體數(shù)據(jù)的標(biāo)簽信息,并將該多媒體數(shù)據(jù)存儲于數(shù)據(jù)庫中;可選的,互斥表可以是分析網(wǎng)絡(luò)日志得到的,也可以是預(yù)先配置的。
5)輸出資源。具體為:根據(jù)多媒體數(shù)據(jù)的標(biāo)簽信息,基于用戶偏好,從數(shù)據(jù)庫中為用戶推薦多媒體數(shù)據(jù)。
舉例說明,假設(shè)當(dāng)前輸入的多媒體數(shù)據(jù)mi的特征信息為[洪亮,鑼鼓,生,旦,凈,丑,二胡],將mi輸入圖3所示的決策樹模型,分別計算mi與決策樹的三個分支樹的覆蓋率,只要覆蓋率大于設(shè)定的第一閾值,該mi即流向該分支樹,這樣一個多媒體數(shù)據(jù)會屬于多個分支樹,從而使得一個多媒體數(shù)據(jù)會具有多個不同類別的標(biāo)簽信息。經(jīng)計算假設(shè)mi只被分到(m3,m5,m7,m8)對應(yīng)的分支樹中,進一步:首先確定mi唱法類的特征信息為[洪亮],并分別與該分支樹的第一層判斷條件分支進行比較,即分別計算與第一層判斷條件分支的[馬派]和[洪亮]的覆蓋率,確定出mi與右側(cè)[洪亮]分支覆蓋率大于左側(cè),于是該mi進入右側(cè)分支。同理,進行后續(xù)分支直至mi進入京劇葉子節(jié)點,為mi添加京劇標(biāo)簽信息。
基于用戶隱性反饋的適應(yīng)階段時,設(shè)mi出現(xiàn)在某場景集合中:[[t1,m1,g1],[t2,m2,g2],[t3,m3,g3],...[ti,mi,gi],...],假設(shè)mi的標(biāo)簽信息為{tags:[tag1,tag2,...],dinamictags:[{addtag:‘午飯后’,modifytime:‘11:30:10’},{addtag:‘晚飯后’,modifytime:‘17:20:00’}]}。計算所有出現(xiàn)mi的網(wǎng)絡(luò)日志的條數(shù)記為totlenum,計算所有Ctag集合中為mi添加了tag標(biāo)簽的條數(shù),記為addnum,如果addnum>(1/2)totlenum,則為mi添加tag這個標(biāo)簽,此處tag代表“午飯后”或“晚飯后”。
上述方法處理流程可以用軟件程序?qū)崿F(xiàn),該軟件程序可以存儲在存儲介質(zhì)中,當(dāng)存儲的軟件程序被調(diào)用時,執(zhí)行上述方法步驟。
基于同一發(fā)明構(gòu)思,本發(fā)明實施例中還提供了一種多媒體數(shù)據(jù)的處理裝置,由于該裝置解決問題的原理與上述一種多媒體數(shù)據(jù)的處理方法相似,因此該裝置的實施可以參見方法的實施,重復(fù)之處不再贅述。
圖5所示的實施例中,提供了一種多媒體數(shù)據(jù)的處理裝置,包括:
接收模塊51,用于接收待處理的多媒體數(shù)據(jù);
分支樹確定模塊52,用于根據(jù)所述多媒體數(shù)據(jù)的特征信息和預(yù)先生成的樹型結(jié)構(gòu)的各分支樹對應(yīng)的特征信息,確定所述多媒體數(shù)據(jù)與各分支樹的覆蓋率,其中,所述覆蓋率用于表示所述多媒體數(shù)據(jù)與各分支樹的相似程度;
分支確定模塊53,用于確定所述覆蓋率大于第一預(yù)設(shè)閾值的分支樹,并從所述分支樹包含的判斷條件分支中,確定所述多媒體數(shù)據(jù)的特征信息滿足的判斷條件分支;
標(biāo)簽確定模塊54,用于將所述判斷條件分支上的葉子節(jié)點的值,確定為所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息。
可選的,所述分支確定模塊52具體用于:
按照所述判斷條件分支的優(yōu)先級順序,依次將所述多媒體數(shù)據(jù)的特征信息與所述判斷條件分支的判斷條件進行匹配;
若所述多媒體數(shù)據(jù)的至少一個特征信息與任一判斷條件分支的判斷條件匹配,則確定所述多媒體數(shù)據(jù)的特征信息滿足所述任一判斷條件分支。
可選的,所述標(biāo)簽確定模塊54還用于:
在所述多媒體數(shù)據(jù)的第一類標(biāo)簽信息中,確定歸屬于同一類別且互斥的第一類標(biāo)簽信息;
若所述歸屬于同一類別且互斥的第一類標(biāo)簽信息的個數(shù)大于1,保留所述歸屬于同一類別且互斥的第一類標(biāo)簽信息中的一個第一類標(biāo)簽信息。
基于上述任一實施例,可選的,所述標(biāo)簽確定模塊54還用于:
根據(jù)用戶對多媒體數(shù)據(jù)執(zhí)行的操作的網(wǎng)絡(luò)日志,確定用戶所操作的多媒體數(shù)據(jù)的第二類標(biāo)簽信息。
一種可能的實施方式中,所述標(biāo)簽確定模塊54具體用于:
對于每個日志集合,按照時間順序,確定屬于同一操作的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)是否包含特定標(biāo)簽信息,所述日志集合包含的網(wǎng)絡(luò)日志的數(shù)目大于K,K為大于0的整數(shù),所述特定標(biāo)簽信息為所述日志集合中至少K/A個網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含的第一標(biāo)簽信息,A為設(shè)定的第二閾值;
若第j次確定出P1個連續(xù)的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,第j+1次確定出P2個連續(xù)的網(wǎng)絡(luò)日志應(yīng)的多媒體數(shù)據(jù)均包含所述特定標(biāo)簽信息,且在所述日志集合中按照時間順序位于第j次確定出的網(wǎng)絡(luò)日志和第j+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志的數(shù)目小于設(shè)定的第四閾值,將所述特定標(biāo)簽信息確定為位于第j次確定出的網(wǎng)絡(luò)日志和第i+1次確定出的網(wǎng)絡(luò)日志之間的網(wǎng)絡(luò)日志對應(yīng)的多媒體數(shù)據(jù)的第二類標(biāo)簽信息,j=1,2,…,L,所述L為正整數(shù),P1和P2均大于設(shè)定的第三閾值。
進一步,所述標(biāo)簽確定模塊54還用于:
在添加了第二類標(biāo)簽信息的多媒體數(shù)據(jù)中,記錄添加所述第二類標(biāo)簽信息的時間信息;
在所述時間信息超過設(shè)定的時間閾值后,從所述多媒體數(shù)據(jù)中刪除所述第二類標(biāo)簽信息。
基于上述任一實施例,可選的,所述分支樹確定模塊52具體用于:
對于所述分支樹,確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征的交集中包含的特征信息的數(shù)目M;
確定所述多媒體數(shù)據(jù)的特征信息與所述分支樹對應(yīng)的特征信息的并集中包含的特征信息的數(shù)目N1,并根據(jù)所述M與所述N1的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率;或者確定所述多媒體數(shù)據(jù)的特征信息的數(shù)目與所述分支樹對應(yīng)的特征信息的數(shù)目的總數(shù)目N2,并根據(jù)所述M與所述N2的比值,確定所述多媒體數(shù)據(jù)與所述分支樹的覆蓋率。
基于上述任一實施例,可選的,所述裝置還包括:
建模模塊55,用于按照如下步驟生成所述樹型結(jié)構(gòu):
根據(jù)預(yù)先配置的樣本數(shù)據(jù)的標(biāo)簽信息所屬的標(biāo)簽類別,將所述樣本數(shù)據(jù)劃分為至少兩個數(shù)據(jù)集合,每個所述數(shù)據(jù)集合對應(yīng)所述樹型結(jié)構(gòu)的一個分支樹;
對于每個所述數(shù)據(jù)集合,根據(jù)所述數(shù)據(jù)集合包含的樣本數(shù)據(jù)的特征信息所屬的特征類別,將所述數(shù)據(jù)集合中的樣本數(shù)據(jù)劃分為至少一個類別組,并計算每個類別組的信息增益率,所述信息增益率是基于所述類別組中的樣本數(shù)據(jù)的特征信息的信息熵確定的;依次選擇信息增益率最大的類別組作為分裂屬性,根據(jù)信息增益率最大的類別組包含的樣本數(shù)據(jù)的特征信息,構(gòu)建所述分支樹的判斷條件分支,所述判斷條件分支上的葉子節(jié)點為所述數(shù)據(jù)集合中的樣本數(shù)據(jù)的標(biāo)簽信息。
可選的,所述建模模塊55具體用于:
根據(jù)任意兩個樣本數(shù)據(jù)的特征信息,確定所述任意兩個樣本數(shù)據(jù)的覆蓋率;
若所述覆蓋率大于設(shè)定的第五閾值,將所述任意兩個樣本數(shù)據(jù)進行合并,形成數(shù)據(jù)組,并返回確定覆蓋率的步驟,直至確定出的覆蓋率均小于或等于所述第五閾值后,將每個最終得到的數(shù)據(jù)組確定為一個數(shù)據(jù)集合。
在本實施例中,接收模塊51,分支樹確定模塊52、分支確定模塊53、標(biāo)簽確定模塊54和建模模塊55是以功能模塊的形式來呈現(xiàn)。這里的“模塊”可以指特定應(yīng)用集成電路(application-specific integrated circuit,ASIC),電路,執(zhí)行一個或多個軟件或固件程序的處理器和存儲器,集成邏輯電路,和/或其他可以提供上述功能的器件。在一個簡單的實施例中,本領(lǐng)域的技術(shù)人員可以想到接收模塊51和建模模塊55可以通過計算機設(shè)備的處理器、存儲器和輸入接口等來實現(xiàn),分支樹確定模塊52、分支確定模塊53和標(biāo)簽確定模塊54可以通過計算機設(shè)備的處理器和存儲器等來實現(xiàn)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。