br>[0110] j L-n-r*f3# (r+1) *f3-value_lst n G (I, 2,. . . , f2*f3) - (14);
[0111] j' R-r*f3# (r+1) *f3-n-value_lst n G (I, 2,. . . , f2*f3) - (15);
[0112] 完成拷貝后,所拷貝的各元素仍然帶有其所處位置的標簽,另外還帶有拷貝的序 列號,即對應為Map階段的key。
[0113] S504 :執(zhí)行因子相乘的準備步驟。
[0114] 元素拷貝完成后,接下來就將進入最終元素相乘的最后準備工作。此步驟依據(jù)表 達式(11),將接下來將要進行相乘的具有對應位置標記的左、右矩陣的兩條記錄合并為一 條記錄,以便于在下一個步驟中經(jīng)過一輪的Hadoop Map Reduce就可以完成元素相乘。合 并后左、右矩陣元素的記錄為:
[0115] n-j-j,element_list-L, n, j-element_list-R, n, j'-(16)
[0116] 表達式(16)中的element_list-L,n,j表示左矩陣中的第n列第j個分段中的各 向量集合,element_list-R,n,j'表示右矩陣中的第n行第j'個分段中的各向量集合。
[0117] S505 :通過矩陣相乘得到乘積矩陣中的每一個元素,即得到視頻間相似度。
[0118] 將表達式(16)中的各條記錄中左矩陣element_liSt向量集合中的各個元素依次 與右矩陣elemenOist向量集合中的各個元素相乘。相乘過程中,左矩陣中各個元素的 key表示為movieid (L),即該元素在左矩陣的具體位置;同理,右矩陣中各個元素的key表 示為movieid (R)。value值記為兩元素的乘積,從而形成Reduce階段的key/value對輸出。
[0119] 在Reduce階段,將具有相同key的記錄匯總,即可得到最終乘積矩陣中的每一個 元素,即采用外積法計算矩陣A與矩陣B相乘,得到的矩陣C中的每一個元素。
[0120] S60 :根據(jù)相似度值的大小確定出相似度高的視頻,并進行記錄。
[0121] 例如,選取每個視頻相似度值前50個視頻組成視頻相似度記錄存入相應數(shù)據(jù)庫 中。
[0122] 由上,則完成了視頻相似度的判斷以及錄入數(shù)據(jù)庫,該數(shù)據(jù)庫即可以用于視頻推 薦業(yè)務等。如,當用戶觀看視頻A的時候,根據(jù)該數(shù)據(jù)庫的記錄可確定出符合相似度要求的 其他視頻,向該用戶進行推送。
[0123] 圖3所示為實現(xiàn)上述方法的裝置原理示意圖,包括:視頻標簽抓取模塊31,用于從 互聯(lián)網(wǎng)抓取視頻庫中所有視頻的內(nèi)容相關標簽,并進行去重處理所述視頻內(nèi)容相關標簽如 前述步驟S20中包括的"歐冠"、"尤文圖斯"、"巴塞羅那"、"梅西"、"皮爾洛"、"哈維"、"莫拉 塔"等等。
[0124] 視頻標簽數(shù)據(jù)庫模塊32,與所述視頻標簽抓取模塊31連接,用于存儲視頻庫中各 視頻的所有標簽。
[0125] LDA主題模型訓練模塊33,與所述視頻標簽抓取模塊31連接,基于與視頻內(nèi)容 相關的標簽對視頻庫進行訓練得到主題建模。此模塊即是通過對視頻庫中各個視頻進行 訓練,得到各視頻中由標簽生成視頻的規(guī)律,也即視頻由哪些主題組成,主題由哪些標簽組 成,及各主題在視頻中所占比重,即步驟S40所述的向量值。
[0126] 視頻-主題接口模塊34,與所述LDA主題模型訓練模塊33連接,用于存儲LDA主 題模型訓練模塊訓練結(jié)果。該訓練結(jié)果指出了每個視頻的主題組成,及這些主題在視頻中 所占比重。
[0127] 大規(guī)模視頻相似度計算模塊35,與所述LDA主題模型訓練模塊33連接,此計算模 炔基于LDA主題模型訓練結(jié)果視頻-主題分布計算視頻相似度。
[0128] 視頻相似矩陣數(shù)據(jù)庫模塊36,與大規(guī)模視頻相似度計算模塊35連接,用于存儲視 頻間相似關系,即視頻庫中每兩個視頻間相似度。
[0129] 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明。總之,凡在本發(fā)明 的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之 內(nèi)。
【主權項】
1. 一種基于視頻主題相似度的視頻推送方法,其特征在于,包括以下步驟: A、 抓取各個視頻對應的標簽; B、 針對所述各個視頻的標簽進行LDA訓練,獲得各個視頻的主題分布; C、 基于步驟B所述各個視頻的主題分布構建視頻-主題分布矩陣,記為矩陣A,其轉(zhuǎn)置 矩陣表示為矩陣B ; D、 將所述矩陣A、B分別作為左右矩陣,采用外積法利用Hadoop Map Reduce分布式計 算框架進行矩陣相乘計算,獲得各個視頻間的主題相似度; E、 根據(jù)所述各個視頻間的主題相似度選擇視頻進行推送。2. 根據(jù)權利要求1所述的方法,其特征在于,步驟A后還包括步驟:對所抓取的各個視 頻對應的標簽進行去重處理。3. 根據(jù)權利要求1所述的方法,其特征在于, 步驟B包括: 將所抓取的各個視頻標簽歸納為各個視頻的不同主題; 針對所述不同主題進行LDA訓練,得出各個視頻合適的主題個數(shù)以及不同主題分別所 占的比重值。4. 根據(jù)權利要求3所述的方法,其特征在于,所述得出各個視頻合適的主題個數(shù)包括: 采用以下計算式:其中,M表示視頻庫中視頻總數(shù),Wd表示第d個視頻,N d表示第d個視頻的視頻標簽總 數(shù),Wn表示第d個視頻標簽中第η個詞,K表示第d個視頻的視頻主題總數(shù),z表示第d個 視頻的第z個視頻主題; 計算結(jié)果perplexity值與所述主題個數(shù)的合適程度成反比。5. 根據(jù)權利要求1~4任一所述的方法,其特征在于,步驟D包括: D1、所述矩陣A表示為:對于矩陣A中各元素的列位置序號記為key,其對應的value值 標記為 L-movieid-value 形式; 所述矩陣B表示為:對于矩陣B中各元素的行位置序號記為key,其對應的value值標 記為 R_movieid_value 形式; L、R分別表示左、右矩陣;movieid表示左矩陣行位置及右矩陣列位置;value值表示各 元素所對應的不同主題所占的比重值; 將所述矩陣A、B分別按列、行分段;所述分段方式為:將視頻的總數(shù)進行因數(shù)分解表示 為3個因數(shù),記為f\、&及f 3,每個分段包含個值,共有f 2*&個分段; 分段后,對各個分段進行標記,左矩陣第η列第j個分段表示為: j L-n-l#f2*f3-value_lst n e (I, 2,. . . , f2*f3); 右矩陣第n行第j'個分段表示為: j' R-l#f2*f3-n-value_lst n e (I, 2,. . . , f2*f3); l#f2*f3表示各元素拷貝份數(shù)的序列號,I表示開始序列號,匕*&表示拷貝總數(shù);value_ 1st表示在該分段內(nèi)各視頻主題所占的比重值的列表; D2、對分段的矩陣A、B執(zhí)行Hadoop Map Reduce的分段拷貝任務時,執(zhí)行;1^輪Hadoop Map Reduce的拷貝任務,每輪Hadoop Map Reduce將Map每條輸入記錄拷貝;1^次; 完成拷貝任務時,左、右矩陣中的元素的記錄樣式分別表示為: j L-n-r*f3# (r+1) *f3-value_lst ne (I, 2,. . . , f2*f3); j' R-r*f3# (r+1) *f3-n-value_lst ne (I, 2,. . . , f2*f3); r表示當前已完成拷貝的輪數(shù); D3、把要進行相乘的具有對應位置標記的左、右矩陣的兩條記錄合并為一條記錄, 合并后左、右矩陣元素的記錄為: n-j-j' element_list-L, n, j-element_list-R, n, j'; element_list-L,n,j表示左矩陣中第n列中的第j個分段中各元素的集合,element_ list-R,n,j'表示右矩陣中第η行中的第j'個分段中各元素的集合; D4、將D3中的表達式各條記錄中左矩陣element_liSt元素集合中的各個元素依次與 右矩陣element_liSt元素集合中的各個元素相乘; 左矩陣中各個元素的key表示為Hiovieid(L),即該元素在左矩陣的具體位置;右矩陣 中各個元素的key表示為movieid (R) !value值記為兩元素的乘積,從而形成Reduce階段 的key/value對輸出; 在Reduce階段,將具有相同key的記錄匯總,得到矩陣A、B乘積矩陣中的每一個元素, 所述每個元素為視頻間的主題相似度值。
【專利摘要】本發(fā)明所提供的一種基于視頻主題相似度的視頻推送方法,包括以下步驟:A、抓取各個視頻對應的標簽;B、針對所述各個視頻的標簽進行LDA訓練,獲得各個視頻的主題分布;C、基于步驟B所述各個視頻的主題分布構建視頻-主題分布矩陣,記為矩陣A,其轉(zhuǎn)置矩陣表示為矩陣B;D、將所述矩陣A、B分別作為左右矩陣,采用外積法利用Map?Reduce分布式計算框架進行矩陣相乘計算,獲得各個視頻間的主題相似度;E、根據(jù)所述各個視頻間的主題相似度選擇視頻進行推送。由上,實現(xiàn)在數(shù)量眾多的視頻庫中較高效率的確定出各個視頻相似度,以進行推送。
【IPC分類】G06F17/30
【公開號】CN105069121
【申請?zhí)枴緾N201510494284
【發(fā)明人】王佳, 畢重興, 陳亮, 畢先春
【申請人】北京暴風科技股份有限公司
【公開日】2015年11月18日
【申請日】2015年8月12日