欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視頻主題相似度的視頻推送方法

文檔序號:9350053閱讀:525來源:國知局
基于視頻主題相似度的視頻推送方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及視頻推薦技術(shù)領(lǐng)域,特別涉及一種基于視頻主題相似度的視頻推送方 法。
【背景技術(shù)】
[0002] 主題模型(LDA, Latent Dirichlet Allocation)是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),以 下稱為LDA主題模型。LDA主題模型可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信 息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化 為了易于建模的數(shù)字信息。
[0003] 對于視頻,基于其不同的名稱、類型、參與的演員或?qū)а?、視頻內(nèi)容等均可視為不 同的文檔集或語料庫,從而針對視頻庫,基于LDA主題模型訓(xùn)練,則可以生成視頻庫中所有 視頻的視頻-主題分布。
[0004] 當(dāng)形成視頻-主題分布后,當(dāng)用戶看某一視頻時,便可依據(jù)不同視頻間的主題的 相似性,為用戶推薦其他視頻內(nèi)容。如何在數(shù)量眾多的視頻庫中尋找出與目前正在觀看視 頻主題相似性的視頻,是一亟待解決的問題。
[0005] 現(xiàn)有方法中,采用在Hadoop集群上進(jìn)行視頻間的主題相似度計算。通過計算各視 頻主題向量間的余弦值,即可得到視頻相似度,具體公式如下:
[0007] 式中,!!^及!^表示任意兩個視頻,式中向量組成部分是該視頻所擁有的各主題所 占的比重,且視頻向量模長為1。視頻叫的主題向量集合表示為(m n、m12、......mlk),視頻 m2的主題向量集合表示為(m21、m22、......m 2k)。
[0008] 上述向量余弦值計算可簡化為向量內(nèi)積計算。假設(shè)將視頻主題訓(xùn)練結(jié)果的視 頻-主題分布看作是M*K維矩陣,其中M指業(yè)務(wù)視頻庫總視頻數(shù),K指視頻主題模型訓(xùn)練得 到最優(yōu)主題個數(shù),則此矩陣可以視為是有M個K維向量組成。
[0010] 假設(shè)A矩陣是M*K維矩陣,B矩陣為K*M維矩陣,矩陣中的an~a lk表示第一視頻 的主題分布,即第一視頻對應(yīng)的各主題向量值,k表示各視頻的視頻主題數(shù)量;a21~a 2k表 示第二視頻的主題分布;……;aM1~aMk表示第M視頻的主題分布。
[0011] C矩陣為A與B矩陣乘積。則C矩陣中元素可表示為:
[0013] Clj即為A矩陣第i行向量與B矩陣第j列向量內(nèi)積。
[0014] 根據(jù)上文中視頻相似度計算公式可得.<%=出,.爪/=,^川(/?;,,/;~)_,(^值即為視頻1]1; 與視頻!!!,相似度值??梢姡曨l庫中任意兩視頻相似度計算可轉(zhuǎn)化為兩個矩陣的乘法計算。
[0015] 在實(shí)際業(yè)務(wù)場景下,視頻規(guī)模往往很大,即M值很大,視頻主題模型訓(xùn)練得到的主 題數(shù)也很大,即K值很大,因此常用的單機(jī)大規(guī)模矩陣相乘計算方法耗費(fèi)時間和空間都很 大。
[0016] 另外,還有一種算法是分塊矩陣乘法計算,其過程為:
[0017] 將A矩陣劃分為N1*S1的等大小矩陣,B矩陣為S1*N1的等大小矩陣,則有:
[0020] 由上,對于分塊矩陣乘法,對于不同的矩陣規(guī)模如何根據(jù)機(jī)器內(nèi)存大小指定分塊 策略較不易,且不同分塊之間的運(yùn)算及邏輯控制很繁瑣,由于策略的復(fù)雜和運(yùn)行邏輯控制 的繁瑣,也導(dǎo)致運(yùn)行效率不高。
[0021] 若采用HadoopMapReduce分布式計算框架進(jìn)行矩陣相乘計算,能有效減少計算耗 時及耗費(fèi)空間。
[0022] HadoopMapReduce分布式計算框架包含Map和Reduce兩個階段。Map階段以 key/value對作為輸入,MapReduce框架會自動將這些中間數(shù)據(jù)按照key值進(jìn)行聚集,且 key值相同的數(shù)據(jù)被統(tǒng)一交給Reduce階段處理。Reduce階段產(chǎn)生另外一系列key/value 對作為最終輸出寫入HDFS(Hadoop分布式文件系統(tǒng))。
[0023] 如何利用Hadoop MapReduce分布式計算框架較高效率的完成基于主題模型的大 規(guī)模視頻相似度計算,或者說如何實(shí)現(xiàn)在數(shù)量眾多的視頻庫中較高效率的確定出各個視頻 相似度,從而進(jìn)行視頻推送是本發(fā)明所要解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0024] 有鑒于此,本發(fā)明的主要目的在于,提供一種基于視頻主題相似度的視頻推送方 法,
[0025] 包括以下步驟:
[0026] A、抓取各個視頻對應(yīng)的標(biāo)簽;
[0027] B、針對所述各個視頻的標(biāo)簽進(jìn)行LDA訓(xùn)練,獲得各個視頻的主題分布;
[0028] C、基于步驟B所述各個視頻的主題分布構(gòu)建視頻-主題分布矩陣,記為矩陣A,其 轉(zhuǎn)置矩陣表示為矩陣B ;
[0029] D、將所述矩陣A、B分別作為左右矩陣,采用外積法利用Hadoop Map Reduce分布 式計算框架進(jìn)行矩陣相乘計算,獲得各個視頻間的主題相似度;
[0030] E、根據(jù)所述各個視頻間的主題相似度選擇視頻進(jìn)行推送。
[0031] 由上,實(shí)現(xiàn)在數(shù)量眾多的視頻庫中較高效率的確定出各個視頻相似度,以進(jìn)行推 送。
[0032] 可選的,步驟A后還包括步驟:對所抓取的各個視頻的標(biāo)簽進(jìn)行去重處理。
[0033] 由上,使得各個視頻的標(biāo)簽唯一,從而可以提高標(biāo)簽的準(zhǔn)確性,避免重復(fù)。
[0034] 可選的,步驟B包括:
[0035] 將所抓取的各個視頻標(biāo)簽歸納為各個視頻的不同主題;
[0036] 針對所述不同主題進(jìn)行LDA訓(xùn)練,得出各個視頻合適的主題個數(shù)以及不同主題分 別所占的比重值。
[0037] 可選的,所述得出各個視頻合適的主題個數(shù)包括:采用以下計算式:
[0040] 其中,M表示視頻庫中視頻總數(shù),Wd表示第d個視頻,N d表示第d個視頻的視頻標(biāo) 簽總數(shù),Wn表示第d個視頻標(biāo)簽中第n個詞,K表示第d個視頻的視頻主題總數(shù),z表示第 d個視頻的第z個視頻主題;
[0041] 計算結(jié)果perplexity值與所值與所述主題個數(shù)的合適程度成反比。
[0042] 可選的,步驟D包括:
[0043] D1、所述矩陣A表示為:對于矩陣A中各元素的列位置序號記為key,其對應(yīng)的 value值標(biāo)記為L-movieid-value形式;
[0044] 所述矩陣B表示為:對于矩陣B中各元素的行位置序號記為key,其對應(yīng)的value 值標(biāo)記為Rnovieid-value形式;
[0045] L、R分別表示左、右矩陣;movieid表示左矩陣行位置及右矩陣列位置;value值表 示各元素所對應(yīng)的不同主題所占的比重值;
[0046] 將所述矩陣A、B分別按列、行分段;所述分段方式為:將視頻的總數(shù)進(jìn)行因數(shù)分解 表示為3個因數(shù),記為f\、&及f 3,每個分段包含個值,共有f 2*&個分段;
[0047] 分段后,對各個分段進(jìn)行標(biāo)記,左矩陣第n列第j個分段表示為:
[0048] j L-n-l#f2*f3-value_lst n G (I, 2, . . . , f2*f3);
[0049] 右矩陣第n行第j '個分段表示為:
[0050] j' R-l#f2*f3-n-value_lst n G (I, 2, . . . , f2*f3);
[0051] l#f2*f3表示各元素拷貝份數(shù)的序列號,1表示開始序列號,【 2*&表示拷貝總數(shù); valuejst表示在該分段內(nèi)各視頻主題所占的比重值的列表;
[0052] D2、對分段的矩陣A、B執(zhí)行Hadoop Map Reduce的分段拷貝任務(wù)時,執(zhí)行:^輪 Hadoop Map Reduce的拷貝任務(wù),每輪Hadoop Map Reduce將Map每條輸入記錄拷貝:^次;
[0053] 完成Map Reduce的拷貝任務(wù)時,左、右矩陣中的元素的記錄樣式分別表示為:
[0054] j L-n-r*f3# (r+1) *f3-value_lst n G (I, 2, . . . , f2*f3);
[0055] j' R-r*f3# (r+1) *f3-n_value_lst n G (I, 2, ? ? ?,f2*f3);
[0056] r表示當(dāng)前已拷貝的輪數(shù);
[0057] D3、把要進(jìn)行相乘的具有對應(yīng)位置標(biāo)記的左、右矩陣的兩條記錄合并為一條記錄,
[0058] 合并后左、右矩陣元素的記錄為:
[0059] n-j-j,element_list-L, n, j-element_list-R, n, j';
[0060] element」ist-L,n,j表示左矩陣中第n列中的第j個分段中各元素集合, elementJist-R,n,j'表示右矩陣中第n行的第j'個分段中的各元素集合;
[0061] D4、將D3中的表達(dá)式各條記錄中左矩陣element_liSt元素集合中的各個元素依 次與右矩陣elemenOist元素集合中的各個元素相乘;
[0062] 左矩陣中各個元素的key表示為Hiovieid(L),即該元素在左矩陣的具體位置;右 矩陣中各個元素的key表示為movieid(R) !value值記為兩元素的乘積,從而形成Reduce 階段的key/value對輸出;
[0063] 在Reduce階段,將具有相同key的記錄匯總,得到矩陣A、B乘積矩陣中的每一個 元素,所述每個元素為視頻間的主題相似度值。
【附圖說明】
[0064] 圖1所示為本發(fā)明流程圖;
[0065] 圖2所示為迭代拷貝任
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
寿阳县| 正安县| 香港 | 河源市| 朔州市| 宁明县| 浏阳市| 林周县| 曲沃县| 白河县| 永济市| 宁夏| 铜山县| 普陀区| 宁陕县| 大新县| 营山县| 淳化县| 中阳县| 台江县| 井冈山市| 和政县| 郸城县| 翁牛特旗| 怀化市| 花莲市| 聊城市| 和政县| 镇雄县| 西乌珠穆沁旗| 搜索| 武平县| 忻州市| 昭平县| 霍邱县| 拉孜县| 榆社县| 广德县| 来宾市| 南阳市| 涪陵区|