基于視頻主題相似度的視頻推送方法_3

文檔序號：9350053閱讀：來源：國知局

br>[0110] j L-n-r*f3# (r+1) *f3-value_lst n G (I, 2,. . . , f2*f3) - (14)；
[0111] j' R-r*f3# (r+1) *f3-n-value_lst n G (I, 2,. . . , f2*f3) - (15)；
[0112] 完成拷貝后，所拷貝的各元素仍然帶有其所處位置的標簽，另外還帶有拷貝的序列號，即對應為Map階段的key。
[0113] S504 :執(zhí)行因子相乘的準備步驟。
[0114] 元素拷貝完成后，接下來就將進入最終元素相乘的最后準備工作。此步驟依據(jù)表達式（11)，將接下來將要進行相乘的具有對應位置標記的左、右矩陣的兩條記錄合并為一條記錄，以便于在下一個步驟中經(jīng)過一輪的Hadoop Map Reduce就可以完成元素相乘。合并后左、右矩陣元素的記錄為：
[0115] n-j-j，element_list-L, n, j-element_list-R, n, j'-(16)
[0116] 表達式（16)中的element_list-L，n，j表示左矩陣中的第n列第j個分段中的各向量集合，element_list-R，n，j'表示右矩陣中的第n行第j'個分段中的各向量集合。
[0117] S505 :通過矩陣相乘得到乘積矩陣中的每一個元素，即得到視頻間相似度。
[0118] 將表達式（16)中的各條記錄中左矩陣element_liSt向量集合中的各個元素依次與右矩陣elemenOist向量集合中的各個元素相乘。相乘過程中，左矩陣中各個元素的 key表示為movieid (L)，即該元素在左矩陣的具體位置；同理，右矩陣中各個元素的key表示為movieid (R)。value值記為兩元素的乘積，從而形成Reduce階段的key/value對輸出。
[0119] 在Reduce階段，將具有相同key的記錄匯總，即可得到最終乘積矩陣中的每一個元素，即采用外積法計算矩陣A與矩陣B相乘，得到的矩陣C中的每一個元素。
[0120] S60 :根據(jù)相似度值的大小確定出相似度高的視頻，并進行記錄。
[0121] 例如，選取每個視頻相似度值前50個視頻組成視頻相似度記錄存入相應數(shù)據(jù)庫中。
[0122] 由上，則完成了視頻相似度的判斷以及錄入數(shù)據(jù)庫，該數(shù)據(jù)庫即可以用于視頻推薦業(yè)務等。如，當用戶觀看視頻A的時候，根據(jù)該數(shù)據(jù)庫的記錄可確定出符合相似度要求的其他視頻，向該用戶進行推送。
[0123] 圖3所示為實現(xiàn)上述方法的裝置原理示意圖，包括：視頻標簽抓取模塊31，用于從互聯(lián)網(wǎng)抓取視頻庫中所有視頻的內(nèi)容相關標簽，并進行去重處理所述視頻內(nèi)容相關標簽如前述步驟S20中包括的"歐冠"、"尤文圖斯"、"巴塞羅那"、"梅西"、"皮爾洛"、"哈維"、"莫拉塔"等等。
[0124] 視頻標簽數(shù)據(jù)庫模塊32,與所述視頻標簽抓取模塊31連接，用于存儲視頻庫中各視頻的所有標簽。
[0125] LDA主題模型訓練模塊33,與所述視頻標簽抓取模塊31連接，基于與視頻內(nèi)容相關的標簽對視頻庫進行訓練得到主題建模。此模塊即是通過對視頻庫中各個視頻進行訓練，得到各視頻中由標簽生成視頻的規(guī)律，也即視頻由哪些主題組成，主題由哪些標簽組成，及各主題在視頻中所占比重，即步驟S40所述的向量值。
[0126] 視頻-主題接口模塊34,與所述LDA主題模型訓練模塊33連接，用于存儲LDA主題模型訓練模塊訓練結(jié)果。該訓練結(jié)果指出了每個視頻的主題組成，及這些主題在視頻中所占比重。
[0127] 大規(guī)模視頻相似度計算模塊35,與所述LDA主題模型訓練模塊33連接，此計算模炔基于LDA主題模型訓練結(jié)果視頻-主題分布計算視頻相似度。
[0128] 視頻相似矩陣數(shù)據(jù)庫模塊36,與大規(guī)模視頻相似度計算模塊35連接，用于存儲視頻間相似關系，即視頻庫中每兩個視頻間相似度。
[0129] 以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明。總之，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權項】
1. 一種基于視頻主題相似度的視頻推送方法，其特征在于，包括以下步驟： A、抓取各個視頻對應的標簽； B、針對所述各個視頻的標簽進行LDA訓練，獲得各個視頻的主題分布； C、基于步驟B所述各個視頻的主題分布構建視頻-主題分布矩陣，記為矩陣A，其轉(zhuǎn)置矩陣表示為矩陣B ; D、將所述矩陣A、B分別作為左右矩陣，采用外積法利用Hadoop Map Reduce分布式計算框架進行矩陣相乘計算，獲得各個視頻間的主題相似度； E、根據(jù)所述各個視頻間的主題相似度選擇視頻進行推送。2. 根據(jù)權利要求1所述的方法，其特征在于，步驟A后還包括步驟：對所抓取的各個視頻對應的標簽進行去重處理。3. 根據(jù)權利要求1所述的方法，其特征在于，步驟B包括：將所抓取的各個視頻標簽歸納為各個視頻的不同主題；針對所述不同主題進行LDA訓練，得出各個視頻合適的主題個數(shù)以及不同主題分別所占的比重值。4. 根據(jù)權利要求3所述的方法，其特征在于，所述得出各個視頻合適的主題個數(shù)包括：采用以下計算式：其中，M表示視頻庫中視頻總數(shù)，Wd表示第d個視頻，N d表示第d個視頻的視頻標簽總數(shù)，Wn表示第d個視頻標簽中第η個詞，K表示第d個視頻的視頻主題總數(shù)，z表示第d個視頻的第z個視頻主題；計算結(jié)果perplexity值與所述主題個數(shù)的合適程度成反比。5. 根據(jù)權利要求1~4任一所述的方法，其特征在于，步驟D包括： D1、所述矩陣A表示為：對于矩陣A中各元素的列位置序號記為key，其對應的value值標記為 L-movieid-value 形式；所述矩陣B表示為：對于矩陣B中各元素的行位置序號記為key，其對應的value值標記為 R_movieid_value 形式； L、R分別表示左、右矩陣；movieid表示左矩陣行位置及右矩陣列位置；value值表示各元素所對應的不同主題所占的比重值；將所述矩陣A、B分別按列、行分段；所述分段方式為：將視頻的總數(shù)進行因數(shù)分解表示為3個因數(shù)，記為f\、&及f 3，每個分段包含個值，共有f 2*&個分段；分段后，對各個分段進行標記，左矩陣第η列第j個分段表示為： j L-n-l#f2*f3-value_lst n e (I, 2,. . . , f2*f3); 右矩陣第n行第j'個分段表示為： j' R-l#f2*f3-n-value_lst n e (I, 2,. . . , f2*f3); l#f2*f3表示各元素拷貝份數(shù)的序列號，I表示開始序列號，匕*&表示拷貝總數(shù)；value_ 1st表示在該分段內(nèi)各視頻主題所占的比重值的列表； D2、對分段的矩陣A、B執(zhí)行Hadoop Map Reduce的分段拷貝任務時，執(zhí)行;1^輪Hadoop Map Reduce的拷貝任務，每輪Hadoop Map Reduce將Map每條輸入記錄拷貝;1^次；完成拷貝任務時，左、右矩陣中的元素的記錄樣式分別表示為： j L-n-r*f3# (r+1) *f3-value_lst ne (I, 2,. . . , f2*f3)； j' R-r*f3# (r+1) *f3-n-value_lst ne (I, 2,. . . , f2*f3)； r表示當前已完成拷貝的輪數(shù)； D3、把要進行相乘的具有對應位置標記的左、右矩陣的兩條記錄合并為一條記錄，合并后左、右矩陣元素的記錄為： n-j-j' element_list-L, n, j-element_list-R, n, j'； element_list-L，n，j表示左矩陣中第n列中的第j個分段中各元素的集合，element_ list-R，n，j'表示右矩陣中第η行中的第j'個分段中各元素的集合； D4、將D3中的表達式各條記錄中左矩陣element_liSt元素集合中的各個元素依次與右矩陣element_liSt元素集合中的各個元素相乘；左矩陣中各個元素的key表示為Hiovieid(L)，即該元素在左矩陣的具體位置；右矩陣中各個元素的key表示為movieid (R) !value值記為兩元素的乘積，從而形成Reduce階段的key/value對輸出；在Reduce階段，將具有相同key的記錄匯總，得到矩陣A、B乘積矩陣中的每一個元素，所述每個元素為視頻間的主題相似度值。
【專利摘要】本發(fā)明所提供的一種基于視頻主題相似度的視頻推送方法，包括以下步驟：A、抓取各個視頻對應的標簽；B、針對所述各個視頻的標簽進行LDA訓練，獲得各個視頻的主題分布；C、基于步驟B所述各個視頻的主題分布構建視頻-主題分布矩陣，記為矩陣A，其轉(zhuǎn)置矩陣表示為矩陣B；D、將所述矩陣A、B分別作為左右矩陣，采用外積法利用Map？Reduce分布式計算框架進行矩陣相乘計算，獲得各個視頻間的主題相似度；E、根據(jù)所述各個視頻間的主題相似度選擇視頻進行推送。由上，實現(xiàn)在數(shù)量眾多的視頻庫中較高效率的確定出各個視頻相似度，以進行推送。
【IPC分類】G06F17/30
【公開號】CN105069121
【申請?zhí)枴緾N201510494284
【發(fā)明人】王佳, 畢重興, 陳亮, 畢先春
【申請人】北京暴風科技股份有限公司
【公開日】2015年11月18日
【申請日】2015年8月12日

完整全部詳細技術資料下載

當前第3頁1 2 3

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視頻主題相似度的視頻推送方法_3