專利名稱:一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)媒體、網(wǎng)絡(luò)視頻領(lǐng)域,尤其涉及一種用于獲取并生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的方法及其系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)與網(wǎng)絡(luò)視頻網(wǎng)站的發(fā)展,越來越多的用戶上網(wǎng)看網(wǎng)絡(luò)視頻。而對于一些看網(wǎng)絡(luò)視頻時間很少的用戶,如何為他提供更優(yōu)質(zhì)的 網(wǎng)絡(luò)視頻,快速抓住用戶眼球,并節(jié)省用戶更多的時間是越來越重要的。目前在很多長網(wǎng)絡(luò)視頻中,更多的用戶更喜歡看長網(wǎng)絡(luò)視頻中的一個固定開始與結(jié)束時間的精華片段,比如某場足球比賽中的精彩進(jìn)球,某部電視劇或電影中最精彩的部分,某部綜藝中最搞笑的片段等等。通過本發(fā)明可以有效的為用戶提供這些網(wǎng)絡(luò)視頻的精華,以解決前述的技術(shù)問題。本發(fā)明應(yīng)用于獲取并生成用戶關(guān)注度最高的網(wǎng)絡(luò)視頻精華。以采集用戶觀看網(wǎng)絡(luò)視頻時間點的行為數(shù)據(jù),分析用戶關(guān)注度最高的的網(wǎng)絡(luò)視頻時間點,來生成網(wǎng)絡(luò)視頻的精華。
發(fā)明內(nèi)容
為了達(dá)到上述目的,本發(fā)明提供了一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的方法及系統(tǒng),其中該系統(tǒng)包括網(wǎng)絡(luò)視頻播放器,用于發(fā)送記錄該用戶觀看開始時間點與結(jié)束時間點的請求消息,將請求消息上傳至分布式文件系統(tǒng)模塊;分布式文件系統(tǒng)模塊,用于將輸入的請求消息轉(zhuǎn)換為供控制模塊中的Map-reduce算法處理的字符串格式數(shù)據(jù);控制模塊,用于通過控制命令調(diào)用并執(zhí)行Map-reduce算法,輸出針對一時間段內(nèi)某一網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù);網(wǎng)絡(luò)視頻截取模塊,根據(jù)控制模塊的數(shù)據(jù)截取網(wǎng)絡(luò)視頻。更進(jìn)一步,該系統(tǒng)中的控制模塊針對一時間段內(nèi)指定分類的所有網(wǎng)絡(luò)視頻輸出最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù)。更進(jìn)一步,當(dāng)需要截取網(wǎng)絡(luò)視頻的長度小于一個最短長度或大于一個最長長度時控制模塊控制網(wǎng)絡(luò)視頻截取模塊不進(jìn)行任何截取網(wǎng)絡(luò)視頻操作。本發(fā)明提供的一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的方法,該方法包括以下步驟步驟(I)當(dāng)用戶開始觀看網(wǎng)絡(luò)視頻時,通過播放器發(fā)出用戶觀看網(wǎng)絡(luò)視頻的請求信息,信息中記錄了用戶觀看網(wǎng)絡(luò)視頻的開始時間;步驟(2)每當(dāng)用戶結(jié)束觀看時,播放器會發(fā)出記錄有該網(wǎng)絡(luò)視頻的觀看結(jié)束時間的請求信息;步驟(3)將所述請求信息保存到分布式文件系統(tǒng)中,通過分布式文件系統(tǒng)生成供Map-reduce算法處理的表示每個網(wǎng)絡(luò)視頻觀看的開始時間與結(jié)束時間的字符串格式;步驟(4)控制模塊通過控制命令調(diào)用Map-reduce算法并進(jìn)行Map-reduce算法處理,獲得一時間段內(nèi)某一網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間;步驟(5)控制網(wǎng)絡(luò)視頻截取模塊根據(jù)最多的觀看開始時間和最多的觀看結(jié)束時間來生成網(wǎng)絡(luò)視頻精華。本發(fā)明具有以下優(yōu)點能夠分析海量數(shù)據(jù)準(zhǔn)確的截取網(wǎng)絡(luò)視頻精華,引導(dǎo)用戶觀看。
圖I是本發(fā)明實施例中網(wǎng)絡(luò)視頻數(shù)據(jù)采集模塊的結(jié)構(gòu)示意圖。圖2是本發(fā)明實施例中分布式文件系統(tǒng)模塊的結(jié)構(gòu)示意圖。圖3是本發(fā)明實施例中控制模塊調(diào)用Map reduce算法的示意圖。 圖4是根據(jù)本發(fā)明的方法流程圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明圖I是本發(fā)明所述一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的系統(tǒng)結(jié)構(gòu)圖,該系統(tǒng)包括了網(wǎng)絡(luò)視頻播放器、分布式文件系統(tǒng)模塊、網(wǎng)絡(luò)視頻截取模塊、控制模塊。其中分布式文件系統(tǒng)米用Hadoop框架,一個分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以開發(fā)分布式程序。充分利用集群的威力高速運算和存儲數(shù)據(jù)。Hadoop 框架實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。該系統(tǒng)結(jié)構(gòu)如圖2所示。HDFS有著高容錯性的特點,它提供高傳輸率(highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。每當(dāng)用戶點擊觀看某個網(wǎng)絡(luò)視頻時,收集該用戶觀看行為,記錄該用戶觀看開始時間點與結(jié)束時間點,以上時間點數(shù)據(jù)通過網(wǎng)絡(luò)視頻播放器發(fā)送請求消息來實現(xiàn)。將用戶行為數(shù)據(jù)上傳至HDFS中以便分析。采用分布式文件系統(tǒng)模塊分析用戶行為數(shù)據(jù),輸出字符串格式的數(shù)據(jù)以便供控制模塊中map-reduce算法處理,控制模塊通過控制命令調(diào)用map-reduce算法并根據(jù)Map-reduce算法得到分析結(jié)果,將結(jié)果保存于數(shù)據(jù)庫中作為任務(wù)隊列,根據(jù)數(shù)據(jù)庫中的任務(wù)隊列進(jìn)行網(wǎng)絡(luò)視頻的截取工作。Map reduce 算法MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。結(jié)構(gòu)如圖3所示。算法原理是指定一個Map (映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce (化簡)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。Map-Reduce主要包括兩個步驟Map和Reduce每一步都有key-value對作為輸入和輸出map階段的key-value對的格式是由輸入的格式所決定的,如果是默認(rèn)的文本輸入格式TextlnputFormat,則每行作為一個記錄進(jìn)程處理,其中key為此行的開頭相對于文件的起始位置,value就是此行的字符文本。map階段的輸出的key-value對的格式必須同reduce階段的輸入key-value對的格式相對應(yīng)。初始時Mapl(第一次 Map)Map函數(shù)通過輸入的字符串格式數(shù)據(jù)進(jìn)行處理獲得Keyl-valuel對的輸出值如下(Keyl表示日期、網(wǎng)絡(luò)視頻ID ;Valuel表示觀看結(jié)束時間。每條記錄輸出都是固定的)輸出值例如2012328ID、260。觀看結(jié)束時間為該網(wǎng)絡(luò)視 頻的260秒。Reducel (第一次 Reduce)在reduce過程,將map過程中的輸出,按照相同的keyl將valuel放到同一個列表中作為reduce的輸入。計算相同Keyl下的Valuel中觀看的結(jié)束時間點的次數(shù)最多的是哪個時間點,會得到一個最多的結(jié)束時間以及觀看次數(shù)(例如網(wǎng)絡(luò)視頻觀看結(jié)束時間第260秒是最多的觀看結(jié)束時間點,被觀看了 3000次)。Reducel 的結(jié)果Keyl :日期、網(wǎng)絡(luò)視頻IDValuel :最多的觀看結(jié)束時間點(260秒)將結(jié)果輸出保存。更進(jìn)一步,這里的日期可以設(shè)置為某一時間段。Map2 將Reducel的結(jié)果作為Map2函數(shù)的輸入,Map2函數(shù)輸出Key2_value2對。其中Key2 日期、網(wǎng)絡(luò)視頻ID、最多的觀看結(jié)束時間點(260秒)Value2 :用戶觀看開始時間點Reduce2 (第二次 Reduce)在第二次reduce過程中,將map2過程中的輸出,按照相同的key2將value2放到同一個列表中作為reduce2的輸入。計算相同Key2下的Value2中觀看的開始時間點的次數(shù)最多的是哪個時間點,會得到一個最多的開始時間以及觀看次數(shù)(例如230秒是觀看開始到260秒次數(shù)最多的開始時間點)。即可得到該網(wǎng)絡(luò)視頻230秒到260秒為精華片段。因此,reduce2可以統(tǒng)計出在最多觀看結(jié)束時間的用戶動作中出現(xiàn)最多的觀看開始時間。然后我們將結(jié)果保存到數(shù)據(jù)庫中用做任務(wù)隊列,以便根據(jù)精華片段開始與結(jié)束時間控制網(wǎng)絡(luò)視頻截取模塊生成網(wǎng)絡(luò)視頻精華。通過本發(fā)明的技術(shù)實現(xiàn)可以為一些看網(wǎng)絡(luò)視頻時間很少的用戶,提供精華片段,節(jié)省用戶更多的時間,增加用戶黏性,引導(dǎo)用戶觀看更多網(wǎng)絡(luò)視頻。本發(fā)明的方法包括以下步驟I.當(dāng)用戶開始觀看網(wǎng)絡(luò)視頻時,通過播放器發(fā)出用戶觀看網(wǎng)絡(luò)視頻的請求信息,信息中記錄了用戶觀看網(wǎng)絡(luò)視頻的開始時間;2.每當(dāng)用戶結(jié)束觀看時,播放器會發(fā)出用戶結(jié)束觀看時記錄該網(wǎng)絡(luò)視頻的觀看結(jié)束時間的請求信息;
3.將用戶請求的原始信息保存到Hdfs中,通過Hdfs生成供Map-reduce算法處理的表示每個網(wǎng)絡(luò)視頻觀看的開始時間與結(jié)束時間的字符串格式;4.控制模塊通過控制命令調(diào)用Map-reduce算法并進(jìn)行Map-reduce算法處理,獲得一時間段內(nèi)某一網(wǎng)絡(luò)視頻的最多的觀看開始時間和最多的觀看結(jié)束時間;5.控制網(wǎng)絡(luò)視頻截取模塊根據(jù)最多的觀看開始時間和最多的觀看結(jié)束時間來生成網(wǎng)絡(luò)視頻精華。更進(jìn)一步,步驟4中是獲得一時間段內(nèi)指定分類的所有網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù)。更進(jìn)一步,當(dāng)需要截取網(wǎng)絡(luò)視頻的長度小于一個最短長度或大于一個最長長度時不進(jìn)行任何截取網(wǎng)絡(luò)視頻操作。正如在圖4中所示稱為過濾規(guī)則。以上是對本發(fā)明的優(yōu)選實施例進(jìn)行的詳細(xì)描述,但本領(lǐng)域的普通技術(shù)人員應(yīng)該意·識到,在本發(fā)明的范圍內(nèi)和精神指導(dǎo)下,各種改進(jìn)、添加和替換都是可能的。這些都在本發(fā)明的權(quán)利要求所限定的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的系統(tǒng),其特征在于該系統(tǒng)包括 網(wǎng)絡(luò)視頻播放器,用于發(fā)送記錄該用戶觀看開始時間點與結(jié)束時間點的請求消息,將請求消息上傳至分布式文件系統(tǒng)模塊; 分布式文件系統(tǒng)模塊,用于將輸入的請求消息轉(zhuǎn)換為供控制模塊中的Map-reduce算法處理的字符串格式數(shù)據(jù); 控制模塊,用于通過控制命令調(diào)用并執(zhí)行Map-reduce算法,輸出針對同一時間段內(nèi)某一網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù); 網(wǎng)絡(luò)視頻截取模塊,根據(jù)控制模塊的數(shù)據(jù)截取網(wǎng)絡(luò)視頻。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于控制模塊針對一時間段內(nèi)指定分類的所有網(wǎng)絡(luò)視頻輸出最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù)。
3.根據(jù)權(quán)利要求I或2所述的系統(tǒng),其特征在于當(dāng)需要截取網(wǎng)絡(luò)視頻的長度小于一個最短長度或大于一個最長長度時控制模塊控制網(wǎng)絡(luò)視頻截取模塊不進(jìn)行任何截取網(wǎng)絡(luò)視頻操作。
4.一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的方法,其特征在于該方法包括以下步驟 步驟(I)當(dāng)用戶開始觀看網(wǎng)絡(luò)視頻時,通過播放器發(fā)出用戶觀看網(wǎng)絡(luò)視頻的請求信息,信息中記錄了用戶觀看網(wǎng)絡(luò)視頻的開始時間; 步驟(2)每當(dāng)用戶結(jié)束觀看時,播放器會發(fā)出記錄有該網(wǎng)絡(luò)視頻的觀看結(jié)束時間的請求信息; 步驟(3)將所述請求信息保存到分布式文件系統(tǒng)中,通過分布式文件系統(tǒng)生成供Map-reduce算法處理的表示每個網(wǎng)絡(luò)視頻觀看的開始時間與結(jié)束時間的字符串格式; 步驟(4)通過控制模塊的控制命令調(diào)用Map-reduce算法并進(jìn)行Map-reduce算法處理,獲得一時間段內(nèi)某一網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間; 步驟(5)控制網(wǎng)絡(luò)視頻截取模塊根據(jù)最多的觀看開始時間和最多的觀看結(jié)束時間來生成網(wǎng)絡(luò)視頻精華。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于步驟(4)中獲得一時間段內(nèi)指定分類的所有網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù)。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于當(dāng)需要截取網(wǎng)絡(luò)視頻的長度小于一個最短長度或大于一個最長長度時不進(jìn)行任何截取網(wǎng)絡(luò)視頻操作。
全文摘要
本發(fā)明公開了一種獲取生成用戶關(guān)注度高的網(wǎng)絡(luò)視頻精華的系統(tǒng)及方法。該方法包括網(wǎng)絡(luò)視頻播放器,發(fā)送記錄該用戶觀看網(wǎng)絡(luò)視頻的開始時間點與觀看網(wǎng)絡(luò)視頻的結(jié)束時間的請求消息,將請求消息上傳至分布式文件系統(tǒng)模塊;分布式文件系統(tǒng)模塊,用于將輸入的請求消息轉(zhuǎn)換為供控制模塊中的Map-reduce算法處理的字符串格式數(shù)據(jù);控制模塊,用于執(zhí)行Map-reduce算法,輸出針對同一日和同一網(wǎng)絡(luò)視頻的最多觀看開始時間和最多觀看結(jié)束時間數(shù)據(jù);網(wǎng)絡(luò)視頻截取模塊,根據(jù)控制模塊的數(shù)據(jù)截取網(wǎng)絡(luò)視頻。采用本發(fā)明技術(shù)方案,通過上述模塊處理以后可以生成用戶關(guān)注度最高的網(wǎng)絡(luò)視頻精華。
文檔編號H04N21/25GK102790914SQ20121023008
公開日2012年11月21日 申請日期2012年7月4日 優(yōu)先權(quán)日2012年7月4日
發(fā)明者盧學(xué)裕, 盧述奇, 姚健, 潘柏宇, 熊曉飛 申請人:合一網(wǎng)絡(luò)技術(shù)(北京)有限公司