一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法及裝置制造方法
【專利摘要】一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法和系統(tǒng),所述方法首先得到一段時(shí)間內(nèi)的查詢串集合和播放視頻標(biāo)題集合。然后,處理查詢串集合得到源詞狀態(tài)集合,處理播放視頻標(biāo)題集合得到目的詞狀態(tài)集合。接著,根據(jù)查詢后的播放記錄計(jì)算源詞狀態(tài)集合中各個(gè)詞向目的詞狀態(tài)集合中各個(gè)詞的轉(zhuǎn)移概率。最后,對(duì)每個(gè)新視頻根據(jù)該視頻的標(biāo)題中包含的詞計(jì)算其預(yù)估播放量。本發(fā)明能夠改善搜索聚集效應(yīng)的帶來的播放集中問題,提高新視頻的曝光率,增加引擎結(jié)果的多樣性,同時(shí)能夠保證新視頻的相關(guān)性。引入和新視頻標(biāo)題詞數(shù)有關(guān)的閾值,避免包含很多熱點(diǎn)詞的新視頻被過度提升。
【專利說明】一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法及裝置【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及對(duì)視頻網(wǎng)站的新上傳視頻的播放量預(yù)估,具體的,涉及基于已經(jīng)播放的詞網(wǎng)絡(luò)對(duì)視頻播放量進(jìn)行預(yù)估的方法和裝置。
【背景技術(shù)】
[0002]視頻網(wǎng)站中包含了上千萬的視頻,大部分視頻依賴用戶通過搜索來顯現(xiàn)。在搜索結(jié)果中以播放量為主要因子的排序會(huì)導(dǎo)致部分視頻持續(xù)被展現(xiàn),而部分視頻難以得到展現(xiàn)的機(jī)會(huì)。搜索輸入框中的智能提示,例如kubox,會(huì)引導(dǎo)用戶查詢集中在少量查詢串上。這種搜索引導(dǎo)的聚集傾向使得被搜索展現(xiàn)的結(jié)果也傾向于集中,該現(xiàn)象也被稱之為搜索聚集效應(yīng)。該搜索聚集效應(yīng)會(huì)減少大多數(shù)用戶上傳視頻的曝光率,影響上傳者的積極性。
[0003]因此,如何能夠預(yù)估新上傳視頻的播放量,從新上傳的視頻中快速找到用戶喜歡或者傾向性較高的視頻,讓新視頻在排序中得到更多曝光機(jī)會(huì),并且為用戶提供最新的,用戶可能感興趣的視頻,使搜索結(jié)果呈現(xiàn)發(fā)散趨勢(shì),體現(xiàn)排序系統(tǒng)的公平性,成為亟需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提出一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法及裝置,改善搜索聚集效應(yīng)的帶來的播放集中問題,增加搜索引擎的多樣性。
[0005]為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法,包括如下步驟:
查詢串及視頻標(biāo)題收集步驟SllO ;查詢一段時(shí)間內(nèi)搜索記錄,篩選出每個(gè)查詢后有點(diǎn)擊觀看的查詢記錄,得到查詢串以及對(duì)應(yīng)的視頻標(biāo)題;
詞網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移矩陣初始化步驟S120,包括:
查詢串切分子步驟S121:切分查詢串,相同的詞對(duì)應(yīng)同一個(gè)源狀態(tài)ID,不同的詞標(biāo)記為不同的源狀態(tài)ID,所有詞對(duì)應(yīng)的源狀態(tài)ID構(gòu)成了源狀態(tài)集合,每個(gè)源狀態(tài)ID還記錄該詞的出現(xiàn)頻次;
視頻標(biāo)題切分子步驟S122:切分查詢后點(diǎn)擊的視頻標(biāo)題,相同的詞對(duì)應(yīng)同一個(gè)目的狀態(tài)ID,不同的詞標(biāo)記為不同的目的狀態(tài)ID,所有詞對(duì)應(yīng)的目的狀態(tài)ID構(gòu)成了目的狀態(tài)集合,每個(gè)目的狀態(tài)ID也記錄該詞的出現(xiàn)頻次;
構(gòu)造狀態(tài)轉(zhuǎn)移矩陣子步驟S123:以所有的源狀態(tài)ID作為狀態(tài)轉(zhuǎn)移矩陣的列,以所有的目的狀態(tài)ID作為狀態(tài)轉(zhuǎn)移矩陣的行,矩陣中每個(gè)單元,[x,y],表示源狀態(tài)ID X到相應(yīng)目的狀態(tài)ID y的轉(zhuǎn)移強(qiáng)度,初始化所述初始狀態(tài)轉(zhuǎn)移矩陣的所有單元值為1,即認(rèn)為每個(gè)源狀態(tài)可能轉(zhuǎn)移到每個(gè)目的狀態(tài),且這個(gè)轉(zhuǎn)移強(qiáng)度為1,表示很弱的轉(zhuǎn)移關(guān)系;
狀態(tài)轉(zhuǎn)移矩陣強(qiáng)化步驟S130:遍歷查詢串及視頻標(biāo)題收集步驟中得到的每條查詢串和對(duì)應(yīng)的視頻標(biāo)題,使用查詢串和對(duì)應(yīng)的視頻標(biāo)題增強(qiáng)所述狀態(tài)轉(zhuǎn)移矩陣中的轉(zhuǎn)移強(qiáng)度,其中對(duì)于每一查詢串及對(duì)應(yīng)的視頻標(biāo)題的強(qiáng)化具體包括:源狀態(tài)ID序列生成子步驟S131:切分查詢串,相同的詞只算一次出現(xiàn),得到包含m個(gè)詞序列,查詢每個(gè)詞對(duì)應(yīng)的源狀態(tài)ID,得到源狀態(tài)ID序列;
目的狀態(tài)ID序列生成子步驟S132:切分所述查詢串對(duì)應(yīng)的視頻標(biāo)題,相同的詞只算一次出現(xiàn),得到含有η個(gè)詞的序列,查詢每個(gè)詞對(duì)應(yīng)的目的狀態(tài)ID,得到目的狀態(tài)序列;
轉(zhuǎn)移強(qiáng)度增強(qiáng)子步驟S133:對(duì)于所述源狀態(tài)ID序列中每個(gè)源狀態(tài)ID,遍歷得到的所述目的狀態(tài)ID序列每個(gè)目的狀態(tài)ID,修改狀態(tài)轉(zhuǎn)移矩陣的單元[源狀態(tài)ID,目的狀態(tài)ID]的值為原值加1/m,增強(qiáng)源狀態(tài)ID對(duì)應(yīng)的源詞的狀態(tài)到目的狀態(tài)ID對(duì)應(yīng)的目的詞的轉(zhuǎn)移強(qiáng)度;
新視頻播放量預(yù)估步驟S140:對(duì)于一個(gè)新視頻,切分所述新視頻的標(biāo)題得到含有g(shù)個(gè)詞的新視頻詞序列,相同的詞只算一次出現(xiàn),根據(jù)公式詞的不同順序并不影響最終結(jié)果,在目的狀態(tài)集合中查詢其對(duì)應(yīng)的新視頻詞ID序列為(Tl,T2,...,Tg),對(duì)于每個(gè)新視頻詞ID Ti, i=L.g,找到在所述狀態(tài)轉(zhuǎn)移矩陣中以Ti為目的狀態(tài)的轉(zhuǎn)移強(qiáng)度,即在所述狀態(tài)轉(zhuǎn)移矩陣中Ti所對(duì)應(yīng)的一列中所有的轉(zhuǎn)移強(qiáng)度,將所述一列中所有的轉(zhuǎn)移強(qiáng)度與閾值TH比較,累加所有大于TH的以Ti為目標(biāo)狀態(tài)的轉(zhuǎn)移強(qiáng)度,得到所述新視頻詞ID Ti的新視頻詞播放量貢獻(xiàn)度PTi,然后根據(jù)公式(I)對(duì)所述新視頻詞播放量貢獻(xiàn)度PTi進(jìn)行加權(quán),得到加權(quán)新視頻詞播放量貢獻(xiàn)度NPTi,
【權(quán)利要求】
1.一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法,包括如下步驟:查詢串及視頻標(biāo)題收集步驟SllO ;查詢一段時(shí)間內(nèi)搜索記錄,篩選出每個(gè)查詢后有點(diǎn)擊觀看的查詢記錄,得到查詢串以及對(duì)應(yīng)的視頻標(biāo)題;詞網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移矩陣初始化步驟S120,包括:查詢串切分子步驟S121:切分查詢串,相同的詞對(duì)應(yīng)同一個(gè)源狀態(tài)ID,不同的詞標(biāo)記為不同的源狀態(tài)ID,所有詞對(duì)應(yīng)的源狀態(tài)ID構(gòu)成了源狀態(tài)集合,每個(gè)源狀態(tài)ID還記錄該詞的出現(xiàn)頻次;視頻標(biāo)題切分子步驟S122:切分查詢后點(diǎn)擊的視頻標(biāo)題,相同的詞對(duì)應(yīng)同一個(gè)目的狀態(tài)ID,不同的詞標(biāo)記為不同的目的狀態(tài)ID,所有詞對(duì)應(yīng)的目的狀態(tài)ID構(gòu)成了目的狀態(tài)集合,每個(gè)目的狀態(tài)ID也記錄該詞的出現(xiàn)頻次;構(gòu)造狀態(tài)轉(zhuǎn)移矩陣子步驟S123:以所有的源狀態(tài)ID作為狀態(tài)轉(zhuǎn)移矩陣的列,以所有的目的狀態(tài)ID作為狀態(tài)轉(zhuǎn)移矩陣的行,矩陣中每個(gè)單元,[x,y],表示源狀態(tài)ID X到相應(yīng)目的狀態(tài)ID y的轉(zhuǎn)移強(qiáng)度,初始化所述初始狀態(tài)轉(zhuǎn)移矩陣的所有單元值為1,即認(rèn)為每個(gè)源狀態(tài)可能轉(zhuǎn)移到每個(gè)目的狀態(tài),且這個(gè)轉(zhuǎn)移強(qiáng)度為I,表示很弱的轉(zhuǎn)移關(guān)系;狀態(tài)轉(zhuǎn)移矩陣強(qiáng)化步驟S130:遍歷查詢串及視頻標(biāo)題收集步驟中得到的每條查詢串和對(duì)應(yīng)的視頻標(biāo)題,使用查詢串和對(duì)應(yīng)的視頻標(biāo)題增強(qiáng)所述狀態(tài)轉(zhuǎn)移矩陣中的轉(zhuǎn)移強(qiáng)度,其中對(duì)于每一查詢串及對(duì)應(yīng)的視頻標(biāo)題的強(qiáng)化具體包括:源狀態(tài)ID序列生成子步驟S131:切分查詢串,相同的詞只算一次出現(xiàn),得到包含m個(gè)詞序列,查詢每個(gè)詞對(duì)應(yīng)的源狀態(tài)ID,得到源狀態(tài)ID序列;目的狀態(tài)ID序列生成子步驟S132:切分所述查詢串對(duì)應(yīng)的視頻標(biāo)題,相同的詞只算一次出現(xiàn),得到含有η個(gè)詞的序列,查詢每個(gè)詞對(duì)應(yīng)的目的狀態(tài)ID,得到目的狀態(tài)序列;轉(zhuǎn)移強(qiáng)度增強(qiáng)子步驟S133:對(duì)于所述源狀態(tài)ID序列中每個(gè)源狀態(tài)ID,遍歷得到的所述目的狀態(tài)ID序列每個(gè)目的狀態(tài)ID,修改狀態(tài)轉(zhuǎn)移矩陣的單元[源狀態(tài)ID,目的狀態(tài)ID]的值為原值加1/m,增強(qiáng)源狀態(tài)ID對(duì)應(yīng)的源詞的狀態(tài)到目的狀態(tài)ID對(duì)應(yīng)的目的詞的轉(zhuǎn)移強(qiáng)度;新視頻播放量預(yù)估步驟S140:對(duì)于一個(gè)新視頻,切分所述新視頻的標(biāo)題得到含有g(shù)個(gè)詞的新視頻詞序列,相同的詞只算一次出現(xiàn),根據(jù)公式詞的不同順序并不影響最終結(jié)果,在目的狀態(tài)集合中查詢其對(duì)應(yīng)的新視頻詞ID序列為(Tl,T2,...,Tg),對(duì)于每個(gè)新視頻詞ID Ti, i=L.g,找到在所述狀態(tài)轉(zhuǎn)移矩陣中以Ti為目的狀態(tài)的轉(zhuǎn)移強(qiáng)度,即在所述狀態(tài)轉(zhuǎn)移矩陣中Ti所對(duì)應(yīng)的一列中所有的轉(zhuǎn)移強(qiáng)度,將所述一列中所有的轉(zhuǎn)移強(qiáng)度與閾值TH比較,累加所有大于TH的以Ti為目標(biāo)狀態(tài)的轉(zhuǎn)移強(qiáng)度,得到所述新視頻詞ID Ti的新視頻詞播放量貢獻(xiàn)度PTi,然后根據(jù)公式(I)對(duì)所述新視頻詞播放量貢獻(xiàn)度PTi進(jìn)行加權(quán),得到加權(quán)新視頻詞播放量貢獻(xiàn)度NPTi,
2.根據(jù)權(quán)利要求1所述的,其特征在于:所述查詢串及視頻標(biāo)題收集步驟具體為,遍歷一段時(shí)間內(nèi)服務(wù)器的搜索日志,篩選出每個(gè)查詢后有點(diǎn)擊的查詢記錄,提取出查詢串和該查詢過程中有點(diǎn)擊觀看的視頻ID記錄,遍歷每條查詢串和該查詢點(diǎn)擊的視頻ID記錄,根據(jù)視頻ID記錄去視頻信息庫(kù)中取出視頻ID對(duì)應(yīng)的視頻的標(biāo)題,將查詢串和查詢點(diǎn)擊的視頻ID記錄轉(zhuǎn)換為查詢串和查詢后點(diǎn)擊觀看的視頻標(biāo)題的記錄。
3.根據(jù)權(quán)利要求2所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法,其特征在于:所述一段時(shí)間為最近100天內(nèi)。
4.根據(jù)權(quán)利要求1-3中任意一項(xiàng)所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法,其特征在于:所述閾值TH為選擇所述狀態(tài)轉(zhuǎn)移矩陣中所有轉(zhuǎn)移強(qiáng)度的中位數(shù)。
5.根據(jù)權(quán)利要求4所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法,其特征在于:所述閾值TH在所述中位數(shù)的基礎(chǔ)上,進(jìn)行人工調(diào)整。
6.一種基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估裝置,包括如下單元:查詢串及視頻標(biāo)題收集單元;查詢一段時(shí)間內(nèi)搜索記錄,篩選出每個(gè)查詢后有點(diǎn)擊觀看的查詢記錄,得到查詢串以及對(duì)應(yīng)的視頻標(biāo)題;詞網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)移矩陣初始化單元,包括:查詢串切分子單元:切分查詢串,相同的詞對(duì)應(yīng)同一個(gè)源狀態(tài)ID,不同的詞標(biāo)記為不同的源狀態(tài)ID,所有詞對(duì)應(yīng)的源狀態(tài)ID構(gòu)成了源狀態(tài)集合,每個(gè)源狀態(tài)ID還記錄該詞的出現(xiàn)頻次;視頻標(biāo)題切分子單元:切分查詢后點(diǎn)擊的視頻標(biāo)題,相同的詞對(duì)應(yīng)同一個(gè)目的狀態(tài)ID,不同的詞標(biāo)記為不同的目的狀態(tài)ID,所有詞對(duì)應(yīng)的目的狀態(tài)ID構(gòu)成了目的狀態(tài)集合,每個(gè)目的狀態(tài)ID也記錄該詞的出現(xiàn)頻次;構(gòu)造狀態(tài)轉(zhuǎn)移矩陣子單元:以所有的源狀態(tài)ID作為狀態(tài)轉(zhuǎn)移矩陣的列,以所有的目的狀態(tài)ID作為狀態(tài)轉(zhuǎn)移矩陣的行,矩陣中每個(gè)單元,[x,y],表示源狀態(tài)ID X到相應(yīng)目的狀態(tài)ID y的轉(zhuǎn)移強(qiáng)度,初始化所述初始狀態(tài)轉(zhuǎn)移矩陣的所有單元值為1,即認(rèn)為每個(gè)源狀態(tài)可能轉(zhuǎn)移到每個(gè)目的狀態(tài),且這個(gè)轉(zhuǎn)移強(qiáng)度為I,表示很弱的轉(zhuǎn)移關(guān)系;狀態(tài)轉(zhuǎn)移矩陣強(qiáng)化單元:遍歷查詢串及視頻標(biāo)題收集單元中得到的每條查詢串和對(duì)應(yīng)的視頻標(biāo)題,使用查詢串和對(duì)應(yīng)的視頻標(biāo)題增強(qiáng)所述狀態(tài)轉(zhuǎn)移矩陣中的轉(zhuǎn)移強(qiáng)度,其中對(duì)于每一查詢串及對(duì)應(yīng)的視頻標(biāo)題的強(qiáng)化具體包括:源狀態(tài)ID序列生成子單元:切分查詢串,相同的詞只算一次出現(xiàn),得到包含m個(gè)詞序列,查詢每個(gè)詞對(duì)應(yīng)的源狀態(tài)ID,得到源狀態(tài)ID序列;目的狀態(tài)ID序列生成子單元:切分所述查詢串對(duì)應(yīng)的視頻標(biāo)題,相同的詞只算一次出現(xiàn),得到含有η個(gè)詞的序列,查詢每個(gè)詞對(duì)應(yīng)的目的狀態(tài)ID,得到目的狀態(tài)序列;轉(zhuǎn)移強(qiáng)度增強(qiáng)子單元:對(duì)于所述源狀態(tài)ID序列中每個(gè)源狀態(tài)ID,遍歷得到的所述目的狀態(tài)ID序列每個(gè)目的狀態(tài)ID,修改狀態(tài)轉(zhuǎn)移矩陣的單元[源狀態(tài)ID,目的狀態(tài)ID]的值為原值加1/m,增強(qiáng)源狀態(tài)ID對(duì)應(yīng)的源詞的狀態(tài)到目的狀態(tài)ID對(duì)應(yīng)的目的詞的轉(zhuǎn)移強(qiáng)度;新視頻播放量預(yù)估單元:對(duì)于一個(gè)新視頻,切分所述新視頻的標(biāo)題得到含有g(shù)個(gè)詞的新視頻詞序列,相同的詞只算一次出現(xiàn),根據(jù)公式詞的不同順序并不影響最終結(jié)果,在目的狀態(tài)集合中查詢其對(duì)應(yīng)的新視頻詞ID序列為(Tl,T2,...,Tg),對(duì)于每個(gè)新視頻詞IDTi,i=l..g,找到在所述狀態(tài)轉(zhuǎn)移矩陣中以Ti為目的狀態(tài)的轉(zhuǎn)移強(qiáng)度,即在所述狀態(tài)轉(zhuǎn)移矩陣中Ti所對(duì)應(yīng)的一列中所有的轉(zhuǎn)移強(qiáng)度,將所述一列中所有的轉(zhuǎn)移強(qiáng)度與閾值TH比較,累加所有大于TH的以Ti為目標(biāo)狀態(tài)的轉(zhuǎn)移強(qiáng)度,得到所述新視頻詞ID Ti的新視頻詞播放量貢獻(xiàn)度PTi,然后根據(jù)公式(I)對(duì)所述新視頻詞播放量貢獻(xiàn)度PTi進(jìn)行加權(quán),得到加權(quán)新視頻詞播放量貢獻(xiàn)度NPTi,其中ND(Ti)表示詞Ti在目的狀態(tài)ID中的詞頻,NS (Ti)表示Ti在源狀態(tài)ID中的詞頻,累加所有的所述加權(quán)新視頻詞播放量貢獻(xiàn)度NPTi,得到該新視頻的預(yù)估播放量。
7.根據(jù)權(quán)利要求6所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估裝置,其特征在于:所述查詢串及視頻標(biāo)題收集單元具體為,遍歷一段時(shí)間內(nèi)服務(wù)器的搜索日志,篩選出每個(gè)查詢后有點(diǎn)擊的查詢記錄,提取出查詢串和該查詢過程中有點(diǎn)擊觀看的視頻ID記錄,遍歷每條查詢串和該查詢點(diǎn)擊的視頻ID記錄,根據(jù)視頻ID記錄去視頻信息庫(kù)中取出視頻ID對(duì)應(yīng)的視頻的標(biāo)題,將查詢串和查詢點(diǎn)擊的視頻ID記錄轉(zhuǎn)換為查詢串和查詢后點(diǎn)擊觀看的視頻標(biāo)題的記錄。
8.根據(jù)權(quán)利要求7所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估裝置,其特征在于:所述一段時(shí)間為最近100天內(nèi)。
9.根據(jù)權(quán)利要求6-8中任意一項(xiàng)所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估方法,其特征在于:`所述閾值TH為選擇所述狀態(tài)轉(zhuǎn)移矩陣中所有轉(zhuǎn)移強(qiáng)度的中位數(shù)。
10.根據(jù)權(quán)利要求9所述的基于詞網(wǎng)絡(luò)的視頻播放量預(yù)估裝置,其特征在于:所述閾值TH在所述中位數(shù)的基礎(chǔ)上,進(jìn)行人工調(diào)整。
【文檔編號(hào)】G06F17/30GK103607606SQ201310630984
【公開日】2014年2月26日 申請(qǐng)日期:2013年12月2日 優(yōu)先權(quán)日:2013年12月2日
【發(fā)明者】劉偉, 姚鍵, 潘柏宇, 盧述奇 申請(qǐng)人:合一網(wǎng)絡(luò)技術(shù)(北京)有限公司