一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法,包括:當(dāng)接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息;將所述特征本文本信息映射為一個或多個第一分詞;查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當(dāng)前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址;推送所述第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。本發(fā)明實(shí)現(xiàn)深度挖掘視頻庫中的優(yōu)質(zhì)資源,提高了資源挖掘的效率;此外,索引表會隨著互聯(lián)網(wǎng)視頻內(nèi)容的不斷積累而不斷擴(kuò)大,有利于擴(kuò)大召回率。
【專利說明】一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)的【技術(shù)領(lǐng)域】,具體涉及一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法和一種基于視頻搜索的關(guān)聯(lián)資源地址的推送裝置。
【背景技術(shù)】
[0002]視頻搜索引擎是有別于綜合搜索的一種垂直搜索技術(shù)。視頻搜索引擎抓取互聯(lián)網(wǎng)中的視頻類的結(jié)果并建立索引,由于它可以向搜索者提供純粹的視頻類結(jié)果,從而可以大大節(jié)省網(wǎng)民尋找視頻的時間。
[0003]根據(jù)視頻搜索的相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,娛樂、游戲、影視、新聞、動漫等類型的視頻是用戶的主要搜索對象。這表明用戶對于視頻搜索本身具有泛需求的性質(zhì)。用戶往往不帶有很強(qiáng)的目的性,搜索結(jié)果并非“非彼不可”,而是帶有一定擴(kuò)展性,只要目標(biāo)在用戶所喜歡的范疇內(nèi)即可。因此,往往會在搜索結(jié)果之外對用戶進(jìn)行相關(guān)推薦是。
[0004]但是,現(xiàn)有的視頻搜索引擎在相關(guān)推薦方面做得還有不足:部分視頻搜索引擎沒有相關(guān)推薦,有相關(guān)推薦的視頻搜索引擎只是根據(jù)用戶的搜索歷史數(shù)據(jù)、通過人工整理得到關(guān)聯(lián)體系等簡單方式實(shí)現(xiàn)推薦。這種推薦系統(tǒng)基于用戶已有的搜索習(xí)慣,召回率較低,另外由于用戶的搜索范圍一般會比現(xiàn)有互聯(lián)網(wǎng)中的資源范圍要小很多,不能充分挖掘互聯(lián)網(wǎng)中的優(yōu)質(zhì)視頻。
[0005]另一種搜索推薦方法是依靠人工整理出一個資源關(guān)聯(lián)體系或從其他知識體系中得到這樣的體系,應(yīng)用到推薦系統(tǒng)中。例如在某搜索引擎搜索”廣場舞”時,會得到“交誼舞”、“肚皮舞”、“健身操”等的推薦詞,搜索“dota”時會得到“穿越火線”、“魔獸世界”等的推薦詞,但是這種體系召回率較低,在長尾的搜索中一般不能給出推薦。
【發(fā)明內(nèi)容】
[0006]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法和相應(yīng)的一種基于視頻搜索的關(guān)聯(lián)資源地址的推送裝置。
[0007]依據(jù)本發(fā)明的一個方面,提供了一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法,包括:
[0008]當(dāng)接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息;
[0009]將所述特征本文本信息映射為一個或多個第一分詞;
[0010]查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當(dāng)前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;
[0011]獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址;
[0012]推送所述第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。[0013]可選地,所述當(dāng)接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息的步驟包括:
[0014]當(dāng)接收到第一視頻數(shù)據(jù)的播放請求時,接收當(dāng)前終端發(fā)送的所述第一視頻資源數(shù)據(jù)的特征本文本信息;
[0015]或者,
[0016]當(dāng)接收到第一視頻數(shù)據(jù)加載請求時,提取本地預(yù)置的所述視頻資源數(shù)據(jù)的特征本文本信息。
[0017]可選地,所述將所述特征本文本信息映射為一個或多個第一分詞的步驟包括:
[0018]提取所述特征本文本信息所映射的一個分詞;
[0019]或者,
[0020]當(dāng)接收到的特征本文本信息為復(fù)合詞時,將所述特征本文本信息拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
[0021]可選地,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞的步驟包括:
[0022]當(dāng)所述特征本文本信息被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0023]計(jì)算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0024]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0025]可選地,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞的步驟包括:
[0026]當(dāng)所述特征本文本信息被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0027]提取與所述多個第一分詞共同出現(xiàn)的第二分詞作為候選分詞;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0028]分別在各個索引表中計(jì)算所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中候選分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;
[0029]分別為所述多個第一分詞與所述候選分詞的同現(xiàn)率配置對應(yīng)的多個權(quán)重;
[0030]分別計(jì)算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率;
[0031]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的候選分詞作為關(guān)聯(lián)第二分詞。
[0032]可選地,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞的步驟包括:
[0033]當(dāng)所述特征本文本信息被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0034]采用所述多個索引表確定主分詞,所述主分詞為視頻資源數(shù)據(jù)的信息總數(shù)最多的索引表對應(yīng)的第一分詞;
[0035]計(jì)算所述主分詞與其對應(yīng)的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0036]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0037]可選地,所述特征文本信息包括視頻標(biāo)題、視頻關(guān)鍵詞和/或視頻描述。
[0038]可選地,所述獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址的步驟包括:
[0039]獲取所述主分詞和所述關(guān)聯(lián)第二分詞的的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。
[0040]根據(jù)本發(fā)明的另一方面,提供了一種基于視頻搜索的關(guān)聯(lián)資源地址的推送裝置,包括:
[0041]特征文本信息獲取模塊,適于在接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息;
[0042]第一分詞映射模塊,適于將所述特征本文本信息映射為一個或多個第一分詞;
[0043]第二分詞查找模塊,適于查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當(dāng)前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;
[0044]網(wǎng)絡(luò)連接地址獲取模塊,適于獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址;
[0045]網(wǎng)絡(luò)連接地址推送模塊,適于推送所述第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。
[0046]可選地,所述特征文本信息獲取模塊還適于:
[0047]當(dāng)接收到第一視頻數(shù)據(jù)的播放請求時,接收當(dāng)前終端發(fā)送的所述第一視頻資源數(shù)據(jù)的特征本文本信息;
[0048]或者,
[0049]當(dāng)接收到第一視頻數(shù)據(jù)加載請求時,提取本地預(yù)置的所述視頻資源數(shù)據(jù)的特征本文本信息。
[0050]可選地,所述第一分詞映射模塊還適于:
[0051]提取所述特征本文本信息所映射的一個分詞;
[0052]或者,
[0053]當(dāng)接收到的特征本文本信息為復(fù)合詞時,將所述特征本文本信息拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
[0054]可選地,所述第二分詞查找模塊還適于:
[0055]當(dāng)所述特征本文本信息被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0056]計(jì)算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0057]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0058]可選地,所述第二分詞查找模塊還適于:
[0059]當(dāng)所述特征本文本信息被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0060]提取與所述多個第一分詞共同出現(xiàn)的第二分詞作為候選分詞;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0061]分別在各個索引表中計(jì)算所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中候選分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;
[0062]分別為所述多個第一分詞與所述候選分詞的同現(xiàn)率配置對應(yīng)的多個權(quán)重;
[0063]分別計(jì)算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率;
[0064]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的候選分詞作為關(guān)聯(lián)第二分詞。
[0065]可選地,所述第二分詞查找模塊還適于:
[0066]當(dāng)所述特征本文本信息被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0067]采用所述多個索引表確定主分詞,所述主分詞為視頻資源數(shù)據(jù)的信息總數(shù)最多的索引表對應(yīng)的第一分詞;
[0068]計(jì)算所述主分詞與其對應(yīng)的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0069]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0070]可選地,所述特征文本信息包括視頻標(biāo)題、視頻關(guān)鍵詞和/或視頻描述。
[0071]可選地,所述網(wǎng)絡(luò)連接地址獲取模塊還適于:
[0072]獲取所述主分詞和所述關(guān)聯(lián)第二分詞的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。
[0073]本發(fā)明可以根據(jù)現(xiàn)有已發(fā)布內(nèi)容進(jìn)行推送,使搜索引擎擺脫對用戶搜索習(xí)慣的依賴,將雖然比較少有用戶搜索的但視頻庫匯總已有較多相關(guān)資源的視頻資源數(shù)據(jù)推送出來,從而實(shí)現(xiàn)深度挖掘視頻庫中的優(yōu)質(zhì)資源,提高了資源挖掘的效率;此外,索引表會隨著互聯(lián)網(wǎng)視頻內(nèi)容的不斷積累而不斷擴(kuò)大,各大視頻站生產(chǎn)出來的內(nèi)容數(shù)量和廣度會遠(yuǎn)遠(yuǎn)超過用戶已經(jīng)搜索過的詞數(shù),有利于擴(kuò)大召回率。
[0074]本發(fā)明通過獲取第一分詞和第二分詞的匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)連接地址,用戶可以基于此地址直接進(jìn)行視頻數(shù)據(jù)資源的獲取,使用戶簡單搜索即可獲得更多的結(jié)果,無需多次提交搜索,從而減輕了訪問服務(wù)器的負(fù)擔(dān),減少了網(wǎng)絡(luò)資源的占用,并提升了用戶體驗(yàn)。
[0075]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0076]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0077]圖1示出了根據(jù)本發(fā)明一個實(shí)施例的一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法實(shí)施例的步驟流程圖;以及
[0078]圖2示出了根據(jù)本發(fā)明一個實(shí)施例的一種基于視頻搜索的關(guān)聯(lián)資源地址的推送裝置實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0079]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0080]參照圖1,示出了根據(jù)本發(fā)明一個實(shí)施例的一種基于視頻搜索的關(guān)聯(lián)資源地址的推送實(shí)施例的步驟流程圖,具體可以包括如下步驟: [0081]步驟101,當(dāng)接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息;
[0082]需要說明的是,第一視頻資源數(shù)據(jù)可以位于終端設(shè)備上,也可以位于網(wǎng)絡(luò)上,特征本文本信息可以是視頻資源數(shù)據(jù)所攜帶的信息。
[0083]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟101具體可以包括如下子步驟:
[0084]子步驟S11,當(dāng)接收到第一視頻數(shù)據(jù)的播放請求時,接收當(dāng)前終端發(fā)送的所述第一視頻資源數(shù)據(jù)的特征本文本信息;
[0085]當(dāng)?shù)谝灰曨l資源數(shù)據(jù)位于終端設(shè)備上時,可以由終端設(shè)備提取第一視頻資源數(shù)據(jù)的特征文本信息,然后上傳到對應(yīng)的服務(wù)器側(cè)。
[0086]或者,
[0087]子步驟S12,當(dāng)接收到第一視頻數(shù)據(jù)加載請求時,提取本地預(yù)置的所述視頻資源數(shù)據(jù)的特征本文本信息。
[0088]當(dāng)?shù)谝灰曨l資源數(shù)據(jù)位于網(wǎng)絡(luò)上時,可以由服務(wù)器側(cè)提取第一視頻資源數(shù)據(jù)的特征文本信息。
[0089]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述特征文本信息可以包括視頻標(biāo)題、視頻關(guān)鍵詞和/或視頻描述。
[0090]例如,在一段名為《【拍客】東莞暴雨后變威尼斯,千余輛車水浸拋錨一在線播放一XX網(wǎng),視頻高清在線觀看》的視頻資源數(shù)據(jù)中,其特征文本信息可以如下:
[0091]視頻標(biāo)題(Title):【拍客】東莞暴雨后變威尼斯,千余輛車水浸拋錨一在線播放一XX網(wǎng),視頻高清在線觀看;
[0092]視頻關(guān)鍵詞(Keywords):YY記者生活資訊東堯水浸;
[0093]視頻描述(Description):昨 天上午的一場暴雨,讓東堯部分地區(qū)的街坊瞬間感到好像來到了威尼斯。行駛中的小車在暴雨中遭到水浸拋錨,有的街坊家中也是一片汪洋。
[0094]在實(shí)際應(yīng)用中,特征本文本信息可以是單詞,即包括一個語義獨(dú)立的詞,例如中秋、端午、國慶等等;特征本文本信息也可以是復(fù)合詞,即包括兩個或兩個以上語義獨(dú)立的詞,例如中秋月餅、端午粽子、國慶西藏旅游等等。一般而言,在終端設(shè)備中的視頻資源數(shù)據(jù)往往只有視頻標(biāo)題(Title),例如“鋼鐵俠”、“蜘蛛俠”等電影名稱;在網(wǎng)絡(luò)中的視頻資源數(shù)據(jù)往往包括視頻標(biāo)題(Title)、視頻關(guān)鍵詞(Keywords)和視頻描述(Description)中的一個或多個。
[0095]步驟102,將所述特征本文本信息映射為一個或多個第一分詞;
[0096]需要說明的是,被映射的分詞可以是預(yù)先設(shè)置的,可以用于計(jì)算不同分詞之間的同現(xiàn)率。
[0097]映射的規(guī)則也可以是預(yù)先設(shè)置的一個或多個,可以包括去除視頻搜索字符的臟詞、修飾詞、語氣助詞、寬泛詞等無實(shí)際意義的詞語;可以包括設(shè)定停止詞,即一些常見的詞,為拆分詞組時停止的標(biāo)準(zhǔn),例如的、我、你等等;還可以包括關(guān)聯(lián)關(guān)系的對應(yīng),將同一事物的多種表達(dá)對應(yīng)為一種表達(dá),例如將八月十五、中秋節(jié)、月餅節(jié)等關(guān)聯(lián)為中秋;還可以包括其他映射規(guī)則,本發(fā)明實(shí)施例對此不加以限制。
[0098]英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學(xué)生”。計(jì)算機(jī)可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。例如,我是一個學(xué)生,分詞的結(jié)果是:我、是、一個、學(xué)生。
[0099]下面介紹一些常用的分詞方法:
[0100]1、基于字符串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個預(yù)置的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。
[0101]2、基于特征掃描或標(biāo)志切分的分詞方法:是指優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而提高切分的準(zhǔn)確率。
[0102]3、基于理解的分詞方法:是指通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。
[0103]4、基于統(tǒng)計(jì)的分詞方法:是指,中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息,以及計(jì)算兩個漢字Χ、-的相鄰共現(xiàn)概率。互現(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典。
[0104]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟102具體可以包括如下子步驟:
[0105]子步驟S21,提取所述特征本文本信息所映射的一個分詞;
[0106]對于特征本文本信息為單詞的情形,可以按照預(yù)設(shè)的映射規(guī)則直接提取其對應(yīng)的分詞。例如,特征本文本信息為“中秋節(jié)”、“我的中秋節(jié)”或者“中秋節(jié)了”等,映射的第一分詞都可以為“中秋”。當(dāng)然,特征本文本信息也可以與其映射的第一分詞是同一個詞,例如特征本文本信息為“中秋”,映射的第一分詞也可以“中秋”。
[0107]或者,
[0108]子步驟S22,當(dāng)接收到的特征本文本信息為復(fù)合詞時,將所述特征本文本信息拆分為多個搜索子詞;
[0109]子步驟S23,提取所述多個搜索子詞所映射的多個分詞。
[0110]對于特征本文本信息為復(fù)合詞的情形,可以按照預(yù)設(shè)的映射規(guī)則進(jìn)行分詞,得到搜索子詞,然后分別提取搜索子詞對應(yīng)的分詞。例如,接收到的特征本文本信息為“中秋節(jié)月餅”,可以將其拆分為“中秋節(jié)”和“月餅”兩個搜索子詞,然后將“中秋節(jié)”映射為“中秋”,將“月餅”映射為“月餅”,得到“中秋”和“月餅”兩個第一分詞。
[0111]步驟103,查找與所 述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞;
[0112]所述同現(xiàn)率為當(dāng)前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;
[0113]具體而言,同現(xiàn)率可以為當(dāng)前一個或多個分詞與第二分詞在同一視頻資源數(shù)據(jù)的特征文本信息中共同出現(xiàn)的概率,具體可以包括一個第一分詞和第二分詞的同現(xiàn)率,多個分詞和第二分詞的同現(xiàn)率。
[0114]需要說明的是,第二分詞可以是在全部預(yù)設(shè)的分詞中,除第一分詞以外的分詞。關(guān)聯(lián)第二分詞可以是與第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞。
[0115]在實(shí)際應(yīng)用中,視頻資源數(shù)據(jù)可以包括特征文本信息,該特征文本信息可以用于記載該視頻資源數(shù)據(jù)的相關(guān)信息,也可以用于提取分詞。
[0116]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟103具體可以包括如下子步驟:
[0117]子步驟S31,當(dāng)所述特征本文本信息被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成;
[0118]在具體實(shí)現(xiàn)中,可以預(yù)先采用搜索引擎通過爬蟲抓取各個網(wǎng)站平臺上的視頻資源數(shù)據(jù),然后建立索引庫:提取視頻資源數(shù)據(jù)的特征文本信息進(jìn)行分詞處理,并建立每個分詞對應(yīng)的索引表,該索引表中可以存儲視頻資源數(shù)據(jù)的信息(可以是ID、內(nèi)網(wǎng)地址、外網(wǎng)地址等等視頻標(biāo)識,也可以是一條由當(dāng)前分詞和其他分詞所組成的記錄)、視頻資源數(shù)據(jù)中的所有分詞(包括第一分詞和除第一分詞外的第二分詞)。
[0119]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述特征文本信息可以包括視頻標(biāo)題、視頻關(guān)鍵詞和/或視頻描述。
[0120]例如,“中秋”的索引表可以如下:
[0121]
【權(quán)利要求】
1.一種基于視頻搜索的關(guān)聯(lián)資源地址的推送方法,包括: 當(dāng)接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息; 將所述特征本文本信息映射為一個或多個第一分詞; 查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當(dāng)前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率; 獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址; 推送所述第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。
2.如權(quán)利要求1所述的方法,其特征在于,所述當(dāng)接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息的步驟包括: 當(dāng)接收到第一視頻數(shù)據(jù)的播放請求時,接收當(dāng)前終端發(fā)送的所述第一視頻資源數(shù)據(jù)的特征本文本信息; 或者, 當(dāng)接收到第一視頻數(shù)據(jù)加載請求時,提取本地預(yù)置的所述視頻資源數(shù)據(jù)的特征本文本信息。
3.如權(quán)利要求1所述的 方法,其特征在于,所述將所述特征本文本信息映射為一個或多個第一分詞的步驟包括: 提取所述特征本文本信息所映射的一個分詞; 或者, 當(dāng)接收到的特征本文本信息為復(fù)合詞時,將所述特征本文本信息拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
4.如權(quán)利要求1所述的方法,其特征在于,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞的步驟包括: 當(dāng)所述特征本文本信息被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成; 計(jì)算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
5.如權(quán)利要求1所述的方法,其特征在于,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞的步驟包括: 當(dāng)所述特征本文本信息被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成; 提取與所述多個第一分詞共同出現(xiàn)的第二分詞作為候選分詞;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 分別在各個索引表中計(jì)算所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中候選分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值; 分別為所述多個第一分詞與所述候選分詞的同現(xiàn)率配置對應(yīng)的多個權(quán)重; 分別計(jì)算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率; 提取所述同現(xiàn)率高于預(yù)設(shè)閾值的候選分詞作為關(guān)聯(lián)第二分詞。
6.如權(quán)利要求1所述的方法,其特征在于,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞的步驟包括: 當(dāng)所述特征本文本信息被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進(jìn)行分詞生成; 采用所述多個索引表確定主分詞,所述主分詞為視頻資源數(shù)據(jù)的信息總數(shù)最多的索引表對應(yīng)的第一分詞; 計(jì)算所述主分詞與其對應(yīng)的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
7.如權(quán)利要求1或4或5`或6所述的方法,其特征在于,所述特征文本信息包括視頻標(biāo)題、視頻關(guān)鍵詞和/或視頻描述。
8.如權(quán)利要求6所述的方法,其特征在于,所述獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址的步驟包括: 獲取所述主分詞和所述關(guān)聯(lián)第二分詞的的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。
9.一種基于視頻搜索的關(guān)聯(lián)資源地址的推送裝置,包括: 特征文本信息獲取模塊,適于在接收到第一視頻資源數(shù)據(jù)的加載或播放請求時,獲取所述第一視頻資源數(shù)據(jù)的特征本文本信息; 第一分詞映射模塊,適于將所述特征本文本信息映射為一個或多個第一分詞; 第二分詞查找模塊,適于查找與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當(dāng)前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率; 網(wǎng)絡(luò)連接地址獲取模塊,適于獲取與所述一個或多個第一分詞和所述關(guān)聯(lián)第二分詞匹配的第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址; 網(wǎng)絡(luò)連接地址推送模塊,適于推送所述第二視頻資源數(shù)據(jù)的網(wǎng)絡(luò)鏈接地址。
10.如權(quán)利要求9所述的裝置,其特征在于,所述特征文本信息獲取模塊還適于: 當(dāng)接收到第一視頻數(shù)據(jù)的播放請求時,接收當(dāng)前終端發(fā)送的所述第一視頻資源數(shù)據(jù)的特征本文本信息; 或者, 當(dāng)接收到第一視頻數(shù)據(jù)加載請求時,提取本地預(yù)置的所述視頻資源數(shù)據(jù)的特征本文本信息。
【文檔編號】H04L29/12GK103491205SQ201310462461
【公開日】2014年1月1日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】崔代超 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司