欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視頻資源的倒排索引文件建立方法及其系統(tǒng)的制作方法

文檔序號:6526256閱讀:375來源:國知局
視頻資源的倒排索引文件建立方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種視頻資源的倒排索引文件建立方法及其系統(tǒng),其中該方法包括:通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理得到關(guān)鍵詞;建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立視頻文件的倒排索引文件。通過本發(fā)明能夠提高對于海量視頻數(shù)據(jù)的檢索效率。
【專利說明】視頻資源的倒排索引文件建立方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索技術(shù),具體地說涉及一種視頻資源的倒排索引文件建立方法及其系統(tǒng)。
【背景技術(shù)】
[0002]隨著科技的發(fā)展,越來越多的用戶通過互聯(lián)網(wǎng)搜索并觀看各種視頻。由于互聯(lián)網(wǎng)提供的視頻信息十分豐富,并具有不斷變化及更新的特點,隨之產(chǎn)生了多種搜索引擎進行視頻信息檢索。
[0003]在關(guān)系數(shù)據(jù)庫系統(tǒng)中,索引是檢索數(shù)據(jù)最有效率的方式。但對于全網(wǎng)的視頻搜索引擎,并不能滿足其特殊要求:
[0004](1)搜索引擎面對的是全網(wǎng)的海量視頻數(shù)據(jù),例如樂視網(wǎng)等大型的視頻網(wǎng)站搜索引擎索引都是億級甚至幾千億的網(wǎng)頁數(shù)量,面對如此海量的視頻數(shù)據(jù),使得數(shù)據(jù)庫系統(tǒng)很難有效的管理。
[0005](2)搜索引擎使用的數(shù)據(jù)操作簡單,一般而言,只需要增、刪、改、查等幾個功能,而且數(shù)據(jù)都有特定的格式,可以針對這些應(yīng)用設(shè)計出簡單高效的應(yīng)用程序。而一般的數(shù)據(jù)庫系統(tǒng)則支持大而全的功能,同時損失了速度和空間。
[0006](3)搜索引擎面臨大量的用戶檢索需求,這要求盡可能的將大運算量的工作在索引建立時完成,使檢索運算量盡量少。一般的數(shù)據(jù)庫系統(tǒng)很難承受如此大量的用戶請求,而且在檢索響應(yīng)時間和檢索并發(fā)度上不能滿足需求。
[0007]綜上所述可知,現(xiàn)有技術(shù)中存在對于海量視頻信息的數(shù)據(jù)索引方案不能夠滿足數(shù)量、時間、效率等方面的需求的技術(shù)問題,因此有必要提出改進的技術(shù)方案解決上述問題。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的主要目的在于提供一種視頻資源的倒排索引文件建立方法及其系統(tǒng),以解決現(xiàn)有技術(shù)存在的對于海量數(shù)據(jù)檢索速度慢、效率低的問題,其中:
[0009]根據(jù)本發(fā)明的一方面,提供了一種視頻資源的倒排索引文件建立方法,其包括:通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理得到關(guān)鍵詞;建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立視頻文件的倒排索引文件。
[0010]其中,所述方法還包括:提供詞庫,所述詞庫的數(shù)據(jù)來源包括:基礎(chǔ)詞庫、視頻版權(quán)詞庫、用戶生成內(nèi)容;所述通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理的步驟包括:根據(jù)所述詞庫并通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理。
[0011]其中,所述分詞方式包括:二元分詞法、最大匹配法、統(tǒng)計方法。
[0012]其中,所述建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系的步驟包括:記錄并存儲所述關(guān)鍵詞的索引信息,所述索引信息包括:包含關(guān)鍵詞的視頻文件的標(biāo)識信息、關(guān)鍵詞出現(xiàn)的位置信息、關(guān)鍵詞出現(xiàn)的頻率信息;建立關(guān)鍵詞與其索引信息之間的關(guān)聯(lián)關(guān)系。[0013]其中,所述方法還包括:統(tǒng)計基于倒排索引文件得到的檢索結(jié)果,將搜索頻率超過設(shè)定閾值的關(guān)鍵詞調(diào)整到倒排索引文件的文件起始部分。
[0014]根據(jù)本發(fā)明的另一方面,還提供了一種倒排索引文件建立系統(tǒng),其包括:關(guān)鍵詞獲取模塊,用于通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理得到關(guān)鍵詞;倒排索引建立模塊,用于建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立倒排索引文件。
[0015]其中,所述系統(tǒng)還包括:詞庫維護模塊,用于建立并維護詞庫,所述詞庫的數(shù)據(jù)來源包括:基礎(chǔ)詞庫、視頻版權(quán)庫、用戶生成內(nèi)容;所述關(guān)鍵詞獲取模塊根據(jù)所述詞庫并通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理。
[0016]其中,所述分詞方式包括:二元分詞法、最大匹配法、統(tǒng)計方法。
[0017]其中,所述倒排索引建立模塊包括:記錄模塊,用于記錄并存儲所述關(guān)鍵詞的索引信息,所述索引信息包括:包含關(guān)鍵詞的視頻文件的標(biāo)識信息、關(guān)鍵詞出現(xiàn)的位置信息、關(guān)鍵詞出現(xiàn)的頻率信息;關(guān)聯(lián)關(guān)系建立模塊,用于建立關(guān)鍵詞與其索引信息之間的關(guān)聯(lián)關(guān)系。
[0018]其中,所述系統(tǒng)還包括:檢索結(jié)果統(tǒng)計模塊,用于統(tǒng)計基于倒排索引文件得到的檢索結(jié)果;處理模塊,用于將搜索頻率超過設(shè)定閾值的關(guān)鍵詞調(diào)整到倒排索引文件的文件起始部分。
[0019]根據(jù)本發(fā)明的技術(shù)方案,通過對視頻文件信息進行分詞處理得到關(guān)鍵詞,建立關(guān)鍵詞與具有關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立倒排索引文件,當(dāng)用戶使用關(guān)鍵詞搜索視頻文件時,能夠快速并準(zhǔn)確地提供相應(yīng)的信息。
【專利附圖】

【附圖說明】
[0020]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0021]圖1是根據(jù)本發(fā)明實施例的倒排索引文件建立方法的流程圖;
[0022]圖2是根據(jù)本發(fā)明一個實施例的倒排索引文件建立系統(tǒng)的結(jié)構(gòu)框圖;
[0023]圖3是根據(jù)本發(fā)明另一實施例的倒排索引文件建立系統(tǒng)的結(jié)構(gòu)框圖。
【具體實施方式】
[0024]一般的索引即正排索引,是由記錄來確定屬性值;倒排索引是根據(jù)屬性值來確定記錄的位置,因此稱為倒排索引。本發(fā)明用于擁有海量視頻資源的視頻網(wǎng)站的視頻資源的存儲與檢索,通過對全網(wǎng)的文檔(互聯(lián)網(wǎng)上的視頻文件)建立由字(詞)到文檔的倒排索引,當(dāng)用戶使用關(guān)鍵詞來對文檔(網(wǎng)頁)進行查詢時,系統(tǒng)將給用戶返回含有該關(guān)鍵詞的文檔(網(wǎng)頁)。
[0025]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,以下結(jié)合附圖及具體實施例,對本發(fā)明作進一步地詳細(xì)說明。
[0026]根據(jù)本發(fā)明實施例,提供了一種視頻資源的倒排索引文件建立方法。參考圖1,是根據(jù)本發(fā)明實施例的視頻資源的倒排索引文件建立方法的流程圖,包括以下步驟(步驟S102-S104):
[0027]步驟S102,通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理得到關(guān)鍵詞。[0028]視頻文件信息指視頻文件包含的名稱、主題詞、內(nèi)容簡介等一些文字信息,通過分詞處理得到視頻文件信息的關(guān)鍵詞。一般地,分詞處理就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列。分詞的目的就是對各文檔進行分析以提取那些有可能成為用戶查詢對象的字(詞)。
[0029]根據(jù)視頻文件信息所使用語言種類的不同,分詞處理可大體分為中文分詞處理和外文(下面以英文為代表說明)分詞處理。英文以空格作為天然的分隔符,通過空格就可以區(qū)分單詞,再剔除其中一些冗余的字詞(例如:a、the等),就可以完成分詞處理,下面舉例說明。
[0030]例如,有兩篇文件1和2,文件1的內(nèi)容為:“Tom lives in Guangzhou, I live inGuangzhou to0.”,經(jīng)過分詞處理后的文件1的所有關(guān)鍵詞為:[tom] [live] [guangzhou][i][live][guangzhou]。
[0031]文件2的內(nèi)容為:“He once lived in Shangha1.”,經(jīng)過分詞處理后的文件2的所有關(guān)鍵詞為:[he] [live] [shanghai]。
[0032]而中文的分詞比英文的分詞復(fù)雜,中文詞語之間沒有明顯的分界符。本發(fā)明通過引進詞庫進行分詞處理。在實際應(yīng)用中,詞庫的數(shù)據(jù)來源包括但不限于以下渠道:基礎(chǔ)詞庫、視頻版權(quán)庫、用戶生成內(nèi)容(User-generated content,簡稱為UGC)。其中,基礎(chǔ)詞庫包括各種字典和詞典,但是視頻文件并不嚴(yán)格與詞典的名稱一致,因此還需用到視頻版權(quán)詞庫。視頻版權(quán)詞庫為根據(jù)具有版權(quán)的視頻資源信息得到的詞庫,該詞庫能夠符合視頻文件信息分詞處理的需求。而UGC是由用戶生成的或提供的或原創(chuàng)的內(nèi)容,補充了網(wǎng)絡(luò)中使用的一些新詞。通過上述多種詞庫相互配合及補充,經(jīng)過分詞處理后能夠得到較理想的關(guān)鍵
ο
[0033]另外,由于中文語言的復(fù)雜性,為了解決分詞過程中產(chǎn)生的歧義,還需要使用一些分詞算法,例如二元分詞法、最大匹配法、統(tǒng)計方法等方式對視頻文件信息進行分詞處理。所謂二元分詞法,即將名稱按照步長為2進行切分,這樣,長度為η (η個字)的名稱被切分為η-l個二兀詞,其前一個詞和后一個詞有一個公共字。最大匹配法包括最大向前匹配法、最大向后匹配法等,此處不再贅述。
[0034]優(yōu)選的,在采用如二元分詞法、最大匹配法、統(tǒng)計方法等方式對視頻文件信息進行分詞處理后,在詞庫中對分詞操作得到的詞進行驗證,已確定分詞操作得到的詞是否準(zhǔn)確。
[0035]步驟S104,建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立視頻文件的倒排索引文件。
[0036]經(jīng)過分詞處理得到關(guān)鍵詞后,將關(guān)鍵詞連同對應(yīng)的文件的標(biāo)識信息(ID) —起存儲在倒排索引文件中,在對所有文件進行分析之后,按得到的關(guān)鍵詞的順序?qū)﹃P(guān)鍵詞進行排序、合并等處理,統(tǒng)計各關(guān)鍵詞在個文件中出現(xiàn)的概率,并且索引文件中還有可能包含其他索引信息。例如:文件數(shù),用于表明關(guān)鍵詞在多少個文件中出現(xiàn);總頻率,用于表明關(guān)鍵詞在所有文件中出現(xiàn)的次數(shù);頻率,用于表明關(guān)鍵詞在一個文件中出現(xiàn)的次數(shù)。從而,建立關(guān)鍵詞與其索引信息之間的關(guān)聯(lián)關(guān)系。
[0037]承上述例子,關(guān)鍵詞與其對應(yīng)的索引信息如表1所示,也就是說,關(guān)鍵詞與其對應(yīng)的“出現(xiàn)頻率”和“出現(xiàn)位置”信息得到最終的索引結(jié)構(gòu)。
[0038]表1[0039]
【權(quán)利要求】
1.一種視頻資源的倒排索引文件建立方法,其特征在于,包括:通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理得到關(guān)鍵詞;建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立視頻文件的倒排索引文件。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:提供詞庫,所述詞庫的數(shù)據(jù)來源包括:基礎(chǔ)詞庫、視頻版權(quán)詞庫、用戶生成內(nèi)容;所述通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理的步驟包括:根據(jù)所述詞庫并通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述分詞方式包括:二元分詞法、最大匹配法、統(tǒng)計方法。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系的步驟包括:記錄并存儲所述關(guān)鍵詞的索引信息,所述索引信息包括:包含關(guān)鍵詞的視頻文件的標(biāo)識信息、關(guān)鍵詞出現(xiàn)的位置信息、關(guān)鍵詞出現(xiàn)的頻率信息;建立關(guān)鍵詞與其索引信息之間的關(guān)聯(lián)關(guān)系。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:統(tǒng)計基于倒排索引文件得到的檢索結(jié)果,將搜索頻率超過設(shè)定閾值的關(guān)鍵詞調(diào)整到倒排索引文件的文件起始部分。
6.一種倒排索引文件建立系統(tǒng),其特征在于,包括:關(guān)鍵詞獲取模塊,用于通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理得到關(guān)鍵詞;倒排索引建立模塊,用于建立所述關(guān)鍵詞與具有所述關(guān)鍵詞的視頻文件信息之間的索引關(guān)系,從而建立倒排索引文件。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括:詞庫維護模塊,用于建立并維護詞庫,所述詞庫的數(shù)據(jù)來源包括:基礎(chǔ)詞庫、視頻版權(quán)庫、用戶生成內(nèi)容;所述關(guān)鍵詞獲取模塊根據(jù)所述詞庫并通過預(yù)設(shè)的分詞方式對視頻文件信息進行分詞處理。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述分詞方式包括:二元分詞法、最大匹配法、統(tǒng)計方法。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述倒排索引建立模塊包括:記錄模塊,用于記錄并存儲所述關(guān)鍵詞的索引信息,所述索引信息包括:包含關(guān)鍵詞的視頻文件的標(biāo)識信息、關(guān)鍵詞出現(xiàn)的位置信息、關(guān)鍵詞出現(xiàn)的頻率信息;關(guān)聯(lián)關(guān)系建立模塊,用于建立關(guān)鍵詞與其索引信息之間的關(guān)聯(lián)關(guān)系。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括:檢索結(jié)果統(tǒng)計模塊,用于統(tǒng)計基于倒排索引文件得到的檢索結(jié)果;處理模塊,用于將搜索頻率超過設(shè)定閾值的關(guān)鍵詞調(diào)整到倒排索引文件的文件起始部分。
【文檔編號】G06F17/30GK103678694SQ201310739955
【公開日】2014年3月26日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】曹坤波, 鄭磊 申請人:樂視網(wǎng)信息技術(shù)(北京)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
汝州市| 田东县| 上思县| 达州市| 荣成市| 乡城县| 敖汉旗| 四会市| 皋兰县| 泽普县| 土默特右旗| 武邑县| 长乐市| 岑溪市| 张家港市| 公主岭市| 鄱阳县| 阳曲县| 丰顺县| 河北省| 郴州市| 布拖县| 高雄市| 荆州市| 邯郸市| 琼中| 林口县| 巢湖市| 湘乡市| 武义县| 襄汾县| 和田市| 呼图壁县| 江源县| 曲麻莱县| 衢州市| 资溪县| 南投县| 府谷县| 常山县| 财经|