本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,特別涉及一種視頻索引分級(jí)方法及裝置。
背景技術(shù):
隨著用戶的需求提高,視頻搜索引擎需要提供高頻和高并發(fā)的在線服務(wù),即同時(shí)讓不同的用戶在極低的響應(yīng)時(shí)間內(nèi)搜索到滿意的視頻。視頻搜索引擎根據(jù)用戶的視頻搜索請(qǐng)求,在索引中進(jìn)行搜索。
隨著用戶數(shù)、訪問(wèn)數(shù)的增長(zhǎng)帶來(lái)視頻搜索引擎QPS(Query Per Second,每秒查詢率)負(fù)載的提升,即每秒須同時(shí)處理的請(qǐng)求數(shù)更多,另外,每天網(wǎng)絡(luò)上不斷有新的視頻產(chǎn)生,造成搜索引擎索引量的數(shù)量巨大,為了保證視頻搜索的召回率,所有視頻均需建立索引,容納一套索引需要的服務(wù)器內(nèi)存空間會(huì)越來(lái)越大。但服務(wù)器由于帶寬等限制,單臺(tái)服務(wù)器所能承擔(dān)的QPS負(fù)載是有限的,服務(wù)器的內(nèi)存空間也是有限的,為了滿足QPS負(fù)載和索引量的不斷增長(zhǎng),現(xiàn)有的方法是增加服務(wù)器的數(shù)量,但這種方法會(huì)導(dǎo)致在線服務(wù)器的數(shù)量龐大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種視頻索引分級(jí)方法及裝置,以節(jié)省在線服務(wù)器的數(shù)量。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種視頻索引分級(jí)方法,所述方法包括:
將全部視頻中滿足預(yù)設(shè)規(guī)則的視頻對(duì)應(yīng)的索引加入到一級(jí)索引中,并將全部視頻對(duì)應(yīng)的索引加入到二級(jí)索引中;
對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的其他視頻,抽取用于確定視頻的索引是否需要加入到所述一級(jí)索引中的特征數(shù)據(jù);
根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型;
針對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的每一視頻,根據(jù)訓(xùn)練好的所述分類模型,確定是否需要將所述視頻的索引加入到所述一級(jí)索引中;
將所確定的索引加入到所述一級(jí)索引中。
較佳的,所述方法還包括:
接收用戶的視頻搜索請(qǐng)求,所述視頻搜索請(qǐng)求中至少包含請(qǐng)求結(jié)果數(shù);
估計(jì)利用所述一級(jí)索引進(jìn)行視頻搜索返回的第一結(jié)果數(shù),以及利用所述二級(jí)索引進(jìn)行視頻搜索返回的第二結(jié)果數(shù);
根據(jù)所述請(qǐng)求結(jié)果數(shù)、所述第一結(jié)果數(shù)以及所述第二結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別;
利用所確定級(jí)別的索引,進(jìn)行視頻搜索。
較佳的,所述根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型,包括:
根據(jù)所述特征數(shù)據(jù),利用梯度下降法,訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型。
較佳的,所述根據(jù)所述請(qǐng)求結(jié)果數(shù)、所述第一結(jié)果數(shù)以及所述第二結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別,包括:
判斷所述第一結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);
如果是,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引;
如果否,判斷所述第二結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);如果是,將所述二級(jí)索引確定為用于進(jìn)行視頻搜索的索引;如果否,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引。
較佳的,在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,所述方法還包括:
判斷利用所述一級(jí)索引,進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果數(shù)是否小于所述請(qǐng)求結(jié)果數(shù);
如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
較佳的,在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,所述方法還包括:
針對(duì)利用所述一級(jí)索引,進(jìn)行視頻搜索返回的每一搜索結(jié)果,計(jì)算所述搜索結(jié)果與所述視頻搜索請(qǐng)求的相關(guān)度;
根據(jù)所述相關(guān)度,確定滿足所述視頻搜索請(qǐng)求的結(jié)果數(shù)量;
判斷所述結(jié)果數(shù)量是否小于所述請(qǐng)求結(jié)果數(shù);
如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
為達(dá)到上述目的,本發(fā)明實(shí)施例還公開(kāi)了一種視頻索引分級(jí)裝置,所述裝置包括:
加入模塊,用于將全部視頻中滿足預(yù)設(shè)規(guī)則的視頻對(duì)應(yīng)的索引加入到一級(jí)索引中,并將全部視頻對(duì)應(yīng)的索引加入到二級(jí)索引中;
抽取模塊,用于對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的其他視頻,抽取用于確定視頻的索引是否需要加入到所述一級(jí)索引中的特征數(shù)據(jù);
訓(xùn)練模塊,用于根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型;
第一確定模塊,用于針對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的每一視頻,根據(jù)訓(xùn)練好的所述分類模型,確定是否需要將所述視頻的索引加入到所述一級(jí)索引;
所述加入模塊,還用于將所確定的索引加入到所述一級(jí)索引。
較佳的,所述裝置還包括:
接收模塊,用于接收用戶的視頻搜索請(qǐng)求,所述視頻搜索請(qǐng)求中至少包含請(qǐng)求結(jié)果數(shù);
估計(jì)模塊,用于估計(jì)利用所述一級(jí)索引進(jìn)行視頻搜索返回的第一結(jié)果數(shù),以及利用所述二級(jí)索引進(jìn)行視頻搜索返回的第二結(jié)果數(shù);
第二確定模塊,用于根據(jù)所述請(qǐng)求結(jié)果數(shù)、所述第一結(jié)果數(shù)以及所述第二結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別;
搜索模塊,用于利用所確定級(jí)別的索引,進(jìn)行視頻搜索。
較佳的,所述訓(xùn)練模塊,具體用于:
根據(jù)所述特征數(shù)據(jù),利用梯度下降法,訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型。
較佳的,所述第二確定模塊,具體用于:
判斷所述第一結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);
如果是,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引;
如果否,判斷所述第二結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);如果是,將所述二級(jí)索引確定為用于進(jìn)行視頻搜索的索引;如果否,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引。
較佳的,所述裝置還包括:第一處理模塊,其中,
所述第一處理模塊,用于在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,判斷利用所述一級(jí)索引,進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果數(shù)是否小于所述請(qǐng)求結(jié)果數(shù);如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
較佳的,所述裝置還包括:第二處理模塊,其中,
所述第二處理模塊,用于在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,針對(duì)利用所述一級(jí)索引,進(jìn)行視頻搜索返回的每一搜索結(jié)果,計(jì)算所述搜索結(jié)果與所述視頻搜索請(qǐng)求的相關(guān)度;根據(jù)所述相關(guān)度,確定滿足所述視頻搜索請(qǐng)求的結(jié)果數(shù)量;判斷所述結(jié)果數(shù)量是否小于所述請(qǐng)求結(jié)果數(shù);如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
由上述技術(shù)方案可見(jiàn),本發(fā)明實(shí)施例提供一種視頻索引分級(jí)方法及裝置,所述方法包括:將全部視頻中滿足預(yù)設(shè)規(guī)則的視頻對(duì)應(yīng)的索引加入到所述一級(jí)索引中;對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的其他視頻,抽取用于確定視頻的索引是否需要加入到所述一級(jí)索引中的特征數(shù)據(jù);根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型;針對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的每一視頻,根據(jù)訓(xùn)練好的所述分類模型,確定是否需要將所述視頻的索引加入到所述一級(jí)索引中;將所確定的索引加入到所述一級(jí)索引中;將全部視頻對(duì)應(yīng)的索引加入到二級(jí)索引中。
應(yīng)用本發(fā)明實(shí)施例,通過(guò)建立兩級(jí)索引,容納一級(jí)索引所需要的服務(wù)器的數(shù)量小于容納二級(jí)索引所需要的服務(wù)器的數(shù)量,而且一級(jí)索引能夠承擔(dān)大部分QPS負(fù)載,二級(jí)索引只需較少的服務(wù)器數(shù)量承擔(dān)剩余小部分QPS負(fù)載,所以,在相同索引量和QPS負(fù)載下,節(jié)省了在線服務(wù)器的數(shù)量。
當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種視頻索引分級(jí)方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的另一種視頻索引分級(jí)方法的流程示意圖;
圖3為本發(fā)明實(shí)施例提供的一種視頻索引分級(jí)裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實(shí)施例提供的另一種視頻索引分級(jí)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為了解決現(xiàn)有技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了一種視頻索引分級(jí)方法及裝置。下面首先對(duì)本發(fā)明實(shí)施例所提供的一種視頻索引分級(jí)方法進(jìn)行介紹。
圖1為本發(fā)明實(shí)施例提供的一種視頻索引分級(jí)方法的流程示意圖,方法可以包括:
S101:將全部視頻中滿足預(yù)設(shè)規(guī)則的視頻對(duì)應(yīng)的索引加入到一級(jí)索引中,并將全部視頻對(duì)應(yīng)的索引加入到二級(jí)索引中。
需要說(shuō)明的是,預(yù)設(shè)規(guī)則可以根據(jù)具體情況而定,可以是將具有明顯特征的視頻對(duì)應(yīng)的索引加入到一級(jí)索引,這里所說(shuō)的明顯特征可以為視頻的名稱、視頻的類型、時(shí)長(zhǎng)、站點(diǎn)、上線時(shí)間、在預(yù)設(shè)時(shí)間內(nèi)被搜索或點(diǎn)擊的次數(shù)等等,可以根據(jù)實(shí)際需要選擇上述所說(shuō)的明顯特征中的一種或多種組成預(yù)設(shè)規(guī)則,對(duì)視頻進(jìn)行篩選。例如,可以將視頻的時(shí)長(zhǎng)超過(guò)預(yù)設(shè)值作為預(yù)設(shè)規(guī)則,將滿足該預(yù)設(shè)規(guī)則的視頻的索引加入到一級(jí)索引;還可以將在預(yù)設(shè)時(shí)間內(nèi)被搜索或點(diǎn)擊的次數(shù)排名在預(yù)設(shè)排名內(nèi)的視頻的索引加入到一級(jí)索引。示例性的,可以將上線時(shí)間是2016年的視頻對(duì)應(yīng)的索引加入到一級(jí)索引中。
本領(lǐng)域人員可以理解的是,為了保證視頻的召回率,需要建立全部視頻的索引,將全部視頻對(duì)應(yīng)的索引加入到二級(jí)索引中。
S102:對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的其他視頻,抽取用于確定視頻的索引是否需要加入到所述一級(jí)索引中的特征數(shù)據(jù)。
本領(lǐng)域技術(shù)人員可以理解的是,抽取視頻的特征數(shù)據(jù),這里所抽取的特征數(shù)據(jù)可以分為三類:一是視頻本身的屬性,例如時(shí)長(zhǎng)、上線時(shí)間、碼率等等;二是通過(guò)搜索日志統(tǒng)計(jì)的視頻搜索點(diǎn)擊的相關(guān)特征,例如各時(shí)間維度上的搜索次數(shù)、點(diǎn)擊次數(shù)等等;三是人工構(gòu)建特征,例如視頻的搜索趨勢(shì)等等。
在實(shí)際應(yīng)用中,需要對(duì)抽取的特征數(shù)據(jù)進(jìn)行處理,去除噪音數(shù)據(jù),如將時(shí)長(zhǎng)為0的視頻對(duì)應(yīng)的特征數(shù)據(jù)刪除,將去除噪聲數(shù)據(jù)后的特征數(shù)據(jù)進(jìn)行歸一化處理,歸一化的目的為了加快訓(xùn)練的收斂性。本發(fā)明實(shí)施例中的歸一化處理為:去掉特征數(shù)據(jù)的量綱,并將去掉量綱的特征數(shù)據(jù)變?yōu)?0,1)之間的特征數(shù)據(jù)。
在實(shí)際應(yīng)用中,還需要針對(duì)除一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的其他視頻設(shè)置標(biāo)簽,設(shè)置標(biāo)簽的方法為:根據(jù)當(dāng)天的搜索日志,判斷視頻在當(dāng)天是否被搜索展示,如果是,將該視頻的標(biāo)簽設(shè)置為第一預(yù)設(shè)標(biāo)識(shí),如果否,將該視頻的標(biāo)簽設(shè)置為第二預(yù)設(shè)標(biāo)識(shí)。例如,第一預(yù)設(shè)標(biāo)識(shí)可以為1,第二預(yù)設(shè)標(biāo)識(shí)可以為0;或者,第一預(yù)設(shè)標(biāo)識(shí)可以為A,第二預(yù)設(shè)標(biāo)識(shí)可以為B等等。設(shè)置標(biāo)簽會(huì)對(duì)視頻對(duì)應(yīng)的索引是否可以加入一級(jí)索引產(chǎn)生影響。日志是發(fā)生在網(wǎng)站服務(wù)器上的所有事件的記錄,包括用戶訪問(wèn)記錄,搜索引擎抓取記錄,這里所說(shuō)的搜索日志是搜索的記錄。
S103:根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型。
具體的,所述根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型,可以包括:
根據(jù)所述特征數(shù)據(jù),利用梯度下降法,訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型。
需要說(shuō)明的是,梯度下降法又被稱為最速下降法(Steepest descend method),其理論基礎(chǔ)是梯度的概念,利用負(fù)梯度方向來(lái)決定每次迭代的新的搜索方向,使得每次迭代能使待優(yōu)化的目標(biāo)函數(shù)逐步減小。梯度下降法是機(jī)器學(xué)習(xí)算法的其中一種。機(jī)器學(xué)習(xí)算法的本質(zhì)就是如何對(duì)問(wèn)題抽象建模,使一個(gè)學(xué)習(xí)的問(wèn)題變?yōu)橐粋€(gè)可求解的優(yōu)化問(wèn)題,機(jī)器學(xué)習(xí)就是尋找輸入特征與輸出之間的映射關(guān)系,在尋找映射關(guān)系時(shí),重要的原則就是使得尋找到的映射結(jié)果與原始輸出之間的誤差最小。利用梯度下降法訓(xùn)練分類模型是現(xiàn)有技術(shù),在這里不進(jìn)行贅述。需要說(shuō)明的是,實(shí)際應(yīng)用中,分類模型可以是邏輯回歸模型。邏輯回歸(Logistic Regression)模型是機(jī)器學(xué)習(xí)中的一種分類模型,由于算法的簡(jiǎn)單和高效,在實(shí)際中應(yīng)用非常廣泛。
S104:針對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的每一視頻,根據(jù)訓(xùn)練好的所述分類模型,確定是否需要將所述視頻的索引加入到所述一級(jí)索引中。
本領(lǐng)域技術(shù)人員可以理解的是,訓(xùn)練好的分類模型可以根據(jù)視頻的特征數(shù)據(jù)或根據(jù)特征數(shù)據(jù)和設(shè)置的標(biāo)簽,對(duì)視頻標(biāo)記一個(gè)數(shù)值,如果這個(gè)數(shù)值不小于預(yù)設(shè)數(shù)值,則該視頻的索引為確定的索引,否則,該索引不是所確定的索引。
S105:將所確定的索引加入到所述一級(jí)索引中。
本領(lǐng)域技術(shù)人員可以理解的是,在將所確定的索引加入到一級(jí)索引后,需要判斷一級(jí)索引是否能承擔(dān)預(yù)設(shè)閾值的QPS負(fù)載,如果不能,根據(jù)實(shí)際情況增加一級(jí)索引的索引量,直至一級(jí)索引能承擔(dān)預(yù)設(shè)閾值的QPS負(fù)載。例如,可以擴(kuò)大預(yù)設(shè)規(guī)則的范圍,將滿足擴(kuò)大后的預(yù)設(shè)規(guī)則的視頻,將該視頻的索引加入到一級(jí)索引,假設(shè),原先預(yù)設(shè)規(guī)則為將上線時(shí)間為2016年的視頻的索引加入到一級(jí)索引,現(xiàn)在可以將上線時(shí)間為2016年擴(kuò)大為2015年和2016年;或者,調(diào)整S104中的預(yù)設(shè)數(shù)值的大小,使更多的視頻標(biāo)記的數(shù)值可以不小于預(yù)設(shè)數(shù)值。當(dāng)然,并不僅限于此,在這里不進(jìn)行一一贅述。
本領(lǐng)域人員技術(shù)人員可以理解的是,因每天都有新的視頻產(chǎn)生,為了保證召回率,需要在預(yù)設(shè)時(shí)間內(nèi),更新一級(jí)索引和二級(jí)索引。
應(yīng)用本發(fā)明實(shí)施例,通過(guò)建立兩級(jí)索引,容納一級(jí)索引所需要的服務(wù)器的數(shù)量小于容納二級(jí)索引所需要的服務(wù)器的數(shù)量,而且一級(jí)索引能夠承擔(dān)大部分QPS負(fù)載,二級(jí)索引只需較少的服務(wù)器數(shù)量承擔(dān)剩余小部分QPS負(fù)載,所以,在相同索引量和QPS負(fù)載下,節(jié)省了在線服務(wù)器的數(shù)量。
下面對(duì)減少服務(wù)器數(shù)量的原因進(jìn)行具體說(shuō)明。
為了滿足用戶的需求,索引需盡可能包含更多的視頻,讓任何用戶在搜索時(shí)都能找到自己想看的視頻,即有較高的召回率才能保證搜索服務(wù)的質(zhì)量,這就需要把從創(chuàng)建時(shí)間較早到最新的所有視頻全部收入索引中?,F(xiàn)在每天都會(huì)產(chǎn)生新視頻,不斷的添加新的視頻到索引中,造成索引量越來(lái)越大。但是,從搜索日志中可以發(fā)現(xiàn),每天用戶搜索到和點(diǎn)擊觀看的視頻只占全部索引包含視頻的小部分,還有很多視頻由于用戶興趣轉(zhuǎn)移,被搜索展示到的機(jī)會(huì)逐漸減??;從全部索引中劃分出來(lái)部分索引,作為一級(jí)索引,以全部的視頻作為二級(jí)索引,就可節(jié)省大量的服務(wù)器。根據(jù)實(shí)際情況可知,建立的一級(jí)索引可以滿足大部分的視頻搜索請(qǐng)求,但是相較于全部視頻的二級(jí)索引,一級(jí)索引的容量較小,所以一套一級(jí)索引所需的服務(wù)器個(gè)數(shù)也比全量索引所需服務(wù)器數(shù)量少,如果可以用一級(jí)索引滿足大部分在線請(qǐng)求,這部分視頻搜索請(qǐng)求對(duì)應(yīng)的服務(wù)器就可減少許多,達(dá)到節(jié)省服務(wù)器的目的,同理,在相同服務(wù)器成本下,也可以容納更多的索引量,負(fù)載更多的QPS。假設(shè),當(dāng)前QPS負(fù)載總量為Q,需要n套容納全部索引的服務(wù)器組可滿足需求,一套服務(wù)器組包含p臺(tái)服務(wù)器,則當(dāng)前線上所需服務(wù)器總數(shù)為n×p,設(shè)一級(jí)索引可承擔(dān)80%的QPS負(fù)載,且一級(jí)索引的大小為全部索引的25%,則索引分級(jí)所需的服務(wù)器總數(shù)為:
n×0.8×(p×0.25)+n×(1-0.8)×p=0.4×n×p
相同索引量和QPS負(fù)載下可節(jié)約60%的服務(wù)器。因此,應(yīng)用本發(fā)明實(shí)施例,根據(jù)視頻搜索請(qǐng)求估計(jì)是在一級(jí)索引中搜索還是在二級(jí)索引中搜索,根據(jù)估計(jì)的結(jié)果,確定用于進(jìn)行視頻搜索的索引級(jí)別,在確定的索引級(jí)別中,進(jìn)行視頻搜索。由于本發(fā)明實(shí)施例中一級(jí)索引包含全部視頻中部分視頻的索引,而且該一級(jí)索引能夠承擔(dān)QPS負(fù)載,容納一級(jí)索引的服務(wù)器相對(duì)于容納二級(jí)索引的服務(wù)器的數(shù)量要少;相較于現(xiàn)有技術(shù)中,二級(jí)索引承擔(dān)全部的QPS,二級(jí)索引由于一級(jí)索引的分擔(dān)QPS負(fù)載,為了滿足QPS負(fù)載,需要容納二級(jí)索引的服務(wù)器也減少。在QPS負(fù)載和索引量相同的情況下,減少服務(wù)器的數(shù)量,同理,在服務(wù)器的數(shù)量相同的情況下,相較于現(xiàn)有技術(shù),可以容納更大的索引量和更高的QPS負(fù)載。
圖2為本發(fā)明實(shí)施例提供的另一種視頻搜索方法的流程示意圖,本發(fā)明圖2所示實(shí)施例在圖1所示實(shí)施例的基礎(chǔ)上,增加S106、S107、S108和S109。
S106:接收用戶的視頻搜索請(qǐng)求,所述視頻搜索請(qǐng)求中至少包含請(qǐng)求結(jié)果數(shù)。
本領(lǐng)域技術(shù)人員可以理解的是,當(dāng)接收到的視頻搜索請(qǐng)求,需要對(duì)視頻搜索請(qǐng)求進(jìn)行識(shí)別,根據(jù)識(shí)別后的視頻搜索請(qǐng)求可以獲得請(qǐng)求結(jié)果數(shù),請(qǐng)求結(jié)果數(shù)是用戶自定義需要返回的搜索結(jié)果的數(shù)量。
S107:估計(jì)利用所述一級(jí)索引進(jìn)行視頻搜索返回的第一結(jié)果數(shù),以及利用所述二級(jí)索引進(jìn)行視頻搜索返回的第二結(jié)果數(shù)。
在實(shí)際應(yīng)用中,每個(gè)視頻搜索請(qǐng)求針對(duì)的視頻在一級(jí)索引中都有對(duì)應(yīng)的統(tǒng)計(jì)數(shù)量,可以根據(jù)統(tǒng)計(jì)數(shù)量針對(duì)該視頻搜索請(qǐng)求估計(jì)如果在一級(jí)索引中進(jìn)行搜索反饋的第一結(jié)果數(shù);同理,每個(gè)視頻搜索請(qǐng)求針對(duì)的視頻在二級(jí)索引中都有對(duì)應(yīng)的統(tǒng)計(jì)數(shù)量,可以根據(jù)統(tǒng)計(jì)數(shù)量針對(duì)該請(qǐng)求估計(jì)如果在二級(jí)索引中進(jìn)行搜索反饋的第二結(jié)果數(shù)。例如,視頻搜索請(qǐng)求要求搜索的是“極限挑戰(zhàn)”,在一級(jí)索引中統(tǒng)計(jì)的“極限挑戰(zhàn)”的數(shù)量為15,那么,第一結(jié)果數(shù)為15;在二級(jí)索引中統(tǒng)計(jì)的“極限挑戰(zhàn)”的數(shù)量為23,那么,第二結(jié)果數(shù)為23。
S108:根據(jù)所述請(qǐng)求結(jié)果數(shù)、所述第一結(jié)果數(shù)以及所述第二結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別。
具體的,所述根據(jù)所述請(qǐng)求結(jié)果數(shù)、所述第一結(jié)果數(shù)以及所述第二結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別,可以判斷所述第一結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);如果是,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引;如果否,判斷所述第二結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);如果是,將所述二級(jí)索引確定為用于進(jìn)行視頻搜索的索引;如果否,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引。
本領(lǐng)域技術(shù)人員可以理解的是,當(dāng)?shù)谝唤Y(jié)果數(shù)小于請(qǐng)求結(jié)果數(shù),說(shuō)明如果在一級(jí)索引中進(jìn)行搜索,搜索結(jié)果可能會(huì)滿足請(qǐng)求結(jié)果數(shù),則直接在一級(jí)索引中進(jìn)行搜索,如果在一級(jí)索引中進(jìn)行搜索,搜索結(jié)果肯定不滿足請(qǐng)求結(jié)果數(shù),為了提高搜索效率,需要進(jìn)一步地判斷第二結(jié)果數(shù)是否不小于請(qǐng)求結(jié)果數(shù)。在第二結(jié)果數(shù)也小于請(qǐng)求結(jié)果數(shù)的情況下,為了提高服務(wù)效率,直接在一級(jí)索引中進(jìn)行搜索。
例如,第一結(jié)果數(shù)為10,第二結(jié)果數(shù)是20,在請(qǐng)求結(jié)果數(shù)為5的情況下,在一級(jí)索引中進(jìn)行視頻搜索很有可能返回搜索結(jié)果滿足請(qǐng)求結(jié)果數(shù),則將一級(jí)索引確定為用于進(jìn)行視頻搜索的索引;在請(qǐng)求結(jié)果數(shù)為25的情況下,在一級(jí)索引和二級(jí)索引中進(jìn)行視頻搜索很有可能返回搜索結(jié)果都不能滿足請(qǐng)求結(jié)果數(shù),則將一級(jí)索引確定為進(jìn)行視頻搜索的索引;在請(qǐng)求結(jié)果數(shù)為15的情況下,在一級(jí)索引中進(jìn)行視頻搜索很有可能返回搜索結(jié)果不能滿足請(qǐng)求結(jié)果數(shù),在二級(jí)索引中進(jìn)行視頻搜索很有可能返回搜索結(jié)果能滿足請(qǐng)求結(jié)果數(shù),則將二級(jí)索引確定為進(jìn)行視頻搜索的索引。
S109:利用所確定級(jí)別的索引,進(jìn)行視頻搜索。
本領(lǐng)域技術(shù)人員可以理解的是,如果一級(jí)索引為所確定的索引,則根據(jù)視頻搜索請(qǐng)求,利用一級(jí)索引進(jìn)行視頻搜索;如果二級(jí)索引為所確定的索引,則根據(jù)視頻搜索請(qǐng)求,利用二級(jí)索引進(jìn)行視頻搜索。
進(jìn)一步的,在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,還可以(圖2為示出):
判斷利用所述一級(jí)索引,進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果數(shù)是否小于所述請(qǐng)求結(jié)果數(shù);
如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
本領(lǐng)域技術(shù)人員可以理解的是,當(dāng)利用一級(jí)索引進(jìn)行視頻搜索的結(jié)果數(shù)小于請(qǐng)求結(jié)果數(shù)時(shí),為了提高服務(wù)質(zhì)量,需要利用二級(jí)索引進(jìn)行視頻搜索。因?yàn)槎?jí)索引是全部視頻的索引,如果利用二級(jí)索引,進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果數(shù)無(wú)論是否小于請(qǐng)求結(jié)果數(shù),都會(huì)將實(shí)際搜索結(jié)果向用戶進(jìn)行展示。
進(jìn)一步的,在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,還可以(圖2為示出):
針對(duì)利用所述一級(jí)索引,進(jìn)行視頻搜索返回的每一搜索結(jié)果,計(jì)算所述搜索結(jié)果與所述視頻搜索請(qǐng)求的相關(guān)度;
根據(jù)所述相關(guān)度,確定滿足所述請(qǐng)求的結(jié)果數(shù)量;
判斷所述結(jié)果數(shù)量是否小于所述請(qǐng)求結(jié)果數(shù);
如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
需要說(shuō)明的是,在將一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、第一結(jié)果數(shù)不小于請(qǐng)求結(jié)果數(shù)的情況下,需要進(jìn)一步的對(duì)搜索結(jié)果進(jìn)行檢查。計(jì)算每一搜索結(jié)果與視頻搜索請(qǐng)求的相關(guān)度,在實(shí)際應(yīng)用中,可以根據(jù)不同的需求,計(jì)算相關(guān)度的函數(shù)可以不同。例如,可以將根據(jù)實(shí)際情況,將視頻搜索請(qǐng)求中的針對(duì)視頻的全部或部分特征賦予不同的權(quán)重,將搜索到的視頻中與視頻搜索請(qǐng)求中相同的特征標(biāo)記為一個(gè)數(shù)字,將不同的特征標(biāo)記為另一個(gè)數(shù)字,根據(jù)標(biāo)記的結(jié)果和相關(guān)度的函數(shù),可以計(jì)算出該視頻與視頻搜索請(qǐng)求的相關(guān)度。如果搜索結(jié)果中的視頻與請(qǐng)求的相關(guān)度不小于預(yù)設(shè)閾值,則該視頻為滿足請(qǐng)求的視頻,針對(duì)搜索結(jié)果中的每一視頻,都要計(jì)算相關(guān)度并判斷相關(guān)度是否不小于預(yù)設(shè)閾值,統(tǒng)計(jì)相關(guān)度不小于預(yù)設(shè)閾值對(duì)應(yīng)的視頻的數(shù)量,如果統(tǒng)計(jì)得到的數(shù)量小于請(qǐng)求結(jié)果數(shù),為了提高服務(wù)質(zhì)量,需要對(duì)二級(jí)索引進(jìn)行搜索,如果統(tǒng)計(jì)得到的數(shù)量不小于請(qǐng)求結(jié)果數(shù),則說(shuō)明利用一級(jí)索引進(jìn)行視頻搜索就能滿足用戶的要求。
需要說(shuō)明的是,將在第一結(jié)果數(shù)小于請(qǐng)求結(jié)果數(shù)且第二結(jié)果數(shù)小于請(qǐng)求結(jié)果數(shù)的情況下,利用一級(jí)索引進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果,或在利用二級(jí)索引進(jìn)視頻搜索返回的實(shí)際搜索結(jié)果直接向用戶展示,不需要將實(shí)際搜索結(jié)果數(shù)與請(qǐng)求結(jié)果數(shù)進(jìn)行比較,也不需要在實(shí)際搜索結(jié)果數(shù)不小于請(qǐng)求結(jié)果數(shù)的情況下,計(jì)算實(shí)際搜索結(jié)果中的每一視頻與視頻搜索請(qǐng)求的相關(guān)度。當(dāng)然,如果利用一級(jí)索引或二級(jí)索引進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果數(shù)量太多,可以按照一定的規(guī)則篩選出預(yù)期數(shù)量的搜索結(jié)果。
應(yīng)用本發(fā)明實(shí)施例,通過(guò)建立兩級(jí)索引,容納一級(jí)索引所需要的服務(wù)器的數(shù)量小于容納二級(jí)索引所需要的服務(wù)器的數(shù)量,而且一級(jí)索引能夠承擔(dān)大部分QPS負(fù)載,二級(jí)索引只需較少的服務(wù)器數(shù)量承擔(dān)剩余小部分QPS負(fù)載,所以,在相同索引量和QPS負(fù)載下,節(jié)省了在線服務(wù)器的數(shù)量。因?yàn)橐曨l索引分級(jí)而造成了服務(wù)質(zhì)量下降,本發(fā)明實(shí)施例還通過(guò)估計(jì)利用分級(jí)后的索引進(jìn)行視頻搜索返回的結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別,在所確定的索引中進(jìn)行視頻搜索,可以保證服務(wù)質(zhì)量。
圖3為本發(fā)明實(shí)施例提供的一種視頻索引分級(jí)裝置的結(jié)構(gòu)示意圖,所述裝置可以包括:加入模塊201、抽取模塊202、訓(xùn)練模塊203和第一確定模塊204。
加入模塊201,用于將全部視頻中滿足預(yù)設(shè)規(guī)則的視頻對(duì)應(yīng)的索引加入到所述一級(jí)索引中,并將全部視頻對(duì)應(yīng)的索引加入到二級(jí)索引中。
加入模塊201,還用于將所確定的索引加入到所述一級(jí)索引。
抽取模塊202,用于對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的其他視頻,抽取用于確定視頻的索引是否需要加入到所述一級(jí)索引中的特征數(shù)據(jù)。
訓(xùn)練模塊203,用于根據(jù)所述特征數(shù)據(jù),訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型。
具體的,所述訓(xùn)練模塊203,可以用于:
根據(jù)所述特征數(shù)據(jù),利用梯度下降法,訓(xùn)練用于確定視頻的索引是否需要加入到所述一級(jí)索引中的分類模型。
第一確定模塊204,用于針對(duì)除所述一級(jí)索引包含的索引對(duì)應(yīng)的視頻之外的每一視頻,根據(jù)訓(xùn)練好的所述分類模型,確定是否需要將所述視頻的索引加入到所述一級(jí)索引。
應(yīng)用本發(fā)明實(shí)施例,通過(guò)建立兩級(jí)索引,容納一級(jí)索引所需要的服務(wù)器的數(shù)量小于容納二級(jí)索引所需要的服務(wù)器的數(shù)量,而且一級(jí)索引能夠承擔(dān)大部分QPS負(fù)載,二級(jí)索引只需較少的服務(wù)器數(shù)量承擔(dān)剩余小部分QPS負(fù)載,所以,在相同索引量和QPS負(fù)載下,節(jié)省了在線服務(wù)器的數(shù)量。
圖4為本發(fā)明實(shí)施例提供的另一種視頻搜索裝置的結(jié)構(gòu)示意圖,本發(fā)明圖4所示實(shí)施例在圖3所示實(shí)施例的基礎(chǔ)上,增加接收模塊205、估計(jì)模塊206、第二確定模塊207和搜索模塊208。
接收模塊205,用于接收用戶的視頻搜索請(qǐng)求,所述搜索請(qǐng)求中至少包含請(qǐng)求結(jié)果數(shù)。
估計(jì)模塊206,用于估計(jì)利用所述一級(jí)索引進(jìn)行視頻搜索返回的第一結(jié)果數(shù),以及利用所述二級(jí)索引進(jìn)行視頻搜索返回的第二結(jié)果數(shù)。
第二確定模塊207,用于根據(jù)所述請(qǐng)求結(jié)果數(shù)、所述第一結(jié)果數(shù)以及所述第二結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別。
具體的,所述第二確定模塊207,可以用于:
判斷所述第一結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);
如果是,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引;
如果否,判斷所述第二結(jié)果數(shù)是否不小于所述請(qǐng)求結(jié)果數(shù);如果是,將所述二級(jí)索引確定為用于進(jìn)行視頻搜索的索引;如果否,將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引。
搜索模塊208,用于利用所確定級(jí)別的索引,進(jìn)行視頻搜索。
進(jìn)一步的,還可以包括第一處理模塊(圖4未示出):
其中,第一處理模塊,用于在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,判斷利用所述一級(jí)索引,進(jìn)行視頻搜索返回的實(shí)際搜索結(jié)果數(shù)是否小于所述請(qǐng)求結(jié)果數(shù);如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
進(jìn)一步的,還可以包括第二處理模塊(圖4未示出):
其中,第二處理模塊,用于在將所述一級(jí)索引確定為用于進(jìn)行視頻搜索的索引、且所述第一結(jié)果數(shù)不小于所述請(qǐng)求結(jié)果數(shù)的情況下,針對(duì)利用所述一級(jí)索引,進(jìn)行視頻搜索返回的每一搜索結(jié)果,計(jì)算所述搜索結(jié)果與所述視頻搜索請(qǐng)求的相關(guān)度;根據(jù)所述相關(guān)度,確定滿足所述視頻搜索請(qǐng)求的結(jié)果數(shù)量;判斷所述結(jié)果數(shù)量是否小于所述請(qǐng)求結(jié)果數(shù);如果是,利用所述二級(jí)索引,繼續(xù)進(jìn)行視頻搜索。
應(yīng)用本發(fā)明實(shí)施例,通過(guò)建立兩級(jí)索引,容納一級(jí)索引所需要的服務(wù)器的數(shù)量小于容納二級(jí)索引所需要的服務(wù)器的數(shù)量,而且一級(jí)索引能夠承擔(dān)大部分QPS負(fù)載,二級(jí)索引只需較少的服務(wù)器數(shù)量承擔(dān)剩余小部分QPS負(fù)載,所以,在相同索引量和QPS負(fù)載下,節(jié)省了在線服務(wù)器的數(shù)量。因?yàn)橐曨l索引分級(jí)而造成了服務(wù)質(zhì)量下降,本發(fā)明實(shí)施例還通過(guò)估計(jì)利用分級(jí)后的索引進(jìn)行視頻搜索返回的結(jié)果數(shù),確定用于進(jìn)行視頻搜索的索引級(jí)別,在所確定的索引中進(jìn)行視頻搜索,可以保證服務(wù)質(zhì)量。
需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱得的存儲(chǔ)介質(zhì),如:ROM/RAM、磁碟、光盤(pán)等。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。