確定圖片篩選結(jié)果的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種確定圖片篩選結(jié)果的方法和裝置,包括:根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。由于熱度信息保證了篩選查詢序列的近期一段時間的用戶關(guān)注度,且展現(xiàn)相關(guān)信息體現(xiàn)了搜索展現(xiàn)圖片信息與查詢序列之間的相關(guān)性,因此,基于熱度信息及展現(xiàn)相關(guān)信息篩選得到的圖片篩選結(jié)果滿足搜索引擎檢索的相關(guān)性要求及用戶需求。進一步地,可為搜索引擎在龐大數(shù)據(jù)集上進行優(yōu)質(zhì)圖片數(shù)據(jù)的篩選入庫提供了可靠保證。
【專利說明】確定圖片篩選結(jié)果的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索引擎【技術(shù)領(lǐng)域】,具體而言,本發(fā)明涉及一種確定圖片篩選結(jié)果的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及信息的不斷膨脹,人們對于網(wǎng)絡信息的使用需求越來越高,搜索引擎成為人們獲取網(wǎng)絡信息的重要工具。當用戶輸入查詢序列(query)后,搜索引擎通常會將與該查詢序列相關(guān)聯(lián)的頁面包含在搜索結(jié)果中返回給用戶。
[0003]現(xiàn)有技術(shù)中,搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行抓取到的頁面數(shù)據(jù)存儲至搜索數(shù)據(jù)庫中。由于通過爬行抓取到的頁面數(shù)據(jù)成百億級別,因此,搜索引擎存儲設(shè)備的存儲壓力巨大,且維護龐大數(shù)據(jù)也需要花費較高的人力成本,比如圖片類型文件等較大,就算使用壓縮算法依然占用存儲較多;同時,每天新抓取到的頁面數(shù)據(jù)量還在持續(xù)增加,但搜索引擎存儲設(shè)備的存儲資源有限,無法無限制地擴張,因此,搜索引擎的存儲能力受到嚴重挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種確定圖片篩選結(jié)果的方法,包括:
[0005]根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;
[0006]根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;
[0007]根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。
[0008]本發(fā)明還提供了一種確定圖片篩選結(jié)果的裝置,包括:
[0009]序列確定模塊,用于根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;
[0010]展現(xiàn)信息確定模塊,用于根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;
[0011]篩選模塊,用于根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。
[0012]本實施例中,根據(jù)基于熱度信息選取的篩選查詢序列來獲取其對應的搜索展現(xiàn)圖片信息,隨后基于展現(xiàn)相關(guān)信息從搜索展現(xiàn)圖片信息中確定圖片篩選結(jié)果;由于熱度信息保證了篩選查詢序列近期一段時間的用戶關(guān)注度,且展現(xiàn)相關(guān)信息體現(xiàn)了搜索展現(xiàn)圖片信息與查詢序列之間的相關(guān)性,因此,基于熱度信息及展現(xiàn)相關(guān)信息篩選得到的圖片篩選結(jié)果滿足搜索引擎檢索的相關(guān)性要求及用戶需求。進一步地,由于圖片篩選結(jié)果為從百億數(shù)據(jù)級別的搜索展現(xiàn)圖片信息中篩選出的符合預定優(yōu)選標準的圖片信息,從而為搜索引擎在龐大數(shù)據(jù)集上進行優(yōu)質(zhì)圖片數(shù)據(jù)的篩選入庫提供了可靠保證,確保了篩選入庫的優(yōu)質(zhì)圖片數(shù)據(jù)符合搜索引擎檢索的相關(guān)度要求,最終可實現(xiàn)減少搜索引擎的數(shù)據(jù)存儲量、節(jié)省搜索引擎存儲設(shè)備的存儲空間、減輕搜索引擎數(shù)據(jù)處理負擔及降低機器及人力成本的目的。
[0013]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0014]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0015]圖1為本發(fā)明中的確定圖片篩選結(jié)果的方法一個實施例的流程圖;
[0016]圖2為本發(fā)明中的確定圖片篩選結(jié)果的方法一個優(yōu)選實施例的流程圖;
[0017]圖3為本發(fā)明中的確定圖片篩選結(jié)果的裝置一個實施例的結(jié)構(gòu)示意圖;
[0018]圖4為本發(fā)明中的確定圖片篩選結(jié)果的裝置一個優(yōu)選實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0019]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0020]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的全部或任一單元和全部組合。
[0021]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術(shù)語,應該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0022]圖1為本發(fā)明中的確定圖片篩選結(jié)果的方法一個實施例的流程圖。
[0023]在步驟SllO中,根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;在步驟S120中,根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;在步驟S130中,根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。
[0024]其中,圖片篩選結(jié)果為從多個搜索展現(xiàn)圖片信息中篩選出的符合預定優(yōu)選標準的圖片信息,預定優(yōu)選標準可通過配置計算熱度信息及展現(xiàn)相關(guān)信息的公式來確定,使得預定優(yōu)選標準包括篩選查詢序列能夠體現(xiàn)近期一段時間的用戶關(guān)注度的標準,且包括搜索展現(xiàn)圖片信息與查詢序列之間具有較高相關(guān)性的標準。
[0025]本實施例中,根據(jù)基于熱度信息選取的篩選查詢序列來獲取其對應的搜索展現(xiàn)圖片信息,隨后基于展現(xiàn)相關(guān)信息從搜索展現(xiàn)圖片信息中確定圖片篩選結(jié)果;由于熱度信息保證了篩選查詢序列近期一段時間的用戶關(guān)注度,且展現(xiàn)相關(guān)信息體現(xiàn)了搜索展現(xiàn)圖片信息與查詢序列之間的相關(guān)性,因此,基于熱度信息及展現(xiàn)相關(guān)信息篩選得到的圖片篩選結(jié)果滿足搜索引擎檢索相關(guān)性要求及用戶需求。進一步地,由于圖片篩選結(jié)果為從百億數(shù)據(jù)級別的搜索展現(xiàn)圖片信息中篩選出的符合預定優(yōu)選標準的圖片信息,從而為搜索引擎在龐大數(shù)據(jù)集上進行優(yōu)質(zhì)圖片數(shù)據(jù)的篩選入庫提供了可靠保證,確保了篩選入庫的優(yōu)質(zhì)圖片數(shù)據(jù)符合搜索引擎檢索的相關(guān)度要求,最終可實現(xiàn)減少搜索引擎的數(shù)據(jù)存儲量、節(jié)省搜索引擎存儲設(shè)備的存儲空間、減輕搜索引擎數(shù)據(jù)處理負擔及降低機器及人力成本的目的。
[0026]具體地,在步驟SllO中,根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列。
[0027]步驟SllO包括步驟Slll (圖中未示出)和步驟S112(圖中未示出);在步驟Slll中,根據(jù)用戶搜索記錄信息,確定多個查詢序列的熱度信息;在步驟S112中,根據(jù)熱度信息,對多個查詢序列進行排序。
[0028]其中,用戶搜索記錄信息中記錄多個用戶在查詢搜索過程中對于每一查詢序列的搜索記錄,包括但不限于:
[0029]每一查詢序列對應的搜索頻率,如每一查詢序列在單位時間內(nèi)的查詢次數(shù);
[0030]每一查詢序列對應的翻頁頻率,如基于每一查詢序列進行搜索獲取的搜索結(jié)果頁面在單位時間內(nèi)的翻頁次數(shù);
[0031]每一查詢序列對應的點擊頻率,如基于每一查詢序列進行搜索獲取的多個搜索結(jié)果在單位時間內(nèi)的點擊次數(shù)。
[0032]在一示例中,根據(jù)用戶搜索記錄信息中記錄的多個查詢序列對應的搜索頻率、翻頁頻率和點擊頻率,通過預定的熱度計算公式,計算確定多個查詢序列的熱度值;隨后,根據(jù)多個查詢序列的熱度值,對多個查詢序列進行排序,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列。
[0033]本實施例中,基于熱度信息確定篩選查詢序列,可確保篩選查詢序列是搜索引擎中用戶當前關(guān)注度及興趣度較高的查詢序列,因此可以體現(xiàn)近期一段時間的用戶關(guān)注度,可為后續(xù)確定圖片篩選結(jié)果提供有力的熱度保證。
[0034]在步驟S120中,根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0035]其中,搜索展現(xiàn)圖片信息為用戶根據(jù)篩選查詢序列進行搜索獲取的搜索結(jié)果頁面中展示的圖片信息;根據(jù)篩選查詢序列,在搜索歷史記錄中確定篩選查詢序列對應的搜索展現(xiàn)圖片信息。
[0036]具體地,當展現(xiàn)相關(guān)信息包括基于多個查詢序列的搜索展現(xiàn)圖片信息的第一多樣性參數(shù)時;步驟S120(參照圖1)包括步驟S121(圖中未示出);
[0037]在步驟S121中,根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量,確定基于多個查詢序列的搜索展現(xiàn)圖片信息的第一多樣性參數(shù)。
[0038]具體地,基于搜索歷史記錄,對多個搜索展現(xiàn)圖片信息及對其進行展現(xiàn)的多個查詢序列建立倒排索引,通過倒排索引,確定在歷史搜索過程中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量;根據(jù)每一搜索展現(xiàn)圖片信息對應的查詢序列數(shù)量,通過預定的第一多樣性計算公式,計算確定基于多個查詢序列的搜索展現(xiàn)圖片信息的第一多樣性參數(shù)。
[0039]本實施例中,由于搜索展現(xiàn)圖片信息對應的查詢序列數(shù)量越多,可說明該搜索展現(xiàn)圖片信息能滿足查詢序列的多樣性越好,反映了該搜索展現(xiàn)圖片信息對于搜索引擎的價值越高,因此,根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量來確定展現(xiàn)相關(guān)信息,保證展現(xiàn)相關(guān)信息能夠充分體現(xiàn)出搜索展現(xiàn)圖片信息對于多個查詢序列的多樣性的滿足程度,從而為后續(xù)確定圖片篩選結(jié)果提供有力保證。
[0040]當展現(xiàn)相關(guān)信息包括基于每一查詢序列的所述搜索展現(xiàn)圖片信息的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置時,步驟S120(參照圖1)包括步驟S122(圖中未示出)。
[0041]在步驟S122中,根據(jù)搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,確定搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0042]具體地,基于搜索歷史記錄,對多個搜索展現(xiàn)圖片信息及對其進行展現(xiàn)的多個查詢序列建立倒排索引,通過倒排索引,確定在預定時間間隔內(nèi),基于每一查詢序列搜索獲取的搜索結(jié)果頁面中展示每一搜索展現(xiàn)圖片信息的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置;根據(jù)搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,通過預定的展現(xiàn)計算公式,計算確定搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0043]本實施例中,由于被充分展示的搜索展現(xiàn)圖片信息對于搜索引擎具有較高的價值,則通過將搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置作為確定展現(xiàn)相關(guān)信息的影響因素,確保了對于被充分展示的搜索展現(xiàn)圖片信息,其相應的展現(xiàn)相關(guān)信息會相應提升。
[0044]優(yōu)選地,可根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量,并結(jié)合每一搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,確定每一搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0045]在步驟S130中,根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。具體地,步驟是130(參照圖1)包括步驟S131 (圖中未示出)和步驟S132 (圖中未示出);在步驟S131中,根據(jù)展現(xiàn)相關(guān)信息對搜索展現(xiàn)圖片信息進行排序,確定排序結(jié)果;在步驟S132中,根據(jù)排序結(jié)果,將排序前預定數(shù)量的搜索展現(xiàn)圖片信息確定為圖片篩選結(jié)果。
[0046]具體地,根據(jù)計算確定的多個搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息的參數(shù)值,對多個搜索展現(xiàn)圖片信息進行排序,確定排序結(jié)果;從該排序結(jié)果中選取排序前預定數(shù)量的搜索展現(xiàn)圖片信息,作為圖片篩選結(jié)果。
[0047]優(yōu)選地,首先,確定搜索展現(xiàn)圖片信息對應的圖片質(zhì)量信息,在步驟S131中,根據(jù)展現(xiàn)相關(guān)信息,并結(jié)合搜索展現(xiàn)圖片信息對應的圖片質(zhì)量信息對搜索展現(xiàn)圖片信息進行排序。
[0048]更優(yōu)選地(參照圖1),該方法還包括步驟150 (圖中為示出),在步驟S150中,根據(jù)搜索展現(xiàn)圖片信息中圖片的尺寸信息,確定圖片質(zhì)量信息。
[0049]具體地,根據(jù)搜索展現(xiàn)圖片信息中圖片的尺寸大小以及長寬比,通過預定的圖片質(zhì)量公式計算確定圖片質(zhì)量信息。
[0050]本實施例中,由于具體較高質(zhì)量的搜索展現(xiàn)圖片信息對于搜索引擎具有較高的價值,因此將圖片質(zhì)量信息作為選取圖片篩選結(jié)果的影響因素,確保了具有較高圖片質(zhì)量的搜索展現(xiàn)圖片信息可被篩選入庫。
[0051]圖2為本發(fā)明中的確定圖片篩選結(jié)果的方法一個優(yōu)選實施例的流程圖。
[0052]在步驟S210中,根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;在步驟S220中,根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;在步驟S240中,確定搜索展現(xiàn)圖片信息包括文本信息的第二多樣性參數(shù);在步驟S230中,根據(jù)展現(xiàn)相關(guān)信息,并結(jié)合第二多樣性參數(shù),確定圖片篩選結(jié)果。
[0053]其中,第二多樣性參數(shù)通過搜索展現(xiàn)圖片信息中的文本信息的文本特征來確定,反映了文本信息的豐富度程度及稀缺程度,搜索展現(xiàn)圖片信息包括的文本信息的豐富度程度越高,該搜索展現(xiàn)圖片信息的價值度越高,與某一搜索展現(xiàn)圖片信息包括的文本信息相似的其他搜索展現(xiàn)圖片信息的文本信息的數(shù)量越少,即相似度越低,該搜索展現(xiàn)圖片信息包括的文本信息的稀缺程度越高,該搜索展現(xiàn)圖片信息的價值度越高。
[0054]本實施例中,搜索展現(xiàn)圖片信息的文本信息包括圖片標題、圖片描述信息、圖片的錨文本等。
[0055]具體地,步驟S240(參照圖2)包括步驟S241 (圖中未示出)和步驟S242(圖中未示出);在步驟S241中,對搜索展現(xiàn)圖片信息包括的文本信息進行分詞處理,以提取分詞片段;在步驟S241中,基于分詞片段在其各自所屬的搜索展現(xiàn)圖片信息中的展現(xiàn)頻率和展現(xiàn)位置,確定搜索展現(xiàn)圖片信息包括文本信息的第二多樣性參數(shù)。
[0056]在一示例中,首先,通過正向最大匹配法、反向最大匹配法、雙向最大匹配法、最短路徑分詞法等分詞技術(shù),對搜索展現(xiàn)圖片信息包括的文本信息,如圖片標題和圖片的錨文本,進行分詞處理,提取分詞片段;隨后,對分詞片段建立倒排索引,通過倒排索引,確定多個分詞片段在各自所屬的搜索展現(xiàn)圖片信息中的展現(xiàn)頻率和展現(xiàn)位置,接著,基于分詞片段在其各自所屬的搜索展現(xiàn)圖片信息中的展現(xiàn)頻率和展現(xiàn)位置,通過預定的第二多樣性計算公式,計算確定搜索展現(xiàn)圖片信息包括文本信息的第二多樣性參數(shù)。
[0057]在步驟S230中,根據(jù)展現(xiàn)相關(guān)信息,并結(jié)合第二多樣性參數(shù),確定圖片篩選結(jié)果。
[0058]具體地,首先,根據(jù)展現(xiàn)相關(guān)信息,從搜索展現(xiàn)圖片信息中確定第一數(shù)量值的圖片篩選結(jié)果;隨后,通過預定的圖片篩選結(jié)果數(shù)量總值與已確定的第一數(shù)量值的差值,確定還需確定的圖片篩選結(jié)果的第二數(shù)量值;隨后,根據(jù)第二多樣性參數(shù),從搜索展現(xiàn)圖片信息中確定第二數(shù)量值的圖片篩選結(jié)果。
[0059]可選地,將展現(xiàn)相關(guān)信息與第二多樣性參數(shù)相結(jié)合,對搜索展現(xiàn)圖片信息統(tǒng)一進行排序處理,來確定排序前預定數(shù)據(jù)總值的搜索展現(xiàn)圖片信息,并作為圖片篩選結(jié)果。
[0060]本實施例中,將反映搜索展現(xiàn)圖片信息中的文本信息的豐富度程度及稀缺程度的第二多樣性參數(shù)作為確定展現(xiàn)相關(guān)信息的影響因素,可確保文本信息豐富度程度及稀缺程度較高的搜索展現(xiàn)圖片信息可被篩選出,進一步保證了能夠準確地為搜索引擎在龐大數(shù)據(jù)集上篩選優(yōu)質(zhì)數(shù)據(jù)。
[0061]圖3為本發(fā)明中的確定圖片篩選結(jié)果的裝置一個實施例的結(jié)構(gòu)示意圖。
[0062]其中,確定圖片篩選結(jié)果的裝置包含于網(wǎng)絡設(shè)備中。
[0063]所述網(wǎng)絡設(shè)備包括但不限于單個網(wǎng)絡服務器、多個網(wǎng)絡服務器組成的服務器組或基于云計算(Cloud Computing)的由大量主機或網(wǎng)絡服務器構(gòu)成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。
[0064]首先,序列確定模塊310根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;隨后,展現(xiàn)信息確定模塊320根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;篩選模塊330根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。
[0065]其中,圖片篩選結(jié)果為從多個搜索展現(xiàn)圖片信息中篩選出的符合預定優(yōu)選標準的圖片信息,預定優(yōu)選標準可通過配置計算熱度信息及展現(xiàn)相關(guān)信息的公式來確定,使得預定優(yōu)選標準包括篩選查詢序列能夠體現(xiàn)出近期一段時間的用戶關(guān)注度的標準,且包括搜索展現(xiàn)圖片信息與查詢序列之間具有較高相關(guān)性的標準。
[0066]本實施例中,根據(jù)基于熱度信息選取的篩選查詢序列來獲取其對應的搜索展現(xiàn)圖片信息,隨后基于展現(xiàn)相關(guān)信息從搜索展現(xiàn)圖片信息中確定圖片篩選結(jié)果;由于熱度信息保證了篩選查詢序列符合近期一段時間的用戶關(guān)注度,且展現(xiàn)相關(guān)信息體現(xiàn)了搜索展現(xiàn)圖片信息與查詢序列之間的相關(guān)性,因此,基于熱度信息及展現(xiàn)相關(guān)信息篩選得到的圖片篩選結(jié)果滿足搜索引擎檢索相關(guān)性要求及用戶需求。進一步地,由于圖片篩選結(jié)果為從百億數(shù)據(jù)級別的搜索展現(xiàn)圖片信息中篩選出的符合預定優(yōu)選標準的圖片信息,從而為搜索引擎在龐大數(shù)據(jù)集上進行優(yōu)質(zhì)數(shù)據(jù)的篩選入庫提供了可靠保證,確保了篩選入庫的優(yōu)質(zhì)數(shù)據(jù)符合搜索引擎檢索的相關(guān)度要求,最終可實現(xiàn)減少搜索引擎的數(shù)據(jù)存儲量、節(jié)省搜索引擎存儲設(shè)備的存儲空間、減輕搜索引擎數(shù)據(jù)處理負擔及降低機器及人力成本的目的。
[0067]具體地,序列確定模塊310根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列。
[0068]序列確定模塊310包括熱度確定單元(圖中未示出)和第一排序單元(圖中未示出);首先,熱度確定單元根據(jù)用戶搜索記錄信息,確定多個查詢序列的熱度信息;隨后,第一排序單元根據(jù)熱度信息,對多個查詢序列進行排序。
[0069]其中,用戶搜索記錄信息中記錄多個用戶在查詢搜索過程中對于每一查詢序列的搜索記錄,包括但不限于:
[0070]每一查詢序列對應的搜索頻率,如每一查詢序列在單位時間內(nèi)的查詢次數(shù);
[0071]每一查詢序列對應的翻頁頻率,如基于每一查詢序列進行搜索獲取的搜索結(jié)果頁面在單位時間內(nèi)的翻頁次數(shù);
[0072]每一查詢序列對應的點擊頻率,如基于每一查詢序列進行搜索獲取的多個搜索結(jié)果在單位時間內(nèi)的點擊次數(shù)。
[0073]在一示例中,根據(jù)用戶搜索記錄信息中記錄的多個查詢序列對應的搜索頻率、翻頁頻率和點擊頻率,通過預定的熱度計算公式,計算確定多個查詢序列的熱度值;隨后,根據(jù)多個查詢序列的熱度值,對多個查詢序列進行排序,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列。
[0074]本實施例中,基于熱度信息確定篩選查詢序列,可確保篩選查詢序列是搜索引擎中用戶當前關(guān)注度及興趣度較高的查詢序列,因此符合近期一段時間的用戶關(guān)注度,可為后續(xù)確定圖片篩選結(jié)果提供有力的熱度保證。
[0075]展現(xiàn)信息確定模塊320根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0076]其中,搜索展現(xiàn)圖片信息為用戶根據(jù)篩選查詢序列進行搜索獲取的搜索結(jié)果頁面中展示的圖片信息;根據(jù)篩選查詢序列,在搜索歷史記錄中確定篩選查詢序列對應的搜索展現(xiàn)圖片信息。
[0077]具體地,當展現(xiàn)相關(guān)信息包括基于多個查詢序列的搜索展現(xiàn)圖片信息的第一多樣性參數(shù)時;展現(xiàn)信息確定模塊320根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量,確定基于多個查詢序列的搜索展現(xiàn)圖片信息的第一多樣性參數(shù)。
[0078]具體地,基于搜索歷史記錄,對多個搜索展現(xiàn)圖片信息及對其進行展現(xiàn)的多個查詢序列建立倒排索引,通過倒排索引,確定在歷史搜索過程中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量;根據(jù)每一搜索展現(xiàn)圖片信息對應的查詢序列數(shù)量,通過預定的第一多樣性計算公式,計算確定基于多個查詢序列的搜索展現(xiàn)圖片信息的第一多樣性參數(shù)。
[0079]本實施例中,由于搜索展現(xiàn)圖片信息對應的查詢序列數(shù)量越多,可說明該搜索展現(xiàn)圖片信息能滿足查詢序列的多樣性越好,反映了該搜索展現(xiàn)圖片信息對于搜索引擎的價值越高,因此,根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量來確定展現(xiàn)相關(guān)信息,保證展現(xiàn)相關(guān)信息能夠充分體現(xiàn)出搜索展現(xiàn)圖片信息對于多個查詢序列的多樣性的滿足程度,從而為后續(xù)確定圖片篩選結(jié)果提供有力保證。
[0080]當展現(xiàn)相關(guān)信息包括基于每一查詢序列的所述搜索展現(xiàn)圖片信息的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置時,展現(xiàn)信息確定模塊320根據(jù)搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,確定搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0081]具體地,基于搜索歷史記錄,對多個搜索展現(xiàn)圖片信息及對其進行展現(xiàn)的多個查詢序列建立倒排索引,通過倒排索引,確定在預定時間間隔內(nèi),基于每一查詢序列搜索獲取的搜索結(jié)果頁面中展示每一搜索展現(xiàn)圖片信息的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置;根據(jù)搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,通過預定的展現(xiàn)計算公式,計算確定搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0082]本實施例中,由于被充分展示的搜索展現(xiàn)圖片信息對于搜索引擎具有較高的價值,則通過將搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置作為確定展現(xiàn)相關(guān)信息的影響因素,確保了對于被充分展示的搜索展現(xiàn)圖片信息,其相應的展現(xiàn)相關(guān)信息會相應提升。
[0083]優(yōu)選地,可根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量,并結(jié)合每一搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,確定每一搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
[0084]篩選模塊330根據(jù)展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。具體地,篩選模塊330 (參照圖3)包括第二排序單元(圖中未示出)和篩選結(jié)果確定單元(圖中未示出);首先,第二排序單元根據(jù)展現(xiàn)相關(guān)信息對搜索展現(xiàn)圖片信息進行排序,確定排序結(jié)果;隨后,篩選結(jié)果確定單元根據(jù)排序結(jié)果,將排序前預定數(shù)量的搜索展現(xiàn)圖片信息確定為圖片篩選結(jié)果。
[0085]具體地,根據(jù)計算確定的多個搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息的參數(shù)值,對多個搜索展現(xiàn)圖片信息進行排序,確定排序結(jié)果;從該排序結(jié)果中選取排序前預定數(shù)量的搜索展現(xiàn)圖片信息,作為圖片篩選結(jié)果。
[0086]優(yōu)選地,首先,確定搜索展現(xiàn)圖片信息對應的圖片質(zhì)量信息,隨后,第二排序單元根據(jù)展現(xiàn)相關(guān)信息,并結(jié)合搜索展現(xiàn)圖片信息對應的圖片質(zhì)量信息對搜索展現(xiàn)圖片信息進行排序。
[0087]更優(yōu)選地(參照圖3),確定圖片篩選結(jié)果的裝置還包括圖片質(zhì)量確定裝置(圖中未示出),圖片質(zhì)量確定裝置根據(jù)搜索展現(xiàn)圖片信息中圖片的尺寸信息,確定圖片質(zhì)量信肩、O
[0088]具體地,根據(jù)搜索展現(xiàn)圖片信息中圖片的尺寸大小以及長寬比,通過預定的圖片質(zhì)量公式計算確定圖片質(zhì)量信息。
[0089]本實施例中,由于具體較高質(zhì)量的搜索展現(xiàn)圖片信息對于搜索引擎具有較高的價值,因此將圖片質(zhì)量信息作為選取圖片篩選結(jié)果的影響因素,確保了具有較高圖片質(zhì)量的搜索展現(xiàn)圖片信息可被篩選入庫。
[0090]圖4為本發(fā)明中的確定圖片篩選結(jié)果的裝置一個優(yōu)選實施例的結(jié)構(gòu)示意圖。
[0091]首先,序列確定模塊410根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列;隨后,展現(xiàn)信息確定模塊420根據(jù)篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于查詢序列的搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息;文本多樣性確定模塊440確定搜索展現(xiàn)圖片信息包括文本信息的第二多樣性參數(shù);隨后,篩選模塊430根據(jù)展現(xiàn)相關(guān)信息,并結(jié)合第二多樣性參數(shù),確定圖片篩選結(jié)果。
[0092]其中,第二多樣性參數(shù)通過搜索展現(xiàn)圖片信息中的文本信息的文本特征來確定,反映了文本信息的豐富度程度及稀缺程度,搜索展現(xiàn)圖片信息包括的文本信息的豐富度程度越高,該搜索展現(xiàn)圖片信息的價值度越高,與某一搜索展現(xiàn)圖片信息包括的文本信息相似的其他搜索展現(xiàn)圖片信息的文本信息的數(shù)量越少,即相似度越低,該搜索展現(xiàn)圖片信息包括的文本信息的稀缺程度越高,該搜索展現(xiàn)圖片信息的價值度越高。
[0093]本實施例中,搜索展現(xiàn)圖片信息的文本信息包括圖片標題、圖片描述信息、圖片的錨文本等。
[0094]具體地,篩選模塊430 (參照圖4)包括分詞單元(圖中未示出)和文本多樣性確定單元(圖中未示出);首先,分詞單元對搜索展現(xiàn)圖片信息包括的文本信息進行分詞處理,以提取分詞片段;隨后,文本多樣性確定單元基于分詞片段在其各自所屬的搜索展現(xiàn)圖片信息中的展現(xiàn)頻率和展現(xiàn)位置,確定搜索展現(xiàn)圖片信息包括文本信息的第二多樣性參數(shù)。
[0095]在一示例中,首先,通過正向最大匹配法、反向最大匹配法、雙向最大匹配法、最短路徑分詞法等分詞技術(shù),對搜索展現(xiàn)圖片信息包括的文本信息,如圖片標題和圖片的錨文本,進行分詞處理,提取分詞片段;隨后,對分詞片段建立倒排索引,通過倒排索引,確定多個分詞片段在各自所屬的搜索展現(xiàn)圖片信息中的展現(xiàn)頻率和展現(xiàn)位置,接著,基于分詞片段在其各自所屬的搜索展現(xiàn)圖片信息中的展現(xiàn)頻率和展現(xiàn)位置,通過預定的第二多樣性計算公式,計算確定搜索展現(xiàn)圖片信息包括文本信息的第二多樣性參數(shù)。
[0096]篩選模塊430根據(jù)展現(xiàn)相關(guān)信息,并結(jié)合第二多樣性參數(shù),確定圖片篩選結(jié)果。
[0097]具體地,首先,根據(jù)展現(xiàn)相關(guān)信息,從搜索展現(xiàn)圖片信息中確定第一數(shù)量值的圖片篩選結(jié)果;隨后,通過預定的圖片篩選結(jié)果數(shù)量總值與已確定的第一數(shù)量值的差值,確定還需確定的圖片篩選結(jié)果的第二數(shù)量值;隨后,根據(jù)第二多樣性參數(shù),從搜索展現(xiàn)圖片信息中確定第二數(shù)量值的圖片篩選結(jié)果。
[0098]可選地,將展現(xiàn)相關(guān)信息與第二多樣性參數(shù)相結(jié)合,對搜索展現(xiàn)圖片信息統(tǒng)一進行排序處理,來確定排序前預定數(shù)據(jù)總值的搜索展現(xiàn)圖片信息,并作為圖片篩選結(jié)果。
[0099]本實施例中,將反映搜索展現(xiàn)圖片信息中的文本信息的豐富度程度及稀缺程度的第二多樣性參數(shù)作為確定展現(xiàn)相關(guān)信息的影響因素,可確保文本信息豐富度程度及稀缺程度較高的搜索展現(xiàn)圖片信息可被篩選出,進一步保證了能夠準確地為搜索引擎在龐大數(shù)據(jù)集上篩選優(yōu)質(zhì)數(shù)據(jù)。
[0100]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項或多項的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計和制造,或者也可以包括通用計算機中的已知設(shè)備。這些設(shè)備具有存儲在其內(nèi)的計算機程序,這些計算機程序選擇性地激活或重構(gòu)。這樣的計算機程序可以被存儲在設(shè)備(例如,計算機)可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計算機可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、⑶-ROM、和磁光盤)、R0M(Read-Only Memory,只讀存儲器)、RAM (Random Access Memory,隨即存儲器)、EPROM (Erasable ProgrammableRead-Only Memory,可擦寫可編程只讀存儲器)、EEPROM(ElectricalIy ErasableProgrammable Read-Only Memory,電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是,可讀介質(zhì)包括由設(shè)備(例如,計算機)以能夠讀的形式存儲或傳輸信息的任何介質(zhì)。
[0101]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,可以用計算機程序指令來實現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,可以將這些計算機程序指令提供給通用計算機、專業(yè)計算機或其他可編程數(shù)據(jù)處理方法的處理器來實現(xiàn),從而通過計算機或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方案。
[0102]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。
[0103]以上所述僅是本發(fā)明的部分實施方式,應當指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
【權(quán)利要求】
1.一種確定圖片篩選結(jié)果的方法,其特征在于,包括: 根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列; 根據(jù)所述篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于所述查詢序列的所述搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息; 根據(jù)所述展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。
2.根據(jù)權(quán)利要求1所述的確定圖片篩選結(jié)果的方法,其特征在于,對多個查詢序列基于熱度信息進行排序,具體包括: 根據(jù)用戶搜索記錄信息,確定所述多個查詢序列的熱度信息; 根據(jù)所述熱度信息,對所述多個查詢序列進行排序。
3.根據(jù)權(quán)利要求1-2任一項所述的確定圖片篩選結(jié)果的方法,其特征在于,所述用戶搜索記錄信息包括以下至少任一項: 每一查詢序列對應的搜索頻率; 每一查詢序列對應的翻頁頻率; 每一查詢序列對應的點擊頻率。
4.根據(jù)權(quán)利要求1-3任一項所述的確定圖片篩選結(jié)果的方法,其特征在于,所述展現(xiàn)相關(guān)信息包括基于多個查詢序列的所述搜索展現(xiàn)圖片信息的第一多樣性參數(shù); 其中,確定基于所述查詢序列的所述搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息,具體包括:根據(jù)在搜索中對每一搜索展現(xiàn)圖片信息進行展現(xiàn)的查詢序列的查詢序列數(shù)量,確定基于多個查詢序列的所述搜索展現(xiàn)圖片信息的第一多樣性參數(shù)。
5.根據(jù)權(quán)利要求1-4任一項所述的確定圖片篩選結(jié)果的方法,其特征在于,所述展現(xiàn)相關(guān)信息包括基于每一查詢序列的所述搜索展現(xiàn)圖片信息的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置; 其中,確定基于所述查詢序列的所述搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息,具體包括: 根據(jù)所述搜索展現(xiàn)圖片信息基于每一查詢序列的累計展現(xiàn)次數(shù)及累計展現(xiàn)位置,確定所述搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息。
6.根據(jù)權(quán)利要求1-5任一項所述的確定圖片篩選結(jié)果的方法,其特征在于,根據(jù)所述展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果,具體包括: 根據(jù)所述展現(xiàn)相關(guān)信息對所述搜索展現(xiàn)圖片信息進行排序,確定排序結(jié)果; 根據(jù)所述排序結(jié)果,將排序前預定數(shù)量的搜索展現(xiàn)圖片信息確定為圖片篩選結(jié)果。
7.根據(jù)權(quán)利要求1-6任一項所述的確定圖片篩選結(jié)果的方法,其特征在于,根據(jù)所述展現(xiàn)相關(guān)信息對所述搜索展現(xiàn)圖片信息進行排序,包括: 根據(jù)所述展現(xiàn)相關(guān)信息,并結(jié)合所述搜索展現(xiàn)圖片信息對應的圖片質(zhì)量信息對所述搜索展現(xiàn)圖片信息進行排序。
8.根據(jù)權(quán)利要求1-7任一項所述的確定圖片篩選結(jié)果的方法,其特征在于,還包括: 根據(jù)所述搜索展現(xiàn)圖片信息中圖片的尺寸信息,確定所述圖片質(zhì)量信息。
9.一種確定圖片篩選結(jié)果的裝置,其特征在于,包括: 序列確定模塊,用于根據(jù)對多個查詢序列基于熱度信息進行排序的排序結(jié)果,選取排序前預定數(shù)量的查詢序列作為篩選查詢序列; 展現(xiàn)信息確定模塊,用于根據(jù)所述篩選查詢序列確定對應的搜索展現(xiàn)圖片信息,確定基于所述查詢序列的所述搜索展現(xiàn)圖片信息的展現(xiàn)相關(guān)信息; 篩選模塊,用于根據(jù)所述展現(xiàn)相關(guān)信息,確定圖片篩選結(jié)果。
10.根據(jù)權(quán)利要求9所述的確定圖片篩選結(jié)果的裝置,其特征在于,所述序列確定模塊包括: 熱度確定單元,用于根據(jù)用戶搜索記錄信息,確定所述多個查詢序列的熱度信息; 第一排序單元,用于根據(jù)所述熱度信息,對所述多個查詢序列進行排序。
【文檔編號】G06F17/30GK104361109SQ201410708056
【公開日】2015年2月18日 申請日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】陶哲 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司