gsize字段,該imgsize字段表示每個data數(shù)組中的圖片大??;例如,imgsize字段取值為:big:大圖;或small:小圖;或110;[11^:無圖。
[0037]具體地,檢測排序后的一個或多個搜索結果項對應鏈接的落地頁是否包含平級圖文列表字段的方式可為:讀取排序后的一個或多個搜索結果項對應鏈接的落地頁的HTML文件,并檢測HTML文件中是否包括預定的平級圖文列表字段。
[0038]步驟S130:對包含平級圖文列表字段的落地頁對應的搜索結果項,通過列表摘要模板進行結構化處理,重新生成包含列表摘要信息的搜索結果項。
[0039]具體地,步驟S130具體包括步驟S131 (圖中未示出)和步驟S132 (圖中未示出)。
[0040]步驟S131:提取搜索結果項對應鏈接的落地頁中平級圖文列表字段的數(shù)據(jù)信息;
[0041]步驟S132:基于平級圖文列表字段的數(shù)據(jù)信息,填充列表摘要模板,重新生成包含列表摘要信息的搜索結果項。
[0042]當檢測到搜索結果項的鏈接對應落地頁的HTML文件中包括預定的平級圖文列表字段,則將已提取到落地頁中平級圖文列表字段的數(shù)據(jù)信息,填充至預生成的列表摘要模板進行結構化處理,重新生成包含列表摘要信息的搜索結果項。例如,列表摘要模板包括標題、圖片及URL相應的填充位置,落地頁的HTML文件中每組data數(shù)組包括url/title/img三個字段數(shù)據(jù),提取每組data數(shù)組包括的url/title/img字段的數(shù)據(jù);接著,在列表摘要模板的每個填充位置處相應寫入url/title/img字段的數(shù)據(jù),可生成列表摘要信息;接著再與排序后的一個或多個搜索結果的標題和URL相結合,重新生成包含列表摘要信息的搜索結果項。
[0043]例如,用戶輸入的查詢詞為“EXO小游戲”,搜索引擎接收到該查詢詞后可獲取排序后的多個搜索結果項,其中一個搜索結果項的標題為:EXO小游戲_EXO小游戲大全_EXO小游戲下載 _17173 小游戲頻道,URL 為:http://flash.17173.com/2013/heji/ex0.shtml ;讀取該搜索結果項的鏈接對應落地頁的HTML文件,檢測到HTML文件中是否包括多組data數(shù)組,每組數(shù)組包括url/title/img三個字段數(shù)據(jù)時,則提取多組數(shù)組包括url/title/img三個字段數(shù)據(jù),并在預生成的列表摘要模板的每個填充位置處相應寫入url/title/img字段的數(shù)據(jù),生成列表摘要信息,如圖4所示,第一個列表摘要信息的標題為“癮藏”,URL為http://flash.17173.com/flashfile/2014-07-16/20140716110902440.shtml,其直接指向名為“癮藏”的EXO小游戲頁面,圖片為“癮藏”小游戲的游戲圖標;接著,將列表摘要信息與搜索結果的標題和URL相結合,重新生成如圖4所示的包含列表摘要信息的搜索結果項。
[0044]其中,列表摘要信息包括搜索結果項的鏈接對應落地頁中以列表形式展現(xiàn)的多個子頁面信息;其中,子頁面信息包括但不限于:子頁面對應的統(tǒng)一資源定位符;子頁面的標題信息;子頁面的圖片信息。
[0045]如圖1b所示,該落地頁中以列表形式展現(xiàn)了多個EXO小游戲的子頁面信息,這些EXO小游戲的子頁面信息以三行九列的列表形式在落地頁中進行展現(xiàn),每個EXO小游戲的子頁面信息包括:ΕΧ0小游戲的子頁面信對應的URL ;:ΕΧ0小游戲的標題信息;:ΕΧ0小游戲的圖片信息。
[0046]優(yōu)選地(參照圖2),該方法還包括步驟S190 (圖中未示出)。
[0047]步驟S190:基于重新生成的包含列表摘要信息的搜索結果項繪制搜索結果頁面。
[0048]具體地,基于重新生成的包含列表摘要信息的搜索結果項以及其他已獲取的搜索結果項,來繪制搜索結果頁面。
[0049]優(yōu)選地(參照圖2),在通過列表摘要模板進行結構化處理之前,該方法還包括步驟S140(圖中未示出)。
[0050]步驟S140:確定與搜索結果項相匹配的列表摘要模板;
[0051]例如,根據(jù)搜索結果項的URL,在列表摘要模板庫中查找到與該URL相匹配的列表摘要模板,其中,列表摘要模板庫中存儲多個預生成的列表摘要模板,且存儲有列表摘要模板與相應URL或域名之間的關聯(lián)信息。
[0052]步驟S130:對包含平級圖文列表字段的落地頁對應的搜索結果項,通過相匹配的列表摘要模板進行結構化處理,重新生成包含列表摘要信息的搜索結果項。
[0053]優(yōu)選地(參照圖2),該方法還包括步驟S150 (圖中未示出)。
[0054]步驟S150:根據(jù)從一個或多個落地頁中提取到的平級圖文列表字段,生成與一個或多個落地頁相匹配的列表摘要模板。
[0055]例如,預先從互聯(lián)網(wǎng)中爬取到可作為落地頁的一個或多個網(wǎng)頁,對一個或多個落地頁的HTML文件進行解析,基于預定義的平級圖文列表字段在HTML文件進行查找并提取一個或多個落地頁的HTML文件中的平級圖文列表字段,根據(jù)所提取的平級圖文列表字段,生成與一個或多個落地頁相匹配的列表摘要模板,其中,列表摘要模板中包括待填充位置,用于填充相應的字段數(shù)據(jù)。
[0056]優(yōu)選地(參照圖2),該方法還包括步驟S160 (圖中未示出)、步驟S170 (圖中未示出)和步驟S180(圖中未示出)。
[0057]步驟S160:提取一個或多個落地頁的鏈接對應的域名;
[0058]步驟S170:檢測域名的下層目錄對應的頁面是否包含平級圖文列表字段;
[0059]步驟S180:對包含平級圖文列表字段的域名的下層目錄對應的頁面,將與落地頁相匹配的列表摘要模板確定為與同一域名下的下層目錄對應的頁面相匹配的列表摘要模板。
[0060]例如,對查詢詞“益智小游戲”進行搜索,獲取到一個搜索結果項指向落地頁的鏈接URL為:http://xiaoyoux1.2366.com/yizhi,并基于該落地頁生成列表摘要模板;提取該落地頁的URL對應的域名為:http://xiaoyoux1.2366.com,爬取該域名下的全部下層目錄對應的頁面,如 http://xiaoyoux1.2366.com/xiuxian、http://xiaoyoux1.2366.com/dongzuo、http://xiaoyoux1.2366.com/tiyu等對應的頁面,并檢測這些頁面是否包含平級圖文列表字段,當檢測到這些URL對應的頁面包含平級圖文列表字段時,則確定 URL 為 http://xiaoyoux1.2366.com/yizhi 的列表摘要模板,是域名為“http://xiaoyoux1.2366.com”的下層目錄對應的頁面相匹配的列表摘要模板。之后,當用戶輸入查詢詞“體育小游戲”進行搜索獲取的一個搜索結果項指向落地頁的鏈接URL為:http://xiaoyoux1.2366.com/tiyu 時,可直接使用域名 http://xiaoyoux1.2366.com 相對應的列表摘要模板來生成查詢詞“體育小游戲”的搜索結果項對應的列表摘要信息。
[0061]本優(yōu)選實施例中,根據(jù)相同域名的下層目錄對應網(wǎng)頁的頁面結構相似性特點,確定在同一域名下的網(wǎng)頁可使用同一列表摘要模板,大大提高了大量落地頁的列表摘要信息的生成效率,降低服務器端生成并存儲不同落地頁的列表摘要信息的壓力和負擔。
[0062]優(yōu)選地(參照圖2),該方法還包括:根據(jù)對多個查詢詞基于熱度信息進行排序的排序結果,選取排序前預定數(shù)量的查詢詞作為熱門查詢詞;根據(jù)熱門查詢詞來確定相應的經(jīng)排序的搜索結果項,并選取與每一熱門查詢詞相應的排序前預定數(shù)量的搜索結果項作為熱門搜索結果項;提取熱門搜索結果項對應鏈接的熱門落地頁;步驟S150具體包括:根據(jù)從熱門落地頁中提取到的平級圖文列表字段,生成與熱門搜索結果項相匹配的列表摘要模板。
[0063]例如,熱度信息可通過在一定時間內(nèi)用戶的搜索次數(shù)、對搜索結果的瀏覽時長等維度來確定,對用戶輸入的多個查詢詞基于熱度信息來排序后,選擇排序前預定數(shù)量,如排序前五位,的查詢詞作為熱門查詢詞;對熱門查詢詞進行搜索、排序等處理后,獲取每一查詢詞相應的經(jīng)排序的搜索結果項,選取與每一熱門查詢詞相應的排序前預定數(shù)量的搜索結果項,如排序前兩位的搜索結果項,作為熱門搜索結果項;提取熱門搜索結果項對應URL指向的熱門落地頁;根據(jù)從熱門落地頁中提取到的平級圖文列表字段,生成與熱門搜索結果項相匹配的列表摘要模板。
[0064]本優(yōu)選實施例中,由于列表摘要信息可為搜索引擎用戶提供快捷高效的搜索模式,對熱門搜索結果項生成列表摘要信息能夠向盡可能多的用戶提供該搜索模式。因此,通過選擇熱門查詢詞來確定相應的熱門搜索結果項,并對熱門搜索結果項相應的熱門落地頁來生成列表摘要模板,為被用戶高頻率搜索到的搜索結果項生成列表摘要信息奠定了前提基礎,進而為向盡可能多的用戶提供快捷高效的搜索模式提供可靠保證。
[0065]圖3為本發(fā)明中提供搜索結果的列表摘要信息的方法實施例的結構示意圖。
[0066]本發(fā)明中提供搜索結果的列表摘要信息的裝置,包括:結果獲取模塊210、第一檢測模塊220和第一生成模塊230。
[0067]結果獲取模塊210根據(jù)接收到的用戶在搜索框中輸入的查詢詞,獲取與查詢詞相匹配的排序后的一個或多個搜索結果項;第一檢測模塊2