欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

生成擴展的搜索結(jié)果頁面摘要的方法及裝置的制作方法

文檔序號:6434464閱讀:154來源:國知局
專利名稱:生成擴展的搜索結(jié)果頁面摘要的方法及裝置的制作方法
技術領域
本發(fā)明涉及搜索引擎中生成擴展的搜索結(jié)果頁面摘要的技術領域,特別涉及生成 表格式頁面摘要的方法和系統(tǒng)。
背景技術
隨著互聯(lián)網(wǎng)業(yè)務的不斷發(fā)展,各種現(xiàn)有的搜索引擎成為人們發(fā)現(xiàn)感興趣的網(wǎng)絡資 源(例如網(wǎng)頁)所不可缺少的工具。
搜索引擎通常以下述方式工作一旦用戶通過客戶端提交了查詢,搜索引擎將通 過搜索結(jié)果頁向用戶返回搜索到的網(wǎng)頁。搜索引擎的一個重要目標是針對用戶特定的搜 索查詢提供用戶所期望的鏈接集,另外一個目標是需要清楚并且快速地向用戶通知與每個 鏈接相關聯(lián)的內(nèi)容。因此,在返回搜索結(jié)果頁時,除了網(wǎng)頁的標題和統(tǒng)一資源標識符(URL) 之外,搜索結(jié)果頁還包含與網(wǎng)頁相關的短文本描述。這種短文本描述通常被稱為頁面摘要 (Snippet)。搜索引擎通常通過提取和組合包含查詢所涉及的關鍵詞的文本段從網(wǎng)頁中提 取頁面摘要。在搜索結(jié)果頁中,搜索引擎可以通過諸如高亮顯示、加下劃線、不同字體等等 的各種手段使頁面摘要中的查詢關鍵詞的顯示區(qū)別于其它文本,以吸引用戶的注意力并利 于用戶決定是否點擊該網(wǎng)頁。雖然現(xiàn)有技術中的頁面摘要可一定程度上反映網(wǎng)頁與查詢的 相關性,但由于目前的頁面摘要由包含查詢關鍵詞的文本段構(gòu)成,文本段的選擇并未考慮 文本段中除關鍵詞之外的內(nèi)容,特別是考慮文本段的表格格式信息。
而表格是一種重要的數(shù)據(jù)源,下面列出一些適合用表格展現(xiàn)的已經(jīng)大量應用的數(shù) 據(jù)類型傳統(tǒng)的Web Table類型數(shù)據(jù),比如人員、公司、地點、商品、電影、音樂等信息,既包 括有邊框的表格,也包括無邊框的表格;商業(yè)智能(BI)的應用使企業(yè)數(shù)據(jù)大量的以報表的 形式生成(Web報表、PDF, Excel、Word等格式),很多企業(yè)級的BI分析和展現(xiàn)工具如IBM Cognos等會生成大量報表并進行發(fā)布,如此海量的數(shù)據(jù)在企業(yè)或互聯(lián)網(wǎng)上有很強的搜索 需求,使該發(fā)明有很大的應用前景,而且基于文件解析工具,各家主流的搜索引擎都已經(jīng)把 Excel Word等文檔納入檢索。
為了提高用戶的體驗,現(xiàn)有技術中還提供有搜索結(jié)果預覽功能,可以圖片的方式 預覽到網(wǎng)頁的信息,在日漸成熟的搜索引擎技術領域,改動的空間越來越小,也增加了對搜 索引擎進行改進和創(chuàng)新的難度,因此,微小的改動也可能意味著用戶體驗的極大提升。然 而,摘要(snippet)與預覽(preview)是有區(qū)別的,預覽并沒有基于查詢生成相關的片段供 最終用戶快速理解,而是簡單的輸出了原網(wǎng)頁的內(nèi)容。而摘要是供用戶快速判斷與查詢詞 的相關性的,預覽是在通過摘要判斷完了之后,再進一步判斷其相關性的。也就是說,二者 使用的階段不同。特別是摘要的顯示空間很狹小,而預覽的顯示空間很大。摘要是默認顯 示的,而預覽是默認不顯示的,需要把鼠標移到特定位置(包括題目、摘要、網(wǎng)址等)上觸發(fā) 后才會顯示,并且其顯示需要一定的時間(依據(jù)顯示內(nèi)容和網(wǎng)絡速度而定)。因此,對于所 屬領域技術人員來說,摘要和預覽是完全不同的技術方案。
因此,對于表格這種數(shù)據(jù)源,其表格格式信息也是便于用戶通過網(wǎng)頁摘要快速理解搜索結(jié)果的極為重要的一部分,故需要進一步改進搜索技術,以至少在某種程度上在頁 面摘要中展示表格的格式信息。發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一個方面,提供一種用于在搜索引擎中生成擴展的頁面摘要的方 法,包括檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁;獲得所述關聯(lián)表格 網(wǎng)頁中表格的解析結(jié)果,基于所述解析結(jié)果抽取列名及各行實例;確定與所述查詢關鍵詞 相關的行實例;根據(jù)所述列名及相關的行實例生成表格式頁面摘要。
根據(jù)本發(fā)明的第二個方面,提供一種用于在搜索引擎中生成擴展的頁面摘要的裝 置,包括用于檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁的部件;用于獲 得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果,基于所述解析結(jié)果抽取列名及各行實例的部件; 用于確定與所述查詢關鍵詞相關的行實例的部件;用于根據(jù)所述列名及相關的行實例生成 表格式頁面摘要的部件。。
采用本申請的技術方案,提供了一種擴展的頁面摘要生成方案,可在在某種程度 上在頁面摘要中展示表格的格式信息。


所附權利要求中闡述了被認為是本發(fā)明的特點的創(chuàng)造性特征。但是,通過參照附 圖閱讀下面對說明性的實施例的詳細說明可更好地理解發(fā)明本身以及其優(yōu)選使用模式、目 標、特征以及優(yōu)點,在附圖中
圖1示出了用來實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)。
圖2示出了本申請生成擴展的搜索結(jié)果摘要的方法流程圖。
圖3示出了本申請生成擴展的搜索結(jié)果摘要的裝置示意圖。
圖4示出了在一個實施方式中網(wǎng)頁I的示意圖。
圖5示出了在一個實施方式中網(wǎng)頁2的示意圖。
圖6示出了在一個實施方式中網(wǎng)頁3的示意圖。
具體實施方式
所屬技術領域的技術人員知道,本發(fā)明可以體現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。 因此,本發(fā)明可以具體實現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐 留軟件、微代碼等)、或者本文一般稱為“電路”、“模塊”或“系統(tǒng)”的軟件部分與硬件部分的 組合。此外,本發(fā)明還可以采取體現(xiàn)在任何有形的表達介質(zhì)(medium of expression)中的 計算機程序產(chǎn)品的形式,該介質(zhì)中包含計算機可用的程序碼。
可以使用一個或多個計算機可讀介質(zhì)的任何組合。計算機可讀介質(zhì)可以是計算機 可讀信號介質(zhì)或計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)例如可以是——但不限于—— 電的、磁的、光的、電磁的、紅外線的、或半導體的系統(tǒng)、裝置、器件或傳播介質(zhì)、或前述各項 的任何適當?shù)慕M合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括以下 有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲 器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或前述各項的任何適當?shù)慕M合。在本文語境中,計算機 可讀存儲介質(zhì)可以是任何含有或存儲供指令執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系 統(tǒng)、裝置或器件相聯(lián)系的程序的有形介質(zhì)。
計算機可讀信號介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的帶有計 算機可讀程序代碼的數(shù)據(jù)信號。這樣一種傳播信號可以采取任何適當?shù)男问?,包?但不 限于-電磁的、光的或其任何適當?shù)慕M合。計算機可讀信號介質(zhì)可以是不同于計算機可讀 存儲介質(zhì)的、可以傳達、傳播或傳輸供指令執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系 統(tǒng)、裝置或器件相聯(lián)系的程序的任何一種計算機可讀介質(zhì)。
包含在計算機可讀介質(zhì)中的程序代碼可以采用任何適當?shù)慕橘|(zhì)傳輸,包括-但不 限于-無線、有線、光纜、射頻等等、或上述各項的任何適當?shù)慕M合。
用于執(zhí)行本發(fā)明的操作的計算機程序碼,可以以一種或多種程序設計語言的任何 組合來編寫,所述程序設計語言包括面向?qū)ο蟮某绦蛟O計語言-諸如Java、Smalltalk、C++ 之類,還包括常規(guī)的過程式程序設計語言-諸如” C”程序設計語言或類似的程序設計語 言。程序碼可以完全地在用戶的計算上執(zhí)行、部分地在用戶的計算機上執(zhí)行、作為一個獨立 的軟件包執(zhí)行、部分在用戶的計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機 或服務器上執(zhí)行。在后一種情形中,遠程計算機可以通過任何種類的網(wǎng)絡——包括局域網(wǎng) (LAN)或廣域網(wǎng)(WAN)-連接到用戶的計算機,或者,可以(例如利用因特網(wǎng)服務提供商來通 過因特網(wǎng))連接到外部計算機。
以下參照按照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/ 或框圖描述本發(fā)明。要明白的是,流程圖和/或框圖的每個方框以及流程圖和/或框圖中 各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算 機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得通過計算 機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實現(xiàn)流程圖和/或框圖中的方框中規(guī) 定的功能/操作的裝置。
也可以把這些計算機程序指令存儲在能指令計算機或其它可編程數(shù)據(jù)處理裝置 以特定方式工作的計算機可讀介質(zhì)中,這樣,存儲在計算機可讀介質(zhì)中的指令產(chǎn)生一個包 括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means) 的制造品。
也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理裝置上,使得在計 算機或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而 在計算機或其它可編程裝置上執(zhí)行的指令就提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定 的功能/操作的過程。
現(xiàn)參看圖1,示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)100的框圖。 如所示,計算機系統(tǒng)100可以包括CPU(中央處理單元)101、RAM(隨機存取存儲器)102、 ROM(只讀存儲器)103、系統(tǒng)總線104、硬盤控制器105、鍵盤控制器106、串行接口控制器 107、并行接口控制器108、顯示控制器109、硬盤110、鍵盤111、串行外部設備112、并行外部 設備113和顯示器114。在這些設備中,與系統(tǒng)總線104耦合的有CPU 101、RAM 102、ROM 103、硬盤控制器105、鍵盤控制器106、串行控制器107、并行控制器108和顯示控制器109。 硬盤110與硬盤控制器105耦合,鍵盤111與鍵盤控制器106耦合,串行外部設備112與串行接口控制器107耦合,并行外部設備113與并行接口控制器108耦合,以及顯示器114與 顯示控制器109耦合。應當理解,圖1所述的結(jié)構(gòu)框圖僅僅為了示例的目的而示出的,而不 是對本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況而增加或者減少某些設備。
參看圖2,示出了在一個實施例中生成擴展的搜索結(jié)果摘要的方法流程圖,包括以 下步驟
步驟201,檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁。
在一個實施例中,可檢索并返回與查詢關鍵詞相關的網(wǎng)頁序列,所述網(wǎng)頁序列中 至少包括一個具有與所述查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁。查詢關鍵詞可以包括一 個或多個關鍵詞,其個數(shù)取決與用戶輸入??刹捎矛F(xiàn)有搜索引擎中的技術來確定與查詢相 關的網(wǎng)頁序列。在所述關聯(lián)表格網(wǎng)頁中,與所述查詢關鍵詞相關的表格是指在該表格中匹 配所述查詢關鍵詞中的部分或全部關鍵詞。
表格通常是由行、列、單元格三個部分組成,其中第一行單元格是表頭信息,第一 行中各個單元格的內(nèi)容是各列的列名,表格中每一行單元格中的數(shù)據(jù)是一行實例。表格通 常采用 HTML、Excel、Word、PDF 等格式。
步驟202,獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果,從中抽取列名及各行實例。
現(xiàn)有的搜索引擎根據(jù)搜索結(jié)果來源可分為兩類一類擁有自己的網(wǎng)頁抓取、索 引、檢索系統(tǒng)(Indexer),有獨立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機器 人”(Robot)程序(這三種稱法意義相同),能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù) 庫中調(diào)用。第二類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果。
因此,所述表格的解析結(jié)果也可通過多種途徑獲得。在以第一類搜索引擎為背景 的實施例中,可在所述檢索步驟201之前,在用蜘蛛程序抓取網(wǎng)頁時解析所有網(wǎng)頁中的表 格并在自建網(wǎng)頁數(shù)據(jù)庫中存儲該解析結(jié)果,然后在步驟201中返回所述網(wǎng)頁序列時返回所 述表格解析結(jié)果。而對于第二類搜索引擎為背景的實施例中,可采用實時的方式對關聯(lián)表 格網(wǎng)頁中的表格進行解析從而獲得解析結(jié)果。
現(xiàn)有技術中提供了多種解析器可用于對各種格式的表格進行解析
其中,Apache的辦公文檔解析器(POI)是Apache軟件基金會的開放源碼函式庫, 提供API給Java程式對微軟辦公格式檔案讀和寫的功能,Apache POI也是多種搜索軟件中 都有使用的開源軟件,可用于對網(wǎng)頁中各種Office格式的表格進行解析。例如,對于Word 格式的表格,通過POI中的Table, TableCell, TableRow,和TableIterator等類別,可對Word中的表格進行讀取解析,具體舉例如下
TableIterator it = new Tablelterator(range); Il迭代文檔中的所有表格 while (it.hasNext()) {Table tb = (Table) it.nextQ; //迭代行,默認從 0 開始 for (int i = O; i < tb.numRowsQ; i++) {TableRow tr = tb.getRow(i); //迭代列,默認從 0開始for (intj =0;j < tr.numCells(); j++) {TableCell td = tr.getCell(j);//取得單元格 //取得單元格的內(nèi)容 for(int k=0;k<td.numPamgraphs();k++) { Paragraph para =td.getParagraph(k); String s = para.text();System.out.println(s);}
對于Excel 格式的表格而言,可通過POI 中的 HSSFWorkbook,HSSFSheet,HSSFRow, HSSFCell等元素,可對Excel的內(nèi)容進行解析,具體舉例如下
workbook = new HSSFWorkbook(is); Il 如果是 Excel 文件則 創(chuàng)建HSSFWorkbook讀取numOfSheets = workbook.getNumberOfSheets();// 設置Sheet 數(shù)HSSFSheet sheet = workbook.getSheetAt(currSheet); //獲得當前的sheetint currPosition = O; Il當前行位置清零 int row = currPosition;HSSFRow rowline = sheet. getRow(row);int filledColumns = rowline.getLastCellNum();// 獲耳又當前行的列數(shù)HSSFCell cell = null;for (int i = 0; i < filledColumns; i++) { Il 循環(huán)遍歷所有列 cell = rowline. getCell((short) i); // 耳又得當前 Cell}
現(xiàn)有技術中還有用于HTML網(wǎng)頁的解析器(HTML Parser),主要用于改造或提 取HTML,提供了接口,支持線性和嵌套HTML文本,相關介紹可參見http://htmlparser. sourceforRe. net0
在表格的解析結(jié)果中抽取出所述列名及實例也包括多種實施方式在一個實施例 中,可根據(jù)列名標記抽取列名信息,根據(jù)實例標記抽取實例信息。例如,對HTML的表格進行 解析后,可通過〈TH〉標記抽取列名關系,通過<TD>標記抽取各行的實例信息。而在另一個 實施例中,例如,對于通過POI獲得的表格,可能并沒有明確的表征列名的標記位,這可對 表格的第一個非空行進行校驗,由于表頭的數(shù)據(jù)格式通常不同于表格中各行內(nèi)容的數(shù)據(jù)格 式,如果該行的元素格式明顯有別于剩下的所有行,則該行可以作為列名行使用。
步驟203,確定與所述查詢關鍵詞相關的行實例。
根據(jù)查詢關鍵詞在表格中的位置確定出所覆蓋的列,進而選擇列名,根據(jù)查詢關 鍵詞的位置選擇實例行。對于Snippet而言,可供顯示空間有限,特別是僅能顯示有限的行 數(shù),如何選擇出相關的實例行就顯得特別重要。相對而言,由于Snippet在寬度方面要求不 嚴格,只要不超過屏幕顯示的寬度即可,故所覆蓋的列名基本都可以進行顯示。
作為可選的方式,還可考慮查詢關鍵詞的權重信息,據(jù)此可以輔助相關實例與相 關列名的選擇,還可用于調(diào)整實例與列名顯示的內(nèi)容及順序,使得最相關的實例放在前面。 查詢詞權重是用于確定Snippet顯示順序調(diào)整時需要考慮的一個因素,通常是搜索引擎提 供者跟據(jù)統(tǒng)計所提供的信息,例如,可以根據(jù)查詢詞被搜索的頻率賦予不同的權重,這屬于 已有的技術。
步驟204,根據(jù)所述列名及相關的行實例生成所述表格式頁面摘要。
在一個實施例中,如果在步驟201中的查詢關鍵詞為多個,該步驟可以包括統(tǒng)計所述相關行實例中所述查詢關鍵詞的權重得到行實例的相關度;根據(jù)所述列名以及至少一個相關度排在前列的相關行實例生成所述表格式頁面摘要。在摘要中可按照表格中原順序呈現(xiàn)所選擇的行實例,也可根據(jù)相關度的高低順序呈現(xiàn)相關實例以及對應的相關列名。此外,表格式頁面摘要中的表格形式既可顯示邊框,也可以不顯示邊框,但至少需要表格中的列名與實例的位置相互對應。
現(xiàn)結(jié)合圖2進一步說明跨頁面表格式摘要生成的流程,在圖2所示的步驟201中返回多個關聯(lián)表格網(wǎng)頁。作為可選的步驟,在一個實施例中,根據(jù)查詢關鍵詞以及搜索引擎返回的網(wǎng)頁序列,通過網(wǎng)頁聚類將有相似性的頁面聚合在一起,所述多個關聯(lián)表格網(wǎng)頁均在同一個聚類中。網(wǎng)頁聚類可采用公知的技術手段,在此不進行過多的陳述。在一個改進的實施例中,對所述網(wǎng)頁序列中來自同一網(wǎng)站域名下的網(wǎng)頁進行聚類,在所述聚類結(jié)果中包括所述多個關聯(lián)表格網(wǎng)頁。之所以對來自同一網(wǎng)站的網(wǎng)頁進行網(wǎng)頁聚合,是因為相關性較大的表格通常出現(xiàn)在同一網(wǎng)站域名下的網(wǎng)頁中,故可以提高聚合的相關性。舉例而言,公司網(wǎng)站中所公布的信息中,對于同一個員工,可能用多個不同的表格公開該員的不同信息, 通過對同屬于該公司網(wǎng)站的網(wǎng)頁聚合更加準確的發(fā)現(xiàn)可進行跨頁面摘要的網(wǎng)頁。
進而,通過以下兩種實施方式可生成跨頁面的表格式頁面摘要。所述跨頁面表格式頁面摘要合并了所述多個關聯(lián)表格網(wǎng)頁中與所述查詢關鍵詞相關聯(lián)的列名與實例。
在第一個實施例中,在圖2所示的步驟201中返回多個關聯(lián)表格網(wǎng)頁之后,通過步驟202至步驟204為每個所述關聯(lián)表格網(wǎng)頁生成表格式摘要,之后進一步包括合并所述多個關聯(lián)表格網(wǎng)頁的表格式摘要得到合并后的摘要;根據(jù)所述查詢關鍵詞在所述合并后的摘要中確定相關行實例與列名;根據(jù)所述相關行實例以及列名輸出跨頁面的表格式頁面摘要。參看表1,對該實施例進行說明,表I中所示的頁面Pl和P3的表格式摘要匹配了全部查詢關鍵詞KEY1、KEY2和KEY3,頁面P2的表格式摘要匹配的是部分的查詢關鍵詞KEY1。
表I
權利要求
1.一種用于在搜索引擎中生成擴展的頁面摘要的方法,包括 檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁; 獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果,基于所述解析結(jié)果抽取列名及各行實例; 確定與所述查詢關鍵詞相關的行實例; 根據(jù)所述列名及相關的行實例生成表格式頁面摘要。
2.如權利要求1所述的方法,其特征在于, 在所述檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁步驟中返回多個所述關聯(lián)表格網(wǎng)頁。
3.如權利要求2所述的方法,其特征在于, 在獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果后,合并所述多個關聯(lián)表格網(wǎng)頁的表格解析結(jié)果得到為合并的表格解析結(jié)果,基于所述合并的表格解析結(jié)果抽取列名及各行實例;在根據(jù)所述列名及相關的行實例生成所述表格式頁面摘要的步驟中生成的是跨頁面的表格式頁面摘要。
4.如權利要求2所述的方法,進一步包括, 合并所述多個關聯(lián)表格網(wǎng)頁的表格式頁面摘要; 在所述合并的表格式頁摘要中確定與所述查詢關鍵詞相關的行實例; 根據(jù)所述列名及相關行實例生成跨頁面的表格式頁面摘要。
5.如權利要求2所述的方法,其特征在于,在所述檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁步驟中,對來自同一網(wǎng)站域名下的網(wǎng)頁進行聚類,在所述聚類結(jié)果中確定出所述多個關聯(lián)表格網(wǎng)頁。
6.如權利要求3或4所示的方法,其特征在于,在所述跨頁面的表格式頁面摘要中從視覺上區(qū)分來自不同網(wǎng)頁的列名與行實例。
7.如權利要求1所述的方法,其特征在于,在所述檢索并返回步驟中的查詢關鍵詞為多個,所述根據(jù)所述列名及相關的行實例生成所述表格式頁面摘要的步驟包括 統(tǒng)計所述相關行實例中所述查詢關鍵詞的權重得到行實例的相關度; 根據(jù)所述列名以及至少一個相關度排在前列的相關行實例生成所述表格式頁面摘要。
8.如權利要求1所述的方法,其特征在于,所述表格的解析結(jié)果是在蜘蛛程序抓取網(wǎng)頁時解析所有網(wǎng)頁中的表格所獲得并保存的結(jié)果。
9.如權利要求1所述的方法,其特征在于,所述表格的解析結(jié)果是通過實時解析所述關聯(lián)表格網(wǎng)頁中的表格獲得的。
10.一種用于在搜索引擎中生成擴展的頁面摘要的裝置,包括 用于檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁的部件; 用于獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果,基于所述解析結(jié)果抽取列名及各行實例的部件; 用于確定與所述查詢關鍵詞相關的行實例的部件; 用于根據(jù)所述列名及相關的行實例生成表格式頁面摘要的部件。
11.如權利要求10所述的裝置,其特征在于,所述用于檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁的部件返回多個所述關聯(lián)表格網(wǎng)頁。
12.如權利要求11所述的裝置,其特征在于,所述用于獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果,基于所述解析結(jié)果抽取列名及各行實例的部件包括用于在獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果后,合并所述多個關聯(lián)表格網(wǎng)頁的表格解析結(jié)果得到為合并的表格解析結(jié)果,基于所述合并的表格解析結(jié)果抽取列名及各行實例的部件; 所述用于根據(jù)所述列名及相關的行實例生成表格式頁面摘要的部件中生成的是跨頁面的表格式頁面摘要。
13.如權利要求11所述的裝置,進一步包括, 用于合并所述多個關聯(lián)表格網(wǎng)頁的表格式頁面摘要的部件; 用于在所述合并的表格式頁摘要中確定與所述查詢關鍵詞相關的行實例的部件; 用于根據(jù)所述列名及相關行實例生成跨頁面的表格式頁面摘要的部件。
14.如權利要求11所述的裝置,其特征在于,所述用于檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁的部件是對來自同一網(wǎng)站域名下的網(wǎng)頁進行聚類,并在所述聚類中確定出所述多個關聯(lián)表格網(wǎng)頁。
15.如權利要求12或13所示的裝置,其特征在于,在所述跨頁面的表格式頁面摘要中從視覺上區(qū)分來自不同網(wǎng)頁的列名與實例。
16.如權利要求9所述的裝置,其特征在于,在所述用于檢索并返回部件中的查詢關鍵詞為多個,所述用于根據(jù)所述列名及相關的行實例生成所述表格式頁面摘要的部件包括 用于統(tǒng)計所述相關行實例中所述查詢關鍵詞的權重得到行實例的相關度的部件; 用于根據(jù)所述列名以及至少一個相關度排在前列的相關行實例生成所述表格式頁面摘要的部件。
17.如權利要求9所述的裝置,其特征在于,所述表格的解析結(jié)果是在蜘蛛程序抓取網(wǎng)頁時解析所有網(wǎng)頁中的表格所獲得并保存的結(jié)果。
18.如權利要求9所述的裝置,其特征在于,所述表格的解析結(jié)果是通過實時解析所述關聯(lián)表格網(wǎng)頁中的表格獲得的。
全文摘要
本發(fā)明提出了一種用于在搜索引擎中生成擴展的搜索結(jié)果頁面摘要的方法及裝置,包括檢索并返回具有與查詢關鍵詞相關的表格的關聯(lián)表格網(wǎng)頁;獲得所述關聯(lián)表格網(wǎng)頁中表格的解析結(jié)果,基于所述解析結(jié)果抽取列名及各行實例;確定與所述查詢關鍵詞相關的行實例;根據(jù)所述列名及相關的行實例生成表格式頁面摘要。采用本發(fā)明的方案可以生成表格式的頁面摘要。
文檔編號G06F17/30GK103034633SQ20111029467
公開日2013年4月10日 申請日期2011年9月30日 優(yōu)先權日2011年9月30日
發(fā)明者包勝華, 陳健, 楊新穎, 周祥, 蘇中 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
竹山县| 甘孜县| 山东省| 安塞县| 文昌市| 信宜市| 吉木萨尔县| 遂昌县| 叶城县| 镇沅| 襄汾县| 自治县| 台州市| 江都市| 葫芦岛市| 舞钢市| 乐陵市| 冕宁县| 广德县| 密云县| 太仆寺旗| 西华县| 抚远县| 三明市| 浏阳市| 兰考县| 泸西县| 沂南县| 绥芬河市| 方山县| 绵竹市| 衢州市| 文成县| 舟山市| 安康市| 深水埗区| 彭山县| 沁水县| 侯马市| 法库县| 延庆县|