欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種生成文檔索引的方法和裝置以及一種搜索方法和裝置的制造方法

文檔序號:8395988閱讀:238來源:國知局
一種生成文檔索引的方法和裝置以及一種搜索方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網搜索技術領域,具體涉及一種生成文檔索引的方法和裝置以及一種搜索方法和裝置。
【背景技術】
[0002]在搜索引擎系統(tǒng)中,倒排索引被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統(tǒng)中最常用的數據結構。通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表。
[0003]即倒排索引會記錄每個詞在文檔里出現(xiàn)的位置(也稱為偏移)。為了更好地提升搜索效果,有時需要記錄與這些位置相關的信息,包括但不限于:
[0004]1.這個位置包括在書名號里;例如,《資治通鑒》中的‘通鑒’的出現(xiàn)就是在書名號里;
[0005]2.這個位置包括在引號里;
[0006]3.這個位置是在html標簽<H3>里。
[0007]倒排索引用16個bit來記錄每個詞的每次出現(xiàn)位置,為了記錄與位置相關的信息,一般的實現(xiàn)方式是將16bit擴充為32bit,低16位存儲位置,高16bit存儲與位置相關的信息。當時這種方法帶來如下問題:一方面,索引增長太多,由于倒排索引的主要內容為每個詞的出現(xiàn)位置,如果將這個值從16bit擴充到32bit,整個倒排索引會增長一倍。另一方面,大多數的位置并具備有價值的與該位置相關的信息,因此實際上大多數存儲資源都被浪費了。

【發(fā)明內容】

[0008]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種生成文檔索引的方法和裝置以及一種搜索方法和裝置。
[0009]依據本發(fā)明的一個方面,提供了一種生成文檔索引的方法,其中,該方法包括:
[0010]生成以文檔中的詞為索引的第一索引表,用于記錄詞以及該詞在文檔中的位置;
[0011]生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息;
[0012]其中,只有文檔中的一個位置具有需要記錄的與該位置相關信息時,才在所述第二索引表中進行記錄。
[0013]可選地,所述生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息包括:
[0014]在第二索引表中,以三元組的形式記錄與位置相關的信息;
[0015]所述三元組由以下三元構成:與位置相關的信息的開始位置;與位置相關的信息的長度;與位置相關的信息的類型。
[0016]可選地,所述每個位置由16比特位來記錄;
[0017]所述與位置相關的信息的開始位置由16比特位來記錄;
[0018]所述與位置相關的信息的長度由8比特位來記錄;
[0019]所述與位置相關的信息的類型由8比特位來記錄。
[0020]依據本發(fā)明的另一個方面,提供了一種搜索方法,其中,該方法包括:
[0021]接收搜索請求方發(fā)來的搜索詞;
[0022]根據第一索引表找到搜索詞在文檔中的位置;其中,第一索引表用于記錄詞以及該詞在文檔中的位置;
[0023]根據第二索引表找到與搜索詞在文檔中的位置相關的信息;其中,第二索引表用于記錄位置以及與位置相關的信息;
[0024]基于所述搜索詞對應的文檔中的位置和與位置相關的信息,將所述文檔作為搜索結果返回給搜索請求方。
[0025]依據本發(fā)明的一個方面,提供了一種生成文檔索引的裝置,其中,該裝置包括:
[0026]第一索引表生成單元,適于生成以文檔中的詞為索引的第一索引表,用于記錄詞以及該詞在文檔中的位置;
[0027]第二索引表生成單元,適于生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息;其中,只有文檔中的一個位置具有需要記錄的相關信息時,才在所述第二索引表中進行記錄。
[0028]可選地,第二索引表生成單元,適于在第二索引表中,以三元組的形式記錄與位置相關的信息;
[0029]其中,所述三元組由以下三元構成:與位置相關的信息的開始位置,與位置相關的信息的長度;與位置相關的信息的類型。
[0030]可選地,
[0031]所述第一索引表生成單元,適于將每個位置用16比特位來記錄;
[0032]所述第二索引表生成單元,適于將與位置相關的信息的開始位置用16比特位來記錄,將與位置相關的信息的長度用8比特位來記錄,適于與將位置相關的信息的類型用8比特位來記錄。
[0033]依據本發(fā)明的另一個方面,提供了一種搜索裝置,其中,該裝置包括:
[0034]接收單元,適于接收搜索請求方發(fā)來的搜索詞;
[0035]搜索單元,適于根據第一索引表找到搜索詞在文檔中的位置,以及根據第二索引表找到與搜索詞在文檔中的位置相關的信息;其中,第一索引表用于記錄詞以及該詞在文檔中的位置,第二索引表用于記錄位置以及與位置相關的信息;
[0036]發(fā)送單元,適于基于所述搜索詞對應的文檔中的位置和與位置相關的信息,將所述文檔作為搜索結果返回給搜索請求方。
[0037]根據本發(fā)明的這種生成以文檔中的詞為索引的第一索引表,用于記錄詞以及該詞在文檔中的位置,生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息,其中,只有文檔中的一個位置具有需要記錄的與該位置相關信息時,才在所述第二索引表中進行記錄的技術方案,將位置以及與位置相關的信息分離存儲,使得在索引中擴展與位置相關的信息更加方便靈活,且只有實際存在的與位置相關的信息才占用存儲空間,避免了存儲資源的浪費。
[0038]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0039]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0040]圖1示出了根據本發(fā)明一個實施例的一種生成文檔索引的方法的流程圖;
[0041]圖2示出了根據本發(fā)明一個實施例的一種搜索方法的流程圖;
[0042]圖3示出了根據本發(fā)明一個實施例的一種生成文檔索引的裝置的結構圖;
[0043]圖4示出了根據本發(fā)明一個實施例的一種搜索裝置的結構圖。
【具體實施方式】
[0044]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0045]圖1示出了根據本發(fā)明一個實施例的一種生成文檔索引的方法的流程圖。如圖1所示,該方法包括:
[0046]步驟S110,生成以文檔中的詞為索引的第一索引表,用于記錄詞以及該詞在文檔中的位置;
[0047]步驟S120,生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息;其中,只有文檔中的一個位置具有需要記錄的與該位置相關信息時,才在所述第二索引表中進行記錄。
[0048]圖1所示的方法,將位置以及與位置相關的信息分離存儲,使得在索引中擴展與位置相關的信息更加方便靈活,且只有實際存在的與位置相關的信息才占用存儲空間,避免了存儲資源的浪費。
[0049]在本發(fā)明的一個實施例中,圖1所示方法的步驟S120所述生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息包括:在第二索引表中,以三元組的形式記錄與位置相關的信息;
[0050]所述三元組由以下三元構成:與位置相關的信息的開始位置,用start表示;與位置相關的信息的長度,用Ien表示;與位置相關的信息的類型,用rype。
[0051]三元組具體可表示為〈start,len, type〉。
[0052]Start表示與位置相關的信息的開始位置,如書名號的起始位置;
[0053]Ien表示與位置相關的信息的長度,如書名號的長度;
[0054]type表示與位置相關的信息的類型,如該相關的信息為書名號。
[0055]在本發(fā)明的一個實施例中每個位置由16比特位(即16bit)來記錄;通過位置到三元組列表(即所述的第二索引表)里檢索與位置相關的信息。所述與位置相關的信息的開始位置start由16比特位來記錄;所述與位置相關的信息的長度Ien由8比特位來記錄;所述與位置相關的信息的類型type由8比特位來記錄。
[0056]同時,只有當文檔包括特征的與位置相關的信息時才在第二索引表中存儲,不存在浪費。因此相對于傳統(tǒng)的實現(xiàn)方式,能夠節(jié)約至少40%的索引空間。
[0057]并且與位置相關的信息在存儲上與位置分離,實際上使得位置相關信息的擴展更加靈活方便。
[0058]圖2示出了根據本發(fā)明一個實施例的一種搜索方法的流程圖。如圖2所示該方法包括:
[0059]步驟S210,接收搜索請求方發(fā)來的搜索詞;
[0060]步驟S220,根據第一索引表找到搜索詞在文檔中的位置;其中,第一索引表用于記錄詞以及該詞在文檔中的位置;
[0061]步驟S230,根據第二索引表找到與搜索詞在文檔中的位置相關的信息;其中,第二索引表用于記錄位置以及與位置相關的信息;
[0062]步驟S240,基于所述搜索詞對應的文檔中的位置和與位置相關的信息,將所述文檔作為搜索結果返回給搜索請求方。
[0063]圖2所示的方法能夠給搜索請求方返回基于位置和與位置相關的信息的搜索結果,并且與位置相關的信息與位置分離存儲,位置相關信息的擴展更加靈活,且大大節(jié)省了索引空間。
[0064]圖3示出了根據本發(fā)明一個實施例的一種生成文檔索引的裝置的結構圖。如圖3所示,該生成文檔索引的裝置300包括:
[0065]第一索引表生成單元310,適于生成以文檔中的詞為索引的第一索引表,用于記錄詞以及該詞在文檔中的位置;
[0066]第二索引表生成單元320,適于生成以文檔中的位置為索引的第二索引表,用于記錄位置以及與位置相關的信息;其中,只有文檔中的一個位置具有
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
松阳县| 都昌县| 福建省| 睢宁县| 靖西县| 富民县| 出国| 宁武县| 西城区| 武山县| 大同县| 项城市| 崇明县| 安远县| 沁水县| 安塞县| 兴义市| 齐河县| 德州市| 洪江市| 屯昌县| 扎兰屯市| 松原市| 洛隆县| 五大连池市| 额济纳旗| 上饶县| 古蔺县| 辉南县| 阿城市| 桦甸市| 赤城县| 西城区| 霍林郭勒市| 灌云县| 七台河市| 玛纳斯县| 鄂伦春自治旗| 余江县| 鞍山市| 广宁县|