欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)存儲方法及裝置的制造方法

文檔序號:8473010閱讀:264來源:國知局
一種數(shù)據(jù)存儲方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)存儲方法及裝置。
【背景技術(shù)】
[0002]搜索引擎在為用戶提供搜索服務(wù)時,主要是利用倒排索引和正排索引的映射結(jié)構(gòu)獲得目標(biāo)網(wǎng)頁的相關(guān)信息并提供給用戶。倒排索引是從關(guān)鍵詞映射到若干個排序后的網(wǎng)頁的索引結(jié)構(gòu),正排索引是從具體的網(wǎng)頁映射到該網(wǎng)頁的摘要信息的索引結(jié)構(gòu)。在搜索時,搜索引擎首先根據(jù)用戶輸入的搜索語句確定搜索關(guān)鍵詞,然后根據(jù)搜索關(guān)鍵詞和倒排索引檢索到相關(guān)的若干目標(biāo)網(wǎng)頁,并將這些目標(biāo)網(wǎng)頁排序之后,根據(jù)正排索引將網(wǎng)頁摘要和網(wǎng)頁的原始地址提供給用戶,用戶再根據(jù)網(wǎng)頁摘要來決定是否點擊該網(wǎng)頁的原始地址進(jìn)一步瀏覽該網(wǎng)頁。
[0003]在互聯(lián)網(wǎng)上網(wǎng)頁的更新速度非???,不斷有更新網(wǎng)頁生成(本文中將新生成的網(wǎng)頁、待刪除的網(wǎng)頁和有更新的網(wǎng)頁統(tǒng)稱為更新網(wǎng)頁)。為向用戶提供更實時、準(zhǔn)確的搜索服務(wù),搜索引擎會在后臺利用爬蟲軟件不斷搜尋更新網(wǎng)頁,并存儲更新網(wǎng)頁的摘要,同時對已有的倒排索引和正排索引進(jìn)行增量更新,即在原有的索引結(jié)構(gòu)上新創(chuàng)建基于從關(guān)鍵詞到該更新網(wǎng)頁的倒排索引,以及從該更新網(wǎng)頁到對應(yīng)的網(wǎng)頁摘要的正排索引。
[0004]正排索引在增量更新時,同時伴隨著存儲的網(wǎng)頁摘要的增量更新。網(wǎng)頁摘要由若干字段組成,例如作者、關(guān)鍵詞、標(biāo)題、創(chuàng)建時間、更新時間、網(wǎng)頁點擊量等字段。任一字段發(fā)生變化時,都需要重新存儲一條包含所有字段的完整網(wǎng)頁摘要,并重新存儲該網(wǎng)頁對應(yīng)的正排索引。通常在正排索引經(jīng)過若干次增量更新之后,由于新增的數(shù)據(jù)量較大,引起搜索效率降低,因此會進(jìn)行全量更新,即對正排索引的整個數(shù)據(jù)結(jié)構(gòu)進(jìn)行更新。
[0005]由此可見,現(xiàn)有的網(wǎng)頁摘要的存儲方式在對網(wǎng)頁摘要進(jìn)行增量更新時,需要對網(wǎng)頁摘要包含的所有字段進(jìn)行增量存儲,因此每次增量更新所存儲的數(shù)據(jù)量較大。加之由于網(wǎng)頁更新的頻率較快,因此在若干次增量更新后,導(dǎo)致不得不進(jìn)行網(wǎng)頁摘要和正排索引的全量更新,而全量更新所涉及的數(shù)據(jù)量更大,由此占用了大量的時間和設(shè)備資源。

【發(fā)明內(nèi)容】

[0006]本發(fā)明實施例提供了一種數(shù)據(jù)存儲方法及裝置,以解決現(xiàn)有技術(shù)的網(wǎng)頁摘要存儲方法在經(jīng)過若干次增量更新后,不得不進(jìn)行全量更新,導(dǎo)致占用大量的時間和設(shè)備資源的技術(shù)問題。
[0007]為了解決上述技術(shù)問題,本發(fā)明實施例公開了如下技術(shù)方案:
[0008]一方面,提供了一種數(shù)據(jù)存儲方法,所述數(shù)據(jù)包括網(wǎng)頁摘要和所述網(wǎng)頁摘要的索引信息,所述方法包括:
[0009]在網(wǎng)頁摘要更新時,確定所述網(wǎng)頁摘要中的更新字段,以及所述更新字段對應(yīng)的字段存儲區(qū);
[0010]在所述字段存儲區(qū)新增加更新存儲區(qū),在所述更新存儲區(qū)存儲所述更新字段在本次更新后的字段數(shù)據(jù)和所述字段數(shù)據(jù)的索引信息。
[0011]可選的,所述更新存儲區(qū)包括數(shù)據(jù)存儲區(qū)和對應(yīng)的索引存儲區(qū),在所述數(shù)據(jù)存儲區(qū)存儲所述本次更新后的字段數(shù)據(jù),在所述索引存儲區(qū)存儲所述字段數(shù)據(jù)的索引信息。
[0012]可選的,所述在所述索引存儲區(qū)存儲所述字段數(shù)據(jù)的索引信息包括:
[0013]在所述索引存儲區(qū)存儲所述字段數(shù)據(jù)對應(yīng)的網(wǎng)頁標(biāo)識,以及所述字段數(shù)據(jù)在所述數(shù)據(jù)存儲區(qū)中的存儲位置信息。
[0014]可選的,所述方法還包括:
[0015]新增加網(wǎng)頁索引表,在所述網(wǎng)頁索引表中存儲本次更新對應(yīng)的網(wǎng)頁標(biāo)識,以及所述網(wǎng)頁標(biāo)識在所述索引存儲區(qū)中的存儲位置信息。
[0016]可選的,所述在所述網(wǎng)頁索引表中存儲本次更新對應(yīng)的網(wǎng)頁標(biāo)識包括:
[0017]在所述網(wǎng)頁索引表中設(shè)置2N個索引子表,為每一個索引字表設(shè)置對應(yīng)的N位二進(jìn)制表值,N為預(yù)設(shè)大于等于I的整數(shù);
[0018]獲取所述網(wǎng)頁的標(biāo)識對應(yīng)的二進(jìn)制數(shù)值,根據(jù)所述二進(jìn)制數(shù)值的前N位將所述網(wǎng)頁標(biāo)識存儲到對應(yīng)表值的索引子表中。
[0019]可選的,所述方法還包括:
[0020]預(yù)設(shè)若干字段存儲區(qū),分別為每一個字段存儲區(qū)指定對應(yīng)的一個或多個字段。
[0021]可選的,所述分別為每一個字段區(qū)指定對應(yīng)的一個或多個字段包括:
[0022]統(tǒng)計網(wǎng)頁摘要包含的各字段的更新頻率,根據(jù)所述更新頻率分別為每一個字段存儲區(qū)指定對應(yīng)的一個或多個字段。
[0023]可選的,所述方法還包括:
[0024]判斷是否有待刪除的網(wǎng)頁,如果有,在新增加的更新存儲區(qū)中設(shè)置所述待刪除的網(wǎng)頁的有效時間;
[0025]當(dāng)達(dá)到所述有效時間后,將所述待刪除的網(wǎng)頁在各次更新時存儲的字段數(shù)據(jù)和對應(yīng)的索引信息標(biāo)記為無效。
[0026]可選的,所述方法還包括:
[0027]將歷史更新存儲區(qū)中與所述更新字段對應(yīng)的歷史字段數(shù)據(jù)和對應(yīng)的歷史索引信息標(biāo)記為無效。
[0028]可選的,所述方法還包括:
[0029]合并所述字段存儲區(qū)包含的若干更新存儲區(qū),在合并后的新更新存儲區(qū)中刪除標(biāo)記為無效的字段數(shù)據(jù)和對應(yīng)的索引信息。
[0030]可選的,所述合并所述字段存儲區(qū)包含的若干更新存儲區(qū)包括:
[0031]在所述字段存儲區(qū)中選擇若干待合并的更新存儲區(qū);
[0032]分別計算所述待合并的更新存儲區(qū)包含的有效字段數(shù)據(jù)的數(shù)量之和;
[0033]如果所述數(shù)量之和小于第一預(yù)設(shè)閾值,則合并所述待合并的更新存儲區(qū)。
[0034]可選的,所述從所述字段存儲區(qū)中選擇若干待合并的更新存儲區(qū)包括:
[0035]分別計算每一個更新存儲區(qū)包含的有效字段數(shù)據(jù)數(shù)量;
[0036]從所述字段存儲區(qū)中選擇所述有效字段數(shù)據(jù)數(shù)量最少的若干更新存儲區(qū)作為所述待合并的更新存儲區(qū)。
[0037]可選的,所述從所述字段存儲區(qū)中選擇若干待合并的更新存儲區(qū)包括:
[0038]分別計算所述更新存儲區(qū)包含的有效字段數(shù)據(jù)數(shù)量與所述更新存儲區(qū)包含的總字段數(shù)據(jù)數(shù)量的比值;
[0039]在所述字段存儲區(qū)中選擇所述比值最低的若干更新存儲區(qū)作為所述待合并的更新存儲區(qū)。
[0040]另一方面,本發(fā)明提供了一種數(shù)據(jù)存儲裝置,所述數(shù)據(jù)包括網(wǎng)頁摘要和所述網(wǎng)頁摘要的索引信息,所述裝置包括:
[0041]確定單元,用于在網(wǎng)頁摘要更新時,確定所述網(wǎng)頁摘要中的更新字段,以及所述更新字段對應(yīng)的字段存儲區(qū);
[0042]第一存儲單元,用于在所述字段存儲區(qū)新增加更新存儲區(qū),在所述更新存儲區(qū)存儲所述更新字段在本次更新后的字段數(shù)據(jù)和所述字段數(shù)據(jù)的索引信息。
[0043]可選的,所述更新存儲區(qū)包括數(shù)據(jù)存儲區(qū)和對應(yīng)的索引存儲區(qū);
[0044]所述第一存儲單元包括:數(shù)據(jù)存儲子單元和索引存儲子單元;
[0045]所述數(shù)據(jù)存儲子單元,具體用于在所述數(shù)據(jù)存儲區(qū)存儲所述本次更新后的字段數(shù)據(jù);
[0046]所述索引存儲子單元,用于在所述索引存儲區(qū)存儲所述字段數(shù)據(jù)的索引信息。
[0047]可選的,所述索引存儲單元用于在所述索引存儲區(qū)存儲所述字段數(shù)據(jù)對應(yīng)的網(wǎng)頁標(biāo)識,以及所述字段數(shù)據(jù)在所述數(shù)據(jù)存儲區(qū)中的存儲位置信息。
[0048]可選的,所述裝置還包括:
[0049]第二存儲單元,用于新增加網(wǎng)頁索引表,并在所述網(wǎng)頁索引表中存儲本次更新對應(yīng)的網(wǎng)頁標(biāo)識,以及所述網(wǎng)頁標(biāo)識在所述索引存儲區(qū)中的存儲位置信息。
[0050]可選的,所述第二存儲單元包括:
[0051]設(shè)置子單元,用于在所述網(wǎng)頁索引表中設(shè)置2N個索引子表,為每一個索引字表設(shè)置對應(yīng)的N位二進(jìn)制表值,N為預(yù)設(shè)大于等于I的整數(shù);
[0052]網(wǎng)頁存儲子單元,用于獲取所述網(wǎng)頁的標(biāo)識對應(yīng)的二進(jìn)制數(shù)值,根據(jù)所述二進(jìn)制數(shù)值的前N位將所述網(wǎng)頁標(biāo)識存儲到對應(yīng)表值的索引子表中。
[0053]可選的,所述裝置還包括:
[0054]設(shè)置單元,用于預(yù)設(shè)若干字段存儲區(qū),分別為每一個字段存儲區(qū)指定對應(yīng)的一個或多個字段。
[0055]可選的,所述設(shè)置單元具體用于:
[0056]統(tǒng)計網(wǎng)頁摘要包含的各字段的更新頻率,根據(jù)所述更新頻率分別為每一個字段存儲區(qū)指定對應(yīng)的一個或多個字段。
[0057]可選的,所述裝置還包括:
[0058]判斷設(shè)置單元,用于判斷是否有待刪除的網(wǎng)頁,如果有,在新增加的更新存儲區(qū)中設(shè)置所述待刪除的網(wǎng)頁的有效時間;
[0
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
庆城县| 包头市| 焉耆| 荥阳市| 石门县| 滦南县| 东台市| 建昌县| 双流县| 绥宁县| 勐海县| 门头沟区| 博白县| 宜州市| 兴义市| 梁河县| 巴青县| 从江县| 马龙县| 惠安县| 博湖县| 深州市| 长岭县| 吉安县| 博爱县| 灵寿县| 台东市| 霍山县| 崇仁县| 远安县| 青神县| 祁阳县| 德钦县| 瑞昌市| 镇江市| 广德县| 乐山市| 上杭县| 南通市| 喀喇| 黎川县|