欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于數(shù)據(jù)缺失標(biāo)記的信息檢索系統(tǒng)及方法

文檔序號(hào):6523531閱讀:267來(lái)源:國(guó)知局
基于數(shù)據(jù)缺失標(biāo)記的信息檢索系統(tǒng)及方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種基于數(shù)據(jù)缺失標(biāo)記的信息檢索系統(tǒng)及方法。根據(jù)本發(fā)明一個(gè)實(shí)施例的信息檢索系統(tǒng),包括:數(shù)據(jù)庫(kù),包含數(shù)據(jù)被區(qū)分為多個(gè)數(shù)據(jù)塊而存儲(chǔ)的數(shù)據(jù)存儲(chǔ)區(qū)域、以及存儲(chǔ)各數(shù)據(jù)塊所對(duì)應(yīng)的關(guān)鍵詞缺失信息的元數(shù)據(jù)區(qū)域;檢索器,從用戶處接收包含檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間的關(guān)鍵詞檢索請(qǐng)求,并利用所請(qǐng)求的關(guān)鍵詞而檢索存儲(chǔ)于所述數(shù)據(jù)庫(kù)中的數(shù)據(jù);關(guān)鍵詞管理器,從所述檢索器接收基于關(guān)鍵詞檢索結(jié)果的關(guān)鍵詞缺失信息,并在所述數(shù)據(jù)庫(kù)中記錄所述關(guān)鍵詞缺失信息。
【專(zhuān)利說(shuō)明】基于數(shù)據(jù)缺失標(biāo)記的信息檢索系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實(shí)施例涉及一種大容量數(shù)據(jù)的高效的檢索技術(shù)。

【背景技術(shù)】
[0002]隨著電子商務(wù)、SNS(SocialNetworking Services,社會(huì)性網(wǎng)絡(luò)服務(wù))、VoIP(Voiceover Internet Protocol,互聯(lián)網(wǎng)語(yǔ)音傳輸協(xié)議)服務(wù)等網(wǎng)絡(luò)服務(wù)系統(tǒng)的普遍化,開(kāi)發(fā)出了用于有效地運(yùn)用這些服務(wù)系統(tǒng)的多種模塊。對(duì)于服務(wù)系統(tǒng)而言,通常要對(duì)用戶的接入記錄、錯(cuò)誤發(fā)生記錄等日志數(shù)據(jù)或者記錄有系統(tǒng)內(nèi)發(fā)生的事件的事件數(shù)據(jù)等進(jìn)行儲(chǔ)存并管理。這種數(shù)據(jù)可被用來(lái)掌握服務(wù)系統(tǒng)或系統(tǒng)內(nèi)服務(wù)組件等的狀態(tài)并應(yīng)對(duì)發(fā)生的問(wèn)題,或者可以用來(lái)事先預(yù)測(cè)問(wèn)題的發(fā)生。
[0003]隨著服務(wù)系統(tǒng)趨于復(fù)雜化、大型化且使用該系統(tǒng)的用戶的數(shù)量增加,服務(wù)系統(tǒng)中記錄的數(shù)據(jù)的容量也將增加。因此為了有效地加以利用,需要從大容量數(shù)據(jù)中迅速而高效地搜索出所要的關(guān)鍵詞。為此,現(xiàn)有技術(shù)中的數(shù)據(jù)管理系統(tǒng)利用了針對(duì)數(shù)據(jù)庫(kù)中經(jīng)常被檢索的特定行(row)或經(jīng)常被檢索的數(shù)據(jù)塊生成索引(index)的方式。然而事先預(yù)測(cè)用戶會(huì)經(jīng)常檢索哪些數(shù)據(jù)是一件非常困難的事,而且為了索引需要另外消耗硬件資源,因此這種方法尤其在面對(duì)大容量數(shù)據(jù)時(shí)存在效率低下的問(wèn)題。
[0004]而且,最近為了管理大容量數(shù)據(jù),趨于利用非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)等非結(jié)構(gòu)化數(shù)據(jù)庫(kù)的,然而對(duì)于這種非結(jié)構(gòu)化數(shù)據(jù)庫(kù)而言,由于不支持對(duì)特定數(shù)據(jù)的自動(dòng)索引,因此為了索引,不得不直接運(yùn)用索引算法。


【發(fā)明內(nèi)容】

[0005]本發(fā)明實(shí)施例的目的在于提供一種用于有效地檢索日志數(shù)據(jù)等大容量數(shù)據(jù)的方案。
[0006]根據(jù)本發(fā)明一個(gè)實(shí)施例的信息檢索系統(tǒng)包括:數(shù)據(jù)庫(kù),包含數(shù)據(jù)被區(qū)分為多個(gè)數(shù)據(jù)塊而存儲(chǔ)的數(shù)據(jù)存儲(chǔ)區(qū)域、以及存儲(chǔ)各數(shù)據(jù)塊所對(duì)應(yīng)的關(guān)鍵詞缺失信息的元數(shù)據(jù)區(qū)域;檢索器,從用戶處接收包含檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間的關(guān)鍵詞檢索請(qǐng)求,并利用所請(qǐng)求的關(guān)鍵詞而檢索存儲(chǔ)于所述數(shù)據(jù)庫(kù)中的數(shù)據(jù);關(guān)鍵詞管理器,從所述檢索器接收基于關(guān)鍵詞檢索結(jié)果的關(guān)鍵詞缺失信息,并在所述數(shù)據(jù)庫(kù)中記錄所述關(guān)鍵詞缺失信息。
[0007]所述檢索器可從記錄于所述數(shù)據(jù)庫(kù)中的所述關(guān)鍵詞缺失信息中判斷出接收的檢索對(duì)象區(qū)間中是否存在關(guān)鍵詞缺失區(qū)間,且如果存在關(guān)鍵詞缺失區(qū)間,則可以在檢索對(duì)象區(qū)間當(dāng)中除了所述關(guān)鍵詞缺失區(qū)間之外的其余區(qū)間內(nèi)利用檢索對(duì)象關(guān)鍵詞而對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行檢索。
[0008]所述關(guān)鍵詞管理器可接收從所述檢索器檢索到的關(guān)鍵詞的檢索區(qū)間、以及對(duì)應(yīng)檢索區(qū)間內(nèi)的關(guān)鍵詞缺失信息,并可以將檢索到的所述關(guān)鍵詞缺失信息標(biāo)記在對(duì)應(yīng)于多個(gè)數(shù)據(jù)塊當(dāng)中缺失關(guān)鍵詞的塊的元數(shù)據(jù)區(qū)域。
[0009]所述關(guān)鍵詞管理器可用于分別管理:關(guān)鍵詞歷史表,存儲(chǔ)在設(shè)定的期間內(nèi)從所述檢索器接收的關(guān)鍵詞;主過(guò)濾器,將存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞的哈希值進(jìn)行存儲(chǔ);沖突關(guān)鍵詞歷史表,在從所述檢索器接收的關(guān)鍵詞中,將與已存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞進(jìn)行存儲(chǔ)。
[0010]所述主過(guò)濾器可以是計(jì)數(shù)布隆過(guò)濾器(Counting Bloom Filter)。
[0011]所述關(guān)鍵詞管理器可通過(guò)從所述檢索器接收的關(guān)鍵詞計(jì)算設(shè)定的個(gè)數(shù)的互不相同的哈希值,且在所述主過(guò)濾器的各單元(cell)中對(duì)應(yīng)于計(jì)算出的哈希值的單元的值均大于O時(shí),可將接收到的關(guān)鍵詞存儲(chǔ)于所述沖突關(guān)鍵詞歷史表。
[0012]所述關(guān)鍵詞管理器在對(duì)應(yīng)于計(jì)算出的哈希值的所述主過(guò)濾器的單元值中至少有一個(gè)為O時(shí),可將對(duì)應(yīng)于哈希值的所述主過(guò)濾器的單元值分別增加1,并將接收的關(guān)鍵詞存儲(chǔ)于所述關(guān)鍵詞歷史表。
[0013]所述關(guān)鍵詞管理器可將存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞缺失信息標(biāo)記于所述元數(shù)據(jù)區(qū)域。
[0014]所述關(guān)鍵詞管理器在存儲(chǔ)于所述關(guān)鍵詞歷史表中的特定關(guān)鍵詞在已設(shè)定的期間內(nèi)未被使用的情況下,可將對(duì)應(yīng)于所述特定關(guān)鍵詞的哈希值的所述主過(guò)濾器的單元值減小1,并將所述特定關(guān)鍵詞從所述關(guān)鍵詞歷史表中刪除。
[0015]所述關(guān)鍵詞管理器在存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞被刪除時(shí),可將存儲(chǔ)于所述沖突關(guān)鍵詞歷史表的關(guān)鍵詞當(dāng)中不會(huì)再與已存儲(chǔ)于所述主過(guò)濾器的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞刪除,并將從所述沖突關(guān)鍵詞歷史表中被刪除的關(guān)鍵詞登記于所述關(guān)鍵詞歷史表以及所述主過(guò)濾器。
[0016]所述檢索器可利用所述主過(guò)濾器而判斷是否標(biāo)記檢索對(duì)象關(guān)鍵詞缺失信息,且在判斷出檢索對(duì)象關(guān)鍵詞缺失信息已標(biāo)記于所述數(shù)據(jù)庫(kù)時(shí),可通過(guò)檢索所述數(shù)據(jù)庫(kù)的元數(shù)據(jù)區(qū)域而獲取檢索對(duì)象關(guān)鍵詞缺失區(qū)間的信息。
[0017]另外,根據(jù)本發(fā)明一個(gè)實(shí)施例的信息檢索方法,包括如下步驟:在檢索器中,從用戶處接收包含檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間的關(guān)鍵詞檢索請(qǐng)求;在所述檢索器中,利用所請(qǐng)求的關(guān)鍵詞而檢索存儲(chǔ)于數(shù)據(jù)庫(kù)中的數(shù)據(jù);在關(guān)鍵詞管理器中,將基于關(guān)鍵詞檢索結(jié)果的關(guān)鍵詞缺失信息記錄于所述數(shù)據(jù)庫(kù)。
[0018]在所述信息檢索方法中,在執(zhí)行所述的檢索數(shù)據(jù)的步驟之前,還可以包括如下步驟:在所述檢索器中,從記錄于所述數(shù)據(jù)庫(kù)的關(guān)鍵詞缺失信息中判斷接收的檢索對(duì)象區(qū)間中是否存在關(guān)鍵詞缺失區(qū)間,而且,在所述的檢索數(shù)據(jù)的步驟中,如果進(jìn)行所述判斷的結(jié)果為存在關(guān)鍵詞缺失區(qū)間,則可以在所述檢索對(duì)象區(qū)間當(dāng)中除了關(guān)鍵詞缺失區(qū)間之外的其余區(qū)間內(nèi)利用所述檢索對(duì)象關(guān)鍵詞而對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行檢索。
[0019]在所述的記錄關(guān)鍵詞缺失信息的步驟中,還可以包括如下步驟:從所述檢索器接收關(guān)鍵詞檢索區(qū)間以及檢索結(jié)果;判斷接收的關(guān)鍵詞是否與已存儲(chǔ)于主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突;根據(jù)所述判斷的結(jié)果而將關(guān)鍵詞存儲(chǔ)于關(guān)鍵詞歷史表或沖突關(guān)鍵詞歷史表中。
[0020]所述主過(guò)濾器可以是計(jì)數(shù)布隆過(guò)濾器(Counting Bloom Filter)。
[0021]在所述的判斷是否發(fā)生沖突的步驟中,可通過(guò)從所述檢索器接收到的關(guān)鍵詞計(jì)算設(shè)定個(gè)數(shù)的互不相同的哈希值,并可以根據(jù)所述主過(guò)濾器的各單元中對(duì)應(yīng)于計(jì)算出的哈希值的單元的值是否均為大于O的值而判斷所述關(guān)鍵詞是否與存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突。
[0022]在所述的存儲(chǔ)關(guān)鍵詞的步驟中,如果判斷是否發(fā)生所述沖突的結(jié)果為對(duì)應(yīng)于計(jì)算出的哈希值的所述主過(guò)濾器的單元值中至少有一個(gè)為0,則可以將對(duì)應(yīng)于所述哈希值的所述主過(guò)濾器的單元值分別增加1,并將接收到的關(guān)鍵詞存儲(chǔ)于所述關(guān)鍵詞歷史表。
[0023]在所述的儲(chǔ)存關(guān)鍵詞的步驟中,如果判斷是否發(fā)生所述沖突的結(jié)果為對(duì)應(yīng)于計(jì)算出的哈希值的所述主過(guò)濾器的單元值均大于0,則可以將接收到的關(guān)鍵詞存儲(chǔ)于所述沖突關(guān)鍵詞歷史表。
[0024]所述信息檢索方法在執(zhí)行完所述的記錄關(guān)鍵詞缺失信息的步驟之后,還可以包括如下步驟:如果存儲(chǔ)于所述關(guān)鍵詞歷史表中的特定關(guān)鍵詞在已設(shè)定的期間內(nèi)未被使用,便將對(duì)應(yīng)于所述特定關(guān)鍵詞的哈希值的所述主過(guò)濾器的單元值減小1,并將所述特定關(guān)鍵詞從所述關(guān)鍵詞歷史表中刪除。
[0025]在所述的將特定關(guān)鍵詞從關(guān)鍵詞歷史表中刪除的步驟中,可將存儲(chǔ)于所述沖突關(guān)鍵詞歷史表的關(guān)鍵詞中不再與已存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞予以刪除,并將從所述沖突關(guān)鍵詞歷史表中刪除的關(guān)鍵詞登記于所述關(guān)鍵詞歷史表以及主過(guò)濾器。
[0026]根據(jù)本發(fā)明的實(shí)施例,利用已執(zhí)行的檢索結(jié)果而對(duì)數(shù)據(jù)庫(kù)內(nèi)的特定關(guān)鍵詞缺失區(qū)間進(jìn)行標(biāo)記,從而可以使檢索關(guān)鍵詞時(shí)的執(zhí)行檢索的區(qū)間最小化,由此具有可提聞檢索效率的優(yōu)點(diǎn)。
[0027]并且,在執(zhí)行所述數(shù)據(jù)缺失區(qū)間標(biāo)記時(shí),對(duì)于與已經(jīng)標(biāo)記的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞進(jìn)行單獨(dú)的管理,從而可以在檢索缺失區(qū)間時(shí)事先防止正誤的發(fā)生。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0028]圖1為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的信息檢索系統(tǒng)100的模塊圖。
[0029]圖2為表示根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)庫(kù)102的詳細(xì)構(gòu)成的模塊圖。
[0030]圖3為表示根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索器104的詳細(xì)構(gòu)成的模塊圖。
[0031]圖4為表示根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞管理器106的詳細(xì)構(gòu)成的模塊圖。
[0032]圖5為用于說(shuō)明在根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞管理器106中添加新的關(guān)鍵詞的過(guò)程500的順序圖。
[0033]圖6為舉例表示根據(jù)本發(fā)明一個(gè)實(shí)施例的主過(guò)濾器的圖。
[0034]圖7為舉例表示在圖6所示主過(guò)濾器中添加了新的關(guān)鍵詞的狀態(tài)的圖。
[0035]圖8為用于說(shuō)明在根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞管理器106中刪除關(guān)鍵詞的過(guò)程800的順序圖。
[0036]圖9為舉例表示從圖7所示主過(guò)濾器中刪除了特定關(guān)鍵詞的狀態(tài)的圖。
[0037]圖10為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞檢索及元數(shù)據(jù)更新過(guò)程1000的順序圖。
[0038]圖11為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的利用了關(guān)鍵詞缺失信息的關(guān)鍵詞檢索過(guò)程1100的順序圖。
[0039]符號(hào)說(shuō)明:
[0040]100:信息檢索系統(tǒng)102:數(shù)據(jù)庫(kù)
[0041]104:檢索器106:關(guān)鍵詞管理器
[0042]200:數(shù)據(jù)存儲(chǔ)區(qū)域202:元數(shù)據(jù)區(qū)域
[0043]300:關(guān)鍵詞檢索單元302:元數(shù)據(jù)檢索單元
[0044]304:關(guān)鍵詞信息登記及查詢單元400:關(guān)鍵詞信息管理單元
[0045]402:元數(shù)據(jù)管理單元

【具體實(shí)施方式】
[0046]以下,參照附圖對(duì)本發(fā)明的具體實(shí)施形態(tài)進(jìn)行說(shuō)明。然而這僅僅是示例,本發(fā)明并不局限于此。
[0047]在對(duì)本發(fā)明進(jìn)行說(shuō)明時(shí),如果認(rèn)為對(duì)有關(guān)本發(fā)明的公知技術(shù)的具體說(shuō)明有可能對(duì)本發(fā)明的主旨造成不必要的混亂,則省略其詳細(xì)說(shuō)明。而且,后述的術(shù)語(yǔ)均為考慮本發(fā)明中的功能而定義的,可能因使用者、運(yùn)用者的意圖或習(xí)慣等而不同。因此要以整個(gè)說(shuō)明書(shū)的內(nèi)容為基礎(chǔ)對(duì)其進(jìn)行定義。
[0048]本發(fā)明的技術(shù)思想由權(quán)利要求書(shū)確定,以下的實(shí)施例只是用于將本發(fā)明的技術(shù)思想有效地說(shuō)明給本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識(shí)的人員的一種方式。
[0049]圖1為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的信息檢索系統(tǒng)100的模塊圖。如圖所示,根據(jù)本發(fā)明一個(gè)實(shí)施例的信息檢索系統(tǒng)100包括數(shù)據(jù)庫(kù)102、檢索器104、以及關(guān)鍵詞管理器 106。
[0050]數(shù)據(jù)庫(kù)102存儲(chǔ)作為檢索對(duì)象的數(shù)據(jù)。在本發(fā)明的實(shí)施例中,存儲(chǔ)于數(shù)據(jù)庫(kù)102中的所述數(shù)據(jù)例如可以是在互聯(lián)網(wǎng)上提供VoIP (Voice over Internet Protocol,互聯(lián)網(wǎng)語(yǔ)音傳輸協(xié)議)等服務(wù)的服務(wù)系統(tǒng)運(yùn)行時(shí)產(chǎn)生的接入記錄、出錯(cuò)詳情等日志(log)信息或事件信息。然而,本發(fā)明的實(shí)施例并不局限于特定類(lèi)型的數(shù)據(jù),須知本發(fā)明適用于任何類(lèi)型的數(shù)據(jù)。數(shù)據(jù)庫(kù)102可以由非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)等非結(jié)構(gòu)化數(shù)據(jù)庫(kù)構(gòu)成,然而也可以與之不同而由關(guān)系型數(shù)據(jù)庫(kù)(RDBMS)等構(gòu)成。
[0051]檢索器104從用戶處接收關(guān)鍵詞檢索請(qǐng)求,并利用包含于所述關(guān)鍵詞檢索請(qǐng)求中的檢索對(duì)象關(guān)鍵詞而檢索存儲(chǔ)于數(shù)據(jù)庫(kù)102中的數(shù)據(jù)。所述關(guān)鍵詞例如可以是包含于存儲(chǔ)在數(shù)據(jù)庫(kù)102的日志消息或事件消息中的重要的消息文本、作為主要監(jiān)控對(duì)象事先登記的用戶賬戶(ID)等。
[0052]并且,所述關(guān)鍵詞檢索請(qǐng)求在所述檢索對(duì)象關(guān)鍵詞之外還可以一并包括用于檢索出檢索對(duì)象關(guān)鍵詞的檢索對(duì)象區(qū)間。例如,所述用戶可以對(duì)最近七天之內(nèi)存儲(chǔ)到數(shù)據(jù)庫(kù)102的數(shù)據(jù)中是否包含特定出錯(cuò)消息(例如“DBError”等消息)、或是否有特定人的接入記錄(例如ID為“ABC”的用戶的連接登錄)的情況提出檢索請(qǐng)求。
[0053]關(guān)鍵詞管理器106根據(jù)檢索器104中執(zhí)行的關(guān)鍵詞檢索結(jié)果而從檢索器104接收關(guān)鍵詞缺失信息,并在數(shù)據(jù)庫(kù)102中記錄所述關(guān)鍵詞缺失信息。例如,根據(jù)用戶的檢索請(qǐng)求進(jìn)行檢索的結(jié)果,如果“DBError”消息只在作為檢索期間的最近七天中的第一天出現(xiàn),則檢索器104便將告知其余六天內(nèi)沒(méi)有出現(xiàn)“DBError”消息的消息(關(guān)鍵詞缺失信息)傳送給關(guān)鍵詞管理器106,而關(guān)鍵詞管理器106可將接收的關(guān)鍵詞缺失信息記錄于數(shù)據(jù)庫(kù)102中。
[0054]在本發(fā)明的實(shí)施例中,與所述關(guān)鍵詞缺失信息相關(guān)的消息可以構(gòu)成為多種形態(tài)。例如,檢索器104既可以將基于關(guān)鍵詞檢索結(jié)果的檢索結(jié)果以及檢索區(qū)間原樣地傳送給關(guān)鍵詞管理器106,也可以從所述檢索結(jié)果以及檢索區(qū)間計(jì)算出關(guān)鍵詞缺失區(qū)間并傳送給關(guān)鍵詞管理器106。
[0055]如果基于檢索的關(guān)鍵詞的檢索結(jié)果的缺失信息被記錄于數(shù)據(jù)庫(kù)102中,則檢索器104在之后遇到對(duì)同一關(guān)鍵詞的檢索請(qǐng)求時(shí),可參照記錄于數(shù)據(jù)庫(kù)102中的關(guān)鍵詞缺失信息而將記錄有數(shù)據(jù)缺失信息的區(qū)間除外之后執(zhí)行對(duì)請(qǐng)求的關(guān)鍵詞的檢索。例如,當(dāng)從用戶處再次接收到針對(duì)“DBError”關(guān)鍵詞的檢索請(qǐng)求時(shí),檢索器104利用記錄于數(shù)據(jù)庫(kù)102中的關(guān)鍵詞缺失信息而判斷接收的檢索對(duì)象區(qū)間內(nèi)是否存在關(guān)鍵詞缺失區(qū)間,且如果存在關(guān)鍵詞缺失區(qū)間,便在除了該區(qū)間之外的其余區(qū)間內(nèi)進(jìn)行對(duì)檢索對(duì)象關(guān)鍵詞的檢索。由此,根據(jù)本發(fā)明的實(shí)施例,尤其對(duì)于經(jīng)常檢索的關(guān)鍵詞而言,檢索重復(fù)得越多,越能提高數(shù)據(jù)檢索的速度。
[0056]圖2為表示根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)庫(kù)102的詳細(xì)構(gòu)成的模塊圖。如圖所示,根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)庫(kù)102構(gòu)成為包括數(shù)據(jù)存儲(chǔ)區(qū)域200以及元數(shù)據(jù)區(qū)域202。
[0057]數(shù)據(jù)存儲(chǔ)區(qū)域200為用于存儲(chǔ)作為檢索對(duì)象的數(shù)據(jù)的區(qū)域。數(shù)據(jù)存儲(chǔ)區(qū)域200可被構(gòu)成為將所述數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)塊而存儲(chǔ)。例如,可將數(shù)據(jù)存儲(chǔ)區(qū)域200構(gòu)成為根據(jù)數(shù)據(jù)的產(chǎn)生時(shí)間點(diǎn)而按照日或周等時(shí)間單位將其劃分,并將劃分的數(shù)據(jù)分別存儲(chǔ)于不同的數(shù)據(jù)塊。
[0058]元數(shù)據(jù)區(qū)域202為用于將存儲(chǔ)于數(shù)據(jù)存儲(chǔ)區(qū)域200中的數(shù)據(jù)的關(guān)鍵詞所對(duì)應(yīng)的缺失信息進(jìn)行存儲(chǔ)的區(qū)域。如前所述,數(shù)據(jù)存儲(chǔ)區(qū)域200可將數(shù)據(jù)劃分為多個(gè)塊而存儲(chǔ),且在此情況下,元數(shù)據(jù)區(qū)域202可按照劃分的各數(shù)據(jù)塊分別存儲(chǔ)關(guān)鍵詞缺失信息。即,如果參照元數(shù)據(jù)區(qū)域202,則可以輕易地識(shí)別出沒(méi)有存儲(chǔ)待檢索的數(shù)據(jù)的數(shù)據(jù)塊。在一個(gè)實(shí)施例中,元數(shù)據(jù)區(qū)域202可對(duì)各數(shù)據(jù)塊分別應(yīng)用布隆過(guò)濾器(Bloom Filter)而存儲(chǔ)各數(shù)據(jù)塊所對(duì)應(yīng)的關(guān)鍵詞缺失信息,然而本發(fā)明并不局限于用于存儲(chǔ)關(guān)鍵詞缺失信息的特定數(shù)據(jù)結(jié)構(gòu)。
[0059]圖3為表示根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索器104的詳細(xì)構(gòu)成的模塊圖。如圖所示,根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索器104包括關(guān)鍵詞檢索單元300、元數(shù)據(jù)檢索單元302、關(guān)鍵詞信息登記及查詢單元304。
[0060]關(guān)鍵詞檢索單元300從用戶處接收關(guān)鍵詞檢索請(qǐng)求,并根據(jù)所述關(guān)鍵詞檢索請(qǐng)求而利用一個(gè)以上的關(guān)鍵詞來(lái)執(zhí)行針對(duì)數(shù)據(jù)庫(kù)102的數(shù)據(jù)存儲(chǔ)區(qū)域200的檢索,并將檢索結(jié)果返回給所述用戶。
[0061]元數(shù)據(jù)檢索單元302對(duì)數(shù)據(jù)庫(kù)102的元數(shù)據(jù)區(qū)域202進(jìn)行檢索而判斷所請(qǐng)求的關(guān)鍵詞的檢索對(duì)象區(qū)間內(nèi)是否有缺失對(duì)應(yīng)關(guān)鍵詞的區(qū)間(關(guān)鍵詞缺失區(qū)間)存在。如果對(duì)元數(shù)據(jù)區(qū)域202進(jìn)行檢索的結(jié)果發(fā)現(xiàn)檢索對(duì)象區(qū)間當(dāng)中存在對(duì)應(yīng)的關(guān)鍵詞缺失區(qū)間,則關(guān)鍵詞檢索單元300只對(duì)除了所述缺失區(qū)間之外的其余區(qū)間執(zhí)行針對(duì)于對(duì)應(yīng)關(guān)鍵詞的檢索。
[0062]關(guān)鍵詞信息登記及查詢單元304將包含關(guān)鍵詞檢索單元300中執(zhí)行的檢索結(jié)果的關(guān)鍵詞信息登記于后述的關(guān)鍵詞管理器106中。并且,關(guān)鍵詞信息登記及查詢單元304在接收到關(guān)鍵詞檢索請(qǐng)求時(shí),向關(guān)鍵詞管理器106詢問(wèn)所接收的檢索對(duì)象關(guān)鍵詞的信息,并接收相應(yīng)的結(jié)果。與關(guān)鍵詞信息的登記及詢問(wèn)(查詢)相關(guān)的詳細(xì)構(gòu)成將在后面敘述。
[0063]圖4為表示根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞管理器104的詳細(xì)構(gòu)成的模塊圖。如圖所示,根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞管理器106包括關(guān)鍵詞信息管理單元400以及元數(shù)據(jù)管理單元402。
[0064]關(guān)鍵詞信息管理單元400存儲(chǔ)從關(guān)鍵詞信息登記及查詢單元304接收的關(guān)鍵詞信息。而且,關(guān)鍵詞信息管理單元400在從關(guān)鍵詞信息登記及查詢單元304接收到對(duì)關(guān)鍵詞信息的請(qǐng)求時(shí),提供對(duì)應(yīng)于有關(guān)請(qǐng)求的關(guān)鍵詞信息。并且,元數(shù)據(jù)管理單元402將從關(guān)鍵詞信息管理單元400接收的各關(guān)鍵詞的缺失信息標(biāo)記(Marking)于數(shù)據(jù)庫(kù)102的元數(shù)據(jù)區(qū)域202。
[0065]在本發(fā)明的實(shí)施例中,關(guān)鍵詞信息是指對(duì)于當(dāng)前正在用于數(shù)據(jù)庫(kù)102的關(guān)鍵詞的一種歷史信息。即,對(duì)于日志數(shù)據(jù)等而言,由于具有最新數(shù)據(jù)比以前的數(shù)據(jù)查詢得更多、更頻繁的特點(diǎn),因此通過(guò)存儲(chǔ)當(dāng)前時(shí)間點(diǎn)經(jīng)常被檢索的關(guān)鍵詞的信息而可以實(shí)現(xiàn)更為高效的檢索。
[0066]在一個(gè)實(shí)施例中,關(guān)鍵詞信息管理單元400為了管理關(guān)鍵詞信息而可以利用包括關(guān)鍵詞歷史表、主過(guò)濾器、以及沖突關(guān)鍵詞歷史表的三個(gè)數(shù)據(jù)結(jié)構(gòu)。
[0067]首先,關(guān)鍵詞歷史表為用于存儲(chǔ)在預(yù)定期間內(nèi)通過(guò)檢索器104接收的關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu)。例如,可以將關(guān)鍵詞歷史表構(gòu)成為存儲(chǔ)最近七天內(nèi)通過(guò)檢索器104接收的關(guān)鍵詞。在不同的實(shí)施例中,所述關(guān)鍵詞歷史表不僅可以包括最近檢索的關(guān)鍵詞,還可以一并包括過(guò)去的檢索關(guān)鍵詞。例如,關(guān)鍵詞歷史表可包括多個(gè)塊,其中可以在第一個(gè)塊中存儲(chǔ)最近期間(例如最近七天)的檢索關(guān)鍵詞,在第二個(gè)塊中存儲(chǔ)其之前期間(8?14日)的檢索關(guān)鍵詞,而在第三個(gè)塊中存儲(chǔ)其之前期間(15?21日)的檢索關(guān)鍵詞。在此情況下,存儲(chǔ)于第一個(gè)塊中的關(guān)鍵詞可以認(rèn)為是當(dāng)前頻繁地被檢索出的關(guān)鍵詞。
[0068]主過(guò)濾器為用于將存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞的哈希值進(jìn)行存儲(chǔ)的過(guò)濾器。所述主過(guò)濾器例如可以利用計(jì)數(shù)布隆過(guò)濾器(Counting Bloom Filter)實(shí)現(xiàn)。如前所述,如果關(guān)鍵詞歷史表連過(guò)去檢索過(guò)的關(guān)鍵詞也一并包括,則主過(guò)濾器可以只存儲(chǔ)其中的在最近期間內(nèi)檢索到的關(guān)鍵詞。如果存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞在預(yù)定期間內(nèi)未被使用,則可以將對(duì)應(yīng)關(guān)鍵詞從所述主過(guò)濾器刪除。
[0069]沖突關(guān)鍵詞歷史表為用于存儲(chǔ)從檢索器104接收到的關(guān)鍵詞當(dāng)中與已存儲(chǔ)于主過(guò)濾器的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu)。具體而言,關(guān)鍵詞信息管理單元400在從檢索器104接收到關(guān)鍵詞時(shí),首先判斷是否可以將對(duì)應(yīng)關(guān)鍵詞存儲(chǔ)于主過(guò)濾器,且在可以存儲(chǔ)于主過(guò)濾器時(shí)將對(duì)應(yīng)關(guān)鍵詞存儲(chǔ)于關(guān)鍵詞歷史表,而在不能存儲(chǔ)時(shí)存儲(chǔ)于沖突關(guān)鍵詞歷史表。
[0070]以下參照?qǐng)D5?圖9而對(duì)利用所述關(guān)鍵詞歷史表、主過(guò)濾器、以及沖突關(guān)鍵詞歷史表的關(guān)鍵詞的添加以及刪除過(guò)程進(jìn)行說(shuō)明。
[0071]圖5為用于說(shuō)明在根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞管理器106中添加新的關(guān)鍵詞的過(guò)程500的順序圖。首先,如果從檢索器104新收到之前沒(méi)有使用的關(guān)鍵詞(502),則關(guān)鍵詞管理器106的關(guān)鍵詞信息管理單元400將預(yù)先設(shè)定的個(gè)數(shù)的互不相同的哈希函數(shù)應(yīng)用于所接收的關(guān)鍵詞而計(jì)算出多個(gè)哈希值(504),并根據(jù)對(duì)應(yīng)于計(jì)算出的各哈希值的主過(guò)濾器的各單元值而確定是否可以將接收的所述關(guān)鍵詞添加到主過(guò)濾器(508)。
[0072]例如,假定通過(guò)檢索器104新收到之前未曾存儲(chǔ)于關(guān)鍵詞信息管理單元400的新的關(guān)鍵詞“abc”。關(guān)鍵詞信息管理單元400對(duì)接收到的關(guān)鍵詞“abc”應(yīng)用多個(gè)互不相同的哈希函數(shù)而計(jì)算出多個(gè)哈希值。例如,假設(shè)對(duì)所述關(guān)鍵詞應(yīng)用互不相同的三個(gè)哈希函數(shù)而得的結(jié)果分別為3、6、100。則關(guān)鍵詞信息管理單元400在分別讀取已存儲(chǔ)于主過(guò)濾器的第三個(gè)、第六個(gè)、第一百個(gè)單元(cell)中的值之后,根據(jù)各單元的值是否分別大于O而確定是否可以將接收的所述關(guān)鍵詞添加到主過(guò)濾器。
[0073]具體而言,關(guān)鍵詞信息管理單元400在對(duì)應(yīng)于計(jì)算出的哈希值的主過(guò)濾器的單元值中至少有一個(gè)為O時(shí),將對(duì)應(yīng)于哈希值的主過(guò)濾器的單元值分別增加I而將對(duì)應(yīng)關(guān)鍵詞存儲(chǔ)于主過(guò)濾器(510)。
[0074]圖6和圖7舉例表示關(guān)鍵詞信息管理單元400中的主過(guò)濾器更新過(guò)程。在圖中,各四邊形表示主過(guò)濾器的各單元,四邊形內(nèi)部的數(shù)字表示各單元的值,而下方的數(shù)字表示各單元的序列號(hào)。例如,如圖6所示,如果主過(guò)濾器的第三個(gè)、第六個(gè)、第一百個(gè)單元的值分別為1、0、2,則關(guān)鍵詞信息管理單元400將如圖7所示地將對(duì)應(yīng)于哈希值的各單元的值分別增加I。即,在此情況下,主過(guò)濾器的第三個(gè)、第六個(gè)、第一百個(gè)單元的值分別成為2、1、3。
[0075]而且,在如上所述地將新的關(guān)鍵詞添加到主過(guò)濾器的情況下,關(guān)鍵詞信息管理單元400將新添加的關(guān)鍵詞儲(chǔ)存于關(guān)鍵詞歷史表(512)。
[0076]與此相反,如果主過(guò)濾器的各單元(cell)當(dāng)中對(duì)應(yīng)于計(jì)算出的哈希值的單元的值均大于0,則關(guān)鍵詞信息管理單元400將無(wú)法在主過(guò)濾器中添加對(duì)應(yīng)關(guān)鍵詞。之所以出現(xiàn)這種情況是因?yàn)檫@是一種即使在布隆過(guò)濾器或計(jì)數(shù)布隆過(guò)濾器中不添加對(duì)應(yīng)關(guān)鍵詞也會(huì)在詢問(wèn)對(duì)應(yīng)關(guān)鍵詞時(shí)返回得到肯定(True)的情形(即,對(duì)于對(duì)應(yīng)關(guān)鍵詞出現(xiàn)了正誤(positivefalse))。因此在這種情況下,關(guān)鍵詞信息管理單元400將對(duì)應(yīng)關(guān)鍵詞存儲(chǔ)于沖突關(guān)鍵詞歷史表中(514)。
[0077]如果通過(guò)這種過(guò)程而將新的關(guān)鍵詞存儲(chǔ)于關(guān)鍵詞歷史表或沖突關(guān)鍵詞歷史表中的某一個(gè)中,則元數(shù)據(jù)管理單元402最終地將新儲(chǔ)存的關(guān)鍵詞的缺失信息標(biāo)記于數(shù)據(jù)庫(kù)102的元數(shù)據(jù)區(qū)域202中,從而更新元數(shù)據(jù)區(qū)域202 (516)。
[0078]在本發(fā)明的實(shí)施例中之所以在主過(guò)濾器以外對(duì)專(zhuān)門(mén)的沖突關(guān)鍵詞歷史表進(jìn)行管理有如下原因。如前所述,對(duì)于主過(guò)濾器而言,將計(jì)數(shù)布隆過(guò)濾器利用為數(shù)據(jù)結(jié)構(gòu),其存在即使實(shí)際上沒(méi)有存儲(chǔ)關(guān)鍵詞也返回得到對(duì)于關(guān)鍵詞詢問(wèn)的肯定(True)(即出現(xiàn)正誤)的可能性。然而在本發(fā)明中計(jì)數(shù)布隆過(guò)濾器并非用于表示特定關(guān)鍵詞的存在而是用于表示“缺失”,問(wèn)題可能出現(xiàn)于此。即,由于作為計(jì)數(shù)布隆過(guò)濾器的特性的正誤,實(shí)際上存在關(guān)鍵詞的區(qū)間可能被誤判為關(guān)鍵詞缺失區(qū)間,而在此情況下,由于對(duì)被誤判為缺失區(qū)間的區(qū)間根本不去執(zhí)行關(guān)鍵詞的檢索,因此存在檢索結(jié)果歪曲事實(shí)的可能性。因此在本發(fā)明中將與已存儲(chǔ)的關(guān)鍵詞發(fā)生沖突而不能添加的關(guān)鍵詞另行儲(chǔ)存于沖突關(guān)鍵詞歷史表,從而預(yù)先防止了正誤的發(fā)生。
[0079]圖8為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的在關(guān)鍵詞管理器106中刪除關(guān)鍵詞的過(guò)程800的順序圖。
[0080]關(guān)鍵詞管理器106的關(guān)鍵詞信息管理單元400將存儲(chǔ)于關(guān)鍵詞歷史表的特定關(guān)鍵詞中的、在已設(shè)定的期間內(nèi)未被使用的關(guān)鍵詞指定為刪除對(duì)象關(guān)鍵詞,并由所述刪除對(duì)象關(guān)鍵詞計(jì)算多個(gè)哈希值(802)。然后,關(guān)鍵詞管理器106提取對(duì)應(yīng)于計(jì)算出的哈希值的主過(guò)濾器的各單元值(804),并根據(jù)各單元值的大小判斷是否可以刪除對(duì)應(yīng)關(guān)鍵詞(806)。
[0081]只要提取的主過(guò)濾器的單元值當(dāng)中有任何一個(gè)取值為O的單元,則是不能將對(duì)應(yīng)關(guān)鍵詞從主過(guò)濾器中刪除的情形,因此關(guān)鍵詞信息管理單元400將輸出告知不能刪除對(duì)應(yīng)關(guān)鍵詞的報(bào)錯(cuò)消息(808)。但如果與此相反而提取的主過(guò)濾器的單元值均大于0,則關(guān)鍵詞信息管理單元400將對(duì)應(yīng)于計(jì)算出的哈希值的主過(guò)濾器的單元值減少1,從而將所述刪除對(duì)象關(guān)鍵詞從關(guān)鍵詞歷史表中刪除(810)。圖9舉例表示了通過(guò)這種過(guò)程而從如圖7所示的主過(guò)濾器中刪除關(guān)鍵詞“abc”的狀態(tài)。即,關(guān)鍵詞信息管理單元400將對(duì)應(yīng)于關(guān)鍵詞“abc”的主過(guò)濾器的第三個(gè)、第六個(gè)、第一百個(gè)單元值從2、1、3減小為1、0、2。
[0082]另外,在此情況下,關(guān)鍵詞信息管理單元400在從主過(guò)濾器中刪除關(guān)鍵詞時(shí),將存儲(chǔ)于沖突關(guān)鍵詞歷史表的關(guān)鍵詞當(dāng)中將由于刪除所述關(guān)鍵詞而不會(huì)再發(fā)生沖突的關(guān)鍵詞從沖突關(guān)鍵詞歷史表中刪除,并可以重新添加到主過(guò)濾器(812)。
[0083]圖10為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞檢索及元數(shù)據(jù)更新過(guò)程1000的順序圖。
[0084]首先,檢索器104利用從用戶處接收的檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間信息而向數(shù)據(jù)庫(kù)102傳送關(guān)鍵詞檢索詢問(wèn)(1002),而數(shù)據(jù)庫(kù)102根據(jù)接收的關(guān)鍵詞檢索詢問(wèn)執(zhí)行檢索之后反饋檢索結(jié)果(1004)。
[0085]然后,檢索器104將基于接收的所述檢索結(jié)果的關(guān)鍵詞缺失信息傳送給關(guān)鍵詞管理器106 (1006),而關(guān)鍵詞管理器106根據(jù)接收的所述關(guān)鍵詞缺失信息而將關(guān)鍵詞缺失信息標(biāo)記于數(shù)據(jù)庫(kù)102的元數(shù)據(jù)區(qū)域202 (1008)。
[0086]圖11為用于說(shuō)明利用根據(jù)本發(fā)明一個(gè)實(shí)施例的關(guān)鍵詞缺失信息的關(guān)鍵詞檢索過(guò)程1100的順序圖。
[0087]首先,檢索器104從用戶處接收包含檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間的關(guān)鍵詞檢索請(qǐng)求,并向關(guān)鍵詞管理器106詢問(wèn)包含于接收的所述檢索請(qǐng)求中的檢索對(duì)象關(guān)鍵詞的信息(I 102)。
[0088]接收到所述詢問(wèn)的關(guān)鍵詞管理器106通過(guò)搜索判斷接收的檢索對(duì)象關(guān)鍵詞是否儲(chǔ)存于主過(guò)濾器與沖突關(guān)鍵詞歷史表中的某一個(gè)當(dāng)中,并將所述搜索的結(jié)果傳送給檢索器104 (1104)。
[0089]如果所述詢問(wèn)的結(jié)果得知對(duì)應(yīng)檢索對(duì)象關(guān)鍵詞存儲(chǔ)于主過(guò)濾器中,則檢索器104便通過(guò)搜索數(shù)據(jù)庫(kù)102的元數(shù)據(jù)區(qū)域202而檢索出對(duì)應(yīng)的關(guān)鍵詞缺失區(qū)間,從而獲取檢索對(duì)象關(guān)鍵詞缺失區(qū)間的信息(1106,1108),并在除了獲取的缺失區(qū)間之外的其余區(qū)間執(zhí)行對(duì)檢索對(duì)象關(guān)鍵詞的檢索(1110,1112)。S卩,由于這一情形為對(duì)應(yīng)關(guān)鍵詞缺失的信息標(biāo)記于數(shù)據(jù)庫(kù)102的情形,因此利用元數(shù)據(jù)而只在除了缺失區(qū)間之外的其余區(qū)間執(zhí)行檢索。
[0090]然而,對(duì)于對(duì)應(yīng)檢索關(guān)鍵詞沒(méi)有存儲(chǔ)于沖突關(guān)鍵詞歷史表中或者關(guān)鍵詞管理器106中的情況而言,由于其屬于因沖突而無(wú)法標(biāo)記對(duì)應(yīng)關(guān)鍵詞或者之前沒(méi)有檢索歷史的情形,因此檢索器104將在整個(gè)檢索對(duì)象區(qū)間執(zhí)行針對(duì)檢索對(duì)象關(guān)鍵詞的檢索。
[0091]另外,本發(fā)明的實(shí)施例中可以包括記錄有用于在計(jì)算機(jī)上執(zhí)行本說(shuō)明書(shū)中記載的方法的程序的計(jì)算機(jī)可讀記錄介質(zhì)。計(jì)算機(jī)可讀記錄介質(zhì)既可以單獨(dú)包括程序命令、本地?cái)?shù)據(jù)文件、本地?cái)?shù)據(jù)結(jié)構(gòu)等,也可以包括它們的組合。介質(zhì)可以是為了本發(fā)明而特別設(shè)計(jì)并構(gòu)成的,也可以是計(jì)算機(jī)軟件領(lǐng)域中具有普通知識(shí)的人員所公知而可以使用的。計(jì)算機(jī)可讀記錄介質(zhì)之例中包括硬盤(pán)、軟盤(pán)以及磁帶之類(lèi)的磁介質(zhì);CD-R0M (只讀光盤(pán))、DVD之類(lèi)的光記錄介質(zhì);軟盤(pán)之類(lèi)的磁光介質(zhì);以及ROM (只讀存儲(chǔ)器)、RAM (隨機(jī)存儲(chǔ)器)、閃存等為了存儲(chǔ)并執(zhí)行程序命令而特別構(gòu)成的硬件裝置。程序命令之例中不僅可以包括通過(guò)編譯器制作的機(jī)器語(yǔ)言代碼,而且還可以包括使用解釋器等而通過(guò)計(jì)算機(jī)執(zhí)行的高級(jí)語(yǔ)言代碼。
[0092]以上通過(guò)代表性實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,然而不難理解只要是本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識(shí)的人員即可在不脫離本發(fā)明范圍的限度內(nèi)對(duì)所述的實(shí)施例進(jìn)行多種變形。
[0093]因此本發(fā)明的權(quán)利范圍不能局限于所述的實(shí)施例而進(jìn)行確定,而是要根據(jù)權(quán)利要求書(shū)及其等價(jià)內(nèi)容來(lái)確定。
【權(quán)利要求】
1.一種信息檢索系統(tǒng),包括: 數(shù)據(jù)庫(kù),包含數(shù)據(jù)被區(qū)分為多個(gè)數(shù)據(jù)塊而存儲(chǔ)的數(shù)據(jù)存儲(chǔ)區(qū)域、以及存儲(chǔ)各數(shù)據(jù)塊所對(duì)應(yīng)的關(guān)鍵詞缺失信息的元數(shù)據(jù)區(qū)域; 檢索器,從用戶處接收包含檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間的關(guān)鍵詞檢索請(qǐng)求,并利用所請(qǐng)求的關(guān)鍵詞而檢索存儲(chǔ)于所述數(shù)據(jù)庫(kù)中的數(shù)據(jù); 關(guān)鍵詞管理器,從所述檢索器接收基于關(guān)鍵詞檢索結(jié)果的關(guān)鍵詞缺失信息,并在所述數(shù)據(jù)庫(kù)中記錄所述關(guān)鍵詞缺失信息。
2.如權(quán)利要求1所述的信息檢索系統(tǒng),其中,所述檢索器從記錄于所述數(shù)據(jù)庫(kù)中的所述關(guān)鍵詞缺失信息中判斷出接收的檢索對(duì)象區(qū)間中是否存在關(guān)鍵詞缺失區(qū)間,且如果存在關(guān)鍵詞缺失區(qū)間,則在檢索對(duì)象區(qū)間當(dāng)中除了所述關(guān)鍵詞缺失區(qū)間之外的其余區(qū)間內(nèi)利用檢索對(duì)象關(guān)鍵詞而對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行檢索。
3.如權(quán)利要求1所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器接收從所述檢索器檢索到的關(guān)鍵詞的檢索區(qū)間、以及對(duì)應(yīng)檢索區(qū)間內(nèi)的關(guān)鍵詞缺失信息,并將檢索到的所述關(guān)鍵詞缺失信息標(biāo)記在對(duì)應(yīng)于多個(gè)數(shù)據(jù)塊當(dāng)中缺失關(guān)鍵詞的塊的元數(shù)據(jù)區(qū)域。
4.如權(quán)利要求3所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器用于分別管理: 關(guān)鍵詞歷史表,存儲(chǔ)在設(shè)定的期間內(nèi)從所述檢索器接收的關(guān)鍵詞; 主過(guò)濾器,將存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞的哈希值進(jìn)行存儲(chǔ); 沖突關(guān)鍵詞歷史表,在從所述檢索器接收的關(guān)鍵詞中,將與已存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞進(jìn)行存儲(chǔ)。
5.如權(quán)利要求4所述的信息檢索系統(tǒng),其中,所述主過(guò)濾器為計(jì)數(shù)布隆過(guò)濾器。
6.如權(quán)利要求5所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器通過(guò)從所述檢索器接收的關(guān)鍵詞計(jì)算設(shè)定的個(gè)數(shù)的互不相同的哈希值,且在所述主過(guò)濾器的各單元中對(duì)應(yīng)于計(jì)算出的哈希值的單元的值均大于O時(shí),將接收到的關(guān)鍵詞存儲(chǔ)于所述沖突關(guān)鍵詞歷史表。
7.如權(quán)利要求6所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器在對(duì)應(yīng)于計(jì)算出的哈希值的所述主過(guò)濾器的單元值中至少有一個(gè)為O時(shí),將對(duì)應(yīng)于哈希值的所述主過(guò)濾器的單元值分別增加1,并將接收的關(guān)鍵詞存儲(chǔ)于所述關(guān)鍵詞歷史表。
8.如權(quán)利要求7所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器將存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞缺失信息標(biāo)記于所述元數(shù)據(jù)區(qū)域。
9.如權(quán)利要求5所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器在存儲(chǔ)于所述關(guān)鍵詞歷史表中的特定關(guān)鍵詞在已設(shè)定的期間內(nèi)未被使用的情況下,將對(duì)應(yīng)于所述特定關(guān)鍵詞的哈希值的所述主過(guò)濾器的單元值減小1,并將所述特定關(guān)鍵詞從所述關(guān)鍵詞歷史表中刪除。
10.如權(quán)利要求9所述的信息檢索系統(tǒng),其中,所述關(guān)鍵詞管理器在存儲(chǔ)于所述關(guān)鍵詞歷史表中的關(guān)鍵詞被刪除時(shí),將存儲(chǔ)于所述沖突關(guān)鍵詞歷史表的關(guān)鍵詞當(dāng)中不會(huì)再與已存儲(chǔ)于所述主過(guò)濾器的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞刪除,并將從所述沖突關(guān)鍵詞歷史表中被刪除的關(guān)鍵詞登記于所述關(guān)鍵詞歷史表以及所述主過(guò)濾器。
11.如權(quán)利要求4所述的信息檢索系統(tǒng),其中,所述檢索器利用所述主過(guò)濾器而判斷是否標(biāo)記檢索對(duì)象關(guān)鍵詞缺失信息,且在判斷出檢索對(duì)象關(guān)鍵詞缺失信息已標(biāo)記于所述數(shù)據(jù)庫(kù)時(shí),通過(guò)檢索所述數(shù)據(jù)庫(kù)的元數(shù)據(jù)區(qū)域而獲取檢索對(duì)象關(guān)鍵詞缺失區(qū)間的信息。
12.一種信息檢索方法,包括如下步驟: 在檢索器中,從用戶處接收包含檢索對(duì)象關(guān)鍵詞以及檢索對(duì)象區(qū)間的關(guān)鍵詞檢索請(qǐng)求; 在所述檢索器中,利用所請(qǐng)求的關(guān)鍵詞而檢索存儲(chǔ)于數(shù)據(jù)庫(kù)中的數(shù)據(jù); 在關(guān)鍵詞管理器中,將基于關(guān)鍵詞檢索結(jié)果的關(guān)鍵詞缺失信息記錄于所述數(shù)據(jù)庫(kù)。
13.如權(quán)利要求12所述的信息檢索方法,其中,在執(zhí)行所述的檢索數(shù)據(jù)的步驟之前,還包括如下步驟: 在所述檢索器中,從記錄于所述數(shù)據(jù)庫(kù)的關(guān)鍵詞缺失信息中判斷接收的檢索對(duì)象區(qū)間中是否存在關(guān)鍵詞缺失區(qū)間, 而且,在所述的檢索數(shù)據(jù)的步驟中,如果進(jìn)行所述判斷的結(jié)果為存在關(guān)鍵詞缺失區(qū)間,則在所述檢索對(duì)象區(qū)間當(dāng)中除了關(guān)鍵詞缺失區(qū)間之外的其余區(qū)間內(nèi)利用所述檢索對(duì)象關(guān)鍵詞而對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行檢索。
14.如權(quán)利要求12所述的信息檢索方法,其中,在所述的記錄關(guān)鍵詞缺失信息的步驟中,還包括如下步驟: 從所述檢索器接收關(guān)鍵詞檢索區(qū)間以及檢索結(jié)果; 判斷接收的關(guān)鍵詞是否與已存儲(chǔ)于主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突; 根據(jù)所述判斷的結(jié)果而將關(guān)鍵詞存儲(chǔ)于關(guān)鍵詞歷史表或沖突關(guān)鍵詞歷史表中。
15.如權(quán)利要求14所述的信息檢索方法,其中,所述主過(guò)濾器為計(jì)數(shù)布隆過(guò)濾器。
16.如權(quán)利要求15所述的信息檢索方法,其中,在所述的判斷是否發(fā)生沖突的步驟中,通過(guò)從所述檢索器接收到的關(guān)鍵詞計(jì)算設(shè)定個(gè)數(shù)的互不相同的哈希值,并根據(jù)所述主過(guò)濾器的各單元中對(duì)應(yīng)于計(jì)算出的哈希值的單元的值是否均為大于O的值而判斷所述關(guān)鍵詞是否與存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突。
17.如權(quán)利要求16所述的信息檢索方法,其中,在所述的存儲(chǔ)關(guān)鍵詞的步驟中,如果判斷是否發(fā)生所述沖突的結(jié)果為對(duì)應(yīng)于計(jì)算出的哈希值的所述主過(guò)濾器的單元值中至少有一個(gè)為O,便將對(duì)應(yīng)于所述哈希值的所述主過(guò)濾器的單元值分別增加1,并將接收到的關(guān)鍵詞存儲(chǔ)于所述關(guān)鍵詞歷史表。
18.如權(quán)利要求16所述的信息檢索方法,其中,在所述的儲(chǔ)存關(guān)鍵詞的步驟中,如果判斷是否發(fā)生所述沖突的結(jié)果為對(duì)應(yīng)于計(jì)算出的哈希值的所述主過(guò)濾器的單元值均大于O,便將接收到的關(guān)鍵詞存儲(chǔ)于所述沖突關(guān)鍵詞歷史表。
19.如權(quán)利要求17所述的信息檢索方法,其中,在執(zhí)行所述的記錄關(guān)鍵詞缺失信息的步驟之后,還包括如下步驟: 如果存儲(chǔ)于所述關(guān)鍵詞歷史表中的特定關(guān)鍵詞在已設(shè)定的期間內(nèi)未被使用,便將對(duì)應(yīng)于所述特定關(guān)鍵詞的哈希值的所述主過(guò)濾器的單元值減小1,并將所述特定關(guān)鍵詞從所述關(guān)鍵詞歷史表中刪除。
20.如權(quán)利要求19所述的信息檢索方法,其中,在將所述特定關(guān)鍵詞從關(guān)鍵詞歷史表中刪除的步驟中,將存儲(chǔ)于所述沖突關(guān)鍵詞歷史表的關(guān)鍵詞中不再與已存儲(chǔ)于所述主過(guò)濾器中的關(guān)鍵詞發(fā)生沖突的關(guān)鍵詞予以刪除,并將從所述沖突關(guān)鍵詞歷史表中刪除的關(guān)鍵詞登記于所述關(guān)鍵詞歷史表以及主過(guò)濾器。
【文檔編號(hào)】G06F17/30GK104182435SQ201310681804
【公開(kāi)日】2014年12月3日 申請(qǐng)日期:2013年12月12日 優(yōu)先權(quán)日:2013年5月24日
【發(fā)明者】尹一智, 吳寶利, 崔載碩 申請(qǐng)人:三星Sds株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
中牟县| 正安县| 安仁县| 高雄市| 忻城县| 博客| 哈巴河县| 郑州市| 灵丘县| 锡林浩特市| 秭归县| 阳江市| 桐城市| 南皮县| 凤山市| 丰城市| 正宁县| 余江县| 郑州市| 南丰县| 神农架林区| 芮城县| 常山县| 惠东县| 上杭县| 翼城县| 巴楚县| 新乡市| 锦州市| 兴宁市| 二手房| 冷水江市| 旺苍县| 咸宁市| 隆尧县| 邵阳县| 柳林县| 宜兴市| 辉南县| 双柏县| 湖口县|