一種索引文件的錄入和基于該索引文件的檢索方法

文檔序號(hào)：6634074閱讀：260來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種索引文件的錄入和基于該索引文件的檢索方法
【專利摘要】本發(fā)明所提供的一種索引文件的錄入方法，包括步驟：A、解析出目標(biāo)文檔的內(nèi)容，對(duì)解析出的內(nèi)容進(jìn)行分詞處理，生成不同的各個(gè)詞語(yǔ)；B、解析出目標(biāo)文檔的權(quán)限信息，對(duì)解析出的權(quán)限信息進(jìn)行分詞處理，生成具有權(quán)限信息唯一性的格式；C、分別將步驟A和步驟B的分詞結(jié)果加載一代表其屬于所述目標(biāo)文檔的標(biāo)識(shí)，并存儲(chǔ)至索引文件。對(duì)應(yīng)還提供一種基于上述方法錄入的索引文件的檢索方法，采用對(duì)權(quán)限信息的分詞確保其唯一性，在檢索過(guò)程中不用拆分檢索請(qǐng)求，也無(wú)需進(jìn)行二次檢索，便同時(shí)滿足文檔檢索結(jié)果與權(quán)限檢索結(jié)果，避免在文檔還原過(guò)程中因全文檢索命中率的問(wèn)題至權(quán)限不可用，提高檢索文檔檢索命中率。
【專利說(shuō)明】—種索引文件的錄入和基于該索引文件的檢索方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息安全【技術(shù)領(lǐng)域】，特別涉及一種索引文件的錄入和基于該索引文件的檢索方法。

【背景技術(shù)】
[0002]現(xiàn)有基于權(quán)限的索引技術(shù)通常采用的技術(shù)為將權(quán)限信息存入數(shù)據(jù)庫(kù)或索引文件，將所接收的權(quán)限與在先存入的進(jìn)行比較。其中，常用方法包括:完全解偶的二次權(quán)限數(shù)據(jù)篩選，與三次庫(kù)表檢索結(jié)果與摘要的合并。具體包括以下步驟:帶權(quán)限的全文檢索請(qǐng)求；把檢索請(qǐng)求拆分成兩部分:全文檢索、庫(kù)表權(quán)限檢索；合并全文檢索結(jié)果與庫(kù)表權(quán)限檢索；返回全文檢索請(qǐng)求的結(jié)果集。采用上述方法的不足在于:三次數(shù)據(jù)的處理，導(dǎo)致時(shí)間的大幅度延長(zhǎng)。
[0003]另外，還可采用在庫(kù)表中首次權(quán)限檢索，利用庫(kù)表中預(yù)綁定的全文檢索引擎文檔唯一標(biāo)識(shí)與要查詢的關(guān)鍵詞進(jìn)行二次檢索。具體包括以下步驟:在全文中新建文檔時(shí)把文檔在全文檢索引擎中的ID記錄到數(shù)據(jù)庫(kù)中；收到帶權(quán)限的全文檢索請(qǐng)求；把檢索請(qǐng)求拆分成兩部分:庫(kù)表權(quán)限檢索、全文檢索；利用庫(kù)表權(quán)限檢索結(jié)果與要檢索的關(guān)鍵字進(jìn)行全文檢索；返回全文檢索請(qǐng)求的結(jié)果集。采用上述方法的不足在于:兩次檢索提高了檢索效率，但是還是進(jìn)行了二次檢索；并且全文檢索引擎中的ID發(fā)生變化時(shí)要追加到數(shù)據(jù)庫(kù)表中，而全文檢索引擎中的ID會(huì)經(jīng)常發(fā)生變動(dòng)，追加的數(shù)據(jù)分析會(huì)延長(zhǎng)文檔加入全文檢索引擎的時(shí)間，而且檢索時(shí)對(duì)文檔ID進(jìn)行了預(yù)分析。

【發(fā)明內(nèi)容】

[0004]有鑒于此，本發(fā)明的主要目的在于，提供一種索引文件的錄入和基于該索引文件的檢索方法，采用對(duì)權(quán)限信息的進(jìn)行分詞，在檢索過(guò)程中實(shí)現(xiàn)100%命中權(quán)限信息。
[0005]其中，索引文件的錄入方法包括步驟:
[0006]A、解析出目標(biāo)文檔的內(nèi)容，對(duì)解析出的內(nèi)容進(jìn)行分詞處理，生成不同的各個(gè)詞語(yǔ)；
[0007]B、解析出目標(biāo)文檔的權(quán)限信息，對(duì)解析出的權(quán)限信息進(jìn)行分詞處理，生成具有權(quán)限信息唯一性的格式；
[0008]C、分別將步驟A和步驟B的分詞結(jié)果加載一代表其屬于所述目標(biāo)文檔的標(biāo)識(shí)，并存儲(chǔ)至索引文件。
[0009]由上，采用對(duì)權(quán)限信息的分詞確保其唯一性，在檢索過(guò)程中實(shí)現(xiàn)100%命中權(quán)限信息。并且，無(wú)需索引文件綁定到數(shù)據(jù)庫(kù)，當(dāng)索引文件變化時(shí)數(shù)據(jù)庫(kù)不會(huì)做任何變化，當(dāng)數(shù)據(jù)庫(kù)發(fā)生變化時(shí)只要把原數(shù)據(jù)同步到新數(shù)據(jù)庫(kù)就能做到恢復(fù)。同時(shí)不用因檢索引擎的同一文件ID的變化至數(shù)據(jù)庫(kù)中表數(shù)據(jù)量的增加。
[0010]可選的，步驟A所述解析前還包括:
[0011]依據(jù)目標(biāo)文檔實(shí)體的后綴名選擇對(duì)應(yīng)的文檔解析器。
[0012]由上，實(shí)現(xiàn)對(duì)于文檔內(nèi)容的正確分詞。
[0013]可選的，步驟A還包括:判斷所生成的詞語(yǔ)在句子中是否屬于最大單元，若否則將以最大單元進(jìn)行分詞，所述最大單元包括組成單一詞組的最長(zhǎng)字符。
[0014]由上，實(shí)現(xiàn)對(duì)于分詞的正確性，避免遺漏關(guān)鍵詞。
[0015]可選的，所述目標(biāo)文檔權(quán)限信息包括通用唯一識(shí)別碼、全局唯一標(biāo)識(shí)符和/或特定字符串。
[0016]由上，確保權(quán)限信息的唯一性。
[0017]可選的，步驟B所述分詞處理的步驟包括:
[0018]B1、以一定字符長(zhǎng)度且以分隔符結(jié)尾為分詞依據(jù)，判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)具有權(quán)限信息唯一性的格式時(shí)，以所述字符長(zhǎng)度對(duì)權(quán)限信息進(jìn)行分詞。
[0019]由上，首先以一定字符長(zhǎng)度且以分隔符結(jié)尾為分詞依據(jù)可以避免對(duì)于不定長(zhǎng)度的權(quán)限信息的限制，其次，在規(guī)定長(zhǎng)度內(nèi)，判斷出唯一性格式即可分詞，快速高效。
[0020]可選的，步驟B還包括:判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)不具有權(quán)限信息唯一性的格式時(shí)，將所述字符長(zhǎng)度增加一字符長(zhǎng)度，返回步驟B所述分詞處理的步驟。
[0021]由上，實(shí)現(xiàn)對(duì)于文檔權(quán)限信息的正確分詞，由于字符長(zhǎng)度以及非特殊字符的標(biāo)點(diǎn)符號(hào)可調(diào)，因此，采用相同規(guī)則對(duì)權(quán)限信息進(jìn)行分詞后，保證各文檔權(quán)限信息的唯一性，在后續(xù)檢索過(guò)程中,便可以實(shí)現(xiàn)權(quán)限的100%命中。
[0022]可選的，所述分隔符包括非字符的標(biāo)點(diǎn)符號(hào)。
[0023]可選的，步驟C之后還包括步驟:將目標(biāo)文檔的至少下述一元數(shù)據(jù)信息加載所述代表其屬于所述目標(biāo)文檔的標(biāo)識(shí)，并存儲(chǔ)至索引文件:
[0024]目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型。
[0025]對(duì)應(yīng)的，本發(fā)明還提供一種基于上述方法錄入的索引文件的檢索方法包括步驟:
[0026]A、解析出用戶的權(quán)限信息，對(duì)解析出的權(quán)限信息進(jìn)行分詞處理；
[0027]B、解析出用戶所錄入的內(nèi)容，對(duì)解析出的內(nèi)容進(jìn)行分詞處理，生成不同的各個(gè)詞語(yǔ)；
[0028]C、將步驟A和步驟B的分詞結(jié)果采用并且的邏輯關(guān)系運(yùn)算，以索引文件中已存的信息中是否與步驟A和步驟B分詞處理的結(jié)果相同為依據(jù)，進(jìn)行檢索。
[0029]由上，不用拆分檢索請(qǐng)求，也無(wú)需進(jìn)行二次檢索，便同時(shí)滿足文檔檢索結(jié)果與權(quán)限檢索結(jié)果，避免在文檔還原過(guò)程中因全文檢索命中率的問(wèn)題至權(quán)限不可用，提高檢索文檔檢索命中率。

【專利附圖】

【附圖說(shuō)明】
[0030]圖1為索引文件錄入的流程圖；
[0031]圖2為對(duì)目標(biāo)文檔的文檔內(nèi)容進(jìn)行分詞化處理的流程圖；
[0032]圖3為對(duì)目標(biāo)文檔的權(quán)限進(jìn)行分詞處理的流程圖；
[0033]圖4為基于所錄入索引文件的檢索方法的流程圖。

【具體實(shí)施方式】
[0034]本發(fā)明所提供的索引文件的錄入和基于該索引文件的檢索方法，將權(quán)限信息進(jìn)行分詞處理，使其分詞結(jié)果符合權(quán)限信息的唯一性，以實(shí)現(xiàn)在檢索過(guò)程中實(shí)現(xiàn)100%命中權(quán)限信息，避免在文檔還原過(guò)程中因全文檢索命中率的問(wèn)題至權(quán)限不可用。
[0035]如圖1所示，索引文件的錄入具體包括以下步驟:
[0036]步驟SlO:對(duì)目標(biāo)文檔的文檔內(nèi)容進(jìn)行分詞及解析處理，并將解析結(jié)果與目標(biāo)文檔進(jìn)行關(guān)聯(lián)后，存儲(chǔ)至索引文件。
[0037]如圖2所示，具體的，本步驟包括以下步驟:
[0038]步驟SlOl:對(duì)目標(biāo)文檔進(jìn)行解析，以獲取目標(biāo)文檔的全部?jī)?nèi)容。
[0039]首先獲取目標(biāo)文檔實(shí)體，依據(jù)目標(biāo)文檔實(shí)體的后綴名(例如*.doc、*.txt、*.ppt、xls)獲取文檔解析器，利用文檔解析器獲取出文檔的全部文字內(nèi)容。
[0040]當(dāng)無(wú)法獲取后綴名或后綴名為空字符時(shí)，直接結(jié)束步驟S10。
[0041]步驟S102:對(duì)所獲取的目標(biāo)文檔的內(nèi)容進(jìn)行分詞。
[0042]利用分詞器對(duì)所獲取的目標(biāo)文檔內(nèi)容進(jìn)行分詞，所述分詞器利用詞典的原理將全文分成詞匯表。其中，分詞器是成熟的技術(shù)，本發(fā)明采用現(xiàn)有的分詞器。預(yù)先設(shè)定不同詞庫(kù)，例如名詞庫(kù)，語(yǔ)句庫(kù)，等價(jià)詞庫(kù)，否定詞庫(kù)，停止詞庫(kù)等。所述等價(jià)詞庫(kù)例如PC等縮寫(xiě)詞等價(jià)于個(gè)人計(jì)算機(jī)等標(biāo)準(zhǔn)詞，否定詞庫(kù)包括有敏感詞等，停止詞庫(kù)包括“啊、吧、的”等常用于結(jié)尾的詞。
[0043]針對(duì)一句話，首先依據(jù)停止詞庫(kù)拆分為不同詞或短句，其次判斷拆分后詞或短句是否還有敏感詞，若含有敏感詞則將其進(jìn)行隱藏，而后依照等價(jià)詞庫(kù)將拆分后詞或短句進(jìn)行標(biāo)準(zhǔn)化，最終依據(jù)名詞庫(kù)，語(yǔ)句庫(kù)進(jìn)行最終分詞。
[0044]進(jìn)一步的，分詞之后，判斷所分詞語(yǔ)在句子中是否屬于最大單元，若是則不再處理，否則按最大單元進(jìn)行分詞。所述最大單元指組成單一詞組的最長(zhǎng)字符。舉例來(lái)說(shuō)，目標(biāo)文檔中包含本文第一句話“本發(fā)明所提供的基于權(quán)限信息的錄入和檢索方法”，句中“本”、“發(fā)明”均作為一單獨(dú)詞被分開(kāi)，分詞后，判斷“本”在句子中是否屬于最大單元，其判斷方法為判斷將“本”和“發(fā)明”連在一起是否構(gòu)成一個(gè)詞，若構(gòu)成一個(gè)詞，則“本發(fā)明”在句子中屬于最大單元。
[0045]步驟S103:將分詞結(jié)果與目標(biāo)文檔進(jìn)行關(guān)聯(lián)，存儲(chǔ)至索引文件。
[0046]若一篇目標(biāo)文檔分詞分出100個(gè)不同的詞，本步驟分別將上述100詞依據(jù)各個(gè)詞在文中的位置順序加載一特定標(biāo)識(shí)，存儲(chǔ)至索引文件。所述索引文件可以是一數(shù)據(jù)庫(kù)或服務(wù)器等存儲(chǔ)裝置或存儲(chǔ)區(qū)域。進(jìn)一步的，還將后文所述的目標(biāo)文檔的標(biāo)題、權(quán)限信息以及其他信息(目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型等元數(shù)據(jù)信息)加載所述特定標(biāo)識(shí)，即同一篇文檔的文檔內(nèi)容、標(biāo)題、權(quán)限信息以及其他信息等綁定在一起，共同錄入索引文件，由此確保一篇文檔數(shù)據(jù)的完整性。進(jìn)一步的，在索引文件中，文檔內(nèi)容、權(quán)限信息以及其他信息分別存儲(chǔ)于不同的域。由此可避免將所有數(shù)據(jù)存儲(chǔ)于一處，在更改時(shí)增加時(shí)間。在還原文檔時(shí)，即可依據(jù)同一文檔的特定標(biāo)識(shí)，將屬于該文檔的全部數(shù)據(jù)集成到一起，從而提高效率。對(duì)于索引文件信息的添加過(guò)程與現(xiàn)有技術(shù)相同，不再贅述。
[0047]步驟S20:對(duì)目標(biāo)文檔的權(quán)限信息進(jìn)行分詞處理，將分詞結(jié)果與所述目標(biāo)文檔進(jìn)行關(guān)聯(lián)后，存儲(chǔ)至所述索引文件。
[0048]具體的，如圖3所示，本步驟中包括以下步驟:
[0049]步驟S201:獲取對(duì)目標(biāo)文檔有查看權(quán)限對(duì)象的唯一標(biāo)識(shí)，即目標(biāo)文檔的權(quán)限信肩、O
[0050]所述具有查看權(quán)限的對(duì)象包括用戶、角色、組織機(jī)構(gòu)代碼證或級(jí)別等，所述權(quán)限信息加載于目標(biāo)文檔的固定位置，對(duì)于權(quán)限信息的獲取屬于現(xiàn)有技術(shù)，不再贅述。提取目標(biāo)文檔的權(quán)限信息，即提取出所述對(duì)目標(biāo)文檔有查看權(quán)限對(duì)象的唯一標(biāo)識(shí)，所述唯一標(biāo)識(shí)包括:通用唯一識(shí)別碼(UUID, Universally Unique Identifier)、全局唯一標(biāo)識(shí)符(GUID,Globally Unique Identifier)和 / 或其他字符串。
[0051]步驟S202:設(shè)置權(quán)限分詞器，依據(jù)所述權(quán)限分詞器對(duì)目標(biāo)文檔的權(quán)限信息進(jìn)行權(quán)限分詞。
[0052]權(quán)限分詞器對(duì)于權(quán)限信息的分割方式為:
[0053]首先，拆分分詞目標(biāo)，本實(shí)施例中，可采用固定一定字符長(zhǎng)度(例如19個(gè)字符串)且以為分隔符結(jié)尾分詞依據(jù)，對(duì)權(quán)限信息進(jìn)行拆分。所述分隔符包括非字符的標(biāo)點(diǎn)符號(hào)。
[0054]下面以UUID 為例進(jìn)行說(shuō)明，UUID 的格式包括:χχχχχχχχ-χχχχ-χχχχ-χχχχ-χχχχχχχχχχ (其規(guī)律為 8-4-4-4-12)和 χχχχχχχχ-χχχχ-χχχχ-χχχχχχχχχχχχχχχχ (其規(guī)律為8-4-4-16)，其中每個(gè)X是0-9或a-f范圍內(nèi)的一個(gè)十六進(jìn)制的數(shù)字。按一定字符長(zhǎng)度且以為分隔符結(jié)尾對(duì)截取UUID進(jìn)行分詞,分詞結(jié)果為χχχχχχχχ-χχχχ-χχχχ-。
[0055]其次，判斷權(quán)限信息在上述字符長(zhǎng)度內(nèi)是否存在區(qū)別于文檔正文和后文所述的其他信息的規(guī)律。所述規(guī)律參照現(xiàn)有UUID、GUID或其他常用的設(shè)置權(quán)限信息的固定格式，預(yù)存于權(quán)限分詞器中。
[0056]權(quán)限分詞器判斷在設(shè)定的字符長(zhǎng)度內(nèi)存在所述規(guī)律，則以該分隔符為截止，將所述分隔符前的字符從權(quán)限信息中分離出來(lái)。若不存在，則將上述固定的字符長(zhǎng)度+1 (調(diào)整為20個(gè)字符串)，在調(diào)整后的字符長(zhǎng)度內(nèi)繼續(xù)尋找，若仍然不存在，在再將字符長(zhǎng)度+1(調(diào)整為21個(gè)字符串)，直至尋找到所述規(guī)律。否則確認(rèn)為權(quán)限信息分詞失敗。
[0057]舉例來(lái)說(shuō),尋找所述規(guī)律可通過(guò)正則表達(dá)式實(shí)現(xiàn),例一:([a?zA?ZO?9] {8}_[a ?zA ?ZO ?9] {4}_[a ?zA ?ZO ?9] {4}_[a ?zA ?ZO ?9] {4}_[a ?zA ?ZO ?9] {12} [，\\w.!?_$%'&]? )+ ；
[0058]例一中[a?zA?ZO?9] {8}表示連續(xù)出現(xiàn)8個(gè)字符，[a?zA?ZO?9] {4}表示連續(xù)出現(xiàn)4個(gè)字符，[a?zA?ZO?9] {12}表示連續(xù)出現(xiàn)12個(gè)字符，上述字符包括字母a?z、字母A?Z以及數(shù)字O?9的組合；
[0059][, \\w.!?_$% ~&] ?表示可以“，.!?_$% 這些非字符的標(biāo)點(diǎn)符號(hào)匹配包括下劃線或空白符在內(nèi)的任何單個(gè)字符；
[0060]() +表示匹配模式是貪婪的。貪婪模式則盡可能多的匹配所搜索的字符串。
[0061 ]例二: ([a ?zA ?ZO ?9] {32} [, \\w\\.!?i#$ % "&] ? ) + ；
[0062]第二種數(shù)據(jù)類型中([a?zA?ZO?9] {32}表示連續(xù)出現(xiàn)32個(gè)字符，上述字符包括字母a?z、字母A?Z以及數(shù)字O?9的組合。
[0063][, \\w\\.!?_$%'&]? ) +表示可以“，.!?這些非字符的標(biāo)點(diǎn)符號(hào)匹配包括下劃線或空白符在內(nèi)的任何單詞字符；
[0064]預(yù)存的尋找規(guī)律的表達(dá)式很多，本實(shí)施例僅給出2個(gè)實(shí)施例，本申請(qǐng)重在保護(hù)對(duì)于權(quán)限分詞整體的保護(hù)，而并非在于具體的某一個(gè)權(quán)限分詞的結(jié)構(gòu)。
[0065]步驟S203:將分詞結(jié)果加載所述特定標(biāo)識(shí)，存儲(chǔ)至所述索引文件。
[0066]對(duì)于一篇目標(biāo)文檔，將該文檔分詞后的權(quán)限信息加載與步驟S103相同的特定標(biāo)識(shí)后存儲(chǔ)至索引文件。
[0067]另外，當(dāng)目標(biāo)文檔權(quán)限信息需要變更時(shí)，僅需利用目標(biāo)文檔的所述特定標(biāo)識(shí)查找出索引文件中的該目標(biāo)文檔的權(quán)限信息，進(jìn)而僅對(duì)所述權(quán)限信息進(jìn)行修改即可，操作便利，維護(hù)簡(jiǎn)單。
[0068]步驟S30:將目標(biāo)文檔的其他信息錄入索引文件。
[0069]具體的，目標(biāo)文檔的其他信息包括其創(chuàng)建時(shí)間、大小、類型等元數(shù)據(jù)信息。同樣的，對(duì)于同一篇目標(biāo)文檔，將該文檔的其他信息加載與步驟S103相同的特定標(biāo)識(shí)后存儲(chǔ)至索引文件。
[0070]由于目標(biāo)文檔的文檔內(nèi)容，文檔標(biāo)題、權(quán)限信息以及其他信息采用相同的特定標(biāo)識(shí)，因此上述步驟SlO?S30實(shí)質(zhì)將三者綁定在一起，共同錄入索引文件。至此，目標(biāo)文檔的相關(guān)索引文件的錄入所含步驟結(jié)束。
[0071]如圖4所示，基于錄入索引文件的檢索具體包括以下步驟:
[0072]步驟S40:檢索權(quán)限信息。
[0073]通過(guò)驗(yàn)證用戶所輸入的密碼登陸或USB-KEY等方式進(jìn)行身份確認(rèn)。進(jìn)一步的，確認(rèn)用戶身份后，還需確認(rèn)用戶身份權(quán)重，當(dāng)用戶身份權(quán)重最高時(shí)，其擁有權(quán)限最多，即該用戶同時(shí)擁有低于其身份權(quán)重的其他用戶的權(quán)限信息。
[0074]身份確認(rèn)后即可獲取用戶所擁有的權(quán)限信息。權(quán)限分詞器采用與上述步驟S20的權(quán)限分詞相同的原理，將所獲取的用戶所擁有的各權(quán)限信息進(jìn)行分詞處理。
[0075]權(quán)限分詞器將各個(gè)權(quán)限信息的分詞結(jié)果采用“或者”的邏輯關(guān)系。
[0076]以索引文件中已存的權(quán)限信息中是否與步驟S40所分詞的權(quán)限信息相同為依據(jù)進(jìn)行檢索，檢索結(jié)果為相同，則檢索成功。
[0077]由上，可檢索出所有滿足該權(quán)限的所有文檔。
[0078]步驟S50:檢索文檔內(nèi)容。
[0079]檢索權(quán)限信息后，用戶輸入需檢索的關(guān)鍵詞語(yǔ)或詞句。
[0080]文檔內(nèi)容分詞器在所述索引文件中對(duì)用戶輸入的關(guān)鍵詞語(yǔ)或詞句進(jìn)行檢索。具體的，文檔內(nèi)容分詞首先對(duì)檢索內(nèi)容中的關(guān)鍵詞或詞句進(jìn)行分詞處理，分詞依據(jù)步驟SlO中對(duì)目標(biāo)文檔的分詞原理相同，對(duì)分詞的結(jié)果在在所述索引文件中進(jìn)行對(duì)比檢索。
[0081]本步驟中，當(dāng)分詞結(jié)果不唯一或?qū)υ~句分出多個(gè)詞時(shí)，文檔內(nèi)容查詢器對(duì)各分詞結(jié)果采用“或者”的邏輯關(guān)系。
[0082]步驟S60:檢索其他信息。
[0083]直接將用戶所錄入的目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型等元數(shù)據(jù)信息等其他信息與步驟S30所錄入的目標(biāo)文檔其他信息進(jìn)行對(duì)比檢索。
[0084]步驟S70:依據(jù)步驟S40?步驟S60各查詢器對(duì)比檢索的結(jié)果，將文檔進(jìn)行還原。
[0085]對(duì)于步驟S40?步驟S60的三類查詢器所檢索的結(jié)果采用“并且”的邏輯關(guān)系，由于三類的特定標(biāo)識(shí)相同，故將索引文件中加載有該特定標(biāo)識(shí)的相關(guān)數(shù)據(jù)組織到一起，即可快速還原出目標(biāo)文檔。對(duì)于文檔內(nèi)容的還原，可直接依據(jù)分詞時(shí)各詞在文中的位置進(jìn)行還原。進(jìn)一步的，當(dāng)符合條件的文檔為多個(gè)時(shí)，依據(jù)步驟S50中所檢索出的關(guān)鍵詞在文檔中出現(xiàn)的頻率，對(duì)各文檔進(jìn)行排列。
[0086]以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明。總之，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種索引文件的錄入方法，其特征在于，包括步驟: A、解析出目標(biāo)文檔的內(nèi)容，對(duì)解析出的內(nèi)容進(jìn)行分詞處理，生成不同的各個(gè)詞語(yǔ)； B、解析出目標(biāo)文檔的權(quán)限信息，對(duì)解析出的權(quán)限信息進(jìn)行分詞處理，生成具有權(quán)限信息唯一'I"生的格式； C、分別將步驟A和步驟B的分詞結(jié)果加載一代表其屬于所述目標(biāo)文檔的標(biāo)識(shí)，并存儲(chǔ)至索引文件。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟A所述解析前還包括: 依據(jù)目標(biāo)文檔實(shí)體的后綴名選擇對(duì)應(yīng)的文檔解析器。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟A還包括:判斷所生成的詞語(yǔ)在句子中是否屬于最大單元，若否則將以最大單元進(jìn)行分詞，所述最大單元包括組成單一詞組的最長(zhǎng)字符。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標(biāo)文檔權(quán)限信息包括通用唯一識(shí)別碼、全局唯一標(biāo)識(shí)符和/或特定字符串。
5.根據(jù)權(quán)利要求1或4所述的方法，其特征在于，步驟B所述分詞處理的步驟包括: B1、以一定字符長(zhǎng)度且以分隔符結(jié)尾為分詞依據(jù)，判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)具有權(quán)限信息唯一性的格式時(shí)，以所述字符長(zhǎng)度對(duì)權(quán)限信息進(jìn)行分詞。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，步驟B還包括:判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)不具有權(quán)限信息唯一性的格式時(shí)，將所述字符長(zhǎng)度增加一字符長(zhǎng)度，返回步驟B所述分詞處理的步驟。
7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述分隔符包括非字符的標(biāo)點(diǎn)符號(hào)。
8.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟C之后還包括步驟:將目標(biāo)文檔的至少下述一元數(shù)據(jù)信息加載所述代表其屬于所述目標(biāo)文檔的標(biāo)識(shí)，并存儲(chǔ)至索引文件: 目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型。
9.一種基于權(quán)利要求1-8任一所述方法錄入的索引文件的檢索方法，其特征在于，包括步驟: A、解析出用戶的權(quán)限信息，對(duì)解析出的權(quán)限信息進(jìn)行分詞處理； B、解析出用戶所錄入的內(nèi)容，對(duì)解析出的內(nèi)容進(jìn)行分詞處理，生成不同的各個(gè)詞語(yǔ)； C、將步驟A和步驟B的分詞結(jié)果采用并且的邏輯關(guān)系運(yùn)算，以索引文件中已存的信息中是否與步驟A和步驟B分詞處理的結(jié)果相同為依據(jù)，進(jìn)行檢索。
【文檔編號(hào)】G06F17/30GK104376067SQ201410642110
【公開(kāi)日】2015年2月25日申請(qǐng)日期:2014年11月13日優(yōu)先權(quán)日:2014年11月13日
【發(fā)明者】管延軍, 蔣紅宇, 蔡景彪申請(qǐng)人:北京海泰方圓科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：管延軍;蔣紅宇;蔡景彪;
技術(shù)所有人：北京海泰方圓科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

索引型檢索工具相關(guān)技術(shù)

lucene檢索索引的步驟相關(guān)技術(shù)

簡(jiǎn)述索引型檢索工具相關(guān)技術(shù)

檢索和索引相關(guān)技術(shù)

全文檢索索引相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種索引文件的錄入和基于該索引文件的檢索方法