欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種索引文件的錄入和基于該索引文件的檢索方法

文檔序號(hào):6634074閱讀:260來(lái)源:國(guó)知局
一種索引文件的錄入和基于該索引文件的檢索方法
【專利摘要】本發(fā)明所提供的一種索引文件的錄入方法,包括步驟:A、解析出目標(biāo)文檔的內(nèi)容,對(duì)解析出的內(nèi)容進(jìn)行分詞處理,生成不同的各個(gè)詞語(yǔ);B、解析出目標(biāo)文檔的權(quán)限信息,對(duì)解析出的權(quán)限信息進(jìn)行分詞處理,生成具有權(quán)限信息唯一性的格式;C、分別將步驟A和步驟B的分詞結(jié)果加載一代表其屬于所述目標(biāo)文檔的標(biāo)識(shí),并存儲(chǔ)至索引文件。對(duì)應(yīng)還提供一種基于上述方法錄入的索引文件的檢索方法,采用對(duì)權(quán)限信息的分詞確保其唯一性,在檢索過(guò)程中不用拆分檢索請(qǐng)求,也無(wú)需進(jìn)行二次檢索,便同時(shí)滿足文檔檢索結(jié)果與權(quán)限檢索結(jié)果,避免在文檔還原過(guò)程中因全文檢索命中率的問(wèn)題至權(quán)限不可用,提高檢索文檔檢索命中率。
【專利說(shuō)明】—種索引文件的錄入和基于該索引文件的檢索方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息安全【技術(shù)領(lǐng)域】,特別涉及一種索引文件的錄入和基于該索引文件的檢索方法。

【背景技術(shù)】
[0002]現(xiàn)有基于權(quán)限的索引技術(shù)通常采用的技術(shù)為將權(quán)限信息存入數(shù)據(jù)庫(kù)或索引文件,將所接收的權(quán)限與在先存入的進(jìn)行比較。其中,常用方法包括:完全解偶的二次權(quán)限數(shù)據(jù)篩選,與三次庫(kù)表檢索結(jié)果與摘要的合并。具體包括以下步驟:帶權(quán)限的全文檢索請(qǐng)求;把檢索請(qǐng)求拆分成兩部分:全文檢索、庫(kù)表權(quán)限檢索;合并全文檢索結(jié)果與庫(kù)表權(quán)限檢索;返回全文檢索請(qǐng)求的結(jié)果集。采用上述方法的不足在于:三次數(shù)據(jù)的處理,導(dǎo)致時(shí)間的大幅度延長(zhǎng)。
[0003]另外,還可采用在庫(kù)表中首次權(quán)限檢索,利用庫(kù)表中預(yù)綁定的全文檢索引擎文檔唯一標(biāo)識(shí)與要查詢的關(guān)鍵詞進(jìn)行二次檢索。具體包括以下步驟:在全文中新建文檔時(shí)把文檔在全文檢索引擎中的ID記錄到數(shù)據(jù)庫(kù)中;收到帶權(quán)限的全文檢索請(qǐng)求;把檢索請(qǐng)求拆分成兩部分:庫(kù)表權(quán)限檢索、全文檢索;利用庫(kù)表權(quán)限檢索結(jié)果與要檢索的關(guān)鍵字進(jìn)行全文檢索;返回全文檢索請(qǐng)求的結(jié)果集。采用上述方法的不足在于:兩次檢索提高了檢索效率,但是還是進(jìn)行了二次檢索;并且全文檢索引擎中的ID發(fā)生變化時(shí)要追加到數(shù)據(jù)庫(kù)表中,而全文檢索引擎中的ID會(huì)經(jīng)常發(fā)生變動(dòng),追加的數(shù)據(jù)分析會(huì)延長(zhǎng)文檔加入全文檢索引擎的時(shí)間,而且檢索時(shí)對(duì)文檔ID進(jìn)行了預(yù)分析。


【發(fā)明內(nèi)容】

[0004]有鑒于此,本發(fā)明的主要目的在于,提供一種索引文件的錄入和基于該索引文件的檢索方法,采用對(duì)權(quán)限信息的進(jìn)行分詞,在檢索過(guò)程中實(shí)現(xiàn)100%命中權(quán)限信息。
[0005]其中,索引文件的錄入方法包括步驟:
[0006]A、解析出目標(biāo)文檔的內(nèi)容,對(duì)解析出的內(nèi)容進(jìn)行分詞處理,生成不同的各個(gè)詞語(yǔ);
[0007]B、解析出目標(biāo)文檔的權(quán)限信息,對(duì)解析出的權(quán)限信息進(jìn)行分詞處理,生成具有權(quán)限信息唯一性的格式;
[0008]C、分別將步驟A和步驟B的分詞結(jié)果加載一代表其屬于所述目標(biāo)文檔的標(biāo)識(shí),并存儲(chǔ)至索引文件。
[0009]由上,采用對(duì)權(quán)限信息的分詞確保其唯一性,在檢索過(guò)程中實(shí)現(xiàn)100%命中權(quán)限信息。并且,無(wú)需索引文件綁定到數(shù)據(jù)庫(kù),當(dāng)索引文件變化時(shí)數(shù)據(jù)庫(kù)不會(huì)做任何變化,當(dāng)數(shù)據(jù)庫(kù)發(fā)生變化時(shí)只要把原數(shù)據(jù)同步到新數(shù)據(jù)庫(kù)就能做到恢復(fù)。同時(shí)不用因檢索引擎的同一文件ID的變化至數(shù)據(jù)庫(kù)中表數(shù)據(jù)量的增加。
[0010]可選的,步驟A所述解析前還包括:
[0011]依據(jù)目標(biāo)文檔實(shí)體的后綴名選擇對(duì)應(yīng)的文檔解析器。
[0012]由上,實(shí)現(xiàn)對(duì)于文檔內(nèi)容的正確分詞。
[0013]可選的,步驟A還包括:判斷所生成的詞語(yǔ)在句子中是否屬于最大單元,若否則將以最大單元進(jìn)行分詞,所述最大單元包括組成單一詞組的最長(zhǎng)字符。
[0014]由上,實(shí)現(xiàn)對(duì)于分詞的正確性,避免遺漏關(guān)鍵詞。
[0015]可選的,所述目標(biāo)文檔權(quán)限信息包括通用唯一識(shí)別碼、全局唯一標(biāo)識(shí)符和/或特定字符串。
[0016]由上,確保權(quán)限信息的唯一性。
[0017]可選的,步驟B所述分詞處理的步驟包括:
[0018]B1、以一定字符長(zhǎng)度且以分隔符結(jié)尾為分詞依據(jù),判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)具有權(quán)限信息唯一性的格式時(shí),以所述字符長(zhǎng)度對(duì)權(quán)限信息進(jìn)行分詞。
[0019]由上,首先以一定字符長(zhǎng)度且以分隔符結(jié)尾為分詞依據(jù)可以避免對(duì)于不定長(zhǎng)度的權(quán)限信息的限制,其次,在規(guī)定長(zhǎng)度內(nèi),判斷出唯一性格式即可分詞,快速高效。
[0020]可選的,步驟B還包括:判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)不具有權(quán)限信息唯一性的格式時(shí),將所述字符長(zhǎng)度增加一字符長(zhǎng)度,返回步驟B所述分詞處理的步驟。
[0021]由上,實(shí)現(xiàn)對(duì)于文檔權(quán)限信息的正確分詞,由于字符長(zhǎng)度以及非特殊字符的標(biāo)點(diǎn)符號(hào)可調(diào),因此,采用相同規(guī)則對(duì)權(quán)限信息進(jìn)行分詞后,保證各文檔權(quán)限信息的唯一性,在后續(xù)檢索過(guò)程中,便可以實(shí)現(xiàn)權(quán)限的100%命中。
[0022]可選的,所述分隔符包括非字符的標(biāo)點(diǎn)符號(hào)。
[0023]可選的,步驟C之后還包括步驟:將目標(biāo)文檔的至少下述一元數(shù)據(jù)信息加載所述代表其屬于所述目標(biāo)文檔的標(biāo)識(shí),并存儲(chǔ)至索引文件:
[0024]目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型。
[0025]對(duì)應(yīng)的,本發(fā)明還提供一種基于上述方法錄入的索引文件的檢索方法包括步驟:
[0026]A、解析出用戶的權(quán)限信息,對(duì)解析出的權(quán)限信息進(jìn)行分詞處理;
[0027]B、解析出用戶所錄入的內(nèi)容,對(duì)解析出的內(nèi)容進(jìn)行分詞處理,生成不同的各個(gè)詞語(yǔ);
[0028]C、將步驟A和步驟B的分詞結(jié)果采用并且的邏輯關(guān)系運(yùn)算,以索引文件中已存的信息中是否與步驟A和步驟B分詞處理的結(jié)果相同為依據(jù),進(jìn)行檢索。
[0029]由上,不用拆分檢索請(qǐng)求,也無(wú)需進(jìn)行二次檢索,便同時(shí)滿足文檔檢索結(jié)果與權(quán)限檢索結(jié)果,避免在文檔還原過(guò)程中因全文檢索命中率的問(wèn)題至權(quán)限不可用,提高檢索文檔檢索命中率。

【專利附圖】

【附圖說(shuō)明】
[0030]圖1為索引文件錄入的流程圖;
[0031]圖2為對(duì)目標(biāo)文檔的文檔內(nèi)容進(jìn)行分詞化處理的流程圖;
[0032]圖3為對(duì)目標(biāo)文檔的權(quán)限進(jìn)行分詞處理的流程圖;
[0033]圖4為基于所錄入索引文件的檢索方法的流程圖。

【具體實(shí)施方式】
[0034]本發(fā)明所提供的索引文件的錄入和基于該索引文件的檢索方法,將權(quán)限信息進(jìn)行分詞處理,使其分詞結(jié)果符合權(quán)限信息的唯一性,以實(shí)現(xiàn)在檢索過(guò)程中實(shí)現(xiàn)100%命中權(quán)限信息,避免在文檔還原過(guò)程中因全文檢索命中率的問(wèn)題至權(quán)限不可用。
[0035]如圖1所示,索引文件的錄入具體包括以下步驟:
[0036]步驟SlO:對(duì)目標(biāo)文檔的文檔內(nèi)容進(jìn)行分詞及解析處理,并將解析結(jié)果與目標(biāo)文檔進(jìn)行關(guān)聯(lián)后,存儲(chǔ)至索引文件。
[0037]如圖2所示,具體的,本步驟包括以下步驟:
[0038]步驟SlOl:對(duì)目標(biāo)文檔進(jìn)行解析,以獲取目標(biāo)文檔的全部?jī)?nèi)容。
[0039]首先獲取目標(biāo)文檔實(shí)體,依據(jù)目標(biāo)文檔實(shí)體的后綴名(例如*.doc、*.txt、*.ppt、xls)獲取文檔解析器,利用文檔解析器獲取出文檔的全部文字內(nèi)容。
[0040]當(dāng)無(wú)法獲取后綴名或后綴名為空字符時(shí),直接結(jié)束步驟S10。
[0041]步驟S102:對(duì)所獲取的目標(biāo)文檔的內(nèi)容進(jìn)行分詞。
[0042]利用分詞器對(duì)所獲取的目標(biāo)文檔內(nèi)容進(jìn)行分詞,所述分詞器利用詞典的原理將全文分成詞匯表。其中,分詞器是成熟的技術(shù),本發(fā)明采用現(xiàn)有的分詞器。預(yù)先設(shè)定不同詞庫(kù),例如名詞庫(kù),語(yǔ)句庫(kù),等價(jià)詞庫(kù),否定詞庫(kù),停止詞庫(kù)等。所述等價(jià)詞庫(kù)例如PC等縮寫(xiě)詞等價(jià)于個(gè)人計(jì)算機(jī)等標(biāo)準(zhǔn)詞,否定詞庫(kù)包括有敏感詞等,停止詞庫(kù)包括“啊、吧、的”等常用于結(jié)尾的詞。
[0043]針對(duì)一句話,首先依據(jù)停止詞庫(kù)拆分為不同詞或短句,其次判斷拆分后詞或短句是否還有敏感詞,若含有敏感詞則將其進(jìn)行隱藏,而后依照等價(jià)詞庫(kù)將拆分后詞或短句進(jìn)行標(biāo)準(zhǔn)化,最終依據(jù)名詞庫(kù),語(yǔ)句庫(kù)進(jìn)行最終分詞。
[0044]進(jìn)一步的,分詞之后,判斷所分詞語(yǔ)在句子中是否屬于最大單元,若是則不再處理,否則按最大單元進(jìn)行分詞。所述最大單元指組成單一詞組的最長(zhǎng)字符。舉例來(lái)說(shuō),目標(biāo)文檔中包含本文第一句話“本發(fā)明所提供的基于權(quán)限信息的錄入和檢索方法”,句中“本”、“發(fā)明”均作為一單獨(dú)詞被分開(kāi),分詞后,判斷“本”在句子中是否屬于最大單元,其判斷方法為判斷將“本”和“發(fā)明”連在一起是否構(gòu)成一個(gè)詞,若構(gòu)成一個(gè)詞,則“本發(fā)明”在句子中屬于最大單元。
[0045]步驟S103:將分詞結(jié)果與目標(biāo)文檔進(jìn)行關(guān)聯(lián),存儲(chǔ)至索引文件。
[0046]若一篇目標(biāo)文檔分詞分出100個(gè)不同的詞,本步驟分別將上述100詞依據(jù)各個(gè)詞在文中的位置順序加載一特定標(biāo)識(shí),存儲(chǔ)至索引文件。所述索引文件可以是一數(shù)據(jù)庫(kù)或服務(wù)器等存儲(chǔ)裝置或存儲(chǔ)區(qū)域。進(jìn)一步的,還將后文所述的目標(biāo)文檔的標(biāo)題、權(quán)限信息以及其他信息(目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型等元數(shù)據(jù)信息)加載所述特定標(biāo)識(shí),即同一篇文檔的文檔內(nèi)容、標(biāo)題、權(quán)限信息以及其他信息等綁定在一起,共同錄入索引文件,由此確保一篇文檔數(shù)據(jù)的完整性。進(jìn)一步的,在索引文件中,文檔內(nèi)容、權(quán)限信息以及其他信息分別存儲(chǔ)于不同的域。由此可避免將所有數(shù)據(jù)存儲(chǔ)于一處,在更改時(shí)增加時(shí)間。在還原文檔時(shí),即可依據(jù)同一文檔的特定標(biāo)識(shí),將屬于該文檔的全部數(shù)據(jù)集成到一起,從而提高效率。對(duì)于索引文件信息的添加過(guò)程與現(xiàn)有技術(shù)相同,不再贅述。
[0047]步驟S20:對(duì)目標(biāo)文檔的權(quán)限信息進(jìn)行分詞處理,將分詞結(jié)果與所述目標(biāo)文檔進(jìn)行關(guān)聯(lián)后,存儲(chǔ)至所述索引文件。
[0048]具體的,如圖3所示,本步驟中包括以下步驟:
[0049]步驟S201:獲取對(duì)目標(biāo)文檔有查看權(quán)限對(duì)象的唯一標(biāo)識(shí),即目標(biāo)文檔的權(quán)限信肩、O
[0050]所述具有查看權(quán)限的對(duì)象包括用戶、角色、組織機(jī)構(gòu)代碼證或級(jí)別等,所述權(quán)限信息加載于目標(biāo)文檔的固定位置,對(duì)于權(quán)限信息的獲取屬于現(xiàn)有技術(shù),不再贅述。提取目標(biāo)文檔的權(quán)限信息,即提取出所述對(duì)目標(biāo)文檔有查看權(quán)限對(duì)象的唯一標(biāo)識(shí),所述唯一標(biāo)識(shí)包括:通用唯一識(shí)別碼(UUID, Universally Unique Identifier)、全局唯一標(biāo)識(shí)符(GUID,Globally Unique Identifier)和 / 或其他字符串。
[0051]步驟S202:設(shè)置權(quán)限分詞器,依據(jù)所述權(quán)限分詞器對(duì)目標(biāo)文檔的權(quán)限信息進(jìn)行權(quán)限分詞。
[0052]權(quán)限分詞器對(duì)于權(quán)限信息的分割方式為:
[0053]首先,拆分分詞目標(biāo),本實(shí)施例中,可采用固定一定字符長(zhǎng)度(例如19個(gè)字符串)且以為分隔符結(jié)尾分詞依據(jù),對(duì)權(quán)限信息進(jìn)行拆分。所述分隔符包括非字符的標(biāo)點(diǎn)符號(hào)。
[0054]下面以UUID 為例進(jìn)行說(shuō)明,UUID 的格式包括:χχχχχχχχ-χχχχ-χχχχ-χχχχ-χχχχχχχχχχ (其規(guī)律為 8-4-4-4-12)和 χχχχχχχχ-χχχχ-χχχχ-χχχχχχχχχχχχχχχχ (其規(guī)律為8-4-4-16),其中每個(gè)X是0-9或a-f范圍內(nèi)的一個(gè)十六進(jìn)制的數(shù)字。按一定字符長(zhǎng)度且以為分隔符結(jié)尾對(duì)截取UUID進(jìn)行分詞,分詞結(jié)果為χχχχχχχχ-χχχχ-χχχχ-。
[0055]其次,判斷權(quán)限信息在上述字符長(zhǎng)度內(nèi)是否存在區(qū)別于文檔正文和后文所述的其他信息的規(guī)律。所述規(guī)律參照現(xiàn)有UUID、GUID或其他常用的設(shè)置權(quán)限信息的固定格式,預(yù)存于權(quán)限分詞器中。
[0056]權(quán)限分詞器判斷在設(shè)定的字符長(zhǎng)度內(nèi)存在所述規(guī)律,則以該分隔符為截止,將所述分隔符前的字符從權(quán)限信息中分離出來(lái)。若不存在,則將上述固定的字符長(zhǎng)度+1 (調(diào)整為20個(gè)字符串),在調(diào)整后的字符長(zhǎng)度內(nèi)繼續(xù)尋找,若仍然不存在,在再將字符長(zhǎng)度+1(調(diào)整為21個(gè)字符串),直至尋找到所述規(guī)律。否則確認(rèn)為權(quán)限信息分詞失敗。
[0057]舉例來(lái)說(shuō),尋找所述規(guī)律可通過(guò)正則表達(dá)式實(shí)現(xiàn),例一:([a?zA?ZO?9] {8}_[a ?zA ?ZO ?9] {4}_[a ?zA ?ZO ?9] {4}_[a ?zA ?ZO ?9] {4}_[a ?zA ?ZO ?9] {12} [,\\w.!?_$%'&]? )+ ;
[0058]例一中[a?zA?ZO?9] {8}表示連續(xù)出現(xiàn)8個(gè)字符,[a?zA?ZO?9] {4}表示連續(xù)出現(xiàn)4個(gè)字符,[a?zA?ZO?9] {12}表示連續(xù)出現(xiàn)12個(gè)字符,上述字符包括字母a?z、字母A?Z以及數(shù)字O?9的組合;
[0059][, \\w.!?_$% ~&] ?表示可以“,.!?_$% 這些非字符的標(biāo)點(diǎn)符號(hào)匹配包括下劃線或空白符在內(nèi)的任何單個(gè)字符;
[0060]() +表示匹配模式是貪婪的。貪婪模式則盡可能多的匹配所搜索的字符串。
[0061 ]例二: ([a ?zA ?ZO ?9] {32} [, \\w\\.!?i#$ % "&] ? ) + ;
[0062]第二種數(shù)據(jù)類型中([a?zA?ZO?9] {32}表示連續(xù)出現(xiàn)32個(gè)字符,上述字符包括字母a?z、字母A?Z以及數(shù)字O?9的組合。
[0063][, \\w\\.!?_$%'&]? ) +表示可以“,.!?這些非字符的標(biāo)點(diǎn)符號(hào)匹配包括下劃線或空白符在內(nèi)的任何單詞字符;
[0064]預(yù)存的尋找規(guī)律的表達(dá)式很多,本實(shí)施例僅給出2個(gè)實(shí)施例,本申請(qǐng)重在保護(hù)對(duì)于權(quán)限分詞整體的保護(hù),而并非在于具體的某一個(gè)權(quán)限分詞的結(jié)構(gòu)。
[0065]步驟S203:將分詞結(jié)果加載所述特定標(biāo)識(shí),存儲(chǔ)至所述索引文件。
[0066]對(duì)于一篇目標(biāo)文檔,將該文檔分詞后的權(quán)限信息加載與步驟S103相同的特定標(biāo)識(shí)后存儲(chǔ)至索引文件。
[0067]另外,當(dāng)目標(biāo)文檔權(quán)限信息需要變更時(shí),僅需利用目標(biāo)文檔的所述特定標(biāo)識(shí)查找出索引文件中的該目標(biāo)文檔的權(quán)限信息,進(jìn)而僅對(duì)所述權(quán)限信息進(jìn)行修改即可,操作便利,維護(hù)簡(jiǎn)單。
[0068]步驟S30:將目標(biāo)文檔的其他信息錄入索引文件。
[0069]具體的,目標(biāo)文檔的其他信息包括其創(chuàng)建時(shí)間、大小、類型等元數(shù)據(jù)信息。同樣的,對(duì)于同一篇目標(biāo)文檔,將該文檔的其他信息加載與步驟S103相同的特定標(biāo)識(shí)后存儲(chǔ)至索引文件。
[0070]由于目標(biāo)文檔的文檔內(nèi)容,文檔標(biāo)題、權(quán)限信息以及其他信息采用相同的特定標(biāo)識(shí),因此上述步驟SlO?S30實(shí)質(zhì)將三者綁定在一起,共同錄入索引文件。至此,目標(biāo)文檔的相關(guān)索引文件的錄入所含步驟結(jié)束。
[0071]如圖4所示,基于錄入索引文件的檢索具體包括以下步驟:
[0072]步驟S40:檢索權(quán)限信息。
[0073]通過(guò)驗(yàn)證用戶所輸入的密碼登陸或USB-KEY等方式進(jìn)行身份確認(rèn)。進(jìn)一步的,確認(rèn)用戶身份后,還需確認(rèn)用戶身份權(quán)重,當(dāng)用戶身份權(quán)重最高時(shí),其擁有權(quán)限最多,即該用戶同時(shí)擁有低于其身份權(quán)重的其他用戶的權(quán)限信息。
[0074]身份確認(rèn)后即可獲取用戶所擁有的權(quán)限信息。權(quán)限分詞器采用與上述步驟S20的權(quán)限分詞相同的原理,將所獲取的用戶所擁有的各權(quán)限信息進(jìn)行分詞處理。
[0075]權(quán)限分詞器將各個(gè)權(quán)限信息的分詞結(jié)果采用“或者”的邏輯關(guān)系。
[0076]以索引文件中已存的權(quán)限信息中是否與步驟S40所分詞的權(quán)限信息相同為依據(jù)進(jìn)行檢索,檢索結(jié)果為相同,則檢索成功。
[0077]由上,可檢索出所有滿足該權(quán)限的所有文檔。
[0078]步驟S50:檢索文檔內(nèi)容。
[0079]檢索權(quán)限信息后,用戶輸入需檢索的關(guān)鍵詞語(yǔ)或詞句。
[0080]文檔內(nèi)容分詞器在所述索引文件中對(duì)用戶輸入的關(guān)鍵詞語(yǔ)或詞句進(jìn)行檢索。具體的,文檔內(nèi)容分詞首先對(duì)檢索內(nèi)容中的關(guān)鍵詞或詞句進(jìn)行分詞處理,分詞依據(jù)步驟SlO中對(duì)目標(biāo)文檔的分詞原理相同,對(duì)分詞的結(jié)果在在所述索引文件中進(jìn)行對(duì)比檢索。
[0081]本步驟中,當(dāng)分詞結(jié)果不唯一或?qū)υ~句分出多個(gè)詞時(shí),文檔內(nèi)容查詢器對(duì)各分詞結(jié)果采用“或者”的邏輯關(guān)系。
[0082]步驟S60:檢索其他信息。
[0083]直接將用戶所錄入的目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型等元數(shù)據(jù)信息等其他信息與步驟S30所錄入的目標(biāo)文檔其他信息進(jìn)行對(duì)比檢索。
[0084]步驟S70:依據(jù)步驟S40?步驟S60各查詢器對(duì)比檢索的結(jié)果,將文檔進(jìn)行還原。
[0085]對(duì)于步驟S40?步驟S60的三類查詢器所檢索的結(jié)果采用“并且”的邏輯關(guān)系,由于三類的特定標(biāo)識(shí)相同,故將索引文件中加載有該特定標(biāo)識(shí)的相關(guān)數(shù)據(jù)組織到一起,即可快速還原出目標(biāo)文檔。對(duì)于文檔內(nèi)容的還原,可直接依據(jù)分詞時(shí)各詞在文中的位置進(jìn)行還原。進(jìn)一步的,當(dāng)符合條件的文檔為多個(gè)時(shí),依據(jù)步驟S50中所檢索出的關(guān)鍵詞在文檔中出現(xiàn)的頻率,對(duì)各文檔進(jìn)行排列。
[0086]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明。總之,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種索引文件的錄入方法,其特征在于,包括步驟: A、解析出目標(biāo)文檔的內(nèi)容,對(duì)解析出的內(nèi)容進(jìn)行分詞處理,生成不同的各個(gè)詞語(yǔ); B、解析出目標(biāo)文檔的權(quán)限信息,對(duì)解析出的權(quán)限信息進(jìn)行分詞處理,生成具有權(quán)限信息唯一'I"生的格式; C、分別將步驟A和步驟B的分詞結(jié)果加載一代表其屬于所述目標(biāo)文檔的標(biāo)識(shí),并存儲(chǔ)至索引文件。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A所述解析前還包括: 依據(jù)目標(biāo)文檔實(shí)體的后綴名選擇對(duì)應(yīng)的文檔解析器。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A還包括:判斷所生成的詞語(yǔ)在句子中是否屬于最大單元,若否則將以最大單元進(jìn)行分詞,所述最大單元包括組成單一詞組的最長(zhǎng)字符。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)文檔權(quán)限信息包括通用唯一識(shí)別碼、全局唯一標(biāo)識(shí)符和/或特定字符串。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,步驟B所述分詞處理的步驟包括: B1、以一定字符長(zhǎng)度且以分隔符結(jié)尾為分詞依據(jù),判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)具有權(quán)限信息唯一性的格式時(shí),以所述字符長(zhǎng)度對(duì)權(quán)限信息進(jìn)行分詞。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟B還包括:判斷所述權(quán)限信息在所述字符長(zhǎng)度內(nèi)不具有權(quán)限信息唯一性的格式時(shí),將所述字符長(zhǎng)度增加一字符長(zhǎng)度,返回步驟B所述分詞處理的步驟。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述分隔符包括非字符的標(biāo)點(diǎn)符號(hào)。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟C之后還包括步驟:將目標(biāo)文檔的至少下述一元數(shù)據(jù)信息加載所述代表其屬于所述目標(biāo)文檔的標(biāo)識(shí),并存儲(chǔ)至索引文件: 目標(biāo)文檔的創(chuàng)建時(shí)間、大小、類型。
9.一種基于權(quán)利要求1-8任一所述方法錄入的索引文件的檢索方法,其特征在于,包括步驟: A、解析出用戶的權(quán)限信息,對(duì)解析出的權(quán)限信息進(jìn)行分詞處理; B、解析出用戶所錄入的內(nèi)容,對(duì)解析出的內(nèi)容進(jìn)行分詞處理,生成不同的各個(gè)詞語(yǔ); C、將步驟A和步驟B的分詞結(jié)果采用并且的邏輯關(guān)系運(yùn)算,以索引文件中已存的信息中是否與步驟A和步驟B分詞處理的結(jié)果相同為依據(jù),進(jìn)行檢索。
【文檔編號(hào)】G06F17/30GK104376067SQ201410642110
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年11月13日 優(yōu)先權(quán)日:2014年11月13日
【發(fā)明者】管延軍, 蔣紅宇, 蔡景彪 申請(qǐng)人:北京海泰方圓科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安西县| 福建省| 湘潭市| 枣阳市| 米林县| 京山县| 石柱| 应用必备| 工布江达县| 米林县| 沭阳县| 镇原县| 安达市| 绵阳市| 巨野县| 台州市| 沧源| 上栗县| 巴林左旗| 延庆县| 乌拉特中旗| 会泽县| 靖远县| 格尔木市| 大港区| 沐川县| 五原县| 天气| 集贤县| 甘德县| 罗城| 三亚市| 石泉县| 湟中县| 泗水县| 合作市| 临猗县| 惠州市| 三穗县| 邵阳县| 辉南县|