專利名稱:數(shù)據(jù)索引裝置和數(shù)據(jù)索引方法
技術領域:
本發(fā)明涉及數(shù)據(jù)處理領域,具體而言,涉及一種數(shù)據(jù)索引裝置和數(shù)據(jù)索引方法。
背景技術:
隨著網(wǎng)絡技術的發(fā)展,特別是互聯(lián)網(wǎng)和企業(yè)內(nèi)部網(wǎng)技術的飛快發(fā)展,使得半結構化數(shù)據(jù)的數(shù)量日趨增大。目前,對半結構化數(shù)據(jù)的處理主要是做結構化處理,進行結構化處理耗時較長,隨著數(shù)據(jù)結構越來越來越復雜,結構化處理將越來越不適合產(chǎn)品應用。因此,需要一種新的技術方案,可以使得在處理半結構化數(shù)據(jù)時,避免對其進行結構化處理時產(chǎn)生的耗時長等問題,而可以采取更好的方法對半結構化數(shù)據(jù)進行處理
發(fā)明內(nèi)容
·
本發(fā)明正是基于上述問題,提出了一種新的技術方案,可以使得在處理半結構化數(shù)據(jù)時,避免對其進行結構化處理時產(chǎn)生的耗時長等問題,而可以采取更好的方法對半結構化數(shù)據(jù)進行處理。有鑒于此,本發(fā)明提出了一種數(shù)據(jù)索引裝置,包括讀取單元,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串;標記單元,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽;索引建立單元,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。在該技術方案中,在處理半結構化數(shù)據(jù)時,將半結構化數(shù)據(jù)中與索引字段匹配的字段加上標簽,在搜索引擎建立索引時,找到與需要索引的字段相匹配的標簽即可,而不必再對數(shù)據(jù)進行結構化處理,從而方便搜索引擎建立索引,使得搜索引擎的實時性有了更大的提升。在上述技術方案中,優(yōu)選地,還包括轉(zhuǎn)存單元,在所述讀取單元讀取完所述半結構化數(shù)據(jù)以后,將所有已加入標簽的數(shù)據(jù)轉(zhuǎn)存到索引目錄中。在該技術方案中,在對半結構化數(shù)據(jù)進行遍歷以后,將所有已加標簽的數(shù)據(jù)都存到索引目錄,這樣搜索引擎在建立索引時,只從索引目錄中查找與其搜索內(nèi)容匹配的標簽即可,而不必在所有半結構化數(shù)據(jù)中進行查找匹配,從而縮短了查找時間,能夠更快速地為搜索引擎提供數(shù)據(jù)源。在上述技術方案中,優(yōu)選地,所述標簽包括標簽標識、字段位置及字段信息。在該技術方案中,加入到符合字段的標簽上除了包含標簽標識外,還包括字段位置和字段信息,搜索引擎在建立索引時,根據(jù)標簽位置及標簽信息即可找到與其搜索內(nèi)容匹配的標簽。 在上述技術方案中,優(yōu)選地,所述字段位置包括字段偏移量,所述字段信息包括字段名稱。在該技術方案中,具體地,字段位置包括字段的偏移量,字段信息包括字段名稱,搜索引擎在建立索引時,根據(jù)索引內(nèi)容找到與其匹配的字段名稱,再根據(jù)標簽中字段名稱對應的字段偏移量,找到字段,從而建立索引。在上述技術方案中,優(yōu)選地,所述索引目錄中包括多種數(shù)據(jù)源格式的數(shù)據(jù)。本發(fā)明的技術方案可以適用于多種數(shù)據(jù)源格式。根據(jù)本發(fā)明的又一方面,還提供了一種數(shù)據(jù)索引方法,包括步驟202,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串;步驟204,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽;步驟206,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。在該技術方案中,在處理半結構化數(shù)據(jù)時,將半結構化數(shù)據(jù)中與索引字段匹配的字段加上標簽,在搜索引擎建立索引時,找到與需要索引的字段相匹配的標簽即可,從而方便搜索引擎建立索引,使得搜索引擎的實時性有更大的提升。 在上述技術方案中,優(yōu)選地,所述步驟206還包括在讀取完所述半結構化數(shù)據(jù)以后,將所有已加入標簽的數(shù)據(jù)轉(zhuǎn)存到索引目錄中。在該技術方案中,在對半結構化數(shù)據(jù)進行遍歷以后,將所有已加標簽的數(shù)據(jù)都存到索引目錄,這樣搜索引擎在建立索引時,只從索引目錄中查找與其搜索內(nèi)容匹配的標簽即可,而不必在所有半結構化數(shù)據(jù)中進行查找匹配,從而縮短了查找時間,能夠更快速的為搜索引擎提供數(shù)據(jù)源。在上述技術方案中,優(yōu)選地,所述標簽包括標簽標識、字段位置及字段信息。在該技術方案中,加入到符合字段的標簽上除了包含標簽標識外,還包括字段位置和字段信息,搜索引擎在建立索引時,根據(jù)標簽位置及標簽信息即可找到與其搜索內(nèi)容匹配的標簽。在上述技術方案中,優(yōu)選地,所述字段位置包括字段偏移量,所述字段信息包括字段名稱。在該技術方案中,具體地,字段位置包括字段的偏移量,字段信息包括字段名稱,搜索引擎在建立索引時,根據(jù)索引內(nèi)容找到與其匹配的字段名稱,再根據(jù)標簽中字段名稱對應的字段偏移量,找到字段,從而建立索引。在上述技術方案中,優(yōu)選地,所述索引目錄中包括多種數(shù)據(jù)源格式的數(shù)據(jù)。本發(fā)明的技術方案可以適用于多種數(shù)據(jù)源格式。通過以上技術方案,將半結構化數(shù)據(jù)中與索引字段符合的字段加入標簽,搜索引擎根據(jù)標簽建立索引,這樣對半結構化數(shù)據(jù)做了預處理,不必再對數(shù)據(jù)進行結構化處理,從而提高了索引的速度。
圖I示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引裝置的框圖;圖2示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引方法的流程圖;圖3示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引方法的具體流程圖。
具體實施例方式為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和具體實施方式
對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。圖I示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引裝置的框圖。如圖I所示,本發(fā)明的實施例的數(shù)據(jù)索引裝置100包括讀取單元102,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串;標記單元104,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽;索引建立單元106,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。
在該技術方案中,在處理半結構化數(shù)據(jù)時,將半結構化數(shù)據(jù)中與索引字段匹配的字段加上標簽,在搜索引擎建立索引時,找到與需要索引的字段相匹配的標簽即可,不必再對數(shù)據(jù)進行結構化,從而方便搜索引擎建立索引,使得搜索引擎的實時性有更大的提升。在上述技術方案中,優(yōu)選地,還包括轉(zhuǎn)存單元108,在所述讀取單元102讀取完所述半結構化數(shù)據(jù)以后,將所有已加入標簽的數(shù)據(jù)轉(zhuǎn)存到索引目錄中。在該技術方案中,在對半結構化數(shù)據(jù)進行遍歷以后,將所有已加標簽的數(shù)據(jù)都存到索引目錄,這樣搜索引擎在建立索引時,只從索引目錄中查找與其搜索內(nèi)容匹配的標簽即可,而不必在所有半結構化數(shù)據(jù)中進行查找匹配,從而縮短了查找時間,能夠更快速的為搜索引擎提供數(shù)據(jù)源。在上述技術方案中,優(yōu)選地,所述標簽包括標簽標識、字段位置及字段信息。在該技術方案中,加入到符合字段的標簽上除了包含標簽標識外,還包括字段位置和字段信息,搜索引擎在建立索引時,根據(jù)標簽位置及標簽信息即可找到與其搜索內(nèi)容匹配的標簽。在上述技術方案中,優(yōu)選地,所述字段位置包括字段偏移量,所述字段信息包括字段名稱。在該技術方案中,具體地,字段位置包括字段的偏移量,字段信息包括字段名稱,搜索引擎在建立索引時,根據(jù)索引內(nèi)容找到與其匹配的字段名稱,再根據(jù)標簽中字段名稱對應的字段偏移量,找到字段,從而建立索引。在上述技術方案中,優(yōu)選地,所述索引目錄中包括多種數(shù)據(jù)源格式的數(shù)據(jù)。 本發(fā)明的技術方案可以適用于多種數(shù)據(jù)源格式。圖2示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引方法的流程圖。如圖2所示,本發(fā)明的實施例的數(shù)據(jù)索引方法,包括步驟202,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串;步驟204,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽;步驟206,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。在該技術方案中,在處理半結構化數(shù)據(jù)時,將半結構化數(shù)據(jù)中與索引字段匹配的字段加上標簽,在搜索引擎建立索引時,找到與需要索引的字段相匹配的標簽即可,不必再對數(shù)據(jù)進行結構化,從而方便搜索引擎建立索引,使得搜索引擎的實時性有更大的提升。在上述技術方案中,優(yōu)選地,所述步驟206還包括在讀取完所述半結構化數(shù)據(jù)以后,將所有已加入標簽的數(shù)據(jù)轉(zhuǎn)存到索引目錄中。
在該技術方案中,在對半結構化數(shù)據(jù)進行遍歷以后,將所有已加標簽的數(shù)據(jù)都存到索引目錄,這樣搜索引擎在建立索引時,只從索引目錄中查找與其搜索內(nèi)容匹配的標簽即可,而不必在所有半結構化數(shù)據(jù)中進行查找匹配,從而縮短了查找時間,能夠更快速的為搜索引擎提供數(shù)據(jù)源。在上述技術方案中,優(yōu)選地,所述標簽包括標簽標識、字段位置及字段信息。在該技術方案中,加入到符合字段的標簽上,除了包含標簽標識外,還包括字段位置和字段信息,搜索引擎在建立索引時,根據(jù)標簽位置及標簽信息即可找到與其搜索內(nèi)容匹配的標簽。在上述技術方案中,優(yōu)選地,所述字段位置包括字段偏移量,所述字段信息包括字段名稱。在該技術方案中,具體地,字段位置包括字段的偏移量,字段信息包括字段名稱,·搜索引擎在建立索引時,根據(jù)索引內(nèi)容找到與其匹配的字段名稱,再根據(jù)標簽中字段名稱對應的字段偏移量,找到字段,從而建立索引。在上述技術方案中,優(yōu)選地,所述索引目錄中包括多種數(shù)據(jù)源格式的數(shù)據(jù)。本發(fā)明的技術方案可以適用于多種數(shù)據(jù)源格式。圖3示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引方法的具體流程圖。如圖3所示,本發(fā)明的實施例的數(shù)據(jù)索引方法的具體流程如下步驟302,開始對半結構化數(shù)據(jù)的原始數(shù)據(jù)進行讀取。步驟304,讀取一行數(shù)據(jù)加入到內(nèi)存中。步驟306,判斷讀取的數(shù)據(jù)中是否有與索引字段相匹配的字符串。步驟308,如果判斷結果為否,則不對讀取的數(shù)據(jù)做處理,也不將其加入索引庫。步驟310,如果讀取的一行數(shù)據(jù)中有與索引字段相匹配的字符串,則將該字段打標簽。標簽中除了包含標簽標識外,還包括字段位置和字段信息,具體地,字段位置可以包括字段的偏移量,字段信息可以包括字段名稱,這樣搜索引擎在建立索引時,根據(jù)索引內(nèi)容找到與其匹配的字段名稱,再根據(jù)標簽中字段名稱對應的字段偏移量,找到字段,從而建立索引。步驟312,打標簽的數(shù)據(jù)放入內(nèi)存中。步驟314,在讀取完所有的半結構化數(shù)據(jù)以后,將內(nèi)存中所有已打標簽的數(shù)據(jù)存入索引目錄。這樣搜索引擎在建立索引時,只從索引目錄中查找與其搜索內(nèi)容匹配的標簽即可,而不必在所有半結構化數(shù)據(jù)中進行查找匹配,從而縮短了查找時間,能夠更快速的為搜索引擎提供數(shù)據(jù)源。下面列舉一個標簽的例子來詳細說明本發(fā)明的技術方案。根據(jù)本發(fā)明的實施例的數(shù)據(jù)索引方法,在數(shù)據(jù)收集過程中,對符合字段打標簽,標注此字段位置及字段信息,搜索引擎建立索引時匹配標簽即可,不必再對數(shù)據(jù)進行結構化。下面為標簽樣例GET/ flower_store / category. screen category_id = GIFTSHTTP/1. I" <lable>response, 3</lable>20010567樣例中<lable>為標簽標識,response為字段名稱,3為字段偏移值。搜索引擎根據(jù)字段名稱和字段偏移量取出需要索引的字段,添加到索引當中。
以上結合附圖詳細說明了本發(fā)明的技術方案,通過本發(fā)明的技術方案,在處理半結構化數(shù)據(jù)時,將半結構化數(shù)據(jù)中與索引字段匹配的字段加上標簽,在搜索引擎建立索引時,找到與需要索引的字段相匹配的標簽即可,不必再對數(shù)據(jù)進行結構化,從而方便搜索引擎建立索引,使得搜索引擎的實時性有更大的提升。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技 術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種數(shù)據(jù)索引裝置,其特征在于,包括 讀取單元,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串; 標記單元,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽; 索引建立單元,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。
2.根據(jù)權利要求I所述的數(shù)據(jù)索引裝置,其特征在于,還包括 轉(zhuǎn)存單元,在所述讀取單元讀取完所述半結構化數(shù)據(jù)以后,將所有已加入標簽的數(shù)據(jù)轉(zhuǎn)存到索引目錄中。
3.根據(jù)權利要求2所述的數(shù)據(jù)索引裝置,其特征在于,所述標簽包括標簽標識、字段位置及字段信息。
4.根據(jù)權利要求3所述的數(shù)據(jù)索引裝置,其特征在于,所述字段位置包括字段偏移量,所述字段信息包括字段名稱。
5.根據(jù)權利要求I至4中任一項所述的數(shù)據(jù)索引裝置,其特征在于,所述索引目錄中包括多種數(shù)據(jù)源格式的數(shù)據(jù)。
6.一種數(shù)據(jù)索引方法,其特征在于,包括 步驟202,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串; 步驟204,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽; 步驟206,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。
7.根據(jù)權利要求6所述的數(shù)據(jù)索引方法,其特征在于,所述步驟206還包括 在讀取完所述半結構化數(shù)據(jù)以后,將所有已加入標簽的數(shù)據(jù)轉(zhuǎn)存到索引目錄中。
8.根據(jù)權利要求7所述的數(shù)據(jù)索引方法,其特征在于,所述標簽包括標簽標識、字段位置及字段信息。
9.根據(jù)權利要求8所述的數(shù)據(jù)索引方法,其特征在于,所述字段位置包括字段偏移量,所述字段信息包括字段名稱。
10.根據(jù)權利要求6至9中任一項所述的數(shù)據(jù)索引方法,其特征在于,所述索引目錄中包括多種數(shù)據(jù)源格式的數(shù)據(jù)。
全文摘要
本發(fā)明提出了一種數(shù)據(jù)索引裝置,包括讀取單元,讀取半結構化數(shù)據(jù),判斷所述半結構化數(shù)據(jù)中是否有與索引字段相匹配的字符串;標記單元,將所述字符串與索引字段相匹配的字段標記為符合字段,并在所述符合字段加入標簽;索引建立單元,搜索引擎根據(jù)所述標簽查找到需要索引的字段,并建立索引。相應地,本發(fā)明還提供了一種數(shù)據(jù)索引方法。通過本發(fā)明的技術方案,在讀取半結構化數(shù)據(jù)時,將半結構化數(shù)據(jù)中與索引字段匹配的字段加上標簽,在搜索引擎建立索引時,找到與需要索引的字段相匹配的標簽即可,不必再對數(shù)據(jù)進行結構化,從而方便搜索引擎建立索引,使得搜索引擎的實時性有了更大的提升。
文檔編號G06F17/30GK102945286SQ20121049102
公開日2013年2月27日 申請日期2012年11月27日 優(yōu)先權日2012年11月27日
發(fā)明者趙興成 申請人:深圳中興網(wǎng)信科技有限公司