欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng)及方法

文檔序號:6520970閱讀:1264來源:國知局
對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng)及方法
【專利摘要】本申請公開一種對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng)及方法,包括數(shù)據(jù)聯(lián)合模塊、關(guān)鍵詞提取模塊、關(guān)鍵詞索引建立模塊、海量數(shù)據(jù)存儲(chǔ)模塊以及查詢處理模塊。數(shù)據(jù)聯(lián)合模塊讀取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并形成記錄數(shù)據(jù)和內(nèi)容數(shù)據(jù);關(guān)鍵詞提取模塊對內(nèi)容數(shù)據(jù)進(jìn)行分詞,形成記錄標(biāo)識和該條記錄所包含的關(guān)鍵詞對應(yīng)關(guān)系數(shù)據(jù);關(guān)鍵詞索引建立模塊接收關(guān)鍵詞數(shù)據(jù),對數(shù)據(jù)進(jìn)行倒排,形成關(guān)鍵詞和記錄標(biāo)識的對應(yīng)關(guān)系數(shù)據(jù),并將其存入關(guān)鍵詞索引表。通過本發(fā)明申請的方法,能夠快速有效的對大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合處理和檢索,解決了現(xiàn)有系統(tǒng)無法將二者進(jìn)行高效聯(lián)合處理的問題。
【專利說明】 對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本申請屬于信息【技術(shù)領(lǐng)域】,尤其涉及一種在海量數(shù)據(jù)中對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合處理的系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁、博客、社交網(wǎng)絡(luò)、即時(shí)通信軟件等應(yīng)用迅速普及,產(chǎn)生了大量的內(nèi)容數(shù)據(jù)。其中,用戶注冊信息、訪問記錄等數(shù)據(jù)呈現(xiàn)結(jié)構(gòu)化的特征;而網(wǎng)頁、博客、論壇等內(nèi)容數(shù)據(jù)沒有固定的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)量龐大,呈現(xiàn)出非結(jié)構(gòu)化的數(shù)據(jù)特征。如何對這些大規(guī)模的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行有效的存儲(chǔ)、管理和檢索,成為了業(yè)界研究的熱點(diǎn)。
[0003]傳統(tǒng)的關(guān)系型數(shù)據(jù)庫技術(shù)能夠有效的進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和訪問,支撐基于結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用服務(wù),如用戶管理系統(tǒng)、課程管理系統(tǒng),計(jì)費(fèi)系統(tǒng)等。而對于非結(jié)構(gòu)化文本數(shù)據(jù),搜索引擎技術(shù)能夠?qū)ζ浣⒂行У乃饕瑥亩鴮?shí)現(xiàn)快速檢索用戶關(guān)注的文本內(nèi)容。
[0004]用戶在一些場景下,需要對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合檢索。雖然有一些現(xiàn)有系統(tǒng)也能夠處理類似的問題,如學(xué)術(shù)論文搜索系統(tǒng)、專利檢索系統(tǒng)等,能夠結(jié)合非結(jié)構(gòu)化文本內(nèi)容和結(jié)構(gòu)化的文章屬性等進(jìn)行聯(lián)合檢索,但是這些系統(tǒng)無法處理大規(guī)模的互聯(lián)網(wǎng)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0005]本專利申請要解決的技術(shù)問題是:提供一種能夠快速有效的對大規(guī)模的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合處理的方法,解決現(xiàn)有系統(tǒng)無法將二者進(jìn)行高效聯(lián)合處理的問題。
[0006]為了解決上述技術(shù)問題,本專利申請?zhí)峁┝艘环N對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng)及方法。本申請所述系統(tǒng)包括數(shù)據(jù)聯(lián)合模塊、關(guān)鍵詞提取模塊、關(guān)鍵詞索引建立模塊、海量數(shù)據(jù)存儲(chǔ)模塊以及查詢處理模塊。在海量數(shù)據(jù)存儲(chǔ)模塊中包含兩類數(shù)據(jù)表:聯(lián)合數(shù)據(jù)表以及關(guān)鍵詞索引表,聯(lián)合數(shù)據(jù)表存儲(chǔ)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合以后的數(shù)據(jù),關(guān)鍵詞索引表存放關(guān)鍵詞和記錄標(biāo)識的對應(yīng)關(guān)系數(shù)據(jù),即關(guān)鍵詞索引數(shù)據(jù)。
[0007]數(shù)據(jù)聯(lián)合模塊讀取非結(jié)構(gòu)化的文本數(shù)據(jù),其中包含能夠關(guān)聯(lián)結(jié)構(gòu)化數(shù)據(jù)的標(biāo)識信息,如用戶名、用戶標(biāo)識等。通過結(jié)構(gòu)化數(shù)據(jù)標(biāo)識信息,將非結(jié)構(gòu)化文本和結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合,形成記錄數(shù)據(jù)。聯(lián)合的方法是將結(jié)構(gòu)化數(shù)據(jù)中查詢可能使用的字段(例如姓名、性另O、年齡、職業(yè)、位置等)提取出來,和非結(jié)構(gòu)化文本信息紐合起來,形成一個(gè)存儲(chǔ)結(jié)構(gòu)(如字符串、字節(jié)數(shù)組等)。記錄數(shù)據(jù)中包含非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)字段,并給每條記錄數(shù)據(jù)賦予一個(gè)全局唯一的記錄標(biāo)識。同時(shí)數(shù)據(jù)聯(lián)合模塊將非結(jié)構(gòu)化文本和記錄標(biāo)識結(jié)合形成內(nèi)容數(shù)據(jù)。數(shù)據(jù)聯(lián)合以后,將記錄數(shù)據(jù)存入海量數(shù)據(jù)存儲(chǔ)模塊中的聯(lián)合數(shù)據(jù)表,使用記錄標(biāo)識進(jìn)行區(qū)分,并將內(nèi)容數(shù)據(jù)發(fā)送給關(guān)鍵詞提取模塊進(jìn)行處理。
[0008]海量數(shù)據(jù)存儲(chǔ)模塊用來存儲(chǔ)大規(guī)模的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
[0009]關(guān)鍵詞提取模塊接收到內(nèi)容數(shù)據(jù)以后,對其中的文本進(jìn)行分詞,并根據(jù)分詞后各個(gè)詞的權(quán)重信息,提取出能夠代表文本大意的關(guān)鍵詞信息,形成記錄標(biāo)識和該條記錄所包含的關(guān)鍵詞的對應(yīng)關(guān)系數(shù)據(jù),并將其發(fā)送給關(guān)鍵詞索弓I建立模塊。
[0010]關(guān)鍵詞索引建立模塊接收關(guān)鍵詞數(shù)據(jù),對數(shù)據(jù)進(jìn)行倒排,形成關(guān)鍵詞和記錄標(biāo)識的對應(yīng)關(guān)系數(shù)據(jù),并將其存入海量數(shù)據(jù)存儲(chǔ)模塊中的關(guān)鍵詞索引表。
[0011]查詢處理模塊接收客戶端的查詢請求,根據(jù)請求中的關(guān)鍵詞條件,查詢關(guān)鍵詞索引表,獲取符合條件的記錄標(biāo)識集合,再根據(jù)結(jié)構(gòu)化查詢條件和關(guān)鍵詞記錄標(biāo)識集合,查詢聯(lián)合記錄表,獲取符合條件的數(shù)據(jù)記錄,返回給應(yīng)用客戶端。
[0012]本申請的有益后果是:
[0013]采用本專利申請所述的系統(tǒng)及方法,對非結(jié)構(gòu)化文本數(shù)據(jù)提取出來的關(guān)鍵詞建立索引,通過關(guān)鍵詞索引快速獲取到符合關(guān)鍵詞條件的記錄標(biāo)識,通過記錄標(biāo)識查詢聯(lián)合數(shù)據(jù)表,并使用結(jié)構(gòu)化查詢條件進(jìn)行過濾,能夠快速有效的對大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合處理和檢索,解決了現(xiàn)有系統(tǒng)無法將二者進(jìn)行高效聯(lián)合處理的問題。
【專利附圖】

【附圖說明】
[0014]附圖1為本專利申請的系統(tǒng)架構(gòu)圖
[0015]附圖2為檢索流程圖
【具體實(shí)施方式】
[0016]本專利申請所述的對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng)及方法,其系統(tǒng)架構(gòu)如附圖1所示,包括數(shù)據(jù)聯(lián)合模塊、關(guān)鍵詞提取模塊、關(guān)鍵詞索引建立模塊、海量數(shù)據(jù)存儲(chǔ)模塊以及查詢處理模塊,其中,海量數(shù)據(jù)存儲(chǔ)模塊包含聯(lián)合數(shù)據(jù)表以及關(guān)鍵詞索引。
[0017]本專利申請所述海量數(shù)據(jù)模塊區(qū)別于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,海量數(shù)據(jù)存儲(chǔ)模塊可以存儲(chǔ)非關(guān)系型的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),具有分布式可線性擴(kuò)展的體系架構(gòu),存儲(chǔ)容量可以達(dá)到數(shù)百TB至數(shù)十PB級別。比較成熟的海量數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)有開源的HBaSe、HyperTable等。在海量數(shù)據(jù)存儲(chǔ)模塊的聯(lián)合數(shù)據(jù)表中,使用記錄標(biāo)識作為記錄數(shù)據(jù)的行鍵(RowKey),能夠通過記錄標(biāo)識快速獲取到記錄數(shù)據(jù)。通過對記錄數(shù)據(jù)中的結(jié)構(gòu)化字段建立自定義的過濾器,能夠獲取到符合不同結(jié)構(gòu)化查詢條件的記錄數(shù)據(jù)。
[0018]查詢處理流程如附圖2所示,具體包括如下步驟:
[0019]I)查詢條件分析。首先,從查詢請求中獲取關(guān)鍵詞條件和結(jié)構(gòu)化查詢條件;然后,從多個(gè)關(guān)鍵詞條件中分離出不重復(fù)的關(guān)鍵詞,生成關(guān)鍵詞列表;同時(shí)保存關(guān)鍵詞邏輯關(guān)系以及結(jié)構(gòu)化查詢條件;
[0020]2)關(guān)鍵詞索引查詢。根據(jù)分離出的關(guān)鍵詞列表,從關(guān)鍵詞索引表中查詢所有關(guān)鍵詞對應(yīng)的記錄標(biāo)識,生成關(guān)鍵詞對應(yīng)的記錄標(biāo)識列表;
[0021]3)記錄歸并。根據(jù)關(guān)鍵詞邏輯關(guān)系,對關(guān)鍵詞查詢到的關(guān)鍵詞對應(yīng)記錄標(biāo)識列表做集合運(yùn)算,獲取最終符合關(guān)鍵詞條件的記錄標(biāo)識集合。關(guān)鍵詞為“與”關(guān)系,則對應(yīng)的記錄標(biāo)識列表做交集運(yùn)算;關(guān)鍵詞為“或”關(guān)系,則對應(yīng)的記錄標(biāo)識列表做并集運(yùn)算。
[0022]例如關(guān)鍵詞邏輯關(guān)系為:(關(guān)鍵詞1&&關(guān)鍵詞2) I I關(guān)鍵詞3,則最終符合條件的記錄標(biāo)識集合為關(guān)鍵詞I和關(guān)鍵詞2對應(yīng)的記錄列表做交集,之后再和關(guān)鍵詞3對應(yīng)的記錄標(biāo)識集合做并集。[0023]4)聯(lián)合數(shù)據(jù)表查詢。對符合關(guān)鍵詞條件的記錄標(biāo)識集合中的每個(gè)記錄標(biāo)識,結(jié)合結(jié)構(gòu)化查詢條件做過濾,查詢聯(lián)合數(shù)據(jù)表,獲取最終符合全部查詢條件的記錄,并返回給客戶端。
[0024]以上實(shí)施方案的說明只適用于幫助理解本專利申請的原理,同時(shí)對本領(lǐng)域的一般技術(shù)人員,依據(jù)本專利申請實(shí)施例,在【具體實(shí)施方式】以及應(yīng)用范圍上均會(huì)有改變之處,因此本說明書內(nèi)容不應(yīng)理解為對本專利申請的限制。
【權(quán)利要求】
1.對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的系統(tǒng),其特征在于:包括數(shù)據(jù)聯(lián)合模塊、關(guān)鍵詞提取模塊、關(guān)鍵詞索弓I建立模塊、海量數(shù)據(jù)存儲(chǔ)模塊以及查詢處理模塊。
2.對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的方法,其特征在于,數(shù)據(jù)存儲(chǔ)過程包括如下步驟: 1)數(shù)據(jù)聯(lián)合模塊讀取結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過結(jié)構(gòu)化數(shù)據(jù)標(biāo)識信息將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合,形成記錄數(shù)據(jù),聯(lián)合的方法是將結(jié)構(gòu)化數(shù)據(jù)中查詢可能使用的字段提取出來,和非結(jié)構(gòu)化文本信息組合起來,形成一個(gè)存儲(chǔ)結(jié)構(gòu); 2)給每條記錄數(shù)據(jù)賦予一個(gè)全局唯一的記錄標(biāo)識,將非結(jié)構(gòu)化數(shù)據(jù)和該記錄標(biāo)識結(jié)合形成內(nèi)容數(shù)據(jù); 3)將記錄數(shù)據(jù)存入海量數(shù)據(jù)存儲(chǔ)模塊中,將內(nèi)容數(shù)據(jù)發(fā)送給關(guān)鍵詞提取模塊; 4)關(guān)鍵詞提取模塊接收到內(nèi)容數(shù)據(jù)以后,對其中的文本進(jìn)行分詞,并根據(jù)分詞后各個(gè)詞的權(quán)重信息,提取出能夠代表文本大意的關(guān)鍵詞信息,形成記錄標(biāo)識和該條記錄所包含的關(guān)鍵詞對應(yīng)關(guān)系數(shù)據(jù),并將其發(fā)送給關(guān)鍵詞索引建立模塊; 5)關(guān)鍵詞索引建立模塊接收關(guān)鍵詞數(shù)據(jù),對數(shù)據(jù)進(jìn)行倒排,形成關(guān)鍵詞和記錄標(biāo)識的對應(yīng)關(guān)系數(shù)據(jù),并將其存入海量數(shù)據(jù)存儲(chǔ)模塊中。
3.如權(quán)利要求2所述的對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的方法,其特征在于:海量數(shù)據(jù)存儲(chǔ)模塊中包含聯(lián)合數(shù)據(jù)表以及關(guān)鍵詞索引表;聯(lián)合數(shù)據(jù)表存儲(chǔ)記錄數(shù)據(jù),關(guān)鍵詞索弓I表存儲(chǔ)關(guān)鍵詞索弓I數(shù)據(jù)。
4.如權(quán)利要求2所述的對大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理的方法,其特征在于,進(jìn)行數(shù)據(jù)檢索時(shí),包括如下步驟: 1)從查詢請求中獲取關(guān)鍵詞條件和結(jié)構(gòu)化查詢條件,從關(guān)鍵詞條件中分離出不重復(fù)的關(guān)鍵詞,生成關(guān)鍵詞列表;同時(shí)保存關(guān)鍵詞邏輯關(guān)系以及結(jié)構(gòu)化查詢條件; 2)根據(jù)分離出的關(guān)鍵詞列表,從關(guān)鍵詞索引表中查詢所有關(guān)鍵詞對應(yīng)的記錄標(biāo)識,生成關(guān)鍵詞對應(yīng)的記錄標(biāo)識列表; 3)根據(jù)關(guān)鍵詞邏輯關(guān)系,對關(guān)鍵詞查詢到的關(guān)鍵詞對應(yīng)記錄標(biāo)識列表做集合運(yùn)算,關(guān)鍵詞為“與”關(guān)系,則對應(yīng)的記錄標(biāo)識列表做交集運(yùn)算,關(guān)鍵詞為“或”關(guān)系,則對應(yīng)的記錄標(biāo)識列表做并集運(yùn)算,獲取最終符合關(guān)鍵詞條件的記錄標(biāo)識集合; 4)對符合關(guān)鍵詞條件的記錄標(biāo)識集合中的每個(gè)記錄標(biāo)識,結(jié)合結(jié)構(gòu)化查詢條件做過濾,查詢聯(lián)合數(shù)據(jù)表,獲取最終符合全部查詢條件的記錄。
【文檔編號】G06F17/30GK103631909SQ201310615976
【公開日】2014年3月12日 申請日期:2013年11月26日 優(yōu)先權(quán)日:2013年11月26日
【發(fā)明者】周帥鋒, 趙智峰, 曹俊亮, 穆寧 申請人:烽火通信科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
改则县| 五常市| 伊金霍洛旗| 澄迈县| 门头沟区| 大邑县| 无锡市| 东乌珠穆沁旗| 永昌县| 康定县| 买车| 瑞昌市| 泗阳县| 乃东县| 随州市| 崇左市| 金坛市| 台中市| 哈巴河县| 唐山市| 祁东县| 博野县| 邢台县| 公安县| 论坛| 左权县| 永德县| 迁安市| 土默特右旗| 九江县| 玛纳斯县| 八宿县| 阆中市| 油尖旺区| 秭归县| 古交市| 南宁市| 奉新县| 邵东县| 赣榆县| 无极县|