欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Lucene分片結(jié)構(gòu)的打分處理方法及系統(tǒng)的制作方法

文檔序號:6511213閱讀:173來源:國知局
一種基于Lucene分片結(jié)構(gòu)的打分處理方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于Lucene分片結(jié)構(gòu)的打分處理方法及系統(tǒng),包括對索引文件進(jìn)行數(shù)據(jù)拆分,形成索引文件分片數(shù)據(jù),然后分到各個分片處理器上,完成初始化工作;搜索處理器接收用戶輸入的查詢信息,對查詢信息進(jìn)行分詞處理,形成搜索詞項;依次按照搜索詞項,在全局信息緩沖器中進(jìn)行查找,是否存在本搜索詞項的相關(guān)信息;如果不存在,直接把這個搜索詞項發(fā)送到各個分片處理器進(jìn)行處理;如果存在,則搜索處理器先從全局信息緩沖器中獲取該搜索詞項的全局信息,然后再發(fā)給各個分片處理器進(jìn)行處理。本發(fā)明通過多次請求處理全局信息,使各個分片共享全局信息,解決了同一個詞項在不同分片中計算的得分不一致的問題,使搜索結(jié)果的排序更合理。
【專利說明】—種基于Lucene分片結(jié)構(gòu)的打分處理方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于海量數(shù)據(jù)處理【技術(shù)領(lǐng)域】,具體涉及一種基于Lucene分片結(jié)構(gòu)的打分處理方法及系統(tǒng)。
【背景技術(shù)】 [0002]隨著互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)信息飛速增長,人們在日常工作和生活中已經(jīng)越來越依賴網(wǎng)絡(luò)來獲取信息,那么如何快速找到所需要的信息對于人們的重要性是不言而喻的。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫檢索方式已經(jīng)無法支撐目前互聯(lián)網(wǎng)如此大的數(shù)據(jù)量的檢索,因此全文搜索作為一種大數(shù)據(jù)量的查詢方式應(yīng)運而生,而這其中又以Lucene為代表的全文搜索工具以其高效率,高準(zhǔn)確率,高擴(kuò)展的優(yōu)點越來越多的被互聯(lián)網(wǎng)企業(yè)使用。
[0003]但是因為Lucene的簡單易用的特點決定了其在處理更大數(shù)據(jù)的時候有一定的弊端,Lucene底層還是屬于單機(jī)的搜索工具,對于能處理的單個搜索的大小,有一定的限制,因此在解決大數(shù)據(jù)量的全文搜索,就成了一個亟待解決的問題。特別是隨著互聯(lián)網(wǎng)數(shù)據(jù)量的海量規(guī)模,分布式的搜索顯得尤為必要。
[0004]在分布式搜索方法方面,專利“一種基于Lucene的分布式搜索方法”(申請?zhí)?201110122631.7)提出的方法主要為:包括索引步驟和搜索步驟;所述的索引步驟為通過至少一臺建立索引的索引主機(jī),與至少兩臺從屬服務(wù)器通過分布式文件系統(tǒng)的方式結(jié)合;所述搜索流程,由至少一臺搜索主機(jī)和至少兩臺從屬服務(wù)器組成搜索引擎。本專利提出的方法有效解決單機(jī)搜索性能差的問題,通過多個服務(wù)器的合作,能有效進(jìn)行擴(kuò)展,并且在索引數(shù)量增大時,索引維護(hù)不會由于消耗服務(wù)器性能而影響搜索的性能效果。
[0005]但此專利沒有指出通過這種搜索方法,搜索結(jié)果是如何進(jìn)行合理的排序方法。因為對于搜索的效果來說,搜索結(jié)果的排序?qū)τ谟脩羲阉鱽碚f是非常重要的。
[0006]Lucene中搜索結(jié)果的排序時需要對搜索結(jié)果進(jìn)行打分處理,Lucene經(jīng)典的打分策略打分公式如下所示:
[0007]
【權(quán)利要求】
1.一種基于Lucene分片結(jié)構(gòu)的打分處理方法,包括: 對索引文件進(jìn)行數(shù)據(jù)拆分,形成索引文件分片數(shù)據(jù),然后分到各個分片處理器上,完成索引文件的初始化工作; 搜索處理器接收用戶輸入的查詢信息,對查詢信息進(jìn)行分詞處理,形成I個或多個搜索詞項; 依次按照搜索詞項,在全局信息緩沖器中進(jìn)行查找,是否存在本搜索詞項的相關(guān)信息;如果不存在,直接執(zhí)行步驟1,如果存在,則搜索處理器先從全局信息緩沖器中獲取該搜索詞項的全局信息idf(t),然后執(zhí)行步驟4 ; 步驟1:把這個搜索詞項發(fā)送到各個分片處理器,分片處理器根據(jù)存儲在其中的索引文件分片數(shù)據(jù),過濾出包含這個搜索詞項的命中文檔數(shù)量,然后把這個搜索詞項的命中文檔數(shù)量以及該索引文件分片數(shù)據(jù)包含的總文檔數(shù)量一起返回給搜索處理器; 步驟2:搜索處理器匯總各個分片處理器返回的這個搜索詞項的命中文檔數(shù)量以及該索引文件分片數(shù)據(jù)包含的總文檔數(shù)量,計算出該搜索詞項的全局信息idf (t); 步驟3:搜索處理器把這個搜索詞項的全局信息idf (t)保存到全局信息緩沖器中;步驟4:搜索處理器把得出的搜索詞項的全局信息idf(t)發(fā)給各個分片處理器,分片處理器接收到搜索詞項的全局信息idf (t)后,根據(jù)存儲在其中的索引文件分片數(shù)據(jù),計算出索引文件分片數(shù)據(jù)中各個命中文檔的得分; 步驟5:通過以上過程,得出用戶搜索信息中各個搜索詞項的得分后,就搜索詞項命中的各個文檔,按照需要對其中包含的多個搜索詞項的得分進(jìn)行“與”操作運算,或者是進(jìn)行“或”操作運算,得出每個命中文檔的得分總值; 步驟6:按照每個命中文檔的得分總值,對所有的命中文檔進(jìn)行排序;并根據(jù)搜索結(jié)果展示條件的需要,提取排名在前面的一定數(shù)量的命中文檔作為搜索結(jié)果按照得分總值從大到小進(jìn)行排序展示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟2中,根據(jù)公式: ’計算出該搜索詞項的全局信息idf (t);其中,t表不某個搜索詞項,docFreq表示t的命中文檔數(shù)量,numDocs表示索引文件的總文檔數(shù)量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟4中計算出索引文件分片數(shù)據(jù)中各個命中文檔的得分是通過根據(jù)公式:
score(q} d) = coord(q, d) x queryNonn{q) x (tf(t in d)nidf(tf x LgetBmsiQ >c norm{t, d})計算 獲得的。
4.根據(jù)權(quán)利要求1至3之一所述的方法,其特征在于:所述全局信息緩沖器包括全局信息存儲單元、定時器、定量器,所述全局信息存儲單元分別與定時器、定量器相連;` 所述全局信息存儲單元,用于保存搜索詞項的全局信息idf(t); 所述定時器,用于設(shè)置全局信息存儲單元的信息保存時間,一旦時間到,將對全局信息存儲單元中保存的信息全部清空; 所述定量器,用于設(shè)置全局信息存儲單元的信息保存數(shù)量,一旦其中的信息超過設(shè)置的數(shù)量,將刪除最早進(jìn)入全局信息存儲單元的全局信息,以保證全局信息存儲單元中保存最新的全局信息。
5.一種基于Lucene分片結(jié)構(gòu)的打分處理系統(tǒng),其特征在于,它包括: 搜索處理器、全局信息緩沖器、分片處理器,所述分片處理器由分片搜索模塊和索引文件分片數(shù)據(jù)存儲模塊組成;系統(tǒng)中存在著多個分片處理器; 所述搜索處理器分別與全局信息緩沖器、多個分片處理器相連;在分片處理器中,分片搜索模塊與索引文件分片數(shù)據(jù)存儲模塊相連; 所述搜索處理器,是整個系統(tǒng)的樞紐,用于接收用戶輸入的搜索信息,并把搜索信息進(jìn)行分詞處理,還用于與全局信息緩沖器以及多個分片處理器進(jìn)行數(shù)據(jù)交互,并對各個分片處理器返回的數(shù)據(jù)進(jìn)行匯總計算,對命中文檔按得分總值進(jìn)行排序; 所述全局信息緩沖器,用于保存搜索詞項的全局信息idf(t); 所述分片處理器 ,用于保存索引文件分片數(shù)據(jù),并對索引文件分片數(shù)據(jù)進(jìn)行處理; 所述分片搜索模塊,用于對索引文件分片數(shù)據(jù)進(jìn)行過濾、運算等處理; 所述索引文件分片數(shù)據(jù)存儲模塊,用于保存索引文件分片數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于:所述全局信息緩沖器包括全局信息存儲單元、定時器、定量器,所述全局信息存儲單元分別與定時器、定量器相連; 所述全局信息存儲單元,用于保存搜索詞項的全局信息idf(t); 所述定時器,用于設(shè)置全局信息存儲單元的信息保存時間,一旦時間到,將對全局信息存儲單元中保存的信息全部清空; 所述定量器,用于設(shè)置全局信息存儲單元的信息保存數(shù)量,一旦其中的信息超過設(shè)置的數(shù)量,將刪除最早進(jìn)入全局信息存儲單元的全局信息,以保證全局信息存儲單元中保存最新的全局信息。
7.—種全局信息緩沖器,其特征在于:它包括全局信息存儲單元、定時器、定量器,所述全局信息存儲單元分別與定時器、定量器相連; 所述全局信息存儲單元,用于保存搜索詞項的全局信息idf(t); 所述定時器,用于設(shè)置全局信息存儲單元的信息保存時間,一旦時間到,將對全局信息存儲單元中保存的信息全部清空; 所述定量器,用于設(shè)置全局信息存儲單元的信息保存數(shù)量,一旦其中的信息超過設(shè)置的數(shù)量,將刪除最早進(jìn)入全局信息存儲單元的全局信息,以保證全局信息存儲單元中保存最新的全局信息。
【文檔編號】G06F17/30GK103455619SQ201310413271
【公開日】2013年12月18日 申請日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】陳建國, 梁峰, 姜平 申請人:焦點科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇州市| 华池县| 视频| 康马县| 梁河县| 中方县| 吴忠市| 陈巴尔虎旗| 保亭| 会宁县| 沂水县| 黄陵县| 云霄县| 扬中市| 铁力市| 江西省| 内乡县| 平顶山市| 彭泽县| 吴江市| 嫩江县| 富蕴县| 凯里市| 株洲市| 呼伦贝尔市| 巴林左旗| 霍林郭勒市| 南部县| 瓦房店市| 玉林市| 河东区| 盱眙县| 北宁市| 博湖县| 天柱县| 宜城市| 从江县| 贵德县| 沾化县| 利川市| 吉隆县|