欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

檢索裝置、終端和檢索方法

文檔序號(hào):6492059閱讀:149來源:國知局
檢索裝置、終端和檢索方法
【專利摘要】本發(fā)明提供了一種檢索裝置,包括:獲取單元,用于在接收到輸入的檢索項(xiàng)之后,獲取包含所述檢索項(xiàng)的文檔;篩選單元,用于統(tǒng)計(jì)每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項(xiàng)的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔;檢索結(jié)果確定單元,用于讀取所述檢索項(xiàng)在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計(jì)算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。本發(fā)明還提出了一種終端和一種檢索方法。本發(fā)明的技術(shù)方案根據(jù)文檔特性對(duì)檢索中間結(jié)果進(jìn)行預(yù)判,從而只對(duì)其中預(yù)判結(jié)果較好的部分進(jìn)行后續(xù)的位置數(shù)據(jù)讀取和位置相關(guān)性計(jì)算,減少了大量的位置數(shù)據(jù)讀取量和計(jì)算量,加快檢索速度。
【專利說明】檢索裝置、終端和檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及檢索【技術(shù)領(lǐng)域】,具體而言,涉及一種檢索裝置、具有該檢索裝置的終端和一種檢索方法。
【背景技術(shù)】
[0002]在全文檢索系統(tǒng)中,索引程序通過掃描原始文檔,將文檔內(nèi)容劃分為一個(gè)個(gè)詞,對(duì)每一個(gè)詞項(xiàng)(Term)建立一個(gè)索引項(xiàng),指明該詞項(xiàng)在文檔中出現(xiàn)的次數(shù)和位置,創(chuàng)建倒排索引文件,之后就可以借助倒排索引提供快捷的全文檢索。
[0003]在檢索過程中,用戶提交的檢索請(qǐng)求可能是索引庫中的一個(gè)詞項(xiàng)(Term),此時(shí)只需要在倒排索引中根據(jù)檢索詞找到該詞項(xiàng),進(jìn)而讀取包含該詞項(xiàng)的文檔列表,以及列表中的每個(gè)文檔中該詞項(xiàng)的出現(xiàn)位置(如果需要的話)。這樣的檢索不需要過多的計(jì)算,能夠比較快速地返回結(jié)果。
[0004]而大多數(shù)情況下,用戶提交的檢索請(qǐng)求是以詞組、短句等方式,這種由多個(gè)詞項(xiàng)組成的檢索請(qǐng)求被稱為短語檢索。這種檢索方式要求命中的文檔中,要同時(shí)包含所有這些詞項(xiàng),同時(shí)這些詞項(xiàng)在文檔中的出現(xiàn)位置要滿足一定要求,按照檢索請(qǐng)求中的順序彼此相鄰,或是允許彼此之間存在一定的距離,由檢索系統(tǒng)的設(shè)計(jì)而定。
[0005]在短語檢索過程中,需要先找到同時(shí)包含所有檢索詞的文檔,稱為初步命中,然后讀取初步命中的文檔中這些檢索詞的出現(xiàn)位置,比較這些檢索詞的位置,只有滿足一定位置關(guān)系的才算是命中。其中,詞項(xiàng)之間的位置計(jì)算是個(gè)非常耗時(shí)的操作,特別在文檔比較大、短語中詞項(xiàng)數(shù)量比較多的情況下:一方面需要讀取大量的位置數(shù)據(jù),引發(fā)大量的IO操作,另一方面需要比較多個(gè)詞項(xiàng)的位置關(guān)系,存在大量的計(jì)算。
[0006]為了改善短語檢索的性能,在索引數(shù)據(jù)中增加了數(shù)據(jù)指針以加速檢索的過程。數(shù)據(jù)指針相當(dāng)于索引數(shù)據(jù)的索引:在每個(gè)Term對(duì)應(yīng)的文檔列表中,每隔SkipInterval個(gè)文檔項(xiàng)創(chuàng)建一個(gè)數(shù)據(jù)指針,包含指向文檔列表中對(duì)應(yīng)項(xiàng)的指針,該對(duì)應(yīng)項(xiàng)的位置數(shù)據(jù)的指針。從而在短語的檢索的過程中,可以借助數(shù)據(jù)指針跳過初步不命中的文檔項(xiàng),從而減少對(duì)不必要的數(shù)據(jù)的讀取,提高檢索性能。
[0007]相關(guān)技術(shù)雖然采用了數(shù)據(jù)指針來提高檢索性能,但在短語檢索過程中,仍需要進(jìn)行大量的計(jì)算。

【發(fā)明內(nèi)容】

[0008]考慮到相關(guān)技術(shù)中出現(xiàn)的技術(shù)問題,本發(fā)明所要解決的技術(shù)問題在于,提供一種檢索技術(shù),在短語檢索過程中,能夠在保證結(jié)果準(zhǔn)確性的前提下,提升檢索性能。
[0009]有鑒于此,根據(jù)本發(fā)明的一個(gè)方面,提供了一種檢索裝置,包括:獲取單元,用于在接收到輸入的檢索項(xiàng)之后,獲取包含所述檢索項(xiàng)的文檔;篩選單元,用于統(tǒng)計(jì)每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項(xiàng)的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔;檢索結(jié)果確定單元,用于讀取所述檢索項(xiàng)在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計(jì)算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。
[0010]為了提高檢索效率,在初步命中的文檔即包含所有檢索項(xiàng)的文檔中繼續(xù)挑選出預(yù)判結(jié)果較好的文檔,從而只對(duì)預(yù)判結(jié)果較好的部分進(jìn)行后續(xù)的位置數(shù)據(jù)讀取和位置相關(guān)性計(jì)算,減少了位置數(shù)據(jù)的讀取量和計(jì)算量,從而加快檢索速度。
[0011]在上述技術(shù)方案中,優(yōu)選的,所述篩選單元包括:屬性確定子單元,用于獲取所述包含所述檢索項(xiàng)的文檔中每一文檔的屬性;預(yù)判權(quán)重值確定子單元,用于對(duì)所述屬性進(jìn)行計(jì)算,得到所述預(yù)判權(quán)重值。
[0012]在該技術(shù)方案中,以文檔屬性為依據(jù)進(jìn)行預(yù)判,根據(jù)預(yù)判權(quán)重值的大小在初步命中的文檔中挑選出預(yù)判結(jié)果較好的文檔,預(yù)判權(quán)重值表明該文檔在初步命中的文檔中排在前面的概率,概率越大,預(yù)判結(jié)果越好。
[0013]在上述技術(shù)方案中,優(yōu)選的,所述預(yù)判權(quán)重值確定子單元用于基于所述檢索項(xiàng)在相應(yīng)文檔中的出現(xiàn)頻率和/或所述檢索項(xiàng)在所有文檔中的逆向文件頻率和/或所述相應(yīng)文檔的權(quán)重,確定所述相應(yīng)文檔的預(yù)判權(quán)重。
[0014]在上述技術(shù)方案中,優(yōu)選的,所述預(yù)判權(quán)重值確定子單元用于按照預(yù)判函數(shù)
【權(quán)利要求】
1.一種檢索裝置,其特征在于,包括: 獲取單元,用于在接收到輸入的檢索項(xiàng)之后,獲取包含所述檢索項(xiàng)的文檔; 篩選單元,用于統(tǒng)計(jì)每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項(xiàng)的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔; 檢索結(jié)果確定單元,用于讀取所述檢索項(xiàng)在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計(jì)算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的檢索裝置,其特征在于,所述篩選單元包括: 屬性確定子單元,用于獲取所述包含所述檢索項(xiàng)的文檔中每一文檔的屬性; 預(yù)判權(quán)重值確定子單元,用于對(duì)所述屬性進(jìn)行計(jì)算,得到所述預(yù)判權(quán)重值。
3.根據(jù)權(quán)利要求2所述的檢索裝置,其特征在于,所述預(yù)判權(quán)重值確定子單元用于基于所述檢索項(xiàng)在相應(yīng)文檔中的出現(xiàn)頻率和/或所述檢索項(xiàng)在所有文檔中的逆向文件頻率和/或所述相應(yīng)文檔的權(quán)重,確定所述相應(yīng)文檔的預(yù)判權(quán)重值。
4.根據(jù)權(quán)利要求3所述的檢索裝置,其特征在于,所述預(yù)判權(quán)重值確定子單元用于按

照預(yù)判函數(shù)
5.根據(jù)權(quán)利要求3所述的檢索裝置,其特征在于,所述預(yù)判權(quán)重值確定子單元用于按

照預(yù)判函數(shù)
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的檢索裝置,其特征在于,所述檢索裝置還包括:設(shè)置單元,設(shè)置應(yīng)統(tǒng)計(jì)所述預(yù)判權(quán)重值的文檔數(shù)量; 所述篩選單元還用于從已統(tǒng)計(jì)過所述預(yù)判權(quán)重值的文檔中篩選出所述初選文檔,根據(jù)所述預(yù)判權(quán)重值的大小對(duì)所述已統(tǒng)計(jì)過所述預(yù)判權(quán)重值的文檔進(jìn)行排序,從排序結(jié)果中按照預(yù)設(shè)比例選取出所述初選文檔。
7.根據(jù)權(quán)利要求6所述的檢索裝置,其特征在于,所述檢索結(jié)果確定單元還用于按照文檔的標(biāo)識(shí)序號(hào)對(duì)所述初選文檔進(jìn)行排序,并采用數(shù)據(jù)指針方式讀取所述位置數(shù)據(jù)。
8.—種終端,其特征在于,包括如權(quán)利要求1至7中任一項(xiàng)所述的檢索裝置。
9.一種檢索方法,其特征在于,包括: 在接收到輸入的檢索項(xiàng)之后,獲取包含所述檢索項(xiàng)的文檔; 統(tǒng)計(jì)每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項(xiàng)的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔; 讀取所述檢索項(xiàng)在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計(jì)算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。
10.根據(jù)權(quán)利要求9所述的檢索方法,其特征在于,所述預(yù)判權(quán)重值的統(tǒng)計(jì)過程包括: 確定所述包含所述檢索項(xiàng)的文檔中每一文檔的屬性; 對(duì)所述屬性進(jìn)行計(jì)算,得到所述預(yù)判權(quán)重值。
11.根據(jù)權(quán)利要求10所述的檢索方法,其特征在于,基于所述檢索項(xiàng)在相應(yīng)文檔中的出現(xiàn)頻率和/或所述檢索項(xiàng)在所有文檔中的逆向文件頻率和/或所述相應(yīng)文檔的權(quán)重進(jìn)行計(jì)算,確定所述相應(yīng)文檔的預(yù)判權(quán)重值。
12.根據(jù)權(quán)利要求11所述的檢索方法,其特征在于,按照預(yù)判函數(shù)
13.根據(jù)權(quán)利要求11所述的檢索方法,其特征在于,按照預(yù)判函數(shù)
14.根據(jù)權(quán)利要求9至13中任一項(xiàng)所述的檢索方法,其特征在于,還包括:設(shè)置應(yīng)統(tǒng)計(jì)所述預(yù)判權(quán)重值的文檔數(shù)量; 從已統(tǒng)計(jì)過所述預(yù)判權(quán)重值的文檔中篩選出所述初選文檔; 所述初選文檔的 篩選過程包括:根據(jù)所述預(yù)判權(quán)重值的大小對(duì)所述已統(tǒng)計(jì)過所述預(yù)判權(quán)重值的文檔進(jìn)行排序,從排序結(jié)果中按照預(yù)設(shè)比例選取出所述初選文檔。
15.根據(jù)權(quán)利要求14所述的檢索方法,其特征在于,按照文檔的標(biāo)識(shí)序號(hào)對(duì)所述初選文檔進(jìn)行排序,并采用數(shù)據(jù)指針方式讀取所述位置數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK103853742SQ201210501917
【公開日】2014年6月11日 申請(qǐng)日期:2012年11月29日 優(yōu)先權(quán)日:2012年11月29日
【發(fā)明者】童征宇, 殷宇翔 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
吉林市| 喀喇沁旗| 大石桥市| 隆子县| 定西市| 崇阳县| 白沙| 阿克苏市| 务川| 海淀区| 柞水县| 涞水县| 本溪市| 富宁县| 高邑县| 兴仁县| 潜江市| 利川市| 大方县| 封开县| 张家口市| 大庆市| 新沂市| 张掖市| 江华| 海伦市| 怀柔区| 成武县| 兴化市| 永宁县| 西安市| 怀集县| 丹棱县| 昆山市| 黄梅县| 从化市| 赣榆县| 周口市| 太仆寺旗| 安平县| 永春县|