欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

索引建立方法及裝置的制造方法_2

文檔序號:8258552閱讀:來源:國知局
和所述高頻詞的位置信息中,靠前的位置信息作為所述合并后的短語在所述第一文檔中的位置信息之一。
[0052]具體的,在上述實(shí)施方式中,所述第一文檔可以包括一個子文檔,也可以包括多個子文檔。則相應(yīng)的,若所述第一文檔包括多個子文檔,則所述詞、高頻詞或高頻短語的位置信息具體可以包括:所述詞、高頻詞或高頻短語所在的子文檔的標(biāo)識、及其在所述子文檔中的位置信息;進(jìn)一步相應(yīng)的,在上述獲得與所述高頻詞相鄰的詞的【具體實(shí)施方式】中,所述判定模塊,具體可以用于若存在第一位置信息與所述高頻詞的位置信息處于同一子文檔,且這兩個位置信息的差值為所述高頻詞的長度,則判定所述第一位置信息對應(yīng)的高頻詞與所述高頻詞相鄰。
[0053]可選的,在本實(shí)施例的一種可實(shí)施方式中,當(dāng)當(dāng)前文檔中需要添加新的文檔時,則需要對添加文檔后的當(dāng)前文檔的索引進(jìn)行更新,則相應(yīng)的,所述裝置還包括:
[0054]第二合并模塊,用于在所述第一處理模塊針對所述短語中的每個高頻短語,生成并存儲第一索引至所述第一文檔對應(yīng)的索引段之后,獲取各文檔中的高頻短語,合并所述各文檔,針對所述各文檔中的每個高頻短語,檢測所述各文檔對應(yīng)的索引段中是否均存儲有所述高頻短語的索引;
[0055]第三處理模塊,用于若所述各文檔對應(yīng)的索引段中均存儲有所述高頻短語的索弓丨,則將所述各文檔對應(yīng)的索引段中,所述高頻短語的位置信息的集合,作為所述高頻短語在合并后的文檔中的位置信息,生成并存儲第三索引至所述合并后的文檔對應(yīng)的索引段,所述第三索引包括所述高頻短語在所述合并后的文檔中的位置信息。
[0056]具體的,在本實(shí)施方式中,若存在至少一個文檔對應(yīng)的索引段中未存儲所述高頻短語的索引,則相應(yīng)的,所述裝置還可以包括:
[0057]第四處理模塊,用于若存在至少一個文檔對應(yīng)的索引段中未存儲所述高頻短語的索引,則針對每個第二文檔,獲得所述高頻短語在所述第二文檔中的位置信息,所述第二文檔對應(yīng)的索引段中未存儲有所述高頻短語的索引;
[0058]所述第四處理模塊,還用于將所述高頻短語在所述第二文檔中的位置信息,和所述各文檔中除所述第二文檔以外的其它文檔對應(yīng)的索引段中存儲的所述高頻短語的位置信息的集合,作為所述高頻短語在所述合并后的文檔中的位置信息。
[0059]其中,所述各文檔即指所述第一文檔和當(dāng)前需要添加的文檔。同樣的,所述添加的文檔中也可以包括至少一個子文檔。通過本實(shí)施方式,能夠有效地實(shí)現(xiàn)對當(dāng)前文檔的索引進(jìn)行更新。
[0060]再可選的,根據(jù)上述建立的索引,為了實(shí)現(xiàn)對高頻短語的查詢,所述裝置還可以包括:
[0061]檢測模塊,用于根據(jù)接收到的待檢索短語,檢測當(dāng)前文檔對應(yīng)的索引段中是否存在所述待檢索短語的索引;
[0062]檢索模塊,用于若當(dāng)前文檔對應(yīng)的索引段中存在所述待檢索短語的索引,則根據(jù)所述待檢索短語的索引,獲得所述待檢索短語在所述檢索文檔中的位置信息。
[0063]具體的,若當(dāng)前文檔對應(yīng)的索引段中沒有所述待檢索短語的索引,則可以根據(jù)所述文檔中各個詞的索引,通過通常的短語查詢方法,對所述待檢索短語進(jìn)行查詢,其查詢的具體方法在此不再具體闡述。
[0064]本實(shí)施例提供的索引建立裝置,通過預(yù)先建立當(dāng)前文檔中各高頻短語的索引,以對所述高頻短語進(jìn)行查詢的技術(shù)方案,實(shí)現(xiàn)對文檔中各高頻短語的方便、高效的查詢。
[0065]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置的具體工作過程,可以參考前述方法實(shí)施例中的對應(yīng)過程,在此不再贅述。
[0066]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機(jī)可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0067]最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【主權(quán)項】
1.一種索引建立方法,其特征在于,包括: 通過分詞獲得第一文檔中的各個詞,針對所述各個詞中的每個高頻詞,將所述高頻詞和與其相鄰的另一高頻詞合并為短語; 針對所述短語中的每個高頻短語,生成并存儲第一索引至所述第一文檔對應(yīng)的索引段,以對所述高頻短語進(jìn)行查詢,所述第一索引包括所述高頻短語在所述第一文檔中的位置信息; 其中,每個高頻詞的出現(xiàn)次數(shù)均不小于第一預(yù)設(shè)值,每個高頻短語的出現(xiàn)次數(shù)均不小于第二預(yù)設(shè)值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過分詞獲得第一文檔中的各個詞之后,還包括: 獲得所述第一文檔中的各個詞的位置信息; 將所述第一文檔中各相同的詞的位置信息的集合,作為所述詞在所述第一文檔中的位置信息,生成并存儲第二索引至所述第一文檔對應(yīng)的索引段,所述第二索引包括所述詞在所述第一文檔中的位置信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對所述短語中的每個高頻短語,生成并存儲第一索引至所述第一文檔對應(yīng)的索引段之后,還包括: 獲取各文檔中的高頻短語,合并所述各文檔,針對所述各文檔中的每個高頻短語,檢測所述各文檔對應(yīng)的索引段中是否均存儲有所述高頻短語的索引; 若是,則將所述各文檔對應(yīng)的索引段中,所述高頻短語的位置信息的集合,作為所述高頻短語在合并后的文檔中的位置信息,生成并存儲第三索引至所述合并后的文檔對應(yīng)的索引段,所述第三索引包括所述高頻短語在所述合并后的文檔中的位置信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述檢測所述各文檔對應(yīng)的索引段中是否均存儲有所述高頻短語的索引之后,還包括: 若存在至少一個文檔對應(yīng)的索引段中未存儲所述高頻短語的索引,則針對每個第二文檔,獲得所述高頻短語在所述第二文檔中的位置信息,所述第二文檔對應(yīng)的索引段中未存儲有所述高頻短語的索引; 將所述高頻短語在所述第二文檔中的位置信息,和所述各文檔中除所述第二文檔以外的其它文檔對應(yīng)的索引段中存儲的所述高頻短語的位置信息的集合,作為所述高頻短語在所述合并后的文檔中的位置信息。
5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述方法還包括: 根據(jù)接收到的待檢索短語,檢測當(dāng)前文檔對應(yīng)的索引段中是否存在所述待檢索短語的索引; 若存在,則根據(jù)所述待檢索短語的索引,獲得所述待檢索短語在所述檢索文檔中的位置信息。
6.一種索引建立裝置,其特征在于,包括: 第一合并模塊,用于通過分詞獲得第一文檔中的各個詞,針對所述各個詞中的每個高頻詞,將所述高頻詞和與其相鄰的另一高頻詞合并為短語; 第一處理模塊,用于針對所述短語中的每個高頻短語,生成并存儲第一索引至所述第一文檔對應(yīng)的索引段,所述第一索引包括所述高頻短語在所述第一文檔中的位置信息; 其中,每個高頻詞的出現(xiàn)次數(shù)均不小于第一預(yù)設(shè)值,每個高頻短語的出現(xiàn)次數(shù)均不小于第二預(yù)設(shè)值。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 獲取模塊,用于在所述合并模塊通過分詞獲得第一文檔中的各個詞之后,獲得所述第一文檔中的各個詞的位置信息; 第二處理模塊,用于將所述第一文檔中各相同的詞的位置信息的集合,作為所述詞在所述第一文檔中的位置信息,生成并存儲第二索引至所述第一文檔對應(yīng)的索引段,所述第二索引包括所述詞在所述第一文檔中的位置信息。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 第二合并模塊,用于在所述第一處理模塊針對所述短語中的每個高頻短語,生成并存儲第一索引至所述第一文檔對應(yīng)的索引段之后,獲取各文檔中的高頻短語,合并所述各文檔,針對所述各文檔中的每個高頻短語,檢測所述各文檔對應(yīng)的索引段中是否均存儲有所述高頻短語的索引; 第三處理模塊,用于若所述各文檔對應(yīng)的索引段中均存儲有所述高頻短語的索引,則將所述各文檔對應(yīng)的索引段中,所述高頻短語的位置信息的集合,作為所述高頻短語在合并后的文檔中的位置信息,生成并存儲第三索引至所述合并后的文檔對應(yīng)的索引段,所述第三索引包括所述高頻短語在所述合并后的文檔中的位置信息。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 第四處理模塊,用于若存在至少一個文檔對應(yīng)的索引段中未存儲所述高頻短語的索弓I,則針對每個第二文檔,獲得所述高頻短語在所述第二文檔中的位置信息,所述第二文檔對應(yīng)的索引段中未存儲有所述高頻短語的索引; 所述第四處理模塊,還用于將所述高頻短語在所述第二文檔中的位置信息,和所述各文檔中除所述第二文檔以外的其它文檔對應(yīng)的索引段中存儲的所述高頻短語的位置信息的集合,作為所述高頻短語在所述合并后的文檔中的位置信息。
10.根據(jù)權(quán)利要求6-9中任一項所述的裝置,其特征在于,所述裝置還包括: 檢測模塊,用于根據(jù)接收到的待檢索短語,檢測當(dāng)前文檔對應(yīng)的索引段中是否存在所述待檢索短語的索引; 檢索模塊,用于若當(dāng)前文檔對應(yīng)的索引段中存在所述待檢索短語的索引,則根據(jù)所述待檢索短語的索引,獲得所述待檢索短語在所述檢索文檔中的位置信息。
【專利摘要】本發(fā)明提供一種索引建立方法及裝置,其中,方法包括:通過分詞獲得第一文檔中的各個詞,針對所述各個詞中的每個高頻詞,將所述高頻詞和與其相鄰的另一高頻詞合并為短語;針對所述短語中的每個高頻短語,生成并存儲第一索引至所述第一文檔對應(yīng)的索引段,以對所述高頻短語進(jìn)行查詢,所述第一索引包括所述高頻短語在所述第一文檔中的位置信息;其中,每個高頻詞的出現(xiàn)次數(shù)均不小于第一預(yù)設(shè)值,每個高頻短語的出現(xiàn)次數(shù)均不小于第二預(yù)設(shè)值。通過本實(shí)施例提供的索引建立方法及裝置,能夠方便、高效地對高頻短語進(jìn)行查詢。
【IPC分類】G06F17-30
【公開號】CN104572678
【申請?zhí)枴緾N201310484767
【發(fā)明人】于曉明, 張濤, 楊建武
【申請人】北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司
【公開日】2015年4月29日
【申請日】2013年10月16日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
苗栗市| 达拉特旗| 建始县| 永川市| 通辽市| 宁陵县| 陆良县| 湘乡市| 南乐县| 启东市| 鲁山县| 正定县| 大名县| 白玉县| 石城县| 华坪县| 缙云县| 团风县| 周至县| 凉城县| 积石山| 本溪市| 鲁山县| 池州市| 沁阳市| 务川| 承德县| 定西市| 兴业县| 晋中市| 钟祥市| 阜城县| 尉氏县| 碌曲县| 孟村| 卢氏县| 铁力市| 额尔古纳市| 沁水县| 朝阳区| 乐业县|