種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,對于所述多元共現(xiàn)片段的頻次進(jìn)行修正,包括: 按照元數(shù)從高到低的順序依次對元數(shù)小于N的多元共現(xiàn)片段的頻次進(jìn)行修正,所述N為查詢?nèi)罩局胁樵冋埱蟮亩嘣铂F(xiàn)片段的最大片段元數(shù)。
7.如權(quán)利要求6所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,對所述多元共現(xiàn)片段的頻次進(jìn)行修正,包括: 將統(tǒng)計(jì)的k元共現(xiàn)片段的頻次減去包含k元共現(xiàn)片段內(nèi)容的k+Ι元共現(xiàn)片段的頻次,作為k元共現(xiàn)片段修正后的頻次;所述k為整數(shù),2彡k ( (N-1)。
8.如權(quán)利要求1所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述根據(jù)多元共現(xiàn)片段的元數(shù)及頻次選取一個(gè)或一個(gè)以上多元共現(xiàn)片段,包括: 根據(jù)第一預(yù)設(shè)值,將共現(xiàn)片段的元數(shù)小于或等于所述第一預(yù)設(shè)值的設(shè)置為低元共現(xiàn)片段,將共現(xiàn)片段的元數(shù)大于所述第一預(yù)設(shè)值的設(shè)置為高元共現(xiàn)片段; 根據(jù)共現(xiàn)片段的元數(shù)及頻次選取所述低元共現(xiàn)片段和高元共現(xiàn)片段。
9.如權(quán)利要求8所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述根據(jù)共現(xiàn)片段的元數(shù)及頻次選取低元共現(xiàn)片段和高元共現(xiàn)片段,包括: 選取所述高元共現(xiàn)片段; 采用下列方式A-C中的一種或幾種的組合選取所述低元共現(xiàn)片段: A:對共現(xiàn)片段的頻次設(shè)置一個(gè)閾值進(jìn)行過濾;當(dāng)共現(xiàn)片段的頻次大于或者等于設(shè)置的閾值時(shí),該共現(xiàn)片段被選中; B:設(shè)定在低元共現(xiàn)片段中需要選取的總數(shù)目P,將所有的低元共現(xiàn)片段按照頻次進(jìn)行降序排列,然后選取排列的共現(xiàn)片段中前面的P個(gè)多元共現(xiàn)片段;所述P為正整數(shù),P的取值小于低元共現(xiàn)片段的總個(gè)數(shù); C:按照共現(xiàn)片段元數(shù)的不同,分別進(jìn)行排序,排序后再分別選取每個(gè)元數(shù)的共現(xiàn)片段中排在前q%的共現(xiàn)片段,所述q的范圍包括:0〈q〈100。
10.如權(quán)利要求1所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述將選取的多元共現(xiàn)片段及其查詢結(jié)果存儲起來,包括: 將選取的多元共現(xiàn)片段及其查詢結(jié)果存放在內(nèi)存中或高速緩沖存儲器中; 或, 對選取的多元共現(xiàn)片段建立倒排索引,產(chǎn)生倒排列表,將所述倒排列表及共現(xiàn)片段的查詢結(jié)果存放在相同的或者不同的存儲器中,所述的存儲器包括內(nèi)存、高速緩沖存儲器、磁盤。
11.如權(quán)利要求3、5、6、7中任意一項(xiàng)所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述查詢?nèi)罩局胁樵冋埱蟮亩嘣铂F(xiàn)片段的最大片段元數(shù)的確定方法,包括: 將查詢?nèi)罩局忻總€(gè)查詢請求中檢索詞和檢索條件的總個(gè)數(shù)作為每個(gè)查詢請求對應(yīng)的最小粒度的片段數(shù),將最小粒度的片段數(shù)中的最大值作為多元共現(xiàn)片段的最大片段元數(shù)。
12.一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,包括:查詢?nèi)罩精@取模塊、共現(xiàn)片段頻次統(tǒng)計(jì)模塊、共現(xiàn)片段頻次修正模塊、多元共現(xiàn)片段選取模塊和存儲模塊;其中, 所述查詢?nèi)罩精@取模塊,用于獲取預(yù)定時(shí)間段搜索引擎的部分或全部的查詢?nèi)罩?;所述共現(xiàn)片段頻次統(tǒng)計(jì)模塊,用于對所述查詢?nèi)罩局胁樵冋埱蟮亩嘣铂F(xiàn)片段的頻次進(jìn)行統(tǒng)計(jì); 所述共現(xiàn)片段頻次修正模塊,用于對共現(xiàn)片段頻次統(tǒng)計(jì)模塊中每一統(tǒng)計(jì)好頻次的多元共現(xiàn)片段,利用該多元共現(xiàn)片段在元數(shù)更高的共現(xiàn)片段中的出現(xiàn)頻次對所述多元共現(xiàn)片段的頻次進(jìn)行修正; 所述多元共現(xiàn)片段選取模塊,用于對共現(xiàn)片段頻次修正模塊得到的多元共現(xiàn)片段根據(jù)多元共現(xiàn)片段的元數(shù)和頻次選取一個(gè)或一個(gè)以上多元共現(xiàn)片段; 所述存儲模塊,用于將多元共現(xiàn)片段選取模塊選取的多元共現(xiàn)片段及其對應(yīng)的查詢結(jié)果存儲起來。
13.如權(quán)利要求12所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,所述多元共現(xiàn)片段頻次統(tǒng)計(jì)模塊包括:標(biāo)識設(shè)置模塊、頻次計(jì)數(shù)模塊; 所述標(biāo)識設(shè)置模塊,用于對每一查詢請求設(shè)置標(biāo)識,所述的標(biāo)識具有唯一性; 所述頻次計(jì)數(shù)模塊,用于根據(jù)所述標(biāo)識統(tǒng)計(jì)各個(gè)共現(xiàn)片段出現(xiàn)的頻次。
14.如權(quán)利要求12所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,所述多元共現(xiàn)片段的元數(shù)小于N,所述N為查詢?nèi)罩局胁樵冋埱蟮亩嘣铂F(xiàn)片段的最大片段元數(shù)。
15.如權(quán)利要求12所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,所述多元共現(xiàn)片段頻次修正模塊包括:排序模塊、減法模塊; 所述排序模塊,用于將元數(shù)小于N的多元共現(xiàn)片段按照元數(shù)從高到低的順序進(jìn)行排列,并依次輸入到減法模塊中進(jìn)行處理; 所述減法模塊,用于將統(tǒng)計(jì)的k元共現(xiàn)片段的頻次減去包含k元共現(xiàn)片段內(nèi)容的k+1元共現(xiàn)片段的頻次,作為k元共現(xiàn)片段修正后的頻次;所述k為整數(shù),2彡k彡(N-1); 所述N為查詢?nèi)罩局胁樵冋埱蟮亩嘣铂F(xiàn)片段的最大片段元數(shù)。
16.如權(quán)利要求12所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,所述多元共現(xiàn)片段選取模塊包括:第一設(shè)置模塊、第一選取模塊; 所述第一設(shè)置模塊,用于根據(jù)第一預(yù)設(shè)值將共現(xiàn)片段的元數(shù)小于或等于所述第一預(yù)設(shè)值的設(shè)置為低元共現(xiàn)片段,并根據(jù)所述第一預(yù)設(shè)值將共現(xiàn)片段的元數(shù)大于所述第一預(yù)設(shè)值的設(shè)置為高元共現(xiàn)片段; 所述第一選取模塊,用于根據(jù)多元根據(jù)共現(xiàn)片段的元數(shù)及頻次選取所述低元共現(xiàn)片段和所述高元共現(xiàn)片段。
17.如權(quán)利要求16所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,所述第一選取模塊包括:低元共現(xiàn)片段選取模塊、高元共現(xiàn)片段選取模塊; 所述低元共現(xiàn)片段選取模塊,采用下列方式A-C中的一種或幾種的組合選取低元共現(xiàn)片段: A:對共現(xiàn)片段的頻次設(shè)置一個(gè)閾值進(jìn)行過濾;當(dāng)共現(xiàn)片段的頻次大于或者等于設(shè)置的閾值時(shí),該共現(xiàn)片段被選中;當(dāng)共現(xiàn)片段的頻次小于設(shè)定的閾值時(shí),該共現(xiàn)片段不被選中; B:設(shè)定在低元共現(xiàn)片段中需要選取的總數(shù)目P,將所有的低元共現(xiàn)片段按照頻次進(jìn)行降序排列,然后選取排列的共現(xiàn)片段中前面的P個(gè)多元共現(xiàn)片段;所述P為正整數(shù),P的取值小于低元共現(xiàn)片段的總個(gè)數(shù); C:按照共現(xiàn)片段元數(shù)的不同,分別進(jìn)行排序,排序后再分別選取每個(gè)元數(shù)的共現(xiàn)片段中排在前q%的共現(xiàn)片段,所述q的范圍包括:0〈q〈100 ; 所述高元共現(xiàn)片段選取模塊,用于選取所述高元共現(xiàn)片段。
18.如權(quán)利要求12所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng),其特征在于,所述存儲模塊采用下述存儲方法存儲選取的多元共現(xiàn)片段及其對應(yīng)的結(jié)果: 將選取的多元共現(xiàn)片段及其對應(yīng)的查詢結(jié)果存放在內(nèi)存中或高速緩沖存儲器中; 或, 對多元共現(xiàn)片段建立倒排索引,產(chǎn)生倒排列表;將所述倒排列表及共現(xiàn)片段對應(yīng)的查詢結(jié)果存放在相同的或者不同的存儲器中,所述的存儲器包括內(nèi)存、高速緩沖存儲器或磁盤。
19.一種利用權(quán)利要求1?11中任一項(xiàng)所述方法獲得的數(shù)據(jù)進(jìn)行查詢的方法,其特征在于,包括: 將查詢請求的內(nèi)容和存儲的多元共現(xiàn)片段進(jìn)行匹配,并篩選匹配成功的多元共現(xiàn)片段; 為所述篩選的匹配成功的多元共現(xiàn)片段查找存儲的查詢結(jié)果; 為查詢請求返回所述查詢結(jié)果。
20.如權(quán)利要求19所述的查詢方法,其特征在于,當(dāng)所述篩選的匹配成功的多元共現(xiàn)片段包括2個(gè)或2個(gè)以上時(shí),所述為查詢請求返回查詢結(jié)果包括: 將查找到的查詢結(jié)果進(jìn)行求交集運(yùn)算; 為查詢請求返回所述求交集運(yùn)算得到的結(jié)果。
21.如權(quán)利要求19所述的查詢方法,其特征在于,當(dāng)存在沒有與存儲的多元共現(xiàn)片段匹配成功的片段時(shí),所述查詢方法還包括: 對所述沒有匹配成功的片段執(zhí)行查詢過程; 相應(yīng)地,所述為查詢請求返回查詢結(jié)果包括: 將篩選的匹配成功的多元共現(xiàn)片段對應(yīng)的查詢結(jié)果與根據(jù)所述沒有匹配成功片段執(zhí)行查詢過程的結(jié)果進(jìn)行求交集運(yùn)算;為查詢請求返回所述求交集運(yùn)算得到的查詢結(jié)果;所述篩選的匹配成功的多元共現(xiàn)片段包括一個(gè)多元共現(xiàn)片段或一個(gè)以上多元共現(xiàn)片段。
22.如權(quán)利要求19所述的查詢方法,其特征在于,所述將查詢請求的內(nèi)容和存儲的多元共現(xiàn)片段進(jìn)行匹配,包括: 根據(jù)接收到的查詢請求,列舉出所述查詢請求中的多元共現(xiàn)片段; 將所述多元共現(xiàn)片段從低元到高元依次與存儲的多元共現(xiàn)片段進(jìn)行匹配,若能匹配成功,則將所述匹配成功的多元共現(xiàn)片段擴(kuò)展至包含了該多元共現(xiàn)片段內(nèi)容的更高元共現(xiàn)片段,將所述的更高元共現(xiàn)片段與存儲的多元共現(xiàn)片段進(jìn)行匹配;若不能匹配成功,則匹配中止,再將下一個(gè)多元共現(xiàn)片段與存儲的共現(xiàn)片段進(jìn)行匹配,直至查詢請求的多元共現(xiàn)片段匹配完畢。
23.如權(quán)利要求19所述的查詢方法,其特征在于,所述篩選匹配成功的多元共現(xiàn)片段,包括: 根據(jù)第二預(yù)設(shè)值,將所述匹配成功的共現(xiàn)片段的元數(shù)小于或等于所述第二預(yù)設(shè)值的設(shè)置為匹配成功的低元共現(xiàn)片段,將所述匹配成功的共現(xiàn)片段的元數(shù)大于所述第二預(yù)設(shè)值的設(shè)置為匹配成功的高元共現(xiàn)片段; 篩選的策略包括: 選取高元共現(xiàn)片段策略,所述選取高元共現(xiàn)片段策略包括選取所述匹配成功的高元共現(xiàn)片段; 或, 選取低元共現(xiàn)片段策略,所述選取低元共現(xiàn)片段策略包括選取所述匹配成功的低元共現(xiàn)片段。
24.一種利用權(quán)利要求12?18中任一項(xiàng)所述系統(tǒng)獲得的數(shù)據(jù)進(jìn)行查詢的系統(tǒng),其特征在于,包括:查詢請求匹配模塊、查詢結(jié)果查找模塊、查詢結(jié)果返回模塊;其中, 所述查詢請求匹配模塊,用于將接收到的查詢請求的內(nèi)容與存儲的多元共現(xiàn)片段進(jìn)行匹配,并篩選匹配成功的多元共現(xiàn)片段; 所述查詢結(jié)果查找模塊,用于為查詢請求匹配模塊中篩選的匹配成功的多元共現(xiàn)片段根據(jù)存儲模塊中存儲的多元共現(xiàn)片段和對應(yīng)的查詢結(jié)果,查找到存儲的查詢結(jié)果; 所述查詢結(jié)果返回模塊,用于為查詢請求返回所述查詢結(jié)果。
25.如權(quán)利要求24所述的一種查詢系統(tǒng),其特征在于,所述查詢結(jié)果返回模塊,包括返回模塊,用于返回所述查詢請求的查詢結(jié)果。
26.如權(quán)利要求25所述的一種查詢系統(tǒng),其特征在于,當(dāng)所述查詢請求匹配模塊中,篩選的匹配成功的多元共現(xiàn)片段包括2個(gè)或2個(gè)以上時(shí),所述查詢結(jié)果返回模塊還包括:運(yùn)算模塊; 所述運(yùn)算模塊,用于將查詢結(jié)果查找模塊中查找到2個(gè)或2個(gè)以上多元共現(xiàn)片段對應(yīng)的查詢結(jié)果進(jìn)行求交集運(yùn)算; 相應(yīng)地,所述返回模塊,用于為查詢請求返回所述求交集運(yùn)算得到的結(jié)果。
27.如權(quán)利要求25所述的一種查詢系統(tǒng),其特征在于,當(dāng)所述查詢請求匹配模塊中,存在沒有匹配成功的片段時(shí),所述查詢系統(tǒng)還包括查詢執(zhí)行模塊; 所述查詢執(zhí)行模塊,用于對所述查詢請求匹配模塊中沒有匹配成功的片段執(zhí)行查詢過程; 相應(yīng)地, 所述運(yùn)算模塊,用于將查詢結(jié)果查找模塊中查找到的匹配成功的多元共現(xiàn)片段對應(yīng)的查詢結(jié)果與查詢執(zhí)行模塊中執(zhí)行查詢過程的結(jié)果進(jìn)行求交集運(yùn)算; 所述返回模塊,用于為查詢請求返回所述交集運(yùn)算得到的結(jié)果; 所述匹配成功的多元共現(xiàn)片段包括一個(gè)多元共現(xiàn)片段或一個(gè)以上多元共現(xiàn)片段。
28.如權(quán)利要求24所述的一種查詢系統(tǒng),其特征在于,所述查詢請求匹配模塊,包括:匹配模塊、篩選模塊; 所述匹配模塊,用于將查詢請求的共現(xiàn)片段與存儲的共現(xiàn)片段進(jìn)行匹配,得到匹配成功的多元共現(xiàn)片段; 所述篩選模塊,用于篩選所述匹配成功的多元共現(xiàn)片段。
29.如權(quán)利要求28所述的一種查詢系統(tǒng),其特征在于,所述匹配模塊包括:片段列舉模塊、片段排序模塊、片段匹配模塊、片段擴(kuò)展模塊; 所述片段列舉模塊,用于根據(jù)所述查詢請求,列舉出所述查詢請求中的多元共現(xiàn)片段; 所述片段排序模塊,用于將所述多元共現(xiàn)片段從低元到高元依次排序,并輸入至片段匹配模塊; 所述片段匹配模塊,用于將所述多元共現(xiàn)片段與存儲的多元共現(xiàn)片段進(jìn)行匹配,若能匹配成功,則將所述匹配成功的多元共現(xiàn)片段輸入至片段擴(kuò)展模塊;若不能匹配成功,則匹配中止,將下一個(gè)多元共現(xiàn)片段與存儲的共現(xiàn)片段進(jìn)行匹配,直至查詢請求的多元共現(xiàn)片段匹配完畢; 所述片段擴(kuò)展模塊,用于將所述匹配成功的多元共現(xiàn)片段擴(kuò)展至包含了該多元共現(xiàn)片段內(nèi)容的更高元共現(xiàn)片段,并將所述的更高元共現(xiàn)片段返回至片段匹配模塊。
30.如權(quán)利要求28所述的一種查詢系統(tǒng),其特征在于,所述篩選模塊包括:第二設(shè)置模塊、第二選取模塊; 所述第二設(shè)置模塊,用于根據(jù)第二預(yù)設(shè)值,將匹配成功的共現(xiàn)片段的元數(shù)小于或等于所述第二預(yù)設(shè)值的設(shè)置為匹配成功的低元共現(xiàn)片段,將匹配成功的共現(xiàn)片段的元數(shù)大于所述第二預(yù)設(shè)值的設(shè)置為匹配成功的高元共現(xiàn)片段; 所述第二選取模塊采用下述策略對匹配成功的多元共現(xiàn)片段進(jìn)行選取: 選取高元共現(xiàn)片段策略,所述選取高元共現(xiàn)片段策略包括選取所述匹配成功的高元共現(xiàn)片段; 或, 選取低元共現(xiàn)片段策略,所述選取低元共現(xiàn)片段策略包括選取所述匹配成功的低元共現(xiàn)片段。
【專利摘要】本申請?zhí)峁┮环N基于查詢?nèi)罩镜臄?shù)據(jù)處理方法和系統(tǒng)。基于查詢?nèi)罩镜臄?shù)據(jù)處理方法包括:獲取預(yù)定時(shí)間段搜索引擎的部分或全部的查詢?nèi)罩?;對所述查詢?nèi)罩局胁樵冋埱蟮亩嘣铂F(xiàn)片段進(jìn)行頻次的統(tǒng)計(jì);對每一多元共現(xiàn)片段,利用該多元共現(xiàn)片段在元數(shù)更高的共現(xiàn)片段中的出現(xiàn)頻次對所述多元共現(xiàn)片段的頻次進(jìn)行修正;根據(jù)多元共現(xiàn)片段的元數(shù)及頻次選取一個(gè)或一個(gè)以上多元共現(xiàn)片段;將選取的多元共現(xiàn)片段及其對應(yīng)的查詢結(jié)果存儲起來。本申請基于查詢?nèi)罩镜臄?shù)據(jù)處理系統(tǒng)實(shí)施例,可以實(shí)現(xiàn)本申請基于查詢?nèi)罩镜臄?shù)據(jù)處理方法。利用本申請?zhí)峁┑臄?shù)據(jù)處理方法和系統(tǒng),可以提高存儲內(nèi)容的查詢請求命中率,提升搜索引擎的性能。
【IPC分類】G06F17-30
【公開號】CN104794129
【申請?zhí)枴緾N201410026245
【發(fā)明人】楊國東, 朱張斌, 李群
【申請人】阿里巴巴集團(tuán)控股有限公司
【公開日】2015年7月22日
【申請日】2014年1月20日