一種查詢(xún)數(shù)據(jù)處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更為具體而言,涉及一種查詢(xún)數(shù)據(jù)處理方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)相關(guān)技術(shù)的發(fā)展,查詢(xún)已經(jīng)成為大型網(wǎng)站或者應(yīng)用所必不可少的功能之一。而在查詢(xún)的過(guò)程中,最重要的一個(gè)環(huán)節(jié)就是對(duì)用戶(hù)輸入的查詢(xún)的檢索,也就是說(shuō),獲取與用戶(hù)的查詢(xún)最相關(guān)的檢索結(jié)果。目前,計(jì)算查詢(xún)與檢索結(jié)果文本之間相關(guān)性的方法主要包括TF-1DF相關(guān)性度量和LCS相關(guān)性度量。
[0003]基于TF-1DF的相關(guān)性度量方法,TF(Term Frequency),即詞頻,是指一個(gè)文本中關(guān)鍵詞出現(xiàn)的次數(shù)除以文本中的總詞數(shù)。由于一個(gè)查詢(xún)字符串可能由若干個(gè)詞語(yǔ)組成,那么對(duì)于這樣的查詢(xún)字符串而言,給定一個(gè)文本,其在該文本中的TF值為構(gòu)成其的各個(gè)詞語(yǔ)的TF值之和。IDF(Inverse Document Frequency),即逆文本頻率指數(shù),其定義如下:IDF =log(D/Dw),其中,D是全部文本數(shù),Dw是關(guān)鍵詞w出現(xiàn)過(guò)的文本的數(shù)目??梢钥闯?,IDF值的大小反比于Dw的大小,也就是說(shuō)某個(gè)關(guān)鍵詞出現(xiàn)在越多的文本當(dāng)中,則說(shuō)明該詞的罕見(jiàn)性,或者說(shuō)專(zhuān)業(yè)性越低,則IDF的值越小?;贚CS的計(jì)算相關(guān)性的方法,LCS即最長(zhǎng)公共子序列,該方法通過(guò)計(jì)算查詢(xún)串與文本之間的最長(zhǎng)公共子序列,并以最長(zhǎng)公共子序列的長(zhǎng)度作為度量相關(guān)性的標(biāo)準(zhǔn)。
[0004]由上述可知,基于TF-1DF相關(guān)性的分析主要側(cè)重各個(gè)詞語(yǔ)在文本中出現(xiàn)的頻次以及各個(gè)詞語(yǔ)在整個(gè)文本集合中的專(zhuān)業(yè)性,而基于LCS相關(guān)性的分析也是著重考察查詢(xún)字符串與文本之間的在字面上的相似。因此,在查詢(xún)字符串與檢索文本的相關(guān)性分析方面,亟需從新的角度對(duì)查詢(xún)字符串和檢索文本進(jìn)行相關(guān)性分析的方案。
【發(fā)明內(nèi)容】
[0005]為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種查詢(xún)數(shù)據(jù)處理方法和裝置。
[0006]根據(jù)本發(fā)明實(shí)施方式的第一方面,提供了一種查詢(xún)數(shù)據(jù)處理方法,該方法可包括:將用戶(hù)輸入的查詢(xún)字符串進(jìn)行分詞得到詞語(yǔ)數(shù)組,根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值,其中,所述出現(xiàn)信息包括:在所述檢索文本中是否出現(xiàn)以及在所述檢索文本中出現(xiàn)的位置,將所述各詞語(yǔ)的權(quán)值累加以確定所述查詢(xún)字符串和所述檢索文本之間的相關(guān)性。
[0007]在本發(fā)明的一些實(shí)施方式中,所述根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中位于頭部的頭部詞語(yǔ)在檢索文本中的發(fā)現(xiàn)信息設(shè)置所述頭部詞語(yǔ)的開(kāi)頭權(quán)值,在所述出現(xiàn)信息為未出現(xiàn)在所述檢索文本的情況下,所述頭部詞語(yǔ)的開(kāi)頭權(quán)值為零,在所述出現(xiàn)信息為出現(xiàn)在所述檢索文本的情況下,所述頭部詞語(yǔ)的開(kāi)頭權(quán)值設(shè)置為與出現(xiàn)在所述檢索文本中的頭部詞語(yǔ)離所述檢索文本開(kāi)頭的距離成反比。
[0008]在本發(fā)明的一些實(shí)施方式中,所述根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中位于尾部的尾部詞語(yǔ)在檢索文本中的發(fā)現(xiàn)信息設(shè)置所述尾部詞語(yǔ)的結(jié)尾權(quán)值,在所述出現(xiàn)信息為未出現(xiàn)在所述檢索文本的情況下,所述尾部詞語(yǔ)的結(jié)尾權(quán)值為零,在所述出現(xiàn)信息為出現(xiàn)在所述檢索文本的情況下,所述尾部詞語(yǔ)的結(jié)尾權(quán)值設(shè)置為與出現(xiàn)在所述檢索文本中的尾部詞語(yǔ)離所述檢索文本結(jié)尾的距離成反比。
[0009]在本發(fā)明的一些實(shí)施方式中,所述根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中位于第一位置的第一詞語(yǔ)和位于第二位置的第二詞語(yǔ)在檢索文本中的發(fā)現(xiàn)信息設(shè)置所述第一詞語(yǔ)和所述第二詞語(yǔ)的轉(zhuǎn)移權(quán)值,其中,所述第一位置位于所述第二位置的前面,在所述第一詞語(yǔ)和所述第二詞語(yǔ)的出現(xiàn)信息為沒(méi)有同時(shí)出現(xiàn)在所述檢索文本的情況下,所述第一詞語(yǔ)和所述第二詞語(yǔ)的轉(zhuǎn)移權(quán)值為零,在所述第一詞語(yǔ)和所述第二詞語(yǔ)的出現(xiàn)信息為同時(shí)出現(xiàn)在所述檢索文本的情況下,所述第一詞語(yǔ)和所述第二詞語(yǔ)的轉(zhuǎn)移權(quán)值設(shè)置為與所述第一詞語(yǔ)和所述第二詞語(yǔ)在所述檢索文本中出現(xiàn)的位置之間的距離成反比。
[0010]在本發(fā)明的一些實(shí)施方式中,所述根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的存在權(quán)值,在詞語(yǔ)的出現(xiàn)信息為在檢索文本中出現(xiàn)的情況下,所述詞語(yǔ)的存在權(quán)值設(shè)置為非零,在詞語(yǔ)的出現(xiàn)信息為未出現(xiàn)在檢索文本中的情況下,所述詞語(yǔ)的存在權(quán)值為零。
[0011]在本發(fā)明的一些實(shí)施方式中,所述將所述各詞語(yǔ)的權(quán)值累加以確定所述查詢(xún)字符串和所述檢索文本之間的相關(guān)性包括:將所述各詞語(yǔ)的權(quán)值累加,對(duì)所述累加后的權(quán)值進(jìn)行歸一化以確定所述查詢(xún)字符串和所述檢索文本之間的相關(guān)性。
[0012]根據(jù)本發(fā)明實(shí)施方式的第二方面,提供了一種查詢(xún)數(shù)據(jù)處理裝置,該裝置可包括:分詞模塊,用于將用戶(hù)輸入的查詢(xún)字符串進(jìn)行分詞得到詞語(yǔ)數(shù)組;相關(guān)性分析模塊,用于根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值,將所述各詞語(yǔ)的權(quán)值累加以確定所述查詢(xún)字符串和所述檢索文本之間的相關(guān)性,其中,所述出現(xiàn)信息包括:在所述檢索文本中是否出現(xiàn)以及在所述檢索文本中出現(xiàn)的位置。
[0013]在本發(fā)明的一些實(shí)施方式中,所述相關(guān)性分析模塊根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中位于頭部的頭部詞語(yǔ)在檢索文本中的發(fā)現(xiàn)信息設(shè)置所述頭部詞語(yǔ)的開(kāi)頭權(quán)值,在所述出現(xiàn)信息為未出現(xiàn)在所述檢索文本的情況下,所述頭部詞語(yǔ)的開(kāi)頭權(quán)值為零,在所述出現(xiàn)信息為出現(xiàn)在所述檢索文本的情況下,所述頭部詞語(yǔ)的開(kāi)頭權(quán)值設(shè)置為與出現(xiàn)在所述檢索文本中的頭部詞語(yǔ)離所述檢索文本開(kāi)頭的距離成反比。
[0014]在本發(fā)明的一些實(shí)施方式中,所述相關(guān)性分析模塊根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中位于尾部的尾部詞語(yǔ)在檢索文本中的發(fā)現(xiàn)信息設(shè)置所述尾部詞語(yǔ)的結(jié)尾權(quán)值,在所述出現(xiàn)信息為未出現(xiàn)在所述檢索文本的情況下,所述尾部詞語(yǔ)的結(jié)尾權(quán)值為零,在所述出現(xiàn)信息為出現(xiàn)在所述檢索文本的情況下,所述尾部詞語(yǔ)的結(jié)尾權(quán)值設(shè)置為與出現(xiàn)在所述檢索文本中的尾部詞語(yǔ)離所述檢索文本結(jié)尾的距離成反比。
[0015]在本發(fā)明的一些實(shí)施方式中,所述相關(guān)性分析模塊根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中位于第一位置的第一詞語(yǔ)和位于第二位置的第二詞語(yǔ)在檢索文本中的發(fā)現(xiàn)信息設(shè)置所述第一詞語(yǔ)和所述第二詞語(yǔ)的轉(zhuǎn)移權(quán)值,其中,所述第一位置位于所述第二位置的前面,在所述第一詞語(yǔ)和所述第二詞語(yǔ)的出現(xiàn)信息為沒(méi)有同時(shí)出現(xiàn)在所述檢索文本的情況下,所述第一詞語(yǔ)和所述第二詞語(yǔ)的轉(zhuǎn)移權(quán)值為零,在所述第一詞語(yǔ)和所述第二詞語(yǔ)的出現(xiàn)信息為同時(shí)出現(xiàn)在所述檢索文本的情況下,所述第一詞語(yǔ)和所述第二詞語(yǔ)的轉(zhuǎn)移權(quán)值設(shè)置為與所述第一詞語(yǔ)和所述第二詞語(yǔ)在所述檢索文本中出現(xiàn)的位置之間的距離成反比。
[0016]在本發(fā)明的一些實(shí)施方式中,所述相關(guān)性分析模塊根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的權(quán)值包括:根據(jù)所述詞語(yǔ)數(shù)組中各詞語(yǔ)在檢索文本中的出現(xiàn)信息設(shè)置所述詞語(yǔ)數(shù)組的每個(gè)位置上詞語(yǔ)的存在權(quán)值,在詞語(yǔ)的出現(xiàn)信息為在檢索文本中出現(xiàn)的情況下,所述詞語(yǔ)的存在權(quán)值設(shè)置為非零,在詞語(yǔ)的出現(xiàn)信息為未出現(xiàn)在檢索文本中的情況下,所述詞語(yǔ)的存在權(quán)值為零。
[0017]在本發(fā)明的一些實(shí)施方式中,所述裝置還包括:歸一化模塊,用于將所述相關(guān)性分析模塊確定出的所述各詞語(yǔ)的權(quán)值的累加進(jìn)行歸一化以確定所述查詢(xún)字符串和所述檢索文本之間的相關(guān)性。
[0018]本發(fā)明實(shí)施方式提供的查詢(xún)數(shù)據(jù)處理方法和裝置,提供了一種基于查詢(xún)字符串本身的上下文關(guān)系來(lái)確定查詢(xún)字符串和檢索文本之間相關(guān)性,改善了查詢(xún)字符串和檢索文本在查詢(xún)字符串中各詞語(yǔ)位置關(guān)系方面的相關(guān)性刻畫(huà)和表達(dá)。
【附圖說(shuō)明】
[001