專(zhuān)利名稱(chēng):一種檢索方法、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,特別涉及一種檢索方法、裝置和系統(tǒng)。
背景技術(shù):
搜索引擎(search engine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互 聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。從用戶的角度 看,搜索引擎提供一個(gè)包含搜索框的頁(yè)面,在搜索框輸入關(guān)鍵詞語(yǔ),通過(guò)瀏覽器提交給搜索 引擎后,搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息列表。用戶輸入的關(guān)鍵詞語(yǔ)可以 成為查詢(xún)數(shù)據(jù),即是用戶通過(guò)查詢(xún)數(shù)據(jù)來(lái)查詢(xún)自己感興趣的相關(guān)內(nèi)容。
在實(shí)際應(yīng)用中,用戶輸入的查詢(xún)數(shù)據(jù)有時(shí)候并不能檢索到相關(guān)的內(nèi)容,例如,當(dāng)用 戶的查詢(xún)數(shù)據(jù)為“黑色聯(lián)想thinkpad筆記本X60”時(shí),由于輸入的查詢(xún)關(guān)鍵詞過(guò)長(zhǎng),搜索引 擎無(wú)法檢索到與其完全匹配的查詢(xún)結(jié)果,因此,瀏覽器就會(huì)返回檢索無(wú)結(jié)果,當(dāng)查詢(xún)數(shù)據(jù)變 為“聯(lián)想thinkpad筆記本X60”,由于輸入的查詢(xún)關(guān)鍵詞縮短了,檢索就會(huì)出現(xiàn)相關(guān)結(jié)果,因 此,現(xiàn)有技術(shù)中存在一種基于規(guī)則的檢索方法,首先對(duì)查詢(xún)數(shù)據(jù)進(jìn)行分詞,然后根據(jù)分詞后 每個(gè)詞的詞性,例如是名詞還是形容詞,類(lèi)型,例如產(chǎn)品類(lèi)型、品牌、型號(hào)等,以及這些詞 本身的信息,根據(jù)需要總結(jié)一定的規(guī)則,例如,某一條規(guī)則為兩個(gè)產(chǎn)品類(lèi)型詞相鄰,則后者 權(quán)重更高。例如,“手機(jī)充電器”,則可以理解為“充電器”的權(quán)重更高。通過(guò)上述基于一系 列規(guī)則的查詢(xún)改寫(xiě)方法,可以將原始的查詢(xún)數(shù)據(jù)改寫(xiě)成新的查詢(xún)數(shù)據(jù),再由搜索引擎的服 務(wù)器依據(jù)新的查詢(xún)數(shù)據(jù)進(jìn)行檢索。從上述過(guò)程中可以看出,搜索引擎在檢索的時(shí)候,是采用基于一定的規(guī)則對(duì)查詢(xún) 數(shù)據(jù)進(jìn)行改寫(xiě)的方法,因?yàn)槊恳淮蔚母膶?xiě)操作都需要基于相關(guān)的規(guī)則,因?yàn)橐?guī)則是工作人 員預(yù)先制定的,而用戶在瀏覽器上輸入的查詢(xún)數(shù)據(jù)有無(wú)數(shù)種,這就使得單純的依據(jù)規(guī)則改 寫(xiě)查詢(xún)數(shù)據(jù)的方式錯(cuò)誤率較高,同時(shí)也存在歧義,所以對(duì)查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)的結(jié)果有時(shí)并 不精確,基于并不準(zhǔn)確的改寫(xiě)查詢(xún)數(shù)據(jù)檢索到的結(jié)果也可能并不是用戶所需要的,就降低 了用戶對(duì)于搜索引擎的使用體驗(yàn)??傊壳靶枰绢I(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問(wèn)題就是如何能夠創(chuàng)新的 提出一種檢索方法,以解決現(xiàn)有技術(shù)中基于規(guī)則進(jìn)行查詢(xún)數(shù)據(jù)的改寫(xiě)之后再進(jìn)行檢索操 作,導(dǎo)致的檢索結(jié)果不準(zhǔn)確的問(wèn)題。
發(fā)明內(nèi)容
本申請(qǐng)所要解決的技術(shù)問(wèn)題是提供一種檢索方法,用以解決現(xiàn)有技術(shù)中需要基于 規(guī)則進(jìn)行查詢(xún)數(shù)據(jù)的改寫(xiě),導(dǎo)致的檢索結(jié)果不準(zhǔn)確的問(wèn)題,進(jìn)一步的,還能夠提升相關(guān)性和 召回率。本申請(qǐng)還提供了一種檢索裝置,用以保證上述方法在實(shí)際中的實(shí)現(xiàn)及應(yīng)用。為了解決上述問(wèn)題,本申請(qǐng)公開(kāi)了一種檢索方法,包括針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);改寫(xiě)數(shù)據(jù)系統(tǒng)提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用于描述 所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),如果是, 則根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);搜索弓I擎按照所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索。優(yōu)選的,所述改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得候選查詢(xún)數(shù)據(jù),具體為
改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取至少兩個(gè)候選查詢(xún)數(shù)據(jù),所述改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),具體 包括改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一個(gè)特征值;改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述至少兩個(gè)候選查 詢(xún)數(shù)據(jù)對(duì)應(yīng)的至少兩個(gè)匹配結(jié)果值;改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述至少兩個(gè)匹配結(jié)果值中最大的匹配結(jié)果值是否大于某一 閾值。優(yōu)選的,所述改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取候選查詢(xún)數(shù)據(jù),具體為改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取一個(gè)候選查詢(xún)數(shù)據(jù),所述改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),具體 包括改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述一個(gè)候選查詢(xún)數(shù)據(jù)與所述當(dāng)前查詢(xún)數(shù)據(jù) 的特征賦值;改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述一個(gè)候選查詢(xún)數(shù) 據(jù)對(duì)應(yīng)的一個(gè)匹配結(jié)果值;改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述一個(gè)匹配結(jié)果值是否大于某一閾值。優(yōu)選的,所述改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,具體包括改寫(xiě)數(shù)據(jù)系統(tǒng)按照線性加權(quán)的方式對(duì)所述特征值進(jìn)行處理,或者按照最大熵模型 將所述特征值轉(zhuǎn)換為所述匹配結(jié)果值。優(yōu)選的,所述預(yù)置的數(shù)據(jù)庫(kù)中還包括與所述歷史查詢(xún)數(shù)據(jù)對(duì)應(yīng)的查詢(xún)結(jié)果,則當(dāng) 所述改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù)的結(jié)果為是之 后,還包括改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述匹配結(jié)果對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)是否有對(duì)應(yīng)的查詢(xún)結(jié)果,如 果是,則執(zhí)行根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)的步驟。優(yōu)選的,所述改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得候選查詢(xún)數(shù)據(jù),具體包 括改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,并為分詞后的每個(gè)子查詢(xún)數(shù)據(jù)設(shè)置 標(biāo)識(shí);改寫(xiě)數(shù)據(jù)系統(tǒng)依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)和分詞結(jié)果在所述預(yù)置的數(shù)據(jù)庫(kù)中進(jìn) 行匹配,從而獲得候選查詢(xún)數(shù)據(jù)。優(yōu)選的,所述改寫(xiě)數(shù)據(jù)系統(tǒng)提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,具體包括 改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)的子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行比對(duì);按照比對(duì)的結(jié)果,改寫(xiě)數(shù)據(jù)系統(tǒng)得出所述子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)的匹配結(jié)^ ο優(yōu)選的,所述搜索弓I擎按照所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索之后,還包括搜索引擎將檢索結(jié)果向客戶端展示。獲取模塊,用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún) 數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);提取特征模塊,用于提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用 于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;第一判斷模塊,用于根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù);改寫(xiě)模塊,用于根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);檢索模塊,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索。優(yōu)選的,所述獲取模塊具體用于在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取至少兩個(gè)候選查詢(xún)數(shù) 據(jù),則所述第一判斷模塊,具體包括第一賦值子模塊,用于根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一個(gè) 特征值;第一處理子模塊,用于按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述至少兩 個(gè)候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的至少兩個(gè)匹配結(jié)果值;第一判斷子模塊,用于判斷所述至少兩個(gè)匹配結(jié)果值中最大的匹配結(jié)果值是否大 于某一閾值。優(yōu)選的,所述獲取模塊,具體用于在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取一個(gè)候選查詢(xún)數(shù) 據(jù),則所述第一判斷模塊,具體包括第二賦值子模塊,用于根據(jù)所述匹配結(jié)果為所述一個(gè)候選查詢(xún)數(shù)據(jù)與所述當(dāng)前查 詢(xún)數(shù)據(jù)的特征賦值;第二處理子模塊,用于按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述一個(gè)候 選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的一個(gè)匹配結(jié)果值;第二判斷子模塊,用于判斷所述一個(gè)匹配結(jié)果值是否大于某一閾值。優(yōu)選的,所述第一處理子模塊或第二處理子模塊,具體用于按照線性加權(quán)的方式 對(duì)所述特征值進(jìn)行處理,或者按照最大熵模型將所述特征值轉(zhuǎn)換為所述匹配結(jié)果值。優(yōu)選的,所述預(yù)置的數(shù)據(jù)庫(kù)中還包括與所述歷史查詢(xún)數(shù)據(jù)對(duì)應(yīng)的查詢(xún)結(jié)果,則所 述裝置,還包括第二判斷模塊,用于判斷所述匹配結(jié)果對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)是否有對(duì)應(yīng)的查詢(xún)結(jié) 果;執(zhí)行模塊,用于當(dāng)所述第二判斷模塊的結(jié)果為是時(shí),執(zhí)行根據(jù)所述匹配結(jié)果對(duì)所 述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)的步驟。優(yōu)選的,所述獲取模塊,具體包括
分詞子模塊,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,并為分詞后的每個(gè)子查詢(xún)數(shù)據(jù) 設(shè)置標(biāo)識(shí);匹配子模塊,用于依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)和分詞結(jié)果在所述預(yù)置的數(shù)據(jù)庫(kù)中 進(jìn)行匹配,從而獲得候選查詢(xún)數(shù)據(jù)。優(yōu)選的,所述提取特征模塊,具體包括比對(duì)子模塊,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)的子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行比對(duì);
獲取匹配結(jié)果子模塊,用于按照比對(duì)的結(jié)果,得出所述子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù) 據(jù)的匹配結(jié)果。優(yōu)選的,所述裝置還包括結(jié)果展示模塊,用于將檢索結(jié)果向客戶端展示。本申請(qǐng)還提供了一種檢索系統(tǒng),該系統(tǒng)包括改寫(xiě)數(shù)據(jù)系統(tǒng),用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前 查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);并提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特 征用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;然后根據(jù)所述匹配結(jié)果判斷是 否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),如果是,則根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改 寫(xiě);搜索引擎,用于根據(jù)所述改寫(xiě)數(shù)據(jù)系統(tǒng)的結(jié)果進(jìn)行檢索。與現(xiàn)有技術(shù)相比,本申請(qǐng)包括以下優(yōu)點(diǎn)在本申請(qǐng)中,通過(guò)搜索引擎服務(wù)器端預(yù)置的數(shù)據(jù)庫(kù),可以匹配一系列的候選查詢(xún) 數(shù)據(jù),所述候選查詢(xún)數(shù)據(jù)為與當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的歷史查詢(xún)數(shù)據(jù),再在服務(wù)器端獲取到當(dāng)前查詢(xún) 數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)的匹配結(jié)果,并從所述候選查詢(xún)數(shù)據(jù)中查詢(xún)出最優(yōu)的一個(gè)候選查詢(xún)數(shù) 據(jù),從而對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě),能夠使得服務(wù)器將改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)作為關(guān)鍵詞 進(jìn)行檢索,從而避免采用現(xiàn)有技術(shù)中在檢索之前改寫(xiě)當(dāng)前查詢(xún)數(shù)據(jù)時(shí)依據(jù)固定規(guī)則的方 式,降低了檢索過(guò)程中出現(xiàn)歧義的幾率,提升了檢索的準(zhǔn)確度;進(jìn)一步的,本申請(qǐng)還可以提 高對(duì)當(dāng)前查詢(xún)數(shù)據(jù)的檢索結(jié)果的相關(guān)性和召回率。當(dāng)然,實(shí)施本申請(qǐng)的任一產(chǎn)品并不一定 需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。圖1是本申請(qǐng)的一種檢索方法實(shí)施例1的流程圖;圖2是本申請(qǐng)的一種檢索方法實(shí)施例2的流程圖;圖3是本申請(qǐng)的一種檢索方法實(shí)施例3的流程圖;圖4是本申請(qǐng)的一種檢索裝置實(shí)施例1的結(jié)構(gòu)框圖;圖5是本申請(qǐng)的一種檢索裝置實(shí)施例2的結(jié)構(gòu)框圖;圖6是本申請(qǐng)的一種檢索裝置實(shí)施例3的結(jié)構(gòu)框圖7是本申請(qǐng)的一種檢索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;圖8是本申請(qǐng)的一種檢索系統(tǒng)實(shí)施例在實(shí)際應(yīng)用中的具體結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;?本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。本申請(qǐng)可用于眾多通用或?qū)S玫挠?jì)算裝置環(huán)境或配置中。例如個(gè)人計(jì)算機(jī) 、服務(wù) 器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器裝置、包括以上任何裝置或設(shè)備 的分布式計(jì)算環(huán)境等等。本申請(qǐng)可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序 模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類(lèi)型的例程、程序、對(duì)象、組 件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請(qǐng),在這些分布式計(jì)算環(huán)境中,由 通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以 位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。本申請(qǐng)?jiān)趯?shí)際應(yīng)用中的系統(tǒng)結(jié)構(gòu),可以包括預(yù)置的數(shù)據(jù)庫(kù)、查詢(xún)?nèi)罩?、改?xiě)數(shù)據(jù)系 統(tǒng)、搜索引擎以及用戶端,搜索引擎接收到用戶輸入的當(dāng)前查詢(xún)數(shù)據(jù)之后,遞交至所述改寫(xiě) 數(shù)據(jù)系統(tǒng),由所述改寫(xiě)數(shù)據(jù)系統(tǒng)將其在預(yù)置的數(shù)據(jù)庫(kù)中進(jìn)行匹配,能夠獲得與當(dāng)前查詢(xún)數(shù) 據(jù)相關(guān)的歷史查詢(xún)數(shù)據(jù),即是候選查詢(xún)數(shù)據(jù),再通過(guò)對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)以及候選查詢(xún)數(shù) 據(jù)提取特征,所述特征用于表示當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果,并判斷所述匹 配結(jié)果是否表示需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),如果是,就根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查 詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě),并由搜索引擎根據(jù)所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索。其中,所述預(yù)置 的數(shù)據(jù)庫(kù)保存用戶端的歷史查詢(xún)數(shù)據(jù),可以采用查詢(xún)?nèi)罩緛?lái)實(shí)現(xiàn),也可以采用其他方式。搜 索引擎在基于這種改寫(xiě)后的查詢(xún)數(shù)據(jù)進(jìn)行檢索時(shí),就提高了準(zhǔn)確度以及結(jié)果的召回率,所 述召回率即是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率。本申請(qǐng)的主要思想應(yīng)用于實(shí)體時(shí),可以用獲取模塊、提取特征模塊、第一判斷模 塊、改寫(xiě)模塊和檢索模塊來(lái)實(shí)現(xiàn),其中,所述獲取模塊用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù) 據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);所述提取特征模塊,用于提取 所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查 詢(xún)數(shù)據(jù)的匹配結(jié)果;所述第一判斷模塊,用于根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng) 前查詢(xún)數(shù)據(jù);所述改寫(xiě)模塊,用于根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);所述 檢索模塊,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索。采用該實(shí)體,也可以在基于這種改寫(xiě)后 的查詢(xún)數(shù)據(jù)進(jìn)行檢索時(shí),提高準(zhǔn)確度以及結(jié)果的召回率。參考圖1,示出了本申請(qǐng)一種檢索方法實(shí)施例1的流程圖,可以包括以下步驟步驟101 針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得至少兩 個(gè)與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);其中,,所述數(shù)據(jù)庫(kù)用于保存用戶端的歷史查詢(xún)數(shù)據(jù),所述候選查詢(xún)數(shù)據(jù)為與所述 當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的歷史查詢(xún)數(shù)據(jù);所述預(yù)置的數(shù)據(jù)庫(kù)可以通過(guò)搜索引擎的查詢(xún)?nèi)罩緛?lái)實(shí)現(xiàn),所述查詢(xún)?nèi)罩臼撬阉饕媸占挠脩舳说牟樵?xún)數(shù)據(jù)和查詢(xún)結(jié)果的日志信息,即是用戶 端的歷史查詢(xún)數(shù)據(jù),所述數(shù)據(jù)庫(kù)中還可以記錄查詢(xún)結(jié)果的點(diǎn)擊頻率,曝光率等詳細(xì)信息;當(dāng) 然,也可以采用所述查詢(xún)?nèi)罩局械臄?shù)據(jù)內(nèi)容重新建立新的數(shù)據(jù)庫(kù);在本實(shí)施例中,改寫(xiě)數(shù)據(jù) 系統(tǒng)匹配獲取的候選查詢(xún)數(shù)據(jù)有至少兩個(gè);其中,匹配獲得的每一個(gè)候選查詢(xún)數(shù)據(jù)的內(nèi)容, 和所述當(dāng)前查詢(xún)數(shù)據(jù)的內(nèi)容至少具有一個(gè)共同的短語(yǔ)或分詞;步驟102 改寫(xiě)數(shù)據(jù)系統(tǒng)提取所述當(dāng)前查詢(xún)數(shù)據(jù)和至少兩個(gè)候選查詢(xún)數(shù)據(jù)的特 征,所述特征用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和每一個(gè)候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;
改寫(xiě)數(shù)據(jù)系統(tǒng)在獲取到至少兩個(gè)候選查詢(xún)數(shù)據(jù)之后,將所述當(dāng)前查詢(xún)數(shù)據(jù)和至少 兩個(gè)候選查詢(xún)數(shù)據(jù)一一進(jìn)行匹配,從而提取出所述當(dāng)前查詢(xún)數(shù)據(jù)與每一個(gè)候選查詢(xún)數(shù)據(jù)的 特征;所述特征的含義,可以例如,所述當(dāng)前查詢(xún)數(shù)據(jù)與其中一個(gè)候選查詢(xún)數(shù)據(jù)中,“品牌的 匹配個(gè)數(shù)”,例如諾基亞的匹配個(gè)數(shù),即是當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)中是否都出現(xiàn)了 諾基亞這個(gè)品牌名稱(chēng),如果都出現(xiàn),則后續(xù)為該特征賦值的時(shí)候就賦值為1,如果沒(méi)有,則 賦值為0 ;“產(chǎn)品的匹配個(gè)數(shù)”,例如手機(jī)的匹配個(gè)數(shù),等等,這些描述兩者的匹配結(jié)果的語(yǔ) 句,即是所述特征的具體內(nèi)容;步驟103 改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一 個(gè)特征值;根據(jù)匹配結(jié)果為所述特征賦值,例如,所述當(dāng)前查詢(xún)數(shù)據(jù)與其中一個(gè)候選查詢(xún)數(shù) 據(jù)中,特征“品牌的匹配個(gè)數(shù)”為1,即是所述當(dāng)前查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)中都包括了某個(gè) 品牌的名稱(chēng),且各出現(xiàn)一次,則該特征的特征值即是1 ;其中,賦值之后每一個(gè)特征對(duì)應(yīng)一 個(gè)特征值;步驟104 改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述候選查詢(xún)數(shù)據(jù)的所有特征值進(jìn)行處 理,得到與所述至少兩個(gè)候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的至少兩個(gè)匹配結(jié)果值;其中,所述預(yù)置規(guī)則可以是滿足某種線性加權(quán)規(guī)則,也可以采用最大熵模型實(shí)現(xiàn), 即是利用最大熵模型等概率模型將所述特征值轉(zhuǎn)換為所述匹配結(jié)果值;預(yù)置規(guī)則可以根據(jù) 實(shí)際需求預(yù)先指定;改寫(xiě)數(shù)據(jù)系統(tǒng)按照該預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,即是對(duì)每一個(gè) 候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的一系列特征值進(jìn)行數(shù)學(xué)運(yùn)算,從而針對(duì)每一個(gè)候選查詢(xún)數(shù)據(jù)得到與之 對(duì)應(yīng)的每一個(gè)匹配結(jié)果值;其中,所述匹配結(jié)果值在實(shí)際中可以具體為任意數(shù)值,例如,可 以是0. 8或0. 6等小數(shù),也可以是2或5等整數(shù);需要說(shuō)明的是,在本申請(qǐng)中,運(yùn)用最大熵模 型可以得到更優(yōu)的結(jié)果;步驟105 改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述至少兩個(gè)匹配結(jié)果值中最大的匹配結(jié)果值是否 大于某一閾值,如果是,進(jìn)入步驟106,如果否,則不做處理;本步驟即是由改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún) 數(shù)據(jù);可以預(yù)先為改寫(xiě)數(shù)據(jù)系統(tǒng)指定某一個(gè)閾值,并由改寫(xiě)數(shù)據(jù)系統(tǒng)判斷匹配結(jié)果值中最 大的那一個(gè)是否大于該閾值,如果是,則表示該匹配結(jié)果值對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)要優(yōu)于當(dāng) 前查詢(xún)數(shù)據(jù),其中,“優(yōu)于當(dāng)前查詢(xún)數(shù)據(jù)”可以理解為該候選查詢(xún)數(shù)據(jù)與當(dāng)前查詢(xún)數(shù)據(jù)的 匹配程度相對(duì)較高,并且該候選查詢(xún)數(shù)據(jù)中包含的不必要的詞更少;該閾值實(shí)際中可以為 0. 9等,當(dāng)閾值為0. 9時(shí),表示當(dāng)某個(gè)候選查詢(xún)數(shù)據(jù)與當(dāng)前查詢(xún)數(shù)據(jù)的匹配結(jié)果值最大且達(dá) 到0.9以上時(shí),就認(rèn)為當(dāng)前查詢(xún)數(shù)據(jù)需要進(jìn)行改寫(xiě),即改寫(xiě)為該候選查詢(xún)數(shù)據(jù);其中,該閾 值的設(shè)定可以根據(jù)匹配結(jié)果值動(dòng)態(tài)進(jìn)行修改;
步驟106 改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果值選取相應(yīng)的候選查詢(xún)數(shù)據(jù)對(duì)所述當(dāng) 前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě),并且搜索弓I擎按照所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索。將原來(lái)用戶端的當(dāng)前查詢(xún)數(shù)據(jù)改寫(xiě)為該候選查詢(xún)數(shù)據(jù),所述候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的匹配結(jié)果值最大,且大于預(yù)置的一個(gè)閾值。后續(xù)服務(wù)器直接根據(jù)改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn) 行檢索。與現(xiàn)有技術(shù)中基于規(guī)則改寫(xiě)查詢(xún)數(shù)據(jù)再進(jìn)行檢索的方法相比,本實(shí)施例中的技術(shù) 方案不再利用人工制定的固定規(guī)則,直接根據(jù)搜索引擎的查詢(xún)?nèi)罩炯瓤梢詣?chuàng)建預(yù)置的數(shù)據(jù) 庫(kù),當(dāng)然用戶也可以自主設(shè)置該數(shù)據(jù)庫(kù)的內(nèi)容并進(jìn)行更新,這樣針對(duì)用戶不同的查詢(xún)數(shù)據(jù), 就可以通過(guò)匹配出的候選查詢(xún)數(shù)據(jù)對(duì)其進(jìn)行改寫(xiě),利用改寫(xiě)后的查詢(xún)數(shù)據(jù)進(jìn)行檢索時(shí),因 為沒(méi)有依據(jù)單一固定的規(guī)則,不僅可以使得這種檢索的方法能夠獲得更高的準(zhǔn)確性,避免 了采用規(guī)則時(shí)產(chǎn)生的歧義,還可以提升檢索結(jié)果的召回率。參考圖2,示出了本申請(qǐng)一種檢索方法實(shí)施例2的流程圖,可以包括以下步驟步驟201 針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得一個(gè)與 所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);在本實(shí)施例中,針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得了 僅僅一個(gè)候選查詢(xún)數(shù)據(jù);同時(shí),改寫(xiě)數(shù)據(jù)系統(tǒng)還可以獲得與該候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的查詢(xún)結(jié) 果,該查詢(xún)結(jié)果可以是網(wǎng)頁(yè)ID等信息;步驟202 改寫(xiě)數(shù)據(jù)系統(tǒng)提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特 征用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;改寫(xiě)數(shù)據(jù)系統(tǒng)在提取該候選查詢(xún)數(shù)據(jù)和當(dāng)前查詢(xún)數(shù)據(jù)的特征時(shí),可以將當(dāng)前查詢(xún) 數(shù)據(jù)與該一個(gè)候選查詢(xún)數(shù)據(jù)進(jìn)行匹配,獲得所述當(dāng)前查詢(xún)數(shù)據(jù)與該候選查詢(xún)數(shù)據(jù)的特征; 例如,所述當(dāng)前查詢(xún)數(shù)據(jù)與該候選查詢(xún)數(shù)據(jù)中,品牌的匹配個(gè)數(shù),產(chǎn)品的匹配個(gè)數(shù)等;步驟203 改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述一個(gè)候選查詢(xún)數(shù)據(jù)與所述當(dāng)前 查詢(xún)數(shù)據(jù)的特征賦值;改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)匹配結(jié)果為所述特征賦值,例如,所述當(dāng)前查詢(xún)數(shù)據(jù)與該候選 查詢(xún)數(shù)據(jù)中,產(chǎn)品的匹配個(gè)數(shù)為1,即是所述當(dāng)前查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)中都包括了具體 產(chǎn)品的名稱(chēng),且各出現(xiàn)一次,例如,“手機(jī)”,則該特征的特征值即是1 ;其中,賦值之后該候選 查詢(xún)數(shù)據(jù)與當(dāng)前查詢(xún)數(shù)據(jù)的每一個(gè)特征對(duì)應(yīng)一個(gè)特征值,獲得所有候選查詢(xún)數(shù)據(jù)與當(dāng)前查 詢(xún)數(shù)據(jù)匹配之后的特征值集合;步驟204 改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述一個(gè) 候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的一個(gè)匹配結(jié)果值;改寫(xiě)數(shù)據(jù)系統(tǒng)可以對(duì)所述特征值集合進(jìn)行線性加權(quán)處理,當(dāng)然,也可以采用概率 模型進(jìn)行統(tǒng)計(jì),例如,最大熵模型,隱馬爾科夫模型,最大熵隱馬爾科夫模型,條件隨機(jī)場(chǎng)模 型等;改寫(xiě)數(shù)據(jù)系統(tǒng)按照線性加權(quán)的方式對(duì)所述特征值進(jìn)行處理,或者按照最大熵模型 將所述特征值轉(zhuǎn)換為所述匹配結(jié)果值;步驟205 改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述一個(gè)匹配結(jié)果值是否大于某一閾值,當(dāng)結(jié)果為 否時(shí),不做處理,當(dāng)結(jié)果為是時(shí),進(jìn)入步驟206 ;當(dāng)本步驟的結(jié)果為是時(shí),則表示該匹配結(jié)果值對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)要優(yōu)于當(dāng)前查詢(xún)數(shù)據(jù);步驟206 改寫(xiě)數(shù)據(jù)系統(tǒng)判斷在所述數(shù)據(jù)庫(kù)中是否有與所述候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的 查詢(xún)結(jié)果,當(dāng)結(jié)果為否時(shí),不做處理,當(dāng)結(jié)果為是時(shí),進(jìn)入步驟207 ;在本實(shí)施例中,還可以由改寫(xiě)數(shù)據(jù)系統(tǒng)判斷在所述預(yù)置的數(shù)據(jù)庫(kù)中,所述匹配結(jié) 果值對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)是否有對(duì)應(yīng)的查詢(xún)結(jié)果;如果有查詢(xún)結(jié)果,則表示該候選查詢(xún)數(shù) 據(jù)能檢索到相關(guān)的結(jié)果;這樣當(dāng)服務(wù)器按照該候選查詢(xún)數(shù)據(jù)進(jìn)行檢索的時(shí)候,就提高了召 回率;步驟207 改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)改寫(xiě)為所述一個(gè)候選查詢(xún)數(shù)據(jù),并 由搜索引擎按照所述一個(gè)候選查詢(xún)數(shù)據(jù)進(jìn)行檢索。
當(dāng)所述步驟206的結(jié)果為是時(shí),表示這一個(gè)候選查詢(xún)數(shù)據(jù)一定能夠使得搜索引擎 根據(jù)該數(shù)據(jù)檢索到相關(guān)的結(jié)果,這樣就能夠在后續(xù)服務(wù)器進(jìn)行檢索之后,將相關(guān)的檢索結(jié) 果展示給用戶,因此,將當(dāng)前查詢(xún)數(shù)據(jù)改寫(xiě)為所述候選查詢(xún)數(shù)據(jù),并按照所述一個(gè)候選查詢(xún) 數(shù)據(jù)進(jìn)行檢索。在本實(shí)施例中,在搜索引擎的服務(wù)器中預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取到的候選查詢(xún)數(shù) 據(jù)僅有一個(gè),則在所述方法的執(zhí)行過(guò)程中,僅將當(dāng)前查詢(xún)數(shù)據(jù)與該一個(gè)候選查詢(xún)進(jìn)行特征 的提取,并計(jì)算兩者的匹配結(jié)果值,進(jìn)而根據(jù)所述匹配結(jié)果值是否大于預(yù)先指定的閾值來(lái) 判斷所述候選查詢(xún)數(shù)據(jù)是否優(yōu)于當(dāng)前查詢(xún)數(shù)據(jù),并且同時(shí)還判斷該候選查詢(xún)數(shù)據(jù)是否對(duì)應(yīng) 有檢索結(jié)果,如果有,則搜索引擎的服務(wù)器默認(rèn)根據(jù)該候選查詢(xún)數(shù)據(jù)進(jìn)行檢索。通過(guò)這種對(duì) 檢索結(jié)果也進(jìn)行判斷的方法,不僅比現(xiàn)有技術(shù)中基于規(guī)則改寫(xiě)查詢(xún)數(shù)據(jù)再進(jìn)行檢索的方法 更具有準(zhǔn)確性,還可以提高對(duì)檢索結(jié)果的召回率。參考圖3,示出了本申請(qǐng)一種檢索方法實(shí)施例3的流程圖,本實(shí)施例可以理解為將 本申請(qǐng)的檢索方法應(yīng)用于實(shí)際中的一個(gè)具體例子,可以包括以下步驟步驟301 改寫(xiě)數(shù)據(jù)系統(tǒng)將用戶端的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,并為分詞后的每個(gè) 子查詢(xún)數(shù)據(jù)設(shè)置標(biāo)識(shí);在本步驟中,改寫(xiě)數(shù)據(jù)系統(tǒng)可以利用分詞器對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,同時(shí)為分 詞后的每個(gè)子查詢(xún)數(shù)據(jù)設(shè)置標(biāo)識(shí);例如當(dāng)前查詢(xún)數(shù)據(jù)為“紅色諾基亞n95手機(jī)”,進(jìn)行分詞 并設(shè)置標(biāo)識(shí)后為“紅色(修飾詞)/諾基亞(品牌)/n95(型號(hào))/手機(jī)(產(chǎn)品類(lèi)型)”;其 中,紅色就是一個(gè)子查詢(xún)數(shù)據(jù),修飾詞即是該子查詢(xún)數(shù)據(jù)的標(biāo)識(shí);步驟302 改寫(xiě)數(shù)據(jù)系統(tǒng)依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)和分詞結(jié)果在所述預(yù)置的數(shù) 據(jù)庫(kù)中進(jìn)行匹配,從而獲得兩個(gè)候選查詢(xún)數(shù)據(jù),所述數(shù)據(jù)庫(kù)用于保存用戶端的歷史查詢(xún)數(shù) 據(jù),所述候選查詢(xún)數(shù)據(jù)為與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的歷史查詢(xún)數(shù)據(jù);改寫(xiě)數(shù)據(jù)系統(tǒng)依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)在預(yù)置的數(shù)據(jù)庫(kù)中進(jìn)行匹配,在歷史查 詢(xún)數(shù)據(jù)中獲取到了候選查詢(xún)數(shù)據(jù)“諾基亞η95手機(jī)”,“紅色諾基亞手機(jī)”;具體的,例如“紅色諾基亞η95手機(jī)”在數(shù)據(jù)庫(kù)中存儲(chǔ)形式可以如下所示
修飾詞~~Γ Μ產(chǎn)品類(lèi)型I...
紅色諾基亞 Ν95~ 當(dāng)然,候選查詢(xún)數(shù)據(jù)在數(shù)據(jù)庫(kù)中的存儲(chǔ)形式并不影響本申請(qǐng)實(shí)施例的實(shí)現(xiàn),也可以采用其他的存儲(chǔ)形式來(lái)存儲(chǔ)候選查詢(xún)數(shù)據(jù);步驟303 改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)的子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行 比對(duì);將所述子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行比對(duì),在本實(shí)施例中即是將“紅色”、“諾基 亞”和“手機(jī)”等,分別與“諾基亞n95手機(jī)”,“紅色諾基亞手機(jī)”進(jìn)行比對(duì);步驟304:按照比對(duì)的結(jié)果,改寫(xiě)數(shù)據(jù)系統(tǒng)得出所述子查詢(xún)數(shù)據(jù)分別與兩個(gè)候選 查詢(xún)數(shù)據(jù)的匹配結(jié)果;按照比對(duì)的結(jié)果,可以得到當(dāng)前查詢(xún)數(shù)據(jù)“紅色諾基亞n95手機(jī)”與“諾基亞n95 手機(jī)”的特征為“修飾詞的匹配個(gè)數(shù)”,“品牌的匹配個(gè)數(shù)”,“型號(hào)的匹配個(gè)數(shù)”,以及“產(chǎn)品的 匹配個(gè)數(shù)”,這些特征可以表示出當(dāng)前查詢(xún)數(shù)據(jù)與兩 個(gè)候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;步驟305 改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一 個(gè)特征值;在本實(shí)施例中,對(duì)于候選查詢(xún)數(shù)據(jù)“諾基亞n95手機(jī)”,特征分別為修飾詞的匹配 個(gè)數(shù),品牌的匹配個(gè)數(shù),型號(hào)的匹配個(gè)數(shù),以及產(chǎn)品的匹配個(gè)數(shù),則該候選查詢(xún)數(shù)據(jù)與當(dāng)前 查詢(xún)數(shù)據(jù)匹配之后的特征值分別為0,1,1,以及1 ;對(duì)于每個(gè)候選查詢(xún)數(shù)據(jù),每一個(gè)特征對(duì) 應(yīng)一個(gè)特征值;步驟306 改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述兩個(gè) 候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的兩個(gè)匹配結(jié)果值;其中,所述預(yù)置規(guī)則可以是按照簡(jiǎn)單的線性模型進(jìn)行計(jì)算,即把所有的特征值加 權(quán)起來(lái)算匹配結(jié)果值,也可以是比較復(fù)雜的概率模型,例如,最大熵模型,本步驟中計(jì)算出 的結(jié)果表示兩個(gè)候選查詢(xún)數(shù)據(jù)的匹配結(jié)果值,例如,候選查詢(xún)數(shù)據(jù)“諾基亞η95手機(jī)”按照 最大熵模型計(jì)算出的匹配結(jié)果值為0. 95,第二個(gè)候選查詢(xún)數(shù)據(jù)“紅色諾基亞手機(jī)”的匹配結(jié) 果值為0. 8 ;步驟307 改寫(xiě)數(shù)據(jù)系統(tǒng)判斷較大的一個(gè)匹配結(jié)果值是否大于某一閾值,當(dāng)結(jié)果 為否時(shí),不做處理,當(dāng)結(jié)果為是時(shí),則進(jìn)入步驟308 ;同時(shí),改寫(xiě)數(shù)據(jù)系統(tǒng)可以預(yù)先指定一個(gè)閾值,例如在本實(shí)施例中為0.9,該閾值可 以表示當(dāng)匹配結(jié)果值大于該閾值時(shí),對(duì)應(yīng)的那個(gè)候選查詢(xún)數(shù)據(jù)就是最優(yōu)的一個(gè)候選查詢(xún)數(shù) 據(jù);需要說(shuō)明的是,在實(shí)際應(yīng)用中,還可以設(shè)置一個(gè)最低閾值,即是當(dāng)所有的匹配結(jié)果 值都小于這個(gè)最低閾值時(shí),則不對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)操作,同時(shí),當(dāng)所有的匹配結(jié)果值 都小于設(shè)置的某個(gè)最高閾值時(shí),則也不對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)操作;步驟308 改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)改寫(xiě)為所述候選查詢(xún)數(shù)據(jù);則根據(jù)前面的判斷結(jié)果可以得知,第一個(gè)候選查詢(xún)數(shù)據(jù)要優(yōu)于當(dāng)前查詢(xún)數(shù)據(jù),則 在本實(shí)施例中將當(dāng)前查詢(xún)數(shù)據(jù)“紅色諾基亞η95手機(jī)”改寫(xiě)為“諾基亞η95手機(jī)”;步驟309 搜索引擎按照所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索,并將檢索結(jié)果向 客戶端展示。在搜索引擎服務(wù)器端可以直接按照改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù),即是第一個(gè)候選查詢(xún) 數(shù)據(jù)“諾基亞η95手機(jī)”進(jìn)行檢索,并將檢索到的結(jié)果向客戶端展示。需要說(shuō)明的是,在本實(shí)施例中,在提取當(dāng)前查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)之間的特征,或者為所述特征賦值時(shí),本實(shí)施例雖然舉出了具體的數(shù)值,但是在實(shí)際中并不限于某一個(gè) 或某些數(shù)值,本領(lǐng)域技術(shù)人員采用任何方式對(duì)所述特征進(jìn)行賦值,或者根據(jù)特征值計(jì)算匹 配結(jié)果值時(shí),本申請(qǐng)并不局限于某種方法,例如,僅僅采用線性加權(quán),或者最大熵模型等,任 何能夠計(jì)算出與實(shí)際情況相吻合的匹配結(jié)果值的方法都屬于本申請(qǐng)的保護(hù)范疇。 對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但 是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某 些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描 述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。與上述本申請(qǐng)一種檢索方法實(shí)施例1所提供的方法相對(duì)應(yīng),參見(jiàn)圖4,本申請(qǐng)還提 供了一種檢索裝置實(shí)施例1,在本實(shí)施例中,該裝置可以包括獲取模塊401,具體用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得至少兩個(gè) 與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);其中,在搜索引擎服務(wù)器端可以預(yù)置一個(gè)數(shù)據(jù)庫(kù),用于保存用戶端過(guò)的歷史查詢(xún) 數(shù)據(jù),該數(shù)據(jù)庫(kù)中的歷史查詢(xún)數(shù)據(jù)的獲取可以通過(guò)查詢(xún)?nèi)罩?,所述查?xún)?nèi)罩臼撬阉饕嬗?來(lái)收集用戶端的查詢(xún)數(shù)據(jù)和查詢(xún)結(jié)果的日志信息,還可以記錄查詢(xún)結(jié)果的點(diǎn)擊頻率,曝光 率等詳細(xì)信息;提取特征模塊402,用于提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征 用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;所述提取特征模塊402,在獲取到至少兩個(gè)候選查詢(xún)數(shù)據(jù)之后,將所述當(dāng)前查詢(xún)數(shù) 據(jù)和至少兩個(gè)候選查詢(xún)數(shù)據(jù)一一進(jìn)行匹配,從而提取出所述當(dāng)前查詢(xún)與每一個(gè)候選查詢(xún)數(shù) 據(jù)的特征;所述特征,例如,所述當(dāng)前查詢(xún)數(shù)據(jù)與其中一個(gè)候選查詢(xún)數(shù)據(jù)中,品牌的匹配個(gè) 數(shù),產(chǎn)品的匹配個(gè)數(shù)等;第一賦值子模塊403,用于根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一 個(gè)特征值;所述第一賦值子模塊403根據(jù)匹配結(jié)果為所述特征賦值,例如,所述當(dāng)前查詢(xún)數(shù) 據(jù)與其中一個(gè)候選查詢(xún)數(shù)據(jù)中,品牌的匹配個(gè)數(shù)為1,即是所述當(dāng)前查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù) 據(jù)中都包括了某個(gè)品牌的名稱(chēng),且各出現(xiàn)一次,則該特征的特征值即是1 ;其中,賦值之后 每一個(gè)特征對(duì)應(yīng)一個(gè)特征值第一處理子模塊404,用于按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述至少 兩個(gè)候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的至少兩個(gè)匹配結(jié)果值;其中,所述第一處理子模塊404依據(jù)的預(yù)置規(guī)則可以是某種線性加權(quán)規(guī)則,或者 最大熵模型等概率模型將所述特征值轉(zhuǎn)換為所述匹配結(jié)果值;預(yù)置規(guī)則可以根據(jù)實(shí)際需求 預(yù)先指定;具體的,所述第一處理子模塊404可以用于按照線性加權(quán)的方式對(duì)所述特征值進(jìn) 行處理,或者按照最大熵模型將所述特征值轉(zhuǎn)換為所述匹配結(jié)果值。第一判斷子模塊405,用于判斷所述至少兩個(gè)匹配結(jié)果值中最大的匹配結(jié)果值是 否大于某一閾值;如果所述第一判斷子模塊405的判斷如果為是,則表示該匹配結(jié)果值對(duì)應(yīng)的候選 查詢(xún)數(shù)據(jù)要優(yōu)于當(dāng)前查詢(xún)數(shù)據(jù);
改寫(xiě)模塊406,用于根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);檢索模塊407,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索。本實(shí)施例所述的裝置可以集成到搜索引擎的服務(wù)器上,也可以單獨(dú)作為一個(gè)實(shí)體 與搜索引擎服務(wù)器相連,另外,需要說(shuō)明的是,當(dāng)本申請(qǐng)所述的方法采用軟件實(shí)現(xiàn)時(shí),可以 作為搜索引擎的服務(wù)器新增的一個(gè)功能,也可以單獨(dú)編寫(xiě)相應(yīng)的程序,本申請(qǐng)不限定所述 方法或裝置的實(shí)現(xiàn)方式。本實(shí)施例中,運(yùn)用所述裝置對(duì)查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)并根據(jù)改寫(xiě)后的查詢(xún)數(shù)據(jù)檢索, 無(wú)需人工制定單一固定的規(guī)則,直接根據(jù)搜索引擎的查詢(xún)?nèi)罩炯瓤梢詣?chuàng)建預(yù)置的數(shù)據(jù)庫(kù), 當(dāng)然用戶也可以自主設(shè)置該數(shù)據(jù)庫(kù)的內(nèi)容并進(jìn)行更新,這樣就能夠獲得更高的準(zhǔn)確性,避 免了采用規(guī)則時(shí)產(chǎn)生的歧義,還可以提升檢索結(jié)果的召回率。與上述本申請(qǐng)一種檢索方法實(shí)施例2所提供的方法相對(duì)應(yīng),參見(jiàn)圖5,本申請(qǐng)還提 供了一種檢索裝置的優(yōu)選實(shí)施例2,在本實(shí)施例中,該裝置具體可以包括獲取模塊501,具體用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得一個(gè)與所 述當(dāng) 前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);在本實(shí)施例中,所述獲取模塊501在預(yù)置的數(shù)據(jù)庫(kù)中獲取到的候選查詢(xún)數(shù)據(jù)僅有 一個(gè);提取特征模塊502,用于提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征 用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和一個(gè)候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;第二賦值子模塊503,用于根據(jù)所述匹配結(jié)果為所述一個(gè)候選查詢(xún)數(shù)據(jù)與所述當(dāng) 前查詢(xún)數(shù)據(jù)的特征賦值;第二處理子模塊504,用于按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述一個(gè) 候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的一個(gè)匹配結(jié)果值;第二判斷子模塊505,用于判斷所述一個(gè)匹配結(jié)果值是否大于某一閾值;第二判斷模塊506,用于判斷在所述數(shù)據(jù)庫(kù)中是否有與所述候選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的 查詢(xún)結(jié)果;在本實(shí)施例中,可以由所述第二判斷模塊506用來(lái)判斷在所述預(yù)置的數(shù)據(jù)庫(kù)中, 所述匹配結(jié)果值對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)是否有對(duì)應(yīng)的查詢(xún)結(jié)果;如果有查詢(xún)結(jié)果,則表示該 候選查詢(xún)數(shù)據(jù)能檢索到相關(guān)的結(jié)果;執(zhí)行模塊507,用于當(dāng)所述第二判斷模塊的結(jié)果為是時(shí),執(zhí)行將所述當(dāng)前查詢(xún)數(shù)據(jù) 改寫(xiě)為所述候選查詢(xún)數(shù)據(jù)的步驟;檢索模塊508,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索。在本實(shí)施例中,通過(guò)由所述第二判斷模塊506對(duì)檢索結(jié)果也進(jìn)行判斷的操作,當(dāng) 所述候選查詢(xún)數(shù)據(jù)有相關(guān)的檢索結(jié)果再對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě),不僅比現(xiàn)有技術(shù)中基于 規(guī)則改寫(xiě)查詢(xún)數(shù)據(jù)再進(jìn)行檢索的方法更具有準(zhǔn)確性,還可以提高對(duì)檢索結(jié)果的召回率。與上述本申請(qǐng)一種檢索方法實(shí)施例3所提供的方法相對(duì)應(yīng),參見(jiàn)圖6,本申請(qǐng)還提 供了一種檢索裝置的實(shí)施例3,在本實(shí)施例中,該裝置具體可以包括分詞子模塊601,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,并為分詞后的每個(gè)子查詢(xún)數(shù) 據(jù)設(shè)置標(biāo)識(shí);其中所述分詞子模塊601在實(shí)際中可以采用分詞器實(shí)現(xiàn);
匹配子模塊602,用于依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)在所述預(yù)置的數(shù)據(jù)庫(kù)中進(jìn)行匹 配,從而獲得候選查詢(xún)數(shù)據(jù);比對(duì)子模塊603,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)的子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行比 對(duì);獲取匹配結(jié)果子模塊604,用于按照比對(duì)的結(jié)果,得出所述子查詢(xún)數(shù)據(jù)與候選查詢(xún) 數(shù)據(jù)的匹配結(jié)果;第一判斷模塊605,用于判斷所述匹配結(jié)果是否表示需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù) 據(jù);改寫(xiě)模塊606,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)改寫(xiě)為所述候選查詢(xún)數(shù)據(jù);檢索模塊607,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索; 結(jié)果展示模塊608,用于將檢索結(jié)果向客戶端展示。在實(shí)施例中,在匹配獲取候選查詢(xún)數(shù)據(jù)時(shí),可以通過(guò)對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞的 方式,按照子查詢(xún)數(shù)據(jù)來(lái)進(jìn)行匹配獲取各個(gè)候選查詢(xún)數(shù)據(jù),這樣就更能在數(shù)據(jù)庫(kù)中準(zhǔn)確的 匹配獲取到各個(gè)候選查詢(xún)數(shù)據(jù),以便于后續(xù)方便的對(duì)當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě),并進(jìn)行檢索, 從而使得檢索結(jié)果達(dá)到更高的準(zhǔn)確性,提升了召回率。與上述本申請(qǐng)一種檢索方法和裝置實(shí)施例相對(duì)應(yīng),參見(jiàn)圖7,本申請(qǐng)還提供了 一種 檢索系統(tǒng)的實(shí)施例,在本實(shí)施例中,該系統(tǒng)具體可以包括位于服務(wù)器端的數(shù)據(jù)庫(kù)701,用于保存用戶端的歷史查詢(xún)數(shù)據(jù);所述預(yù)置的數(shù)據(jù)庫(kù)在作為單獨(dú)的實(shí)體時(shí),需要和服務(wù)器相連,當(dāng)然,也可以集成到 服務(wù)器上,作為服務(wù)器的一個(gè)單元或模塊存在;獲取模塊702,用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在所述數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún) 數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);提取特征模塊703,用于提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征 用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;第一判斷模塊704,用于判斷所述匹配結(jié)果是否表示需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù) 據(jù);改寫(xiě)模塊705,用于根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);檢索模塊706,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索。優(yōu)選的,所述系統(tǒng)還可以包括查詢(xún)?nèi)罩?05,所述查詢(xún)?nèi)罩九c所述預(yù)置的數(shù)據(jù)庫(kù)相 連,用于提供給服務(wù)器用戶端的歷史查詢(xún)數(shù)據(jù),還可以提供給服務(wù)器查詢(xún)結(jié)果等。其中,在實(shí)際應(yīng)用中檢索系統(tǒng)中各個(gè)部分結(jié)構(gòu)情況還可以參考圖8所示。需要說(shuō)明的是,該系統(tǒng)還可以包括位于用戶端的瀏覽器707,用于接收來(lái)自用戶端的當(dāng)前查詢(xún)數(shù)據(jù)并提交服務(wù)器;在本實(shí)施例中,描述了用戶端和服務(wù)器進(jìn)行交互時(shí),用戶端以及服務(wù)器端各個(gè)裝 置的工作交互情況;首先瀏覽器接收用戶輸入的查詢(xún)時(shí)護(hù)具,并將當(dāng)前查詢(xún)數(shù)據(jù)提交至服 務(wù)器;需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重 點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。對(duì)于裝置類(lèi)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參 見(jiàn)方法實(shí)施例的部分說(shuō)明即可。還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的 包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包 括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要
素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)......”限定的要素,并不排除在包括所
述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將 一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作 之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體 意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括 那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或
者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)......”限定的要素,
并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。以上對(duì)本申請(qǐng)所提供的一種檢索方法、裝置及系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用 了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解 本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具 體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng) 的限制。
權(quán)利要求
一種檢索方法,其特征在于,該方法包括針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);改寫(xiě)數(shù)據(jù)系統(tǒng)提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),如果是,則根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);搜索引擎按照所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹 配獲得候選查詢(xún)數(shù)據(jù),具體為改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取至少兩個(gè)候選查詢(xún)數(shù)據(jù),所述改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),具體包括改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一個(gè)特征值; 改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述至少兩個(gè)候選查詢(xún)數(shù) 據(jù)對(duì)應(yīng)的至少兩個(gè)匹配結(jié)果值;改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述至少兩個(gè)匹配結(jié)果值中最大的匹配結(jié)果值是否大于某一閾值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹 配獲取候選查詢(xún)數(shù)據(jù),具體為改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲取一個(gè)候選查詢(xún)數(shù)據(jù),所述改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),具體包括改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果為所述一個(gè)候選查詢(xún)數(shù)據(jù)與所述當(dāng)前查詢(xún)數(shù)據(jù)的特 征賦值;改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述一個(gè)候選查詢(xún)數(shù)據(jù)對(duì) 應(yīng)的一個(gè)匹配結(jié)果值;改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述一個(gè)匹配結(jié)果值是否大于某一閾值。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述改寫(xiě)數(shù)據(jù)系統(tǒng)按照預(yù)置規(guī)則對(duì)所 述特征值進(jìn)行處理,具體包括改寫(xiě)數(shù)據(jù)系統(tǒng)按照線性加權(quán)的方式對(duì)所述特征值進(jìn)行處理,或者按照最大熵模型將所 述特征值轉(zhuǎn)換為所述匹配結(jié)果值。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)置的數(shù)據(jù)庫(kù)中還包括與所述歷史 查詢(xún)數(shù)據(jù)對(duì)應(yīng)的查詢(xún)結(jié)果,則當(dāng)所述改寫(xiě)數(shù)據(jù)系統(tǒng)根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所 述當(dāng)前查詢(xún)數(shù)據(jù)的結(jié)果為是之后,還包括改寫(xiě)數(shù)據(jù)系統(tǒng)判斷所述匹配結(jié)果對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)是否有對(duì)應(yīng)的查詢(xún)結(jié)果,如果 是,則執(zhí)行根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)的步驟。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹 配獲得候選查詢(xún)數(shù)據(jù),具體包括改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,并為分詞后的每個(gè)子查詢(xún)數(shù)據(jù)設(shè)置標(biāo)識(shí);改寫(xiě)數(shù)據(jù)系統(tǒng)依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)和分詞結(jié)果在所述預(yù)置的數(shù)據(jù)庫(kù)中進(jìn)行匹 配,從而獲得候選查詢(xún)數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述改寫(xiě)數(shù)據(jù)系統(tǒng)提取所述當(dāng)前查詢(xún)數(shù) 據(jù)和候選查詢(xún)數(shù)據(jù)的特征,具體包括改寫(xiě)數(shù)據(jù)系統(tǒng)將所述當(dāng)前查詢(xún)數(shù)據(jù)的子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行比對(duì); 按照比對(duì)的結(jié)果,改寫(xiě)數(shù)據(jù)系統(tǒng)得出所述子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)的匹配結(jié)果。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述搜索引擎按照所述改寫(xiě)后的當(dāng)前查 詢(xún)數(shù)據(jù)進(jìn)行檢索之后,還包括搜索引擎將檢索結(jié)果向客戶端展示。
9.一種檢索裝置,其特征在于,該裝置包括獲取模塊,用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún)數(shù)據(jù) 相關(guān)的候選查詢(xún)數(shù)據(jù);提取特征模塊,用于提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用于描 述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;第一判斷模塊,用于根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù); 改寫(xiě)模塊,用于根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě); 檢索模塊,用于根據(jù)所述改寫(xiě)模塊的結(jié)果進(jìn)行檢索。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲取模塊具體用于在預(yù)置的數(shù)據(jù)庫(kù) 中匹配獲取至少兩個(gè)候選查詢(xún)數(shù)據(jù),則所述第一判斷模塊,具體包括第一賦值子模塊,用于根據(jù)所述匹配結(jié)果為所述特征賦值,每一個(gè)特征對(duì)應(yīng)一個(gè)特征值;第一處理子模塊,用于按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述至少兩個(gè)候 選查詢(xún)數(shù)據(jù)對(duì)應(yīng)的至少兩個(gè)匹配結(jié)果值;第一判斷子模塊,用于判斷所述至少兩個(gè)匹配結(jié)果值中最大的匹配結(jié)果值是否大于某一閾值。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲取模塊,具體用于在預(yù)置的數(shù)據(jù) 庫(kù)中匹配獲取一個(gè)候選查詢(xún)數(shù)據(jù),則所述第一判斷模塊,具體包括第二賦值子模塊,用于根據(jù)所述匹配結(jié)果為所述一個(gè)候選查詢(xún)數(shù)據(jù)與所述當(dāng)前查詢(xún)數(shù) 據(jù)的特征賦值;第二處理子模塊,用于按照預(yù)置規(guī)則對(duì)所述特征值進(jìn)行處理,得到與所述一個(gè)候選查 詢(xún)數(shù)據(jù)對(duì)應(yīng)的一個(gè)匹配結(jié)果值;第二判斷子模塊,用于判斷所述一個(gè)匹配結(jié)果值是否大于某一閾值。
12.根據(jù)權(quán)利要求10或11所述的裝置,其特征在于,所述第一處理子模塊或第二處理 子模塊,具體用于按照線性加權(quán)的方式對(duì)所述特征值進(jìn)行處理,或者按照最大熵模型將所 述特征值轉(zhuǎn)換為所述匹配結(jié)果值。
13.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述預(yù)置的數(shù)據(jù)庫(kù)中還包括與所述歷史查詢(xún)數(shù)據(jù)對(duì)應(yīng)的查詢(xún)結(jié)果,則所述裝置,還包括第二判斷模塊,用于判斷所述匹配結(jié)果對(duì)應(yīng)的候選查詢(xún)數(shù)據(jù)是否有對(duì)應(yīng)的查詢(xún)結(jié)果;執(zhí)行模塊,用于當(dāng)所述第二判斷模塊的結(jié)果為是時(shí),執(zhí)行根據(jù)所述匹配結(jié)果對(duì)所述當(dāng) 前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě)的步驟。
14.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲取模塊,具體包括分詞子模塊,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行分詞,并為分詞后的每個(gè)子查詢(xún)數(shù)據(jù)設(shè)置 標(biāo)識(shí);匹配子模塊,用于依據(jù)所述子查詢(xún)數(shù)據(jù)的標(biāo)識(shí)和分詞結(jié)果在所述預(yù)置的數(shù)據(jù)庫(kù)中進(jìn)行 匹配,從而獲得候選查詢(xún)數(shù)據(jù)。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述提取特征模塊,具體包括比對(duì)子模塊,用于將所述當(dāng)前查詢(xún)數(shù)據(jù)的子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)進(jìn)行比對(duì);獲取匹配結(jié)果子模塊,用于按照比對(duì)的結(jié)果,得出所述子查詢(xún)數(shù)據(jù)與候選查詢(xún)數(shù)據(jù)的 匹配結(jié)果。
16.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括結(jié)果展示模塊,用于將檢索結(jié)果向客戶端展示。
17.一種檢索系統(tǒng),其特征在于,該系統(tǒng)包括改寫(xiě)數(shù)據(jù)系統(tǒng),用于針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún) 數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);并提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用 于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;然后根據(jù)所述匹配結(jié)果判斷是否需 要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),如果是,則根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě);搜索引擎,用于根據(jù)所述改寫(xiě)數(shù)據(jù)系統(tǒng)的結(jié)果進(jìn)行檢索。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N檢索方法、裝置和系統(tǒng),所述方法包括針對(duì)當(dāng)前查詢(xún)數(shù)據(jù),改寫(xiě)數(shù)據(jù)系統(tǒng)在預(yù)置的數(shù)據(jù)庫(kù)中匹配獲得與所述當(dāng)前查詢(xún)數(shù)據(jù)相關(guān)的候選查詢(xún)數(shù)據(jù);提取所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的特征,所述特征用于描述所述當(dāng)前查詢(xún)數(shù)據(jù)和候選查詢(xún)數(shù)據(jù)的匹配結(jié)果;根據(jù)所述匹配結(jié)果判斷是否需要改寫(xiě)所述當(dāng)前查詢(xún)數(shù)據(jù),如果是,則根據(jù)所述匹配結(jié)果對(duì)所述當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行改寫(xiě),并由搜索引擎利用所述改寫(xiě)后的當(dāng)前查詢(xún)數(shù)據(jù)進(jìn)行檢索。在本申請(qǐng)中,避免采用現(xiàn)有技術(shù)中在檢索之前改寫(xiě)當(dāng)前查詢(xún)數(shù)據(jù)時(shí)依據(jù)固定規(guī)則的方式,降低了檢索過(guò)程中出現(xiàn)歧義的幾率,提升了檢索的準(zhǔn)確度。
文檔編號(hào)G06F17/30GK101887436SQ20091013527
公開(kāi)日2010年11月17日 申請(qǐng)日期2009年5月12日 優(yōu)先權(quán)日2009年5月12日
發(fā)明者侯磊, 張勤, 董靜, 邢飛, 郭寧 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司