專利名稱:信息檢索方法和信息檢索設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種信息檢索方法和信息檢索設(shè)備。
背景技術(shù):
隨著計算機與互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息檢索技術(shù)也發(fā)展到規(guī)模巨大的互聯(lián)網(wǎng)信息檢索和數(shù)字圖書館等領(lǐng)域?,F(xiàn)有的信息檢索方法,主要基于統(tǒng)計的方法,該方法能夠計算一篇文檔都包含哪些詞,某個詞在文檔中出現(xiàn)的次數(shù)和位置以及計算出文檔的關(guān)鍵詞。根據(jù)用戶輸入的關(guān)鍵詞匹配搜索引擎中的索引表,用戶輸入的關(guān)鍵詞不準(zhǔn)確時,將導(dǎo)致檢索結(jié)果與用戶需求不匹配。
發(fā)明內(nèi)容
本發(fā)明提供了一種信息檢索方法和信息檢索設(shè)備,使檢索結(jié)果與用戶需求更加匹配。—方面,本發(fā)明提供一種信息檢索方法,包括獲取用戶輸入的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞的語義對所述第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,所述第二關(guān)鍵詞與所述第一關(guān)鍵詞具有語義重疊度;對所述第一關(guān)鍵詞進行檢索得到第一檢索結(jié)果集合,對所述第二關(guān)鍵詞進行檢索得到第二檢索結(jié)果集合,按照與所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對所述第一檢索結(jié)果集合和所述第二檢索結(jié)果集合中的檢索結(jié)果進行重排序另一方面,本發(fā)明還提供一種信息檢索設(shè)備,包括獲取模塊,用于獲取用戶輸入的第一關(guān)鍵詞;語義擴展模塊,用于根據(jù)所述第一關(guān)鍵詞的語義對所述第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,所述第二關(guān)鍵詞與所述第一關(guān)鍵詞具有語義重疊度;檢索模塊,用于對所述第一關(guān)鍵詞進行檢索得到第一檢索結(jié)果集合,對所述第二關(guān)鍵詞進行檢索得到第二檢索結(jié)果集合;重排序模塊,用于按照與所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對所述第一檢索結(jié)果集合和所述第二檢索結(jié)果集合中的檢索結(jié)果進行重排序。本發(fā)明提供的信息檢索方法和信息檢索設(shè)備,對用戶輸入的第一關(guān)鍵詞進行語義擴展,得到與該第一關(guān)鍵詞具有語義重疊度的第二關(guān)鍵詞,對第一關(guān)鍵詞和第二關(guān)鍵詞進行搜索分別得到檢索結(jié)果,再對第一關(guān)鍵詞和第二關(guān)鍵詞的檢索結(jié)果重排序,得到最終檢索結(jié)果。本發(fā)明,減緩了根據(jù)用戶輸入的關(guān)鍵詞進行查詢對信息檢索結(jié)果的決定性影響,在用戶表達(dá)檢索需求的關(guān)鍵詞比較生僻或用戶輸入的關(guān)鍵詞不準(zhǔn)確等多種情況下,提高了檢索結(jié)果的穩(wěn)定性,使結(jié)果與用戶需求更加匹配。
圖I為本發(fā)明提供的信息檢索方法一個實施例的流程圖;圖2為本發(fā)明提供的信息檢索設(shè)備一個實施例的結(jié)構(gòu)示意圖;圖3為本發(fā)明提供的信息檢索設(shè)備又一個實施例的結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖I為本發(fā)明提供的信息檢索方法一個實施例的流程圖,如圖I所示,該方法包括S101、獲取用戶輸入的第一關(guān)鍵詞。S102、根據(jù)第一關(guān)鍵詞的語義對第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,
第二關(guān)鍵詞與第一關(guān)鍵詞具有語義重疊度。S103、對第一關(guān)鍵詞進行檢索得到第一檢索結(jié)果集合,對第二關(guān)鍵詞進行檢索得到第二檢索結(jié)果集合。S104、按照與第一關(guān)鍵詞和/或第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對第一檢索結(jié)果集合和第二檢索結(jié)果集合中的檢索結(jié)果進行重排序。以上步驟的執(zhí)行主體可以是信息檢索設(shè)備,例如信息檢索引擎等。該信息檢索設(shè)備可以設(shè)置在網(wǎng)絡(luò)側(cè),用于對用戶輸入的關(guān)鍵詞,在各種網(wǎng)頁資源中進行匹配,向用戶提供檢索結(jié)果。本發(fā)明提供的信息檢索方法,當(dāng)信息檢索設(shè)備獲取到用戶輸入的第一關(guān)鍵詞(該第一關(guān)鍵詞可以是任何字、詞匯或短語)后,可以采用現(xiàn)有的各種方法對第一關(guān)鍵詞進行語義擴展,得到與第一關(guān)鍵詞具有語義重疊度的至少一個第二關(guān)鍵詞。其中,具有語義重疊度可以是指語義相近或相關(guān),從而可能會致使搜索結(jié)果相近或相關(guān)。例如用戶輸入的第一關(guān)鍵詞為“西裝”,則可以根據(jù)“西裝”這一關(guān)鍵詞的語義進行擴展,得到第二關(guān)鍵詞“正裝”。需要說明的是,本發(fā)明中涉及的第二關(guān)鍵詞是指與第一關(guān)鍵詞具有最高的語義重疊度,或者較高語義重疊度的一個或多個第二關(guān)鍵詞。作為一種可行的實施方式,信息檢索設(shè)備可以根據(jù)至少一個搜索引擎的檢索結(jié)果,預(yù)先建立語義重疊度數(shù)據(jù)庫。該語義重疊數(shù)據(jù)庫中可以包括任一關(guān)鍵詞與其他關(guān)鍵詞之間的語義重疊度概率。其中,語義重疊度概率可以以任一關(guān)鍵詞的某一檢索結(jié)果屬于其他關(guān)鍵詞的檢索結(jié)果集合的概率來表示。在上述實施場景下,相應(yīng)的,信息檢索設(shè)備可以在預(yù)先建立的語義重疊度數(shù)據(jù)庫中,確定與第一關(guān)鍵詞具有最高語義重疊度概率的至少一個第二關(guān)鍵詞。得到第二關(guān)鍵詞后,信息檢索設(shè)備可以進一步對第一關(guān)鍵詞和至少一個第二關(guān)鍵詞進行檢索,分別得到第一關(guān)鍵詞對應(yīng)的第一檢索結(jié)果集合,以及第二關(guān)鍵詞對應(yīng)的第二檢索結(jié)果集合。
進一步的,得到第一關(guān)鍵詞對應(yīng)的第一檢索結(jié)果集合和第二關(guān)鍵詞對應(yīng)的第二檢索結(jié)果集合之后,還可以按照與第一關(guān)鍵詞和/或第二關(guān)鍵詞的語義相關(guān)度,對第一檢索結(jié)果集合和第二檢索結(jié)果集合中的各檢索結(jié)果進行分析,按照與第一關(guān)鍵詞和/或第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對第一檢索結(jié)果集合和第二檢索結(jié)果集合中的檢索結(jié)果進行重排序。經(jīng)過重排序后,排在靠前的檢索結(jié)果與第一關(guān)鍵詞和/或第二關(guān)鍵詞的語義相關(guān)度較高,使用戶能夠方便獲取與檢索需求更為匹配的檢索結(jié)果。本發(fā)明提供的信息檢索方法,對用戶輸入的第一關(guān)鍵詞進行語義擴展,得到與該第一關(guān)鍵詞具有語義重疊度的第二關(guān)鍵詞,對第一關(guān)鍵詞和第二關(guān)鍵詞進行搜索分別得到檢索結(jié)果,再對第一關(guān)鍵詞和第二關(guān)鍵詞的檢索結(jié)果重排序,得到最終檢索結(jié)果。本發(fā)明,減緩了根據(jù)用戶輸入的關(guān)鍵詞進行查詢對信息檢索結(jié)果的決定性影響,在用戶表達(dá)檢索需求的關(guān)鍵詞比較生僻或用戶輸入的關(guān)鍵詞不準(zhǔn)確等多種情況下,提高了檢索結(jié)果的穩(wěn)定性,使結(jié)果與用戶需求更加匹配。
在圖I所示實施例的基礎(chǔ)上,本發(fā)明提供了一種根據(jù)至少一個搜索引擎的檢索結(jié)果,建立語義重疊度數(shù)據(jù)庫的方法。具體的可以根據(jù)(C|D)[1,u] = [mid(C|D)-ξ,mid(C|D) +ξ]確定任一關(guān)鍵詞 D 與任一關(guān)鍵詞C之間的語義重疊度概率;其中,mid (CID) = I C n D I / ID I,為C n D相對于D的條件概率,表示關(guān)鍵詞D的檢索結(jié)果集合中的任一檢索結(jié)果,同時屬于關(guān)鍵詞C的檢索結(jié)果集合的概率;ξ為非負(fù)數(shù),表示通過任一次檢索結(jié)果確定的關(guān)鍵詞D與關(guān)鍵詞C之間的語義重疊度概率與關(guān)鍵詞D與關(guān)鍵詞C之間的實際語義重疊度概率之間的誤差,I和u均大于等于0,小于等于1,且l〈u,I等于 mid (CID) _ ξ , u 等于 mid (C D) + ξ。需要說明的是,語義重疊度概率是一種條件約束,具有如下形式的表達(dá)式(C I D)[l,u],l,ue
。其中,C即為第一關(guān)鍵詞,D即為第二關(guān)鍵詞。在信息檢索領(lǐng)域,表達(dá)用戶檢索需求的關(guān)鍵詞,它所表示的集合可以由滿足用戶查詢需求的網(wǎng)頁/文檔構(gòu)成。利用條件約束(conditional constraints)可以用來表示C和D所表示的集合之間重疊關(guān)系。以下以關(guān)鍵詞C和關(guān)鍵詞D為例,對根據(jù)至少一個搜索引擎的檢索結(jié)果,建立語義重疊度數(shù)據(jù)庫的過程進行說明,具體的首先可以采用現(xiàn)有的各種搜索引擎,例如g00gle搜索引擎,分別對關(guān)鍵詞C和關(guān)鍵詞D進行檢索,獲取關(guān)鍵詞C的檢索結(jié)果集合以及關(guān)鍵詞D的檢索結(jié)果集合,然后計算mid(C|D) = |C n D|/|D|,mid(C|D) = |C n D|/|D表示此次檢索結(jié)果中,同時屬于關(guān)鍵詞C的檢索結(jié)果集合和關(guān)鍵詞D的檢索結(jié)果集合的搜索結(jié)果,與屬于關(guān)鍵詞D的檢索結(jié)果集合的比率。其中,可以選擇某非負(fù)數(shù)ξ作為可能存在的誤差,通過(C|D)[1,u] = [mid (CID) - ξ,mid (C D) + ξ ]來估計關(guān)鍵詞C和關(guān)鍵詞D之間的語義重疊程度。以下以計算關(guān)鍵詞“邏輯程序設(shè)計”和關(guān)鍵詞“演繹數(shù)據(jù)庫”之間的語義重疊度概率為例,對語義重疊數(shù)據(jù)庫中維護的關(guān)鍵詞“邏輯程序設(shè)計”與關(guān)鍵詞“演繹數(shù)據(jù)庫”之間的語義重疊度概率進行說明。首先,可以在至少一個搜索引擎上對關(guān)鍵詞“邏輯程序設(shè)計”進行檢索,假設(shè)檢索結(jié)果為10000條記錄;然后可以在至少一個搜索引擎上對關(guān)鍵詞“演繹數(shù)據(jù)庫”進行檢索,假設(shè)檢索結(jié)果為11000條記錄,其中有9000條記錄被包含在“邏輯程序設(shè)計”的10000條檢索結(jié)果中。則mid(演繹數(shù)據(jù)庫I邏輯程序設(shè)計)=9000/10000=0. 9。假設(shè)計算誤差是O. 05,則可以得到關(guān)鍵詞“邏輯程序設(shè)計”與關(guān)鍵詞“演繹數(shù)據(jù)庫”之間的語義重疊度概率為(演繹數(shù)據(jù)庫I邏輯程序設(shè)計)[O. 85,O. 95]。需要說明的是還可以通過其他現(xiàn)有方式獲得兩個關(guān)鍵詞之間的條件約束,在此不列舉。另外,上述語義重疊數(shù)據(jù)庫中維護的關(guān)鍵詞之間的語義重疊度概率是一個范圍,這個概率也可以理解為一個條件約束,語義重疊數(shù)據(jù)庫實際上可以是由大量關(guān)鍵詞之間的語義重疊度概率(即條件約束)構(gòu)成的知識庫。因此,在獲取用戶輸入的任一第一關(guān)鍵詞之后,可以在預(yù)先設(shè)置的語義重疊數(shù)據(jù)庫中查找到與第一關(guān)鍵詞C具有最高語義重疊度的第二關(guān)鍵詞D,即,查找與第一關(guān)鍵詞具有語義重疊度的在“(C|D) [I, u] ”中具有最大下限I的第二關(guān)鍵詞。
以用戶輸入的第一關(guān)鍵詞“西裝”為例,假設(shè)語義重疊數(shù)據(jù)庫中與“西裝”相關(guān)的其中幾條語義重疊度概率為I) “(演繹數(shù)據(jù)庫I邏輯程序設(shè)計)
” ;2) “(邏輯程序設(shè)計I西裝)[O, I] ” ;3)(正裝 I 西裝)
”。可以看出,在涉及到的上述3個關(guān)鍵詞“(演繹數(shù)據(jù)庫”、“邏輯程序設(shè)計”和“正裝”中,與“西裝”具有最大重疊下限的關(guān)鍵詞是“正裝”,下限是O. 95。因此,擴展查詢得到的與第一關(guān)鍵詞“西裝”具有最高語義重疊度的為“正裝”。按照這種方式,還可以找到與用戶輸入的第一關(guān)鍵詞C具有次高語義重疊度的關(guān)鍵詞E等,S卩,可以找到一個或多個第二關(guān)鍵詞,從而提高檢索結(jié)果與用戶輸入的關(guān)鍵詞的匹配程度。以上提供了根據(jù)至少一個搜索引擎的檢索結(jié)果,建立語義重疊度數(shù)據(jù)庫的一種可行的實施方式。進一步的,本發(fā)明還提供了按照與所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對所述第一檢索結(jié)果集合和所述第二檢索結(jié)果集合中的檢索結(jié)果進行重排序的
具體實施例方式
可以根據(jù)
權(quán)利要求
1.一種信息檢索方法,其特征在于,包括 獲取用戶輸入的第一關(guān)鍵詞; 根據(jù)所述第一關(guān)鍵詞的語義對所述第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,所述第二關(guān)鍵詞與所述第一關(guān)鍵詞具有語義重疊度; 對所述第一關(guān)鍵詞進行檢索得到第一檢索結(jié)果集合,對所述第二關(guān)鍵詞進行檢索得到第二檢索結(jié)果集合; 按照與所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對所述第一檢索結(jié)果集合和所述第二檢索結(jié)果集合中的檢索結(jié)果進行重排序。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述根據(jù)所述第一關(guān)鍵詞的語義對所述第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞之前,還包括 根據(jù)至少一個搜索引擎的檢索結(jié)果,建立語義重疊度數(shù)據(jù)庫,所述語義重疊數(shù)據(jù)庫中包括任一關(guān)鍵詞與其他關(guān)鍵詞之間的語義重疊度概率; 所述根據(jù)所述第一關(guān)鍵詞的語義對所述第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,包括 在所述語義重疊度數(shù)據(jù)庫中,確定與所述第一關(guān)鍵詞具有最高語義重疊度概率的至少一個所述第二關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)(C|D)[I, u] = [mid (CID) - ξ,mid (C D) + ξ ]確定任一關(guān)鍵詞D與任一關(guān)鍵詞C之間的語義重疊度概率;其中,mid (ClD) = I C n D|/|D|,為C n D相對于D的條件概率,表示關(guān)鍵詞D的檢索結(jié)果集合中的任一檢索結(jié)果,同時屬于關(guān)鍵詞C的檢索結(jié)果集合的概率;ξ為非負(fù)數(shù),表示通過任一次檢索結(jié)果確定的所述關(guān)鍵詞D與所述關(guān)鍵詞C之間的語義重疊度概率與所述關(guān)鍵詞D與所述關(guān)鍵詞C之間的實際語義重疊度概率之間的誤差,I和u均大于等于O,小于等于 1,且 l〈u, I 等于 mid (C| D)- ξ , u 等于 mid(C | D) + ξ。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述對所述第一檢索結(jié)果集合和所述第二檢索結(jié)果集合中的檢索結(jié)果進行重排序,包括
5.一種信息檢索設(shè)備,其特征在于,包括 獲取模塊,用于獲取用戶輸入的第一關(guān)鍵詞; 語義擴展模塊,用于根據(jù)所述第一關(guān)鍵詞的語義對所述第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,所述第二關(guān)鍵詞與所述第一關(guān)鍵詞具有語義重疊度; 檢索模塊,用于對所述第一關(guān)鍵詞進行檢索得到第一檢索結(jié)果集合,對所述第二關(guān)鍵詞進行檢索得到第二檢索結(jié)果集合;重排序模塊,用于按照與所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對所述第一檢索結(jié)果集合和所述第二檢索結(jié)果集合中的檢索結(jié)果進行重排序。
6.根據(jù)權(quán)利要求5所述的設(shè)備,其特征在于,還包括 建立模塊,用于根據(jù)至少ー個搜索引擎的檢索結(jié)果,建立語義重疊度數(shù)據(jù)庫,所述語義重疊數(shù)據(jù)庫中包括任一關(guān)鍵詞與其他關(guān)鍵詞之間的語義重疊度概率; 所述語義擴展模塊具體用干在所述建立模塊建立的所述語義重疊度數(shù)據(jù)庫中,確定與所述第一關(guān)鍵詞具有最高語義重疊度概率的至少ー個所述第二關(guān)鍵詞。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其特征在干, 所述建立模塊具體用干根據(jù)(C|D) [l,u] = [mid(C|D)-l,mid(C|D) + l]確定任ー關(guān)鍵詞D與任一關(guān)鍵詞C之間的語義重疊度概率;其中,mid (C|D) = | C n D|/|D|,為C n D相對于D的條件概率,表示關(guān)鍵詞D的檢索結(jié)果集合中的任ー檢索結(jié)果,同時屬于關(guān)鍵詞C的檢索結(jié)果集合的概率;I為非負(fù)數(shù),表示通過任一次檢索結(jié)果確定的所述關(guān)鍵詞D與所述關(guān)鍵詞C之間的語義重疊度概率與所述關(guān)鍵詞D與所述關(guān)鍵詞C之間的實際語義重疊度概率之間的誤差,I和u均大于等于O,小于等于1,且l〈u,I等于mid (C|D)-l,u等于
8.根據(jù)權(quán)利要求5-7任一項所述的設(shè)備,其特征在于,所述重排序模塊具體用于根據(jù) ,對所述第一檢索結(jié)果集合和所述 l+u~第二檢索結(jié)果集合中的檢索結(jié)果進行重排序;其中,Rl為所述第一檢索結(jié)果集合,R2為所述第二檢索結(jié)果集合,:Tanki (r)表示任ー檢索結(jié)果r在Ri (i = 1,2)中的位置。
全文摘要
本發(fā)明提供一種信息檢索方法和信息檢索設(shè)備。方法包括獲取用戶輸入的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞的語義對第一關(guān)鍵詞進行擴展,得到至少一個第二關(guān)鍵詞,第二關(guān)鍵詞與第一關(guān)鍵詞具有語義重疊度;對第一關(guān)鍵詞進行檢索得到第一檢索結(jié)果集合,對第二關(guān)鍵詞進行檢索得到第二檢索結(jié)果集合,按照與第一關(guān)鍵詞和/或第二關(guān)鍵詞的語義相關(guān)度從高至低的順序,對第一檢索結(jié)果集合和第二檢索結(jié)果集合中的檢索結(jié)果進行重排序本發(fā)明,減緩了根據(jù)用戶輸入的關(guān)鍵詞進行查詢對信息檢索結(jié)果的決定性影響,在用戶表達(dá)檢索需求的關(guān)鍵詞比較生僻或用戶輸入的關(guān)鍵詞不準(zhǔn)確等多種情況下,提高了檢索結(jié)果的穩(wěn)定性,使結(jié)果與用戶需求更加匹配。
文檔編號G06F17/30GK102819601SQ201210291308
公開日2012年12月12日 申請日期2012年8月15日 優(yōu)先權(quán)日2012年8月15日
發(fā)明者陳立民, 徐效寧, 馮立華 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司