專利名稱:一種搜索方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域,尤其涉及一種搜索方法及裝置。
背景技術(shù):
目前,傳統(tǒng)的搜索方案主要為:根據(jù)用戶輸入待搜索信息在網(wǎng)絡(luò)中查找所有的關(guān)聯(lián)文檔,依據(jù)一定的算法規(guī)則計算每個關(guān)聯(lián)文檔與待搜索信息的關(guān)聯(lián)程度,基于關(guān)聯(lián)程度的高低對所有關(guān)聯(lián)文檔進(jìn)行排序處理,將排序結(jié)果作為搜索結(jié)果返回給用戶。上述可知,關(guān)聯(lián)程度的高低直接影響關(guān)聯(lián)文檔的排序結(jié)果,直接影響用戶的搜索結(jié)果,而關(guān)聯(lián)程度的高低一般采用相關(guān)度評分直觀反映。傳統(tǒng)的搜索方案中,通常采用詞匹配算法進(jìn)行相關(guān)度計算,例如采用BM25(BestMatch,最佳匹配)算法、proximity (Term proximity scoring,詞近鄰得分)算法等等進(jìn)行相關(guān)度評分,相關(guān)度評分越高,表明關(guān)聯(lián)程度越強(qiáng)。以基于BM25算法的搜索方案進(jìn)行說明,如下:假設(shè)用戶輸入的待搜索信息為“中國的首都”,根據(jù)BM25算法的相關(guān)度評分原則,關(guān)聯(lián)文檔中必須出現(xiàn)“中國”、“首都”,才能夠獲得相應(yīng)的相關(guān)度評分,否則該關(guān)聯(lián)文檔的相關(guān)度評分則為O ;例如:其中一個關(guān)聯(lián)文檔為:“北京,它是一座有著3000多年的建城史,850多年的建者史的歷史文化名城;是全國政治、文化中心,也是全國最大的陸空產(chǎn)通樞紐”,根據(jù)上述傳統(tǒng)的搜索方案,該關(guān)聯(lián)文檔的相關(guān)度評分為0,表明與待搜索信息不相關(guān),然而,從語義關(guān)系來看,該關(guān)聯(lián)文檔與待搜索信息的相關(guān)性實(shí)際上是十分好的。經(jīng)過排序處理后,該關(guān)聯(lián)文檔可能排列于較后的搜索結(jié)果頁面中,不利于用戶的查看。上述例子可知,傳統(tǒng)的搜索方案僅僅基于詞進(jìn)行相關(guān)度的匹配,并未考慮詞與詞之間的語義關(guān)系,可能造成相關(guān)度計算結(jié)果的不準(zhǔn)確,影響搜索結(jié)果的排列順序,降低用戶對搜索結(jié)果的滿意度,降低用戶的搜索體驗
發(fā)明內(nèi)容
本發(fā)明實(shí)施例所要解決的技術(shù)問題在于,提供一種搜索方法及裝置,能夠獲得更準(zhǔn)確的搜索結(jié)果。一方面,本發(fā)明實(shí)施例提供了一種搜索方法,包括:獲取待搜索信息的關(guān)聯(lián)文檔;基于詞匹配算法及語義匹配算法,計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度;根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序,并顯示排序結(jié)果。另一方面,本發(fā)明實(shí)施例還提供了一種搜索裝置,包括:搜索模塊,用于獲取待搜索信息的關(guān)聯(lián)文檔;計算模塊,用于基于詞匹配算法及語義匹配算法,計算所述搜索模塊獲得的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度;排序模塊,用于根據(jù)所述計算模塊計算得到的相關(guān)度對所述搜索模塊獲得的所有關(guān)聯(lián)文檔進(jìn)行排序處理;
顯示模塊,用于顯示所述排序模塊獲得的排序結(jié)果。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
本發(fā)明實(shí)施例結(jié)合詞匹配算法及語義匹配算法,綜合考慮詞與詞的匹配,以及詞與詞之間的語義關(guān)系的匹配,獲得每一個關(guān)聯(lián)文檔與待搜索信息之間較為準(zhǔn)確的相關(guān)度,基于該相關(guān)度進(jìn)行排序并顯示排序結(jié)果,可以為用戶提供理想的搜索結(jié)果,使得用戶可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔,滿足自己實(shí)際的搜索需求,提高了搜索效率,從而提高了用戶的滿意度。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的搜索方法的一個實(shí)施例的流程圖2為圖1所示步驟S102的具體流程圖3為本發(fā)明提供的IDF表的示意圖4為本發(fā)明提供的MI表的示意圖5為圖1所示步驟S103的具體流程圖6為本發(fā)明提供的搜索裝置的一個實(shí)施例的結(jié)構(gòu)示意圖7為圖6所示的計算模塊的實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的·實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供的方案中,搜索裝置可以基于詞匹配以及詞與詞之間的語義匹配算法,計算待搜索信息的所有關(guān)聯(lián)文檔的相關(guān)度,并根據(jù)該相關(guān)度進(jìn)行排序和顯示,使得用戶可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔,滿足自己的搜索需求,提高搜索效率。
其中,所述待搜索信息可以為用戶輸入的搜索關(guān)鍵詞句,其可以用query (查詢)表示。所述關(guān)聯(lián)文檔可以為:基于用戶輸入的搜索關(guān)鍵詞句,利用現(xiàn)有的網(wǎng)絡(luò)搜索技術(shù)獲得的搜索結(jié)果中包含的文檔,其可以用document (文檔)表示。
所述詞匹配算法是指搜索過程基于詞進(jìn)行匹配,其可以為:BM25算法、proximity等算法,除特別說明外,本發(fā)明實(shí)施例以BM25算法為例進(jìn)行說明。所述語義匹配算法是指搜索過程基于詞與詞之間的語義關(guān)系進(jìn)行匹配,也即,搜索過程基于詞與詞之間的互信息進(jìn)行匹配。所謂MI (Mutual Information,互信息),是對兩個隨機(jī)變量的關(guān)聯(lián)程度的描述,在文本處理中,MI用來衡量兩個詞的相關(guān)度,兩個詞的MI越大,表示該兩個詞的關(guān)聯(lián)程度越強(qiáng)。
下面將結(jié)合附圖1-附圖5,對本發(fā)明實(shí)施例提供的搜索方法進(jìn)行詳細(xì)介紹。
請參見圖1,為本發(fā)明提供的搜索方法的一個實(shí)施例的流程圖;該方法包括:
S101,獲取待搜索信息的關(guān)聯(lián)文檔。本步驟可以參照現(xiàn)有技術(shù),在此不贅述。
S102,基于詞匹配算法及語義匹配算法,計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度。
本步驟中,每一個關(guān)聯(lián)文檔與待搜索信息的相關(guān)度的評分可以由兩部分組成,一部分是基于詞匹配算法獲得的關(guān)聯(lián)評分,另一部分是基于語義匹配算法獲得的關(guān)聯(lián)評分。實(shí)際應(yīng)用中,可以根據(jù)具體情況,預(yù)先設(shè)置兩部分關(guān)聯(lián)評分的權(quán)重,使得加權(quán)后的兩部分關(guān)聯(lián)評分所組成的相關(guān)度評分更能準(zhǔn)確體現(xiàn)關(guān)聯(lián)文檔與待搜索信息的關(guān)聯(lián)程度。
S103,根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序處理,并顯示排序結(jié)果O
本步驟中,可以按照每個關(guān)聯(lián)文檔與待搜索信息的相關(guān)度評分由高至低的順序,對搜索得到的所有關(guān)聯(lián)文檔進(jìn)行排序和顯示,使得顯示在前的始終為與待搜索信息較相關(guān)的關(guān)聯(lián)文檔,從而使得用戶可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔,滿足自己的搜索需求,提高搜索效率??梢岳斫獾氖牵静襟E也可以采用其他順序進(jìn)行排序處理,例如按照相關(guān)度評分由低至高的順序,或者設(shè)置一部分按照相關(guān)度評分由低至高的順序,一部分按照相關(guān)度評分由高至低的順序,等等。
請參見圖2,為圖1所示步驟S102的具體流程圖;該步驟S102包括:
S211,對所述待搜索信息進(jìn)行向量化處理,獲得m個向量tp
本步驟中,對待搜索信息進(jìn)行向量化處理,即是利用分詞技術(shù),對待搜索信息進(jìn)行分詞處理,將待搜索信息分割成m個詞組成,可以表示為h至tm,其中,m和i均為正整數(shù),且 I < i < m。
S212,對獲取到的每一個關(guān)聯(lián)文檔進(jìn)行向量化處理,獲得每一個關(guān)聯(lián)文檔所對應(yīng)的η個向量dj。
本步驟中,對獲取到的所有關(guān)聯(lián)文檔中的每一個文檔進(jìn)行向量化處理,即是利用分詞技術(shù),對每一個關(guān)聯(lián)文檔進(jìn)行分詞處理,將該關(guān)聯(lián)文檔分割成η個詞組成,可以表示為Cl1至七,其中,η和j均為正整數(shù),且I彡j彡η。
需要說明的是,步驟S211與步驟S212在時序上不分先后,例如也可以先執(zhí)行步驟S212,再執(zhí)行步驟S211。步驟S211-``步驟S212中的向量化處理過程可以參照現(xiàn)有技術(shù),在此不贅述。
S213,基于詞匹配算法,計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S10
本步驟中,詞匹配算法的公式可以為:
權(quán)利要求
1.一種搜索方法,其特征在于,包括: 獲取待搜索信息的關(guān)聯(lián)文檔; 基于詞匹配算法及語義匹配算法,計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度; 根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序,并顯示排序結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于詞匹配算法及語義匹配算法,計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度,包括: 對所述待搜索信息進(jìn)行向量化處理,獲得m個向量ti;其中,m和i均為正整數(shù),且1 ≤i ≤m ; 對獲取到的每一個關(guān)聯(lián)文檔進(jìn)行向量化處理,獲得每一個關(guān)聯(lián)文檔所對應(yīng)的η個向量屯其中,η和j均為正整數(shù),且I SjSn; 基于詞匹配算法,計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S1,基于語義匹配算法,計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S2 ; 根據(jù)公式S= a XS1+(1-Ci)XS2,計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度S,其中,α為預(yù)設(shè)的權(quán)重,且O < α < I。
3.如權(quán)利要求2所述的方法,其特征在于:所述詞匹配算法的公式為:
4.如權(quán)利要求3所述的方法,其特征在于,向量\的權(quán)重的計算公式如下:
5.如權(quán)利要求2所述的方法,其特征在于:所述語義匹配算法的公式為:
6.如權(quán)利要求5所述的方法,其特征在于,向量\與向量Clj的互信息的計算公式如下:
7.如權(quán)利要求1-6任一項所述的方法,其特征在于,所述根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序,并顯示排序結(jié)果,包括: 根據(jù)每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度,按照相關(guān)度從高至低的順序?qū)λ嘘P(guān)聯(lián)文檔進(jìn)行排序; 顯不排序后的所有關(guān)聯(lián)文檔。
8.一種搜索裝置,其特征在于,包括: 搜索模塊,用于獲取待搜索信息的關(guān)聯(lián)文檔; 計算模塊,用于基于詞匹配算法及語義匹配算法,計算所述搜索模塊獲得的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度; 排序模塊,用于根據(jù)所述計算模塊計算得到的相關(guān)度對所述搜索模塊獲得的關(guān)聯(lián)文檔進(jìn)行排序; 顯示模塊,用于顯示所述排序模塊獲得的排序結(jié)果。
9.如權(quán)利要求8所述的裝置,其特征在于,所述計算模塊包括: 第一向量化處理單元,用于對所述待搜索信息進(jìn)行向量化處理,獲得m個向量\,其中,m和i均為正整數(shù),且1≤i≤m ; 第二向量化處理單元,用于對所述搜索模塊獲得的每一個關(guān)聯(lián)文檔進(jìn)行向量化處理,獲得每一個關(guān)聯(lián)文檔所對應(yīng)的η個向量Clj,其中,η和j均為正整數(shù),且I SjSn; 詞匹配計算單元,用于基于詞匹配算法,計算得到所述第二向量化處理單元處理后的關(guān)聯(lián)文檔與 所述待搜索信息的關(guān)聯(lián)評分S1 ; 語義匹配計算單元,用于基于語義匹配算法,計算得到所述第二向量化處理單元處理后的關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S2 ; 相關(guān)度計算單元,用于根據(jù)公式S= a XS1 (1-Ci)XS2,計算得到所述關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度S,其中,α為預(yù)設(shè)的權(quán)重,且O < α < I。
10.如權(quán)利要求9所述的裝置,其特征在于,所述詞匹配算法的公式為:
11.如權(quán)利要求8-10任一項所述的裝置,其特征在于, 所述排序模塊根據(jù)每個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度,按照相關(guān)度從高至低的順序?qū)λ鏊阉髂K獲得的所有關(guān)聯(lián)文檔進(jìn)行排序; 所述顯示模塊顯示所述排序模`塊排序后的所有關(guān)聯(lián)文檔。
全文摘要
本發(fā)明實(shí)施例公開了一種搜索方法,包括獲取待搜索信息的所有關(guān)聯(lián)文檔;基于詞匹配算法及語義匹配算法,計算每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度;根據(jù)計算得到的相關(guān)度對所有關(guān)聯(lián)文檔進(jìn)行排序處理,并顯示排序結(jié)果。本發(fā)明實(shí)施例還公開了一種搜索裝置。本發(fā)明綜合考慮詞與詞的匹配,以及詞與詞之間的語義關(guān)系的匹配,獲得準(zhǔn)確的相關(guān)度計算結(jié)果,為用戶提供理想的搜索結(jié)果,提高用戶的滿意度。
文檔編號G06F17/30GK103246681SQ20121003152
公開日2013年8月14日 申請日期2012年2月13日 優(yōu)先權(quán)日2012年2月13日
發(fā)明者路彥雄, 楊月奎, 王亮, 焦峰 申請人:騰訊科技(深圳)有限公司