一種搜索方法及裝置的制作方法

文檔序號：6364634閱讀：259來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種搜索方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域，尤其涉及一種搜索方法及裝置。
背景技術(shù)：
目前，傳統(tǒng)的搜索方案主要為:根據(jù)用戶輸入待搜索信息在網(wǎng)絡(luò)中查找所有的關(guān)聯(lián)文檔，依據(jù)一定的算法規(guī)則計算每個關(guān)聯(lián)文檔與待搜索信息的關(guān)聯(lián)程度，基于關(guān)聯(lián)程度的高低對所有關(guān)聯(lián)文檔進(jìn)行排序處理，將排序結(jié)果作為搜索結(jié)果返回給用戶。上述可知，關(guān)聯(lián)程度的高低直接影響關(guān)聯(lián)文檔的排序結(jié)果，直接影響用戶的搜索結(jié)果，而關(guān)聯(lián)程度的高低一般采用相關(guān)度評分直觀反映。傳統(tǒng)的搜索方案中，通常采用詞匹配算法進(jìn)行相關(guān)度計算，例如采用BM25(BestMatch,最佳匹配)算法、proximity (Term proximity scoring,詞近鄰得分)算法等等進(jìn)行相關(guān)度評分，相關(guān)度評分越高，表明關(guān)聯(lián)程度越強(qiáng)。以基于BM25算法的搜索方案進(jìn)行說明，如下:假設(shè)用戶輸入的待搜索信息為“中國的首都”，根據(jù)BM25算法的相關(guān)度評分原則，關(guān)聯(lián)文檔中必須出現(xiàn)“中國”、“首都”，才能夠獲得相應(yīng)的相關(guān)度評分，否則該關(guān)聯(lián)文檔的相關(guān)度評分則為O ;例如:其中一個關(guān)聯(lián)文檔為:“北京，它是一座有著3000多年的建城史，850多年的建者史的歷史文化名城；是全國政治、文化中心，也是全國最大的陸空產(chǎn)通樞紐”，根據(jù)上述傳統(tǒng)的搜索方案，該關(guān)聯(lián)文檔的相關(guān)度評分為0，表明與待搜索信息不相關(guān)，然而，從語義關(guān)系來看，該關(guān)聯(lián)文檔與待搜索信息的相關(guān)性實(shí)際上是十分好的。經(jīng)過排序處理后，該關(guān)聯(lián)文檔可能排列于較后的搜索結(jié)果頁面中，不利于用戶的查看。上述例子可知，傳統(tǒng)的搜索方案僅僅基于詞進(jìn)行相關(guān)度的匹配，并未考慮詞與詞之間的語義關(guān)系，可能造成相關(guān)度計算結(jié)果的不準(zhǔn)確，影響搜索結(jié)果的排列順序，降低用戶對搜索結(jié)果的滿意度，降低用戶的搜索體驗
發(fā)明內(nèi)容
本發(fā)明實(shí)施例所要解決的技術(shù)問題在于，提供一種搜索方法及裝置，能夠獲得更準(zhǔn)確的搜索結(jié)果。一方面，本發(fā)明實(shí)施例提供了一種搜索方法，包括:獲取待搜索信息的關(guān)聯(lián)文檔；基于詞匹配算法及語義匹配算法，計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度；根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序，并顯示排序結(jié)果。另一方面，本發(fā)明實(shí)施例還提供了一種搜索裝置，包括:搜索模塊，用于獲取待搜索信息的關(guān)聯(lián)文檔；計算模塊，用于基于詞匹配算法及語義匹配算法，計算所述搜索模塊獲得的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度；排序模塊，用于根據(jù)所述計算模塊計算得到的相關(guān)度對所述搜索模塊獲得的所有關(guān)聯(lián)文檔進(jìn)行排序處理；
顯示模塊，用于顯示所述排序模塊獲得的排序結(jié)果。
實(shí)施本發(fā)明實(shí)施例，具有如下有益效果:
本發(fā)明實(shí)施例結(jié)合詞匹配算法及語義匹配算法，綜合考慮詞與詞的匹配，以及詞與詞之間的語義關(guān)系的匹配，獲得每一個關(guān)聯(lián)文檔與待搜索信息之間較為準(zhǔn)確的相關(guān)度，基于該相關(guān)度進(jìn)行排序并顯示排序結(jié)果，可以為用戶提供理想的搜索結(jié)果，使得用戶可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔，滿足自己實(shí)際的搜索需求，提高了搜索效率，從而提高了用戶的滿意度。

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的搜索方法的一個實(shí)施例的流程圖2為圖1所示步驟S102的具體流程圖3為本發(fā)明提供的IDF表的示意圖4為本發(fā)明提供的MI表的示意圖5為圖1所示步驟S103的具體流程圖6為本發(fā)明提供的搜索裝置的一個實(shí)施例的結(jié)構(gòu)示意圖7為圖6所示的計算模塊的實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的·實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供的方案中，搜索裝置可以基于詞匹配以及詞與詞之間的語義匹配算法，計算待搜索信息的所有關(guān)聯(lián)文檔的相關(guān)度，并根據(jù)該相關(guān)度進(jìn)行排序和顯示，使得用戶可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔，滿足自己的搜索需求，提高搜索效率。
其中，所述待搜索信息可以為用戶輸入的搜索關(guān)鍵詞句，其可以用query (查詢)表示。所述關(guān)聯(lián)文檔可以為:基于用戶輸入的搜索關(guān)鍵詞句，利用現(xiàn)有的網(wǎng)絡(luò)搜索技術(shù)獲得的搜索結(jié)果中包含的文檔，其可以用document (文檔)表示。
所述詞匹配算法是指搜索過程基于詞進(jìn)行匹配，其可以為:BM25算法、proximity等算法，除特別說明外，本發(fā)明實(shí)施例以BM25算法為例進(jìn)行說明。所述語義匹配算法是指搜索過程基于詞與詞之間的語義關(guān)系進(jìn)行匹配，也即，搜索過程基于詞與詞之間的互信息進(jìn)行匹配。所謂MI (Mutual Information,互信息)，是對兩個隨機(jī)變量的關(guān)聯(lián)程度的描述，在文本處理中，MI用來衡量兩個詞的相關(guān)度，兩個詞的MI越大，表示該兩個詞的關(guān)聯(lián)程度越強(qiáng)。
下面將結(jié)合附圖1-附圖5，對本發(fā)明實(shí)施例提供的搜索方法進(jìn)行詳細(xì)介紹。
請參見圖1，為本發(fā)明提供的搜索方法的一個實(shí)施例的流程圖；該方法包括:
S101，獲取待搜索信息的關(guān)聯(lián)文檔。本步驟可以參照現(xiàn)有技術(shù)，在此不贅述。
S102，基于詞匹配算法及語義匹配算法，計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度。
本步驟中，每一個關(guān)聯(lián)文檔與待搜索信息的相關(guān)度的評分可以由兩部分組成，一部分是基于詞匹配算法獲得的關(guān)聯(lián)評分，另一部分是基于語義匹配算法獲得的關(guān)聯(lián)評分。實(shí)際應(yīng)用中，可以根據(jù)具體情況，預(yù)先設(shè)置兩部分關(guān)聯(lián)評分的權(quán)重，使得加權(quán)后的兩部分關(guān)聯(lián)評分所組成的相關(guān)度評分更能準(zhǔn)確體現(xiàn)關(guān)聯(lián)文檔與待搜索信息的關(guān)聯(lián)程度。
S103，根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序處理，并顯示排序結(jié)果O
本步驟中，可以按照每個關(guān)聯(lián)文檔與待搜索信息的相關(guān)度評分由高至低的順序，對搜索得到的所有關(guān)聯(lián)文檔進(jìn)行排序和顯示，使得顯示在前的始終為與待搜索信息較相關(guān)的關(guān)聯(lián)文檔，從而使得用戶可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔，滿足自己的搜索需求，提高搜索效率?？梢岳斫獾氖牵静襟E也可以采用其他順序進(jìn)行排序處理，例如按照相關(guān)度評分由低至高的順序，或者設(shè)置一部分按照相關(guān)度評分由低至高的順序，一部分按照相關(guān)度評分由高至低的順序，等等。
請參見圖2，為圖1所示步驟S102的具體流程圖；該步驟S102包括:
S211,對所述待搜索信息進(jìn)行向量化處理,獲得m個向量tp
本步驟中，對待搜索信息進(jìn)行向量化處理，即是利用分詞技術(shù)，對待搜索信息進(jìn)行分詞處理，將待搜索信息分割成m個詞組成，可以表示為h至tm，其中，m和i均為正整數(shù)，且 I < i < m。
S212，對獲取到的每一個關(guān)聯(lián)文檔進(jìn)行向量化處理，獲得每一個關(guān)聯(lián)文檔所對應(yīng)的η個向量dj。
本步驟中，對獲取到的所有關(guān)聯(lián)文檔中的每一個文檔進(jìn)行向量化處理，即是利用分詞技術(shù)，對每一個關(guān)聯(lián)文檔進(jìn)行分詞處理，將該關(guān)聯(lián)文檔分割成η個詞組成，可以表示為Cl1至七，其中，η和j均為正整數(shù)，且I彡j彡η。
需要說明的是，步驟S211與步驟S212在時序上不分先后，例如也可以先執(zhí)行步驟S212，再執(zhí)行步驟S211。步驟S211-``步驟S212中的向量化處理過程可以參照現(xiàn)有技術(shù)，在此不贅述。
S213，基于詞匹配算法，計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S10
本步驟中，詞匹配算法的公式可以為:
權(quán)利要求
1.一種搜索方法，其特征在于，包括: 獲取待搜索信息的關(guān)聯(lián)文檔；基于詞匹配算法及語義匹配算法，計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度；根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序，并顯示排序結(jié)果。
2.如權(quán)利要求1所述的方法，其特征在于，所述基于詞匹配算法及語義匹配算法，計算獲取到的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度，包括: 對所述待搜索信息進(jìn)行向量化處理，獲得m個向量ti;其中，m和i均為正整數(shù)，且1 ≤i ≤m ；對獲取到的每一個關(guān)聯(lián)文檔進(jìn)行向量化處理，獲得每一個關(guān)聯(lián)文檔所對應(yīng)的η個向量屯其中，η和j均為正整數(shù)，且I SjSn; 基于詞匹配算法，計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S1，基于語義匹配算法，計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S2 ；根據(jù)公式S= a XS1+(1-Ci)XS2，計算得到每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度S，其中，α為預(yù)設(shè)的權(quán)重，且O < α < I。
3.如權(quán)利要求2所述的方法，其特征在于:所述詞匹配算法的公式為:
4.如權(quán)利要求3所述的方法，其特征在于，向量\的權(quán)重的計算公式如下:
5.如權(quán)利要求2所述的方法，其特征在于:所述語義匹配算法的公式為:
6.如權(quán)利要求5所述的方法，其特征在于，向量\與向量Clj的互信息的計算公式如下:
7.如權(quán)利要求1-6任一項所述的方法，其特征在于，所述根據(jù)計算得到的相關(guān)度對獲取到的關(guān)聯(lián)文檔進(jìn)行排序，并顯示排序結(jié)果，包括: 根據(jù)每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度，按照相關(guān)度從高至低的順序?qū)λ嘘P(guān)聯(lián)文檔進(jìn)行排序；顯不排序后的所有關(guān)聯(lián)文檔。
8.一種搜索裝置，其特征在于，包括: 搜索模塊，用于獲取待搜索信息的關(guān)聯(lián)文檔；計算模塊，用于基于詞匹配算法及語義匹配算法，計算所述搜索模塊獲得的每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度；排序模塊，用于根據(jù)所述計算模塊計算得到的相關(guān)度對所述搜索模塊獲得的關(guān)聯(lián)文檔進(jìn)行排序；顯示模塊，用于顯示所述排序模塊獲得的排序結(jié)果。
9.如權(quán)利要求8所述的裝置，其特征在于，所述計算模塊包括: 第一向量化處理單元，用于對所述待搜索信息進(jìn)行向量化處理，獲得m個向量\，其中，m和i均為正整數(shù)，且1≤i≤m ; 第二向量化處理單元，用于對所述搜索模塊獲得的每一個關(guān)聯(lián)文檔進(jìn)行向量化處理，獲得每一個關(guān)聯(lián)文檔所對應(yīng)的η個向量Clj,其中，η和j均為正整數(shù)，且I SjSn; 詞匹配計算單元，用于基于詞匹配算法，計算得到所述第二向量化處理單元處理后的關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S1 ；語義匹配計算單元，用于基于語義匹配算法，計算得到所述第二向量化處理單元處理后的關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評分S2 ；相關(guān)度計算單元，用于根據(jù)公式S= a XS1 (1-Ci)XS2，計算得到所述關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度S,其中，α為預(yù)設(shè)的權(quán)重,且O < α < I。
10.如權(quán)利要求9所述的裝置，其特征在于，所述詞匹配算法的公式為:
11.如權(quán)利要求8-10任一項所述的裝置，其特征在于，所述排序模塊根據(jù)每個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度，按照相關(guān)度從高至低的順序?qū)λ鏊阉髂K獲得的所有關(guān)聯(lián)文檔進(jìn)行排序；所述顯示模塊顯示所述排序模`塊排序后的所有關(guān)聯(lián)文檔。
全文摘要
本發(fā)明實(shí)施例公開了一種搜索方法，包括獲取待搜索信息的所有關(guān)聯(lián)文檔；基于詞匹配算法及語義匹配算法，計算每一個關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度；根據(jù)計算得到的相關(guān)度對所有關(guān)聯(lián)文檔進(jìn)行排序處理，并顯示排序結(jié)果。本發(fā)明實(shí)施例還公開了一種搜索裝置。本發(fā)明綜合考慮詞與詞的匹配，以及詞與詞之間的語義關(guān)系的匹配，獲得準(zhǔn)確的相關(guān)度計算結(jié)果，為用戶提供理想的搜索結(jié)果，提高用戶的滿意度。
文檔編號G06F17/30GK103246681SQ20121003152
公開日2013年8月14日申請日期2012年2月13日優(yōu)先權(quán)日2012年2月13日
發(fā)明者路彥雄, 楊月奎, 王亮, 焦峰申請人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：路彥雄;楊月奎;王亮;焦峰
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：電子設(shè)備的解鎖方法和裝置的制作方法
上一篇：電子機(jī)器及電子機(jī)器的操作控制方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

種子搜索神器使用方法相關(guān)技術(shù)

seo搜索引擎優(yōu)化方法相關(guān)技術(shù)

搜索引擎優(yōu)化方法相關(guān)技術(shù)

方法seo搜索優(yōu)化相關(guān)技術(shù)

搜索引擎推廣方法相關(guān)技術(shù)

搜索方法相關(guān)技術(shù)

方法搜索引擎排名優(yōu)化相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種搜索方法及裝置的制作方法