專利名稱:一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法和裝置的制作方法
一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法和裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法和裝置。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,搜索引擎已經(jīng)成為人們獲取信息的主要手段。當(dāng)用戶輸入搜索請(qǐng)求query后,搜索引擎將與該query匹配的頁(yè)面包含在搜索結(jié)果中返回給用戶。對(duì)搜索結(jié)果中各頁(yè)面的排序是基于用戶輸入的query與頁(yè)面的匹配程度進(jìn)行的,在目前的搜索技術(shù)中通常該匹配程度僅取決于query中各詞語(yǔ)在頁(yè)面中的物理距離。但實(shí)際上query中包含的各詞語(yǔ)之間是存在緊密度上的區(qū)分的,同一個(gè)query中,如果緊密度大 的詞語(yǔ)對(duì)在頁(yè)面I中的物理距離與緊密度小的詞語(yǔ)對(duì)在頁(yè)面2中的物理距離相同,那么顯然頁(yè)面I的排序應(yīng)該比頁(yè)面2的排序靠前,但在目前的搜索技術(shù)中并不能在搜索結(jié)果的排序中體現(xiàn)這一特點(diǎn),因搜索結(jié)果的排序不優(yōu)導(dǎo)致用戶長(zhǎng)時(shí)間占用網(wǎng)絡(luò)資源,從而造成網(wǎng)絡(luò)資源的浪費(fèi)。
發(fā)明內(nèi)容本發(fā)明提供了一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法和裝置,以便于提高搜索結(jié)果的排序效果,從而節(jié)約網(wǎng)絡(luò)資源。具體技術(shù)方案如下一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法,該方法包括A、對(duì)用戶輸入的搜索請(qǐng)求進(jìn)行緊密度的分析,確定所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的緊密度;B、根據(jù)對(duì)所述搜索請(qǐng)求對(duì)應(yīng)的搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理的結(jié)果,統(tǒng)計(jì)所述搜索請(qǐng)求中各詞語(yǔ)對(duì)在所述各網(wǎng)頁(yè)中的物理距離分布;C、利用所述搜索請(qǐng)求中各詞語(yǔ)對(duì)對(duì)應(yīng)的緊密度以及在所述各網(wǎng)頁(yè)中的物理距離分布,確定所述搜索結(jié)果中各網(wǎng)頁(yè)針對(duì)所述搜索請(qǐng)求的轉(zhuǎn)義度,所述轉(zhuǎn)義度用于對(duì)所述搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行排序。其中,所述步驟A具體包括Al、對(duì)所述搜索請(qǐng)求進(jìn)行分詞處理;A2、利用所述分詞處理后得到的詞語(yǔ),確定所述搜索請(qǐng)求中的各詞語(yǔ)對(duì);A3、查詢預(yù)先挖掘出的專名詞典和/或共現(xiàn)詞典,確定所述各詞語(yǔ)對(duì)的緊密度,其中所述專名詞典包含預(yù)先挖掘出的專有名詞,所述共現(xiàn)詞典包含預(yù)先確定的各詞語(yǔ)對(duì)在已有數(shù)據(jù)源中的共現(xiàn)狀況。較優(yōu)地,在所述步驟Al中還包括對(duì)所述分詞處理后得到的詞語(yǔ)進(jìn)行基于停用詞表的過濾。
具體地,所述步驟A2包括將所述分詞處理后得到的詞語(yǔ)中相鄰的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì);或者,將所述分詞處理后得到的詞語(yǔ)中表意能力強(qiáng)的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì),其中所述表意能力強(qiáng)的詞語(yǔ)根據(jù)詞性或者在所述搜索請(qǐng)求中的句子成分確定。
在所述步驟A3中查詢預(yù)先挖掘出的專名詞典確定所述各詞語(yǔ)對(duì)的緊密度具體包括如果所述專名詞典中的專有名詞包含詞語(yǔ)對(duì)i,則將所述詞語(yǔ)對(duì)i的緊密度確定為預(yù)設(shè)緊密度值,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。在所述步驟A3中查詢預(yù)先挖掘出的共現(xiàn)詞典確定所述各詞語(yǔ)對(duì)的緊密度具體包括查詢所述共現(xiàn)詞典確定詞語(yǔ)對(duì)i在已有數(shù)據(jù)源中的共現(xiàn)狀況,所述共現(xiàn)狀況包括詞語(yǔ)對(duì)i在各距離范圍等級(jí)的出現(xiàn)次數(shù),所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè);確定所述詞語(yǔ)對(duì)i在各距離范圍等級(jí)中相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí);將確定的所述距離范圍等級(jí)所對(duì)應(yīng)的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,其中預(yù)先設(shè)置不同距離范圍等級(jí)對(duì)應(yīng)不同的緊密度。另外,所述共現(xiàn)詞典的挖掘具體包括D1、對(duì)所述數(shù)據(jù)源進(jìn)行分詞處理和基于停用詞表的過濾后,將得到的詞語(yǔ)兩兩組合構(gòu)成詞語(yǔ)對(duì);D2、統(tǒng)計(jì)所述步驟Dl得到的詞語(yǔ)對(duì)在所述數(shù)據(jù)源中的共現(xiàn)狀況,并將統(tǒng)計(jì)到的共現(xiàn)狀況存入共現(xiàn)詞典中。如果在所述步驟A3中同時(shí)采用了專名詞典和共現(xiàn)詞典,并且通過專名詞典的查詢能夠確定出詞語(yǔ)對(duì)i的緊密度,則以查詢專名詞典確定出的所述詞語(yǔ)對(duì)i的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。具體地,對(duì)網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理包括將網(wǎng)頁(yè)劃分為網(wǎng)頁(yè)塊、段和句;記錄網(wǎng)頁(yè)中各詞語(yǔ)的位置信息并存儲(chǔ)在數(shù)據(jù)庫(kù)中,其中位置信息包括所在的網(wǎng)頁(yè)塊、段、句和句內(nèi)偏移。基于此,所述步驟B具體包括BI、根據(jù)所述數(shù)據(jù)庫(kù)中記錄的所述搜索請(qǐng)求中詞語(yǔ)對(duì)i的兩詞語(yǔ)分別在網(wǎng)頁(yè)d中的位置信息,確定出所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的共現(xiàn)狀況,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè),網(wǎng)頁(yè)d為所述搜索結(jié)果中的任一個(gè)網(wǎng)頁(yè);B2、根據(jù)所述步驟BI確定出的共現(xiàn)狀況,統(tǒng)計(jì)所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的物理距離分布。所述步驟C具體包括Cl、利用所述搜索請(qǐng)求中的詞語(yǔ)對(duì)i的緊密度確定所述詞語(yǔ)對(duì)i的加權(quán)值weight (i);C2、利用所述詞語(yǔ)對(duì)i在所述搜索結(jié)果中的網(wǎng)頁(yè)d中的物理距離分布確定所述網(wǎng)頁(yè)d對(duì)所述詞語(yǔ)對(duì)i的滿足度fit(i, d);
C3、按照公式 確定所述網(wǎng)頁(yè)d針對(duì)所述搜
索請(qǐng)求q的轉(zhuǎn)義度offset—ratio (d,q),其中,$為所述搜索請(qǐng)求q中的詞語(yǔ)對(duì)構(gòu)成的集
口 O所述weight (i)為weight (i) = fl (tight (i), imp ⑴);其中 tight (i)為所述詞語(yǔ)對(duì) i 的緊密度,imp(i)為所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求q中的重要程度,fl (tight (i), imp(i))是將tight (i)作為主因數(shù)且將imp(i)作為調(diào)節(jié)因數(shù)的函數(shù),在相同imp(i)的情況下tight (i)值越大weight (i)值越大;或者,weight (i) = f2 (tight (i)),其中 f2 (tight (i))是對(duì) tight (i)進(jìn)行歸一化處理的函數(shù)。所述imp⑴由以下因素中的至少一種確定所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求中的詞性、所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求中的句子成分以及所述詞語(yǔ)對(duì)i的倒文檔率。所述fit(i,d)為fit (i, d) = f3 (HIT (i,d) ,tight (i));其中 HIT (i, d)標(biāo)識(shí)統(tǒng)計(jì)到的所述詞語(yǔ)對(duì) i在網(wǎng)頁(yè)d中的物理距離分布,tight (i)為所述詞語(yǔ)對(duì)i的緊密度,f3 (HIT (i,d) ,tight (i))是由HIT(i,d)確定出的所述詞語(yǔ)對(duì)i的距離范圍作為主因數(shù)且tight(i)作為調(diào)節(jié)因數(shù)的函數(shù),在相同tight (i)的情況下由HIT(i,d)確定出的詞語(yǔ)對(duì)i的距離范圍越小fit (i, d)值越大;或者,fit(i,d) = f4(HIT(i,d)),f4(HIT(i,d))是將由 HIT(i,d)確定出的詞語(yǔ)對(duì) i 的距離范圍映射為具體的fit(i,d)值的函數(shù)。由HIT(i, d)確定所述詞語(yǔ)對(duì)i的距離范圍具體包括采用所述HIT(i,d)中所述詞語(yǔ)對(duì)i的最小距離范圍作為所述詞語(yǔ)對(duì)i的距離范圍;或者,依據(jù)所述HIT(i,d)將相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí)作為詞語(yǔ)對(duì)i的距離范圍等級(jí)。一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定裝置,該裝置包括緊密度分析單元、距離分布確定單元以及轉(zhuǎn)義度確定單元;所述緊密度分析單元,用于對(duì)用戶輸入的搜索請(qǐng)求進(jìn)行緊密度的分析,確定所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的緊密度;所述距離分布確定單元,用于根據(jù)對(duì)所述搜索請(qǐng)求對(duì)應(yīng)的搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理的結(jié)果,統(tǒng)計(jì)所述搜索請(qǐng)求中各詞語(yǔ)對(duì)在所述各網(wǎng)頁(yè)中的物理距離分布;所述轉(zhuǎn)義度確定單元,用于利用所述搜索請(qǐng)求中各詞語(yǔ)對(duì)對(duì)應(yīng)的緊密度以及在所述各網(wǎng)頁(yè)中的物理距離分布,確定所述搜索結(jié)果中各網(wǎng)頁(yè)針對(duì)所述搜索請(qǐng)求的轉(zhuǎn)義度,所述轉(zhuǎn)義度用于對(duì)所述搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行排序。其中,所述緊密度分析單元具體包括分詞處理子單元、詞語(yǔ)對(duì)確定子單元和緊密度確定子單元;
所述分詞處理子單元,用于對(duì)所述搜索請(qǐng)求進(jìn)行分詞處理;所述詞語(yǔ)對(duì)確定子單元,用于利用所述分詞處理后得到的詞語(yǔ),確定所述搜索請(qǐng)求中的各詞語(yǔ)對(duì);所述緊密度確定子單元,用于查詢預(yù)先挖掘出的專名詞典和/或共現(xiàn)詞典,確定所述各詞語(yǔ)對(duì)的緊密度,其中所述專名詞典包含預(yù)先挖掘出的專有名詞,所述共現(xiàn)詞典包含預(yù)先確定的各詞語(yǔ)對(duì)在已有數(shù)據(jù)源中的共現(xiàn)狀況。較優(yōu)地,所述緊密度分析單元還包括過濾處理子單元,用于對(duì)所述分詞處理子單元進(jìn)行分詞處理后得到的詞語(yǔ)進(jìn)行基于停用詞表的過濾,將過濾后得到的詞語(yǔ)發(fā)送給所述詞語(yǔ)對(duì)確定子單元。具體地,所述詞語(yǔ)對(duì)確定子單元將所述分詞處理后得到的詞語(yǔ)中相鄰的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì);或者,將所述分詞處理后得到的詞語(yǔ)中表意能力強(qiáng)的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì),其中所述表 意能力強(qiáng)的詞語(yǔ)根據(jù)詞性或者在所述搜索請(qǐng)求中的句子成分確定。如果所述專名詞典中的專有名詞包含詞語(yǔ)對(duì)i,則所述緊密度確定子單元將所述詞語(yǔ)對(duì)i的緊密度確定為預(yù)設(shè)緊密度值,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。所述緊密度確定子單元具體包括詞典查詢模塊、距離等級(jí)確定模塊和緊密度確定模塊;所述詞典查詢模塊,用于查詢所述共現(xiàn)詞典確定詞語(yǔ)對(duì)i在已有數(shù)據(jù)源中的共現(xiàn)狀況,所述共現(xiàn)狀況包括詞語(yǔ)對(duì)i在各距離范圍等級(jí)的出現(xiàn)次數(shù),所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè);所述距離等級(jí)確定模塊,用于根據(jù)所述詞典查詢模塊的查詢結(jié)果,確定所述詞語(yǔ)對(duì)i在各距離范圍等級(jí)中相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí);所述緊密度確定模塊,用于將所述距離等級(jí)確定模塊確定的所述距離范圍等級(jí)所對(duì)應(yīng)的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,其中預(yù)先設(shè)置不同距離范圍等級(jí)對(duì)應(yīng)不同的緊
山/又o更進(jìn)一步地,所述緊密度分析單元還包括共現(xiàn)詞典挖掘子單元,用于對(duì)所述數(shù)據(jù)源進(jìn)行分詞處理和基于停用詞表的過濾后,將得到的詞語(yǔ)兩兩組合構(gòu)成詞語(yǔ)對(duì),統(tǒng)計(jì)得到的詞語(yǔ)對(duì)在所述數(shù)據(jù)源中的共現(xiàn)狀況,并將統(tǒng)計(jì)到的共現(xiàn)狀況存入共現(xiàn)詞典中。如果所述緊密度確定子單元同時(shí)采用了專名詞典和共現(xiàn)詞典,并且通過專名詞典的查詢能夠確定出詞語(yǔ)對(duì)i的緊密度,則以查詢專名詞典確定出的所述詞語(yǔ)對(duì)i的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。更進(jìn)一步地,該裝置還包括結(jié)構(gòu)信息處理單元,用于將網(wǎng)頁(yè)劃分為網(wǎng)頁(yè)塊、段和句,記錄網(wǎng)頁(yè)中各詞語(yǔ)的位置信息并存儲(chǔ)在數(shù)據(jù)庫(kù)中,其中所述位置信息包括所在的網(wǎng)頁(yè)塊、段、句和句內(nèi)偏移。所述距離分布確定單元具體包括共現(xiàn)狀況確定子單元和距離分布統(tǒng)計(jì)子單元;所述共現(xiàn)狀況確定子單元,用于根據(jù)所述數(shù)據(jù)庫(kù)中記錄的所述搜索請(qǐng)求中詞語(yǔ)對(duì)i的兩詞語(yǔ)分別在網(wǎng)頁(yè)d中的位置信息,確定出所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的共現(xiàn)狀況,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè),網(wǎng)頁(yè)d為所述搜索結(jié)果中的任一個(gè)網(wǎng)頁(yè);
所述距離分布統(tǒng)計(jì)子單元,用于根據(jù)所述共現(xiàn)狀況確定子單元確定出的共現(xiàn)狀況,統(tǒng)計(jì)所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的物理距離分布。所述轉(zhuǎn)義度確定單元具體包括加權(quán)值確定子單元、滿足度確定子單元和轉(zhuǎn)義度確定子單元;所述加權(quán)值確定子單元,用于利用所述搜索請(qǐng)求中的詞語(yǔ)對(duì)i的緊密度確定所述詞語(yǔ)對(duì)i的加權(quán)值weight (i);所述滿足度確定子單元,用于利用所述詞語(yǔ)對(duì)i在所述搜索結(jié)果中的網(wǎng)頁(yè)d中的物理距離分布確定所述網(wǎng)頁(yè)d對(duì)所述詞語(yǔ)對(duì)i的滿足度fit (i,d); 所述轉(zhuǎn)義度確定子單元,用于按照公式
權(quán)利要求
1.一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法,其特征在于,該方法包括 A、對(duì)用戶輸入的搜索請(qǐng)求進(jìn)行緊密度的分析,確定所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的緊密度; B、根據(jù)對(duì)所述搜索請(qǐng)求對(duì)應(yīng)的搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理的結(jié)果,統(tǒng)計(jì)所述搜索請(qǐng)求中各詞語(yǔ)對(duì)在所述各網(wǎng)頁(yè)中的物理距離分布; C、利用所述搜索請(qǐng)求中各詞語(yǔ)對(duì)對(duì)應(yīng)的緊密度以及在所述各網(wǎng)頁(yè)中的物理距離分布,確定所述搜索結(jié)果中各網(wǎng)頁(yè)針對(duì)所述搜索請(qǐng)求的轉(zhuǎn)義度,所述轉(zhuǎn)義度用于對(duì)所述搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行排序。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟A具體包括 Al、對(duì)所述搜索請(qǐng)求進(jìn)行分詞處理; A2、利用所述分詞處理后得到的詞語(yǔ),確定所述搜索請(qǐng)求中的各詞語(yǔ)對(duì); A3、查詢預(yù)先挖掘出的專名詞典和/或共現(xiàn)詞典,確定所述各詞語(yǔ)對(duì)的緊密度,其中所述專名詞典包含預(yù)先挖掘出的專有名詞,所述共現(xiàn)詞典包含預(yù)先確定的各詞語(yǔ)對(duì)在已有數(shù)據(jù)源中的共現(xiàn)狀況。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟Al中還包括對(duì)所述分詞處理后得到的詞語(yǔ)進(jìn)行基于停用詞表的過濾。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟A2具體包括 將所述分詞處理后得到的詞語(yǔ)中相鄰的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì);或者, 將所述分詞處理后得到的詞語(yǔ)中表意能力強(qiáng)的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì),其中所述表意能力強(qiáng)的詞語(yǔ)根據(jù)詞性或者在所述搜索請(qǐng)求中的句子成分確定。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟A3中查詢預(yù)先挖掘出的專名詞典確定所述各詞語(yǔ)對(duì)的緊密度具體包括 如果所述專名詞典中的專有名詞包含詞語(yǔ)對(duì)i,則將所述詞語(yǔ)對(duì)i的緊密度確定為預(yù)設(shè)緊密度值,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟A3中查詢預(yù)先挖掘出的共現(xiàn)詞典確定所述各詞語(yǔ)對(duì)的緊密度具體包括 查詢所述共現(xiàn)詞典確定詞語(yǔ)對(duì)i在已有數(shù)據(jù)源中的共現(xiàn)狀況,所述共現(xiàn)狀況包括詞語(yǔ)對(duì)i在各距離范圍等級(jí)的出現(xiàn)次數(shù),所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè);確定所述詞語(yǔ)對(duì)i在各距離范圍等級(jí)中相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí); 將確定的所述距離范圍等級(jí)所對(duì)應(yīng)的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,其中預(yù)先設(shè)置不同距離范圍等級(jí)對(duì)應(yīng)不同的緊密度。
7.根據(jù)權(quán)利要求2或6所述的方法,其特征在于,所述共現(xiàn)詞典的挖掘具體包括 D1、對(duì)所述數(shù)據(jù)源進(jìn)行分詞處理和基于停用詞表的過濾后,將得到的詞語(yǔ)兩兩組合構(gòu)成詞語(yǔ)對(duì); D2、統(tǒng)計(jì)所述步驟Dl得到的詞語(yǔ)對(duì)在所述數(shù)據(jù)源中的共現(xiàn)狀況,并將統(tǒng)計(jì)到的共現(xiàn)狀況存入共現(xiàn)詞典中。
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,如果在所述步驟A3中同時(shí)采用了專名詞典和共現(xiàn)詞典,并且通過專名詞典的查詢能夠確定出詞語(yǔ)對(duì)i的緊密度,則以查詢專名詞典確定出的所述詞語(yǔ)對(duì)i的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,對(duì)網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理包括 將網(wǎng)頁(yè)劃分為網(wǎng)頁(yè)塊、段和句; 記錄網(wǎng)頁(yè)中各詞語(yǔ)的位置信息并存儲(chǔ)在數(shù)據(jù)庫(kù)中,其中位置信息包括所在的網(wǎng)頁(yè)塊、段、句和句內(nèi)偏移。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述步驟B具體包括 BI、根據(jù)所述數(shù)據(jù)庫(kù)中記錄的所述搜索請(qǐng)求中詞語(yǔ)對(duì)i的兩詞語(yǔ)分別在網(wǎng)頁(yè)d中的位置信息,確定出所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的共現(xiàn)狀況,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè),網(wǎng)頁(yè)d為所述搜索結(jié)果中的任一個(gè)網(wǎng)頁(yè); B2、根據(jù)所述步驟BI確定出的共現(xiàn)狀況,統(tǒng)計(jì)所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的物理距離分布。
11.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟C具體包括 Cl、利用所述搜索請(qǐng)求中的詞語(yǔ)對(duì)i的緊密度確定所述詞語(yǔ)對(duì)i的加權(quán)值weight (i);C2、利用所述詞語(yǔ)對(duì)i在所述搜索結(jié)果中的網(wǎng)頁(yè)d中的物理距離分布確定所述網(wǎng)頁(yè)d對(duì)所述詞語(yǔ)對(duì)i的滿足度fit(i,d);$ fit(i, d) * weight(i) C3、按照公式—raft+o(d,q) = ^^~^,確定所述網(wǎng)頁(yè)d針對(duì)所述搜索請(qǐng) 求q的轉(zhuǎn)義度offset_ratio(d, q),其中,為所述搜索請(qǐng)求q中的詞語(yǔ)對(duì)構(gòu)成的集合。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述weight(i)為 weight⑴=f I (tight⑴,imp⑴);其中tight⑴為所述詞語(yǔ)對(duì)i的緊密度,imp (i)為所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求q中的重要程度,fl (tight (i), imp(i))是將tight (i)作為主因數(shù)且將imp(i)作為調(diào)節(jié)因數(shù)的函數(shù),在相同imp(i)的情況下tight(i)值越大weight (i)值越大;或者, weight (i) = f2 (tight (i)),其中 f2 (tight (i))是對(duì) tight (i)進(jìn)行歸一化處理的函數(shù)。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,所述imp(i)由以下因素中的至少一種確定 所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求中的詞性、所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求中的句子成分以及所述詞語(yǔ)對(duì)i的倒文檔率。
14.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述fit(i,d)為 fit (i, d) = f3 (HIT (i, d), tight Q));其中HIT (i, d)標(biāo)識(shí)統(tǒng)計(jì)到的所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的物理距離分布,tight (i)為所述詞語(yǔ)對(duì)i的緊密度,f3 (HIT (i, d), tight (i))是由HIT(i,d)確定出的所述詞語(yǔ)對(duì)i的距離范圍作為主因數(shù)且tight(i)作為調(diào)節(jié)因數(shù)的函數(shù),在相同tight (i)的情況下由HIT (i,d)確定出的詞語(yǔ)對(duì)i的距離范圍越小fit(i,d)值越大;或者, fit(i,d) = f4(HIT(i,d)),f4(HIT(i,d))是將由 HIT(i,d)確定出的詞語(yǔ)對(duì) i 的距離范圍映射為具體的fit(i,d)值的函數(shù)。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,由HIT(i,d)確定所述詞語(yǔ)對(duì)i的距離范圍具體包括 采用所述HIT(i,d)中所述詞語(yǔ)對(duì)i的最小距離范圍作為所述詞語(yǔ)對(duì)i的距離范圍;或者, 依據(jù)所述HIT(i,d)將相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí)作為詞語(yǔ)對(duì)i的距離范圍等級(jí)。
16.一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定裝置,其特征在于,該裝置包括緊密度分析單元、距離分布確定單元以及轉(zhuǎn)義度確定單元; 所述緊密度分析單元,用于對(duì)用戶輸入的搜索請(qǐng)求進(jìn)行緊密度的分析,確定所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的緊密度; 所述距離分布確定單元,用于根據(jù)對(duì)所述搜索請(qǐng)求對(duì)應(yīng)的搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理的結(jié)果,統(tǒng)計(jì)所述搜索請(qǐng)求中各詞語(yǔ)對(duì)在所述各網(wǎng)頁(yè)中的物理距離分布; 所述轉(zhuǎn)義度確定單元,用于利用所述搜索請(qǐng)求中各詞語(yǔ)對(duì)對(duì)應(yīng)的緊密度以及在所述各網(wǎng)頁(yè)中的物理距離分布,確定所述搜索結(jié)果中各網(wǎng)頁(yè)針對(duì)所述搜索請(qǐng)求的轉(zhuǎn)義度,所述轉(zhuǎn)義度用于對(duì)所述搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行排序。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述緊密度分析單元具體包括分詞處理子單元、詞語(yǔ)對(duì)確定子單元和緊密度確定子單元; 所述分詞處理子單元,用于對(duì)所述搜索請(qǐng)求進(jìn)行分詞處理; 所述詞語(yǔ)對(duì)確定子單元,用于利用所述分詞處理后得到的詞語(yǔ),確定所述搜索請(qǐng)求中的各詞語(yǔ)對(duì); 所述緊密度確定子單元,用于查詢預(yù)先挖掘出的專名詞典和/或共現(xiàn)詞典,確定所述各詞語(yǔ)對(duì)的緊密度,其中所述專名詞典包含預(yù)先挖掘出的專有名詞,所述共現(xiàn)詞典包含預(yù)先確定的各詞語(yǔ)對(duì)在已有數(shù)據(jù)源中的共現(xiàn)狀況。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述緊密度分析單元還包括過濾處理子單元,用于對(duì)所述分詞處理子單元進(jìn)行分詞處理后得到的詞語(yǔ)進(jìn)行基于停用詞表的過濾,將過濾后得到的詞語(yǔ)發(fā)送給所述詞語(yǔ)對(duì)確定子單元。
19.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述詞語(yǔ)對(duì)確定子單元將所述分詞處理后得到的詞語(yǔ)中相鄰的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì);或者, 將所述分詞處理后得到的詞語(yǔ)中表意能力強(qiáng)的詞語(yǔ)兩兩構(gòu)成詞語(yǔ)對(duì),其中所述表意能力強(qiáng)的詞語(yǔ)根據(jù)詞性或者在所述搜索請(qǐng)求中的句子成分確定。
20.根據(jù)權(quán)利要求17所述的裝置,其特征在于,如果所述專名詞典中的專有名詞包含詞語(yǔ)對(duì)i,則所述緊密度確定子單元將所述詞語(yǔ)對(duì)i的緊密度確定為預(yù)設(shè)緊密度值,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。
21.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述緊密度確定子單元具體包括詞典查詢模塊、距離等級(jí)確定模塊和緊密度確定模塊; 所述詞典查詢模塊,用于查詢所述共現(xiàn)詞典確定詞語(yǔ)對(duì)i在已有數(shù)據(jù)源中的共現(xiàn)狀況,所述共現(xiàn)狀況包括詞語(yǔ)對(duì)i在各距離范圍等級(jí)的出現(xiàn)次數(shù),所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè); 所述距離等級(jí)確定模塊,用于根據(jù)所述詞典查詢模塊的查詢結(jié)果,確定所述詞語(yǔ)對(duì)i在各距離范圍等級(jí)中相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí);所述緊密度確定模塊,用于將所述距離等級(jí)確定模塊確定的所述距離范圍等級(jí)所對(duì)應(yīng)的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,其中預(yù)先設(shè)置不同距離范圍等級(jí)對(duì)應(yīng)不同的緊密度。
22.根據(jù)權(quán)利要求17或21所述的裝置,其特征在于,所述緊密度分析單元還包括共現(xiàn)詞典挖掘子單元,用于對(duì)所述數(shù)據(jù)源進(jìn)行分詞處理和基于停用詞表的過濾后,將得到的詞語(yǔ)兩兩組合構(gòu)成詞語(yǔ)對(duì),統(tǒng)計(jì)得到的詞語(yǔ)對(duì)在所述數(shù)據(jù)源中的共現(xiàn)狀況,并將統(tǒng)計(jì)到的共現(xiàn)狀況存入共現(xiàn)詞典中。
23.根據(jù)權(quán)利要求17所述的裝置,其特征在于,如果所述緊密度確定子單元同時(shí)采用了專名詞典和共現(xiàn)詞典,并且通過專名詞典的查詢能夠確定出詞語(yǔ)對(duì)i的緊密度,則以查詢專名詞典確定出的所述詞語(yǔ)對(duì)i的緊密度作為所述詞語(yǔ)對(duì)i的緊密度,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè)。
24.根據(jù)權(quán)利要求16所述的裝置,其特征在于,該裝置還包括結(jié)構(gòu)信息處理單元,用于將網(wǎng)頁(yè)劃分為網(wǎng)頁(yè)塊、段和句,記錄網(wǎng)頁(yè)中各詞語(yǔ)的位置信息并存儲(chǔ)在數(shù)據(jù)庫(kù)中,其中所述位置信息包括所在的網(wǎng)頁(yè)塊、段、句和句內(nèi)偏移。
25.根據(jù)權(quán)利要求24所述的裝置,其特征在于,所述距離分布確定單元具體包括共現(xiàn)狀況確定子單元和距離分布統(tǒng)計(jì)子單元; 所述共現(xiàn)狀況確定子單元,用于根據(jù)所述數(shù)據(jù)庫(kù)中記錄的所述搜索請(qǐng)求中詞語(yǔ)對(duì)i的兩詞語(yǔ)分別在網(wǎng)頁(yè)d中的位置信息,確定出所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的共現(xiàn)狀況,所述詞語(yǔ)對(duì)i為所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的任一個(gè),網(wǎng)頁(yè)d為所述搜索結(jié)果中的任一個(gè)網(wǎng)頁(yè); 所述距離分布統(tǒng)計(jì)子單元,用于根據(jù)所述共現(xiàn)狀況確定子單元確定出的共現(xiàn)狀況,統(tǒng)計(jì)所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的物理距離分布。
26.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述轉(zhuǎn)義度確定單元具體包括加權(quán)值確定子單元、滿足度確定子單元和轉(zhuǎn)義度確定子單元; 所述加權(quán)值確定子單元,用于利用所述搜索請(qǐng)求中的詞語(yǔ)對(duì)i的緊密度確定所述詞語(yǔ)對(duì)i的加權(quán)值weight (i); 所述滿足度確定子單元,用于利用所述詞語(yǔ)對(duì)i在所述搜索結(jié)果中的網(wǎng)頁(yè)d中的物理距離分布確定所述網(wǎng)頁(yè)d對(duì)所述詞語(yǔ)對(duì)i的滿足度fit (i,d); 所述轉(zhuǎn)義度確定子單元,用于按照公式
27.根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述加權(quán)值確定子單元按照weight(i)=fl (tight (i), imp⑴)或者weight (i) = f2 (tight (i))確定所述詞語(yǔ)對(duì)i的加權(quán)值weight (i); 其中tight (i)為所述詞語(yǔ)對(duì)i的緊密度,imp (i)為所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求q中的重要程度,f I (tight (i),imp(i))是將tight (i)作為主因數(shù)且將imp (i)作為調(diào)節(jié)因數(shù)的函數(shù),在相同imp⑴的情況下tight (i)值越大weight (i)值越大,f2 (tight (i))是對(duì)tight (i)進(jìn)行歸一化處理的函數(shù)。
28.根據(jù)權(quán)利要求27所述的裝置,其特征在于,所述轉(zhuǎn)義度確定單元還包括重要度確定子單元,用于按照以下因素中的至少一種確定所述imp(i) 所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求中的詞性、所述詞語(yǔ)對(duì)i在所述搜索請(qǐng)求中的句子成分以及所述詞語(yǔ)對(duì)i的倒文檔率。
29.根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述滿足度確定子單元按照fit(i,d)=f3 (HIT (i, d),tight Q))或者 fit (i, d) = f4(HIT(i, d))確定所述網(wǎng)頁(yè) d 對(duì)所述詞語(yǔ)對(duì)i的滿足度fit(i,d); 其中HIT(i,d)標(biāo)識(shí)統(tǒng)計(jì)到的所述詞語(yǔ)對(duì)i在網(wǎng)頁(yè)d中的物理距離分布,tight(i)為所述詞語(yǔ)對(duì)i的緊密度,f3 (HIT (i,d),tight (i))是由HIT(i,d)確定出的所述詞語(yǔ)對(duì)i的距離范圍作為主因數(shù)且tight (i)作為調(diào)節(jié)因數(shù)的函數(shù),在相同tight (i)的情況下由HIT(i,d)確定出的詞語(yǔ)對(duì)i的距離范圍越小fit(i,d)值越大,f4(HIT(i,d))是將由HIT(i,d)確定出的詞語(yǔ)對(duì)i的距離范圍映射為具體的fit(i,d)值的函數(shù)。
30.根據(jù)權(quán)利要求29所述的裝置,其特征在于,所述轉(zhuǎn)義度確定單元還包括距離范圍確定子單元,用于根據(jù)所述HIT(i,d)確定所述詞語(yǔ)對(duì)i的距離范圍,具體包括 采用所述HIT(i,d)中所述詞語(yǔ)對(duì)i的最小距離范圍作為所述詞語(yǔ)對(duì)i的距離范圍;或者, 依據(jù)所述HIT(i,d)將相對(duì)出現(xiàn)概率值最大的距離范圍等級(jí)作為詞語(yǔ)對(duì)i的距離范圍等級(jí)。
全文摘要
本發(fā)明提供了一種用于搜索結(jié)果排序的轉(zhuǎn)義度確定方法和裝置,其中方法包括A、對(duì)用戶輸入的搜索請(qǐng)求進(jìn)行緊密度的分析,確定所述搜索請(qǐng)求中各詞語(yǔ)對(duì)的緊密度;B、根據(jù)對(duì)所述搜索請(qǐng)求對(duì)應(yīng)的搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行的結(jié)構(gòu)信息處理的結(jié)果,統(tǒng)計(jì)所述搜索請(qǐng)求中各詞語(yǔ)對(duì)在所述各網(wǎng)頁(yè)中的物理距離分布;C、利用所述搜索請(qǐng)求中各詞語(yǔ)對(duì)對(duì)應(yīng)的緊密度以及在所述各網(wǎng)頁(yè)中的物理距離分布,確定所述搜索結(jié)果中各網(wǎng)頁(yè)針對(duì)所述搜索請(qǐng)求的轉(zhuǎn)義度,所述轉(zhuǎn)義度用于對(duì)所述搜索結(jié)果中各網(wǎng)頁(yè)進(jìn)行排序。利用本發(fā)明確定出的轉(zhuǎn)義度進(jìn)行搜索結(jié)果的排序能夠提高搜索結(jié)果的排序效果,從而節(jié)約網(wǎng)絡(luò)資源。
文檔編號(hào)G06F17/30GK102799586SQ20111013580
公開日2012年11月28日 申請(qǐng)日期2011年5月24日 優(yōu)先權(quán)日2011年5月24日
發(fā)明者程道放 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司