基于搜索結(jié)果效用分析的工業(yè)產(chǎn)品垂直搜索引擎排列技術(shù)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于搜索引擎領(lǐng)域,具體涉及一種基于搜索結(jié)果效用分析的工業(yè)產(chǎn)品垂直搜索引擎排列技術(shù)。
【背景技術(shù)】
[0002]目前的搜索引擎結(jié)果排序技術(shù)主要分為兩類:一類是針對(duì)普適性搜索引擎的搜索結(jié)果排序技術(shù);另一類是針對(duì)垂直搜索引擎結(jié)果排序技術(shù)。針對(duì)普適性搜索引擎的搜索結(jié)果排序技術(shù)包括網(wǎng)頁(yè)排序技術(shù)(PageRank技術(shù))和詞頻-逆文本頻率技術(shù)(TF-1DF技術(shù))。
[0003]PageRank技術(shù)是一種針對(duì)普適性搜索引擎的搜索結(jié)果排序技術(shù),該技術(shù)將互聯(lián)網(wǎng)中的所有網(wǎng)頁(yè)連同網(wǎng)頁(yè)之間的超鏈接關(guān)系理解為一張“有向圖”數(shù)據(jù)結(jié)構(gòu),即:每個(gè)網(wǎng)頁(yè)為圖中的一個(gè)節(jié)點(diǎn),每個(gè)超鏈接為一個(gè)有向邊。通過(guò)這種數(shù)據(jù)結(jié)構(gòu)的構(gòu)建,該方法可以計(jì)算出每個(gè)網(wǎng)頁(yè)的排序權(quán)重。TF-1DF通過(guò)比較搜索詞條與網(wǎng)頁(yè)的文本內(nèi)容,為網(wǎng)頁(yè)進(jìn)行排序。
[0004]針對(duì)垂直搜索引擎,目前主流的排序技術(shù)為“字符匹配”配合“按結(jié)果屬性排序”的方法。即首先通過(guò)字符匹配的方法確定結(jié)果集合,然后通過(guò)對(duì)比結(jié)果集合中每個(gè)結(jié)果的某個(gè)屬性對(duì)結(jié)果進(jìn)行排序,例如:按照結(jié)果的價(jià)格進(jìn)行排序、按照結(jié)果的大小進(jìn)行排序、按照結(jié)果的時(shí)間進(jìn)行排序等。
[0005]對(duì)于針對(duì)工業(yè)產(chǎn)品的垂直搜索引擎,現(xiàn)有技術(shù)的主要缺陷如下:
[0006](I)排序準(zhǔn)確度低。針對(duì)普適性搜索引擎的搜索結(jié)果排序技術(shù)基于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁(yè)的特點(diǎn)提出,適合對(duì)于具有大量文字的文檔進(jìn)行文本性匹配。然而,對(duì)于工業(yè)產(chǎn)品的垂直搜索領(lǐng)域,待搜索的數(shù)據(jù)具有新的特點(diǎn),其數(shù)據(jù)不是以網(wǎng)頁(yè)形式組織的整體,而是每個(gè)數(shù)據(jù)均由多個(gè)數(shù)據(jù)屬性組成,包括:產(chǎn)品名稱、產(chǎn)品價(jià)格、生產(chǎn)企業(yè)、上架時(shí)間等等。針對(duì)普適性搜索引擎的搜索結(jié)果排序技術(shù)不適應(yīng)工業(yè)產(chǎn)品數(shù)據(jù)結(jié)構(gòu)的特點(diǎn),搜索結(jié)果無(wú)法滿足用戶需求,準(zhǔn)確度低。
[0007](2)排序依據(jù)單一片面?,F(xiàn)有的針對(duì)垂直搜索引擎的排序技術(shù),按照搜索結(jié)果的某種屬性記性排序,比如價(jià)格、時(shí)間、用戶評(píng)價(jià)等等,每一種排序的方法的排序依據(jù)均比較單一片面,無(wú)法從產(chǎn)品的綜合價(jià)值角度進(jìn)行排序。
[0008](3)使用方便程度低?,F(xiàn)有的針對(duì)垂直搜索引擎的排序技術(shù),需要在使用者輸入搜索詞條后重新選擇結(jié)果排序方式,使用方便程度低。
【發(fā)明內(nèi)容】
[0009]為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種針對(duì)工業(yè)產(chǎn)品垂直搜索引擎的結(jié)果排序技術(shù),通過(guò)對(duì)搜索詞條以及搜索結(jié)果的分析,本發(fā)明采用“搜索結(jié)果價(jià)值”的計(jì)算方法,并稱之為“結(jié)果效用”,通過(guò)對(duì)結(jié)果效用進(jìn)行計(jì)算,并且按照結(jié)果效用對(duì)搜索結(jié)果進(jìn)行排序,極大提高了搜索結(jié)果的相關(guān)程度,提高用戶體驗(yàn)和排序的準(zhǔn)確度。
[0010]為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
[0011]一種基于搜索結(jié)果效用分析的工業(yè)產(chǎn)品垂直搜索引擎排列技術(shù),其特征在于,Q為搜索詞條,Di為第i個(gè)搜索結(jié)果,當(dāng)Q有M條搜索結(jié)果時(shí),O ( i ( M,所述垂直搜索引擎排列技術(shù)包括以下幾步:
[0012]第一步:對(duì)搜索詞條Q和搜索結(jié)果0,進(jìn)行分詞;
[0013]第二步:對(duì)分詞后的搜索詞條和分伺候的搜索結(jié)果Di進(jìn)行結(jié)果效用F計(jì)算,F(xiàn) = 產(chǎn)品成交次數(shù) /(D i的產(chǎn)品價(jià)格 +1)*(145 - TF ^gram - TF2_gram - TF3^gram _ TF4_gram),其中: 產(chǎn)品成交次數(shù)/(D i的產(chǎn)品價(jià)格+1)為搜索結(jié)果D i的標(biāo)準(zhǔn)化效用參數(shù),145 - TF ^graffl -
TF2_gram - TF3^gram - TF4_gMm為搜索詞條Q相對(duì)于搜索結(jié)果D i的相關(guān)指數(shù);
[0014]第三步:按照第二步中計(jì)算的結(jié)果效用F,對(duì)所有的搜索結(jié)果進(jìn)行排列,結(jié)果效用F高的結(jié)果排序靠前,結(jié)果效用F低的結(jié)果排序靠后。
[0015]在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,第二步中對(duì)分詞后的搜索詞條和分伺候的搜索結(jié)果Di進(jìn)行結(jié)果效用F計(jì)算,包括以下步驟:
[0016]步驟一:對(duì)分詞后的搜索詞條Q,抽取Ι-gram到N-gram,其中N-gram為有向序列的長(zhǎng)度為N的有向子序列,I < N < 4且N為正整數(shù);
[0017]步驟二:對(duì)步驟一中從搜索詞條Q中抽取的每個(gè)1-gram、2-gram、3-gram與4-gram,分別在每個(gè)搜索結(jié)果01中進(jìn)行字符串子串查找匹配,分別得到1-gram、2-gram、3-gram 與 4-gram 在詞頻,N-gram 的詞頻表示為 TF N_gram,TFN_gram =
TFN-gram-1+TFN-gram-2+......+TFN-gram-K+......+TFN_gram_K其中,I 彡 N 彡 4 ;R 為搜索詞條 Q 中 N-gram
的數(shù)目;N-gram-K表示第K個(gè)N-gram (I彡K彡R) ;TFN_gM_K表示第K個(gè)N-gram的匹配頻率;
[0018]步驟三:計(jì)算搜索詞條Q與搜索結(jié)果Di的結(jié)果效用F,F(xiàn) = D 產(chǎn)品成交次數(shù)/ (D ,的產(chǎn)品價(jià)格+ 1)* (145 - TF1^gram - TF2_gram - TF3^gram _ TF4_gram),其中屯的產(chǎn)品成交次數(shù)/ (D丨的產(chǎn)品價(jià)格+1)為搜索結(jié)果Di的標(biāo)準(zhǔn)化效用參數(shù),145 - TF ^gram - TF2_gram - TF3^gram _ TF4_gran^搜索詞條Q相對(duì)于搜索結(jié)果Di的相關(guān)指數(shù),TF步驟二中得到的詞頻。
[0019]在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,第一步中的對(duì)搜索詞條Q和搜索結(jié)果01進(jìn)行分詞包括以下形式:對(duì)搜索詞條Q和搜索結(jié)果Di同時(shí)進(jìn)行分詞;將搜索結(jié)果01先分詞并且存儲(chǔ)于數(shù)據(jù)庫(kù)中,搜索詞條Q在搜索時(shí)臨時(shí)分詞。
[0020]在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,第一步中的分詞方法包括以下一種或幾種:字符串匹配分詞法、詞義分詞法和統(tǒng)計(jì)分詞法。
[0021]在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,所述字符串匹配分詞法包括以下一種或幾種分詞法:正向最大匹配法、反向最大匹配法、雙向最大匹配法和最短路徑分詞法。
[0022]本發(fā)明的有益效果是:
[0023]其一、本發(fā)明的排序方法排序準(zhǔn)確度高。該技術(shù)針對(duì)“工業(yè)產(chǎn)品垂直搜索引擎”的數(shù)據(jù)特點(diǎn)提出,在“結(jié)果效用”的計(jì)算公式中“相關(guān)指數(shù)”體現(xiàn)了搜索詞條與搜索結(jié)果的相關(guān)程度,“標(biāo)準(zhǔn)化效用參數(shù)”體現(xiàn)了搜索結(jié)果本身的效用高低。按“結(jié)果效用”值對(duì)結(jié)果進(jìn)行排序,可以保證相關(guān)程度高、且質(zhì)量有保證的搜索結(jié)果排序靠前,即提高了排序準(zhǔn)確度。
[0024]其二、本發(fā)明的排序方法排序依據(jù)全面。如上所述,搜索結(jié)果依據(jù)“結(jié)果效用”排序,同時(shí)考慮了使用者的需求與搜索結(jié)果本身的數(shù)據(jù)質(zhì)量(產(chǎn)品價(jià)格與信譽(yù)程度),排序靠前的結(jié)果擁有更高的綜合質(zhì)量,而不是單方面的高指標(biāo)。
[0025]其三、本發(fā)明的排序方法使用方便程度高。在本發(fā)明的支撐下,使用者在輸入搜索詞條后,不需要選擇額外的排序方式,而可以直接得到準(zhǔn)確的搜索結(jié)果排序方式,操作更加簡(jiǎn)單,使用更加方便。
【附圖說(shuō)明】
[0026]為了更清楚地說(shuō)明本發(fā)明實(shí)施例技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0027]圖1本發(fā)明方法的流程圖。
【具體實(shí)施方式】
[0028]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]實(shí)施例
[0030]如圖1所示,本實(shí)施例中公開(kāi)了一種基于搜索結(jié)果效用分析的工業(yè)產(chǎn)品垂直搜索引擎排列技術(shù),Q為搜索詞條,Di為第i個(gè)搜索結(jié)果,當(dāng)Q有M條搜索結(jié)果時(shí),O < i < M,所述垂直搜索引擎排列技術(shù)包括以下幾步:
[0031]第一步:對(duì)搜索詞條Q和搜索結(jié)果Di進(jìn)行分詞。
[0032]第二步:對(duì)分詞后的搜索詞條和分伺候的搜索結(jié)果Di進(jìn)行結(jié)果效用F計(jì)算。
[0033]第三步:按照第二步中計(jì)算的結(jié)果效用F,對(duì)所有的搜索結(jié)果進(jìn)行排列,結(jié)果效用F高的結(jié)果排序靠前,結(jié)果效用F低的結(jié)果排序靠后。
[0034]第一步中的對(duì)搜索詞條Q和搜索結(jié)果Di進(jìn)行分詞是并列關(guān)系,可以對(duì)對(duì)搜索詞條Q和搜索結(jié)果Di同時(shí)進(jìn)行分詞;也可以先將搜索結(jié)果Di先分詞并且存儲(chǔ)于數(shù)據(jù)庫(kù)中,搜索詞條Q在搜索時(shí)臨時(shí)分詞。
[0035]具體的,第一步中涉及的分詞方法包括以下幾種:字符串匹配分詞法、詞義分詞法和統(tǒng)計(jì)分詞法。其中所述字符串匹配分詞法包括以下幾種分詞法:正向最大匹配法、反向最大匹配法、雙向最大匹配法和最短路徑分詞法。
[0036](I)正向最大匹配法