一種搜索引擎的結(jié)果排序方法及系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝艘环N搜索引擎的結(jié)果排序方法及裝置;方法包括:根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,設(shè)定所述商品在所述樣本對中的相對排序;計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值;根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重;對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。本申請能對搜索引擎結(jié)果的排序進行優(yōu)化。
【專利說明】一種搜索引擎的結(jié)果排序方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種排序方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子商務(wù)網(wǎng)站的發(fā)展,搜索排序效果的好壞,越來越多的影響到用戶的搜索以及購物體驗。搜索引擎系統(tǒng)中,搜索結(jié)果的排序受很多因素影響,這些因素是排序系統(tǒng)在不斷的迭代過程中,通過積累用戶反饋,分析搜索行為數(shù)據(jù)獲得的。這些因素通過一組特定的權(quán)重組合來對線上排序效果進行影響。目前,商品搜索引擎通過多特征的組合,在全局上設(shè)定一個排序模型,這組模型可以用于所有商品的排序。
[0003]在商品搜索結(jié)果的排序模型中,針對商品質(zhì)量、商品文本匹配度、商品類目點擊匹配度、商品價格匹配度、以及商品銷量等多個排序特征都建立了評價機制。每組評價機制的背后都有一組算法模型或者是專家知識來對全網(wǎng)商品進行評價,評價都是以商品在上述排序特征上的特征分值來體現(xiàn),這些特征分值組成了排序模型中的基礎(chǔ)特征。
[0004]這些基礎(chǔ)特征在實際應(yīng)用的線上排序時,針對一個特定Query (查詢)召回的商品列表中,商品的排序所依據(jù)的商品的得分是按照商品排序特征的特征分值的加權(quán)求和得到的。這里就涉及到了一個加權(quán)權(quán)重的問題,不同排序特征的特征分值在排序過程中,權(quán)重是不同的,例如:商品銷量及商品類目的特征分值就有較高的權(quán)重,因為它們是用戶直接關(guān)心的內(nèi)容。相對而言,在電子商務(wù)的搜索引擎中,對于評價商品文本匹配度的特征分值就可以設(shè)定較低的權(quán)重。
[0005]目前,線上對所有商品的排序都同時使用一組排序權(quán)重參數(shù),這組參數(shù)通過專家的專業(yè)知識進行選取,同時選取的這組排序權(quán)重參數(shù)會在線上通過A/B Test的方法進行驗證。A/B Test是指在對搜索引擎排序效果進行優(yōu)化時,需要比較優(yōu)化算法的優(yōu)劣,將系統(tǒng)全部查詢流量均分成若干等份,選擇其中一個等份的查詢流量作為基礎(chǔ)測試流量,調(diào)用既有系統(tǒng)算法對搜索結(jié)果排序,并獲得用戶反饋的行為數(shù)據(jù),計算排序效果。對于其他等份的查詢流量調(diào)用新的優(yōu)化后的算法對搜索結(jié)果排序,并獲得用戶反饋的行為數(shù)據(jù),計算排序效果。這樣通過一段時間的對比實驗,可以得出在不同搜索排序算法下的排序效果的對比結(jié)果。通過所述對比結(jié)果,可以選取排序效果好的搜索排序算法使用的權(quán)重參數(shù)。
[0006]這種權(quán)重參數(shù)選取方法存在三個大的缺陷:
[0007](一)隨著時間的推移,前期確定的權(quán)重參數(shù)可能不再符合目前線上的實際應(yīng)用環(huán)境。目前的情況是,一旦既有的基礎(chǔ)特征的權(quán)重參數(shù)確定后,后期就不會對該權(quán)重參數(shù)做調(diào)整。
[0008](二)隨著商品覆蓋范圍的增多,一組統(tǒng)一的線上權(quán)重參數(shù)已經(jīng)無法滿足對所有商品的排序,單一模型已經(jīng)不能完全最大化所有類目商品的收益了。即,對某個行業(yè)或類目的商品適合的權(quán)重參數(shù),對另一個行業(yè)或類目的商品可能就是不合適的。
[0009](三)由于線上的權(quán)重參數(shù)都是通過專家的既有的專業(yè)知識確定的,這就導(dǎo)致了模型不能自主學(xué)習(xí),自動更新。同時,每一組的模型參數(shù)的確定,都需要經(jīng)過多次A/B Test,這其中因為經(jīng)驗知識的缺乏,可能導(dǎo)致實驗時間過長,或者實驗效果很差;而且這個過程中,會消耗大量的開發(fā)測試資源,同時權(quán)重的調(diào)整試驗也有可能影響搜索的整體收益。
[0010]以上三個問題都有可能導(dǎo)致搜索排序結(jié)果較差,進而影響線上交易。
【發(fā)明內(nèi)容】
[0011]本申請要解決的技術(shù)問題是如何對搜索引擎結(jié)果的排序進行優(yōu)化。
[0012]為了解決上述問題,本申請?zhí)峁┝艘环N搜索引擎的結(jié)果排序方法,包括:
[0013]根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序;
[0014]計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值;
[0015]根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重;
[0016]對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。
[0017]進一步地,所述根據(jù)歷史查詢數(shù)據(jù)選取樣本對、根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序的步驟包括:
[0018]對于用戶歷史使用的各查詢詞分別進行以下操作:
[0019]根據(jù)搜索引擎的訪問日志、點擊日志、以及購買日志,分別統(tǒng)計在預(yù)定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉(zhuǎn)化率;
[0020]計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉(zhuǎn)化率之間的差值,將這些差值的絕對值的均值作為該查詢詞的點擊率截斷閾值/轉(zhuǎn)化率截斷閾值;
[0021]在該查詢詞所召回的商品中,將點擊率之差的絕對值大于該查詢詞對應(yīng)的點擊率截斷閾值的兩個商品和該查詢詞作為一個樣本對;該樣本對中,設(shè)定在該查詢詞下點擊率聞的商品在所述樣本對中的排序優(yōu)于另一商品。
[0022]進一步地,計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值的步驟包括:
[0023]對于各樣本對分別進行以下操作:
[0024]通過該樣本對中的查詢詞,獲取該查詢詞下的各排序特征;
[0025]在該樣本對中商品的結(jié)構(gòu)化描述數(shù)據(jù)中,提取用于計算所獲取的各排序特征的特征分值的屬性字段;
[0026]根據(jù)提取的屬性字段計算所獲取的各排序特征的特征分值;
[0027]將該樣本對中的商品替換為根據(jù)該商品的屬性字段計算得到的一組排序特征的特征分值。
[0028]進一步地,根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重的步驟包括:
[0029]對于待建模的樣本對按照預(yù)定比例分為訓(xùn)練樣本和測試樣本;
[0030]根據(jù)訓(xùn)練樣本里各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序進行機器學(xué)習(xí)模型訓(xùn)練,獲得各排序特征的權(quán)重作為模型的輸出結(jié)果;
[0031]通過測試樣本對所述模型的輸出結(jié)果進行準(zhǔn)確率檢驗;
[0032]重復(fù)根據(jù)訓(xùn)練樣本進行機器學(xué)習(xí)模型訓(xùn)練的步驟及準(zhǔn)確率檢驗的步驟,直到準(zhǔn)確率達到最優(yōu);將準(zhǔn)確率達到最優(yōu)時模型的輸出結(jié)果作為最終得到的各排序特征的權(quán)重。
[0033]進一步地,根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練的步驟包括:
[0034]根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識;按照樣本對的類目的標(biāo)識,將樣本對分為不同類目的樣本集合;
[0035]分別根據(jù)不同類目的樣本集合中各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到該類目中各排序特征的權(quán)重。
[0036]進一步地,對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和的步驟包括:
[0037]按照用戶當(dāng)前輸入的查詢詞對應(yīng)的類目的標(biāo)識,獲得該查詢詞下的各排序特征,以及該查詢詞對應(yīng)的類目中各排序特征的權(quán)重;
[0038]獲取當(dāng)前輸入的查詢詞召回的商品列表;
[0039]根據(jù)當(dāng)前輸入的查詢詞下的排序特征,以及所召回的商品列表中各商品的屬性字段,分別計算所述商品列表中各商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值;
[0040]根據(jù)所獲取的權(quán)重和計算出的各排序特征的特征分值,對所召回的商品列表中各商品分別進行各排序特征的特征分值的加權(quán)求和。
[0041]本申請還提供了一種搜索引擎的結(jié)果排序裝置,包括:
[0042]樣本選取模塊,用于根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序;
[0043]特征分值獲取模塊,用于計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值;
[0044]模型訓(xùn)練模塊,用于根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重;
[0045]排序模塊,用于對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。
[0046]進一步地,所述樣本選取模塊根據(jù)歷史查詢數(shù)據(jù)選取樣本對是指:
[0047]所述樣本選取模塊對于用戶歷史使用的各查詢詞分別進行以下操作:
[0048]根據(jù)搜索引擎的訪問日志、點擊日志、以及購買日志,分別統(tǒng)計在預(yù)定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉(zhuǎn)化率;計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉(zhuǎn)化率之間的差值,將這些差值的絕對值的均值作為該查詢詞的點擊率截斷閾值/轉(zhuǎn)化率截斷閾值;在該查詢詞所召回的商品中,將點擊率之差的絕對值大于該查詢詞對應(yīng)的點擊率截斷閾值的兩個商品和該查詢詞作為一個樣本對;該樣本對中,設(shè)定在該查詢詞下點擊率高的商品在所述樣本對中的排序優(yōu)于另一商品。
[0049]進一步地,所述特征分值計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值是指:
[0050]所述特征分值獲取模塊對于各樣本對分別進行以下操作:
[0051]通過該樣本對中的查詢詞,獲取該查詢詞下的各排序特征;在該樣本對中商品的結(jié)構(gòu)化描述數(shù)據(jù)中,提取用于計算所獲取的各排序特征的特征分值的屬性字段;根據(jù)提取的屬性字段計算所獲取的各排序特征的特征分值;將該樣本對中的商品替換為根據(jù)該商品的屬性字段計算得到的一組排序特征的特征分值。
[0052]進一步地,所述模型訓(xùn)練模塊根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重是指:
[0053]所述模型訓(xùn)練模塊對于待建模的樣本對按照預(yù)定比例分為訓(xùn)練樣本和測試樣本;根據(jù)訓(xùn)練樣本里各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序進行機器學(xué)習(xí)模型訓(xùn)練,獲得各排序特征的權(quán)重作為模型的輸出結(jié)果;通過測試樣本對所述模型的輸出結(jié)果進行準(zhǔn)確率檢驗;重復(fù)根據(jù)訓(xùn)練樣本進行機器學(xué)習(xí)模型訓(xùn)練及準(zhǔn)確率檢驗的操作,直到準(zhǔn)確率達到最優(yōu);將準(zhǔn)確率達到最優(yōu)時模型的輸出結(jié)果作為最終得到的各排序特征的權(quán)重。
[0054]進一步地,所述樣本選取模塊還用于根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識;按照樣本對的類目的標(biāo)識,將樣本對分為不同類目的樣本集合;
[0055]所述模型訓(xùn)練模塊根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重是指:
[0056]所述模型訓(xùn)練模塊分別根據(jù)不同類目的樣本集合中各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到該類目中各排序特征的權(quán)重。
[0057]進一步地,所述排序模塊對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和是指:
[0058]所述排序模塊按照用戶當(dāng)前輸入的查詢詞對應(yīng)的類目的標(biāo)識,獲得該查詢詞下的各排序特征,以及該查詢詞對應(yīng)的類目中各排序特征的權(quán)重;獲取當(dāng)前輸入的查詢詞召回的商品列表;根據(jù)當(dāng)前輸入的查詢詞下的排序特征,以及所召回的商品列表中各商品的屬性字段,分別計算所述商品列表中各商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值;根據(jù)所獲取的權(quán)重和計算出的各排序特征的特征分值,對所召回的商品列表中各商品分別進行各排序特征的特征分值的加權(quán)求和。
[0059]本申請的至少一個實施例中,能夠自動進行機器學(xué)習(xí)模型的訓(xùn)練,及時更新權(quán)重參數(shù),從而優(yōu)化搜索排序結(jié)果,提升用戶搜索及購物體驗。本申請的又一個實施例中,分類目進行模型訓(xùn)練,從而得到不同行業(yè)所采用的權(quán)重參數(shù)。本申請的又一個實施例中,在線下進行模型效果的預(yù)測,可減少A/B Test時間,有效提升排序效果。當(dāng)然,實施本申請的任一產(chǎn)品必不一定需要同時達到以上所述的所有優(yōu)點。
【專利附圖】
【附圖說明】
[0060]圖1是實施例一的一種排序方法的流程示意圖;
[0061]圖2是實施例一中對于各查詢詞選取樣本對的流程不意圖;
[0062]圖3是實施例一中對于各樣本對進行特征分值替換的流程示意圖;
[0063]圖4是實施例一的一個例子的流程示意圖。
【具體實施方式】
[0064]下面將結(jié)合附圖及實施例對本申請的技術(shù)方案進行更詳細的說明。
[0065]需要說明的是,如果不沖突,本申請實施例以及實施例中的各個特征可以相互結(jié)合,均在本申請的保護范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0066]實施例一,一種搜索引擎的結(jié)果排序方法,如圖1所示,包括:
[0067]S101、根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在樣本對中的相對排序;
[0068]S102、計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值;
[0069]S103、根據(jù)各樣本對中商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,獲得各排序特征的權(quán)重;
[0070]S104、對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。
[0071]本實施例中,在收到查詢請求時,根據(jù)機器學(xué)習(xí)得到的各排序特征的權(quán)重計算每一商品的排序分值,從而對該查詢召回的商品列表中(即該查詢請求搜索得到的商品列表)的商品排序。
[0072]在本實施例的一種備選方案中,用戶對所述商品發(fā)生的行為特征包括用戶對所述商品在搜索到該商品的查詢詞下的點擊率和/或轉(zhuǎn)化率。
[0073]如圖2所示,在一個具體的實施中所述步驟SlOl可以包括,對于用戶歷史使用的各查詢詞分別進行以下操作:
[0074]步驟11、根據(jù)搜索引擎的訪問日志、點擊日志、以及購買日志,分別統(tǒng)計在預(yù)定時間長度(比如但不限于7天)中該查詢詞所召回的各商品在該查詢詞下的CTR(ClickThrough Rate,點擊率);
[0075]其中,商品在查詢詞下的點擊率或轉(zhuǎn)化率表示用戶通過該查詢詞搜索到該商品并對所述商品進行點擊或購買的次數(shù)與該商品通過該查詢詞而展現(xiàn)的次數(shù)的比率。
[0076]步驟12、計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率之間的差值,將這些差值的絕對值的均值作為該查詢詞對應(yīng)的點擊率截斷閾值CTR_THRELD ;比如查詢詞召回的商品有商品A、商品B和商品C,在該查詢詞下,商品A的點擊率為CTR A,商品B的點擊率為CTR B,商品C的點擊率為CTR C,則先分別計算CTR A和CTR B的差值、CTR A和CTR C的差值、CTR C和CTR B的差值,然后再將這些差值的絕對值的均值作為CTR_THRELD ;
[0077]步驟13、在該查詢詞所召回的商品中,將點擊率之差的絕對值大于該查詢詞對應(yīng)的點擊率截斷閾值的兩個商品和該查詢詞作為一個樣本對;該樣本對中,設(shè)定在該查詢詞下點擊率高的商品在所述樣本對中的排序優(yōu)于另一商品;即:對于該查詢詞所召回的各商品,如果該查詢詞到第一商品的點擊率減去該查詢詞到第二商品的點擊率所得到的差值,大于該查詢詞的點擊率截斷閾值,則將該查詢詞、第一商品、第二商品作為一個樣本對。在該樣本對中,如果第一商品的點擊率高于第二商品的點擊率,則在該查詢詞對應(yīng)的查詢條件下,可以認為第一商品相較于第二商品更貼近用戶的搜索意圖,與該查詢詞的相關(guān)性更高。因此,對于在該樣本對中的相關(guān)性排序,可以設(shè)定第一商品優(yōu)于第二商品。即所述商品在樣本對的相對排序中,點擊率高的商品優(yōu)于另一商品。當(dāng)然,可以理解的,在歷史的查詢中,第一商品在搜索結(jié)果中的排序并不一定優(yōu)先于第二商品。
[0078]對于一個查詢詞,可能會得到一個或多個樣本對;最后,還可以將所得到的各查詢詞對應(yīng)的樣本對一起保存為樣本集合。
[0079]上述步驟11中,也可以是統(tǒng)計在預(yù)定時間長度中該查詢詞所召回的各商品在該查詢詞下的轉(zhuǎn)化率;相應(yīng)的,步驟12中是計算該查詢詞所召回的每兩個商品在該查詢詞下的轉(zhuǎn)化率之間的差值,將這些差值的絕對值的均值作為該查詢詞對應(yīng)的轉(zhuǎn)化率截斷閾值;步驟13中則是將轉(zhuǎn)化率之差的絕對值大于該查詢詞對應(yīng)的轉(zhuǎn)化率截斷閾值的兩個商品作為一個樣本對;可以設(shè)定該樣本對中在該查詢詞下的轉(zhuǎn)化率高的商品和該查詢詞的相關(guān)性聞于另一商品。即在樣本對中的相對排序中,設(shè)定轉(zhuǎn)化率聞的商品優(yōu)于另一商品。
[0080]其中,在某一查詢詞下商品的CTR是指用戶在搜索引擎中按照該查詢詞搜索到該商品并在該商品上發(fā)生點擊的次數(shù)與按照該查詢詞進行搜索的次數(shù)的比值。在某一查詢詞下商品的轉(zhuǎn)化率是指用戶在搜索引擎中按照該查詢詞搜索到該商品并購買該商品的次數(shù)與按照該查詢詞進行搜索的次數(shù)的比值。
[0081]這樣獲取的樣本集合中的各樣本可以表示為(query, baobei_A, baobei_B),其中query為查詢詞,第一商品baobei_A和第二商品baobei_B都是查詢詞的召回結(jié)果(即搜索結(jié)果),且根據(jù)用戶在第一商品和第二商品的行為統(tǒng)計,確定了第一商品和第二商品在樣本對中的相對排序。
[0082]在傳統(tǒng)的排序模型中,訓(xùn)練樣本都是通過人工標(biāo)注出來的,這樣做的弊端是,需要消耗大量的人力成本。本備選方案采用Pair-wise (樣本對)的方法,提取的樣本只需要標(biāo)注一個查詢下,商品A和商品B中哪一個商品的優(yōu)先度高,并不需要查詢到每個商品的排序分值。通過搜索引擎中的用戶行為,提取這類樣本對作為樣本集合。
[0083]在對用戶當(dāng)前輸入的查詢詞獲得的商品搜索結(jié)果進行排序時,需要根據(jù)商品在各排序特征上的特征分值進行加權(quán)求和后的綜合排序分值得到商品的排序,每一排序特征對用戶的搜索意圖的影響程度可能不一樣,因此,每一排序特征對應(yīng)的權(quán)重參數(shù)也可能不同。
[0084]本備選方案中,為了提升查詢詞下搜索結(jié)果的點擊率或轉(zhuǎn)化率,對各排序特征的權(quán)重參數(shù)進行優(yōu)化。通過機器學(xué)習(xí)的方式建立排序特征、權(quán)重參數(shù)與排序結(jié)果的關(guān)系模型,對排序中各排序特征的權(quán)重參數(shù)進行預(yù)估。在訓(xùn)練模型的過程中,要根據(jù)提升目標(biāo)來提取所需要的樣本集合。如果,現(xiàn)在的主要目標(biāo)是提高查詢詞下搜索結(jié)果的點擊率CTR,因此以用戶的點擊行為作為提取樣本的標(biāo)準(zhǔn)。如果主要目標(biāo)是提高轉(zhuǎn)化率,則以購買行為作為提取樣本的標(biāo)準(zhǔn)。在其它備選方案中,對于不同的目標(biāo)可以選擇不同的樣本選取策略。
[0085]在本備選方案的一種實施方式中,還可以進一步根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識。查詢詞所屬類目可事先指定。
[0086]在本實施例的一種備選方案中,所述步驟S102具體可以包括:
[0087]如圖3所示,對于各樣本對分別進行以下操作:
[0088]步驟21、通過該樣本對中的查詢詞,獲取該查詢詞下的各排序特征;
[0089]步驟22、在該樣本對中商品的結(jié)構(gòu)化描述數(shù)據(jù)中,提取用于計算所獲取的各排序特征的特征分值的屬性字段;其中,屬性字段即結(jié)構(gòu)化描述數(shù)據(jù)中一個數(shù)據(jù)項,不同特征分值的計算可能需要特定的幾個數(shù)據(jù)項,可以事先指定特征分值和數(shù)據(jù)項之間的對應(yīng)關(guān)系;從結(jié)構(gòu)化描述數(shù)據(jù)中獲得數(shù)據(jù)項時既可以是從數(shù)據(jù)庫中查詢得到,也可以是從分布式存儲服務(wù)中提取得到;
[0090]步驟23、根據(jù)提取的屬性字段計算所獲取的各排序特征的特征分值;
[0091]步驟24、將該樣本對中的商品替換為根據(jù)該商品的屬性字段計算得到的一組排序特征的特征分值,這樣就可以還原出該查詢詞下每個商品的各排序特征的特征分值。
[0092]此時,樣本對表示為:
[0093](query, featurel_A, feature2_A, , featureN_A, featurel_B, feature2_
B,..., featureN_B)
[0094]其中,featurel_A,feature2_A, , featureN_A 是查詢詞 query 對應(yīng)的第一商品A在各排序特征上的特征分值列表,feature 1_B? feature2_B,..., featureN_B是查詢詞query對應(yīng)的第二商品A在各排序特征上的特征分值列表;N為特征分值的個數(shù)。
[0095]如果樣本對已標(biāo)注有類目標(biāo)識,則步驟21中還可以進一步獲取查詢詞的分詞信息,查詢詞對應(yīng)的類目分布信息,以及查詢詞對應(yīng)的其它信息。
[0096]在本實施例的一種備選方案中,所述步驟S103具體可以包括:
[0097]對于待建模的樣本對按照預(yù)定比例(比如但不限于為2: I)分為訓(xùn)練樣本和測試樣本;
[0098]根據(jù)訓(xùn)練樣本里各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序進行機器學(xué)習(xí)模型訓(xùn)練,獲得各排序特征的權(quán)重作為模型的輸出結(jié)果,這組權(quán)重表征每個排序特征在排序時的有效性;
[0099]通過測試樣本對所述模型的輸出結(jié)果進行準(zhǔn)確率檢驗;
[0100]重復(fù)根據(jù)訓(xùn)練樣本進行機器學(xué)習(xí)模型訓(xùn)練及準(zhǔn)確率檢驗的步驟,直到準(zhǔn)確率達到最優(yōu);將準(zhǔn)確率達到最優(yōu)時模型的輸出結(jié)果作為最終得到的各排序特征的權(quán)重。
[0101]在該備選方案的一種實施方式中,所述根據(jù)訓(xùn)練樣本進行建模的步驟中可以但不限于使用RankSVM作為模型訓(xùn)練算法。
[0102]RankSVM是一種pair-wise的排序分類算法,它可以對一組查詢詞下屬性字段的排序樣本進行學(xué)習(xí),獲得到排序模型。因為RankSVM是基于SVM進行開發(fā)的,它支持各種不同的核函數(shù)進行分類,包括高斯核、多項式核、線性核等。其中,高斯核和多項式核可以將低維問題轉(zhuǎn)化為高維問題,從而提高模型的準(zhǔn)確率,但是這兩種核的模型訓(xùn)練速度較慢,同時在線上預(yù)測是復(fù)雜度也較高。而線性核雖然泛化能力較弱,但是它訓(xùn)練速度較快,而且目前系統(tǒng)的線性排序方式比較容易結(jié)合。因此,比較優(yōu)選的方案是使用線性核。
[0103] 在別的實施方式中,模型訓(xùn)練也可以采用List-wise,獲得多目標(biāo)集成優(yōu)化的方法,來提高模型預(yù)測的準(zhǔn)確性。
[0104]對原始的樣本對需轉(zhuǎn)換為RankSVM所需的特定樣本格式,而基于上述兩步驟得到的樣本對中兩個商品的各排序特征的特征分值列表如下,其中“ I”和“O”是用于表示兩個商品在樣本對中的相對排序的標(biāo)識,具有標(biāo)識“I”的商品為排序在前的商品,具有標(biāo)識“O”的商品為排序在后的商品:
[0105](I, featurel_A, feature2_A,..., featureN_A)
[0106](O, feature 1_Β? feature2_B, , featureN_B)
[0107]可根據(jù)該樣本對采用RankSVM算法得到排序模型。
[0108]在本實施例的一種備選方案中,步驟S103具體可以包括:
[0109]根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識;按照樣本對的類目的標(biāo)識,將樣本對分為不同類目的樣本集合;
[0110]分別根據(jù)不同類目的樣本集合中各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到該類目中各排序特征的權(quán)重。
[0111]通過離線訓(xùn)練獲得的各排序特征的權(quán)重需要在線上使用;由于針對不同類目下的查詢詞對應(yīng)的樣本集合會為各類目分別訓(xùn)練出一個模型,不同類目下的排序特征會有不同的權(quán)重,使線上排序根據(jù)不同類目的查詢詞有不同的效果。
[0112]在該備選方案的一種實施方式中,對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和的步驟具體可以包括:
[0113]按照用戶當(dāng)前輸入的查詢詞對應(yīng)的類目的標(biāo)識PrediCt_Cat,獲得該查詢詞下的各排序特征,以及該查詢詞對應(yīng)的類目的排序模型model_cat,即該類目中各排序特征的權(quán)重:(weight_l, weight_2,...,weight_N);
[0114]獲取當(dāng)前輸入的查詢詞召回的商品列表;
[0115]根據(jù)當(dāng)前輸入的查詢詞下的排序特征,以及所召回的商品列表中各商品的屬性字段,分別計算所述商品列表中各商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值;每個商品的計算結(jié)果可以表示為如下的特征分值向量:
[0116](featurel, feature2,..., featureN);
[0117]根據(jù)所獲取的權(quán)重和計算出的各排序特征的特征分值,對所召回的商品列表中各商品分別進行各排序特征的特征分值的加權(quán)求和,即按照下式分別計算各商品的得分score:
N
[0118]u <" = ^ ( fcaliire — / * weight _/);
(=1
[0119]全部計算完成后就可以基于每個商品的得分,對商品列表中的各商品進行排序了。
[0120]一個具體例子如圖4所示,當(dāng)用戶請求在域名為XXX的網(wǎng)頁中使用查詢詞“手機”進行商品查詢時,查詢服務(wù)器(QP服務(wù)器)將該查詢請求發(fā)給搜索引擎;搜索引擎按照查詢詞的類目選擇排序模型,比如圖4中的服務(wù)行業(yè)排序模型、手機行業(yè)排序模型或其它行業(yè)排序模型;然后根據(jù)排序模型對查詢詞召回的商品進行排序,并通過查詢服務(wù)器返回給用戶。
[0121]實施例二,一種搜索引擎的結(jié)果排序裝置,包括:
[0122]樣本選取模塊,用于根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序;
[0123]特征分值獲取模塊,用于計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值;
[0124]模型訓(xùn)練模塊,用于根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重;
[0125]排序模塊,用于對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。
[0126]本實施例的一種備選方案中,所述樣本選取模塊根據(jù)歷史查詢數(shù)據(jù)選取樣本對具體可以是指:
[0127]所述樣本選取模塊對于用戶歷史使用的各查詢詞分別進行以下操作:
[0128]根據(jù)搜索引擎的訪問日志、點擊日志、以及購買日志,分別統(tǒng)計在預(yù)定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉(zhuǎn)化率;計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉(zhuǎn)化率之間的差值,將這些差值的絕對值的均值作為該查詢詞的點擊率截斷閾值/轉(zhuǎn)化率截斷閾值;在該查詢詞所召回的商品中,將點擊率之差的絕對值大于該查詢詞對應(yīng)的點擊率截斷閾值的兩個商品和該查詢詞作為一個樣本對;該樣本對中,設(shè)定在該查詢詞下點擊率高的商品在所述樣本對中的排序優(yōu)于另一商品。
[0129]本實施例的一種備選方案中,所述特征分值計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值是指:
[0130]所述特征分值獲取模塊對于各樣本對分別進行以下操作:
[0131]通過該樣本對中的查詢詞,獲取該查詢詞下的各排序特征;在該樣本對中商品的結(jié)構(gòu)化描述數(shù)據(jù)中,提取用于計算所獲取的各排序特征的特征分值的屬性字段;根據(jù)提取的屬性字段計算所獲取的各排序特征的特征分值;將該樣本對中的商品替換為根據(jù)該商品的屬性字段計算得到的一組排序特征的特征分值。
[0132]本實施例的一種備選方案中,所述模型訓(xùn)練模塊根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重是指:
[0133]所述模型訓(xùn)練模塊對于待建模的樣本對按照預(yù)定比例分為訓(xùn)練樣本和測試樣本;根據(jù)訓(xùn)練樣本里各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序進行機器學(xué)習(xí)模型訓(xùn)練,獲得各排序特征的權(quán)重作為模型的輸出結(jié)果;通過測試樣本對所述模型的輸出結(jié)果進行準(zhǔn)確率檢驗;重復(fù)根據(jù)訓(xùn)練樣本進行機器學(xué)習(xí)模型訓(xùn)練及準(zhǔn)確率檢驗的操作,直到準(zhǔn)確率達到最優(yōu);將準(zhǔn)確率達到最優(yōu)時模型的輸出結(jié)果作為最終得到的各排序特征的權(quán)重。
[0134]該備選方案的一些實施方式中,可以通過RankSVM對訓(xùn)練樣本進行建模,使用線性核進行訓(xùn)練。
[0135]本實施例的一種備選方案中,所述樣本選取模塊還用于根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識;按照樣本對的類目的標(biāo)識,將樣本對分為不同類目的樣本集合;
[0136]該備選方案中,所述模型訓(xùn)練模塊根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重是指:
[0137]所述模型訓(xùn)練模塊分別根據(jù)不同類目的樣本集合中各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到該類目中各排序特征的權(quán)重。
[0138]該備選方案中,所述排序模塊對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和是指:
[0139]所述排序模塊按照用戶當(dāng)前輸入的查詢詞對應(yīng)的類目的標(biāo)識,獲得該查詢詞下的各排序特征,以及該查詢詞對應(yīng)的類目中各排序特征的權(quán)重;獲取當(dāng)前輸入的查詢詞召回的商品列表;根據(jù)當(dāng)前輸入的查詢詞下的排序特征,以及所召回的商品列表中各商品的屬性字段,分別計算所述商品列表中各商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值;根據(jù)所獲取的權(quán)重和計算出的各排序特征的特征分值,對所召回的商品列表中各商品分別進行各排序特征的特征分值的加權(quán)求和。
[0140]本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關(guān)硬件完成,所述程序可以存儲于計算機可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤等。可選地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應(yīng)地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本申請不限制于任何特定形式的硬件和軟件的結(jié)合。
[0141]當(dāng)然,本申請還可有其他多種實施例,在不背離本申請精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本申請作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本申請的權(quán)利要求的保護范圍。
【權(quán)利要求】
1.一種搜索引擎的結(jié)果排序方法,其特征在于,包括: 根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序; 計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值; 根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重; 對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)歷史查詢數(shù)據(jù)選取樣本對、根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序的步驟包括: 對于用戶歷史使用的各查詢詞分別進行以下操作: 根據(jù)搜索引擎的訪問日志、點擊日志、以及購買日志,分別統(tǒng)計在預(yù)定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉(zhuǎn)化率; 計算該查詢詞所召回的 每兩個商品在該查詢詞下的點擊率/轉(zhuǎn)化率之間的差值,將這些差值的絕對值的均值作為該查詢詞的點擊率截斷閾值/轉(zhuǎn)化率截斷閾值; 在該查詢詞所召回的商品中,將點擊率之差的絕對值大于該查詢詞對應(yīng)的點擊率截斷閾值的兩個商品和該查詢詞作為一個樣本對;該樣本對中,設(shè)定在該查詢詞下點擊率高的商品在所述樣本對中的排序優(yōu)于另一商品。
3.如權(quán)利要求1所述的方法,其特征在于,計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值的步驟包括: 對于各樣本對分別進行以下操作: 通過該樣本對中的查詢詞,獲取該查詢詞下的各排序特征; 在該樣本對中商品的結(jié)構(gòu)化描述數(shù)據(jù)中,提取用于計算所獲取的各排序特征的特征分值的屬性字段; 根據(jù)提取的屬性字段計算所獲取的各排序特征的特征分值; 將該樣本對中的商品替換為根據(jù)該商品的屬性字段計算得到的一組排序特征的特征分值。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重的步驟包括: 對于待建模的樣本對按照預(yù)定比例分為訓(xùn)練樣本和測試樣本; 根據(jù)訓(xùn)練樣本里各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序進行機器學(xué)習(xí)模型訓(xùn)練,獲得各排序特征的權(quán)重作為模型的輸出結(jié)果; 通過測試樣本對所述模型的輸出結(jié)果進行準(zhǔn)確率檢驗; 重復(fù)根據(jù)訓(xùn)練樣本進行機器學(xué)習(xí)模型訓(xùn)練的步驟及準(zhǔn)確率檢驗的步驟,直到準(zhǔn)確率達到最優(yōu);將準(zhǔn)確率達到最優(yōu)時模型的輸出結(jié)果作為最終得到的各排序特征的權(quán)重。
5.如權(quán)利要求1到4中任一項所述的方法,其特征在于,根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練的步驟包括: 根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識;按照樣本對的類目的標(biāo)識,將樣本對分為不同類目的樣本集合; 分別根據(jù)不同類目的樣本集合中各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到該類目中各排序特征的權(quán)重。
6.如權(quán)利要求5所述的方法,其特征在于,對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和的步驟包括: 按照用戶當(dāng)前輸入的查詢詞對應(yīng)的類目的標(biāo)識,獲得該查詢詞下的各排序特征,以及該查詢詞對應(yīng)的類目中各排序特征的權(quán)重; 獲取當(dāng)前輸入的查詢詞召回的商品列表; 根據(jù)當(dāng)前輸入的查詢詞下的排序特征,以及所召回的商品列表中各商品的屬性字段,分別計算所述商品列表中各商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值; 根據(jù)所獲取的權(quán)重和計算出的各排序特征的特征分值,對所召回的商品列表中各商品分別進行各排序特征的 特征分值的加權(quán)求和。
7.一種搜索引擎的結(jié)果排序裝置,其特征在于,包括: 樣本選取模塊,用于根據(jù)歷史查詢數(shù)據(jù)選取樣本對,每一樣本對中包括一個查詢詞及通過該查詢詞搜索得到的至少兩個商品,根據(jù)樣本對中用戶通過該查詢詞搜索得到所述商品并對所述商品發(fā)生的行為特征設(shè)定所述商品在所述樣本對中的相對排序; 特征分值獲取模塊,用于計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值; 模型訓(xùn)練模塊,用于根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重; 排序模塊,用于對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和,根據(jù)加權(quán)求和的結(jié)果進行商品的排序。
8.如權(quán)利要求7所述的裝置,其特征在于,所述樣本選取模塊根據(jù)歷史查詢數(shù)據(jù)選取樣本對是指: 所述樣本選取模塊對于用戶歷史使用的各查詢詞分別進行以下操作: 根據(jù)搜索引擎的訪問日志、點擊日志、以及購買日志,分別統(tǒng)計在預(yù)定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉(zhuǎn)化率;計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉(zhuǎn)化率之間的差值,將這些差值的絕對值的均值作為該查詢詞的點擊率截斷閾值/轉(zhuǎn)化率截斷閾值;在該查詢詞所召回的商品中,將點擊率之差的絕對值大于該查詢詞對應(yīng)的點擊率截斷閾值的兩個商品和該查詢詞作為一個樣本對;該樣本對中,設(shè)定在該查詢詞下點擊率高的商品在所述樣本對中的排序優(yōu)于另一商品。
9.如權(quán)利要求7所述的裝置,其特征在于,所述特征分值計算樣本對中每一商品在該查詢詞下的各排序特征的特征分值是指: 所述特征分值獲取模塊對于各樣本對分別進行以下操作: 通過該樣本對中的查詢詞,獲取該查詢詞下的各排序特征;在該樣本對中商品的結(jié)構(gòu)化描述數(shù)據(jù)中,提取用于計算所獲取的各排序特征的特征分值的屬性字段;根據(jù)提取的屬性字段計算所獲取的各排序特征的特征分值;將該樣本對中的商品替換為根據(jù)該商品的屬性字段計算得到的一組排序特征的特征分值。
10.如權(quán)利要求7所述的裝置,其特征在于,所述模型訓(xùn)練模塊根據(jù)各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重是指: 所述模型訓(xùn)練模塊對于待建模的樣本對按照預(yù)定比例分為訓(xùn)練樣本和測試樣本;根據(jù)訓(xùn)練樣本里各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序進行機器學(xué)習(xí)模型訓(xùn)練,獲得各排序特征的權(quán)重作為模型的輸出結(jié)果;通過測試樣本對所述模型的輸出結(jié)果進行準(zhǔn)確率檢驗;重復(fù)根據(jù)訓(xùn)練樣本進行機器學(xué)習(xí)模型訓(xùn)練及準(zhǔn)確率檢驗的操作,直到準(zhǔn)確率達到最優(yōu);將準(zhǔn)確率達到最優(yōu)時模型的輸出結(jié)果作為最終得到的各排序特征的權(quán)重。
11.如權(quán)利要求7到10中任一項所述的裝置,其特征在于: 所述樣本選取模塊還用于根據(jù)查詢詞所屬類目,為該查詢詞所在的樣本對標(biāo)注該類目的標(biāo)識;按照樣本對的類目的標(biāo)識,將樣本對分為不同類目的樣本集合; 所述模型訓(xùn)練模塊根據(jù) 各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到各排序特征的權(quán)重是指: 所述模型訓(xùn)練模塊分別根據(jù)不同類目的樣本集合中各樣本對中的商品在各排序特征上的特征分值及各樣本對中所述商品的相對排序,進行機器學(xué)習(xí)模型的訓(xùn)練,得到該類目中各排序特征的權(quán)重。
12.如權(quán)利要求11所述的裝置,其特征在于,所述排序模塊對用戶當(dāng)前輸入的查詢詞召回的商品列表中的各商品,按照所得到的權(quán)重進行所述商品列表中每一商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值的加權(quán)求和是指: 所述排序模塊按照用戶當(dāng)前輸入的查詢詞對應(yīng)的類目的標(biāo)識,獲得該查詢詞下的各排序特征,以及該查詢詞對應(yīng)的類目中各排序特征的權(quán)重;獲取當(dāng)前輸入的查詢詞召回的商品列表;根據(jù)當(dāng)前輸入的查詢詞下的排序特征,以及所召回的商品列表中各商品的屬性字段,分別計算所述商品列表中各商品在當(dāng)前輸入的查詢詞下各排序特征的特征分值;根據(jù)所獲取的權(quán)重和計算出的各排序特征的特征分值,對所召回的商品列表中各商品分別進行各排序特征的特征分值的加權(quán)求和。
【文檔編號】G06Q30/00GK104077306SQ201310105175
【公開日】2014年10月1日 申請日期:2013年3月28日 優(yōu)先權(quán)日:2013年3月28日
【發(fā)明者】王 義, 曾安祥 申請人:阿里巴巴集團控股有限公司