欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于決策樹的搜索結(jié)果排序方法及其裝置的制造方法

文檔序號(hào):9929557閱讀:260來源:國知局
基于決策樹的搜索結(jié)果排序方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)搜索技術(shù)領(lǐng)域,特別涉及基于決策樹的搜索結(jié)果排序技術(shù)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,搜索引擎成為用戶獲取相關(guān)信息的主要途徑。一般,用戶會(huì)通過輸入關(guān)鍵詞或語句在搜索引擎中搜索自己關(guān)心的信息,不同搜索引擎一般會(huì)根據(jù)不同排序因素對(duì)搜索到的結(jié)果進(jìn)行排序后再呈現(xiàn)給用戶。
[0003]對(duì)于現(xiàn)有的搜索引擎,由于用戶輸入關(guān)鍵詞的習(xí)慣不同,各搜索引擎對(duì)搜索結(jié)果與搜索關(guān)鍵詞相關(guān)度之間的計(jì)算方式不同,取得的排序效果也各不相同。為了取得好的令用戶滿意的搜索結(jié)果,目前通常采用機(jī)器學(xué)習(xí)的方式建立排序模型,然后將建立的模型用于排序。機(jī)器學(xué)習(xí)中有一種經(jīng)典模型,決策樹(decis1n tree)模型,可處理分類和回歸的問題,其中的GBDT(Gradient boosting decis1n tree,梯度提升決策樹)的本質(zhì)就是用回歸決策樹來解決排序問題。但是,無論是采用何種決策樹來建立排序模型,都需要通過對(duì)包含已知搜索關(guān)鍵詞和搜索結(jié)果間相關(guān)度訓(xùn)練集進(jìn)行訓(xùn)練來建立,一般的訓(xùn)練集的數(shù)據(jù)量為億級(jí)別的,要基于這么大數(shù)量級(jí)的數(shù)據(jù)訓(xùn)練出排序模型,常常要耗費(fèi)大量的時(shí)間,而且,針對(duì)不同的搜索關(guān)鍵詞或領(lǐng)域需要建立的排序模型量也非常巨大,還要面對(duì)各種數(shù)據(jù)更新的問題。因此,如何提高排序模型的建立效率,是亟待解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種基于決策樹的搜索結(jié)果排序方法及其裝置,可在訓(xùn)練集中訓(xùn)練數(shù)據(jù)量極大時(shí),如億萬級(jí)別,極大程度的降低計(jì)算所消耗的時(shí)間,提高排序效率和排序的靈活性,降低排序成本。
[0005]為解決上述技術(shù)問題,本發(fā)明的實(shí)施方式公開了一種基于決策樹的搜索結(jié)果排序方法,包括以下步驟:
[0006]獲取建立至少一棵用于排序的決策樹所需的訓(xùn)練集,訓(xùn)練集包括N個(gè)訓(xùn)練特征,其中,N大于等于2;
[0007]將決策樹的計(jì)算系統(tǒng)分為N個(gè)特征進(jìn)程組,該N個(gè)特征進(jìn)程組分別對(duì)應(yīng)N個(gè)訓(xùn)練特征;
[0008]通過特征進(jìn)程組計(jì)算每棵決策樹的最優(yōu)分裂結(jié)點(diǎn)和對(duì)應(yīng)最優(yōu)分裂結(jié)點(diǎn)的最優(yōu)分裂值,并根據(jù)最優(yōu)分裂結(jié)點(diǎn)和最優(yōu)分裂值建立每棵決策樹;
[0009]基于所有決策樹對(duì)搜索結(jié)果進(jìn)行排序。
[0010]本發(fā)明的實(shí)施方式還公開了一種基于決策樹的搜索結(jié)果排序裝置,包括:
[0011]獲取單元,用于獲取建立至少一棵用于排序的決策樹所需的訓(xùn)練集,訓(xùn)練集包括N個(gè)訓(xùn)練特征,其中,N大于等于2 ;
[0012]分割單元,用于將決策樹的計(jì)算系統(tǒng)分為N個(gè)特征進(jìn)程組,該N個(gè)特征進(jìn)程組分別對(duì)應(yīng)N個(gè)訓(xùn)練特征;
[0013]計(jì)算單元,用于通過特征進(jìn)程組計(jì)算每棵決策樹的最優(yōu)分裂結(jié)點(diǎn)和對(duì)應(yīng)最優(yōu)分裂結(jié)點(diǎn)的最優(yōu)分裂值,并根據(jù)最優(yōu)分裂結(jié)點(diǎn)和最優(yōu)分裂值建立每棵決策樹;
[0014]排序單元,用于基于所有決策樹對(duì)搜索結(jié)果進(jìn)行排序。
[0015]本發(fā)明實(shí)施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于:
[0016]將用于排序的決策樹的計(jì)算系統(tǒng)以訓(xùn)練特征為基礎(chǔ)進(jìn)行分割并基于分割后的特征進(jìn)程組進(jìn)行信息的并行計(jì)算和傳輸,可在訓(xùn)練集中訓(xùn)練數(shù)據(jù)量極大時(shí),如億萬級(jí)別的,極大程度的降低計(jì)算所消耗的時(shí)間。尤其是在搜索引擎對(duì)應(yīng)的數(shù)據(jù)庫數(shù)據(jù)量龐大的情況下,可快速準(zhǔn)確訓(xùn)練出一個(gè)優(yōu)質(zhì)的用于排序的決策樹模型,提高排序效率和排序的靈活性,降低排序成本。
[0017]進(jìn)一步地,將計(jì)算系統(tǒng)在訓(xùn)練特征和訓(xùn)練樣本兩個(gè)維度上同時(shí)進(jìn)行分割,可進(jìn)一步提高訓(xùn)練數(shù)據(jù)的訓(xùn)練效率,例如,對(duì)于3億左右的數(shù)據(jù),可在幾個(gè)小時(shí)訓(xùn)練出一個(gè)優(yōu)秀的決策樹模型。
【附圖說明】
[0018]圖1是本發(fā)明第一實(shí)施方式中一種基于決策樹的搜索結(jié)果排序方法的流程示意圖;
[0019]圖2是本發(fā)明第二實(shí)施方式中基于MPI協(xié)議對(duì)決策樹的計(jì)算系統(tǒng)進(jìn)行分割后的進(jìn)程組的工作示意圖;
[0020]圖3是本發(fā)明第二實(shí)施方式中基于MPI協(xié)議對(duì)決策樹的計(jì)算系統(tǒng)進(jìn)行分割后每個(gè)特征進(jìn)程組分布存儲(chǔ)數(shù)據(jù)的示意圖;
[0021]圖4是本發(fā)明第三實(shí)施方式中一種基于決策樹的搜索結(jié)果排序裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]在以下的敘述中,為了使讀者更好地理解本申請(qǐng)而提出了許多技術(shù)細(xì)節(jié)。但是,本領(lǐng)域的普通技術(shù)人員可以理解,即使沒有這些技術(shù)細(xì)節(jié)和基于以下各實(shí)施方式的種種變化和修改,也可以實(shí)現(xiàn)本申請(qǐng)各權(quán)利要求所要求保護(hù)的技術(shù)方案。
[0023]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0024]本發(fā)明第一實(shí)施方式涉及一種基于決策樹的搜索結(jié)果排序方法。圖1是該基于決策樹的搜索結(jié)果排序方法的流程示意圖。
[0025]如圖1所示,該基于決策樹的搜索結(jié)果排序方法包括以下步驟:
[0026]在步驟101中,獲取建立至少一棵用于排序的決策樹所需的訓(xùn)練集,訓(xùn)練集包括N個(gè)訓(xùn)練特征,其中,N大于等于2。
[0027]此后進(jìn)入步驟102,將決策樹的計(jì)算系統(tǒng)分為N個(gè)特征進(jìn)程組(feature進(jìn)程組),該N個(gè)特征進(jìn)程組分別對(duì)應(yīng)N個(gè)訓(xùn)練特征。
[0028]此后進(jìn)入步驟103,通過特征進(jìn)程組計(jì)算每棵決策樹的最優(yōu)分裂結(jié)點(diǎn)和對(duì)應(yīng)最優(yōu)分裂結(jié)點(diǎn)的最優(yōu)分裂值,并根據(jù)最優(yōu)分裂結(jié)點(diǎn)和最優(yōu)分裂值建立每棵決策樹。
[0029]此后進(jìn)入步驟104,基于所有決策樹對(duì)搜索結(jié)果進(jìn)行排序。
[0030]此后結(jié)束本流程。
[0031]在本發(fā)明的一優(yōu)選例中,決策樹的數(shù)目大于等于2,并且,上述步驟103包括以下子步驟:
[0032]判斷已計(jì)算出的當(dāng)前決策樹的最優(yōu)分裂結(jié)點(diǎn)的數(shù)目是否超過預(yù)定閾值;
[0033]如果判斷結(jié)果為是,則結(jié)束對(duì)當(dāng)前決策樹的最優(yōu)分裂結(jié)點(diǎn)和相應(yīng)的最優(yōu)分裂值的計(jì)算,開始建立下棵決策樹或進(jìn)入步驟104 ;
[0034]如果判斷結(jié)果為否,則每個(gè)特征進(jìn)程組獨(dú)立計(jì)算該特征進(jìn)程組對(duì)應(yīng)的訓(xùn)練特征的當(dāng)前最優(yōu)分裂值。并且,所有特征進(jìn)程組間進(jìn)行通信,根據(jù)所有計(jì)算出的訓(xùn)練特征的當(dāng)前最優(yōu)分裂值選取當(dāng)前決策樹的當(dāng)前最優(yōu)分裂值并將計(jì)算該當(dāng)前決策樹的當(dāng)前最優(yōu)分裂值的特征進(jìn)程組所對(duì)應(yīng)的訓(xùn)練特征作為該當(dāng)前決策樹的當(dāng)前最優(yōu)分裂結(jié)點(diǎn)。并計(jì)算當(dāng)前最優(yōu)分裂值的特征進(jìn)程組根據(jù)當(dāng)前決策樹的當(dāng)前最優(yōu)分裂值和當(dāng)前最優(yōu)分裂結(jié)點(diǎn)對(duì)訓(xùn)練樣本進(jìn)行分裂以生成當(dāng)前分裂結(jié)點(diǎn),并將分裂結(jié)果發(fā)送給整個(gè)計(jì)算系統(tǒng)。
[0035]此外,在本發(fā)明的一優(yōu)選例中,上述步驟104包括以下子步驟:
[0036]將所有決策樹進(jìn)行擬合得到用于排序的排序決策樹;
[0037]通過排序決策樹計(jì)算每個(gè)搜索結(jié)果與搜索詞的相關(guān)度并根據(jù)相關(guān)度對(duì)搜索結(jié)果進(jìn)打排序。
[0038]在本發(fā)明的一優(yōu)選例中,上述步驟101包括以下子步驟:
[0039]基于電子商務(wù)平臺(tái)的搜索歷史信息,獲取所需的訓(xùn)練集。
[0040]在本發(fā)明中,每個(gè)進(jìn)程組可進(jìn)行組間信息傳輸和組內(nèi)通信結(jié)點(diǎn)間的信息傳輸,即組成一個(gè)通信域,所有進(jìn)程組可并行進(jìn)行數(shù)據(jù)處理。
[0041]將用于排序的決策樹的計(jì)算系統(tǒng)以訓(xùn)練特征為基礎(chǔ)進(jìn)行分割并基于分割后的特征進(jìn)程組進(jìn)行信息的并行計(jì)算和傳輸,可在訓(xùn)練集中訓(xùn)練數(shù)據(jù)量極大時(shí),如億萬級(jí)別的,極大程度的降低計(jì)算所消耗的時(shí)間。尤其是在搜索引擎對(duì)應(yīng)的數(shù)據(jù)庫數(shù)據(jù)量龐大的情況下,可快速準(zhǔn)確訓(xùn)練出一個(gè)優(yōu)質(zhì)的用于排序的決策樹模型,提高排序效率和排序的靈活性,降低
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沂南县| 惠来县| 楚雄市| 会东县| 肃宁县| 南涧| 武穴市| 当阳市| 肇庆市| 台北县| 承德县| 舟曲县| 精河县| 德州市| 珠海市| 平顺县| 通化县| 英超| 广州市| 五台县| 浦北县| 博湖县| 定兴县| 三明市| 荣成市| 禹城市| 军事| 通化县| 崇阳县| 诸城市| 湘乡市| 利辛县| 原阳县| 图们市| 泰兴市| 塔城市| 灵石县| 桂平市| 黑龙江省| 磐安县| 汉阴县|