本發(fā)明涉及在線模型校準(zhǔn)領(lǐng)域,尤其涉及一種模型訓(xùn)練及物料混排方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù):
1、當(dāng)前機(jī)器學(xué)習(xí)技術(shù),尤其是深度學(xué)習(xí),已經(jīng)被廣泛應(yīng)用于推薦系統(tǒng)中,通過復(fù)雜的數(shù)據(jù)模式識別和預(yù)測用戶偏好。這些技術(shù)不斷進(jìn)化,包括實時推薦、上下文感知推薦和個性化推薦,旨在提供更精準(zhǔn)、更個性化的用戶體驗。社交推薦系統(tǒng)通過利用用戶在社交網(wǎng)絡(luò)中的交互和關(guān)系,來提升推薦的精準(zhǔn)度及質(zhì)量,同時通過探索用戶可能感興趣的領(lǐng)域,引入非關(guān)注物料,因此此類推薦系統(tǒng)中會存在多種類型物料,如關(guān)注物料、興趣物料、非關(guān)注物料。
2、模型校準(zhǔn)技術(shù)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要分支,主要用于提高模型預(yù)測的準(zhǔn)確性和可靠性。如在推薦問題中的點擊率,校準(zhǔn)技術(shù)能確保推薦系統(tǒng)給出的概率接近真實的點擊概率分布。目前常用的校準(zhǔn)方法包括平臺縮放(platt?scaling)、等分位數(shù)校準(zhǔn)(isotonic?regression)和貝葉斯校準(zhǔn)等。這些方法通過離線調(diào)整模型的輸出,使得模型的預(yù)測輸出更加貼近真實概率分布。
3、目前模型校準(zhǔn)技術(shù)常用解決方案有兩種:第一種為在模型預(yù)測輸出時,直接對預(yù)測結(jié)果加入一個線性變換以改變其分布,第二種為在在模型預(yù)測輸出后,通過離線統(tǒng)計歷史數(shù)據(jù),對模型輸出結(jié)果進(jìn)行分桶映射。
4、在實現(xiàn)本發(fā)明過程中,申請人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
5、現(xiàn)有模型校準(zhǔn)技術(shù)實時性不強(qiáng),且無法針對特定用戶進(jìn)行個性化校準(zhǔn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供一種模型訓(xùn)練及物料混排方法、裝置、設(shè)備和介質(zhì),解決了現(xiàn)有模型校準(zhǔn)技術(shù)實時性不強(qiáng),且無法針對特定用戶進(jìn)行個性化校準(zhǔn)的問題。
2、為達(dá)上述目的,第一方面,本發(fā)明實施例提供一種模型訓(xùn)練方法,包括:
3、實時獲取目標(biāo)用戶的用戶偏好、用戶操作序列,以及推送給目標(biāo)用戶的至少一種物料類型各自對應(yīng)的物料集;所述物料集中的每個物料對應(yīng)至少一種用戶操作的統(tǒng)計得分,所述統(tǒng)計得分表征基于日志文件統(tǒng)計得到的目標(biāo)用戶對物料執(zhí)行相應(yīng)用戶操作的真實頻繁程度;
4、針對每種物料集,使用與所述物料集的物料類型相對應(yīng)的預(yù)估分模型,確定所述物料集中的每個物料的物料預(yù)估分;所述物料預(yù)估分表征基于相應(yīng)預(yù)估分模型得到的目標(biāo)用戶對物料的感興趣程度;
5、針對每種物料集,根據(jù)所述物料集中的每個物料的物料預(yù)估分,選取物料預(yù)估分最高的預(yù)設(shè)數(shù)量的物料作為目標(biāo)物料,得到所述物料集對應(yīng)的目標(biāo)物料序列;
6、針對每種物料集對應(yīng)的目標(biāo)物料序列,將所述目標(biāo)用戶的用戶偏好、用戶操作序列、以及所述目標(biāo)物料序列中的每個目標(biāo)物料及其物料預(yù)估分,轉(zhuǎn)換為所述目標(biāo)物料序列的特征編碼序列;所述特征編碼序列滿足第一在線校準(zhǔn)模型的輸入數(shù)據(jù)要求;
7、將每種物料集對應(yīng)的目標(biāo)物料序列的特征編碼序列輸入所述第一在線校準(zhǔn)模型,得到所述目標(biāo)物料序列中的每個目標(biāo)物料對應(yīng)的至少一種用戶操作的校準(zhǔn)分,基于所述每個目標(biāo)物料對應(yīng)的至少一種用戶操作的校準(zhǔn)分與統(tǒng)計得分,調(diào)整所述第一在線校準(zhǔn)模型的模型參數(shù);所述校準(zhǔn)分表征基于所述第一在線校準(zhǔn)模型統(tǒng)一校準(zhǔn)后得到的目標(biāo)用戶對物料執(zhí)行相應(yīng)用戶操作的校正頻繁程度。
8、第二方面,本發(fā)明實施例提供一種物料混排方法,包括:
9、響應(yīng)于用戶的推薦請求,獲取用戶的用戶偏好和用戶操作序列、以及至少兩個待處理物料,對所有待處理物料按照所屬的物料類型進(jìn)行分類,得到至少兩種物料類型對應(yīng)的物料集;
10、針對每種物料集,通過與所述物料集的物料類型相對應(yīng)的預(yù)估分模型,確定所述物料集中的每個物料的物料預(yù)估分;所述物料預(yù)估分表征基于相應(yīng)預(yù)估分模型得到的用戶對物料的感興趣程度;
11、針對每種物料集,將所述用戶的用戶偏好和用戶操作序列、以及所述物料集中的每個物料及其物料預(yù)估分,轉(zhuǎn)換為所述物料集對應(yīng)的特征編碼序列;所述特征編碼序列滿足用于在線業(yè)務(wù)處理的第二在線校準(zhǔn)模型的輸入數(shù)據(jù)要求;所述第二在線校準(zhǔn)模型使用的模型參數(shù)從用于在線實時訓(xùn)練的第一在線校準(zhǔn)模型中獲取,所述第二在線校準(zhǔn)模型與所述第一在線校準(zhǔn)模型的模型結(jié)構(gòu)相同,所述第一在線校準(zhǔn)模型采用如前任一項所述的模型訓(xùn)練方法進(jìn)行在線實時訓(xùn)練;
12、針對每種物料集,將所述物料集對應(yīng)的特征編碼序列,輸入所述第二在線校準(zhǔn)模型,得到所述物料集中的每個物料對應(yīng)的至少一種用戶操作對應(yīng)的校準(zhǔn)分;所述校準(zhǔn)分表征基于所述第二在線校準(zhǔn)模型統(tǒng)一校準(zhǔn)后得到的所述用戶對物料執(zhí)行相應(yīng)用戶操作的校正頻繁程度;
13、根據(jù)所有物料集中每個物料對應(yīng)的至少一種用戶操作的校準(zhǔn)分,確定每個物料對應(yīng)的總評分;所述總評分表征基于所述第二在線校準(zhǔn)模型統(tǒng)一校準(zhǔn)后的用戶對物料的感興趣程度;
14、根據(jù)所有物料集中每個物料對應(yīng)的總評分,對所有待處理物料進(jìn)行混合排序,并基于混合排序結(jié)果向所述用戶進(jìn)行物料推薦。
15、第三方面,本發(fā)明實施例提供一種模型訓(xùn)練裝置,包括:
16、數(shù)據(jù)收集單元,用于實時獲取目標(biāo)用戶的用戶偏好、用戶操作序列,以及推送給目標(biāo)用戶的至少一種物料類型各自對應(yīng)的物料集;所述物料集中的每個物料對應(yīng)至少一種用戶操作的統(tǒng)計得分,所述統(tǒng)計得分表征基于日志文件統(tǒng)計得到的目標(biāo)用戶對物料執(zhí)行相應(yīng)用戶操作的真實頻繁程度;
17、物料預(yù)估分確定單元,用于針對每種物料集,使用與所述物料集的物料類型相對應(yīng)的預(yù)估分模型,確定所述物料集中的每個物料的物料預(yù)估分;所述物料預(yù)估分表征基于相應(yīng)預(yù)估分模型得到的目標(biāo)用戶對物料的感興趣程度;
18、目標(biāo)物料序列確定單元,用于針對每種物料集,根據(jù)所述物料集中的每個物料的物料預(yù)估分,選取物料預(yù)估分最高的預(yù)設(shè)數(shù)量的物料作為目標(biāo)物料,得到所述物料集對應(yīng)的目標(biāo)物料序列;
19、編碼單元,用于針對每種物料集對應(yīng)的目標(biāo)物料序列,將所述目標(biāo)用戶的用戶偏好、用戶操作序列、以及所述目標(biāo)物料序列中的每個目標(biāo)物料及其物料預(yù)估分,轉(zhuǎn)換為所述目標(biāo)物料序列的特征編碼序列;所述特征編碼序列滿足第一在線校準(zhǔn)模型的輸入數(shù)據(jù)要求;
20、模型參數(shù)確定單元,用于將每種物料集對應(yīng)的目標(biāo)物料序列的特征編碼序列輸入所述第一在線校準(zhǔn)模型,得到所述目標(biāo)物料序列中的每個目標(biāo)物料對應(yīng)的至少一種用戶操作的校準(zhǔn)分,基于所述每個目標(biāo)物料對應(yīng)的至少一種用戶操作的校準(zhǔn)分與統(tǒng)計得分,調(diào)整所述第一在線校準(zhǔn)模型的模型參數(shù);所述校準(zhǔn)分表征基于所述第一在線校準(zhǔn)模型統(tǒng)一校準(zhǔn)后得到的目標(biāo)用戶對物料執(zhí)行相應(yīng)用戶操作的校正頻繁程度。
21、第四方面,本發(fā)明實施例提供一種物料混排裝置,包括:
22、物料獲取單元,用于響應(yīng)于用戶的推薦請求,獲取用戶的用戶偏好和用戶操作序列、以及至少兩個待處理物料,對所有待處理物料按照所屬的物料類型進(jìn)行分類,得到至少兩種物料類型對應(yīng)的物料集;
23、在線預(yù)估分確定單元,用于針對每種物料集,通過與所述物料集的物料類型相對應(yīng)的預(yù)估分模型,確定所述物料集中的每個物料的物料預(yù)估分;所述物料預(yù)估分表征基于相應(yīng)預(yù)估分模型得到的用戶對物料的感興趣程度;
24、在線編碼單元,用于針對每種物料集,將所述用戶的用戶偏好和用戶操作序列、以及所述物料集中的每個物料及其物料預(yù)估分,轉(zhuǎn)換為所述物料集對應(yīng)的特征編碼序列;所述特征編碼序列滿足用于在線業(yè)務(wù)處理的第二在線校準(zhǔn)模型的輸入數(shù)據(jù)要求;所述第二在線校準(zhǔn)模型使用的模型參數(shù)從用于在線實時訓(xùn)練的第一在線校準(zhǔn)模型中獲取,所述第二在線校準(zhǔn)模型與所述第一在線校準(zhǔn)模型的模型結(jié)構(gòu)相同,所述第一在線校準(zhǔn)模型采用如前任一項所述的模型訓(xùn)練方法進(jìn)行在線實時訓(xùn)練;
25、操作分確定單元,用于針對每種物料集,將所述物料集對應(yīng)的特征編碼序列,輸入所述第二在線校準(zhǔn)模型,得到所述物料集中的每個物料對應(yīng)的至少一種用戶操作對應(yīng)的校準(zhǔn)分;所述校準(zhǔn)分表征基于所述第二在線校準(zhǔn)模型統(tǒng)一校準(zhǔn)后得到的所述用戶對物料執(zhí)行相應(yīng)用戶操作的校正頻繁程度;
26、排序單元,用于根據(jù)所有物料集中每個物料對應(yīng)的至少一種用戶操作的校準(zhǔn)分,確定每個物料對應(yīng)的總評分,根據(jù)所有物料集中每個物料對應(yīng)的總評分,對所有待處理物料進(jìn)行混合排序,并基于混合排序結(jié)果向所述用戶進(jìn)行物料推薦;所述總評分表征基于所述第二在線校準(zhǔn)模型統(tǒng)一校準(zhǔn)后的用戶對物料的感興趣程度。
27、第五方面,本發(fā)明實施例提供一種計算機(jī)設(shè)備,包括至少一臺主機(jī),所述至少一臺主機(jī),包括處理器,適于執(zhí)行各種指令;以及
28、存儲設(shè)備,適于存儲多條指令,所述指令適于由處理器加載并執(zhí)行如前任一種所述的模型訓(xùn)練方法或如前所述的物料混排方法。
29、第六方面,本發(fā)明實施例提供一種存儲介質(zhì),其中存儲有多條指令,所述指令適于由處理器加載并執(zhí)行如前任一種所述的模型訓(xùn)練方法或如前所述的物料混排方法。
30、上述技術(shù)方案具有如下有益效果:通過在線方式,利用實時的用戶與物料之間的交互數(shù)據(jù)訓(xùn)練第一在線校準(zhǔn)模型,確定第一在線校準(zhǔn)模型的模型參數(shù)。該模型參數(shù)可用于周期性更新為用戶提供服務(wù)的在線業(yè)務(wù)系統(tǒng)中的與第一在線校準(zhǔn)模型具有相同模型結(jié)構(gòu)的校準(zhǔn)模型的模型參數(shù),從而實現(xiàn)校準(zhǔn)模型的在線實時訓(xùn)練,基于此可以進(jìn)一步實現(xiàn)業(yè)務(wù)端的校準(zhǔn)模型的模型參數(shù)的周期性自動更新,為實現(xiàn)業(yè)務(wù)端系統(tǒng)性能自動更新提升提供了技術(shù)基礎(chǔ)。針對不同類型物料的使用不同預(yù)估分模型得到的物料預(yù)估分不具有可比性問題,構(gòu)建了實時的統(tǒng)一模型校準(zhǔn)體系,在綜合考慮各預(yù)估分模型的物料預(yù)估分的基礎(chǔ)上,重新結(jié)合用戶的相關(guān)信息和物料,訓(xùn)練第一在線校準(zhǔn)模型,使基于第一在線校準(zhǔn)模型得到的不同物料類型的物料的校準(zhǔn)分之間具有可比性,以便基于此具有可比性的校準(zhǔn)分,可以進(jìn)一步進(jìn)行物料的排序,根據(jù)排序進(jìn)行進(jìn)一步地業(yè)務(wù)處理。在線模型校準(zhǔn)環(huán)節(jié)以真實的用戶操作的頻繁程度為訓(xùn)練目標(biāo)值,通過深度學(xué)習(xí)在線訓(xùn)練實時更新第一校準(zhǔn)模型的網(wǎng)絡(luò)(模型)參數(shù),能夠?qū)崟r捕捉線上變化,提供更加精準(zhǔn)的模型校準(zhǔn)。引入用戶偏好特征和用戶操作序列,實現(xiàn)個性化模型校準(zhǔn)。將用戶偏好作為特征輸入到在線模型校準(zhǔn)網(wǎng)絡(luò)中,將用戶偏好融入網(wǎng)絡(luò)參數(shù)更新過程中,以此實現(xiàn)個性化模型校準(zhǔn),以便可以提升整體混排效果的精準(zhǔn)性。