實(shí)例加權(quán)學(xué)習(xí)機(jī)器學(xué)習(xí)模型的制作方法_3

文檔序號(hào)：9240049閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>實(shí)例加權(quán)學(xué)習(xí)機(jī)器學(xué)習(xí)模型的制作方法

P3W及MLP4。然后，可W采用該些 MLP神經(jīng)網(wǎng)絡(luò)分類器W基于圖3B的輸入特征向量X并且基于所有其他預(yù)測(cè)分量來(lái)預(yù)測(cè)MOD 輸出決策Z的多個(gè)相互依賴的輸出分量，即分別為Zi、Z2、Z3和Z4?？蒞義用MOD輸出決策 ZW針對(duì)給定的潛在客戶來(lái)決定在將使?jié)撛诳蛻舻穆?lián)系或資格鑒定最優(yōu)化的序列中接下來(lái) 應(yīng)執(zhí)行何種響應(yīng)。
[0050]在圖3至圖4和圖6至圖IOB的示例LRM實(shí)現(xiàn)方式中，Zi=響應(yīng)代理頭銜，Z2= 響應(yīng)方法，Zs=響應(yīng)消息類型，并且Z4=響應(yīng)定時(shí)。根據(jù)（X，Z2,Z3,Z4;Zi)來(lái)訓(xùn)練分類器 MLPl W使用X、Z2、Zg及Z4作為輸入來(lái)預(yù)測(cè)響應(yīng)代理頭銜Z1;根據(jù)（X，Z1，Z3,Z4;Z2)來(lái)訓(xùn)練分類器MLP2 W使用X、Zi、Zs及Z4作為輸入來(lái)預(yù)測(cè)響應(yīng)方法Z2;根據(jù)（X，Z1，Z2,Z4;Z3)來(lái)訓(xùn) 練分類器MLP3 W使用X、Zi、Z2及Z4作為輸入來(lái)預(yù)測(cè)響應(yīng)消息類型Z3;并且根據(jù)（X，Z1，Z2， Z3;Z4)來(lái)訓(xùn)練分類器MLP4 W使用X、Zi、Z2及Z3作為輸入來(lái)預(yù)測(cè)響應(yīng)定時(shí)Z4。分量Zi、Z2、 Z3及Z4中的每個(gè)分量具有如下的S個(gè)（3)可能的值；ZiG{Z。，Zi2,Zis} = {銷售副總裁、銷售經(jīng)理、銷售代表}!ZgG{Z21，Z22，Z23} = {呼叫、電子郵件、傳真}!ZgG{Z31，Z32，Z33}= {MT1，MT2，MT3} 及Z4G{z"，Z42，Z43} = {短、中等、長(zhǎng)}。
[0051] 要理解的是，分量Zi、Z2、Zg和Z4之間存在相互依賴性。例如，對(duì)分量Z2(響應(yīng)方法）的決策可W對(duì)分量Z4(響應(yīng)定時(shí)）的決策具有影響。例如，如果Z2=撥號(hào)，則代理可能需要考慮潛在客戶何時(shí)有空可W在電話上講話（例如，通常在潛在客戶所屬的時(shí)區(qū)的工作時(shí)間期間）。如果Z2=電子郵件，則代理可W在任何時(shí)間發(fā)送電子郵件。
[0052] 還要理解的是，響應(yīng)代理頭銜、響應(yīng)方法、響應(yīng)消息類型W及響應(yīng)定時(shí)該些分量僅為L(zhǎng)RMMOD輸出決策的示例分量。其他示例分量可W包括但不限于：代理或潛在客戶的人口統(tǒng)計(jì)簡(jiǎn)檔；代理或潛在客戶的組織簡(jiǎn)檔（即，可W包括代理與潛在客戶之間的過(guò)去的交互的代理或潛在客戶的生活中的事件的簡(jiǎn)檔）；潛在客戶聯(lián)系人頭銜（即，潛在客戶組織內(nèi)的特定聯(lián)系人的頭銜）；代理或潛在客戶的屯、理簡(jiǎn)檔（即，代理或潛在客戶的屯、理特征的簡(jiǎn)檔）；代理或潛在客戶的社交網(wǎng)絡(luò)簡(jiǎn)檔（即，在線社交網(wǎng)絡(luò)諸如LinkedIn⑩或 FaceBook?或者離線社交網(wǎng)絡(luò)諸如化化巧reneursOrganization⑩、市民俱樂(lè)部、聯(lián)誼會(huì)或團(tuán)體中的代理與潛在客戶的接近度）；代理或潛在客戶的地理簡(jiǎn)檔（即，定義代理或潛在客戶的當(dāng)前和/或過(guò)去位置的城市、州或其他地理指定）；響應(yīng)頻率（即，代理多久聯(lián)系潛在客戶一次）；W及響應(yīng)持續(xù)性（即，代理在聯(lián)系潛在客戶時(shí)持續(xù)多久）。
[005引盡管在圖3至圖4和圖6至圖IOB中的示例LRM實(shí)現(xiàn)方式中公開(kāi)的基分類器是MLP神經(jīng)網(wǎng)絡(luò)分類器，但是要理解的是IWL可W可替選地采用其他類型的機(jī)器學(xué)習(xí)基分類器，包括但不限于其他多層神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、最近鄰分類器W及支持向量機(jī)。此外，盡管訓(xùn) 練MLP分類器W學(xué)習(xí)準(zhǔn)確的策略來(lái)按照時(shí)間序列進(jìn)行最優(yōu)動(dòng)作，W及使用LRM作為一個(gè)示例應(yīng)用來(lái)更詳細(xì)地說(shuō)明IWU但是要理解的是，可W將IWL應(yīng)用于不同于MLP算法的標(biāo)準(zhǔn)機(jī) 器學(xué)習(xí)算法，應(yīng)用于不同于時(shí)間序列的訓(xùn)練數(shù)據(jù)的類型，W及應(yīng)用于不同于LM的應(yīng)用領(lǐng) 域。
[0054] 圖3是示出了通過(guò)傳播折算獎(jiǎng)勵(lì)來(lái)導(dǎo)出訓(xùn)練實(shí)例的質(zhì)量的示例方法300的示意性流程圖。如在圖3中所公開(kāi)地，在時(shí)間序列中的動(dòng)作對(duì)整個(gè)序列的影響可W不完全由即時(shí) 獎(jiǎng)勵(lì)來(lái)反映。該動(dòng)作還可W對(duì)序列中的隨后的動(dòng)作的結(jié)果有影響。例如，當(dāng)在序列中的上一動(dòng)作中由代理結(jié)束交易時(shí)，序列中的之前動(dòng)作中的一些動(dòng)作也可能對(duì)該正結(jié)果有貢獻(xiàn)。因此，針對(duì)每個(gè)動(dòng)作，將每個(gè)動(dòng)作的即時(shí)獎(jiǎng)勵(lì)中的一些即時(shí)獎(jiǎng)勵(lì)反向傳播至序列中的之前動(dòng) 作是合理的。
[0055] 特別地，針對(duì)每個(gè)狀態(tài)-動(dòng)作訓(xùn)練實(shí)例（S。at)，存在獎(jiǎng)勵(lì)值IVrt是動(dòng)作at的即時(shí) 獎(jiǎng)勵(lì)并且取決于動(dòng)作at的結(jié)果。獎(jiǎng)勵(lì)值rt可W是在范圍[-1.0,1.0]中的實(shí)數(shù)值。如果針對(duì)在步驟t處的狀態(tài)-動(dòng)作對(duì)（S。at)，rt〉0,則意味著動(dòng)作at在狀態(tài)St處是期望的動(dòng)作并且機(jī)器學(xué)習(xí)分類器應(yīng)學(xué)習(xí)模仿該動(dòng)作。如果針對(duì)在步驟t處的狀態(tài)-動(dòng)作對(duì)（St，at)，qt<0，則意味著動(dòng)作at在狀態(tài)at處是不期望的動(dòng)作并且機(jī)器學(xué)習(xí)分類器應(yīng)學(xué)習(xí)避免該動(dòng)作。例如，當(dāng)潛在客戶合格或與潛在客戶結(jié)束交易時(shí)可W分配正的獎(jiǎng)勵(lì)I(lǐng)V而當(dāng)潛在客戶要求被放在"不聯(lián)系"列表上時(shí)可W分配負(fù)的獎(jiǎng)勵(lì)當(dāng)存在既不是正的結(jié)果也不是負(fù)的結(jié)果時(shí) 可W分配零獎(jiǎng)勵(lì)。
[0056] 為了將動(dòng)作at的即時(shí)獎(jiǎng)勵(lì)rt中的一些即時(shí)獎(jiǎng)勵(lì)反向傳播至序列中的之前的動(dòng)作，針對(duì)在時(shí)間步驟t處的狀態(tài)-動(dòng)作對(duì)（S。at)的每個(gè)即時(shí)獎(jiǎng)勵(lì)I(lǐng)V所有之前的狀態(tài)-動(dòng)作對(duì) (St，at), (St_i，at_i)，...，（Si，ai)可W接收根據(jù)Tt的折算獎(jiǎng)勵(lì)。當(dāng)d是折算率時(shí)（0<d<l)，可 W將折算獎(jiǎng)勵(lì)?d,Tt?d2,…，Tt? 分配給之前的狀態(tài)-動(dòng)作對(duì)（St_i, 3t_i)，（St_2, 3t_2)， ...，（Si,ai)W反向傳播獎(jiǎng)勵(lì)。要注意的是，在時(shí)間序列中之前的狀態(tài)-動(dòng)作對(duì)中的每個(gè)狀態(tài)-動(dòng)作對(duì)離當(dāng)前的狀態(tài)-動(dòng)作對(duì)越遠(yuǎn)，折算獎(jiǎng)勵(lì)的該種分配結(jié)果將減小。因此，將組合獎(jiǎng) 勵(lì)分配給每個(gè)狀態(tài)-動(dòng)作對(duì)（S。at)，該組合獎(jiǎng)勵(lì)是每個(gè)狀態(tài)-動(dòng)作對(duì)的即時(shí)獎(jiǎng)勵(lì)與來(lái)自隨后的動(dòng)作反向傳播的所有折算獎(jiǎng)勵(lì)的和。在IWL中，該組合獎(jiǎng)勵(lì)可W定義為每個(gè)狀態(tài)-動(dòng) 作對(duì)的質(zhì)量值q或者貢獻(xiàn)于每個(gè)狀態(tài)-動(dòng)作對(duì)的質(zhì)量值q。
[0057] 例如，具有獎(jiǎng)勵(lì)（St，at，qt)的每個(gè)狀態(tài)-動(dòng)作訓(xùn)練實(shí)例可W重新表示為 (S。a。Qt),其中，屯是在傳播所有獎(jiǎng)勵(lì)之后在步驟t處的質(zhì)量值。換句話說(shuō)，序列L=Ks 。a。Tl)，（S2, 32,心，...，（Sn,a。，O}可W重新表示為L(zhǎng)= {(S。a。Tl)，（S2, 32,O，. ..，（Sn ，a。,O}。針對(duì)具有n個(gè)狀態(tài)-動(dòng)作對(duì)的每個(gè)序列L= {(Si,a。Tl)，枯，32,O，. ..，（Sn,a。， O}，可W從該序列導(dǎo)出n個(gè)訓(xùn)練實(shí)例化及將該n個(gè)訓(xùn)練實(shí)例添加到訓(xùn)練集合。然后，針對(duì) 具有m個(gè)時(shí)間序列T= {Li，L,，. . .，Lm}的訓(xùn)練數(shù)據(jù)，可W根據(jù)被加到訓(xùn)練集合的每個(gè)序列導(dǎo) 出訓(xùn)練實(shí)例。因此，可W添加到訓(xùn)練集合的訓(xùn)練實(shí)例的總數(shù)為N(Li)+N(Ls)+...，+N(Lm)，其中N(Li)是LiQ=1，2,…，m)的長(zhǎng)度或者是LiQ=1，2,…，m)的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例的數(shù)量。在根據(jù)時(shí)間序列T= (Li,L2，...，Lm}建立訓(xùn)練集合之后，可W訓(xùn)練分類器W學(xué)習(xí)用于決策做出的策略。訓(xùn)練的目的是使得機(jī)器學(xué)習(xí)分類器能夠在給定輸入特征向量（狀態(tài)向量S)的情況下學(xué)習(xí)用于做出決策（選擇動(dòng)作向量a)的最優(yōu)策略。針對(duì)時(shí)間序列，IWL使得分類器能夠相比于從低質(zhì)量訓(xùn)練實(shí)例學(xué)習(xí)更偏重于從高質(zhì)量訓(xùn)練實(shí)例（該動(dòng)作具有高的產(chǎn)生正結(jié)果的可能性）學(xué)習(xí)。例如，當(dāng)訓(xùn)練實(shí)例具有負(fù)的質(zhì)量值q時(shí)，IWL可W將負(fù)的權(quán) 重分配給訓(xùn)練實(shí)例，因此使得分類器能夠?qū)W習(xí)W避免由該訓(xùn)練實(shí)例采取的動(dòng)作。因此，正的質(zhì)量值傾向于鼓勵(lì)對(duì)支持與訓(xùn)練實(shí)例類似的實(shí)例進(jìn)行學(xué)習(xí)，而負(fù)的質(zhì)量值傾向于阻止對(duì)支持與訓(xùn)練實(shí)例類似的實(shí)例進(jìn)行學(xué)習(xí)。
[0058] 在圖3的示例實(shí)現(xiàn)方式中，狀態(tài)-動(dòng)作對(duì)302至306中的每個(gè)狀態(tài)-動(dòng)作對(duì)具有即時(shí)獎(jiǎng)勵(lì)。例如，狀態(tài)-動(dòng)作對(duì)302的動(dòng)作33接收為1.0的即時(shí)獎(jiǎng)勵(lì)r3308,表示在步驟3 處執(zhí)行的動(dòng)作曰3導(dǎo)致正的結(jié)果，諸如與潛在客戶交易的結(jié)束。此外，狀態(tài)-動(dòng)作對(duì)304的動(dòng)作32接收為0. 0的即時(shí)獎(jiǎng)勵(lì)r2,表示在步驟2處執(zhí)行的動(dòng)作32導(dǎo)致對(duì)于潛在客戶既非正也非負(fù)的結(jié)果。另外，狀態(tài)-動(dòng)作對(duì)306的動(dòng)作ai接收為-0. 5的即時(shí)獎(jiǎng)勵(lì)r1，表示在步驟 1處執(zhí)行的動(dòng)作ai導(dǎo)致負(fù)的結(jié)果，諸如潛在客戶在銷售人員的代理下一步聯(lián)系之前要求延期。
[0059] 然后，可朗尋即時(shí)獎(jiǎng)勵(lì)r3308反向傳播至在步驟2處發(fā)生的狀態(tài)-動(dòng)作對(duì)304,并且將即時(shí)獎(jiǎng)勵(lì)r3308反向傳播至在步驟1處發(fā)生的狀態(tài)-動(dòng)作對(duì)306。當(dāng)折算率是0. 9時(shí)，可W通過(guò)將折算獎(jiǎng)勵(lì)310(1.0 ? 0.9 = 0.9)與狀態(tài)-動(dòng)作對(duì)304的即時(shí)獎(jiǎng)勵(lì)r23〇6相加 (0. 0+0. 9 = 0. 9)并且通過(guò)將折算獎(jiǎng)勵(lì)312 (1. 0 ? 0. 9 ? 0. 9 = 0. 81)與狀態(tài)-動(dòng)作對(duì)306 的即時(shí)獎(jiǎng)勵(lì)Tl相加（-0. 5+0. 81 = 0. 31)來(lái)反向傳播狀態(tài)-動(dòng)作對(duì)302的為1. 0的即時(shí)獎(jiǎng) 勵(lì)r33〇8。因此，狀態(tài)-動(dòng)作對(duì)306的獎(jiǎng)勵(lì)是1. 0,狀態(tài)-動(dòng)作對(duì)304的組合獎(jiǎng)勵(lì)是0. 9,W 及狀態(tài)-動(dòng)作對(duì)302的組合獎(jiǎng)勵(lì)是0. 31。如在下面結(jié)合圖4所討論地，當(dāng)將狀態(tài)-動(dòng)作對(duì) 302至306用作分類器的訓(xùn)練中的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例時(shí)，該些值可W用作質(zhì)量值q。
[0060] 圖4是示出了在示例多層感知（MLP)神經(jīng)網(wǎng)絡(luò)分類器MLPl的訓(xùn)練中采用的示例實(shí)例加權(quán)學(xué)習(xí)（IWL)機(jī)器學(xué)習(xí)模型的示意性流程圖。如在圖4中所討論地，使用狀態(tài)-動(dòng) 作訓(xùn)練實(shí)例302至306的時(shí)間序列L來(lái)訓(xùn)練分類器MLPl。還可W使用狀態(tài)-動(dòng)作訓(xùn)練實(shí)例的時(shí)間序列的集合T或訓(xùn)練數(shù)據(jù)T來(lái)訓(xùn)練分類器MLP1，該可W表示為T(mén)= {Li，L2,. . .，Lm}; 其中Lm是用于序列i(i= 1，2,. . .，m)的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例的序列。在圖4的示例實(shí)現(xiàn) 方式中，訓(xùn)練數(shù)據(jù)T可W包括根據(jù)m個(gè)唯一的潛在客戶的m個(gè)時(shí)間序列。每個(gè)序列可W具有不同數(shù)量的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例。
[0061] 特別地，每個(gè)時(shí)間序列L包括n個(gè)狀態(tài)-動(dòng)作對(duì)，通過(guò)時(shí)間步驟t來(lái)排序。每個(gè)時(shí) 間序列可W由L= {(Si,ai), (S2, 32)，. . .，（S。，a。)}來(lái)表示；其中（S。at)表示在步驟t(t= 1，2,…，n)處的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例。在圖4的示例LRM中實(shí)現(xiàn)方式中，每個(gè)時(shí)間序列L可 W包括在數(shù)據(jù)庫(kù)中記錄的歷史數(shù)據(jù)的序列。例如，針對(duì)在圖1的潛在客戶數(shù)據(jù)服務(wù)器190 中的每個(gè)唯一的潛在客戶，可W存在針對(duì)銷售代理與潛在客戶之間的所有交互所記錄的動(dòng) 作和結(jié)果的序列。
[0062]對(duì)于狀態(tài)-動(dòng)作訓(xùn)練實(shí)例序列L= {(Si,ai)，枯，32)，. ..，（S。，a。)};存在相關(guān)聯(lián)的獎(jiǎng)勵(lì)的序列R=Iti,枯.?.，r。}，其中是針對(duì)狀態(tài)-動(dòng)作訓(xùn)練實(shí)例（S。3t)(t= 1，2,..，n) 的即時(shí)獎(jiǎng)勵(lì)。狀態(tài)-動(dòng)作訓(xùn)練實(shí)例序列L可W為如下組合的形式L= {(si，a。ri)，（S2, 32,r 2)，. . .，（s。，a。，r。)}來(lái)表示，其中，:Tt是在步驟t(t= 1，2,…，n)處的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例 k"Bt)的即時(shí)獎(jiǎng)勵(lì)。
[0063]每個(gè)狀態(tài)St可W由下述特征向量來(lái)表示；S t= (S t，i，，St，2，'''，St，u)，狀態(tài)St表征在步驟t處的狀態(tài)。例如，特征向量St= …，St,u)可W包括下面的分量；潛在客戶源、潛在客戶頭銜、潛在客戶行業(yè)、潛在客戶所在州、潛在客戶創(chuàng)建日期、潛在客戶公司規(guī) 模、潛在客戶狀態(tài)、之前的撥號(hào)次數(shù)、之前的電子郵件數(shù)目、之前的動(dòng)作、自上次動(dòng)作之后的小時(shí)數(shù)。
[0064] 在步驟t處的每個(gè)動(dòng)作at可W由動(dòng)作向量at=(at，i，，at，2,…，3t，v)來(lái)表示，其中 at，j(j= 1，2,…，V)表示動(dòng)作的動(dòng)作分量j。每個(gè)動(dòng)作分量at，j可W采取來(lái)自用于at，j的允許動(dòng)作的集合的動(dòng)作。在傳統(tǒng)強(qiáng)化學(xué)習(xí)的典型場(chǎng)景中，動(dòng)作向量通常僅包括一個(gè)分量at =(atj。例如，對(duì)于玩象棋，僅有的動(dòng)作分量是移動(dòng)棋子。可W基于象棋的規(guī)則和當(dāng)前的狀態(tài)來(lái)從所有允許的移動(dòng)集合中選擇移動(dòng)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

實(shí)例加權(quán)學(xué)習(xí)機(jī)器學(xué)習(xí)模型的制作方法_3