P3W及MLP4。然后,可W采用該些 MLP神經(jīng)網(wǎng)絡(luò)分類器W基于圖3B的輸入特征向量X并且基于所有其他預(yù)測(cè)分量來(lái)預(yù)測(cè)MOD 輸出決策Z的多個(gè)相互依賴的輸出分量,即分別為Zi、Z2、Z3和Z4??蒞義用MOD輸出決策 ZW針對(duì)給定的潛在客戶來(lái)決定在將使?jié)撛诳蛻舻穆?lián)系或資格鑒定最優(yōu)化的序列中接下來(lái) 應(yīng)執(zhí)行何種響應(yīng)。
[0050]在圖3至圖4和圖6至圖IOB的示例LRM實(shí)現(xiàn)方式中,Zi=響應(yīng)代理頭銜,Z2= 響應(yīng)方法,Zs=響應(yīng)消息類型,并且Z4=響應(yīng)定時(shí)。根據(jù)(X,Z2,Z3,Z4;Zi)來(lái)訓(xùn)練分類器 MLPl W使用X、Z2、Zg及Z4作為輸入來(lái)預(yù)測(cè)響應(yīng)代理頭銜Z1;根據(jù)(X,Z1,Z3,Z4;Z2)來(lái)訓(xùn)練 分類器MLP2 W使用X、Zi、Zs及Z4作為輸入來(lái)預(yù)測(cè)響應(yīng)方法Z2;根據(jù)(X,Z1,Z2,Z4;Z3)來(lái)訓(xùn) 練分類器MLP3 W使用X、Zi、Z2及Z4作為輸入來(lái)預(yù)測(cè)響應(yīng)消息類型Z3;并且根據(jù)(X,Z1,Z2, Z3;Z4)來(lái)訓(xùn)練分類器MLP4 W使用X、Zi、Z2及Z3作為輸入來(lái)預(yù)測(cè)響應(yīng)定時(shí)Z4。分量Zi、Z2、 Z3及Z4中的每個(gè)分量具有如下的S個(gè)(3)可能的值;ZiG{Z。,Zi2,Zis} = {銷售副總裁、 銷售經(jīng)理、銷售代表}!ZgG{Z21,Z22,Z23} = {呼叫、電子郵件、傳真}!ZgG{Z31,Z32,Z33}= {MT1,MT2,MT3} 及Z4G{z",Z42,Z43} = {短、中等、長(zhǎng)}。
[0051] 要理解的是,分量Zi、Z2、Zg和Z4之間存在相互依賴性。例如,對(duì)分量Z2(響應(yīng)方 法)的決策可W對(duì)分量Z4(響應(yīng)定時(shí))的決策具有影響。例如,如果Z2=撥號(hào),則代理可能 需要考慮潛在客戶何時(shí)有空可W在電話上講話(例如,通常在潛在客戶所屬的時(shí)區(qū)的工作 時(shí)間期間)。如果Z2=電子郵件,則代理可W在任何時(shí)間發(fā)送電子郵件。
[0052] 還要理解的是,響應(yīng)代理頭銜、響應(yīng)方法、響應(yīng)消息類型W及響應(yīng)定時(shí)該些分量 僅為L(zhǎng)RMMOD輸出決策的示例分量。其他示例分量可W包括但不限于:代理或潛在客戶 的人口統(tǒng)計(jì)簡(jiǎn)檔;代理或潛在客戶的組織簡(jiǎn)檔(即,可W包括代理與潛在客戶之間的過(guò)去 的交互的代理或潛在客戶的生活中的事件的簡(jiǎn)檔);潛在客戶聯(lián)系人頭銜(即,潛在客戶 組織內(nèi)的特定聯(lián)系人的頭銜);代理或潛在客戶的屯、理簡(jiǎn)檔(即,代理或潛在客戶的屯、理 特征的簡(jiǎn)檔);代理或潛在客戶的社交網(wǎng)絡(luò)簡(jiǎn)檔(即,在線社交網(wǎng)絡(luò)諸如LinkedIn⑩或 FaceBook?或者離線社交網(wǎng)絡(luò)諸如化化巧reneursOrganization⑩、市民俱樂(lè)部、 聯(lián)誼會(huì)或團(tuán)體中的代理與潛在客戶的接近度);代理或潛在客戶的地理簡(jiǎn)檔(即,定義代理 或潛在客戶的當(dāng)前和/或過(guò)去位置的城市、州或其他地理指定);響應(yīng)頻率(即,代理多久 聯(lián)系潛在客戶一次);W及響應(yīng)持續(xù)性(即,代理在聯(lián)系潛在客戶時(shí)持續(xù)多久)。
[005引盡管在圖3至圖4和圖6至圖IOB中的示例LRM實(shí)現(xiàn)方式中公開(kāi)的基分類器是MLP神經(jīng)網(wǎng)絡(luò)分類器,但是要理解的是IWL可W可替選地采用其他類型的機(jī)器學(xué)習(xí)基分類 器,包括但不限于其他多層神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、最近鄰分類器W及支持向量機(jī)。此外,盡管訓(xùn) 練MLP分類器W學(xué)習(xí)準(zhǔn)確的策略來(lái)按照時(shí)間序列進(jìn)行最優(yōu)動(dòng)作,W及使用LRM作為一個(gè)示 例應(yīng)用來(lái)更詳細(xì)地說(shuō)明IWU但是要理解的是,可W將IWL應(yīng)用于不同于MLP算法的標(biāo)準(zhǔn)機(jī) 器學(xué)習(xí)算法,應(yīng)用于不同于時(shí)間序列的訓(xùn)練數(shù)據(jù)的類型,W及應(yīng)用于不同于LM的應(yīng)用領(lǐng) 域。
[0054] 圖3是示出了通過(guò)傳播折算獎(jiǎng)勵(lì)來(lái)導(dǎo)出訓(xùn)練實(shí)例的質(zhì)量的示例方法300的示意性 流程圖。如在圖3中所公開(kāi)地,在時(shí)間序列中的動(dòng)作對(duì)整個(gè)序列的影響可W不完全由即時(shí) 獎(jiǎng)勵(lì)來(lái)反映。該動(dòng)作還可W對(duì)序列中的隨后的動(dòng)作的結(jié)果有影響。例如,當(dāng)在序列中的上一 動(dòng)作中由代理結(jié)束交易時(shí),序列中的之前動(dòng)作中的一些動(dòng)作也可能對(duì)該正結(jié)果有貢獻(xiàn)。因 此,針對(duì)每個(gè)動(dòng)作,將每個(gè)動(dòng)作的即時(shí)獎(jiǎng)勵(lì)中的一些即時(shí)獎(jiǎng)勵(lì)反向傳播至序列中的之前動(dòng) 作是合理的。
[0055] 特別地,針對(duì)每個(gè)狀態(tài)-動(dòng)作訓(xùn)練實(shí)例(S。at),存在獎(jiǎng)勵(lì)值IVrt是動(dòng)作at的即時(shí) 獎(jiǎng)勵(lì)并且取決于動(dòng)作at的結(jié)果。獎(jiǎng)勵(lì)值rt可W是在范圍[-1.0,1.0]中的實(shí)數(shù)值。如果針 對(duì)在步驟t處的狀態(tài)-動(dòng)作對(duì)(S。at),rt〉0,則意味著動(dòng)作at在狀態(tài)St處是期望的動(dòng)作并 且機(jī)器學(xué)習(xí)分類器應(yīng)學(xué)習(xí)模仿該動(dòng)作。如果針對(duì)在步驟t處的狀態(tài)-動(dòng)作對(duì)(St,at),qt<0, 則意味著動(dòng)作at在狀態(tài)at處是不期望的動(dòng)作并且機(jī)器學(xué)習(xí)分類器應(yīng)學(xué)習(xí)避免該動(dòng)作。例 如,當(dāng)潛在客戶合格或與潛在客戶結(jié)束交易時(shí)可W分配正的獎(jiǎng)勵(lì)I(lǐng)V而當(dāng)潛在客戶要求被 放在"不聯(lián)系"列表上時(shí)可W分配負(fù)的獎(jiǎng)勵(lì)當(dāng)存在既不是正的結(jié)果也不是負(fù)的結(jié)果時(shí) 可W分配零獎(jiǎng)勵(lì)。
[0056] 為了將動(dòng)作at的即時(shí)獎(jiǎng)勵(lì)rt中的一些即時(shí)獎(jiǎng)勵(lì)反向傳播至序列中的之前的動(dòng)作, 針對(duì)在時(shí)間步驟t處的狀態(tài)-動(dòng)作對(duì)(S。at)的每個(gè)即時(shí)獎(jiǎng)勵(lì)I(lǐng)V所有之前的狀態(tài)-動(dòng)作對(duì) (St,at), (St_i,at_i),...,(Si,ai)可W接收根據(jù)Tt的折算獎(jiǎng)勵(lì)。當(dāng)d是折算率時(shí)(0<d<l),可 W將折算獎(jiǎng)勵(lì)?d,Tt?d2,…,Tt? 分配給之前的狀態(tài)-動(dòng)作對(duì)(St_i, 3t_i),(St_2, 3t_2), ...,(Si,ai)W反向傳播獎(jiǎng)勵(lì)。要注意的是,在時(shí)間序列中之前的狀態(tài)-動(dòng)作對(duì)中的每個(gè)狀 態(tài)-動(dòng)作對(duì)離當(dāng)前的狀態(tài)-動(dòng)作對(duì)越遠(yuǎn),折算獎(jiǎng)勵(lì)的該種分配結(jié)果將減小。因此,將組合獎(jiǎng) 勵(lì)分配給每個(gè)狀態(tài)-動(dòng)作對(duì)(S。at),該組合獎(jiǎng)勵(lì)是每個(gè)狀態(tài)-動(dòng)作對(duì)的即時(shí)獎(jiǎng)勵(lì)與來(lái)自隨 后的動(dòng)作反向傳播的所有折算獎(jiǎng)勵(lì)的和。在IWL中,該組合獎(jiǎng)勵(lì)可W定義為每個(gè)狀態(tài)-動(dòng) 作對(duì)的質(zhì)量值q或者貢獻(xiàn)于每個(gè)狀態(tài)-動(dòng)作對(duì)的質(zhì)量值q。
[0057] 例如,具有獎(jiǎng)勵(lì)(St,at,qt)的每個(gè)狀態(tài)-動(dòng)作訓(xùn)練實(shí)例可W重新表示為 (S。a。Qt),其中,屯是在傳播所有獎(jiǎng)勵(lì)之后在步驟t處的質(zhì)量值。換句話說(shuō),序列L=Ks 。a。Tl),(S2, 32,心,...,(Sn,a。,O}可W重新表示為L(zhǎng)= {(S。a。Tl),(S2, 32,O,. ..,(Sn ,a。,O}。針對(duì)具有n個(gè)狀態(tài)-動(dòng)作對(duì)的每個(gè)序列L= {(Si,a。Tl),枯,32,O,. ..,(Sn,a。, O},可W從該序列導(dǎo)出n個(gè)訓(xùn)練實(shí)例化及將該n個(gè)訓(xùn)練實(shí)例添加到訓(xùn)練集合。然后,針對(duì) 具有m個(gè)時(shí)間序列T= {Li,L,,. . .,Lm}的訓(xùn)練數(shù)據(jù),可W根據(jù)被加到訓(xùn)練集合的每個(gè)序列導(dǎo) 出訓(xùn)練實(shí)例。因此,可W添加到訓(xùn)練集合的訓(xùn)練實(shí)例的總數(shù)為N(Li)+N(Ls)+...,+N(Lm),其 中N(Li)是LiQ=1,2,…,m)的長(zhǎng)度或者是LiQ=1,2,…,m)的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例的 數(shù)量。在根據(jù)時(shí)間序列T= (Li,L2,...,Lm}建立訓(xùn)練集合之后,可W訓(xùn)練分類器W學(xué)習(xí)用 于決策做出的策略。訓(xùn)練的目的是使得機(jī)器學(xué)習(xí)分類器能夠在給定輸入特征向量(狀態(tài)向 量S)的情況下學(xué)習(xí)用于做出決策(選擇動(dòng)作向量a)的最優(yōu)策略。針對(duì)時(shí)間序列,IWL使 得分類器能夠相比于從低質(zhì)量訓(xùn)練實(shí)例學(xué)習(xí)更偏重于從高質(zhì)量訓(xùn)練實(shí)例(該動(dòng)作具有高 的產(chǎn)生正結(jié)果的可能性)學(xué)習(xí)。例如,當(dāng)訓(xùn)練實(shí)例具有負(fù)的質(zhì)量值q時(shí),IWL可W將負(fù)的權(quán) 重分配給訓(xùn)練實(shí)例,因此使得分類器能夠?qū)W習(xí)W避免由該訓(xùn)練實(shí)例采取的動(dòng)作。因此,正的 質(zhì)量值傾向于鼓勵(lì)對(duì)支持與訓(xùn)練實(shí)例類似的實(shí)例進(jìn)行學(xué)習(xí),而負(fù)的質(zhì)量值傾向于阻止對(duì)支 持與訓(xùn)練實(shí)例類似的實(shí)例進(jìn)行學(xué)習(xí)。
[0058] 在圖3的示例實(shí)現(xiàn)方式中,狀態(tài)-動(dòng)作對(duì)302至306中的每個(gè)狀態(tài)-動(dòng)作對(duì)具有 即時(shí)獎(jiǎng)勵(lì)。例如,狀態(tài)-動(dòng)作對(duì)302的動(dòng)作33接收為1.0的即時(shí)獎(jiǎng)勵(lì)r3308,表示在步驟3 處執(zhí)行的動(dòng)作曰3導(dǎo)致正的結(jié)果,諸如與潛在客戶交易的結(jié)束。此外,狀態(tài)-動(dòng)作對(duì)304的 動(dòng)作32接收為0. 0的即時(shí)獎(jiǎng)勵(lì)r2,表示在步驟2處執(zhí)行的動(dòng)作32導(dǎo)致對(duì)于潛在客戶既非正 也非負(fù)的結(jié)果。另外,狀態(tài)-動(dòng)作對(duì)306的動(dòng)作ai接收為-0. 5的即時(shí)獎(jiǎng)勵(lì)r1,表示在步驟 1處執(zhí)行的動(dòng)作ai導(dǎo)致負(fù)的結(jié)果,諸如潛在客戶在銷售人員的代理下一步聯(lián)系之前要求延 期。
[0059] 然后,可朗尋即時(shí)獎(jiǎng)勵(lì)r3308反向傳播至在步驟2處發(fā)生的狀態(tài)-動(dòng)作對(duì)304,并 且將即時(shí)獎(jiǎng)勵(lì)r3308反向傳播至在步驟1處發(fā)生的狀態(tài)-動(dòng)作對(duì)306。當(dāng)折算率是0. 9時(shí), 可W通過(guò)將折算獎(jiǎng)勵(lì)310(1.0 ? 0.9 = 0.9)與狀態(tài)-動(dòng)作對(duì)304的即時(shí)獎(jiǎng)勵(lì)r23〇6相加 (0. 0+0. 9 = 0. 9)并且通過(guò)將折算獎(jiǎng)勵(lì)312 (1. 0 ? 0. 9 ? 0. 9 = 0. 81)與狀態(tài)-動(dòng)作對(duì)306 的即時(shí)獎(jiǎng)勵(lì)Tl相加(-0. 5+0. 81 = 0. 31)來(lái)反向傳播狀態(tài)-動(dòng)作對(duì)302的為1. 0的即時(shí)獎(jiǎng) 勵(lì)r33〇8。因此,狀態(tài)-動(dòng)作對(duì)306的獎(jiǎng)勵(lì)是1. 0,狀態(tài)-動(dòng)作對(duì)304的組合獎(jiǎng)勵(lì)是0. 9,W 及狀態(tài)-動(dòng)作對(duì)302的組合獎(jiǎng)勵(lì)是0. 31。如在下面結(jié)合圖4所討論地,當(dāng)將狀態(tài)-動(dòng)作對(duì) 302至306用作分類器的訓(xùn)練中的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例時(shí),該些值可W用作質(zhì)量值q。
[0060] 圖4是示出了在示例多層感知(MLP)神經(jīng)網(wǎng)絡(luò)分類器MLPl的訓(xùn)練中采用的示例 實(shí)例加權(quán)學(xué)習(xí)(IWL)機(jī)器學(xué)習(xí)模型的示意性流程圖。如在圖4中所討論地,使用狀態(tài)-動(dòng) 作訓(xùn)練實(shí)例302至306的時(shí)間序列L來(lái)訓(xùn)練分類器MLPl。還可W使用狀態(tài)-動(dòng)作訓(xùn)練實(shí)例 的時(shí)間序列的集合T或訓(xùn)練數(shù)據(jù)T來(lái)訓(xùn)練分類器MLP1,該可W表示為T(mén)= {Li,L2,. . .,Lm}; 其中Lm是用于序列i(i= 1,2,. . .,m)的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例的序列。在圖4的示例實(shí)現(xiàn) 方式中,訓(xùn)練數(shù)據(jù)T可W包括根據(jù)m個(gè)唯一的潛在客戶的m個(gè)時(shí)間序列。每個(gè)序列可W具 有不同數(shù)量的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例。
[0061] 特別地,每個(gè)時(shí)間序列L包括n個(gè)狀態(tài)-動(dòng)作對(duì),通過(guò)時(shí)間步驟t來(lái)排序。每個(gè)時(shí) 間序列可W由L= {(Si,ai), (S2, 32),. . .,(S。,a。)}來(lái)表示;其中(S。at)表示在步驟t(t= 1,2,…,n)處的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例。在圖4的示例LRM中實(shí)現(xiàn)方式中,每個(gè)時(shí)間序列L可 W包括在數(shù)據(jù)庫(kù)中記錄的歷史數(shù)據(jù)的序列。例如,針對(duì)在圖1的潛在客戶數(shù)據(jù)服務(wù)器190 中的每個(gè)唯一的潛在客戶,可W存在針對(duì)銷售代理與潛在客戶之間的所有交互所記錄的動(dòng) 作和結(jié)果的序列。
[0062]對(duì)于狀態(tài)-動(dòng)作訓(xùn)練實(shí)例序列L= {(Si,ai),枯,32),. ..,(S。,a。)};存在相關(guān)聯(lián)的 獎(jiǎng)勵(lì)的序列R=Iti,枯.?.,r。},其中是針對(duì)狀態(tài)-動(dòng)作訓(xùn)練實(shí)例(S。3t)(t= 1,2,..,n) 的即時(shí)獎(jiǎng)勵(lì)。狀態(tài)-動(dòng)作訓(xùn)練實(shí)例序列L可W為如下組合的形式L= {(si,a。ri),(S2, 32,r 2),. . .,(s。,a。,r。)}來(lái)表示,其中,:Tt是在步驟t(t= 1,2,…,n)處的狀態(tài)-動(dòng)作訓(xùn)練實(shí)例 k"Bt)的即時(shí)獎(jiǎng)勵(lì)。
[0063]每個(gè)狀態(tài)St可W由下述特征向量來(lái)表示;S t= (S t,i,,St,2,''',St,u),狀態(tài)St表征 在步驟t處的狀態(tài)。例如,特征向量St= …,St,u)可W包括下面的分量;潛在客 戶源、潛在客戶頭銜、潛在客戶行業(yè)、潛在客戶所在州、潛在客戶創(chuàng)建日期、潛在客戶公司規(guī) 模、潛在客戶狀態(tài)、之前的撥號(hào)次數(shù)、之前的電子郵件數(shù)目、之前的動(dòng)作、自上次動(dòng)作之后的 小時(shí)數(shù)。
[0064] 在步驟t處的每個(gè)動(dòng)作at可W由動(dòng)作向量at=(at,i,,at,2,…,3t,v)來(lái)表示,其中 at,j(j= 1,2,…,V)表示動(dòng)作的動(dòng)作分量j。每個(gè)動(dòng)作分量at,j可W采取來(lái)自用于at,j的 允許動(dòng)作的集合的動(dòng)作。在傳統(tǒng)強(qiáng)化學(xué)習(xí)的典型場(chǎng)景中,動(dòng)作向量通常僅包括一個(gè)分量at =(atj。例如,對(duì)于玩象棋,僅有的動(dòng)作分量是移動(dòng)棋子。可W基于象棋的規(guī)則和當(dāng)前 的狀態(tài)來(lái)從所有允許的移動(dòng)集合中選擇移動(dòng)。