本發(fā)明涉及協(xié)商智能體方法,具體為一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法。
背景技術(shù):
1、協(xié)商是不同利益方交換報價以相互探索實現(xiàn)互利、解決沖突或找到共同接受解決方案可能性的過程。因此,協(xié)商可以作為管理沖突的一種基本且強大的機制。然而,對于人類而言,這一機制可能耗時且成本高。由于自動化協(xié)商相較于非計算機化協(xié)商的優(yōu)勢,如減輕人類協(xié)商者的工作量,通過補償人類計算和推理能力的限制達(dá)到更好的結(jié)果,自動化協(xié)商在過去十年中成為多智能體系統(tǒng)的一個重要研究方向。
2、強化學(xué)習(xí)(rl)是一種用于控制任務(wù)的強大學(xué)習(xí)范式。具體來說,rl可以自動獲得給定任務(wù)的近似最優(yōu)行為技能(由策略表示)。rl算法在自然語言處理、計算機視覺和復(fù)雜游戲等不同領(lǐng)域的成功應(yīng)用也引發(fā)了在自動化協(xié)商中的探索。盡管到目前為止取得了顯著進展,然而,目前的工作受到各種限制性的假設(shè)的影響:1)傳統(tǒng)的協(xié)商rl方法通常專注于從與環(huán)境(即協(xié)商場景中的所有事物,包括對手和領(lǐng)域)的主動互動中在線學(xué)習(xí),以迭代收集數(shù)據(jù)用于策略改進。然而,這種在線學(xué)習(xí)對于協(xié)商的價值有限且通常不切實際,主要因為基于在線互動的數(shù)據(jù)收集成本高昂。例如,在電子商務(wù)場景中從零開始訓(xùn)練rl智能體與協(xié)商伙伴對抗可能會導(dǎo)致大量不可接受的結(jié)果和低質(zhì)量的客戶體驗。盡管之前的方法通過使用對手模擬器(即應(yīng)用已知策略的智能體)進行訓(xùn)練部分緩解了這個問題,但在現(xiàn)實情況下,通常難以完全捕捉對手的協(xié)商策略,因為用戶狀態(tài)和行為不確定、環(huán)境嘈雜,并且協(xié)商者旨在隱藏與其策略相關(guān)的信息以阻止對手的利用。因此,設(shè)計能夠在沒有在線互動的情況下學(xué)習(xí)有效協(xié)商策略的自主智能體仍然是一個重大的懸而未決的問題,另一個重要挑戰(zhàn)是2)、適應(yīng)應(yīng)對手的行為。由于在線rl對于自動化協(xié)商的價值有限,一個關(guān)鍵問題是以前協(xié)商會話中收集的數(shù)據(jù)是否可以有效地用于智能體學(xué)習(xí)其協(xié)商技能。特別是,智能體能否在對手偏好或策略發(fā)生變化時,基于離線數(shù)據(jù)集學(xué)習(xí)并調(diào)整其協(xié)商策略。
3、當(dāng)前基于rl的自動協(xié)商智能體具有與對手積極互動的特性,因為它們專注于在線rl方法來訓(xùn)練其智能體。這通常會導(dǎo)致實施簡單但不切實際的協(xié)商策略。這主要是因為訓(xùn)練rl智能體需要與對手進行大量的互動,但在現(xiàn)實世界的應(yīng)用中,智能體的數(shù)據(jù)收集過程可能既昂貴又困難。最近出現(xiàn)的離線rl方法直接從固定的、預(yù)先收集的數(shù)據(jù)集學(xué)習(xí)策略為其提供了一種新的選擇。一個有效的策略是首先使用離線強化學(xué)習(xí)或離線模仿學(xué)習(xí)來預(yù)訓(xùn)練出一個初步的策略,然后利用在線強化學(xué)習(xí)進一步微調(diào)這個策略的性能。這種方法的優(yōu)勢在于,它不僅減少了離線策略學(xué)習(xí)對數(shù)據(jù)集質(zhì)量的依賴,還為在線強化學(xué)習(xí)提供了一個更優(yōu)的起始策略。
4、離線rl的一個關(guān)鍵挑戰(zhàn)是分布偏移問題,這是由函數(shù)逼近器(例如,值函數(shù)、策略網(wǎng)絡(luò))對分布外(ood)樣本的反事實查詢引起的。在訓(xùn)練過程中需要確保學(xué)習(xí)到的策略與行為策略保持接近,并減輕培訓(xùn)期間分布外行動的影響。然而,在離線到在線rl的背景下,考慮未來的在線優(yōu)化過程至關(guān)重要。針對懲罰分布外動作的q值這類方法,在離線階段直接懲罰分布外操作的可能會導(dǎo)致對這些未知操作的q值的嚴(yán)重低估。可能會在微調(diào)過程中導(dǎo)致嚴(yán)重的引導(dǎo)錯誤,從而破壞通過離線rl獲得的良好初始策略。然而,在線優(yōu)化階段的重點是探索這些未知的動作。這種差異可能會阻礙在線優(yōu)化過程中對這些行動的準(zhǔn)確評估,從而阻礙最優(yōu)行動的決策。因此,是否有可能開發(fā)一種方法,防止在初始訓(xùn)練階段對新狀態(tài)下的陌生動作過于樂觀,并加快微調(diào)的智能體適應(yīng)變化環(huán)境的能力。
技術(shù)實現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,通過歷史的協(xié)商數(shù)據(jù)集學(xué)習(xí)策略,包括:通過自動協(xié)商平臺收集歷史協(xié)商數(shù)據(jù),構(gòu)造可供學(xué)習(xí)的數(shù)據(jù)集;利用離線數(shù)據(jù)集為所述智能體學(xué)習(xí)有效的協(xié)商策略;通過在線環(huán)境進行互動快速微調(diào)已學(xué)策略并適應(yīng)對手偏好或策略的變化。本發(fā)明有效解決了自動協(xié)商領(lǐng)域在線交互訓(xùn)練成本高的問題,同時學(xué)習(xí)到了通用的離線初始策略,并且協(xié)商智能體可以適應(yīng)在線對手偏好或策略的變化。
2、本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述方法包括:
3、s100、通過自動協(xié)商平臺收集歷史協(xié)商數(shù)據(jù),構(gòu)造可供學(xué)習(xí)的數(shù)據(jù)集;
4、s200、利用離線數(shù)據(jù)集為所述智能體學(xué)習(xí)有效的協(xié)商策略;
5、s300、通過在線環(huán)境進行互動快速微調(diào)已學(xué)策略并適應(yīng)對手偏好或策略的變化。
6、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,通過自動協(xié)商平臺收集歷史協(xié)商數(shù)據(jù),構(gòu)造可供學(xué)習(xí)的數(shù)據(jù)集,具體包括:
7、s110、構(gòu)建協(xié)商環(huán)境;
8、s120、構(gòu)造強化學(xué)習(xí)訓(xùn)練過程中的狀態(tài)空間,動作空間和獎勵函數(shù)等設(shè)置,并定義馬可夫決策過程;
9、s130、使用不同的策略采集智能體和對手智能體進行協(xié)商,記錄每輪中協(xié)商的雙方offer以及接受/拒絕動作,收集與處理歷史協(xié)商數(shù)據(jù)集。
10、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述構(gòu)建協(xié)商環(huán)境,協(xié)商域由域描述和雙方的偏好文件組成。域描述是對合法的議題和每個議題的值的描述,每個自動協(xié)商域包含一個映射,其中每個鍵是協(xié)商議題,對應(yīng)議題的合法取值組成一個集合。形式上,一個域包含n個議題:d=(i1,…,in),每個議題i包含k個值:基于此,一個智能體可以提出一個報價(offer)ω,該報價從每個議題中選擇對應(yīng)的值(被選擇的值用c表示),表示為一個值向量:所有的方案構(gòu)成了協(xié)商空間ω。域的偏好文件決定效用函數(shù),智能體i的效用函數(shù)將一個offerω從結(jié)果空間ω映射到[0,1]的實數(shù)。
11、
12、其中ω是報價的向量表示,其中每一個議題對應(yīng)一個值,vjk表示議題j第k個取值,表示智能體i對于議題j的評估函數(shù),該函數(shù)將議題對應(yīng)的值映射到[0,1]的實數(shù)范圍內(nèi);表示智能體i對于議題j的偏好權(quán)重。
13、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述狀態(tài)空間、動作空間和獎勵函數(shù)等定義基于智能體自身視角進行設(shè)計,時間t的狀態(tài)st的定義狀態(tài)空間考慮了兩個因素,首先是時間,因為如果在截止日期之前無法達(dá)成協(xié)議,協(xié)商將失敗,其次,雙方智能體的協(xié)商歷史記錄對智能體的決策有重要影響,因此狀態(tài)空間定義如下::
14、
15、其中tmax表示當(dāng)前協(xié)商的最大輪次,和分別表示在t-n時刻對手和智能體提出的offerω。us表示智能體的效用函數(shù)。
16、動作空間由[ur,1]范圍內(nèi)的目標(biāo)效用組成。所以在t時刻的動作被定義為:其中表示下一個offer的效用值。為了得到真實的offer,我們定義一個反效用函數(shù)將一個效用r通過估計對手效用映射成一個offerω的最佳選擇。形式上,反效用函數(shù)具體定義如下所示:
17、
18、其中u'o表示根據(jù)對手歷史報價的分布頻率估計的對手效用函數(shù)。
19、獎勵函數(shù)具體定義為當(dāng)達(dá)成協(xié)議時候,智能體人將獲得積極獎勵,如果截止日期前無法達(dá)成協(xié)議,則收到-1的懲罰。形式上,獎勵函數(shù)定義如下:
20、
21、馬可夫決策過程(mdp)定義為一個5元組,即其中s是狀態(tài)空間,a是動作空間,p:s×a→s'是轉(zhuǎn)移函數(shù),r(s,a)是獎勵函數(shù),γ∈[0,1)是折扣議題,策略是一個分布π(a|s),表示在當(dāng)前狀態(tài)st下采取動作at的概率,rl智能體的目標(biāo)是找到一個最大化期望回報的策略,協(xié)商場景中的所有事物,包括對手,都被視為環(huán)境。
22、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述利用離線數(shù)據(jù)集為所述智能體學(xué)習(xí)有效的協(xié)商策略,具體包括:
23、s210使用保守q學(xué)習(xí)(cql)訓(xùn)練策略網(wǎng)絡(luò)和動作價值網(wǎng)絡(luò),其中
24、在訓(xùn)練動作價值網(wǎng)絡(luò)過程中明確懲罰離線數(shù)據(jù)集中不存在的動作的q值;
25、s220構(gòu)建集成策略,構(gòu)建離線預(yù)訓(xùn)練的自動協(xié)商智能體。
26、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述使用保守q學(xué)習(xí)(cql)訓(xùn)練策略網(wǎng)絡(luò)和動作價值網(wǎng)絡(luò),其中在訓(xùn)練動作價值網(wǎng)絡(luò)過程中明確懲罰離線數(shù)據(jù)集中不存在的動作的q值;具體的,cql悲觀地評估當(dāng)前策略,并使其q函數(shù)為真實值的下界。所述方法基于sac框架,其價值函數(shù)的優(yōu)化目標(biāo)具體如下表示:
27、
28、其中,α是權(quán)重議題,上式子的前兩項構(gòu)成了一個正則化項,其中第一項旨在通過在策略下最小化q值來防止對ood動作的q值的高估,第二項通過在行為策略之后最大化數(shù)據(jù)集中的動作q值來進行平衡。第三項是標(biāo)準(zhǔn)的td誤差,td誤差衡量了預(yù)測值和更加真實值之間的誤差,由貝爾曼算子構(gòu)成,其中,
29、
30、此外協(xié)商策略,其優(yōu)化目標(biāo)具體如下所示:
31、
32、其中πφ為協(xié)商智能體的策略函數(shù),為智能體在狀態(tài)s的調(diào)價下以a為動作的價值函數(shù),α為溫度超參數(shù),用于控制策略函數(shù)中的探索和利用之間的平衡。
33、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述構(gòu)建集成策略,構(gòu)建離線預(yù)訓(xùn)練的自動協(xié)商智能體,智能體對應(yīng)的演員-評論家網(wǎng)絡(luò)的價值網(wǎng)絡(luò)q如下所示:
34、
35、對應(yīng)的策略網(wǎng)絡(luò)π如下所示:
36、
37、其中
38、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述通過在線環(huán)境進行互動快速微調(diào)已學(xué)策略并適應(yīng)對手偏好或策略的變化,具體包括:
39、s310、使用離線預(yù)訓(xùn)練獲得的策略網(wǎng)絡(luò)初始化在線協(xié)商策略智能
40、體,構(gòu)建其優(yōu)化目標(biāo);
41、s320、引入平衡經(jīng)驗回放的優(yōu)先采樣組件,此組件通過采樣與當(dāng)前策略相關(guān)的離線數(shù)據(jù)來利用在線數(shù)據(jù),并生成對應(yīng)的優(yōu)化目標(biāo);
42、s330、基于所述優(yōu)化目標(biāo),對所述智能體和平衡經(jīng)驗回放組件進行策略更新。
43、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述使用離線預(yù)訓(xùn)練獲得的策略網(wǎng)絡(luò)初始化在線協(xié)商策略智能體,構(gòu)建其優(yōu)化目標(biāo),所述智能體基于sac框架,其價值函數(shù)的優(yōu)化目標(biāo)具體如下所示:
44、
45、其中πφ為智能體在當(dāng)前狀態(tài)s下選擇動作a的概率分布,r(s,a)為獎勵函數(shù),為在線數(shù)據(jù)集,qθ(s,a)為智能體策略對應(yīng)的價值函數(shù)。
46、所述智能體的協(xié)商策略,其優(yōu)化目標(biāo)如下所示:
47、
48、其中是熵,α>0是溫度參數(shù),γ是折扣議題,rt是時間戳t處的獎勵函數(shù)。
49、根據(jù)本發(fā)明提供的一種基于深度強化學(xué)習(xí)的協(xié)商智能體方法,所述引入平衡經(jīng)驗回放的優(yōu)先采樣組件,此組件使用密度比ω(s,a):=don(s,a)/doff(s,a)測量所述樣本的在線性,實際實現(xiàn)中通過訓(xùn)練一個稱為密度比估計器的神經(jīng)網(wǎng)絡(luò)ωψ(s,a)來估計密度比。所述密度比估計器ωψ(s,a)的訓(xùn)練使用f散度的變分表示,設(shè)jensen-shannon(js)散度定義為djs(p||q)=∫xf(dp(x)/dq(x))dq(x);則通過最大化js散度的下限來更新密度比估計器ωψ,對應(yīng)的優(yōu)化目標(biāo)表示如下:
50、
51、其中f*是f的凸共軛。對于方程中的第一項,通過從在線數(shù)據(jù)中采樣來估計期望值,第二項從離線數(shù)據(jù)中采樣。
52、本發(fā)明的有益效果如下:該方法可以使用以前收集的協(xié)商數(shù)據(jù)集學(xué)習(xí)有效的策略,而不需要與對手進行互動。這與現(xiàn)有的基于rl的協(xié)商方法形成對比,后者都依賴于與對手的積極互動。此外,還包括策略微調(diào)機制,以應(yīng)對對手偏好或策略變化。通過在不同設(shè)置下基于一組多樣的最先進的基線評估框架的性能。實驗結(jié)果表明,該方法可以僅通過離線數(shù)據(jù)集學(xué)習(xí)有效策略,并且還能有效適應(yīng)對手偏好或策略的變化。本發(fā)明有效解決了智能協(xié)商領(lǐng)域試錯成本高的問題,同時緩解了離線強化學(xué)習(xí)分布偏移,并提升了離線到在線快速微調(diào)能力。