基于最近探索的啟發(fā)式服務(wù)組合方法與流程

文檔序號(hào)：12729990閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)>基于最近探索的啟發(fā)式服務(wù)組合方法與流程

技術(shù)特征：

1.一種基于最近探索的啟發(fā)式服務(wù)組合方法，其特征在于，包括如下步驟：

(1)將服務(wù)組合問題建模為一個(gè)六元組馬爾可夫決策過程；

(2)應(yīng)用基于Q-learning的啟發(fā)式學(xué)習(xí)方法求解六元組馬爾可夫決策過程，得到最優(yōu)策略；

(3)將最優(yōu)策略映射為web服務(wù)組合的工作流。

2.根據(jù)權(quán)利要求1所述的基于最近探索的啟發(fā)式服務(wù)組合方法，其特征在于，步驟(1)中將服務(wù)組合問題建模為如下六元組馬爾可夫決策過程：

MDP-WSC＝<S；s₀；s_r；A(·)；P；R>

其中S代表從初始狀態(tài)遷移到終止?fàn)顟B(tài)的過程中所能經(jīng)歷的所有狀態(tài)的集合；s₀是初始狀態(tài)，表示任何動(dòng)作還沒有發(fā)生時(shí)的狀態(tài)，s₀∈S；s_r是終止?fàn)顟B(tài)，當(dāng)系統(tǒng)到達(dá)終態(tài)時(shí)，表明一個(gè)完整的服務(wù)執(zhí)行路徑已經(jīng)形成，可以構(gòu)建一個(gè)完整的組合服務(wù)，s_r∈S；A(·)代表系統(tǒng)在狀態(tài)s∈S下可以采取的動(dòng)作的集合；P是狀態(tài)轉(zhuǎn)移函數(shù)；R是獎(jiǎng)勵(lì)函數(shù)。

3.根據(jù)權(quán)利要求2所述的基于最近探索的啟發(fā)式服務(wù)組合方法，其特征在于，所述步驟(2)應(yīng)用基于Q-learning的啟發(fā)式學(xué)習(xí)方法求解六元組馬爾可夫決策過程，得到最優(yōu)策略，包括如下步驟：

(21)初始化Q-learning中學(xué)習(xí)率σ，折扣率γ，當(dāng)前狀態(tài)s＝0，當(dāng)前時(shí)間步長t＝0；隨機(jī)選擇一個(gè)服務(wù)a作為當(dāng)前動(dòng)作；

(22)當(dāng)前時(shí)間步長t不為0時(shí)，以概率e應(yīng)用啟發(fā)式策略選擇新的服務(wù)a，以概率1-e隨機(jī)選擇新的服務(wù)a；

(23)執(zhí)行服務(wù)a，記錄在狀態(tài)s下執(zhí)行當(dāng)前服務(wù)a的回報(bào)值r、執(zhí)行次數(shù)c、探索補(bǔ)貼bonus；

(24)按照下式更新Q值：

Q(s，a)←(1-σ)*Q(s，a)+σ*(r+bonus+γ*maxQ(s′，a′))，

其中Q(s,a)表示在狀態(tài)動(dòng)作對<s,a>下的Q值，σ為學(xué)習(xí)率，r為回報(bào)值，γ為折扣率，bonus為探索補(bǔ)貼，s′為執(zhí)行服務(wù)a后從當(dāng)前狀態(tài)s轉(zhuǎn)移到的后繼狀態(tài)，a'為在狀態(tài)s′下選擇的服務(wù)，Q(s′，a′)表示在狀態(tài)動(dòng)作對<s′,a′>下的Q值；

(25)更新當(dāng)前狀態(tài)：s＝s′，t＝t+1；當(dāng)s為終止?fàn)顟B(tài)s_r且滿足收斂條件時(shí)，強(qiáng)化學(xué)習(xí)結(jié)束，得到最優(yōu)策略；否則轉(zhuǎn)步驟(22)。

4.根據(jù)權(quán)利要求3所述的基于最近探索的啟發(fā)式服務(wù)組合方法，其特征在于，所述步驟(23)中探索補(bǔ)貼bonus的計(jì)算方法為：

$<mrow> <mi>b</mi> <mi>o</mi> <mi>n</mi> <mi>u</mi> <mi>s</mi> <mo>=</mo> <mi>μ</mi> <mi>R</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>μ</mi> <msqrt> <mrow> <msup> <mi>t</mi> <mo>′</mo> </msup> <mo>-</mo> <mi>t</mi> </mrow> </msqrt> </mrow>$

其中μ>0，是探索補(bǔ)貼系數(shù)；t為執(zhí)行服務(wù)a時(shí)的當(dāng)前時(shí)間步，t′為動(dòng)作狀態(tài)對<s,a>上次被訪問的時(shí)間步。

5.根據(jù)權(quán)利要求3所述的基于最近探索的啟發(fā)式服務(wù)組合方法，其特征在于，所述步驟(22)中啟發(fā)式策略選擇新的服務(wù)a包括如下步驟：

在(0,1)區(qū)間隨機(jī)產(chǎn)生一個(gè)隨機(jī)數(shù)υ，如果υ>ε，隨機(jī)選擇一個(gè)新的服務(wù)a；如果υ≤ε，選擇使探索策略函數(shù)值最大的服務(wù)作為新的服務(wù)a；所述探索策略函數(shù)П*(s)如下式：

$<mrow> <mo>Π</mo> <mo>*</mo> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>max</mi> <msup> <mi>a</mi> <mo>′</mo> </msup> </msub> <mo>{</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>′</mo> </msup> <mo>,</mo> <msup> <mi>a</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>p</mi> <mi>E</mi> <mi>X</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>′</mo> </msup> <mo>,</mo> <msup> <mi>a</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>q</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>c</mi> </mrow> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>}</mo> </mrow>$

其中p，q為用來平衡表達(dá)式的大小的系數(shù)，其中EX(s′,a')為記錄在狀態(tài)動(dòng)作對<s′,a′>下回報(bào)值的矩陣。

6.根據(jù)權(quán)利要求3所述的基于最近探索的啟發(fā)式服務(wù)組合方法，其特征在于，所述步驟(25)中收斂條件為：從初始狀態(tài)到終止?fàn)顟B(tài)累計(jì)Q值的變化小于門限值Q_th：|∑Q-∑Q′|<Q_th，其中∑Q為本次學(xué)習(xí)過程中從初始狀態(tài)到終止?fàn)顟B(tài)累計(jì)Q值，∑Q′為上次學(xué)習(xí)過程中從初始狀態(tài)到終止?fàn)顟B(tài)累計(jì)Q值。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

web服務(wù)組合方法綜述相關(guān)技術(shù)

啟發(fā)式方法相關(guān)技術(shù)

啟發(fā)式搜索方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于最近探索的啟發(fā)式服務(wù)組合方法與流程