欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

執(zhí)行使命引擎的方法和裝置的制作方法

文檔序號:6479524閱讀:105來源:國知局
專利名稱:執(zhí)行使命引擎的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及路由選擇,特別是多位置的最佳路由選擇。
背景技術(shù)
當(dāng)前可用的使命引擎一般通過一組預(yù)定的節(jié)點提供點到點的路由選擇。如果用戶希望運行使命,現(xiàn)有技術(shù)需要他或她鍵入起始位置,以及依次鍵入每一后續(xù)位置?,F(xiàn)有技術(shù)計劃假設(shè)這些使命的順序是預(yù)先設(shè)定的。而且,現(xiàn)有技術(shù)服務(wù)不提供在路由中處理錯誤的應(yīng)急計劃。
該申請概要以及其中存在的大量問題,已經(jīng)被計劃和調(diào)度組織考慮很久。然而,現(xiàn)有技術(shù)解決方案使用的技術(shù)要么需要確定性算子(即,不能處理隨機算子),要么不能處理實值效用函數(shù),要么不能傳送最佳解。SUMMARY。
描述了一種提供使命引擎的方法和裝置。所述使命引擎包括使命接收邏輯,用于接收一組包括使命的任務(wù);起始狀態(tài)識別邏輯,用于產(chǎn)生描述有效起始狀態(tài)組的特征函數(shù);以及解算邏輯,用于產(chǎn)生完成使命的路線。


本發(fā)明將參照附圖以實例的形式加以描述,但不限于這些實例,附圖中相似的參考數(shù)字指示相似的元件,其中圖1是網(wǎng)絡(luò)的一個實施例的框圖,其中,使命引擎可以在該網(wǎng)絡(luò)中使用。
圖2是根據(jù)本發(fā)明使命引擎的一個實施例的框圖。
圖3A是使用根據(jù)本發(fā)明使命引擎的用戶系統(tǒng)的一個實施例的框圖。
圖3B是定義一組使命的示例性的用戶接口。
圖4是使用使命引擎產(chǎn)生路由的一個實施例的流程圖。
圖5A和5B是根據(jù)本發(fā)明的策略圖和修剪的策略圖。
圖6是可以執(zhí)行本發(fā)明的計算機系統(tǒng)的框圖。
發(fā)明詳述描述了一種使命引擎的方法和裝置。設(shè)計一種使命引擎,用于獲得一組位置的最佳訪問順序,以在客觀評判函數(shù)標(biāo)準(zhǔn)下完成一組使命,計算帳目代價、所需資源的獲取概率以及獲得資源的獎勵。一個實施例中,排序使用符號試探法(與符號試探搜索相結(jié)合的決策理論符號模型檢測)執(zhí)行。
該使命引擎解法可以應(yīng)用的一般問題空間包括產(chǎn)生最佳路由的任務(wù),以通過一組位置定位一組資源。一個實施例中,這里描述的使命引擎包括內(nèi)在不確定性的計算,即給定的資源可以在特定的位置獲得,同時在考慮訪問位置的代價、從位置獲取資源的代價、和從位置獲取資源的獎勵的基礎(chǔ)上使得性能最優(yōu)化。使命引擎適用于位置相關(guān)的任務(wù)(例如通過一組倉庫完成購物單)、非物理(循環(huán)空間)的應(yīng)用(例如對網(wǎng)絡(luò)中一組資源的訪問進行優(yōu)化排序)、用于制作流程任務(wù)的自動排序、編寫游戲字符和機器人玩具,以及其它多步驟任務(wù)。
本發(fā)明處理“資源倉庫”或位置,從中可以獲得所需資源(此處簡稱為“倉庫”或“位置”),它可以擁有或不擁有所需資源。觸發(fā)機制(這里簡稱為“用戶”)可以是個體、設(shè)備、應(yīng)用程序或其它任何可以觸發(fā)使命引擎的實體。產(chǎn)生一個策略,所述策略引導(dǎo)用戶最大期望效益地定位下一個位置,其中,效益是代價和獎勵的組合。代價說明了傳輸時間或費用。獎勵說明了主觀價值和試圖獲得資源的瞬態(tài)代價。
一個實施例中,任務(wù)以馬爾可夫(Markov)判決過程(MDP)提出。MDP是一數(shù)組(S,A,P,R)。S是一組狀態(tài)。A是一組動作。P是一組轉(zhuǎn)移模型,對應(yīng)每個動作,規(guī)定轉(zhuǎn)移概率PaS×S→
。R是獎勵RaS→R,其中R是一組實數(shù)。目標(biāo)是發(fā)現(xiàn)一個策略πS→A,在H∈0,1,…,∞范圍內(nèi)獲得最大化期望的折現(xiàn)獎勵(discountedreward),其中,D∈
是折現(xiàn)因子。
考慮一組M“資源”RM={r1,…,rM}(別處稱為“項目”),以及L“位置”(各自的“倉庫”),XL={x1,x2,…,xL}。理性的代理人進行搜尋,通過順序訪問規(guī)定位置的一些子集獲得M資源。S=SL×SD×SM×Sφ?!翱铡睜顟B(tài)Sφ是一個吸收狀態(tài),用于明確捕獲非法或“壞”的行為。SD=2(XL)]]>跟蹤先前的代理人,其中,對于一些組Z,2(Z)是使用所有Z的子集獲得的冪集(即,元素Z的所有組合,并包括空子集)。代理人已經(jīng)獲得M個所需資源中的SM=2(RM)]]>跟蹤。該問題中公式SL代表當(dāng)前位置。
在一個實施例中,SL=XL。因此,在該實施例中#SL=L,#SD=2D,#SM=2M,并且#Sφ=2。該實施例中,代表位置的狀態(tài)變量編碼使用二進制編碼,該二進制編碼使用至少log2(L)位(二進制對數(shù)必須上舍入到與之最相鄰的整數(shù)值)。對于給定的M和L,該狀態(tài)空間的大小是L-2L+M+1。
另一個實施例中,通過獲得將相互排除其它亞態(tài)向量(substatevector)的Sφ,狀態(tài)空間的大小進一步減小,在這種情況下S={SL×SD×SM}USφ。對于給定的M和L,該狀態(tài)空間的大小為L2L+M+1。
另一個實施例中SL=2(XL),]]>當(dāng)選擇s∈SL時,使命引擎強制使僅一個Xi=1,1≤i≤L,設(shè)置其它值為零。這簡化了產(chǎn)生MDP編碼的任務(wù)和簡化了提取策略的任務(wù),但是增加了狀態(tài)空間的大小,使得在該實施例中,#SL=2L。對于給定的M和L,狀態(tài)空間的大小為22L+M+1。一個實施例中,該執(zhí)行方法使用了MDP解算器,其空間和時間復(fù)雜度受搜索空間大小的影響較小,其包括使用可達性步驟的技術(shù),該可達性步驟從考慮(例如sLAO*)中刪除不可到達的狀態(tài)。
假設(shè)動作A={gx,y,x≠y,x∈XL,y∈XL}Ug0,其中g(shù)x,y是“從x到y(tǒng)”,g0是“停留”。因此,#A=L(L-1)+1。該表達式?jīng)]有明顯地為獲取資源提供動作,但隱含地假設(shè)了一旦訪問位置,代理人將(可能)獲取可用資源,因此大大減少了表現(xiàn)任務(wù)所需的動作的數(shù)目。一個實施例中,理性的代理人因獲取并不已經(jīng)有的項目而受獎勵。
一些位置被指定成集合點位置。一旦獲取所需資源,代理人因在集合點完成路線而受額外獎勵。一個實施例中,代理人因為獲得一個或多個所需資源而受獎勵。另一個實施例中,代理人因為獲得所有所需資源而受額外的獎勵。一個實施例中,使命引擎使用一種編碼,該編碼通過狀態(tài)變量SD跟蹤已經(jīng)被訪問的狀態(tài),允許其懲罰代理人重復(fù)訪問不必要的位置(即,如果位置不含有代理人所需的任何信息)。如果倉庫含有代理人現(xiàn)用購物單上的至少一項,或者位置是集合點和現(xiàn)用購物單是空的時,懲罰被避免。
為了更精確地定義獎勵,一個實施例中,獎勵由狀態(tài)的立即值減去動作代價給定。Ra(s)=Rr(s)-Rc(a),s∈S,a∈A,其中,RrS→R,RcA→R+,其中R+={x∈R,x≥0}。對于位置x和y,一個實施例中,Rc(gx,y)是從x傳輸?shù)統(tǒng)所需的時間。另一個實施例中,Rc(gx,y)是從x傳輸?shù)統(tǒng)所覆蓋的距離。任意兩個給定位置間的傳輸時間(距離)是非對稱的,即,從x到y(tǒng)的時間(距離)可以比反方向多或少,即,一般而言,Rc(gx,y)≠Rc(gy,x)。
為了更精確地定義容許轉(zhuǎn)移,一個實施例通過修改狀態(tài)轉(zhuǎn)移不允許訪問任何已經(jīng)在SD中被指定的位置而禁止重復(fù)訪問。另一個實施例通過修改狀態(tài)轉(zhuǎn)移允許訪問任何在SD中已經(jīng)指定的位置,允許有用的重復(fù)訪問,但是不允許不必要的重復(fù)訪問,但是它必須包括下面兩種情況的一種(a)該位置在其清單中承載至少一個可獲得概率大于零的資源,使得資源在SM中沒有被指定(即,該位置擁有代理人所需的某些東西),或(b)所有項目都被獲取(即SM全為1),以及位置是集合點。另一個實施例不使用跟蹤狀態(tài)變量SD,允許無限制的重復(fù)訪問任何位置。該實施例使用非穩(wěn)定策略,當(dāng)該策略推薦重復(fù)訪問一個位置時在空閑時間重復(fù)計算該非穩(wěn)定策略。該實施例大大減少了狀態(tài)空間的大小,進而減小了獲得策略所需的時間,但所附出的代價是,在運行時間內(nèi)通常需要重新計劃,以避免不必要和不需要的重復(fù)訪問。
一個實施例中,使命引擎使用附加數(shù)據(jù)結(jié)構(gòu)來表現(xiàn)目標(biāo)之間的關(guān)聯(lián)性。使G是覆蓋項RM={r1,…,rM}的非循環(huán)定向圖。給定G中的兩個節(jié)點ri和rj,從ri到rj的一條邊代表了一個關(guān)聯(lián),以便ri必須在獲得rj之前獲得(即,目標(biāo)ri是目標(biāo)rJ的先決條件)。圖可以是不連通的。(在連通的圖中,圖中的任意節(jié)點到任意其它節(jié)點間都有通道。不相連的圖稱為不連通。)一個不連通的節(jié)點(代表一個項目(所需資源))與任何其它目標(biāo)沒有關(guān)聯(lián)。G中的節(jié)點rj可以具有多個關(guān)聯(lián),由多個與其它節(jié)點相連的邊表征。一個實施例中,在轉(zhuǎn)移圖中這些關(guān)聯(lián)在MDP中通過先決條件進行編碼。該編碼規(guī)定當(dāng)一個目標(biāo)具有任何先決條件時,這些先決條件必須在目標(biāo)實現(xiàn)之前獲得。
在一個實施例中,可以使用相似的數(shù)據(jù)結(jié)構(gòu)和編碼識別動作的先決條件,即,在一個動作可以執(zhí)行之前其它動作必須已經(jīng)發(fā)生。另一個實施例使用更常用的編碼,該編碼為每個動作指定一組狀態(tài),狀態(tài)中的一個或多個必須按順序保持以執(zhí)行該動作。另一個實施例使用一種編碼,該編碼為每個目標(biāo)指定一組狀態(tài),在目標(biāo)達到之前狀態(tài)中的一個或多個必須被保持。該組狀態(tài)可以以決策圖,決策樹,對照表,或在MDP編碼中使用的狀態(tài)的其它標(biāo)準(zhǔn)表示法表征。
使命引擎特別適用于在物理(地理位置)空間和時間里發(fā)生的基于位置的作業(yè)或其中的一些模擬或仿真,例如虛擬世界(例如,電腦游戲),或自動機器人的行為控制。乍一看使命引擎似乎被限制在基于位置的行為--然而,使命引擎易于修改,以使其執(zhí)行位于電腦空間的判決過程。術(shù)語“電腦空間”指聯(lián)網(wǎng)環(huán)境,例如從位于環(huán)球網(wǎng)網(wǎng)絡(luò)服務(wù)獲得的合成服務(wù)的動態(tài)組合。該申請中,L位置指L網(wǎng)絡(luò)服務(wù)。該修改通過用動作Awww={gy,y∈XL}Ug0取代動作A而獲得,其中,gy是“到y(tǒng)去(go to y)”,g0是“停留(stay)”。因此,#Awww=L+1。直觀上,每個位置y代表單個網(wǎng)絡(luò)服務(wù)。注意訪問網(wǎng)絡(luò)服務(wù)的代價不依賴于一個“當(dāng)前位置”,特別是,不依賴于由系統(tǒng)訪問的直接先前網(wǎng)絡(luò)服務(wù)。
一個實施例中,使命引擎使用通用MDP(馬爾可夫判決過程)解算器(行話也稱為“基本”或“標(biāo)準(zhǔn)”技術(shù)),例如數(shù)值迭代、策略迭代、改進的策略迭代、或線性編程。另一個實施例中,使命引擎使用與符號試探搜索策略(sLAO*)相結(jié)合的、使用符號模型檢查的、基于判決理論回歸的算法來解算MDP。符號模型檢查是通過在問題中自動利用結(jié)構(gòu),對數(shù)值迭代應(yīng)用動態(tài)編程的有效方式。在技術(shù)行話中這也稱為“結(jié)構(gòu)”方法,或稱為使用“因子”的表達。符號LAO*是一種試探搜索技術(shù),其還能在問題中自動利用結(jié)構(gòu)。這兩種方法的結(jié)合使得動態(tài)編程和試探搜索結(jié)合。該技術(shù)此處稱為“符號試探”搜索。
符號試探法提供運算法則,該法則提供使命引擎,具有(a)可表達性-能夠解算按MDP公式表達的隨機計劃任務(wù),(b)最佳性-對于給定MDP任務(wù)能夠產(chǎn)生最佳數(shù)值函數(shù),(c)空間復(fù)雜性-能夠通過有效數(shù)據(jù)結(jié)構(gòu)利用解題結(jié)構(gòu),(d)時間復(fù)雜性-能夠避免關(guān)于不可達狀態(tài)的計算浪費。
圖2示出了使命引擎130的一個實施例的框圖。使命接收邏輯210從用戶接收使命定義。一個實施例中,用戶僅列出一組要完成的任務(wù)。另一個實施例中,用戶定義了任務(wù)中的任何關(guān)聯(lián)。例如,任務(wù)可以是到一個ATM機上提款,購買一件禮物和喝點飲料。禮物和飲料的購買可以依賴于首先到ATM提款。一個實施例中,用戶定義了這些關(guān)聯(lián)。另一個實施例中,如下所述,使命引擎130識別這些關(guān)聯(lián)。
位置獲取邏輯210獲得一組倉庫的位置,倉庫中所需資源是可獲得的。上面的例子中,位置獲取邏輯210可以獲得ATM的位置,賣飲料的商店的位置,以及賣禮物的位置。一個實施例中,禮物類型的偏好由用戶定義,即,用戶表明他/她希望購買一個手表,位置獲取邏輯210獲取賣手表的商店。一個實施例中,位置獲取邏輯210獲取一組位置,例如,它獲取10個位置。
代價計算邏輯230計算在每個位置獲取資源的代價。代價包括項目的物理代價(即,ATM的提款額,飲料的價格等)和交易價格(即,傳輸時間)。
獎勵計算邏輯240計算完成每項任務(wù)的主觀值。這在一個實施例中,使得使命引擎130在受約束條件下僅完成具有最高獎勵的任務(wù)的一個子集。所述約束可以是時間、傳輸距離或用戶設(shè)定的任何其它約束。一個實施例中,用戶可以識別“必要”任務(wù)。例如,上面的例子中,用戶可以識別到ATM和購買禮物的任務(wù)是“必要的”而獲得飲料的任務(wù)是可選的。一個實施例中,系統(tǒng)可以默認(rèn)假設(shè)所有的任務(wù)都是可選的。另一個實施例中,系統(tǒng)可以默認(rèn)假設(shè)所有的任務(wù)都是必要的。一個實施例中,用戶可以設(shè)定他的或她的偏好作為默認(rèn)假設(shè)。
目標(biāo)編碼240對用戶設(shè)定的目標(biāo)(即,任務(wù))進行編碼以便于計算。一個實施例中,任務(wù)被公式化以利用符號試探法的益處。使用的編碼使得狀態(tài)變量的數(shù)目最小化并且利用了符號模型檢查方法(用于獲取初始試探)和符號試探法(用于計算策略)的有益特征。一個實施例中,編碼提供了非常靈活的結(jié)果,可以應(yīng)用到很廣泛的任務(wù)類型。然而,一個實施例中,某些決策被下載到外部程序以減小使命引擎所考慮的搜索空間。
使命分解邏輯250,在一個實施例中,分解兩步使命。使命分解邏輯250支持在兩個不同步驟獲得的資源,每個步驟被給定的時間長度分割。
例如,當(dāng)?shù)秸掌^沖洗一卷膠卷時,照片館提供一個小時的膠卷顯影服務(wù),用戶必須首先訪問照像館以放下膠卷,然后必須等待至少一個小時取照片。一個實施例中,使命引擎允許另一個狀態(tài)變量跟蹤特定的行為所需時間單元的通道(該例子中,從放下膠卷開始的一個小時),然后當(dāng)取膠卷時“獎勵”使命引擎。獎勵規(guī)定在下面情況下發(fā)生(1)用戶訪問照像館,(2)一個小時過去,和(3)用戶再次訪問照像館。使命引擎可以決定是等待更好,還是離開,并且試圖在可支配的時間內(nèi)完成其它任務(wù)。例如,用戶可以開車到服務(wù)站加油,這只需要15分鐘。使命引擎130計算完成清單上另一個任務(wù)的代價,然后決定這樣做的凈代價(獎勵減去傳輸代價)使其不超過僅等待15分鐘的代價。
一個實施例中,對于每個這樣的二步任務(wù),優(yōu)先的MDP補充有一個附加的多值狀態(tài)變量Tτ={t1,…tτ},其中Tτ是已經(jīng)發(fā)生的時間步(time step)數(shù)目的布爾變量表達,因為兩步任務(wù)的第一步開始了,所以Tτ∈{(0,0,…,0,0),(0,0,…0,1),(0,0,…,1,0),…,(1,1,…,1,0),(1,1,…,1,1)}。
該實施例中,當(dāng)Tτ={1,1,…,1}(即全為1)時,可以執(zhí)行兩步任務(wù)的第二步。該實施例中,該“秒表”變量的每個“滴答”(即時間步)對應(yīng)著一個時間單元,例如15分鐘。該實施例中,每個動作可以根據(jù)特定動作消耗的時間總量更新該秒表變量和增加秒表變量。一旦Tτ全為1,它保留該值,直到兩步任務(wù)的第二步驟完成。該實施例中,秒表變量可以代表2τ-1個時間步。另一個實施例中,一元編碼用于秒表變量,使得Tτ∈{(0,0,…,0,0),(0,0,…,0,1),(0,0,…,1,1),(1,1,…,1,1)}。該實施例中,秒表變量可以代表最多τ個時間步。另一個實施例中,“K的一個”編碼被使用,使得對于某些整數(shù)K,和τ=K,Tτ∈{(0,0,…,0,0),(0,0,…,0,1),(0,0,…,1,0),(0,1,…,0,0),(1,0,…,0,0)}。該實施例中,秒表變量可以代表最多τ個時間步。每個這些附加實施例中,兩步任務(wù)中的第二步在最高位(即此處所寫的最左邊的位)設(shè)置為1時執(zhí)行。一旦秒表變量到達它的最高值,它保持在該值,直到兩步任務(wù)中的第二步完成。
一個實施例中,一個附加的“等候”動作加入到動作組,使得“等候”動作導(dǎo)致代理人維持在相同的位置,除了增加秒表變量一個滴答(即,消耗一個時間單位)之外沒有其它影響。
起始狀態(tài)識別邏輯260定義了符號試探法使用的“初始情況”。起始狀態(tài)識別邏輯260,在一個實施例中,在任務(wù)描述編碼中利用規(guī)律性以指定所有的有效起始狀態(tài),然后產(chǎn)生由描述有效起始狀態(tài)組的特征函數(shù)指定的組合“初始情況”。這允許MDP解算器(能夠利用可達結(jié)構(gòu)(例如sLAO*))為所有有效起始狀態(tài)、而不是單個起始狀態(tài)計算有效的策略。另一個實施例中,起始狀態(tài)識別邏輯260識別單個有效起始狀態(tài)。這允許MDP解算器利用可達結(jié)構(gòu)(例如sLAO*),僅為這些從給定起始狀態(tài)中可以到達的狀態(tài)計算數(shù)值和策略。
集合點邏輯265識別可以結(jié)束使命引擎130指定路線的位置。一個實施例中,所述路線可以在任何位置結(jié)束。一個實施例中,使命引擎130允許倉庫的子集指定成“集合點位置”。集合點位置是使命引擎可以結(jié)束其路線的位置。集合點位置不需要包括任何資源。
例如,兩個人可以一起去購物,然后決定分開一段時間去完成他們各自的使命。他們決定在他們完成各自任務(wù)時匯合。他們指定一個集合點位置例如公園(其不包括他們各自購物單上的任何資源),或咖啡店(其可能包括他們購物單的資源)。一個實施例中,使命引擎還允許指定多個集合點。這允許第一個人完成單獨任務(wù)后在他們選擇的集合點等待,然后打電話給另一個人聯(lián)系他們在哪里等待。這樣,如果一個集合點位置被定義,路線在集合點位置結(jié)束。路線是否實際在集合點結(jié)束依賴于這樣做的獎勵和到達該集合點的代價的比較。通過設(shè)置獎勵大于旅行到集合點的最大代價,可以設(shè)置獎勵使得路線必須在一個集合點結(jié)束。
修剪邏輯270去除任何不可達狀態(tài)。在MPD解算器中某些狀態(tài)不會遇到,這是因為狀態(tài)轉(zhuǎn)移表(規(guī)定怎樣通過執(zhí)行動作從一個狀態(tài)到達一個狀態(tài))在一般應(yīng)用中可以阻止到達這些狀態(tài)。換句話說,這些狀態(tài)從特定的起始狀態(tài)組是“不可達”的。這些基于起始狀態(tài)識別邏輯260識別的起始狀態(tài)和由集合點邏輯265識別的結(jié)束狀態(tài)的“不可達狀態(tài)”被屏蔽。這意味著使命引擎130不計算這些不可達狀態(tài)。這顯著的減小了數(shù)值圖和策略圖的復(fù)雜度。也常使用不屏蔽的數(shù)值表,它具有幾十萬個節(jié)點,通過屏蔽可以減少到幾千個節(jié)點,大約減少90%。當(dāng)然所述減少依賴于問題和所述問題的可達結(jié)構(gòu)。
圖5A和5B說明了修剪的(屏蔽的)策略圖和無屏蔽的策略圖之間的區(qū)別??梢钥闯?,修剪的策略圖的復(fù)雜度更低,這是因為它不包含不可達狀態(tài)的策略,而無屏蔽的策略圖則包括。
利用可達性(例如符號LAO*)的MDP解算器的一個有益的副產(chǎn)品是使最終的數(shù)值函數(shù)排除不必要的狀態(tài),使最終的策略對所有不可達狀態(tài)產(chǎn)生一個“空”動作。圖5A和5B說明了由盲目無遺漏的Spudd方法產(chǎn)生的策略和“屏蔽”的策略(這里由LAO*產(chǎn)生)之間的區(qū)別。
圖5A示出了使命任務(wù)的簡化版本的非屏蔽策略,使用四個位置SV(at0,at1,at2,at3)和單個資源SV(parked)。(為簡化圖表對SV的跟蹤(這允許策略避免重復(fù)訪問位置)予以省略)。內(nèi)部(即,非結(jié)束)節(jié)點代表SV。如果SV為真,跟隨實線,否則跟隨虛線。葉(即,結(jié)束)節(jié)點代表動作。例如,對于parked AND at0(給定所有其它SV為假)的動作是stay。At3的動作(給定所有其它SV為假)是go_3to0。具有一個以上位置變量設(shè)置為真的任何節(jié)點是不可達的--這些節(jié)點永遠(yuǎn)不會被訪問。例如,at0 AND at1的動作(給定所有其它SV為假)是go_1to2。這說明由(無屏蔽的)數(shù)值迭代算法產(chǎn)生的策略包括不可達狀態(tài)的策略。
圖5B示出了圖5A中相同任務(wù)的屏蔽策略。屏蔽策略屏蔽不可達狀態(tài)??梢钥吹剑粋€實施例中,所有不可達狀態(tài)歸結(jié)到標(biāo)記“空”的單個結(jié)束節(jié)點。
例如,在一種總共具有11個位置、6個資源和29個狀態(tài)變量的情況下,在一個實施例中,被編碼的總狀態(tài)數(shù)超過536,870,912。然而,可達狀態(tài)數(shù)僅為2,883,584。這是位置狀態(tài)變量中的稀疏性造成的,因為使命引擎在任何一個時間必須嚴(yán)格的位于一個位置,在這種情況下編碼嚴(yán)格的將一個位置狀態(tài)變量設(shè)置為1,共有11個位置。因此僅0.54%的狀態(tài)可以到達。使用無遺漏(和盲目)搜索的通用數(shù)值迭代消耗一些周期,這些周期用于評價在實際使用中永遠(yuǎn)不會遇到的99.46%的狀態(tài)。
返回到圖2,一個實施例中,系統(tǒng)提供近似解以及最佳解。一個實施例中,使命引擎130包括最佳解發(fā)生器285和近似解發(fā)生器280。
近似解發(fā)生器280將“雙結(jié)束”ADD的數(shù)據(jù)結(jié)構(gòu)結(jié)合到sLAO*方法。這提供了用近似數(shù)值迭代技術(shù)替代精確數(shù)值迭代技術(shù)的選擇。在近似解適用的說明中這提供了額外的加速,進而同時獲得了近似數(shù)值迭代和符號試探搜索以及相關(guān)的屏蔽不可達狀態(tài)的益處。另一個實施例中,近似解使用近似線性編程技術(shù)獲得。
最佳解邏輯285計算迭代最佳解。一個實施例中,提供循環(huán)中斷邏輯290。在應(yīng)用領(lǐng)域上構(gòu)建最終的符號試探法之后,發(fā)現(xiàn)在收斂循環(huán)中消耗大量紊亂時間。循環(huán)中斷邏輯290是任務(wù)相關(guān)參數(shù),其允許最佳解邏輯285以兩種方式減小在循環(huán)中消耗的時間(a)通過指定最大極限限制迭代次數(shù),和/或(b)允許循環(huán)中斷邏輯290以中斷循環(huán)。如有必要最佳解邏輯285可以重新開始計算。一個實施例中,通過在執(zhí)行策略時設(shè)置初始狀態(tài)到最近遇到的狀態(tài),最佳解邏輯285可以在使用策略的運行時間之后重新開始計算。
圖2中描述的使命引擎130運用“倉庫”(資源倉庫)和“資源”(在倉庫中發(fā)現(xiàn)),以及購物單(也稱為使命清單)。使命引擎通過訪問倉庫和獲取資源產(chǎn)生一個“路線”,直到購物單清空。然后該路線被發(fā)送到用戶。
圖3是用戶系統(tǒng)的一個實施例的框圖。使命發(fā)送邏輯發(fā)送使命到使命引擎130。一個實施例中,用戶定義一組目標(biāo)。一個實施例中,用戶可以提供相對優(yōu)先級,或目標(biāo)間的關(guān)聯(lián)性。例如,用戶可以鍵入下面內(nèi)容1.到ATM取錢2.在Fondue Fred吃午飯3.為兒子購買禮物,需要先到ATM提款4.參觀San Francisco的最主要的景點上述清單指明了優(yōu)先級(順序)以及關(guān)聯(lián)。一個實施例中,關(guān)聯(lián)計算邏輯320可以提示用戶識別任何關(guān)聯(lián)。例如,當(dāng)接收上述清單時,系統(tǒng)可以提問需要在吃午飯之前到ATM提款嗎?集合點設(shè)置邏輯330允許用戶識別一個或多個目的地作為集合點。一個實施例中,僅識別的位置可以被識別為集合點。這樣,在上面的例子中,僅Fondue Fred可以指定為集合點,這是因為ATM、購買地點或參觀位置都沒有被特殊識別。另一個實施例中,上述任何一個都可以被識別為集合點。
一個實施例中,使用網(wǎng)絡(luò)接口。在這種情況下,在一個實施例中,接口可以如圖3B所示。可以看出,每個使命350的相鄰處列出了關(guān)聯(lián)清單360。一個實施例中,相關(guān)性360作為下拉菜單370顯示。一個實施例中,每種可能的組合都被示出。另一個實施例中,僅較高的優(yōu)先級(列在較高位置的)被示出。識別使命是否是集合點380也是可以選擇的。采用這種方式,用戶可以簡單提供系統(tǒng)足夠的數(shù)據(jù)以產(chǎn)生路線。
另一個實施例中,基于給定的用戶特征和領(lǐng)域知識,基于知識的系統(tǒng)決定適用于用戶和給定條件的典型關(guān)聯(lián)。一個實施例中,用戶特征由用戶提供。另一個實施例中,用戶特征通過觀察用戶一段時間提供。另一個實施例中,用戶特征通過觀察大量相似的用戶而獲得。一個實施例中,領(lǐng)域知識由專業(yè)設(shè)計者提供。另一個實施例中,領(lǐng)域知識由一般知識基礎(chǔ)例如Cyc提供。另一個實施例中,領(lǐng)域知識通過在該領(lǐng)域描述領(lǐng)域和推論規(guī)則的本體(ontology)提供。另一個實施例中,領(lǐng)域知識通過觀察大量相似用戶提供。
返回到圖3A,用戶系統(tǒng)包括路線接收邏輯340用于接收由使命引擎計算的路線。
圖4是使用使命引擎的一個實施例的流程圖。程序從方框405開始。在方框410中接收使命清單。一個實施例中,使命清單包括至少從不同倉庫獲得的兩個資源。
在方框415,識別每個倉庫的位置。在一個實施例中,從公共資源獲得倉庫的位置。例如,如果倉庫是賣場中的物理倉庫,賣場地圖(一般在英特網(wǎng)上可以得到)可以用來識別每個倉庫的位置。另一個實施例中,倉庫的位置從具有私有資源的合同中獲得,例如從賣場主或從代表賣場關(guān)系的市場代理那里獲得。另一個實施例中,倉庫位置從第三方數(shù)據(jù)賣主那里獲得。
在方框420中,識別每個倉庫的資源代價。如上指出的,資源代價包括交易代價(傳輸時間、停留時間等)和項目本身的實際代價。一個實施例中,項目的實際代價可以是未知的。該例子中,僅評估交易代價。一個實施例中,倉庫的存貨從公共資源獲得,例如英特網(wǎng)(例如廣告)。另一個實施例中,倉庫存貨可以從第三方數(shù)據(jù)賣方獲得。另一個實施例中,倉庫存貨從合作用戶組織獲得。
方框425中,程序評價使命清單上是否存在任何兩步任務(wù)。兩步任務(wù)需要兩個單獨的步驟,通常由時間或位置分開。如果存在兩步任務(wù),在方框430,它們被分解成單獨的任務(wù)。注意,該特征具有規(guī)定目標(biāo)間先決條件相關(guān)性的能力,其有效地允許具有兩步以上的多步驟任務(wù)。
在方框435中,為每個任務(wù)/項目識別獎勵。一個實施例中,用戶可以識別一個或多個使命的優(yōu)先級/獎勵水平。最簡單的,用戶可以識別某些使命是“必須被執(zhí)行”而其它的為“應(yīng)該被執(zhí)行”或“如有時間可以被執(zhí)行”的優(yōu)先級水平。一個實施例中,優(yōu)先級是數(shù)字化的。在標(biāo)準(zhǔn)任務(wù)計劃中,用戶可以為每個使命指定優(yōu)先級水平。優(yōu)先級越高,完成任務(wù)的獎勵越高。
在方框445中,識別起始狀態(tài)。一個實施例中,所有可能的起始狀態(tài)都被識別,產(chǎn)生識別所有起始狀態(tài)的單個公式。該單個公式然后用于使使命引擎計算所有可能起始狀態(tài)的路線。另一個實施例中,所有“有效”起始狀態(tài)被識別,其中“有效”意味著從一個空的購物卡開始,并且還沒有訪問任何位置。產(chǎn)生用于識別所有有效起始狀態(tài)的單個公式。另一個實施例中,識別單個起始狀態(tài),產(chǎn)生識別起始狀態(tài)的單個公式。
在方框450,程序判斷用戶是否識別了集合點。集合點是路線可以結(jié)束的節(jié)點。如果用戶識別了集合點,在方框455,則識別路線的可能結(jié)束點。否則,在一個實施例中,程序假定結(jié)束點可以在任何地方。注意集合點可以不是“倉庫”的節(jié)點,可以不含有“資源”。例如,對于購物,集合點可以是家。
在方框460,基于使命清單產(chǎn)生的獎勵圖被修剪。產(chǎn)生的“標(biāo)準(zhǔn)”獎勵圖試圖畫出所有可能的路徑,即,它是無遺漏的。然而,基于已知的起始條件存在大量的不可達狀態(tài)。例如,存在這樣的狀態(tài),在這些狀態(tài)用戶同時處于多個位置。這顯然是不可能的。因此,該修剪從計算中去除不可能的路徑。一個實施例中,該修剪或屏蔽,意味著這些路徑的值永遠(yuǎn)不會被計算。這使得評估階段節(jié)省了大量的時間。
在方框465,程序判斷近似解是否是可接受的。系統(tǒng)可以提供最佳解。然而,提供近似解消耗較少的時間。如果近似解可以被接受,程序繼續(xù)到方框470。在方框470,近似解被計算。如上描述,在一個實施例中,近似解使用“雙結(jié)束”ADD與sLAO*方法。另一個實施例中,近似解使用近似線性編程獲得。
程序然后繼續(xù)到方框490,路線信息被送到用戶。一個實施例中,在遠(yuǎn)離用戶便攜式系統(tǒng)的計算機系統(tǒng)中計算所述路線。該例子中,所述路線可以被用戶下載到便攜式系統(tǒng)。另一個實施例中,該步驟被跳過。程序然后結(jié)束于方框495。
如果在方框465中,近似解被認(rèn)為不可接受,程序進入到方框475。在方框475中,計算迭代最佳解。一個實施例中,最佳解使用sLAO*方法計算。另一個實施例中,最佳解使用傳統(tǒng)數(shù)值迭代計算。另一個實施例中,最佳解使用傳統(tǒng)策略迭代計算。另一個實施例中,最佳解使用改進的策略迭代計算。另一個實施例中,最佳解使用結(jié)構(gòu)數(shù)值迭代技術(shù)例如SPUDD計算。另一個實施例中,最佳解使用結(jié)構(gòu)數(shù)值迭代技術(shù)例如SPUDD,結(jié)合可達屏蔽近似法計算,該屏蔽近似法首先從初始狀態(tài)執(zhí)行可達性分析,然后僅在可達狀態(tài)組上應(yīng)用結(jié)構(gòu)數(shù)值迭代。另一個實施例中,最佳解使用傳統(tǒng)數(shù)值迭代,結(jié)合可達屏蔽近似法計算,該可達屏蔽近似法首先從初始狀態(tài)執(zhí)行可達性分析,然后僅在可達狀態(tài)組應(yīng)用數(shù)值迭代。
在方框480,程序判斷是否存在收斂循環(huán)鎖。一個實施例中,在測試中發(fā)現(xiàn)在收斂循環(huán)中消耗大量紊亂時間。因此如果收斂循環(huán)被檢測到,則程序繼續(xù)到方框485。在方框485,使用任務(wù)相關(guān)參數(shù),其允許理性的代理人以兩種方式減少循環(huán)所消耗的時間(a)通過指定最大極限來限制迭代數(shù)目,和(b)允許理性的代理人中斷循環(huán)。如有需要代理人可以重新開始計算。程序然后返回到方框475。另一個實施例中,通過在執(zhí)行策略時設(shè)置初始狀態(tài)到最近相遇的狀態(tài),最佳解邏輯285可以在運行時間使用策略重新開始計算。這允許MDP解算器集中它的計算資源從對應(yīng)當(dāng)前現(xiàn)實世界的狀態(tài)中探索那些僅可到達的狀態(tài)。如果沒有收斂循環(huán),最佳解被成功的計算,程序繼續(xù)到方框490。
圖6是使用本發(fā)明的計算機系統(tǒng)的一個實施例。對于本領(lǐng)域普通技術(shù)人員這是顯而易見的,然而也可使用其它各種體系結(jié)構(gòu)的備選的系統(tǒng)。
圖6中闡述的數(shù)據(jù)處理系統(tǒng)包括總線或用于交流信息的其它內(nèi)部通訊裝置615,耦合到總線615用于處理信息的處理器610。系統(tǒng)進一步包括隨機存取存儲器(RAM)或其它易失性存儲設(shè)備650(稱為存儲器),耦合到總線615以存儲被處理器610執(zhí)行的信息和指令。主存儲器650還可以用于在處理器610執(zhí)行指令時存儲暫時變量或其它中間信息。系統(tǒng)還包括一個只讀存儲器(ROM)和/或耦合到總線615的靜態(tài)存儲設(shè)備620以存儲靜態(tài)信息和處理器610的指令,以及一個數(shù)據(jù)存儲設(shè)備625,例如磁盤或光盤和與之對應(yīng)的磁盤驅(qū)動。數(shù)據(jù)存儲設(shè)備625耦合到總線615以存儲信息和指令。
系統(tǒng)可以進一步耦合到顯示設(shè)備670,例如通過總線665耦合到總線615的陰極射線管(CRT)或液晶顯示器(LCD),用于為計算機用戶顯示信息。一個文字?jǐn)?shù)字輸入設(shè)備675,包括文字?jǐn)?shù)字和其它鍵,也可以通過總線665耦合到總線615以交流信息和命令選擇到處理器610。附加的用戶輸入設(shè)備是指針控制設(shè)備680,例如通過總線665耦合到總線615的鼠標(biāo),跟蹤球,觸筆,或指針方向鍵以交流方向信息和命令選擇到處理器610,以及控制指針在顯示設(shè)備670上移動。
可選的耦合到計算機系統(tǒng)600的另一個設(shè)備,是通過網(wǎng)絡(luò)訪問分布式系統(tǒng)其它節(jié)點的通訊設(shè)備690。通訊設(shè)備690可以包括任何大量的商用可獲得的網(wǎng)絡(luò)外圍設(shè)備,例如耦合到以太網(wǎng)、令牌環(huán)、英特網(wǎng)或?qū)拝^(qū)域網(wǎng)的設(shè)備。通訊設(shè)備690還可以是零調(diào)制解調(diào)器連接、無線連接機制或任何提供計算機系統(tǒng)600和外部世界之間連接的其它機制。注意圖6中描述的任何或所有這些系統(tǒng)的部件和相關(guān)硬件可以在本發(fā)明的不同實施例中使用。
對于本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解的是,系統(tǒng)的任何配置可以根據(jù)特定應(yīng)用用于多種目的。應(yīng)用本發(fā)明的控制邏輯或軟件可以存儲在主存儲器650、主存儲設(shè)備625或其它可以被處理器610訪問的本地或遠(yuǎn)程存儲介質(zhì)中。
對于本領(lǐng)域普通技術(shù)人員來說很顯然這里描述的系統(tǒng)、方法和程序可以作為存儲在主存儲器650或只讀存儲器620的軟件實施并且被處理器610執(zhí)行。該控制邏輯或軟件可以存在于制造的物品中,該制造的物品包括計算機可讀介質(zhì),該可讀介質(zhì)中嵌入有計算可讀程序代碼,并且通過主存儲設(shè)備625讀取以使得處理器610根據(jù)此處的方法和教導(dǎo)進行操作。
本發(fā)明可以嵌入在手持或便攜式設(shè)備中,該設(shè)備包含上面描述的計算機硬件部件的子集。例如,手持設(shè)備可以配置成僅包含總線615、處理器610、存儲器650和/或625。本發(fā)明還可以嵌入到特殊目的裝置中,該特殊目的裝置包括上面描述的計算機硬件部件的子集。例如,該裝置可以包括處理器610、數(shù)據(jù)存儲設(shè)備625、總線615、和存儲器650,以及僅基本的通訊機制,例如允許用戶和設(shè)備以基本方式交流的小接觸屏。一般而言,設(shè)備目的越特殊,設(shè)備需要的元件越少。一些設(shè)備中,和用戶的通訊可以通過基于接觸的屏幕或相似機制實現(xiàn)。
對于本領(lǐng)域普通技術(shù)人員來說應(yīng)當(dāng)理解的是,系統(tǒng)的任何配置可以用于根據(jù)特殊實施的多種目的。實施本發(fā)明的控制邏輯或軟件可以存儲在能被處理器610訪問的本地或遠(yuǎn)程的任何機器可讀介質(zhì)中。機器可讀介質(zhì)包括任何存儲或傳輸可被機器(例如,計算機)讀取形式的信息的機制。例如,機器可讀介質(zhì)包括只讀存儲器(ROM),隨機存取存儲器(RAM),磁盤存儲介質(zhì)、光學(xué)存儲介質(zhì),閃存設(shè)備、光學(xué)、電學(xué)、聲學(xué)或其它傳播信號的形式(例如載波、紅外信號、數(shù)字信號等)。
本發(fā)明的使命引擎適用于多種應(yīng)用。下面列出了一些可以使用本發(fā)明使命引擎的應(yīng)用實例(a)網(wǎng)絡(luò)服務(wù)合成自動從一組服務(wù)產(chǎn)生合成服務(wù)。
(b)旅行計劃基于興趣水平、旅游偏好(走路還是乘坐公共交通還是自駕車)為游客產(chǎn)生到達各個旅游目的地的個性化路線,以參觀不同景點。
(c)購物代理在給定購物者購物單和其它偏好(例如在倉庫中和所需價格點間分類的偏好)基礎(chǔ)上,為購物者產(chǎn)生路線訪問商店賣場。
(d)博物館路線計劃在游客的偏好和機動性(有活力的單個步行者還是悠閑漫步的夫妻還是坐輪椅者)基礎(chǔ)上,建議一個訪問博物館中陳設(shè)的策略。
(e)設(shè)備協(xié)調(diào)在被主設(shè)備使用的鄰近網(wǎng)絡(luò)中給定一組服務(wù)設(shè)備,為主設(shè)備提供策略,優(yōu)化訪問服務(wù)設(shè)備,為執(zhí)行一些任務(wù)將所述設(shè)備排序。例如,數(shù)碼相機拍攝快照,傳送它到PDA進行圖像處理以修剪圖片和消除圖像中人物目標(biāo)的紅眼,傳送一個硬拷貝到附近的商用打印機以便于后續(xù)提取,通過手機傳送一個拷貝給用戶配偶,然后指引GPS設(shè)備為用戶提供行走方向以定位該商用打印機,以便提取該硬拷貝。
(f)個人信息助理為位于廣域網(wǎng)(例如英特網(wǎng)或環(huán)球網(wǎng))的一組資源進行優(yōu)化排序。
(g)工作流程任務(wù)算法也適合用于自動排序,該自動排序有利于對共享項目產(chǎn)生文件工作流程或協(xié)作,例如當(dāng)文件需要有次序的放置以獲得必要的評價、建議和標(biāo)記時。
(h)編程游戲字符。
(i)編程機器人玩具。
前面的說明中,本發(fā)明參照特定示例的實施例予以描述。然而,很明顯可以對其進行各種修改和改變,而不偏離本發(fā)明附屬權(quán)利要求書的寬廣精神和發(fā)明范圍。說明和附圖,僅用于說明而不是限制。
權(quán)利要求
1.一種使命引擎130,包括使命接收邏輯210,用于接收一組包括使命的任務(wù);起始狀態(tài)識別邏輯260,產(chǎn)生描述有效起始狀態(tài)組的特征函數(shù);和解算邏輯280、285,產(chǎn)生完成使命的路線。
2.根據(jù)權(quán)利要求1所述的使命引擎130,進一步包括修剪邏輯270,用于屏蔽基于有效起始狀態(tài)組的不可達狀態(tài)。
3.根據(jù)權(quán)利要求1所述的使命引擎130,進一步包括集合點邏輯330,用于定義結(jié)束位置,其中所述路線在結(jié)束位置結(jié)束。
4.根據(jù)權(quán)利要求1所述的使命引擎,進一步包括代價計算邏輯230,用于計算從倉庫獲取資源的代價。
5.根據(jù)權(quán)利要求4所述的使命引擎130,其中所述代價包括實際代價和交易代價。
6.根據(jù)權(quán)利要求1所述的使命引擎130,進一步包括循環(huán)中斷邏輯290,以結(jié)束收斂循環(huán)。
7.根據(jù)權(quán)利要求6所述的使命引擎130,其中所述循環(huán)中斷邏輯配置為通過識別最大極限而限制迭代數(shù)目。
8.根據(jù)權(quán)利要求6所述的使命引擎130,其中所述循環(huán)中斷邏輯290配置為允許所述使命引擎中斷所述循環(huán)。
9.根據(jù)權(quán)利要求1所述的使命引擎130,進一步包括使命分解邏輯250,以分解多步使命成單獨的任務(wù)。
10.一種構(gòu)建路線的方法,包括接收一組包括使命的任務(wù)410;產(chǎn)生特征函數(shù)445以描述有效起始狀態(tài)組;和產(chǎn)生路線470、475以完成任務(wù)的至少一個子集,使得獎勵最大化。
11.根據(jù)權(quán)利要求10所述的方法,進一步包括屏蔽狀態(tài)460,基于有效起始狀態(tài)組該屏蔽狀態(tài)460是不可達的。
12.根據(jù)權(quán)利要求10所述的方法,進一步包括接收一個或多個集合點位置450、455,每個集合點位置是路線的一個有效結(jié)束節(jié)點。
13.根據(jù)權(quán)利要求10所述的方法,進一步包括計算從倉庫獲得資源的代價415、420。
14.根據(jù)權(quán)利要求13所述的方法,其中所述代價包括實際代價和交易代價。
15.根據(jù)權(quán)利要求10所述的方法,進一步包括定義一個收斂循環(huán)480;和結(jié)束收斂循環(huán)485。
16.根據(jù)權(quán)利要求15所述的方法,其中結(jié)束收斂循環(huán)485包括判斷多個收斂循環(huán)的迭代475、480、485是否超出最大極限;和如果收斂循環(huán)已經(jīng)超出最大極限,結(jié)束收斂循環(huán)485。
17.根據(jù)權(quán)利要求15所述的方法,其中結(jié)束收斂循環(huán)包括中斷收斂循環(huán)485。
18.一種系統(tǒng),包括用戶系統(tǒng)110,與用戶交互以識別一組要完成的任務(wù);使命引擎130,包括起始狀態(tài)識別邏輯260,用于產(chǎn)生描述有效起始狀態(tài)組的特征函數(shù);和解算邏輯280、285,用于產(chǎn)生完成使命的路線。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述使命引擎進一步包括修剪邏輯270,用于屏蔽基于有效起始狀態(tài)組的不可達狀態(tài)。
20.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述使命引擎130進一步包括集合點邏輯330,用于定義結(jié)束位置,其中所述路線在結(jié)束位置處結(jié)束。
21.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述用戶系統(tǒng)110包括為服務(wù)器提供網(wǎng)絡(luò)接口的系統(tǒng)。
22.一種使命引擎130包括接收邏輯210,用于接收多個包括使命的任務(wù),每個任務(wù)包括與之相關(guān)的完成獎勵;目標(biāo)編碼240,用于將多個任務(wù)編碼成多個狀態(tài)和狀態(tài)轉(zhuǎn)移;修剪邏輯270,用于屏蔽不可達的狀態(tài)和狀態(tài)轉(zhuǎn)移;解算邏輯280、285,用于產(chǎn)生路線。
23.根據(jù)權(quán)利要求22所述的使命引擎130,其中所述路線完成多個任務(wù)的一個子集。
24.根據(jù)權(quán)利要求22所述的使命引擎130,進一步包括集合點邏輯330,用于定義結(jié)束位置,其中所述路線在結(jié)束位置結(jié)束。
25.根據(jù)權(quán)利要求22所述的使命引擎130,其中代價計算邏輯230計算完成獎勵,所述完成獎勵包括資源值減去獲取所述資源的代價。
26.根據(jù)權(quán)利要求25所述的使命引擎130,其中所述代價包括實際代價和交易代價。
27.一種使命引擎,包括裝置210,用于接收使命;第一裝置270,去除不可達狀態(tài);第二裝置280、285,產(chǎn)生基于不被第一裝置屏蔽的可達狀態(tài)的路線。
28.根據(jù)權(quán)利要求27所述的使命引擎,其中,第一裝置包括將所述目標(biāo)編碼成多個狀態(tài)的裝置;和屏蔽多個不可達狀態(tài)子集的裝置。
29.一種方法,包括接收410多個將被獲取的資源;為所述多個資源中的每個資源識別位置415,所述位置具有潛在可獲取的資源;計算所述位置的一個路線465-485;和在集合點位置結(jié)束所述路線455,所述集合點位置由用戶定義。
30.根據(jù)權(quán)利要求29所述的方法,其中多個集合點位置被接收,每個集合點位置都是路線可接受的終點。
31.根據(jù)權(quán)利要求29所述的方法,其中所述路線僅包括獲取所述資源的子集的位置的一個子集。
32.一種機器可讀介質(zhì),其上存儲有代表指令順序的數(shù)據(jù),當(dāng)它被計算機系統(tǒng)執(zhí)行時,通過執(zhí)行以下步驟,使所述計算機系統(tǒng)構(gòu)建一個路線來完成使命接收在不同位置可以獲得的資源的清單410,獲取的資源清單包括使命;產(chǎn)生特征函數(shù)445以描述有效起始狀態(tài)組;和產(chǎn)生路線465-485以完成任務(wù)的至少一個子集,所述路線設(shè)計成使得獎勵最大化。
33.根據(jù)權(quán)利要求32所述的機器可讀介質(zhì),其上進一步存儲有代表指令順序的數(shù)據(jù),當(dāng)它被計算機系統(tǒng)執(zhí)行時,使所述計算機系統(tǒng)執(zhí)行以下步驟屏蔽基于有效起始狀態(tài)組的不可達狀態(tài)460。
34.根據(jù)權(quán)利要求32所述的機器可讀介質(zhì),其上進一步存儲有代表指令順序的數(shù)據(jù),當(dāng)它被計算機系統(tǒng)執(zhí)行時,使所述計算機系統(tǒng)執(zhí)行以下步驟計算從倉庫獲取資源的代價420,其中所述代價包括實際代價和交易代價。
35.根據(jù)權(quán)利要求32所述的機器可讀介質(zhì),其上進一步存儲有代表指令順序的數(shù)據(jù),當(dāng)它被計算機系統(tǒng)執(zhí)行時,使所述計算機系統(tǒng)執(zhí)行以下步驟識別480一個收斂循環(huán);和結(jié)束485所述收斂循環(huán)。
全文摘要
描述一種提供使命引擎130的方法和裝置。使命引擎130包括使命接收邏輯210,用于接收一組包括使命的任務(wù);起始狀態(tài)識別邏輯260,用于產(chǎn)生描述有效起始狀態(tài)組的特征函數(shù);以及解算邏輯280、285,用于產(chǎn)生完成使命的路線。
文檔編號G06F9/00GK1894559SQ200480007380
公開日2007年1月10日 申請日期2004年3月4日 優(yōu)先權(quán)日2003年3月17日
發(fā)明者M·E·普盧托夫斯基 申請人:索尼電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丰原市| 克拉玛依市| 通许县| 荃湾区| 盱眙县| 郁南县| 清流县| 青龙| 佛教| 瑞昌市| 专栏| 临海市| 鸡泽县| 阳山县| 南陵县| 阜宁县| 出国| 绥德县| 博乐市| 仪陇县| 济源市| 柳林县| 青龙| 玉环县| 昆明市| 来安县| 九龙坡区| 民县| 贵阳市| 黎平县| 客服| 潞西市| 邢台市| 江口县| 武乡县| 子洲县| 三亚市| 陇川县| 新津县| 全椒县| 台北县|