專利名稱:一種采用多種智能代理算法的電力市場混合仿真方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電力系統(tǒng)及其自動化領(lǐng)域,具體涉及一種采用多種智能代理算法的電 力市場混合仿真方法。
背景技術(shù):
電力市場仿真是實現(xiàn)對電力市場運作以及市場參與各方行為的模擬仿真,市場成 員仿真是模擬市場參與者的市場行為,是實現(xiàn)電力市場仿真關(guān)鍵一個環(huán)節(jié)。電力市場是一 個開放的、多方博弈的復(fù)雜動態(tài)系統(tǒng),市場成員的市場行為具有不確定性和相互影響等特 征。電力市場成員仿真需要采用多代理技術(shù),通過系統(tǒng)結(jié)構(gòu)設(shè)計和建模,將電力市場成員抽 象為智能主體代理Agent,這些代理Agent能夠自主地對電力系統(tǒng)和電力市場運行情況進 行感知、分析、推理和判斷,并通過和相關(guān)代理Agent進行協(xié)商、以及自學(xué)習(xí)、自適應(yīng)的規(guī)劃 能力,制定各自的交易策略和方案。而基于代理的仿真方法主要是通過智能算法來代理發(fā)電公司進行競價策略選擇, 然后根據(jù)每次出清的結(jié)果來研究電力市場的各類問題。電力市場仿真中的智能體是對人的 學(xué)習(xí)與決策行為的模擬?,F(xiàn)有研究工作中對人的學(xué)習(xí)能力的模擬主要采用遺傳算法或強 化學(xué)習(xí)的方法,盡管具有理性,能清晰地反映出每一個因素的影響,但與實際市場情況差別 較大。而采用多種智能代理算法的電力市場混合仿真方法,能使得電力市場仿真試驗中各 個代理Agent具有“理性”的同時,又具有“個性”,更接近于實際的電力市場。本發(fā)明一種 采用多種智能代理算法的電力市場混合仿真方法更能接近于電力市場中各個個體具有“共 性”同時的又具有“個性”,為電力市場仿真的研究提供了工具。智能代理算法中各代理Agent代表著每個市場參與者,代理Agent應(yīng)基于它本身 的信息和對于市場環(huán)境的認識做出最優(yōu)決策,整個電力市場仿真屬于一個動態(tài)博弈過程。 因此,對每個代理做出最優(yōu)策略所選的智能算法有較高的要求。
發(fā)明內(nèi)容
本發(fā)明為了克服現(xiàn)有技術(shù)中的不足,提供了一種采用多種智能代理算法的電力市 場混合仿真方法。電力市場仿真是實現(xiàn)對電力市場運作以及市場參與各方行為的模擬仿真,市場成 員仿真是模擬市場參與者的市場行為,是實現(xiàn)電力市場仿真關(guān)鍵一個環(huán)節(jié)。在電力市場計 算經(jīng)濟學(xué)仿真模型中,各獨立的代理Agent根據(jù)市場信息以自身收益最大化為目標選擇競 標策略提交給交易中心,交易中心根據(jù)市場需求確定各代理Agent的發(fā)電量和電價,并將 所需信息反饋給各代理Agent,各代理Agent根據(jù)反饋的結(jié)果再調(diào)整自身策略,如此循環(huán), 直至達到一個平衡的狀態(tài)。整個電力市場仿真屬于一個動態(tài)博弈過程,智能代理算法決策 行為直接影響實驗的結(jié)果,因此,對代理做出最優(yōu)策略所選的智能算法有較高的要求。應(yīng)用到電力市場仿真系統(tǒng)中的智能代理算法有R-E算法、規(guī)則推理算法、Q學(xué)習(xí)算 法和協(xié)同粒子群算法。在同一個仿真試驗中R-E算法代理的報價水平較高,報價策略行為表現(xiàn)為激進,Q-Learning算法代理的報價水平中等,報價策略行為特性表現(xiàn)為中庸,Greedy 算法代理的報價水平偏低,報價策略行為特性表現(xiàn)為保守,而協(xié)同粒子群算法報價水平較 高,報價策略行為表現(xiàn)為激進。在實際電力市場中,各市場成員的報價策略特性是不相同 的,所以本發(fā)明提出在同一仿真試驗中,各代理Agent采用不同的智能代理算法,形成混合 試驗的仿真,更接近實際的電力市場。本發(fā)明的一種采用多種智能代理算法的電力市場混合仿真方法,在電力市場仿 真模型中,各代理Agent采用不同的智能代理算法,形成混合試驗的仿真,各獨立的代理 Agent根據(jù)市場信息以自身收益最大化為目標選擇競標策略提交給交易中心,交易中心根 據(jù)市場需求確定各代理Agent的發(fā)電量和電價,并將所需信息反饋給各代理Agent,各代理 Agent根據(jù)反饋的結(jié)果再調(diào)整自身策略,如此循環(huán),直至達到一個平衡的狀態(tài),具體步驟如 下(1)建立電力市場仿真實驗環(huán)境電力市場仿真環(huán)境以實際電力系統(tǒng)為原型,建立仿真實驗需要的物理電力系統(tǒng), 包括電廠分布等,在該電力系統(tǒng)上組織電力市場交易,搭建起電力市場仿真實驗環(huán)境;(2)電力市場仿真實驗方案設(shè)計電力市場仿真實驗方案設(shè)計包括市場成員、市場模式、市場出清規(guī)則,確定參與市 場競價交易的成員,采用的市場模式,以及根據(jù)投標策略市場出清的規(guī)則等;(3)電力市場成員投標策略設(shè)計智能代理算法中各代理Agent代表著每個市場參與者,電力市場成員仿真采用的 算法包括智能代理算法和強化學(xué)習(xí)算法;(4)電力市場仿真實驗執(zhí)行實驗設(shè)計完畢后,即可執(zhí)行仿真實驗;(5)電力市場仿真實驗分析實驗執(zhí)行完畢后,對實驗結(jié)果進行分析。其中,所述采用的市場模式包括單邊市場、雙邊市場,所述根據(jù)投標策略市場出清 的規(guī)則包括邊際電價出清和結(jié)算電價出清。其中,所述強化學(xué)習(xí)算法基于動物學(xué)習(xí)原理-條件反射,是指智能系統(tǒng)從環(huán)境到 行為映射的學(xué)習(xí),以使獎勵信號函數(shù)值最大,由環(huán)境提供的強化信號是對產(chǎn)生動作的好壞 作一種評價,而不是告訴強化學(xué)習(xí)系統(tǒng)RLS如何去產(chǎn)生正確的動作,目標函數(shù)中不存在梯 度信息,故在強化學(xué)習(xí)網(wǎng)絡(luò)中需要某種隨機因素才能研究可能的輸出空間并找到正確的輸 出值,所述強化學(xué)習(xí)算法有R-E算法、規(guī)則推理算法、Q學(xué)習(xí)算法和協(xié)同粒子群算法。其中,(I)R-E 算法這個算法主要遵循三個基本原理(1)按照被生物學(xué)廣泛接受的“條件反射”原 理以前成功的行動總是在以后的行動中更容易被采用;(2)最近的經(jīng)驗比更遠的經(jīng)驗更 容易被采用;(3)學(xué)習(xí)的過程通常具備這樣的過程開始學(xué)習(xí)快速,后來則學(xué)習(xí)變化的速度 減慢;該算法可在不完全信息有限策略博弈中,即博弈參與人在不知道其他參與人的收 益和決策的條件下,通過有限博弈策略尋找到唯一的貝葉斯納什均衡.;R-E強化學(xué)習(xí)算法
5是一種自適應(yīng)的學(xué)習(xí)方法,代理通過不斷地與環(huán)境進行交互所得到的經(jīng)驗來進行學(xué)習(xí),可 以用這種算法來模擬不完全信息市場中發(fā)電商的策略報價過程;(2) Q-Iearning 算法在Q-Iearning算法中,為了決定智能體在交易周期中使用探索和利用,引入了一 個決策因子,基于智能體收益最大化的目標是否實現(xiàn)來更新行使探索或利用行動的概率; 每個發(fā)電商智能體通過探索和利用來行使每次競價交易的市場策略,通過比較目標收益, 來決定是選擇利用或探索。在探索過程中,智能體通過試錯模式學(xué)習(xí)市場環(huán)境,如果探索使 得收益增加,智能體將會增加行使探索行動的概率,否則行使利用行動的概率將會增加;(3)規(guī)則推理型算法規(guī)則推理型算法是一種啟發(fā)式算法,它在一定程度上能夠反映人追求更多利潤的 心理與機制,在實驗中展現(xiàn)出很好的性能,是一種不可或缺的算法;規(guī)則推理型算法是根據(jù) 代理報價曲線各容量段被收購與否的狀況,來調(diào)整其相應(yīng)容量段的報價,以期達到發(fā)電量 與收益最大化;該算法運用前提為代理報價函數(shù)為分段梯形上升曲線,各個容量段的報價 根據(jù)報出的價格遞增;(4)協(xié)同粒子群算法電力市場仿真模型中各代理Agent代表著每個市場參與者,代理Agent應(yīng)基于它 本身的信息和對于市場環(huán)境的認識做出最優(yōu)決策,整個電力市場仿真屬于一個動態(tài)博弈過 程。協(xié)同粒子群算法是將整個種群分解為若干個子種群,每個種群代表一個市場成員代理 Agent,種群中每個粒子代表該發(fā)電公司的一個報價策略方案,各個子種群獨立地用標準粒 子群進化,達到周期時,更新全局最好位置;這樣,各個子種群既能充分地在子種群內(nèi)部不 斷地搜索,不會迷失自己的尋優(yōu)方向,又能利用周期性地共享全局最好位置促使粒子找到 最好值;協(xié)同進化在進化過程中既充分發(fā)揮每個個體的自主能動性,又在進化中通過協(xié)作 或?qū)惯M行相互學(xué)習(xí)和自我完善,從而達到整個群體協(xié)同進化的目的。本發(fā)明的有益效果是不同的智能代理算法報價策略特性不盡相同,采用多種智能代理算法的電力市場 混合仿真方法試驗中使得各個代理Agent具有“理性”的同時,又具有“個性”,更接近于實 際的電力市場。
下面結(jié)合附圖對本發(fā)明進一步說明。圖1是依據(jù)本發(fā)明的仿真方法的電力市場仿真模型示意圖。圖2是依據(jù)本發(fā)明的仿真方法的仿真試驗結(jié)果的曲線示意圖。
具體實施例方式本發(fā)明提供了一種采用多種智能代理算法的電力市場混合仿真方法。在電力市場仿真模型中,各獨立的代理Agent根據(jù)市場信息以自身收益最大化為 目標選擇競標策略提交給交易中心,交易中心根據(jù)市場需求確定各代理Agent的發(fā)電量和 電價,并將所需信息反饋給各代理Agent,各代理Agent根據(jù)反饋的結(jié)果再調(diào)整自身策略, 如此循環(huán),直至達到一個平衡的狀態(tài)。整個電力市場仿真屬于一個動態(tài)博弈過程,智能代理算法決策行為直接影響實驗的結(jié)果,因此,對代理做出最優(yōu)策略所選的智能算法有較高的 要求。應(yīng)用到電力市場仿真系統(tǒng)中的智能代理算法有R-E算法、規(guī)則推理算法、Q學(xué)習(xí)算 法和協(xié)同粒子群算法。在同一個仿真試驗中R-E算法代理的報價水平較高,報價策略行為 表現(xiàn)為激進,Q-Learning算法代理的報價水平中等,報價策略行為特性表現(xiàn)為中庸,Greedy 算法代理的報價水平偏低,報價策略行為特性表現(xiàn)為保守,而協(xié)同粒子群算法報價水平較 高,報價策略行為表現(xiàn)為激進。在實際電力市場中,各市場成員的報價策略特性是不相同 的,所以本發(fā)明提出在同一仿真試驗中,各代理Agent采用不同的智能代理算法,形成混臺 試驗的仿真,更接近實際的電力市場。通過電力市場仿真建模平臺,建立東北區(qū)域電力市場交易模型。其中電廠機組信 息、安全區(qū)劃分、聯(lián)絡(luò)線限值等系統(tǒng)數(shù)據(jù)以及市場成員的經(jīng)濟數(shù)據(jù)按照實際歷史數(shù)據(jù)設(shè)定; 市場交易模式按照東北電力市場交易運營規(guī)則,采用月度單邊集中競價方式;出清算法規(guī) 則按東北電力市場交易運營規(guī)則編制部署。市場成員報價行為模擬,采用混合智能代理算 法進行智能代理報價模擬仿真。根據(jù)東北電力市場運營規(guī)則,設(shè)置調(diào)整各實驗情景的競價空間,以反映不同的負 荷需求。其它條件在各實驗情景下完全相同。12個實驗情景的競價空間從6. 5TWh到12TWh, 每個情景的競價空間相差0. 5TWh。仿真試驗結(jié)果如圖2的曲線所示(各實驗情景電價曲 線)從曲線圖2中可以看出,隨著負荷需求的增長,整個市場的平均申報電價隨之增 加,進而直接影響市場的邊際電價隨之增加。在電力供應(yīng)相對比較充足的情況下,電價增長 的速度比較平緩,當出現(xiàn)電力供應(yīng)緊張時電價增長幅度急劇加大,市場趨于不穩(wěn)定。
權(quán)利要求
一種采用多種智能代理算法的電力市場混合仿真方法,其特征在于在電力市場仿真模型中,各代理Agent采用不同的智能代理算法,形成混合試驗的仿真,各獨立的代理Agent根據(jù)市場信息以自身收益最大化為目標選擇競標策略提交給交易中心,交易中心根據(jù)市場需求確定各代理Agent的發(fā)電量和電價,并將所需信息反饋給各代理Agent,各代理Agent根據(jù)反饋的結(jié)果再調(diào)整自身策略,如此循環(huán),直至達到一個平衡的狀態(tài),具體步驟如下(1)建立電力市場仿真實驗環(huán)境電力市場仿真環(huán)境以實際電力系統(tǒng)為原型,建立仿真實驗需要的物理電力系統(tǒng),包括電廠分布等,在該電力系統(tǒng)上組織電力市場交易,搭建起電力市場仿真實驗環(huán)境;(2)電力市場仿真實驗方案設(shè)計電力市場仿真實驗方案設(shè)計包括市場成員、市場模式、市場出清規(guī)則,確定參與市場競價交易的成員,采用的市場模式,以及根據(jù)投標策略市場出清的規(guī)則等;(3)電力市場成員投標策略設(shè)計智能代理算法中各代理Agent代表著每個市場參與者,電力市場成員仿真采用的算法包括智能代理算法和強化學(xué)習(xí)算法;(4)電力市場仿真實驗執(zhí)行實驗設(shè)計完畢后,即可執(zhí)行仿真實驗;(5)電力市場仿真實驗分析實驗執(zhí)行完畢后,對實驗結(jié)果進行分析。
2.如權(quán)利要求1所述的方法,其特征在于所述采用的市場模式包括單邊市場、雙邊市 場,所述根據(jù)投標策略市場出清的規(guī)則包括邊際電價出清和結(jié)算電價出清。
3.如權(quán)利要求1所述的方法,其特征在于所述強化學(xué)習(xí)算法基于動物學(xué)習(xí)原理-條 件反射,是指智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號函數(shù)值最大,由環(huán)境提供的 強化信號是對產(chǎn)生動作的好壞作一種評價,而不是告訴強化學(xué)習(xí)系統(tǒng)RLS如何去產(chǎn)生正確 的動作,目標函數(shù)中不存在梯度信息,故在強化學(xué)習(xí)網(wǎng)絡(luò)中需要某種隨機因素才能研究可 能的輸出空間并找到正確的輸出值,所述強化學(xué)習(xí)算法有R-E算法、規(guī)則推理算法、Q學(xué)習(xí) 算法和協(xié)同粒子群算法。
4.如權(quán)利要求1-3任一所述的方法,其特征在于(1)R-E算法這個算法主要遵循三個基本原理(1)按照被生物學(xué)廣泛接受的“條件反射”原理以 前成功的行動總是在以后的行動中更容易被采用;(2)最近的經(jīng)驗比更遠的經(jīng)驗更容易被 采用;(3)學(xué)習(xí)的過程通常具備這樣的過程開始學(xué)習(xí)快速,后來則學(xué)習(xí)變化的速度減慢;該算法可在不完全信息有限策略博弈中,即博弈參與人在不知道其他參與人的收益和 決策的條件下,通過有限博弈策略尋找到唯一的貝葉斯納什均衡.;R-E強化學(xué)習(xí)算法是一 種自適應(yīng)的學(xué)習(xí)方法,代理通過不斷地與環(huán)境進行交互所得到的經(jīng)驗來進行學(xué)習(xí),可以用 這種算法來模擬不完全信息市場中發(fā)電商的策略報價過程;(2)Q-Iearning 算法在Q-Iearning算法中,為了決定智能體在交易周期中使用探索和利用,引入了一個決 策因子,基于智能體收益最大化的目標是否實現(xiàn)來更新行使探索或利用行動的概率;每個發(fā)電商智能體通過探索和利用來行使每次競價交易的市場策略,通過比較目標收益,來決 定是選擇利用或探索。在探索過程中,智能體通過試錯模式學(xué)習(xí)市場環(huán)境,如果探索使得收 益增加,智能體將會增加行使探索行動的概率,否則行使利用行動的概率將會增加;(3)規(guī)則推理型算法規(guī)則推理型算法是一種啟發(fā)式算法,它在一定程度上能夠反映人追求更多利潤的心理 與機制,在實驗中展現(xiàn)出很好的性能,是一種不可或缺的算法;規(guī)則推理型算法是根據(jù)代理 報價曲線各容量段被收購與否的狀況,來調(diào)整其相應(yīng)容量段的報價,以期達到發(fā)電量與收 益最大化;該算法運用前提為代理報價函數(shù)為分段梯形上升曲線,各個容量段的報價根據(jù) 報出的價格遞增;(4)協(xié)同粒子群算法電力市場仿真模型中各代理Agent代表著每個市場參與者,代理Agent應(yīng)基于它本 身的信息和對于市場環(huán)境的認識做出最優(yōu)決策,整個電力市場仿真屬于一個動態(tài)博弈過 程。協(xié)同粒子群算法是將整個種群分解為若干個子種群,每個種群代表一個市場成員代理 Agent,種群中每個粒子代表該發(fā)電公司的一個報價策略方案,各個子種群獨立地用標準粒 子群進化,達到周期時,更新全局最好位置;這樣,各個子種群既能充分地在子種群內(nèi)部不 斷地搜索,不會迷失自己的尋優(yōu)方向,又能 利用周期性地共享全局最好位置促使粒子找到 最好值;協(xié)同進化在進化過程中既充分發(fā)揮每個個體的自主能動性,又在進化中通過協(xié)作 或?qū)惯M行相互學(xué)習(xí)和自我完善,從而達到整個群體協(xié)同進化的目的。
全文摘要
本發(fā)明屬于電力系統(tǒng)及其自動化領(lǐng)域,具體涉及一種采用多種智能代理算法的電力市場混合仿真方法。本發(fā)明采用多種智能代理算法的電力市場混合仿真方法,能使得電力市場仿真試驗中各個代理Agent具有“理性”的同時,又具有“個性”,更接近于實際的電力市場,為電力市場仿真的研究提供了方法和工具。
文檔編號G06Q10/00GK101908172SQ20101023950
公開日2010年12月8日 申請日期2010年7月29日 優(yōu)先權(quán)日2010年7月29日
發(fā)明者史述紅, 周海明, 李偉剛, 王文, 王海寧, 陳乃仕 申請人:中國電力科學(xué)研究院