本發(fā)明涉及人工智能與通信網(wǎng)絡(luò),具體是涉及一種基于多智能體強(qiáng)化學(xué)習(xí)的通信網(wǎng)絡(luò)智能管理系統(tǒng)。
背景技術(shù):
1、隨著自動(dòng)化和智能化技術(shù)的發(fā)展,網(wǎng)絡(luò)管理正逐步向自動(dòng)化運(yùn)維轉(zhuǎn)型,以減少對(duì)人工干預(yù)的依賴(lài),提高管理效率和響應(yīng)速度,同時(shí),網(wǎng)絡(luò)安全形勢(shì)日益嚴(yán)峻,網(wǎng)絡(luò)攻擊和安全威脅的復(fù)雜性不斷增加,要求網(wǎng)絡(luò)管理系統(tǒng)具備強(qiáng)大的實(shí)時(shí)監(jiān)控和防御能力,傳統(tǒng)的網(wǎng)絡(luò)管理方法往往依賴(lài)于人工配置和監(jiān)控,難以適應(yīng)大規(guī)模、動(dòng)態(tài)和復(fù)雜網(wǎng)絡(luò)環(huán)境的需求,特別是在網(wǎng)絡(luò)流量激增、設(shè)備種類(lèi)繁多、安全威脅層出不窮的今天,如何有效地管理通信網(wǎng)絡(luò),確保網(wǎng)絡(luò)的穩(wěn)定性、安全性和高效性,成為亟待解決的問(wèn)題,現(xiàn)有技術(shù)在實(shí)現(xiàn)網(wǎng)絡(luò)管理的自動(dòng)化、智能化以及安全性方面仍有諸多不足,通常采用集中式的管理架構(gòu),由中央控制器負(fù)責(zé)整個(gè)網(wǎng)絡(luò)的管理和決策,然而,這種架構(gòu)在面對(duì)大規(guī)模網(wǎng)絡(luò)時(shí)存在擴(kuò)展性差、單點(diǎn)故障風(fēng)險(xiǎn)高等問(wèn)題,此外,傳統(tǒng)的管理方法往往依賴(lài)于固定的規(guī)則和策略,缺乏自適應(yīng)和自學(xué)習(xí)的能力,難以及時(shí)響應(yīng)網(wǎng)絡(luò)狀態(tài)的變化和安全威脅的出現(xiàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是:提供一種基于多智能體強(qiáng)化學(xué)習(xí)的通信網(wǎng)絡(luò)智能管理系統(tǒng),通過(guò)自動(dòng)化和智能化的管理方式,實(shí)現(xiàn)了通信網(wǎng)絡(luò)管理的自動(dòng)化、智能化和安全化,為用戶(hù)提供了更加高效、安全、穩(wěn)定的網(wǎng)絡(luò)服務(wù)。
2、為了解決以上技術(shù)問(wèn)題,本發(fā)明采用如下技術(shù)方案:
3、一種基于多智能體強(qiáng)化學(xué)習(xí)的通信網(wǎng)絡(luò)智能管理系統(tǒng),包括:
4、通信協(xié)議模塊、狀態(tài)感知模塊、數(shù)據(jù)存儲(chǔ)和分析模塊、智能體模塊、自動(dòng)化決策模塊和資源管理模塊。
5、通信協(xié)議模塊、狀態(tài)感知模塊、數(shù)據(jù)存儲(chǔ)和分析模塊、智能體模塊、自動(dòng)化決策模塊和資源管理模塊依次電性連接,資源管理模塊與智能體模塊電性連接。
6、其中通信協(xié)議模塊,用于根據(jù)網(wǎng)絡(luò)環(huán)境和性能要求定義并管理各智能體之間的通信標(biāo)準(zhǔn)和規(guī)則,包括:身份驗(yàn)證、同步機(jī)制和數(shù)據(jù)加密。
7、狀態(tài)感知模塊,用于基于傳感器實(shí)時(shí)收集網(wǎng)絡(luò)設(shè)備的網(wǎng)絡(luò)流量數(shù)據(jù),該數(shù)據(jù)包括帶寬利用率、延遲、丟包率、設(shè)備溫度和功耗,并對(duì)網(wǎng)絡(luò)進(jìn)行異常檢測(cè),能及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的潛在問(wèn)題或故障,為智能體模塊提供預(yù)警信息。
8、數(shù)據(jù)存儲(chǔ)和分析模塊,用于對(duì)狀態(tài)感知模塊中的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行清洗、預(yù)處理和存儲(chǔ),得到預(yù)處理后的網(wǎng)絡(luò)流量數(shù)據(jù)。
9、智能體模塊,用于基于預(yù)處理后的網(wǎng)絡(luò)流量數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)模型獲取時(shí)間特征和最優(yōu)流量調(diào)整策略,并基于決策效果數(shù)據(jù)對(duì)該策略進(jìn)行更新。
10、自動(dòng)化決策模塊,用于基于智能體模塊的結(jié)果,生成網(wǎng)絡(luò)管理決策,根據(jù)該決策自動(dòng)調(diào)整網(wǎng)絡(luò)配置、優(yōu)化資源分配和預(yù)防潛在故障。
11、資源管理模塊,用于根據(jù)自動(dòng)化決策模塊和智能體模塊的結(jié)果,動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)資源的配置,包括帶寬分配、路由選擇和設(shè)備調(diào)度。
12、進(jìn)一步的,通信協(xié)議模塊被配置以執(zhí)行以下動(dòng)作:
13、步驟1、利用安全協(xié)議技術(shù),對(duì)智能體提供的有效的證書(shū)或密鑰進(jìn)行身份驗(yàn)證,驗(yàn)證成功后進(jìn)行信息交互。
14、步驟2、通過(guò)信息交互,建立同步機(jī)制獲取智能體之間的數(shù)據(jù)包并進(jìn)行解析,該數(shù)據(jù)包包括時(shí)間戳和版本信息,時(shí)間戳用于標(biāo)識(shí)數(shù)據(jù)包的發(fā)送時(shí)間點(diǎn),版本信息用于指示數(shù)據(jù)的更新?tīng)顟B(tài)和版本號(hào),對(duì)數(shù)據(jù)信息進(jìn)行排序和整合,同步智能體之間的時(shí)序和狀態(tài),并對(duì)數(shù)據(jù)包進(jìn)行加密處理。
15、步驟3、采用crc(cyclic?redundancy?check,循環(huán)冗余校驗(yàn))技術(shù)對(duì)數(shù)據(jù)包的完整性進(jìn)行校驗(yàn),若校驗(yàn)結(jié)果反饋正常,則不進(jìn)行任何操作,反之則發(fā)送數(shù)據(jù)包重傳指令,直至校驗(yàn)結(jié)果反饋正常。
16、校驗(yàn)包括以下內(nèi)容:
17、將crc寄存器初始化為0,將數(shù)據(jù)的每一位與crc寄存器的當(dāng)前值進(jìn)行異或操作,并將結(jié)果左移一位,若左移后的最高位是1,則將該值與多項(xiàng)式進(jìn)行異或操作,得到最終的crc校驗(yàn)碼,將最終的crc校驗(yàn)碼附加到原始數(shù)據(jù)的末尾一并發(fā)送到接收端;計(jì)算原始數(shù)據(jù)的crc值和接收端接收到的數(shù)據(jù)的crc值,若兩者相同,則校驗(yàn)通過(guò),反之則校驗(yàn)不通過(guò)。
18、crc值的計(jì)算公式為:
19、
20、其中,m(x)表示原始信息多項(xiàng)式,x表示形式變量,n表示crc校驗(yàn)碼的總位數(shù),k表示原始數(shù)據(jù)的位數(shù),g(x)表示生成多項(xiàng)式,q(x)表示兩個(gè)多項(xiàng)式的商,r(x)表示余數(shù)多項(xiàng)式。
21、進(jìn)一步的,數(shù)據(jù)存儲(chǔ)和分析模塊被配置以執(zhí)行以下動(dòng)作:
22、對(duì)狀態(tài)感知模塊中的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行清洗,去除噪聲和異常值,并將清洗后的數(shù)據(jù)轉(zhuǎn)換為時(shí)間序列數(shù)據(jù)。對(duì)清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮、歸一化和特征提取,得到預(yù)處理后的網(wǎng)絡(luò)流量數(shù)據(jù)。
23、進(jìn)一步的,智能體模塊被配置以執(zhí)行以下動(dòng)作:
24、步驟1、基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建流量模式分析模型,將預(yù)處理后的數(shù)據(jù)輸入到該模型中,提取時(shí)間特征;使用歷史網(wǎng)絡(luò)流量數(shù)據(jù)訓(xùn)練流量模式分析模型,通過(guò)均方誤差作為損失函數(shù)度量預(yù)測(cè)誤差;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練完成的流量模式分析模型中,得到預(yù)測(cè)的流量高峰。
25、步驟2、基于實(shí)時(shí)狀態(tài)和歷史經(jīng)驗(yàn),利用強(qiáng)化學(xué)習(xí)模型選擇最優(yōu)動(dòng)作,調(diào)整流量分配規(guī)則。
26、步驟3、通過(guò)基于事件的觸發(fā)機(jī)制收集決策效果數(shù)據(jù),根據(jù)反饋結(jié)果更新策略;其中,事件包括時(shí)間周期性事件、流量閾值事件、性能指標(biāo)異常事件和外部觸發(fā)事件,決策效果數(shù)據(jù)包括決策執(zhí)行前后的網(wǎng)絡(luò)流量情況、網(wǎng)絡(luò)性能指標(biāo)和用戶(hù)的網(wǎng)絡(luò)性能變化的感知和反饋;通過(guò)比較決策執(zhí)行前后的性能指標(biāo)和分析流量模式的變化,對(duì)決策效果進(jìn)行評(píng)估。
27、進(jìn)一步的,步驟2中,調(diào)整流量分配規(guī)則包括以下子步驟:
28、步驟201、將通信網(wǎng)絡(luò)抽象為強(qiáng)化學(xué)習(xí)環(huán)境,其中實(shí)時(shí)狀態(tài)由網(wǎng)絡(luò)狀態(tài)和時(shí)間特征組成,獎(jiǎng)勵(lì)函數(shù)為優(yōu)化網(wǎng)絡(luò)性能的度量;
29、步驟202、初始化網(wǎng)絡(luò)參數(shù),并設(shè)置兩個(gè)相同的網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)用于在線(xiàn)預(yù)測(cè),另一個(gè)用于穩(wěn)定目標(biāo)值;將網(wǎng)絡(luò)狀態(tài)輸入到強(qiáng)化學(xué)習(xí)模型中,輸出每個(gè)動(dòng)作的預(yù)期q值;執(zhí)行流量調(diào)整策略、觀察狀態(tài)轉(zhuǎn)換和獲得的獎(jiǎng)勵(lì),并存儲(chǔ)到經(jīng)驗(yàn)回放池;從經(jīng)驗(yàn)回放池中隨機(jī)抽取一批經(jīng)驗(yàn)訓(xùn)練強(qiáng)化學(xué)習(xí)模型;對(duì)于每批經(jīng)驗(yàn),使用訓(xùn)練完成的強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)當(dāng)前狀態(tài)的q值,并使用目標(biāo)網(wǎng)絡(luò)預(yù)測(cè)下一狀態(tài)的q值以計(jì)算目標(biāo)q值;通過(guò)最小化預(yù)測(cè)q值與目標(biāo)q值之間的誤差來(lái)更新訓(xùn)練完成的強(qiáng)化學(xué)習(xí)模型的參數(shù),并定期將訓(xùn)練完成的強(qiáng)化學(xué)習(xí)模型的參數(shù)復(fù)制到目標(biāo)網(wǎng)絡(luò);根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)和步驟1中提取的時(shí)間特征,通過(guò)訓(xùn)練完成的強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)每個(gè)動(dòng)作的q值,選擇具有最高q值的動(dòng)作為最優(yōu)流量調(diào)整策略。
30、進(jìn)一步的,步驟3中,決策效果評(píng)估的計(jì)算公式為:
31、計(jì)算性能差異的公式為:
32、text差異值=?jīng)Q策后指標(biāo)值-決策前指標(biāo)值
33、計(jì)算性能改善百分比的公式為:
34、
35、計(jì)算性能惡化百分比的公式為:
36、
37、計(jì)算用戶(hù)滿(mǎn)意度評(píng)分的公式為:
38、
39、其中,a表示參與反饋的用戶(hù)總數(shù)。
40、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
41、本發(fā)明提出的通信網(wǎng)絡(luò)智能管理系統(tǒng)通過(guò)自動(dòng)化和智能化的管理方式,減少對(duì)人工干預(yù)的依賴(lài),顯著提高了網(wǎng)絡(luò)管理的效率和響應(yīng)速度,特別是在面對(duì)大規(guī)模、動(dòng)態(tài)和復(fù)雜的網(wǎng)絡(luò)環(huán)境時(shí),能夠迅速作出決策并調(diào)整,以適應(yīng)網(wǎng)絡(luò)狀態(tài)的變化,實(shí)現(xiàn)了通信網(wǎng)絡(luò)管理的自動(dòng)化、智能化和安全化,顯著提高了網(wǎng)絡(luò)管理的效率和響應(yīng)速度,增強(qiáng)了網(wǎng)絡(luò)的安全性和穩(wěn)定性,同時(shí)優(yōu)化了資源配置和流量管理,為用戶(hù)提供了更加高效、安全、穩(wěn)定的網(wǎng)絡(luò)服務(wù)。