本發(fā)明涉及風險預測領域,具體是指一種基于大數(shù)據(jù)分析的市場波動經濟管理風險預測系統(tǒng)。
背景技術:
1、市場波動經濟管理風險預測是對市場的不確定性、價格波動和經濟形勢變化等可能引發(fā)的風險進行前瞻性的估計和判斷,幫助管理者制定更合理的決策,使企業(yè)能夠提前做好應對風險的準備。由于金融數(shù)據(jù)通常維度很高,特征之間存在多重共線性,在使用機器學習對市場波動經濟管理風險進行預測時,如何選擇有意義的特征是一項挑戰(zhàn);市場波動具有時間依賴性,且市場數(shù)據(jù)通常包含非線性關系,現(xiàn)有預測模型存在預測不當,處理效果不好的問題,需要在實時數(shù)據(jù)流上快速做出準確預測,預測模型還需要在市場環(huán)境變化時,及時更新模型。
技術實現(xiàn)思路
1、針對上述情況,為克服現(xiàn)有技術的缺陷,本發(fā)明提供了一種基于大數(shù)據(jù)分析的市場波動經濟管理風險預測系統(tǒng),針對由于金融數(shù)據(jù)通常維度很高,特征之間存在多重共線性,在使用機器學習對市場波動經濟管理風險進行預測時,特征選擇較為困難的技術問題,本發(fā)明使用一種基于主成分分析和信息增益的方法對預處理數(shù)據(jù)進行降維和特征提取,有效去除冗余數(shù)據(jù),幫助預測模型理解復雜的市場相關數(shù)據(jù);針對市場波動具有時間依賴性,且市場數(shù)據(jù)通常包含非線性關系,現(xiàn)有預測模型存在預測不當,處理效果不好的問題,需要在實時數(shù)據(jù)流上快速做出準確預測,預測模型還需要在市場環(huán)境變化時,及時更新模型的技術問題,本發(fā)明構建了一種風險預測模型,結合了自回歸條件異方差模型對波動特征的捕捉能力和長短期記憶網絡模型對時間序列的強大處理能力,同時引入根型函數(shù)將標簽中的極左偏分布轉換為向右移動的體積增大分布,使用烏鴉搜索算法對長短期記憶網絡進行優(yōu)化,更全面地捕捉風險的動態(tài)變化和非線性關系。
2、本發(fā)明采取的技術方案如下:本發(fā)明提供了一種基于大數(shù)據(jù)分析的市場波動經濟管理風險預測系統(tǒng),所述一種基于大數(shù)據(jù)分析的市場波動經濟管理風險預測系統(tǒng)包括數(shù)據(jù)采集和預處理模塊、大數(shù)據(jù)存儲模塊、風險評估模型構建模塊、風險預測模塊和預警模塊;
3、所述數(shù)據(jù)采集和預處理模塊收集與市場相關的數(shù)據(jù),所述與市場相關的數(shù)據(jù)包括宏觀經濟數(shù)據(jù)、行業(yè)數(shù)據(jù)和市場交易數(shù)據(jù),并對這些與市場相關的數(shù)據(jù)進行預處理,包括去除重復數(shù)據(jù)和明顯錯誤的數(shù)據(jù),使用中位數(shù)填充缺失值,得到預處理數(shù)據(jù);
4、所述大數(shù)據(jù)存儲模塊搭建分布式文件系統(tǒng),用于存儲數(shù)據(jù)采集和預處理模塊與風險評估模型構建模塊中采集和產生的所有數(shù)據(jù);
5、所述風險評估模型構建模塊使用一種基于主成分分析和信息增益的方法對預處理數(shù)據(jù)進行降維和特征提取,并將自回歸條件異方差模型和長短期記憶網絡模型混合,構建風險預測模型;
6、所述風險預測模塊將預處理數(shù)據(jù)輸入到風險預測模型中進行預測,得到預測風險大小,所述風險大小用[0,4]表示,數(shù)字0表示最小風險,數(shù)字4表示最大風險;
7、所述預警模塊在風險大小大于等于3時發(fā)出警報信息。
8、所述風險評估模型構建模塊使用一種基于主成分分析和信息增益的方法對預處理數(shù)據(jù)進行降維和特征提取,所述一種基于主成分分析和信息增益的方法,具體包括以下步驟:
9、步驟a1:收集歷史市場波動風險數(shù)據(jù)集,所述歷史市場波動風險數(shù)據(jù)集包括特征集和對應標簽,所述特征集包括歷史宏觀經濟數(shù)據(jù)、歷史行業(yè)數(shù)據(jù)和歷史市場交易數(shù)據(jù),標簽為風險強度,用[0,4]表示,其中,數(shù)字0表示最小風險,數(shù)字4表示最大風險,將歷史市場波動風險數(shù)據(jù)集按3:1的比例劃分為訓練集和測試集;
10、步驟a2:計算特征集中每個特征的平均值,對特征進行歸一化處理,得到歸一化數(shù)據(jù);
11、步驟a3:計算歸一化數(shù)據(jù)的協(xié)方差矩陣,用來表示特征之間的依賴性,對協(xié)方差矩陣進行譜分解,得到低維特征集;
12、步驟a4:隨機選擇一個特征,計算去除該特征的情況下的熵,記為前熵,所用公式如下:
13、;
14、式中,是去除該特征的情況下的熵,是標簽,是概率分布,是對的遍歷;
15、步驟a5:計算不去除該特征的情況下的熵,記為整熵,所用公式如下:
16、;
17、式中,是不去除該特征的情況下的熵,是特征,是對的遍歷;
18、步驟a6:重復步驟a4和a5計算每個特征的前熵和整熵,計算整熵和前熵的差值,得到每個特征的信息增益,直至遍歷完所有特征;
19、步驟a7:預設信息增益閾值,將信息增益小于信息增益閾值的特征去除。
20、所述風險評估模型構建模塊使用一種混合預測方法對風險大小進行預測,所述一種混合預測方法,具體包括以下步驟:
21、步驟b1:建立并初始化自回歸條件異方差模型和長短期記憶網絡模型作為風險預測模型,使用根型函數(shù)將標簽的分布從極左偏分布轉換為向右移動的體積增大分布,所用公式如下:
22、;
23、式中,和是隨機特征,和分別是和的概率密度函數(shù),,是標簽中的極左偏分布;
24、步驟b2:將訓練集輸入到風險預測模型中進行訓練,采用滾動窗口方法進行訓練;
25、將測試集輸入到風險預測模型中,定義風險預測模型的損失函數(shù),所用公式如下:
26、;
27、式中,為損失函數(shù),是風險預測模型中估計參數(shù)的個數(shù),是風險預測模型的似然函數(shù)的最大值,是歷史市場波動風險數(shù)據(jù)集中的樣本個數(shù);
28、步驟b3:使用烏鴉搜索算法對長短期記憶網絡進行優(yōu)化;
29、進一步地,步驟b3,具體包括以下步驟:
30、步驟b31:初始化烏鴉的位置和記憶,得到烏鴉的初始位置,在第一次迭代時,烏鴉的記憶與初始位置相同;
31、步驟b32:計算每只烏鴉的目標函數(shù)作為適應度迭代更新烏鴉的位置,所用公式如下:
32、;
33、式中,和分別表示第只烏鴉和第只烏鴉,是迭代次數(shù),是第只烏鴉第次更新后的位置,是第只烏鴉的適應度,是記憶;
34、步驟b33:如果烏鴉能夠通過位置快速定位,不需要依賴于記憶,則烏鴉的位置優(yōu)于記憶時,更新烏鴉的記憶,不斷更新烏鴉的位置和記憶,直至找到最優(yōu)目標函數(shù)。
35、采用上述方案本發(fā)明取得的有益效果如下:
36、(1)針對由于金融數(shù)據(jù)通常維度很高,特征之間存在多重共線性,在使用機器學習對市場波動經濟管理風險進行預測時,特征選擇較為困難的技術問題,本發(fā)明使用一種基于主成分分析和信息增益的方法對預處理數(shù)據(jù)進行降維和特征提取,有效去除冗余數(shù)據(jù),幫助預測模型理解復雜的市場相關數(shù)據(jù);
37、(2)針對市場波動具有時間依賴性,且市場數(shù)據(jù)通常包含非線性關系,現(xiàn)有預測模型存在預測不當,處理效果不好的問題,需要在實時數(shù)據(jù)流上快速做出準確預測,預測模型還需要在市場環(huán)境變化時,及時更新模型的技術問題,本發(fā)明構建了一種風險預測模型,結合了自回歸條件異方差模型對波動特征的捕捉能力和長短期記憶網絡模型對時間序列的強大處理能力,同時引入根型函數(shù)將標簽中的極左偏分布轉換為向右移動的體積增大分布,使用烏鴉搜索算法對長短期記憶網絡進行優(yōu)化,更全面地捕捉風險的動態(tài)變化和非線性關系。