本發(fā)明屬于復(fù)雜數(shù)據(jù)預(yù)測(cè),具體涉及一種基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法及裝置。
背景技術(shù):
1、很多常見(jiàn)的信息,比如用戶信息、信用記錄等,以表格的形式被存儲(chǔ)。目前,表格數(shù)據(jù)是金融行業(yè)最常見(jiàn)的信息,比如歷史信息,身份表征信息。然而,這些表格數(shù)據(jù)經(jīng)常面臨著特征與標(biāo)簽之間的相關(guān)性較低,這意味著特征中的大部分信息對(duì)于預(yù)測(cè)任務(wù)并不具有顯著的影響力,而存在著僅有一小部分特征與標(biāo)簽之間存在一定關(guān)聯(lián)的情況。在這種情況下,傳統(tǒng)的機(jī)器學(xué)習(xí)方法可能無(wú)法充分利用數(shù)據(jù)中的有效信息,從而導(dǎo)致預(yù)測(cè)性能的下降。
2、現(xiàn)有的研究通?;谔卣骱Y選、特征組合和交互以及增量式特征的方法來(lái)解決相關(guān)問(wèn)題。首先特征篩選策略來(lái)過(guò)濾關(guān)鍵信息,以降低不重要特征和冗余的特征對(duì)模型預(yù)測(cè)的干擾。當(dāng)前基于一些研究報(bào)道遺傳算法、隨機(jī)森林(random?forest,rf)或正則化策略的特征選擇有利于模型性能。然而,基于單一角度的特征篩選策略容易導(dǎo)致信息丟失。此外,通過(guò)特征組合和交互可以捕捉到更多的特征關(guān)系,提高模型的表現(xiàn)。然而這會(huì)增加特征空間的維度,可能導(dǎo)致計(jì)算復(fù)雜度的增加。與此同時(shí),特征組合和交互的選擇需要一定的領(lǐng)域知識(shí)或經(jīng)驗(yàn)。增量式特征選擇逐步選擇特征,可以處理特征之間的關(guān)聯(lián)性,并找到對(duì)模型預(yù)測(cè)最有幫助的特征子集。這種方法可以有效地降低特征空間的維度,并提高模型的解釋性。選擇可能需要進(jìn)行多次模型訓(xùn)練和特征評(píng)估,增加了計(jì)算和時(shí)間開(kāi)銷。此外,增量式特征選擇的結(jié)果可能受到初始特征集的選擇和順序的影響,可能無(wú)法找到全局最優(yōu)的特征子集。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明是為解決上述問(wèn)題而進(jìn)行的,目的在于提供一種能夠充分利用復(fù)雜數(shù)據(jù)中的有效信息、從而提高面向金融表格數(shù)據(jù)等復(fù)雜數(shù)據(jù)的預(yù)測(cè)任務(wù)的預(yù)測(cè)準(zhǔn)確率的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法及裝置,本發(fā)明采用了如下技術(shù)方案:
2、本發(fā)明提供了一種基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,其特征在于,包括以下步驟:非線性視圖獲取步驟:基于至少一種非線性算法計(jì)算訓(xùn)練集中各特征的特征重要性,并按照該特征重要性從所述訓(xùn)練集中提取出預(yù)定比例的最重要的特征,得到非線性的局部視圖;線性視圖獲取步驟:基于至少一種線性算法計(jì)算所述訓(xùn)練集中各特征的特征重要性,并按照該特征重要性從所述訓(xùn)練集中提取出預(yù)定比例的最重要的特征,得到線性的局部視圖;相似度視圖獲取步驟:基于聚類算法對(duì)所述訓(xùn)練集中的特征進(jìn)行聚類得到多個(gè)簇,并選擇特征數(shù)最多的所述簇作為相似度度量的局部視圖;全局視圖獲取步驟:獲取包含所述訓(xùn)練集中所有特征的全局視圖;預(yù)測(cè)模型訓(xùn)練步驟:利用所述訓(xùn)練集對(duì)復(fù)雜數(shù)據(jù)預(yù)測(cè)模型進(jìn)行訓(xùn)練,其中,所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型包括用于學(xué)習(xí)所述全局視圖的知識(shí)的全局用多層感知器、分別用于學(xué)習(xí)多個(gè)所述局部視圖的知識(shí)的多個(gè)局部用多層感知器、用于對(duì)所述全局用多層感知器和所述局部用多層感知器的輸出進(jìn)行拼接的拼接層以及用于對(duì)所述拼接層的輸出進(jìn)行處理的全連接層;復(fù)雜數(shù)據(jù)預(yù)測(cè)步驟:將待預(yù)測(cè)的復(fù)雜數(shù)據(jù)輸入訓(xùn)練好的所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型,得到預(yù)測(cè)結(jié)果。
3、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述非線性視圖獲取步驟中,分別基于決策樹(shù)、梯度提升決策樹(shù)以及隨機(jī)森林計(jì)算所述訓(xùn)練集中各特征的信息增益,再基于該信息增益計(jì)算各特征的特征重要性,并篩選出預(yù)定比例的最重要的特征,形成多個(gè)非線性的所述局部視圖。
4、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述線性視圖獲取步驟中,分別基于邏輯回歸以及皮爾遜方法計(jì)算所述訓(xùn)練集中各特征的最優(yōu)系數(shù)和皮爾遜相關(guān)系數(shù),再分別基于對(duì)應(yīng)的所述最優(yōu)系數(shù)和對(duì)應(yīng)的所述皮爾遜相關(guān)系數(shù)計(jì)算各特征的特征重要性,并篩選出預(yù)定比例的最重要的特征,形成多個(gè)線性的所述局部視圖,
5、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述非線性視圖獲取步驟以及所述線性視圖獲取步驟中,所述預(yù)定比例均為30%。
6、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述相似度視圖獲取步驟中,基于k-means算法對(duì)所述訓(xùn)練集中的特征進(jìn)行聚類,將所有特征劃分為4個(gè)簇。
7、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型中,所述全連接層包括第一全連接層和第二全連接層,均為基于sigmoid激活函數(shù)的全連接層,所述第二全連接層的神經(jīng)元數(shù)小于所述第一全連接層,所述拼接層、所述第一全連接層、所述第二全連接層依次連接。
8、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型中,所述全局用多層感知器包括依次連接的全局用第一全連接層、全局用批正則化層、全局用第二全連接層,所述全局用第一全連接層、所述全局用第二全連接層均為基于relu激活函數(shù)的全連接層,所述全局用批正則化層用于對(duì)所述全局用第一全連接層的輸出進(jìn)行批量標(biāo)準(zhǔn)化。
9、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,每個(gè)所述局部用多層感知器均包括依次連接的局部用第一全連接層、局部用批正則化層、局部用第二全連接層、局部用第三全連接層,所述局部用第一全連接層、所述局部用第二全連接層均為基于relu激活函數(shù)的全連接層,所述局部用第三全連接層為基于sigmoid激活函數(shù)的全連接層,所述局部用批正則化層用于對(duì)所述局部用第一全連接層的輸出進(jìn)行批量標(biāo)準(zhǔn)化。
10、本發(fā)明提供的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法,還可以具有這樣的技術(shù)特征,其中,所述預(yù)測(cè)模型訓(xùn)練步驟中,采用交叉熵?fù)p失函數(shù)作為損失函數(shù)對(duì)所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型進(jìn)行優(yōu)化,并基于adam優(yōu)化器對(duì)所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型進(jìn)行優(yōu)化。
11、本發(fā)明提供了一種基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)裝置,其特征在于,包括:非線性視圖獲取部,基于至少一種非線性算法計(jì)算訓(xùn)練集中各特征的特征重要性,并按照該特征重要性從所述訓(xùn)練集中提取出預(yù)定比例的最重要的特征,得到非線性的局部視圖;線性視圖獲取部,基于至少一種線性算法計(jì)算所述訓(xùn)練集中各特征的特征重要性,并按照該特征重要性從所述訓(xùn)練集中提取出預(yù)定比例的最重要的特征,得到線性的局部視圖;相似度視圖獲取部,基于聚類算法對(duì)所述訓(xùn)練集中的特征進(jìn)行聚類得到多個(gè)簇,并選擇特征數(shù)最多的所述簇作為相似度度量的局部視圖;全局視圖獲取部,用于獲取包含所述訓(xùn)練集中所有特征的全局視圖;預(yù)測(cè)模型訓(xùn)練部,用于利用所述訓(xùn)練集對(duì)復(fù)雜數(shù)據(jù)預(yù)測(cè)模型進(jìn)行訓(xùn)練,其中,所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型包括用于學(xué)習(xí)所述全局視圖的知識(shí)的全局用多層感知器、分別用于學(xué)習(xí)多個(gè)所述局部視圖的知識(shí)的多個(gè)局部用多層感知器、用于對(duì)所述全局用多層感知器和所述局部用多層感知器的輸出進(jìn)行拼接的拼接層以及用于對(duì)所述拼接層的輸出進(jìn)行處理的全連接層;以及復(fù)雜數(shù)據(jù)預(yù)測(cè)部,用于將待預(yù)測(cè)的復(fù)雜數(shù)據(jù)輸入訓(xùn)練好的所述復(fù)雜數(shù)據(jù)預(yù)測(cè)模型,得到預(yù)測(cè)結(jié)果。
12、發(fā)明作用與效果
13、根據(jù)本發(fā)明的基于關(guān)鍵信息的多視野學(xué)習(xí)的復(fù)雜數(shù)據(jù)預(yù)測(cè)方法及裝置,該方法包括非線性視圖獲取步驟、線性視圖獲取步驟、相似度視圖獲取步驟、全局視圖獲取步驟、預(yù)測(cè)模型訓(xùn)練步驟以及復(fù)雜數(shù)據(jù)預(yù)測(cè)步驟。由于金融表格數(shù)據(jù)等復(fù)雜數(shù)據(jù)中,特征與標(biāo)簽之間有低相關(guān)性,因此在面向這些復(fù)雜數(shù)據(jù)的預(yù)測(cè)方法中,特征選擇在過(guò)濾關(guān)鍵信息方面起著重要作用。為了關(guān)注關(guān)鍵信息并增加信息多樣性,本發(fā)明提出了基于特征重要性的策略來(lái)組織多視圖特征空間,主要包括線性相關(guān)、非線性相關(guān)和相似性度量,進(jìn)一步,本發(fā)明通過(guò)多層感知器來(lái)獲得不同視圖中的輸出作為局部視圖知識(shí),從而獲取關(guān)鍵的局部視圖知識(shí),減少不太重要的信息的干擾。此外,對(duì)于數(shù)據(jù)中的所有特征,通過(guò)多層感知器來(lái)獲得全局特征空間,對(duì)于所有的這些特征空間,通過(guò)多層感知來(lái)學(xué)習(xí)信息融合機(jī)制,從而能夠充分利用復(fù)雜數(shù)據(jù)中的有效信息,得到魯棒且準(zhǔn)確率高的預(yù)測(cè)結(jié)果。