強(qiáng)變量提取方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種強(qiáng)變量提取方法及裝置;方法包括:基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集;基于所述強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練,k為取值依次增大的正整數(shù),且k取值滿足k≥1;將所述特征篩選模型輸出的特征并入到入選特征集合,所述輸出的特征為對(duì)所述特征篩選模型進(jìn)行第k輪迭代訓(xùn)練后在所述強(qiáng)變量候選集中提取的強(qiáng)變量;基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定需要對(duì)所述特征篩選模型進(jìn)行第k+1輪迭代訓(xùn)練;篩除所述基礎(chǔ)變量池中用于構(gòu)造所述入選特征集合中的特征所使用的基礎(chǔ)變量。實(shí)施本發(fā)明,能夠從弱變量中有效提取強(qiáng)變量。
【專利說明】
強(qiáng)變量提取方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種強(qiáng)變量提取方法及裝置。
【背景技術(shù)】
[0002] 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘系統(tǒng),常要面臨數(shù)量龐大、種類豐富的各種數(shù)據(jù)的篩選、處 理和建模任務(wù)。通常情況下絕大多數(shù)的數(shù)據(jù)與待解決的目標(biāo)問題或目標(biāo)變量之間的直接相 關(guān)性較弱,并且還存在大量數(shù)據(jù)之間互為冗余的情況,造成數(shù)據(jù)量大但有用信息少的情況。
[0003] 對(duì)于大數(shù)據(jù)挖掘系統(tǒng),如何從眾多弱變量中提取出強(qiáng)變量從而能夠從大量無用信 息中提取出有用信息,相關(guān)技術(shù)尚無有效解決方案。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明為至少解決相關(guān)技術(shù)存在的上述問題而提供一種強(qiáng)變量提取方法及裝置。
[0005] 本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
[0006] 第一方面,本發(fā)明實(shí)施例提供一種強(qiáng)變量提取方法,所述方法包括:
[0007] 基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候 選集;
[0008] 基于所述強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練,k為取值依次增大的 正整數(shù),且k取值滿足1;
[0009] 將所述特征篩選模型輸出的特征并入到入選特征集合,所述輸出的特征為對(duì)所述 特征篩選模型進(jìn)行第k輪迭代訓(xùn)練后所述特征篩選模型在所述強(qiáng)變量候選集中提取的強(qiáng)變 量;
[0010] 基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定需要對(duì)所述特征篩選模型進(jìn) 行第k+Ι輪迭代訓(xùn)練;
[0011] 篩除所述基礎(chǔ)變量池中用于構(gòu)造所述入選特征集合中的特征所使用的基礎(chǔ)變量。
[0012] 可選地,所述基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成強(qiáng)變量候選集,包 括:
[0013] 對(duì)第k-Ι輪迭代處理后所述基礎(chǔ)變量池中剩余的基礎(chǔ)變量采用特征構(gòu)造、特征變 換和特征衍生至少之一的構(gòu)造方式構(gòu)造強(qiáng)變量,基于構(gòu)造的所述強(qiáng)變量形成用于第k輪迭 代訓(xùn)練的強(qiáng)變量候選集,k取值滿足k>l。
[0014] 可選地,所述基于構(gòu)造的所述強(qiáng)變量形成所述強(qiáng)變量候選集,包括:
[0015] 基于構(gòu)造的所述強(qiáng)變量、以及第k-Ι輪迭代訓(xùn)練的剩余強(qiáng)變量結(jié)合形成用于第k輪 迭代訓(xùn)練的強(qiáng)變量候選集;
[0016] 其中,所述第k-Ι輪迭代處理的剩余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的所述強(qiáng)變量 候選集中未被所述特征篩選模型提取的強(qiáng)變量。
[0017] 可選地,所述基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定需要對(duì)所述特 征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練,包括:
[0018] 若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果 之間的殘差統(tǒng)計(jì)指標(biāo)未滿足要求,則確定需要對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練。
[0019] 可選地,所述方法還包括:
[0020] 若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果 之間的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則停止對(duì)所述特征篩選模型的迭代訓(xùn)練。
[0021] 可選地,所述第k輪迭代訓(xùn)練所使用的特征篩選模型與所述第k+Ι輪迭代訓(xùn)練所使 用的特征篩選模型相同。
[0022] 可選地,用于所述第k輪迭代訓(xùn)練的強(qiáng)變量候選集中所述強(qiáng)變量的構(gòu)造方式,不同 于所述第k+Ι輪迭代訓(xùn)練的強(qiáng)變量候選集中所述強(qiáng)變量的構(gòu)造方式;
[0023] 所述第k輪迭代訓(xùn)練所使用的特征篩選模型,不同于所述第k+Ι輪迭代訓(xùn)練所使用 的特征篩選模型。
[0024] 可選地,所述方法還包括:
[0025] 基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定不需要對(duì)所述特征篩選模型 進(jìn)行第k+Ι輪迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié)果。
[0026] 第二方面,本發(fā)明實(shí)施例提供一種強(qiáng)變量提取裝置,所述裝置包括:
[0027] 構(gòu)造模塊,用于基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn) 練的強(qiáng)變量候選集;
[0028] 特征篩選模塊,用于基于所述強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練, k為取值依次增大的正整數(shù),且k取值滿足k多1;
[0029] 所述特征篩選模塊,還用于將所述特征篩選模型輸出的特征并入到入選特征集 合,所述輸出的特征為對(duì)所述特征篩選模型進(jìn)行第k輪迭代訓(xùn)練后所述特征篩選模型在所 述強(qiáng)變量候選集中提取的強(qiáng)變量;
[0030] 所述特征篩選模塊,還用于基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定 需要對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練;
[0031] 所述特征篩選模塊,還用于篩除所述基礎(chǔ)變量池中用于構(gòu)造所述入選特征集合中 的特征所使用的基礎(chǔ)變量。
[0032]可選地,所述構(gòu)造模塊,還用于對(duì)第k-Ι輪迭代處理后所述基礎(chǔ)變量池中剩余的基 礎(chǔ)變量采用特征構(gòu)造、特征變換和特征衍生至少之一的構(gòu)造方式構(gòu)造強(qiáng)變量,基于構(gòu)造的 所述強(qiáng)變量形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集,k取值滿足k>l。
[0033] 可選地,所述構(gòu)造模塊,還用于基于構(gòu)造的所述強(qiáng)變量、以及第k_l輪迭代訓(xùn)練的 剩余強(qiáng)變量結(jié)合形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集;
[0034] 其中,所述第k-Ι輪迭代處理的剩余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的所述強(qiáng)變量 候選集中未被所述特征篩選模型提取的強(qiáng)變量。
[0035] 可選地,所述特征篩選模塊,還用于若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試 數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之間的殘差統(tǒng)計(jì)指標(biāo)未滿足要求,則確定需要對(duì)所述特 征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練。
[0036] 可選地,所述特征篩選模塊,還用于若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試 數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之間的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則停止對(duì)所述特征篩選 模型的迭代訓(xùn)練。
[0037] 可選地,所述裝置包括的所述構(gòu)造模塊與所述特征篩選模塊的數(shù)量均為一個(gè),所 述特征篩選模塊進(jìn)行第k輪迭代訓(xùn)練所使用的特征篩選模型與進(jìn)行第k+Ι輪迭代訓(xùn)練所使 用的特征篩選模型相同。
[0038] 可選地,所述裝置包括至少兩個(gè)所述特征篩選模塊以及至少兩個(gè)所述構(gòu)造模塊, 所述至少兩個(gè)特征篩選模塊使用的特征篩選模型不同;其中,
[0039] 第k組合與第k+Ι組合級(jí)聯(lián),所述第k組合為第k構(gòu)造模塊與第k特征篩選模塊組合 形成,所述第k+Ι組合為第k+Ι構(gòu)造模塊與第k+Ι特征篩選模塊組合形成;
[0040] 所述第k構(gòu)造模塊構(gòu)造所述強(qiáng)變量的構(gòu)造方式,所述不同于第k+Ι構(gòu)造模塊構(gòu)造所 述強(qiáng)變量的構(gòu)造方式。
[0041 ]可選地,所述特征篩選模塊,還用于基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘 差確定不需要對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié)果。 [0042]本發(fā)明具有以下有益效果:
[0043] 1)具有顯式的特征提取和強(qiáng)變量的構(gòu)造過程,與特征篩選模型的學(xué)習(xí)訓(xùn)練過程融 為一個(gè)整體的閉環(huán)流程,使得特征篩選模型每一輪迭代的結(jié)果(如利用入選特征集合中的 特征更新基礎(chǔ)變量池)可以反饋去指導(dǎo)下一輪的強(qiáng)變量構(gòu)造和特征選擇,實(shí)現(xiàn)強(qiáng)變量提取 的自動(dòng)優(yōu)化。
[0044] 2)對(duì)基礎(chǔ)變量構(gòu)造用于訓(xùn)練的強(qiáng)變量候選集,每一輪迭代中都將特征入選特征集 合,實(shí)現(xiàn)將最有用的信息提純(變換)并保留的效果。
[0045] 3)節(jié)約了各種計(jì)算、存儲(chǔ)和帶寬等資源,顯著地節(jié)省了訓(xùn)練模型和使用模型進(jìn)行 預(yù)測(cè)等環(huán)節(jié)所消耗的時(shí)間,極大地節(jié)約了維護(hù)成本,且支持后期對(duì)運(yùn)維成本進(jìn)行靈活、彈性 的優(yōu)化。
【附圖說明】
[0046] 圖1是本發(fā)明實(shí)施例中強(qiáng)變量提取裝置的一個(gè)可選的硬件結(jié)構(gòu)示意圖;
[0047] 圖2是本發(fā)明實(shí)施例中強(qiáng)變量提取的一個(gè)可選的架構(gòu)示意圖;
[0048] 圖3是本發(fā)明實(shí)施例中強(qiáng)變量提取方法的一個(gè)可選的流程示意圖;
[0049] 圖4是本發(fā)明實(shí)施例中強(qiáng)變量提取方法的一個(gè)可選的流程示意圖;
[0050] 圖5是本發(fā)明實(shí)施例中強(qiáng)變量提取方法的另一個(gè)可選的流程示意圖;
[0051] 圖6是本發(fā)明實(shí)施例中強(qiáng)變量提取的另一個(gè)可選的架構(gòu)示意圖;
[0052]圖7是本發(fā)明實(shí)施例中強(qiáng)變量提取方法的又一個(gè)可選的流程示意圖;
[0053] 圖8是本發(fā)明實(shí)施例中強(qiáng)變量提取方法的再一個(gè)可選的流程示意圖;
[0054] 圖9是本發(fā)明實(shí)施例中強(qiáng)變量提取裝置的一個(gè)可選的結(jié)構(gòu)示意圖;
[0055] 圖10是本發(fā)明實(shí)施例中強(qiáng)變量提取裝置的另一個(gè)可選的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0056] 以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所提供的 實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。另外,以下所提供的實(shí)施例是用于實(shí)施 本發(fā)明的部分實(shí)施例,而非提供實(shí)施本發(fā)明的全部實(shí)施例,在不沖突的情況下,本發(fā)明實(shí)施 例記載的技術(shù)方案可以任意組合的方式實(shí)施。
[0057] 對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明之前,對(duì)本發(fā)明實(shí)施例中涉及的名詞和術(shù)語進(jìn)行說 明,本發(fā)明實(shí)施例中涉及的名詞和術(shù)語適用于如下的解釋。
[0058] 1)變量:統(tǒng)計(jì)學(xué)中說明現(xiàn)象某種屬性和特征的名稱,它包括標(biāo)志和指標(biāo)。變量可分 為類別變量和數(shù)值變量。變量可以是定性的也可以是定量的,變量也可分為離散變量和連 續(xù)變量。這里的變量可以是一維的或多維的向量。
[0059] 2)弱變量:可以采集到的數(shù)據(jù)、或可以人工構(gòu)造的指標(biāo),對(duì)于所要解決的目標(biāo)問題 的鑒別能力較弱或者預(yù)測(cè)能力較弱,或者它們與目標(biāo)變量的直接相關(guān)性較弱。
[0060] 3)強(qiáng)變量:可以采集到的數(shù)據(jù)、或可以人工構(gòu)造的指標(biāo),對(duì)于所要解決的目標(biāo)問題 的鑒別能力較(弱變量)強(qiáng)或者預(yù)測(cè)能力較(弱變量)強(qiáng),或者與目標(biāo)變量的直接相關(guān)性較 (弱變量)強(qiáng)。
[0061] 4)Apps:狹義上通常指移動(dòng)設(shè)備(例如智能手機(jī))上的應(yīng)用軟件,本發(fā)明實(shí)施例中 也泛指一切計(jì)算機(jī)設(shè)備(含PC、移動(dòng)終端、云計(jì)算服務(wù)器平臺(tái)等)上除操作系統(tǒng)之外的一切 應(yīng)用軟件及其子軟件(例如插件)。
[0062] 本發(fā)明實(shí)施例可提供為強(qiáng)變量提取方法以及強(qiáng)變量提取裝置,實(shí)際應(yīng)用中,強(qiáng)變 量提取裝置中的各功能模塊可以由設(shè)備(如終端設(shè)備、服務(wù)器或服務(wù)器集群)的硬件資源, 如處理器等計(jì)算資源、通信資源(如用于支持實(shí)現(xiàn)光纜、蜂窩等各種方式通信)協(xié)同實(shí)現(xiàn)。圖 1示例性示出了設(shè)備10的一個(gè)可選的硬件結(jié)構(gòu)示意圖,包括處理器11、輸入/輸出接口 13(例 如顯示器、鍵盤、觸摸屏、揚(yáng)聲器麥克風(fēng)中的一個(gè)或多個(gè)),存儲(chǔ)介質(zhì)14以及網(wǎng)絡(luò)接口 12,組 件可以經(jīng)系統(tǒng)總線15連接通信。
[0063] 當(dāng)然,本發(fā)明實(shí)施例不局限于提供為方法和硬件,還可有多種實(shí)現(xiàn)方式,例如提供 為存儲(chǔ)介質(zhì)(存儲(chǔ)有用于執(zhí)行本發(fā)明實(shí)施例提供的強(qiáng)變量提取方法的指令),以下再對(duì)不同 的實(shí)現(xiàn)方式舉例說明。
[0064] 一、移動(dòng)端應(yīng)用程序及模塊
[0065]本發(fā)明實(shí)施例可提供為使用C/C++、Java等編程語言設(shè)計(jì)的軟件模塊,嵌入到基于 Android或iOS等系統(tǒng)的各種移動(dòng)端Apps中(例如微信等)(以可執(zhí)行指令的存儲(chǔ)在移動(dòng)端的 存儲(chǔ)介質(zhì)中,由移動(dòng)端的處理器執(zhí)行),從而直接使用移動(dòng)端自身的計(jì)算資源完成相關(guān)的數(shù) 據(jù)挖掘任務(wù),并且定期或不定期地通過各種網(wǎng)絡(luò)通信方式將數(shù)據(jù)、中間結(jié)果或最終結(jié)果傳 送給遠(yuǎn)程的服務(wù)器,或者在移動(dòng)端本地保存。
[0066] 二、服務(wù)器應(yīng)用程序及平臺(tái)
[0067]本發(fā)明實(shí)施例可提供使用C/C++、Java等編程語言設(shè)計(jì)的應(yīng)用軟件或大型軟件系 統(tǒng)中的專用軟件模塊,運(yùn)行于服務(wù)器端(以可執(zhí)行指令的方式在服務(wù)器端的存儲(chǔ)介質(zhì)中存 儲(chǔ),并由服務(wù)器端的處理器運(yùn)行),將接收到的來自其它設(shè)備的各種原始數(shù)據(jù)、各級(jí)中間數(shù) 據(jù)和最終結(jié)果中的至少一種,與服務(wù)器上已有的某些數(shù)據(jù)或結(jié)果綜合起來計(jì)算得到更新的 結(jié)果,然后實(shí)時(shí)或非實(shí)時(shí)地輸出給其他應(yīng)用程序或模塊使用,也可以寫入服務(wù)器端數(shù)據(jù)庫 或文件進(jìn)行存儲(chǔ)。
[0068]本發(fā)明實(shí)施例還可以提供為在多臺(tái)服務(wù)器構(gòu)成的分布式、并行計(jì)算平臺(tái)上,搭載 定制的、易于交互的網(wǎng)絡(luò)(Web)界面或其他各用戶界面(UI,User Interface),形成供個(gè)人、 群體或企業(yè)使用的數(shù)據(jù)挖掘平臺(tái)和信用評(píng)估平臺(tái)(用于評(píng)估用戶的信用)等。使用者可以將 已有的數(shù)據(jù)包批量上傳給此平臺(tái)以獲得各種計(jì)算結(jié)果,也可以將實(shí)時(shí)的數(shù)據(jù)流傳輸給此平 臺(tái)來實(shí)時(shí)計(jì)算和刷新各級(jí)結(jié)果。
[0069] 三、服務(wù)器端應(yīng)用程序接口(API,Application Program Interface)及插件
[0070] 本發(fā)明實(shí)施例可提供為實(shí)現(xiàn)服務(wù)器端的API、軟件開發(fā)套件(SDK,Software Development Toolkit)或插件,供其他的服務(wù)器端應(yīng)用程序開發(fā)人員調(diào)用,并嵌入到各類 應(yīng)用程序中。
[0071] 四、移動(dòng)設(shè)備客戶端API及插件
[0072]本發(fā)明實(shí)施例還可提供為移動(dòng)設(shè)備端的API、SDK或插件,供其他的移動(dòng)端應(yīng)用程 序開發(fā)人員調(diào)用,并嵌入到各類應(yīng)用程序中。
[0073] 五、云端開放服務(wù)
[0074] 本發(fā)明實(shí)施例可提供為地理位置信息挖掘平臺(tái)及信用評(píng)估平臺(tái),本發(fā)明實(shí)施例還 可提供為地理位置信息挖掘平臺(tái)及信用評(píng)估平臺(tái)的API、SDK及插件等,打包封裝成可供企 業(yè)內(nèi)外人員開放使用的云服務(wù),或者將各種結(jié)果(中間結(jié)果以及信用評(píng)分的最終結(jié)果)以適 當(dāng)形式展示在各種終端顯示設(shè)備上,供個(gè)人、群體或企事業(yè)單位查詢。
[0075] 試對(duì)本發(fā)明實(shí)施例提供的強(qiáng)變量提取方法及裝置能夠適用應(yīng)用場(chǎng)景進(jìn)行舉例說 明,當(dāng)然不局限于以下所給出的場(chǎng)景示例。
[0076] 場(chǎng)景1)數(shù)據(jù)挖掘:從用戶的各種行為日志、廣告物料的文本描述等海量數(shù)據(jù)(每一 項(xiàng)都是弱變量)中提取有效的、具有強(qiáng)預(yù)測(cè)力的信息(強(qiáng)變量)。各種電商網(wǎng)站的商品推薦系 統(tǒng),需要從用戶的搜索、收藏、瀏覽和評(píng)論行為,以及商品的各種描述,商家的交易歷史等海 量數(shù)據(jù)(弱變量)中挖掘有價(jià)值的信息,預(yù)測(cè)當(dāng)前用戶潛在可能對(duì)哪些商品感興趣(強(qiáng)變量) 并推薦給該用戶。
[0077] 場(chǎng)景2)信用評(píng)估:從用戶的各種數(shù)據(jù)如交易記錄、信貸記錄、銀行流水、職業(yè)信息、 收入信息以及社交網(wǎng)絡(luò)應(yīng)用(例如微信等)上的相關(guān)信息(弱變量)中提取出能夠反映用戶 的還款能力、還款意愿的信息(強(qiáng)變量)等用于評(píng)定用戶的信用評(píng)分(或信用等級(jí))的信息。
[0078] 參見圖2示出的強(qiáng)變量提取的一個(gè)可選的架構(gòu)示意圖,圖2以使用同一特征篩選模 型(帶有特征篩選機(jī)制的分類或回歸模型,本發(fā)明實(shí)施例中也稱為特征篩選模型)進(jìn)行迭代 訓(xùn)練(如第1輪迭代訓(xùn)練、第2輪迭代訓(xùn)練……,以此類推)以提取強(qiáng)變量為例進(jìn)行說明,與圖 2對(duì)應(yīng),圖3示出了基于圖2示出的強(qiáng)變量提取的一個(gè)可選的架構(gòu)示意圖中進(jìn)行第1輪迭代的 一個(gè)可選的流程示意圖,包括以下步驟:
[0079] 步驟101,基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第1輪迭代訓(xùn)練的 強(qiáng)變量候選集。
[0080] 在一個(gè)實(shí)施例中,僅基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造得到強(qiáng)變量,基于所構(gòu)造 的強(qiáng)變量形成用于對(duì)特征篩選模型進(jìn)行第1次迭代訓(xùn)練所使用的強(qiáng)變量候選集。示例性地, 強(qiáng)變量的構(gòu)造方式可以采用特征構(gòu)造、特征變換和特征衍生至少之一,本發(fā)明實(shí)施例中不 限于此。
[0081] 步驟102,基于強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第1輪迭代訓(xùn)練。
[0082] 示例性地,以強(qiáng)變量候選集中的各強(qiáng)變量作為訓(xùn)練樣本對(duì)特征篩選模型進(jìn)行訓(xùn) 練,使特征篩選模型基于強(qiáng)變量進(jìn)行學(xué)習(xí)而具有選取強(qiáng)變量的特性。
[0083]步驟103,將特征篩選模型輸出的特征并入入選特征集合。
[0084]示例性地,輸出的特征為對(duì)特征篩選模型進(jìn)行第1輪迭代訓(xùn)練后,特征篩選模型在 強(qiáng)變量候選集中提取的強(qiáng)變量??蛇x地,在進(jìn)行第1輪迭代訓(xùn)練之前入選特征集合為空集, 入選特征集合中的特征隨后續(xù)迭代訓(xùn)練的累積而逐漸豐富。
[0085] 步驟104,基于第1輪迭代訓(xùn)練后特征篩選模型的殘差,判斷是否需要對(duì)特征篩選 模型進(jìn)行第2輪迭代訓(xùn)練,如需要,則執(zhí)行步驟105;否則,執(zhí)行步驟106。
[0086] 示例性地,若第1輪迭代訓(xùn)練后特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸 出結(jié)果y之間的殘差統(tǒng)計(jì)指標(biāo)z未滿足要求,則確定需要對(duì)特征篩選模型進(jìn)行第2輪迭代訓(xùn) 練;若滿足要求,確定不需要對(duì)特征篩選模型進(jìn)行第2輪迭代訓(xùn)練。
[0087] 步驟105,篩除基礎(chǔ)變量池中用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量。
[0088] 示例性地,入選特征集合中的特征是對(duì)特征篩選模型進(jìn)行第1輪迭代訓(xùn)練后,由特 征篩選模型從強(qiáng)變量候選集(用于對(duì)特征篩選模型進(jìn)行第1輪迭代訓(xùn)練)中提取(選中)的強(qiáng) 變量;相應(yīng)地,在基礎(chǔ)變量池中篩除用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量,實(shí) 現(xiàn)對(duì)基礎(chǔ)變量池的更新。
[0089]步驟106,停止迭代訓(xùn)練,輸出第1輪迭代訓(xùn)練的結(jié)果。
[0090] 示例性地,可以輸出入選特征集合中的特征、對(duì)應(yīng)的基礎(chǔ)變量(基礎(chǔ)變量池中用于 構(gòu)建特征的基礎(chǔ)變量)、特征篩選模型的模型參數(shù),或者根據(jù)不同應(yīng)用的需求,在迭代過程 中需要關(guān)注的任意的中間結(jié)果或結(jié)果。
[0091] 與圖2對(duì)應(yīng),圖4示出了基于圖2示出的強(qiáng)變量提取的一個(gè)可選的架構(gòu)示意圖進(jìn)行 第k輪(k>2)迭代的一個(gè)可選的流程示意圖,直至,在進(jìn)行第k輪迭代后,特征篩選模型對(duì)測(cè) 驗(yàn)數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之間的殘差統(tǒng)計(jì)指標(biāo)符合殘差要求。
[0092] 步驟201,基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn)練的 強(qiáng)變量候選集。
[0093]在一個(gè)實(shí)施例中,僅基于在第k-Ι輪迭代中更新的基礎(chǔ)變量池(已經(jīng)篩除基礎(chǔ)變量 池中用于構(gòu)造第k-Ι輪迭代處理后入選特征集合中特征的基礎(chǔ)變量)中的變量構(gòu)造得到強(qiáng) 變量,基于所構(gòu)造的強(qiáng)變量形成用于對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練所使用的強(qiáng)變量 候選集。
[0094] 在另一個(gè)實(shí)施例中,基于在第k-Ι輪迭代中更新的基礎(chǔ)變量池(已經(jīng)篩除基礎(chǔ)變量 池中用于構(gòu)造第k-Ι輪迭代處理后入選特征集合中特征的基礎(chǔ)變量)中的基礎(chǔ)變量構(gòu)造得 到強(qiáng)變量,并結(jié)合第k-Ι輪迭代訓(xùn)練的剩余強(qiáng)變量形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選 集;第k-Ι輪迭代處理的剩余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的強(qiáng)變量候選集中未被特征篩 選模型(也就是進(jìn)行第k-Ι輪迭代訓(xùn)練后的特征篩選模型)提取(作為特征)的強(qiáng)變量。
[0095] 需要指出的是,用于第k-Ι輪迭代訓(xùn)練的強(qiáng)變量候選集中強(qiáng)變量的構(gòu)造方式,與第 k輪迭代訓(xùn)練的強(qiáng)變量候選集中強(qiáng)變量的構(gòu)造方式可以相同,也可以不同,本發(fā)明實(shí)施例中 不限于此,可以根據(jù)實(shí)際情況靈活處理。
[0096]步驟202,基于強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練。
[0097]步驟203,將特征篩選模型輸出的特征并入入選特征集合。
[0098]示例性地,輸出的特征為對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練后,在強(qiáng)變量候選集 中提取的強(qiáng)變量,相應(yīng)地,入選特征集合中包括特征篩選模型進(jìn)行第1至k次迭代訓(xùn)練后,在 強(qiáng)變量候選集中提取的強(qiáng)變量。
[0099]步驟204,基于第k輪迭代訓(xùn)練后特征篩選模型的殘差,判斷是否需要對(duì)特征篩選 模型進(jìn)行第k+1輪迭代訓(xùn)練,如需要,則執(zhí)行步驟205并返回步驟201進(jìn)行第k+1輪迭代;否 貝1J,執(zhí)行步驟206。
[0100] 示例性地,若第k輪迭代訓(xùn)練后特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸 出結(jié)果之間的殘差統(tǒng)計(jì)指標(biāo)未滿足要求,則確定需要對(duì)特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn) 練;否則,確定不需要對(duì)特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練。
[0101] 步驟205,篩除基礎(chǔ)變量池中用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量。
[0102] 示例性地,在進(jìn)行第k輪迭代后入選特征集合中的特征包括:對(duì)特征篩選模型進(jìn)行 第1輪至第k輪迭代訓(xùn)練后特征篩選模型從強(qiáng)變量候選集中提取(選中)的強(qiáng)變量;相應(yīng)地, 在基礎(chǔ)變量池中篩除用于構(gòu)造第k輪迭代后入選特征集合中的特征所使用的基礎(chǔ)變量,實(shí) 現(xiàn)對(duì)基礎(chǔ)變量池的再次更新。
[0103] 步驟206,停止迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié)果。
[0104] 在圖2中,初始訓(xùn)練特征篩選模型時(shí),入選特征集合為空集,特征變換與特征構(gòu)造 可以采用證據(jù)權(quán)重(W0E,Weight of Evidence)變換、對(duì)數(shù)變換等各種特征變換、特征構(gòu)造 和特征衍生方法中的至少一個(gè),本發(fā)明實(shí)施例中不限于此,基于基礎(chǔ)變量池構(gòu)造并篩選出 若干強(qiáng)變量形成強(qiáng)變量候選集,然后輸送給帶特征篩選機(jī)制的分類或回歸模型(簡(jiǎn)稱為上 述的特征篩選模型,本發(fā)明實(shí)施例中對(duì)分類或回歸模型的類型不限于此)進(jìn)行學(xué)習(xí)和訓(xùn)練。
[0105] 特征篩選模型從強(qiáng)變量候選集所挑選出的特征加入到入選特征集合,同時(shí)檢驗(yàn)特 征篩選模型模型對(duì)測(cè)試數(shù)據(jù)集(用于測(cè)試模型的已知的樣本)上的輸出結(jié)果與參考輸出結(jié) 果(用于測(cè)試模型的已知的樣本的標(biāo)簽如類別標(biāo)簽或某種數(shù)值)之間的殘差:1)若在整個(gè)測(cè) 試數(shù)據(jù)集上的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則不再進(jìn)行下一輪迭代;2)若殘差統(tǒng)計(jì)指標(biāo)不滿足 要求,則從基礎(chǔ)變量池中除去為構(gòu)造入選特征集合中的特征已經(jīng)使用的基礎(chǔ)變量,然后進(jìn) 行下一輪的迭代。
[0106] 作為一個(gè)示例,對(duì)圖2中特征變化與構(gòu)造采用基于矩陣變換+主成分分析(PCA, Principal Component Analysis)時(shí),對(duì)提取強(qiáng)變量的處理進(jìn)行說明,
[0107] 在本示例中,采用的特征篩選模型為帶特征篩選機(jī)制的分類或回歸模型,起其中 分類或回歸模型中采用LASSO邏輯回歸、帶前向-后向選擇的邏輯回歸、或基于變量顯著性 檢驗(yàn)與挑選的邏輯回歸算法,簡(jiǎn)記為L(zhǎng)R模型。
[0108] 參見圖5示出的在本示例中提取強(qiáng)變量的一個(gè)可選的流程示意圖,包括如下步驟:
[0109] 步驟301,對(duì)LR模型進(jìn)行迭代之前,計(jì)算基礎(chǔ)變量池中所有變量的相關(guān)性矩陣R。
[0110] 相關(guān)性矩陣R的第i行j列元素 Ru表示第i個(gè)基礎(chǔ)變量與第j個(gè)基礎(chǔ)變量之間的相關(guān) 系數(shù)(任何一種數(shù)學(xué)上定義的相關(guān)系數(shù)均可,這里以皮爾遜相關(guān)系數(shù)為例)。
[0111] 步驟302,對(duì)相關(guān)性矩陣R進(jìn)行變換。
[0112] 在第k(k為取值依次增大的正整數(shù),且k取值滿足k多1)輪迭代時(shí),記入選特征集合 中所涉及的基礎(chǔ)變量集合為C,通過對(duì)矩陣R進(jìn)行行列變換(等價(jià)變換)使得R的左上角(記作 分塊矩陣A)對(duì)應(yīng)著集合C中的基礎(chǔ)變量,而R的右下角(記作分塊矩陣L)對(duì)應(yīng)著未入選的基 礎(chǔ)變量,記此時(shí)的矩陣R為如下形式:
[0114]步驟303,基于相關(guān)性矩陣R得到一個(gè)列數(shù)不變的行向量u。
[0115] 對(duì)相關(guān)性矩陣R的右上角矩陣塊U,按列進(jìn)行最大池化(max-pooling),得到一個(gè)列 數(shù)不變的行向量u,如下:
[0116] u=[ui U2 ···]
[0117] U=[Ui U2 ···]
[0118] ▽?:廠6.?,有1_^=11^(1^)
[0119] 示例性地,基于列數(shù)不變的行向量u構(gòu)造強(qiáng)變量并對(duì)LR模型進(jìn)行第k(k為取值依次 增大的正整數(shù),且k取值滿足k多1)輪訓(xùn)練有以下幾種方式:
[0120] 步驟304,基于列數(shù)不變的行向量u構(gòu)造強(qiáng)變量,對(duì)LR模型進(jìn)行第k迭代訓(xùn)練。
[0121] 示例性地,包括以下兩種方式:
[0122] 構(gòu)造強(qiáng)變量方式1):對(duì)向量u按照元素值的大小,由小到大排列,挑選值最小的前m 個(gè)元素對(duì)應(yīng)的基礎(chǔ)變量,將前m個(gè)元素對(duì)應(yīng)的基礎(chǔ)變量進(jìn)行PCA變換得到組合特征,將組合 特征傳送給LR模型進(jìn)行第k輪迭代訓(xùn)練。
[0123] 構(gòu)造強(qiáng)變量方式2):對(duì)向量u中值小于某個(gè)設(shè)定閾值δ的所有元素挑選出來,將挑 選出的元素對(duì)應(yīng)的基礎(chǔ)變量進(jìn)行PCA變換得到組合特征,將組合特征傳送給LR模型進(jìn)行第k 輪跌迭代訓(xùn)練。
[0124] 步驟305,基于第k輪迭代后LR模型的殘差判斷是否需要進(jìn)行第k+Ι輪迭代,若需要 則返回步驟301進(jìn)行第k+Ι輪迭代;否則,執(zhí)行步驟306。
[0125] 若第k輪迭代后LR模型的輸出殘差統(tǒng)計(jì)指標(biāo)仍比較大(也即超出殘差統(tǒng)計(jì)指標(biāo),或 者殘差統(tǒng)計(jì)指標(biāo)不滿足預(yù)定要求),則把第k輪迭代中被模型入選的特征加入到入選特征集 合中,然后回到步驟301開始第k+Ι輪迭代
[0126] 步驟306,停止迭代,輸出第k輪迭代的相關(guān)結(jié)果。
[0127] 若第k輪迭代完成后,LR模型的輸出殘差統(tǒng)計(jì)指標(biāo)足夠小(也即殘差統(tǒng)計(jì)指標(biāo)小于 殘差統(tǒng)計(jì)指標(biāo)閾值,或者殘差統(tǒng)計(jì)指標(biāo)滿足預(yù)定要求),則停止迭代,并輸出相關(guān)結(jié)果:如入 選特征集合的特征以及在基礎(chǔ)變量池中對(duì)應(yīng)的變量;LR模型的模型參數(shù)。另外,輸出的結(jié)果 還可以是根據(jù)不同應(yīng)用的需求,在迭代過程中的任意中間結(jié)果。
[0128] 圖2示出的提取強(qiáng)變量方法的實(shí)現(xiàn)示意圖中只使用一個(gè)帶特征篩選機(jī)制的分類或 回歸模型,可以稱為單模型迭代(Single-Model WTSboost,簡(jiǎn)稱SM-WTSboost)方法。這樣的 方法設(shè)計(jì)實(shí)現(xiàn)簡(jiǎn)單、易于操作實(shí)施,會(huì)直接得到一個(gè)固定的模型,以及所有入選特征的相對(duì) 重要性(直接可比)(例如邏輯回歸模型中,各個(gè)變量的權(quán)值,就是代表重要性)。
[0129] 發(fā)明人在實(shí)施本發(fā)明的過程中發(fā)現(xiàn),圖2示出提取強(qiáng)變量的架構(gòu)存在以下問題:
[0130] 1)每一輪的特征選擇都會(huì)跟之前已經(jīng)入選的特征進(jìn)行一定程度上的競(jìng)爭(zhēng)。
[0131 ]所謂競(jìng)爭(zhēng)是指:后加入入選特征集合的新特征,都要與先加入入選特征集合中的 特征進(jìn)行比較(這個(gè)比較工作時(shí)模型的算法自動(dòng)完成),例如如果與特征篩選模型中已提取 的特征相關(guān)系數(shù)很大,則代表新特征包含的信息冗余,那么新特征可能就不會(huì)被加入進(jìn)來。 這可能造成在后續(xù)迭代過程中越來越難以挑選出有價(jià)值的強(qiáng)變量。
[0132] 2)帶特征篩選機(jī)制的分類或回歸模型在每一輪迭代中并沒有將所有計(jì)算資源集 中在每一輪的殘差空間,效率尚有提升空間。
[0133] 3)通常一個(gè)固定的、設(shè)計(jì)好的帶特征篩選機(jī)制的分類或回歸模型對(duì)于解決殘差空 間中的細(xì)致優(yōu)化問題并不一定有效,最佳的方式是使用最合適的模型來對(duì)每一輪的殘差空 間進(jìn)行尋優(yōu),如此才可提升整個(gè)系統(tǒng)的性能和效果。
[0134] 針對(duì)圖6示出的強(qiáng)變量提取方式存在的上述問題,參見圖7示出的強(qiáng)變量提取的另 一個(gè)可選的架構(gòu)示意圖,在圖7中,使用k(此時(shí)k取值滿足k>2)個(gè)不同的特征篩選模型進(jìn)行 k輪迭代,其中每輪迭代基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量的方式不同,例如,在圖6 中,第1輪迭代使用特征變換與特征構(gòu)造方式1、第2輪迭代使用特征變換與特征構(gòu)造方式2, 第k輪迭代使用特征變換與特征構(gòu)造方式η),并且,k個(gè)特征篩選模型的特征篩選方式不同, 實(shí)際應(yīng)用中特征篩選方式可以使用不同的算法或算法的組合,本發(fā)明實(shí)施例中不限于此。
[0135] 這樣,特征變換與特征構(gòu)造方式1、特征篩選模型1構(gòu)成一個(gè)迭代處理的組合,本發(fā) 明實(shí)施例中稱為第1元模組(第1組合),特征變換與特征構(gòu)造方式2、特征篩選模型2構(gòu)成與 元模組級(jí)聯(lián)的第2元模組(第2組合),從而構(gòu)成k個(gè)級(jí)聯(lián)的元模組(組合)。由于使用多個(gè)帶特 征篩選機(jī)制的分類或回歸模型的組合的級(jí)聯(lián),也稱為多模型迭代(Multi-Model WTSboost, 簡(jiǎn)稱MM-WTSboost)方法。每一個(gè)元模組中的特征變換和特征構(gòu)造方式會(huì)在之前各級(jí)均未入 選(上一個(gè)級(jí)聯(lián)的組合在基礎(chǔ)變量池中未選出作為特征)的基礎(chǔ)變量中進(jìn)行篩選和構(gòu)造強(qiáng) 變量,從而在上一級(jí)殘差空間中集中計(jì)算資源進(jìn)行挖掘。借助各個(gè)元模組中不同特征篩選 模型算法的優(yōu)勢(shì),逐步挖掘弱變量的表征能力。
[0136] 每個(gè)元模組包含區(qū)別于其他元模組的特征變換與特征構(gòu)造方式、以及區(qū)別于其他 元模組的特征篩選機(jī)制的分類或回歸模型,各個(gè)元模組的特征變換與特征構(gòu)造方法、以及 帶特征篩選機(jī)制的分類或回歸模型可選用不同的算法及其組合,使得第k級(jí)的元模組僅對(duì) 第k-Ι級(jí)元模組的輸出殘差空間進(jìn)行建模尋優(yōu)。
[0137] 以下對(duì)基于元模組1進(jìn)行第1輪迭代的處理進(jìn)行說明,參見圖7,基于圖6示出的強(qiáng) 變量提取的一個(gè)可選的架構(gòu)示意圖進(jìn)行第1輪迭代的處理包括以下步驟:
[0138] 步驟401,基于基礎(chǔ)變量池中的基礎(chǔ)變量,采用特征變換與特征構(gòu)造方式1構(gòu)造強(qiáng) 變量,形成用于第1輪迭代訓(xùn)練的強(qiáng)變量候選集。
[0139] 步驟402,基于強(qiáng)變量候選集對(duì)特征篩選模型1進(jìn)行第1輪迭代訓(xùn)練。
[0140] 步驟403,將特征篩選模型1輸出的特征并入入選特征集合。
[0141]輸出的特征為對(duì)特征篩選模型1進(jìn)行第1輪迭代訓(xùn)練后,在強(qiáng)變量候選集中提取的 強(qiáng)變量。
[0142] 步驟404,基于第1輪迭代訓(xùn)練后特征篩選模型1的殘差,判斷是否需要對(duì)特征篩選 模型2進(jìn)行第2輪迭代訓(xùn)練,如需要,則執(zhí)行步驟405;否則,執(zhí)行步驟406。
[0143] 步驟405,篩除基礎(chǔ)變量池中用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量。
[0144] 步驟406,停止迭代訓(xùn)練,輸出第1輪迭代訓(xùn)練的結(jié)果。
[0145] 示例性地,第1輪迭代訓(xùn)練的結(jié)果包括入選特征集合中的特征以及對(duì)應(yīng)的基礎(chǔ)變 量;特征篩選模型1的模型參數(shù),或者根據(jù)不同應(yīng)用的需求,在迭代過程中的任意中間結(jié)果; 輸出所關(guān)注的結(jié)果或中間結(jié)果。
[0146] 以下對(duì)基于元模組k進(jìn)行第k(k>l)輪迭代的處理進(jìn)行說明,直至,在對(duì)特征篩選模 型進(jìn)行第k輪迭代訓(xùn)練后,特征篩選模型對(duì)測(cè)驗(yàn)數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之間的 殘差統(tǒng)計(jì)指標(biāo)符合殘差要求。
[0147] 參見圖8,基于圖6示出的強(qiáng)變量提取的一個(gè)可選的架構(gòu)示意圖進(jìn)行第k輪迭代的 處理包括以下步驟:
[0148] 步驟501,采用特征變換與特征構(gòu)造方式k對(duì)基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變 量,形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集。
[0149] 基于第k-Ι輪迭代中更新的基礎(chǔ)變量池(已經(jīng)篩除基礎(chǔ)變量池中用于構(gòu)造第k-Ι輪 迭代處理后入選特征集合中特征的基礎(chǔ)變量)中的變量構(gòu)造得到強(qiáng)變量,基于所構(gòu)造的強(qiáng) 變量形成用于對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練所使用的強(qiáng)變量候選集;或者,還可以結(jié) 合所構(gòu)造的強(qiáng)變量、第k-Ι輪迭代訓(xùn)練的剩余強(qiáng)變量形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選 集;第k-Ι輪迭代處理的剩余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的強(qiáng)變量候選集中未被特征篩 選模型提取(作為特征)的強(qiáng)變量。
[0150] 步驟502,基于強(qiáng)變量候選集對(duì)特征篩選模型k進(jìn)行第k輪迭代訓(xùn)練。
[0151 ]步驟503,將特征篩選模型k輸出的特征并入入選特征集合。
[0152] 步驟504,基于第k輪迭代訓(xùn)練后特征篩選模型的殘差,判斷是否需要對(duì)特征篩選 模型k+Ι進(jìn)行第k+Ι輪迭代訓(xùn)練,如需要,則執(zhí)行步驟505并返回步驟501進(jìn)行第k+Ι輪迭代; 否則,執(zhí)行步驟506。
[0153] 步驟505,篩除基礎(chǔ)變量池中用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量。
[0154] 步驟506,停止迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié)果。
[0155] 如入選的特征,如所有入選的特征、各個(gè)特征篩選模型入選的特征、以及對(duì)應(yīng)的基 礎(chǔ)變量;還有各個(gè)特征篩選模型的模型參數(shù)?;蛘吒鶕?jù)不同應(yīng)用的需求,在迭代過程中的任 意中間結(jié)果;輸出所關(guān)注的結(jié)果或中間結(jié)果。
[0156] 與前述的單模型迭代方法對(duì)應(yīng),對(duì)本發(fā)明實(shí)施例提供的用于實(shí)施單模型迭代方法 的強(qiáng)變量提取裝置的結(jié)構(gòu)進(jìn)行說明,參見圖9示出的強(qiáng)變量提取裝置的一個(gè)可選的結(jié)構(gòu)示 意圖,包括一個(gè)構(gòu)造模塊81和一個(gè)特征篩選模塊82,在各次迭代處理中特征篩選模塊82進(jìn) 行迭代所使用的特征篩選模型相同。以下對(duì)各模塊進(jìn)行說明。
[0157] 構(gòu)造模塊81基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn)練 的強(qiáng)變量候選集;在一個(gè)實(shí)施例中,采用這樣的方式形成強(qiáng)變量候選集,對(duì)第k-Ι輪迭代處 理后基礎(chǔ)變量池中剩余的基礎(chǔ)變量執(zhí)行特征構(gòu)造、特征變換和特征衍生至少之一的構(gòu)造方 式構(gòu)造強(qiáng)變量,基于構(gòu)造的強(qiáng)變量形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集,k取值滿足1〇 1;
[0158]特征篩選模塊82基于強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練,k為取值 依次增大的正整數(shù),且k取值滿足k多1;將特征篩選模型輸出的特征并入到入選特征集合, 輸出的特征為對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練后在強(qiáng)變量候選集中提取的強(qiáng)變量;基 于第k輪迭代訓(xùn)練后特征篩選模型的殘差確定是否需要對(duì)特征篩選模型進(jìn)行第k+Ι輪迭代 訓(xùn)練。
[0159] 在一個(gè)實(shí)施例中,采用這樣的方式確定是否需要對(duì)特征篩選模型進(jìn)行第k+Ι輪迭 代訓(xùn)練并進(jìn)行對(duì)應(yīng)處理:
[0160] 1)若第k輪迭代訓(xùn)練后特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果y 之間的殘差z統(tǒng)計(jì)指標(biāo)未滿足要求,則確定需要對(duì)特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練;篩 除基礎(chǔ)變量池中用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量;
[0161] 2)若第k輪迭代訓(xùn)練后特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之 間的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則停止對(duì)特征篩選模型的迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié) 果。
[0162] 與前述的單模型迭代方法對(duì)應(yīng),對(duì)本發(fā)明實(shí)施例提供的用于實(shí)施多模型迭代方法 的強(qiáng)變量提取裝置的結(jié)構(gòu)進(jìn)行說明,參見圖10示出的強(qiáng)變量提取裝置的一個(gè)可選的結(jié)構(gòu)示 意圖,強(qiáng)變量提取裝置包括至少兩個(gè)特征篩選模塊以及至少兩個(gè)構(gòu)造模塊,至少兩個(gè)特征 篩選模塊使用的特征篩選模型不同;第k(k多1)構(gòu)造模塊91k與第k特征篩選模塊92k組合形 成的第k組合、與第k+Ι構(gòu)造模塊、第k+Ι特征篩選模塊組合形成的第k+Ι組合級(jí)聯(lián)。
[0163] 另外,第k構(gòu)造模塊構(gòu)造強(qiáng)變量的構(gòu)造方式,不同于第k+Ι構(gòu)造模塊構(gòu)造強(qiáng)變量的 構(gòu)造方式。在每次迭代處理中僅由一個(gè)組合進(jìn)行迭代,例如在第k輪迭代中,由第k特征篩選 模塊92k利用第k構(gòu)造模塊91k構(gòu)造的強(qiáng)變量候選集,對(duì)第k特征篩選模型(也記為特征篩選 模型k)進(jìn)行迭代訓(xùn)練。
[0164] 以下對(duì)第k輪迭代的處理進(jìn)行說明。
[0165] 第k構(gòu)造模塊91k基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代 訓(xùn)練的強(qiáng)變量候選集。
[0166] 在一個(gè)實(shí)施例中,第k構(gòu)造模塊91k可以基于構(gòu)造的強(qiáng)變量、以及第k-Ι輪迭代訓(xùn)練 的剩余強(qiáng)變量結(jié)合形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集;其中,第k-Ι輪迭代處理的剩 余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的強(qiáng)變量候選集中未被特征篩選模型k-Ι提取的強(qiáng)變量。
[0167] 在一個(gè)實(shí)施例中,第k特征篩選模塊92k基于強(qiáng)變量候選集對(duì)特征篩選模型k進(jìn)行 第k輪迭代訓(xùn)練,并將特征篩選模型k輸出的特征并入到入選特征集合,輸出的特征為對(duì)特 征篩選模型k進(jìn)行第k輪迭代訓(xùn)練后特征篩選模型k在強(qiáng)變量候選集中提取的強(qiáng)變量。
[0168] 在一個(gè)實(shí)施例中,第k特征篩選模塊92k基于第k輪迭代訓(xùn)練后特征篩選模型1的殘 差,確定是否需要第k+Ι特征篩選模塊對(duì)特征篩選模型k+Ι進(jìn)行第k+Ι輪迭代訓(xùn)練,示例性 地,采用如下方式:
[0169] 1)若第k輪迭代訓(xùn)練后特征篩選模型k對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果 之間的殘差統(tǒng)計(jì)指標(biāo)未滿足要求,則確定第k+Ι特征篩選模塊對(duì)特征篩選模型k+Ι進(jìn)行第k+ 1輪迭代訓(xùn)練,篩除基礎(chǔ)變量池中用于構(gòu)造入選特征集合中的特征所使用的基礎(chǔ)變量,從而 實(shí)現(xiàn)了對(duì)第k+Ι輪迭代訓(xùn)練中構(gòu)造強(qiáng)變量所使用的基礎(chǔ)變量進(jìn)行更新的效果。
[0170] 2)若第k輪迭代訓(xùn)練后特征篩選模型k對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果 之間的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則停止迭代訓(xùn)練并輸出結(jié)果。示例性地,輸出的結(jié)果包括: 入選特征集合的特征以及在基礎(chǔ)變量池中對(duì)應(yīng)的變量;k個(gè)特征篩選模型的模型參數(shù)。另 外,輸出的結(jié)果還可以是根據(jù)不同應(yīng)用的需求,在迭代過程中的任意中間結(jié)果。
[0171] 結(jié)合相關(guān)技術(shù)對(duì)于提取強(qiáng)變量主要提供的顯式選擇和隱式選擇兩種方案,下面通 過對(duì)這兩種方案的分析來說明本發(fā)明實(shí)施例所具有的有益效果。
[0172] 一、顯式選擇與構(gòu)造
[0173] 顯式選擇與構(gòu)造方案,具有明確的特征選擇和構(gòu)造步驟(或過程),包括各種基于 經(jīng)驗(yàn)和形式化準(zhǔn)則的人工篩選、構(gòu)造及衍生,或算法(程序、軟件等)自動(dòng)篩選、構(gòu)造及衍生。 其中的代表性方法有基于IV值、互信息、相關(guān)系數(shù)、最小的絕對(duì)值收縮和變量選擇(LASS0, The Least Absolute Shrinkage and Selectionator Operator)、稀疏化、前向-后向等特 征選擇方法。
[0174] 存在的問題是:顯式選擇與構(gòu)造方案是基于(專家)經(jīng)驗(yàn)和規(guī)則的人工篩選、構(gòu)造 及衍生的諸多方法,雖然可以融入領(lǐng)域知識(shí),但是難以標(biāo)準(zhǔn)化,不具普適性和推廣性,難以 封裝成產(chǎn)品或服務(wù)供廣大用戶(研發(fā)人員及企業(yè)等)使用。而且耗費(fèi)的人力較大,時(shí)間周期 長(zhǎng)。
[0175] 并且,顯式選擇與構(gòu)造方案大都將特征構(gòu)造和特征篩選兩個(gè)部分分開。特征構(gòu)造 及衍生通常在建模之初由特定的模塊(或人工)單獨(dú)完成,而特征篩選過程則融入分類或回 歸模型的訓(xùn)練過程一并進(jìn)行。算法無法對(duì)特征構(gòu)造階段形成影響及指導(dǎo),難以在總體上得 到最優(yōu)化的效果。
[0176] 二、隱式選擇與構(gòu)造
[0177]隱式選擇與構(gòu)造的方案,沒有明確的特征選擇和構(gòu)造步驟(或過程),而是融入在 分類或回歸模型的訓(xùn)練過程中,由機(jī)器學(xué)習(xí)算法自動(dòng)完成,也稱為"黑箱方式",且中間過程 和中間結(jié)果也沒有可供輸出的、明確意義的特征。這方面的代表性方法有:支持向量機(jī) (SVM,Support Vector Machine)、(深度)神經(jīng)網(wǎng)絡(luò)和 k 最近鄰(kNN,k_Nearest Neighbor) 分類算法。
[0178]隱式選擇與構(gòu)造類型的方法存在如下問題:
[0179] 1)屬于"黑箱模型",無法獲得明確、有意義的特征供人們理解、檢驗(yàn),難以形成對(duì) 所解決的問題及所屬領(lǐng)域的深刻認(rèn)識(shí),無法積累有價(jià)值的經(jīng)驗(yàn)并用以解決到所屬領(lǐng)域內(nèi)的 其他問題,或其他相關(guān)領(lǐng)域內(nèi)的相關(guān)問題。
[0180] 2)由于難以從中間過程和中間結(jié)果中提取出有意義的特征或規(guī)則,所以無法被未 來解決當(dāng)前問題的新方法(或更新、更高級(jí)版本的改進(jìn)算法)使用,也無法提供給其他問題 中的類似方法、類似模型所使用,存在"信息不可復(fù)用性"的問題。
[0181] 3)同時(shí),由于無法獲知輸入給算法(或模型、模塊)的諸多變量(或特征)中哪些是 比較重要的,哪些是相對(duì)次要的,不利于在實(shí)踐中對(duì)那些相對(duì)更為重要的變量給予關(guān)注并 改進(jìn)數(shù)據(jù)收集和預(yù)處理過程、提高數(shù)據(jù)精度、減少噪聲和誤差。
[0182] 隱式選擇與構(gòu)造類型的方法通常對(duì)海量的數(shù)據(jù)和基礎(chǔ)變量沒有任何的篩選或剔 除,無論有用還是沒用的信息都同一輸入給模型(或算法、模塊),整個(gè)系統(tǒng)需要消耗大量的 計(jì)算資源、時(shí)間和維護(hù)成本,且后期難以對(duì)運(yùn)維成本進(jìn)行優(yōu)化。
[0183] 本發(fā)明實(shí)施例提供的強(qiáng)變量提取方法及裝置,結(jié)合了顯式選擇與構(gòu)造、以及隱式 選擇與構(gòu)造兩種類型方案的優(yōu)點(diǎn),并摒棄了這兩種類型方案各自存在的問題:具體而言,有 如下的特性和突出優(yōu)勢(shì):
[0184] 1)具有顯式的特征選擇和構(gòu)造過程,與分類或回歸模型的學(xué)習(xí)訓(xùn)練過程融為一個(gè) 整體的閉環(huán)流程,分類或回歸模型在每個(gè)階段的性能和結(jié)果可以反饋回去指導(dǎo)特征選擇和 構(gòu)造過程,實(shí)現(xiàn)整個(gè)大系統(tǒng)的優(yōu)化。有效地克服了顯式選擇與構(gòu)造類方案的缺陷。
[0185] 2)在迭代式篩選和構(gòu)造特征的過程中,每一輪被選擇的特征及它們的構(gòu)造表達(dá) 式、相關(guān)含義等都可以作為中間結(jié)果輸出。并且可以給出每一批入選的特征在同批次中的 相對(duì)重要程度,以及它們?cè)谒信尉C合衡量的重要程度,有效地克服了隱式選擇與構(gòu)造 類技術(shù)方案的缺陷。
[0186] 3)對(duì)海量的數(shù)據(jù)和基礎(chǔ)變量有明確的篩選、剔除和變換,每一輪迭代中都優(yōu)先將 最有用的信息提純(變換)并保留,大大節(jié)約了各種計(jì)算、存儲(chǔ)和帶寬等資源,顯著地節(jié)省了 訓(xùn)練模型和使用模型進(jìn)行預(yù)測(cè)等環(huán)節(jié)所消耗的時(shí)間,極大地節(jié)約了維護(hù)成本,且支持后期 對(duì)運(yùn)維成本進(jìn)行靈活、彈性的優(yōu)化,有效地克服了中隱式選擇與構(gòu)造類技術(shù)的缺陷。
[0187] 本領(lǐng)域的技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程 序指令相關(guān)的硬件來完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在 執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:移動(dòng)存儲(chǔ)裝置、隨機(jī)存 取存儲(chǔ)器(RAM,Random Access Memory)、只讀存儲(chǔ)器(R0M,Read_0nly Memory)、磁碟或者 光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0188] 或者,本發(fā)明上述集成的單元如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品 銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明實(shí)施 例的技術(shù)方案本質(zhì)上或者說對(duì)相關(guān)技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來, 該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以 是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)裝置等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分。 而前述的存儲(chǔ)介質(zhì)包括:移動(dòng)存儲(chǔ)裝置、RAM、R0M、磁碟或者光盤等各種可以存儲(chǔ)程序代碼 的介質(zhì)。
[0189] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種強(qiáng)變量提取方法,其特征在于,所述方法包括: 基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集; 基于所述強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練,k為取值依次增大的正整 數(shù),且k取值滿足k^l; 將所述特征篩選模型輸出的特征并入到入選特征集合,所述輸出的特征為對(duì)所述特征 篩選模型進(jìn)行第k輪迭代訓(xùn)練后所述特征篩選模型在所述強(qiáng)變量候選集中提取的強(qiáng)變量; 基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定需要對(duì)所述特征篩選模型進(jìn)行第 k+Ι輪迭代訓(xùn)練; 篩除所述基礎(chǔ)變量池中用于構(gòu)造所述入選特征集合中的特征所使用的基礎(chǔ)變量。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng) 變量,形成強(qiáng)變量候選集,包括: 對(duì)第k-Ι輪迭代處理后所述基礎(chǔ)變量池中剩余的基礎(chǔ)變量采用特征構(gòu)造、特征變換和 特征衍生至少之一的構(gòu)造方式構(gòu)造強(qiáng)變量,基于構(gòu)造的所述強(qiáng)變量形成用于第k輪迭代訓(xùn) 練的強(qiáng)變量候選集,k取值滿足k>l。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于構(gòu)造的所述強(qiáng)變量形成所述強(qiáng)變 量候選集,包括: 基于構(gòu)造的所述強(qiáng)變量、以及第k-Ι輪迭代訓(xùn)練的剩余強(qiáng)變量結(jié)合形成用于第k輪迭代 訓(xùn)練的強(qiáng)變量候選集; 其中,所述第k-Ι輪迭代處理的剩余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的所述強(qiáng)變量候選 集中未被所述特征篩選模型提取的強(qiáng)變量。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于第k輪迭代訓(xùn)練后所述特征篩選 模型的殘差確定需要對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練,包括: 若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之間 的殘差統(tǒng)計(jì)指標(biāo)未滿足要求,則確定需要對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸出結(jié)果與參考輸出結(jié)果之間 的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則停止對(duì)所述特征篩選模型的迭代訓(xùn)練。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述第k輪迭代訓(xùn)練所使用的特征篩選模型與所述第k+Ι輪迭代訓(xùn)練所使用的特征篩 選模型相同。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 用于所述第k輪迭代訓(xùn)練的強(qiáng)變量候選集中所述強(qiáng)變量的構(gòu)造方式,不同于所述第k+1 輪迭代訓(xùn)練的強(qiáng)變量候選集中所述強(qiáng)變量的構(gòu)造方式; 所述第k輪迭代訓(xùn)練所使用的特征篩選模型,不同于所述第k+Ι輪迭代訓(xùn)練所使用的特 征篩選模型。8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定不需要對(duì)所述特征篩選模型進(jìn)行 第k+Ι輪迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié)果。9. 一種強(qiáng)變量提取裝置,其特征在于,所述裝置包括: 構(gòu)造模塊,用于基于基礎(chǔ)變量池中的基礎(chǔ)變量構(gòu)造強(qiáng)變量,形成用于第k輪迭代訓(xùn)練的 強(qiáng)變量候選集; 特征篩選模塊,用于基于所述強(qiáng)變量候選集對(duì)特征篩選模型進(jìn)行第k輪迭代訓(xùn)練,k為 取值依次增大的正整數(shù),且k取值滿足k多1; 所述特征篩選模塊,還用于將所述特征篩選模型輸出的特征并入到入選特征集合,所 述輸出的特征為對(duì)所述特征篩選模型進(jìn)行第k輪迭代訓(xùn)練后所述特征篩選模型在所述強(qiáng)變 量候選集中提取的強(qiáng)變量; 所述特征篩選模塊,還用于基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定需要 對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練; 所述特征篩選模塊,還用于篩除所述基礎(chǔ)變量池中用于構(gòu)造所述入選特征集合中的特 征所使用的基礎(chǔ)變量。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述構(gòu)造模塊,還用于對(duì)第k-Ι輪迭代處理后所述基礎(chǔ)變量池中剩余的基礎(chǔ)變量采用 特征構(gòu)造、特征變換和特征衍生至少之一的構(gòu)造方式構(gòu)造強(qiáng)變量,基于構(gòu)造的所述強(qiáng)變量 形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集,k取值滿足k>l。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述構(gòu)造模塊,還用于基于構(gòu)造的所述強(qiáng)變量、以及第k-Ι輪迭代訓(xùn)練的剩余強(qiáng)變量結(jié) 合形成用于第k輪迭代訓(xùn)練的強(qiáng)變量候選集; 其中,所述第k-Ι輪迭代處理的剩余強(qiáng)變量為用于第k-Ι輪迭代訓(xùn)練的所述強(qiáng)變量候選 集中未被所述特征篩選模型提取的強(qiáng)變量。12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述特征篩選模塊,還用于若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸 出結(jié)果與參考輸出結(jié)果之間的殘差統(tǒng)計(jì)指標(biāo)未滿足要求,則確定需要對(duì)所述特征篩選模型 進(jìn)行第k+Ι輪迭代訓(xùn)練。13. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述特征篩選模塊,還用于若第k輪迭代訓(xùn)練后所述特征篩選模型對(duì)測(cè)試數(shù)據(jù)集的輸 出結(jié)果與參考輸出結(jié)果之間的殘差統(tǒng)計(jì)指標(biāo)滿足要求,則停止對(duì)所述特征篩選模型的迭代 訓(xùn)練。14. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述裝置包括的所述構(gòu)造模塊與所述特征篩選模塊的數(shù)量均為一個(gè),所述特征篩選模 塊進(jìn)行第k輪迭代訓(xùn)練所使用的特征篩選模型與進(jìn)行第k+Ι輪迭代訓(xùn)練所使用的特征篩選 模型相同。15. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述裝置包括至少兩個(gè)所述特征篩選模塊以及至少兩個(gè)所述構(gòu)造模塊,所述至少兩個(gè) 特征篩選模塊使用的特征篩選模型不同;其中, 第k組合與第k+Ι組合級(jí)聯(lián),所述第k組合為第k構(gòu)造模塊與第k特征篩選模塊組合形成, 所述第k+Ι組合為第k+Ι構(gòu)造模塊與第k+Ι特征篩選模塊組合形成; 所述第k構(gòu)造模塊構(gòu)造所述強(qiáng)變量的構(gòu)造方式,所述不同于第k+Ι構(gòu)造模塊構(gòu)造所述強(qiáng) 變量的構(gòu)造方式。16.根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述特征篩選模塊,還用于基于第k輪迭代訓(xùn)練后所述特征篩選模型的殘差確定不需 要對(duì)所述特征篩選模型進(jìn)行第k+Ι輪迭代訓(xùn)練,輸出第k輪迭代訓(xùn)練的結(jié)果。
【文檔編號(hào)】G06F17/30GK106095942SQ201610416751
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月12日 公開號(hào)201610416751.0, CN 106095942 A, CN 106095942A, CN 201610416751, CN-A-106095942, CN106095942 A, CN106095942A, CN201610416751, CN201610416751.0
【發(fā)明人】劉志斌, 陳培炫, 陳謙
【申請(qǐng)人】騰訊科技(深圳)有限公司