欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種特征數(shù)據(jù)處理方法及設(shè)備與流程

文檔序號:11678198閱讀:312來源:國知局
一種特征數(shù)據(jù)處理方法及設(shè)備與流程

本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種特征數(shù)據(jù)處理方法。本申請同時還涉及一種特征數(shù)據(jù)處理設(shè)備。



背景技術(shù):

隨著互聯(lián)網(wǎng)的不斷發(fā)展,大量用戶在使用互聯(lián)網(wǎng)過程中所產(chǎn)出的數(shù)據(jù)可被廣泛使用并轉(zhuǎn)換成有用的信息和知識。這些獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等。因此數(shù)據(jù)挖掘技術(shù)越來越為信息產(chǎn)業(yè)界所關(guān)注。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),其通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。

在數(shù)據(jù)挖掘的業(yè)務(wù)場景中,經(jīng)常需要針對超大規(guī)模的數(shù)據(jù)使用機器學(xué)習(xí)算法進(jìn)行分類或者回歸計算,在當(dāng)前互聯(lián)網(wǎng)的環(huán)境下,經(jīng)常需要對數(shù)十億甚至上千億的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練特征隨著業(yè)務(wù)擴展,也會到一個非常驚人的量級,以ctr(click-through-rate,廣告點擊率)業(yè)務(wù)為例,參與計算的特征有可能達(dá)到百億的規(guī)模,對于此類問題,常規(guī)的解決方案是使用并行計算的方式進(jìn)行,但是對于百億特征*千億數(shù)據(jù)的規(guī)模下,經(jīng)常使用到超大規(guī)模的計算集群,得到最終最優(yōu)結(jié)果的是時間也非常長,滿足不了業(yè)務(wù)的更新需求。

如圖1所示,為現(xiàn)有技術(shù)中針對特征數(shù)據(jù)進(jìn)行處理的實現(xiàn)偽代碼示意圖,該方法通過為每臺worker(處理設(shè)備)分配t個數(shù)據(jù),利用這些數(shù)據(jù)進(jìn)行優(yōu)化更新處理,最后由指定的處理端對輸出結(jié)果進(jìn)行歸約。然而,該方案實質(zhì)上僅是將原本海量的數(shù)據(jù)分發(fā)到n個不同的worker中計算,其處理的數(shù)據(jù)總量以 及用于處理數(shù)據(jù)的特征不發(fā)生變化,每個worker處理的數(shù)據(jù)量為總數(shù)據(jù)量的1/n,對于數(shù)據(jù)量在一定范圍內(nèi)可以處理,但是對于千億樣本,百億特征的情況下,數(shù)據(jù)總量可能超過pb級別,超出了一般計算集群的計算范圍,運行時間和效率都比較低。

由此可見,在面對海量的待處理數(shù)據(jù)時,如何在保留特征信息的同時降低特征維度,從而降低訓(xùn)練數(shù)據(jù)以及提升數(shù)據(jù)計算運行效率,成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。



技術(shù)實現(xiàn)要素:

本申請?zhí)峁┝艘环N特征數(shù)據(jù)處理方法,通過引入iv值選擇和hashing生成每個樣本的特征指紋替代原始特征訓(xùn)練,最大程度的保留了特征的信息值,又極大的降低了特征維度,最終保證訓(xùn)練維度可控,降低了訓(xùn)練數(shù)據(jù)量,提升了訓(xùn)練速度。所述特征數(shù)據(jù)處理方法包括:

根據(jù)各個特征的信息屬性值,將當(dāng)前存在的特征分別劃分為重要特征集以及輔助特征集;

將所述輔助特征集中的特征轉(zhuǎn)換為散列特征;

將所述散列特征與所述重要特征集中的特征進(jìn)行合并,并將所述合并后的特征設(shè)置為指紋特征。

優(yōu)選地,所述信息屬性值至少包括所述特征的信息值iv以及信息增益ig,根據(jù)各個特征的信息屬性值將當(dāng)前存在的特征分別劃分為重要特征集以及輔助特征集,具體為:

獲取各所述特征的信息屬性值;

將所述信息屬性值大于或等于預(yù)設(shè)的閾值的特征設(shè)置為重要特征,以及將所述信息屬性值小于所述閾值的特征設(shè)置為輔助特征;

根據(jù)所述特征中的重要特征生成所述重要特征集,以及根據(jù)所述特征中 的輔助特征生成所述輔助特征集。

優(yōu)選地,將所述輔助特征集中的特征轉(zhuǎn)換為散列特征,具體為:

根據(jù)預(yù)設(shè)的哈希算法,將所述輔助特征轉(zhuǎn)換為包含所述哈希算法對應(yīng)的參數(shù)的向量。

優(yōu)選地,在將所述合并后的特征設(shè)置為指紋特征之后,還包括:

將與待處理數(shù)據(jù)對應(yīng)的原始特征替換為所述指紋特征;

根據(jù)所述指紋特征對所述待處理數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測。

本申請?zhí)峁┝艘环N特征數(shù)據(jù)處理設(shè)備,包括:

劃分模塊,用于根據(jù)各個特征的信息屬性值,將當(dāng)前存在的特征分別劃分為重要特征集以及輔助特征集;

轉(zhuǎn)換模塊,用于將所述輔助特征集中的特征轉(zhuǎn)換為散列特征;

合并模塊,用于將所述散列特征與所述重要特征集中的特征進(jìn)行合并,并將所述合并后的特征設(shè)置為指紋特征。

優(yōu)選地,所述信息屬性值至少包括所述特征的信息值iv以及信息增益ig,所述劃分還包括:

獲取子模塊,用于獲取各所述特征的信息屬性值;

設(shè)置子模塊,用于將所述信息屬性值大于或等于預(yù)設(shè)的閾值的特征設(shè)置為重要特征,以及將所述信息屬性值小于所述閾值的特征設(shè)置為輔助特征;

生成子模塊,用于根據(jù)所述特征中的重要特征生成所述重要特征集,以及根據(jù)所述特征中的輔助特征生成所述輔助特征集。

優(yōu)選地,所述轉(zhuǎn)換模塊將所述輔助特征集中的特征轉(zhuǎn)換為散列特征,具體為:

根據(jù)預(yù)設(shè)的哈希算法,將所述輔助特征轉(zhuǎn)換為包含所述哈希算法對應(yīng)的參數(shù)的向量。

優(yōu)選地,所述合并模塊還包括:

替換子模塊,用于將與待處理數(shù)據(jù)對應(yīng)的原始特征替換為所述指紋特征;

訓(xùn)練子模塊,用于根據(jù)所述指紋特征對所述待處理數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測。

與現(xiàn)有技術(shù)相比,本申請實施例至少具有以下優(yōu)點:本申請實施例中將原有特征分為重要特征和輔助特征,重要特征全部原樣保留,通過hashing的方法處理輔助特征得到散列值,最終重要特征集合和散列值合并得到原始特征指紋,進(jìn)而執(zhí)行集群學(xué)習(xí)訓(xùn)練和預(yù)測,該方式在保留特征信息的同時降低了特征維度,進(jìn)而降低訓(xùn)練數(shù)據(jù)以及提升數(shù)據(jù)計算運行效率,從而提升了數(shù)據(jù)處理效率。

附圖說明

為了更清楚地說明本申請的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為現(xiàn)有技術(shù)中中進(jìn)行特征訓(xùn)練的具體實現(xiàn)偽代碼示意圖;

圖2為本申請實施例提出的一種特征數(shù)據(jù)處理方法的流程示意圖;

圖3為本申請實施例提出的信息值計算的輸出形式示意圖;

圖4為本申請實施例提出的hashing算法示意圖;

圖5為本申請實施例提出的一種高效訓(xùn)練流程示意圖;

圖6為本申請實施例提出的一種特征數(shù)據(jù)處理設(shè)備的結(jié)構(gòu)示意圖。

具體實施方式

為了進(jìn)一步闡述本申請的技術(shù)思想,現(xiàn)結(jié)合具體的應(yīng)用場景,對本申請的技術(shù)方案進(jìn)行說明。顯然,所描述的實施例僅僅是本申請的一部分實施例, 而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。

如圖2所示,為本申請實施例提供的一種特征數(shù)據(jù)處理方法的流程,具體包括以下步驟:

步驟201,根據(jù)各個特征的信息屬性值,將當(dāng)前存在的特征分別劃分為重要特征集以及輔助特征集。

為了實現(xiàn)數(shù)據(jù)特征的簡化,本申請通過將數(shù)據(jù)原有的特征分為兩個特征集合:重要特征集和輔助特征集,其中重要特征集中的特征全部原樣保留,而輔助特征集中的特征由于維度一般較高,后續(xù)將進(jìn)行處理以降低其維度。

在當(dāng)今數(shù)據(jù)接口越來越多的情況下,數(shù)據(jù)集的原始變量、衍生變量會越來越多,因此信息值iv(informationvalue)在實際數(shù)據(jù)應(yīng)用中十分重要。iv用來表示每一個變量對目標(biāo)變量來說有多少“信息”的量,從而使得特征選擇變得簡單快速。

但凡是特征選擇,總是在將特征的重要程度量化之后再進(jìn)行選擇,而如何量化特征,就成了各種方法間最大的不同。在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。因此對于一個特征而言,信息增益為系統(tǒng)存在該特征和不存在該特征時候的信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息量,即信息增益ig(informationgain)。

由于iv以及ig是與特征密切相關(guān)的兩個屬性,在本申請的優(yōu)選實施例中,信息屬性值應(yīng)至少包括特征的iv以及ig,在該步驟之前需要針對各個特征數(shù)據(jù)進(jìn)行特征屬性值的計算,用以獲取各個特征的信息屬性值。

以二分為例,本申請具體的實施例中信息屬性值計算公式如下所示:

woe=ln(pctlgood/pctlbad)

miv=woe*(pctlgood-pctlbad)

iv=∑miv

該實施例中對應(yīng)的輸出形式如圖3所示,其中col列為特征名,iv為信息值,ig為信息增益。

在此基礎(chǔ)上,本申請實施例中為了實現(xiàn)對各個特征是重要特征或輔助特征的劃分,預(yù)先設(shè)定了iv閾值和/或ig閾值。將通過上述公式計算得到的各個特征的信息屬性值與預(yù)設(shè)的iv閾值和/或ig閾值進(jìn)行比較,若某一特征的信息屬性值大于或等于預(yù)設(shè)的閾值,則判斷該特征為重要特征;若某一特征的信息屬性值小于所述閾值,則判斷該特征為輔助特征。

根據(jù)上述判斷的重要特征與輔助特征,依賴于iv值和/或ig值將原有特征分成了重要特征集和輔助特征集兩個部分。其中,重要特征集中的信息屬性值均大于或等于預(yù)設(shè)的閾值,輔助特征集中的信息屬性值則小于預(yù)設(shè)的閾值。

需要說明的是,以上優(yōu)選實施例盡管以iv以及ig為例說明了重要特征集以及輔助特征集中特征的劃分,但是本領(lǐng)域技術(shù)人員可以在此基礎(chǔ)上采取其他屬性或是手段實現(xiàn)相同的效果,這些都屬于本申請的保護范圍。

步驟202,將所述輔助特征集中的特征轉(zhuǎn)換為散列特征。

如s201所述,由于輔助特征集可能較大,因此在本申請的優(yōu)選實施例中,可采用哈希算法b-bitminwisehashing方案將輔助特征集轉(zhuǎn)為散列值標(biāo)識。預(yù)設(shè)的哈希算法具體如圖4所示。

通過上述算法,輔助特征集中的輔助特征被轉(zhuǎn)換為一個k*2b維度的向量,其中,k和b為算法指定參數(shù)。本申請實施例提出利用哈希算法b-bitminwisehashing處理輔助特征集,b-bitminwisehashing算法廣泛應(yīng)用于海量數(shù)據(jù)下的信息檢索,而b-bitminwisehashing算法主要是針對降低存儲空間、加快計算提出來的,精度會隨著b的降低而降低。通過b-bitminwisehashing處理輔助 特征集能夠?qū)崿F(xiàn)將b=64縮小到b位,降低了存儲空間和計算時間。

需要說明的是,該過程只是將輔助特征集中的輔助特征轉(zhuǎn)換為散列值標(biāo)識,并不對重要特征集中的特征進(jìn)行處理,重要特征集中的特征全部原樣保留。

步驟203,將所述散列特征與所述重要特征集中的特征進(jìn)行合并,并將所述合并后的特征設(shè)置為指紋特征。

在本申請的優(yōu)選實施例中,將重要特征集中的特征與輔助特征轉(zhuǎn)換后的散列值合并,并將合并后的特征設(shè)置為指紋特征。之后將與待處理數(shù)據(jù)對應(yīng)的原始特征替換為指紋特征,并根據(jù)指紋特征對待處理數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測。

如圖5所示,為本申請實施例提出的一種高效訓(xùn)練流程示意圖。

以iv值為例,本申請實施例在原有的特征數(shù)據(jù)基礎(chǔ)上,計算各個特征對應(yīng)的iv值,并判斷該iv值是否大于預(yù)先設(shè)定的iv閾值;若是,抽取大于該iv閾值的特征,加入重要特征集合;若否,抽取小于該iv閾值的特征加入輔助特征集合,并對所有輔助特征集合中的數(shù)據(jù)進(jìn)行hashing運算得到原輔助特征對應(yīng)的散列值,即得到各原輔助特征對應(yīng)的散列特征;將運算得到的散列特征與重要特征集合中的特征進(jìn)行合并,將合并得到的特征作為各個原始特征對應(yīng)的特征指紋;最后對該特征指紋進(jìn)行l(wèi)r訓(xùn)練預(yù)測,流程結(jié)束。

應(yīng)用上述高效訓(xùn)練方式對特征數(shù)據(jù)進(jìn)行訓(xùn)練,以1億特征為例,取k=200,b=12,重要特征取top10000,生成指紋特征后,降維比約為0.008292,特征和數(shù)據(jù)不到原先數(shù)據(jù)量的1%。通過上述改動,在1億特征數(shù)據(jù)上,auc交全量訓(xùn)練提升2%,數(shù)據(jù)大小為原先數(shù)據(jù)量的1%。

基于與上述方法同樣的發(fā)明構(gòu)思,本申請實施例中還提供了一種特征數(shù)據(jù)處理設(shè)備,如圖6所示,該特征數(shù)據(jù)處理設(shè)備包括:

劃分模塊601,用于根據(jù)各個特征的信息屬性值,將當(dāng)前存在的特征分別劃分為重要特征集以及輔助特征集;

轉(zhuǎn)換模塊602,用于將所述輔助特征集中的特征轉(zhuǎn)換為散列特征;

合并模塊603,用于將所述散列特征與所述重要特征集中的特征進(jìn)行合并,并將所述合并后的特征設(shè)置為指紋特征。

優(yōu)選地,所述信息屬性值至少包括所述特征的信息值iv以及信息增益ig,所述劃分模塊601還包括:

獲取子模塊,用于獲取各所述特征的信息屬性值;

設(shè)置子模塊,用于將所述信息屬性值大于或等于預(yù)設(shè)的閾值的特征設(shè)置為重要特征,以及將所述信息屬性值小于所述閾值的特征設(shè)置為輔助特征;

生成子模塊,用于根據(jù)所述特征中的重要特征生成所述重要特征集,以及根據(jù)所述特征中的輔助特征生成所述輔助特征集。

優(yōu)選地,所述轉(zhuǎn)換模塊602將所述輔助特征集中的特征轉(zhuǎn)換為散列特征,具體為:

根據(jù)預(yù)設(shè)的哈希算法,將所述輔助特征轉(zhuǎn)換為包含所述哈希算法對應(yīng)的參數(shù)的向量。

優(yōu)選地,所述合并模塊603還包括:

替換子模塊,用于將與待處理數(shù)據(jù)對應(yīng)的原始特征替換為所述指紋特征;

訓(xùn)練子模塊,用于根據(jù)所述指紋特征對所述待處理數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測。

其中,本申請裝置的各個模塊可以集成于一體,也可以分離部署。上述模塊可以合并為一個模塊,也可以進(jìn)一步拆分成多個子模塊。

通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)。 基于這樣的理解,本申請的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施場景所述的方法。

本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施場景的示意圖,附圖中的模塊或流程并不一定是實施本申請所必須的。

本領(lǐng)域技術(shù)人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進(jìn)行分布于實施場景的裝置中,也可以進(jìn)行相應(yīng)變化位于不同于本實施場景的一個或多個裝置中。上述實施場景的模塊可以合并為一個模塊,也可以進(jìn)一步拆分成多個子模塊。

上述本申請序號僅僅為了描述,不代表實施場景的優(yōu)劣。

以上公開的僅為本申請的幾個具體實施場景,但是,本申請并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請的保護范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
天镇县| 海宁市| 双辽市| 盈江县| 蚌埠市| 宁波市| 巴彦淖尔市| 丰原市| 河源市| 木兰县| 金乡县| 隆安县| 介休市| 丰宁| 龙南县| 保康县| 沈丘县| 旌德县| 鄂伦春自治旗| 耿马| 龙南县| 龙胜| 观塘区| 新巴尔虎右旗| 洛南县| 铁岭市| 高青县| 二连浩特市| 兴城市| 松桃| 郯城县| 安庆市| 琼结县| 个旧市| 日喀则市| 胶州市| 探索| 濮阳市| 永清县| 肇源县| 和龙市|