一種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)異常監(jiān)測(cè)等技術(shù)領(lǐng)域,特別涉及一種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾 的平衡過(guò)濾器及方法。
【背景技術(shù)】
[0002] 大部分時(shí)候分析師只區(qū)分?jǐn)?shù)據(jù)的好壞或優(yōu)劣(數(shù)據(jù)不同煒度的全面型或數(shù)據(jù)的 缺失),但是對(duì)于數(shù)據(jù)的精細(xì)程度并沒(méi)有做區(qū)分。而現(xiàn)實(shí)中,有很多地方其實(shí)是需要區(qū)分?jǐn)?shù) 據(jù)的精細(xì)程度的,比如,防止交易欺詐中的異常數(shù)據(jù),淘寶店的刷信用交易數(shù)據(jù),還有比如 股市,期貨或者外匯行情數(shù)據(jù)組成的相似形態(tài)等等,這些數(shù)據(jù)看起來(lái)都差不多,但是其中的 一些細(xì)節(jié)其實(shí)又有所不同,如何能有效的區(qū)分出這些有著相同維度數(shù)據(jù)的精細(xì)程度?這個(gè) 技術(shù)問(wèn)題存在已久?,F(xiàn)實(shí)當(dāng)中,比如有很多理財(cái)產(chǎn)品,有些是高收益高風(fēng)險(xiǎn)的產(chǎn)品,有些是 低收益低風(fēng)險(xiǎn)的產(chǎn)品,大部分人通常會(huì)避免高風(fēng)險(xiǎn)的產(chǎn)品,同時(shí)覺(jué)得如果只把錢(qián)放在銀行 似乎也不合算,所以大家可能希望要一種折中的產(chǎn)品,既不要高風(fēng)險(xiǎn)高收益也不要低風(fēng)險(xiǎn) 低收益。
[0003] 條件篩選的技術(shù)問(wèn)題還是在于把變量離散化,分割為一段段區(qū)間的過(guò)程。對(duì)于連 續(xù)的數(shù)值型變量,該離散化過(guò)程的結(jié)果為多個(gè)區(qū)間。比如學(xué)生的各科成績(jī),或者面試人員的 學(xué)歷等變量,分箱的結(jié)果可能被分為幾個(gè)區(qū)間,比如數(shù)學(xué)被分為5個(gè)區(qū)間。分別是0-60分, 60-70分,70-80分,80-90分,90-100分。每個(gè)區(qū)間稱(chēng)為一個(gè)箱子(bin),而一個(gè)變量對(duì)應(yīng)的 一組bin稱(chēng)為該變量的分箱(binning),用于預(yù)測(cè)的所有變量的binning稱(chēng)為一個(gè)分箱組。 統(tǒng)計(jì)學(xué)上,也叫做把變量轉(zhuǎn)換為"啞變量"。
[0004] 目前,數(shù)據(jù)分析師在變量分箱過(guò)程中,存在兩個(gè)主要問(wèn)題:一是要么是手動(dòng)分箱, 要么是全自動(dòng)分箱(FICO在其產(chǎn)品Model Builder中提供全自動(dòng)分箱),手動(dòng)分箱費(fèi)時(shí)費(fèi) 力,而全自動(dòng)分箱的缺點(diǎn)是分析師不能自由調(diào)整分箱。本發(fā)明方法提供一種半自動(dòng)分箱過(guò) 程,既不需要分析師費(fèi)時(shí)費(fèi)力計(jì)算后再手動(dòng)分箱,同時(shí),也避免了全自動(dòng)分箱中的黑箱炒 作,該方法同時(shí)提供分析師自由添加刪除分箱的可修改模式,大大節(jié)省了分析師的篩選變 量工作的同時(shí)也方便分析師進(jìn)行修改完善。
[0005] 現(xiàn)有技術(shù)的另外一個(gè)問(wèn)題是變量之間的相關(guān)性較弱,比如上面提到到數(shù)學(xué),語(yǔ)文, 歷史等各學(xué)科之間本身相關(guān)性較弱,再比如招聘所列的學(xué)歷,工作經(jīng)驗(yàn)等變量之間的相關(guān) 性也較弱。相關(guān)性弱意味著進(jìn)入分類(lèi)的數(shù)據(jù)存在較多的相似數(shù)據(jù),也就是篩選的不夠精確, 本發(fā)明方法所選的變量相關(guān)性較強(qiáng)。由于特殊篩選的緣故,本發(fā)明特意選了負(fù)相關(guān)性較強(qiáng) 的變量,這樣做的好處是能夠比較精確的區(qū)分那些似是而非的數(shù)據(jù),不僅精確挑選所需數(shù) 據(jù)同時(shí)還能保證數(shù)據(jù)的一致性。
【發(fā)明內(nèi)容】
[0006] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器及 方法,本發(fā)明方法及裝置不僅能區(qū)分?jǐn)?shù)據(jù)的精細(xì)程度,更進(jìn)一步的所述方法和所述裝置還 能過(guò)濾其中的某些異常數(shù)據(jù),尤其能同時(shí)過(guò)濾粗糙和精細(xì)的數(shù)據(jù),這在某些領(lǐng)域有著特殊 的技術(shù)效果,本發(fā)明方法要解決的技術(shù)問(wèn)題就是要在同一個(gè)時(shí)候過(guò)濾掉類(lèi)似高風(fēng)險(xiǎn)高收益 和低風(fēng)險(xiǎn)低收益的數(shù)據(jù),始終只保留中間數(shù)據(jù),保留中間數(shù)據(jù)的好處在于獲得持續(xù)穩(wěn)定的 結(jié)果,本發(fā)明方法以行情數(shù)據(jù)為基礎(chǔ)來(lái)對(duì)該方法進(jìn)行闡述。
[0007] 本發(fā)明提出一種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,包括:
[0008] 獲取0/1組合模塊,用于獲取歷史數(shù)據(jù),并將所述歷史數(shù)據(jù)轉(zhuǎn)換成多個(gè)0/1組合, 每個(gè)所述0/1組合包括N個(gè)0/1的排列組合,并獲取與0/1相關(guān)的數(shù)據(jù),所述數(shù)據(jù)作為原始 數(shù)據(jù);
[0009] 獲取評(píng)估數(shù)據(jù)模塊,用于根據(jù)所述原始數(shù)據(jù),計(jì)算每個(gè)所述0/1組合的所述評(píng)估 數(shù)據(jù),其中所述評(píng)估數(shù)據(jù)包括條件概率、預(yù)期變動(dòng)率、異常距離、風(fēng)險(xiǎn)波動(dòng)率、概率波幅;根 據(jù)所述評(píng)估數(shù)據(jù),運(yùn)行平衡過(guò)濾模塊,并計(jì)算閾值,通過(guò)所述閾值對(duì)數(shù)據(jù)進(jìn)行平衡過(guò)濾;
[0010] 所述平衡過(guò)濾模塊,用于通過(guò)所述評(píng)估數(shù)據(jù)計(jì)算所述閾值,并將每個(gè)所述0/1組 合的所述評(píng)估數(shù)據(jù)進(jìn)行排序,將所述評(píng)估數(shù)據(jù)中數(shù)值未符合所述閾值的數(shù)據(jù)刪除,以完成 所述0/1組合中數(shù)據(jù)的平衡過(guò)濾。
[0011] 所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,計(jì)算所條件概率的公式為:
【主權(quán)項(xiàng)】
1. 一種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,其特征在于,包括: 獲取0/1組合模塊,用于獲取歷史數(shù)據(jù),并將所述歷史數(shù)據(jù)轉(zhuǎn)換成多個(gè)0/1組合,每個(gè) 所述0/1組合包括N個(gè)0/1的排列組合,并獲取與0/1相關(guān)的數(shù)據(jù),所述數(shù)據(jù)作為原始數(shù) 據(jù); 獲取評(píng)估數(shù)據(jù)模塊,用于根據(jù)所述原始數(shù)據(jù),計(jì)算每個(gè)所述0/1組合的所述評(píng)估數(shù)據(jù), 其中所述評(píng)估數(shù)據(jù)包括條件概率、預(yù)期變動(dòng)率、異常距離、風(fēng)險(xiǎn)波動(dòng)率、概率波幅;根據(jù)所述 評(píng)估數(shù)據(jù),運(yùn)行平衡過(guò)濾模塊,并計(jì)算闊值,通過(guò)所述闊值對(duì)數(shù)據(jù)進(jìn)行平衡過(guò)濾; 所述平衡過(guò)濾模塊,用于通過(guò)所述評(píng)估數(shù)據(jù)計(jì)算所述闊值,并將每個(gè)所述0/1組合的 所述評(píng)估數(shù)據(jù)進(jìn)行排序,將所述評(píng)估數(shù)據(jù)中數(shù)值未符合所述闊值的數(shù)據(jù)刪除,W完成所述 0/1組合中數(shù)據(jù)的平衡過(guò)濾。
2. 如權(quán)利要求1所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,其特征在于,計(jì)算所 條件概率的公式為;
其中f(xi)為所述條件概率,first為未來(lái)第一次如果為1或0,那么出現(xiàn)1或0的概 率,second為未來(lái)第二次如果為1或0,那么再出現(xiàn)1或0的概率,third為未來(lái)第S次如 果為1或0,那么又出現(xiàn)1或0的概率,Times為頻次,up為1的情況,down為0的情況; 計(jì)算所述預(yù)期變動(dòng)率的公式為:
其中f (X2)為所述預(yù)期變動(dòng)率,Dvalue為1或0的差的絕對(duì)值,n為總次數(shù),m為1和 0總次數(shù),Times為頻次,xi為每次為正值的值,k值為正值的次數(shù),y為振幅的均值。
3. 如權(quán)利要求1所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,其特征在于,計(jì)算所 述異常距離的公式為:
其中f (X3)為1的所述異常距離,Dvalue為1或0的差的絕對(duì)值,up為所有Dvalue大 于0的值,down為所有Dvalue小于0的值,n為1或0的次數(shù),m為1或0的總次數(shù),xi為 每次為正值的值,y為振幅的均值;
其中f (X3)為0的所述異常距離,f (X4)為1的所屬異常距離。
4. 如權(quán)利要求1所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,其特征在于,計(jì)算所
述風(fēng)險(xiǎn)波動(dòng)率的公式為:
其中f 0〇為所述風(fēng)險(xiǎn)波動(dòng)率,up為所有Dvalue大于0的值,n為1或0的次數(shù),m為 1或0的總次數(shù),down為所有Dvalue小于0的值,Dvalue為1或0的差的絕對(duì)值,Times為 頻次。
5. 如權(quán)利要求1所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器,其特征在于,計(jì)算所 述闊值的公式為: f (又7) = f (Xi) *f (Xg) *f (X2 Vf (X3)和 / 或 f (又7) = f (Xi) *f (Xs) *f (又2) /f (又4) 其中所述f(X,)為所述闊值,f(Xi)為所述條件概率,f(X2)為所述預(yù)期變動(dòng)率,f(X3)為 1的所述異常距離,f(X4)為0的所述異常距離,f(Xg)為所述風(fēng)險(xiǎn)波動(dòng)率。
6. -種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾方法,其特征在于,包括: 步驟1,獲取歷史數(shù)據(jù),并將所述歷史數(shù)據(jù)轉(zhuǎn)換成多個(gè)0/1組合,每個(gè)所述0/1組合包括 N個(gè)0/1的排列組合,并獲取與0/1相關(guān)的數(shù)據(jù),所述數(shù)據(jù)作為原始數(shù)據(jù); 步驟2,根據(jù)所述原始數(shù)據(jù),計(jì)算每個(gè)所述0/1組合的所述評(píng)估數(shù)據(jù),其中所述評(píng)估數(shù) 據(jù)包括條件概率、預(yù)期變動(dòng)率、異常距離、風(fēng)險(xiǎn)波動(dòng)率、概率波幅; 步驟3,通過(guò)所述評(píng)估數(shù)據(jù)計(jì)算闊值,并將每個(gè)所述0/1組合的所述評(píng)估數(shù)據(jù)進(jìn)行排 序,將所述評(píng)估數(shù)據(jù)中數(shù)值未符合所述闊值的數(shù)據(jù)刪除,W完成所述0/1組合中數(shù)據(jù)的平 衡過(guò)濾。
7. 如權(quán)利要求6所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾方法,其特征在于,計(jì)算 所條件概率的公式為;
其中f(xi)為所述條件概率,first為未來(lái)第一次如果為1或0,那么出現(xiàn)1或0的概 率,second為未來(lái)第二次如果為1或0,那么再出現(xiàn)1或0的概率,third為未來(lái)第S次如 果為1或0,那么又出現(xiàn)1或0的概率,Times為頻次,up為1的情況,down為0的情況; 計(jì)算所述預(yù)期變動(dòng)率的公式為:
其中f(X2)為所述預(yù)期變動(dòng)率,Dvalue為1或0的差的絕對(duì)值,n為總次數(shù),m為1和 0總次數(shù),Times為頻次,xi為每次為正值的值,k值為正值的次數(shù),y為振幅的均值。
8. 如權(quán)利要求6所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾方法,其特征在于,計(jì)算 所述異常距離的公式為:
其中f (X3)為1的所述異常距離,Dvalue為1或0的差的絕對(duì)值,up為所有Dvalue大 于0的值,down為所有Dvalue小于0的值,n為1或0的次數(shù),m為1或0的總次數(shù),xi為 每次為正值的值,y為振幅的均值;
/ N 其中f (X3)為0的所述異常距離,f (X4)為1的所屬異常距離。
9. 如權(quán)利要求6所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾方法,其特征在于,計(jì)算 所述風(fēng)險(xiǎn)波動(dòng)率的公式為:
其中fOO為所述風(fēng)險(xiǎn)波動(dòng)率,up為所有Dvalue大于0的值,n為1或0的次數(shù),m為 1或0的總次數(shù),down為所有Dvalue小于0的值,Dvalue為1或0的差的絕對(duì)值,Times為 頻次。
10. 如權(quán)利要求6所述的監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾方法,其特征在于,計(jì)算 所述闊值的公式為: f (又7) = f (Xi) *f (Xg) *f (X2 Vf (X3)和 / 或 f (又7) = f (Xi) *f (Xs) *f (又2) /f (又4) 其中所述f(X,)為所述闊值,f(Xi)為所述條件概率,f(X2)為所述預(yù)期變動(dòng)率,f(X3)為 1的所述異常距離,f(X4)為0的所述異常距離,f(Xg)為所述風(fēng)險(xiǎn)波動(dòng)率。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種監(jiān)測(cè)異常數(shù)據(jù)并擇優(yōu)過(guò)濾的平衡過(guò)濾器及方法,涉及互聯(lián)網(wǎng)大數(shù)據(jù),金融數(shù)據(jù),輿情等技術(shù)領(lǐng)域。該平衡過(guò)濾器包括獲取0/1組合模塊,將歷史數(shù)據(jù)轉(zhuǎn)換成多個(gè)0/1組合,每個(gè)所述0/1組合包括N個(gè)0/1的排列組合,所述數(shù)據(jù)作為原始數(shù)據(jù);根據(jù)所述原始數(shù)據(jù),計(jì)算每個(gè)所述0/1組合的評(píng)估數(shù)據(jù),其中所述評(píng)估數(shù)據(jù)包括條件概率、預(yù)期變動(dòng)率、異常距離、風(fēng)險(xiǎn)波動(dòng)率、概率波幅;根據(jù)所述評(píng)估數(shù)據(jù),運(yùn)行平衡過(guò)濾模塊,計(jì)算閾值,通過(guò)所述閾值對(duì)數(shù)據(jù)進(jìn)行平衡過(guò)濾;所述平衡過(guò)濾模塊,通過(guò)所述評(píng)估數(shù)據(jù)計(jì)算所述閾值,將每個(gè)所述0/1組合的所述評(píng)估數(shù)據(jù)進(jìn)行排序,將所述評(píng)估數(shù)據(jù)中數(shù)值未符合所述閾值的數(shù)據(jù)刪除。
【IPC分類(lèi)】G06Q40-00
【公開(kāi)號(hào)】CN104599173
【申請(qǐng)?zhí)枴緾N201510015396
【發(fā)明人】杜登斌, 曾祥洪
【申請(qǐng)人】北京中潤(rùn)普達(dá)信息技術(shù)有限公司
【公開(kāi)日】2015年5月6日
【申請(qǐng)日】2015年1月12日