本發(fā)明涉及一種網(wǎng)絡電商借貸風險評估方法及模型。
背景技術:
互聯(lián)網(wǎng)金融是一種全新的金融服務模式,它把傳統(tǒng)的小額借貸服務轉(zhuǎn)移到互聯(lián)網(wǎng)平臺上,需要借款的人群可以在網(wǎng)絡借貸平臺尋找有出借能力并且愿意基于一定條件出借的人群,由于網(wǎng)絡借貸具有高效、操作簡單、面向中低層收入人群(對于借款人來說)和安全、透明、收益高(對于出借人來說)的優(yōu)點,因此網(wǎng)絡借貸平臺一經(jīng)推出便迅速得到認可與發(fā)展[1]。但是與傳統(tǒng)的貸款方式相比,網(wǎng)絡借貸也存在缺點,比如網(wǎng)絡借貸是無抵押貸款,出借人大部分都是普通人群,沒有專業(yè)的投資理財知識,而且有些借款者是出于行騙的目的進行貸款,這就給出借人帶來了網(wǎng)絡借貸風險,即借款人在規(guī)定的截止還款日期內(nèi),由于各種原因無法根據(jù)借貸協(xié)議按時償還借款,而給出借人帶來資金損失的可能性[2]。
最近幾年,很多學者針對網(wǎng)絡電商借貸風險控制提出了許多新的信用風險評估模型。這些模型大體上可以分為兩類:第一類是應用層次分析法[5]、模糊綜合評價法[6]等統(tǒng)計學方法建立的信用指標評價體系,并指定每個指標的主觀權重。第二類是使用線性的數(shù)據(jù)挖掘算法建立的風險評估模型,這些模型存在一些共性的問題:評估準確率低,究其原因是信用數(shù)據(jù)存在非線性結(jié)構。而可以處理非線性結(jié)構數(shù)據(jù)的二分類算法應用比較廣泛的有:支持向量機[7]和BP神經(jīng)網(wǎng)絡[8]。但是網(wǎng)絡電商貸款信用數(shù)據(jù)存在類不平衡的特點,例如拍拍貸平臺正常還款記錄大約是違約記錄的10倍,對于這樣的風險數(shù)據(jù),支持向量機模型的第一類錯誤誤判率較高,即把正常還款客戶判定為違約客戶。BP神經(jīng)網(wǎng)絡也存在同樣的問題,而且BP神經(jīng)網(wǎng)絡模型只有訓練集和預測集的誤差相近時,模型才具有泛化能力。
因此,有必要設計一種準確率更高的網(wǎng)絡電商借貸風險預測方法及模型。
技術實現(xiàn)要素:
本發(fā)明所解決的技術問題是,針對現(xiàn)有技術的不足,提供一種種網(wǎng)絡電商借貸風險評估方法及模型,預測準確率高。
本發(fā)明所提供的技術方案為:
一種網(wǎng)絡電商借貸風險評估方法,包括以下步驟:
步驟1、收集歷史借貸客戶的數(shù)據(jù)作為樣本集;每個借貸客戶的數(shù)據(jù)包括n維評價指標數(shù)據(jù)和違約標簽target,target=1表示貸款違約,target=0表示正常還款;
步驟2、對樣本集中的數(shù)據(jù)進行預處理;所述預處理包括缺失值處理、非數(shù)字型評價指標數(shù)據(jù)量化和數(shù)據(jù)標準化;
步驟3、根據(jù)違約標簽target的值把樣本集中的樣本分為兩類,第一類為target=0的正常還款客戶,由其對應的評價指標數(shù)據(jù)構建矩陣第二類為target=1的貸款違約客戶,由其對應的評價指標數(shù)據(jù)構建矩陣其中m1和m2分別為兩類樣本中的樣本數(shù)量,為n維向量,表示第k類中第i個樣本的評價指標;
步驟4、基于兩類樣本,構建最小二乘孿生支持向量機分類模型,并對其進行訓練,建立網(wǎng)絡電商借貸風險評估模型;
步驟5、根據(jù)4建立的網(wǎng)絡電商借貸風險評估模型,預測樣本集中各個樣本的違約標簽target;
步驟6、對于每個樣本,根據(jù)5預測得到的違約標簽target和步驟1收集的實際的違約標簽target確定樣本的預測誤差,并根據(jù)預測誤差的大小確定每個樣本權重的大?。粯颖緳嘀氐拇_定原則是:預測誤差較大的樣本權值較小,預測誤差較小的樣本權值較大;
步驟7、基于每個樣本權重,構建加權最小二乘孿生支持向量機分類模型,重新建立網(wǎng)絡電商借貸風險評估模型;
步驟8、采集新的借貸客戶的n維評價指標數(shù)據(jù),預處理后代入步驟7確定的網(wǎng)絡電商借貸風險評估模型,接到借款人對應的違約標簽target,預測該借貸客戶是否會貸款違約,以對本次借貸風險進行評估。
所述步驟4具體包括以下步驟:
步驟4.1、構建最小二乘孿生支持向量機分類模型:
s.t.-(K(B,CT)w1+e2b1)=e2-η2
s.t.K(A,CT)w2+e1b2=e1-η1
其中,C1和C2為懲罰參數(shù),根據(jù)十折交叉驗證選擇最優(yōu)的取值(即首先隨機地將已給數(shù)據(jù)切分為10個互不相交的大小相同的子集,然后利用9個子集的數(shù)據(jù)訓練模型(訓練模型中的C1和C2的取值范圍為:C1∈[2-5,…,25],C2∈[2-5,…,25]),利用余下的1個子集測試模型;將這一過程對可能的10種選擇重復進行,最后選出10次評測中平均測試誤差最小的模型); η1和η2為損失變量(又稱為誤差);e1和e2為元素全為1的列向量;K(X,CT)為高斯核函數(shù),X=A或B(σ為函數(shù)的寬度參數(shù),σ>0,σ根據(jù)十折交叉驗證選擇最優(yōu)的取值);w1和w2為權向量,b1和b2表示分類閾值;w1、w2、b1和b2為待求參數(shù);
步驟4.2、通過以下公式求取w1、w2、b1和b2:
其中,U=[K(A,CT),e1],V=[K(B,CT),e2];
步驟4.3、根據(jù)已確定的參數(shù)建立以下網(wǎng)絡電商借貸風險模型:
其中,x表示預處理后的新的接待客戶的n維評價指標數(shù)據(jù),target(x)=0表示預測該新的借貸客戶會正常還款,target(x)=1表示預測該新的借貸客戶會貸款違約。
所述步驟6中,樣本權重的計算公式為:
其中,|ηki|(k=1,2)為樣本集第k類樣本中第i個樣本的的預測誤差,δ為|ηki|(k=1,2)的標準差。
所述步驟7具體包括以下步驟:
步驟7.1、構建加權最小二乘孿生支持向量機分類模型:
第一加權最小二乘孿生支持向量機分類模型(WLS-TSVM1):
s.t.-(K(B,CT)w'1+e2b1')=e2-η2
第二加權最小二乘孿生支持向量機分類模型(WLS-TSVM2):
s.t.K(A,CT)w'2+e1b'2=e1-η1
其中,C1'和C'2為懲罰參數(shù),根據(jù)十折交叉驗證選擇最優(yōu)的取值;w'1和w'2為權向量,b'1和b'2表示分類閾值;w'1、w'2、b'1和b'2為待求參數(shù);
步驟7.1、通過以下公式求取w'1、w'2、b'1、b'2:
其中,M=[K(A,CT),e1],N=[K(B,CT),e2];
P1-1和分別是以ρ1i和ρ2i為主對角線元素的對角矩陣;
步驟7.1、根據(jù)已確定的參數(shù)重新建立以下網(wǎng)絡電商借貸風險模型:
其中,K(xT,CT)為高斯核函數(shù);σ為函數(shù)的寬度參數(shù),σ>0,σ根據(jù)十折交叉驗證選擇最優(yōu)的取值;x表示預處理后新的借貸客戶的n維評價指標數(shù)據(jù),target'(x)=0表示預測該新的借貸客戶會正常還款,target'(x)=1表示預測該新的借貸客戶可能會貸款違約。
一種網(wǎng)絡電商借貸風險評估模型,其特征在于,所述模型為:
其中,x表示預處理后的新的借貸客戶的n維評價指標數(shù)據(jù),target'(x)=0表示預測該新的借貸客戶會正常還款,本次借貸風險較低;target'(x)=1表示預測該新的借貸客戶會貸款違約,本次借貸風險較高;模型參數(shù)通過以上步驟求解。
以下對本發(fā)明的原理進行說明:
1最小二乘孿生支持向量機分類模型
孿生支持向量機(twins support vector machine,簡寫為TSVM)是在支持向量機(SVM)的 基礎上提出來的,其目的是為了提高SVM的訓練速度。TSVM的基本思想是對正負類訓練樣本構造兩個非平行的分類超平面,每個分類超平面在滿足遠離另一類數(shù)據(jù)點的條件下盡可能擬合本類數(shù)據(jù)點[9]。與SVM相比,TSVM存在兩個優(yōu)勢:第一,在正負類樣本個數(shù)相等的情況下,SVM的時間復雜度為O(m3),TSVM的時間復雜度為O(2*(m/2)3),其中m為訓練集樣本個數(shù),從時間復雜度可以看出TSVM的訓練速度相比SVM提高了4倍[10];第二,對于類不平衡的數(shù)據(jù),在求超平面時對每個超平面設置相應的懲罰參數(shù)消除類不平衡帶來的影響[11]。由于TSVM這兩個獨特的分類優(yōu)勢,TSVM近年來被廣泛應用到影像檢測[12]、化工分析[13]和井下診斷[14]等行業(yè)。
給定m個n維的訓練樣本,將其分為兩類,其中第一類記為矩陣第二類樣本記為矩陣其中m1和m2分別為兩類樣本中的樣本數(shù)量,為n維向量,表示第i類的第j個樣本;則TSVM模型的具體描述如下:
上式中,C1和C2為懲罰參數(shù),根據(jù)十折交叉驗證選擇最優(yōu)的取值;η1和η2為損失變量(又稱為誤差),即預測值與實際值的差值;e1,e2為元素全為1的列向量;C=[AT,BT]T,K(X,CT)為高斯核函數(shù),X=A或B;σ為函數(shù)的寬度參數(shù),σ>0,σ根據(jù)十折交叉驗證選擇最優(yōu)的取值;w1和w2為權向量,b1和b2表示分類閾值,w1、w2,b1和b2為待求參數(shù)。
最小二乘孿生支持向量機(Least squares twins support vector machine,簡寫為LS-TSVM)引入了最小二乘思想,LS-TSVM中的松弛變量η1和η2分別使用了C1/2,C2/2的2范式,這樣就可以省略η1≥0和η2≥0的約束條件,同時把不等式約束修改為等式約束,這樣就把二次規(guī)劃問題轉(zhuǎn)化為了線性方程組求解問題,降低了孿生支持向量機的計算復雜度。
下面是對非線性LS-SVM模型的的具體描述:
s.t.-(K(B,CT)w1+e2b1)=e2-η2 (4)
s.t.K(A,CT)w2+e1b2=e1-η1 (6)
把(4)式和(6)式分別代入(3)式和(5)式得:
對(7)式分別求關于w1和b1的導數(shù),并令其等于零,得出
K(A,CT)T[K(A,CT)w1+e1b1]+C1K(B,CT)T[K(B,CT)w1+e2b1+e2]=0 (9)
合并(9)式和(10)式為矩陣形式,得到
由(11)式可解得
上式中:
U=[K(A,CT),e1]
V=[K(B,CT),e2]
同理可得:
把(12)式和(13)式分別代入如下的(14)式,便可以得到兩個分類超平面。對于新的樣本數(shù)據(jù)點,根據(jù)樣本數(shù)據(jù)點到兩個分類超平面的距離判定數(shù)據(jù)點所屬類別,數(shù)據(jù)點離哪一個超平面越近,該數(shù)據(jù)點就屬于哪一類。
K(xT,CT)w1+b1=0,K(xT,CT)w2+b2=0 (14)
2加權最小二乘孿生支持向量機分類模型
2.1加權最小二乘孿生支持向量機
LS-TSVM算法雖然解決了TSVM計算復雜的問題,但是當訓練集存在數(shù)據(jù)異常點時,對同類中的每個樣本賦予相同大小的懲罰參數(shù),降低了算法魯棒性。為了降低數(shù)據(jù)異常點對分類超平面的影響,本文在LS-TSVM的基礎上提出一種加權最小二乘孿生支持向量機算法,改善了LS-TSVM算法魯棒性欠佳的問題。對(3)式和(5)式中誤差作了加權處理,設第一類樣 本和第二類樣本對應的權值分別為ρ1i和ρ2i,則對應的優(yōu)化問題可以描述為
WLS-TSVM1:
WLS-TSVM2:
WLS-TSVM1式的拉格朗日形式可以表示為:
其中,α是m2維的拉格朗日乘子。
根據(jù)KTT條件得:
由(18)式和(19)式得:
令
M=[K(A,CT),e1] (23)
N=[K(B,CT),e2] (24)
則由(22)式可以得出:
由(20)式、(21)式可得:
其中,P1-1是以(ρ1)ii為主對角線元素的對角矩陣。
對WLS-TSVM2式引入m1維的β拉格朗日乘子,同理可得:
其中P2-1是以(ρ2)ii為主對角線元素的對角矩陣。
根據(jù)(25)式和(27)式確定了s1和s2,由此就可以由(14)式確定兩個超平面。加權最小二乘孿生支持向量機的分類函數(shù)可以表示為:
以上計算過程建立了加權最小二乘孿生向量機信用風險模型,對于新來的客戶,收集客戶信息作為(29)式中的x向量輸入,然后計算確定target的值,target'(x)=0代表樣本屬于第一類,即預測該客戶可以正常還款;target'(x)=1代表樣本第二類,即該客戶可能會貸款違約。
2.2權重設置
為了降低數(shù)據(jù)異常點對分類模型的影響從而提高分類模型的泛化能力,同時又不忽略數(shù)據(jù)異常點對分類模型的作用,本文利用正態(tài)分布概率密度函數(shù)大于零的特點,根據(jù)概率密度函數(shù)值計算樣本權重,即預測誤差較大的樣本權值較小,預測誤差較小的樣本權值較大,以此來降低數(shù)據(jù)異常點對分類模型的影響。
具體權值設置如下:
其中,|ηki|(k=1,2)為樣本集第k類樣本中第i個樣本的的預測誤差,δ為|ηki|(k=1,2)的標準差。
具體權值求解過程如下:
第一步:利用訓練集數(shù)據(jù)建立最小二乘孿生支持向量機分類模型;
第二步:根據(jù)第一步建立的最小二乘孿生支持向量機分類模型對訓練集數(shù)據(jù)重新分類,得到分類結(jié)果;
第三步:根據(jù)訓練集樣本實際的分類和第二步得到的分類結(jié)果計算訓練集樣本誤差;
第四步:根據(jù)(30)式計算樣本權重。
3基于WLS-TSVM的網(wǎng)絡電商借貸信用風險評估模型
網(wǎng)絡電商借貸信用風險模型評估流程如下:首先根據(jù)現(xiàn)有電商歷史借貸交易數(shù)據(jù)建立信 用風險評估模型,然后運用信用風險模型評估借款人的信用狀況。通過對已有訓練數(shù)據(jù)集建立分類模型,應用模型將新來的借款人分為兩類:違約風險高和違約風險低,對于違約風險高的借款人拒絕借款項目通過,從而降低違約風險。
基于WLS-TSVM算法的網(wǎng)絡電商借貸信用風險模型的具體執(zhí)行步驟如下:
收集歷史借貸客戶的數(shù)據(jù)(歷史借貸客戶的數(shù)據(jù)可以從現(xiàn)有的網(wǎng)絡電商借貸平臺獲取)作為訓練樣本,要收集的數(shù)據(jù)包括評價指標數(shù)據(jù)和違約標簽target(target=1表示貸款違約,target=0表示正常還款),評價指標數(shù)據(jù)具體包括:
借款人基本信息字段(姓名、性別、身份證號、手機號、QQ號、常用郵箱、婚姻狀況、信用卡號、就業(yè)狀態(tài)、文化程度、聯(lián)系人等);
網(wǎng)絡行為字段(訪問網(wǎng)站的類型、訪問次數(shù)、平均訪問時長等);
學歷學籍字段(學歷類型、學歷層次、畢業(yè)院校、畢業(yè)院系、畢業(yè)時間、專業(yè)名稱、學習形式、學制等);
第三方平臺字段(借款人在第三方金融平臺歷史借款次數(shù)、歷史借款成功率、信用等級等);
社交網(wǎng)絡字段(借款人在騰訊等社交平臺的朋友數(shù)量、朋友種類數(shù)、朋友平均歷史借款次數(shù)、朋友歷史借款成功率、朋友平均信用等級評分等);
借款信息字段(借款金額、借款期限、借款利率、借款用途、信用等級、負債收入比、從事現(xiàn)在工作的時間、住房擁有狀況、年收入、歷史借款違約標簽等);
2.數(shù)據(jù)預處理,包括缺失值處理、非數(shù)字字段數(shù)字化、數(shù)據(jù)標準化:
2.1.缺失值處理,缺失值大于訓練集數(shù)據(jù)總量60%的列,予以刪除;缺失值小于訓練集數(shù)據(jù)總量60%的列,缺失值用-1填補;
2.2.非數(shù)字字段數(shù)字化:
時間映射為年、月、日;
地名根據(jù)全國經(jīng)緯度表映射為經(jīng)緯度;
定序變量映射為序數(shù)(例如文化程度可以分為文盲、小學、初中、高中、大學等,文盲—>0,小學—>1,初中—>2,高中—>3,大學—>4);
定類變量映射為0-1啞變量(比如性別設置女為1,男為0);
2.3.用zscore函數(shù)對數(shù)據(jù)進行標準化,消除數(shù)據(jù)之間的異構性;
3.根據(jù)違約標簽target的值把訓練集數(shù)據(jù)分為兩類,第一類為target=0的正常還款客戶,用矩陣A表示,第二類為target=1的貸款違約客戶,用矩陣B表示;把經(jīng)過數(shù)據(jù)預處理的訓 練集數(shù)據(jù)除target之外根據(jù)target的取值構成矩陣A或B的一行,即為n維向量,表示第k類中第i個樣本的評價指標;
4.應用訓練集數(shù)據(jù),根據(jù)最小二乘孿生支持向量機分類模型,建立網(wǎng)絡電商借貸信用風險模型:
3.1.計算C矩陣,C=[AT,BT]T;
3.2.根據(jù)高斯核函數(shù)確定K(A,CT)和K(B,CT);
3.3.計算矩陣U和V;
3.4.通過十折交叉驗證選擇分類誤差最小的C1和C2,并根據(jù)(12)式和(13)式確定最終的w和b的取值;
3.5.根據(jù)(14)確定兩個分類超平面;
5.根據(jù)4建立的最小二乘孿生支持向量機分類模型預測訓練集的違約標簽,即根據(jù)(29)式確定電商客戶的target的值;
6.根據(jù)5得到的target值和訓練集電商客戶實際交易的target值確定樣本誤差,并根據(jù)(30)式確定樣本權重ρ1i、ρ2i、P1-1和P2-1;
7.應用訓練集數(shù)據(jù)根據(jù)加權最小二乘孿生支持向量機分類模型重新建立網(wǎng)絡電商借貸信用風險模型:
7.1.計算矩陣M和N;
7.2.根據(jù)(30)式和(32)式確定拉格朗日乘子α和β;
7.3.通過十折交叉驗證選擇分類誤差最小的C1’和C2’,并根據(jù)(29)式和(31)式確定最終的w和b的取值;
7.4.根據(jù)(14)確定兩個分類超平面;
8.根據(jù)(29)式確定新來的電商客戶的target的值,target'(x)=0代表預測該客戶是否可以正常還款,target'(x)=1代表預測該客戶可能會貸款違約。
有益效果:
本發(fā)明在最小二乘孿生支持向量機的基礎上提出了一種基于加權最小二乘孿生支持向量機(Weighted least squares twins support vector machine,簡寫為WLS-TSVM)的網(wǎng)絡電商借貸風險評估模型。加權最小二乘孿生支持向量機模型充分利用了孿生支持向量機可以對類不平衡的風險數(shù)據(jù)快速準確分類的優(yōu)勢,引入了最小二乘思想簡化了孿生支持向量機建模過程中的計算,同時對孿生支持向量機中的誤差做了加權處理,降低了數(shù)據(jù)異常點對分類超平面 的影響,從而提高分類精度,在很大程度上提高了風險預測準確率。通過實際數(shù)據(jù)分析的實驗表明,WLS-TSVM算法確實降低了噪聲數(shù)據(jù)對分類模型的影響,模型訓練速度和分類準確率均得到了提升。
附圖說明
圖1為BP神經(jīng)網(wǎng)絡的roc曲線圖;
圖2為SVM的roc曲線圖;
圖3本發(fā)明的WLS-TSVM的roc曲線圖。
具體實施方式
以下結(jié)合附圖和具體實施方式對本發(fā)明進行進一步具體說明。
本實施例中,選用拍拍貸“魔鏡杯”風控算法大賽中網(wǎng)絡借貸行業(yè)的貸款風險數(shù)據(jù)作為實驗數(shù)據(jù)。
(1)數(shù)據(jù)集構成
根據(jù)實驗數(shù)據(jù)中違約標簽target的值可以判斷借款人的信用狀態(tài),target=1代表貸款違約,target=0代表正常還款。從實驗比賽數(shù)據(jù)中隨機抽取借貸數(shù)據(jù)記錄分別構成模型的訓練集和測試集,數(shù)據(jù)集有六個大的字段類別,每個大的字段類型細分之后數(shù)據(jù)集共207個數(shù)據(jù)維度,訓練集和測試集數(shù)據(jù)分布如表1所示。
表1數(shù)據(jù)集構成
(2)數(shù)據(jù)預處理
由于風險數(shù)據(jù)中存在字符型數(shù)據(jù),而matlab不能處理字符型的數(shù)據(jù),所以本文對字符型的數(shù)字進行了處理,將字符型的地址字段替換成了地址對應的經(jīng)緯度。
用histc函數(shù)統(tǒng)計了風險數(shù)據(jù)表每一列的缺失值個數(shù),對于缺失值個數(shù)大于18000(數(shù)據(jù)總量60%)的列,予以刪除,經(jīng)過處理,最終剩余174個屬性。
本文實驗中選用zscore函數(shù)對數(shù)據(jù)進行標準化,以此消除不同性質(zhì)數(shù)據(jù)間的差異。
(3)實驗結(jié)果分析
實驗環(huán)境:win7操作系統(tǒng),6G內(nèi)存,CPU2.5Hz,matlab2014a。運用matlab工具將加權最小二乘孿生支持向量機算法(WLS-TSVM)、支持向量機(SVM)和BP神經(jīng)網(wǎng)絡在預測集上的預測分類準確率進行了比較,模型的性能根據(jù)以下兩個指標來度量:(1)分類準確率;(2)模型訓練時間。表2是三種算法的時間復雜度對比,其中m為樣本總個數(shù),m1、m2分別為正負類樣本個數(shù),n為數(shù)據(jù)維度。表3是SVM和WLS-TSVM在數(shù)據(jù)集上的預測分類的結(jié)果對比。
表2算法時間復雜度對比
表3實驗結(jié)果對比
從表3可以看出,在預測準確率方面,WLS-TSVM模型的預測準確率高于SVM和BP神經(jīng)網(wǎng)絡的預測準確率。根據(jù)表2的時間復雜度分析對比,可以看出WLS-TSVM的時間復雜度小于SVM和BP神經(jīng)網(wǎng)絡的時間復雜度,而且算法的執(zhí)行時間大部分費花在模型的訓練上。通過表3中的實驗數(shù)據(jù),我們確實可以看到在訓練時間長短方面,WLS-TSVM訓練時間確實少于SVM和BP神經(jīng)網(wǎng)絡模型的訓練時間。
圖1~圖3分別為BP神經(jīng)網(wǎng)絡的roc曲線圖、SVM的roc曲線圖和本發(fā)明的WLS-TSVM的roc曲線圖;roc曲線的橫坐標是FPR(false positive rate,負正類率),縱坐標是TPR(true positive rate,真正類率)。用roc(Receiver Operating Characteristic)曲線和auc值可以評判分類器的整體的分類性能,從圖1,圖2,圖3中的roc曲線圖可以看出,WLS-TSVM的auc((Area Under roc Curve))值(auc值對應藍色曲線下的面積)明顯高于BP神經(jīng)網(wǎng)絡和SVM算法的auc值。
本發(fā)明基于加權最小二乘孿生支持向量機的網(wǎng)絡電商借貸信用風險評估模型結(jié)合了孿生支持向量機可以處理類不平衡的非線性結(jié)構數(shù)據(jù)的優(yōu)勢,運用加權最小二乘法簡化了孿生支持向量機的計算,同時對誤差項做了加權處理,降低了數(shù)據(jù)異常點對分類模型的影響,這樣 不僅提高了分類預測準確率,而且減少了模型訓練時間。實驗部分以拍拍貸“魔鏡杯”風控大賽中的風險數(shù)據(jù)為例,說明了基于WLS-TSVM的網(wǎng)絡電商借貸風險模型可以用較少的訓練時間得到比較滿意的分類精度。本文通過理論和實踐均說明此模型具有較好的數(shù)據(jù)擬合效果,具有廣泛的應用前景。
參考文獻
[1]錢金葉,楊飛.中國P2P網(wǎng)絡借貸的發(fā)展現(xiàn)狀與前景[J].金融論壇,2012(1):45-51.
[2]Xinhui Chen,Xiangxiang Ji,Xinrui Zhang.A Contrastive Study of P2P Network Lending in China and American[C].Asia-Pacific E-Business and E-Government Conference(APEE2014),2014.
[3]Tang Guolei.P2P network lending in the credit riskrating of the individual[J].International English Education Research,2015(9):23-26.
[4]Fengzhi Liu,MingyanWang.The credit risk of theborrower’s credit in P2P network[J].International English Education Research,2015(8):72-75.
[5]Niejin,Hulinshuang.P2P network lending platform evaluationbased onlink analysis[J].Research on Library Science,2015(13):37-45.
[6]Liqun You,Yudan Zhu.P2P network lending platform business model evaluation[J].Journal of Commercial Economics,2015(32):86-88.
[7]JinYu,ZhuYudan.Data-Driven Approach to Predict Default Risk of Loan for Online Peer-to-Peer(P2P)Lending[C].Communication Systems and Network Technologies(CSNT),2015Fifth International Conference on,2015.
[8]DunGang Zang,MngYu Qi,YanMing Fu.The credit risk assessment of P2P lending based on BP neural network[C].The 2014International Conference on Industrial Engineering and Management Science(IEMS2014),2014.
[9]Xinjun Peng,A ν-twin support vector machine(ν-TSVM)classifier and its geometric algorithms[J].Information Sciences,2010,180(20):3863-3875.
[10]Xijiong Xie,Shiliang Sun.Multitask centroid twins supportvectormachines[J].Neurocomputing,2015,149:1085-1091.
[11]Yuan-Hai Shao,Xiang-Yu Hua,Li-Ming Liu,Zhi-Min Yang,Nai-Yang Deng.Combined outputs framework for twins supportvectormachines[J].AppliedIntelligence,2015,43(2):424-438.
[12]魏小麗,劉京華,黃搖青.應用拉曼光譜及成像技術觀測α粒子輻照對米根霉的作用和影響[J].安徽大學學報(自然科學版),2014,38(1):66-72.
[13]邱夢嬋,蘇成利,鐘國財,梁建平.基于KICA-TSVR方法乙烯裂解產(chǎn)物分布軟測量[J].控制工程,2015,25(33):458-464.
[14]董洪波,申中杰,姚亞峰.基于TWSVM的煤礦井下鉆機軸承故障診斷[J].煤礦機械,2015,36(5):298-300。