1.一種基于文本分析的信用風(fēng)險評估方法,其特征在于,所述方法包括:
獲取借款人的文本;
對所述文本進(jìn)行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否會違約;
將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;
輸出所述借款人的信用風(fēng)險值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,建立所述信用風(fēng)險評估模型,包括:
獲取訓(xùn)練數(shù)據(jù);
對所述訓(xùn)練數(shù)據(jù)進(jìn)行分析,得到所述訓(xùn)練數(shù)據(jù)的基本語言特征;
將所述基本語言特征作為參數(shù),采用機器學(xué)習(xí)方法建立不同的抽象文本特征對應(yīng)的分類器;
將所述抽象文本特征對應(yīng)的分類器作為基礎(chǔ)分類器,使用決策樹算法進(jìn)行決策融合形成信用風(fēng)險評估模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基本語言特征至少包括文本的統(tǒng)計特征、詞性特征、情感特征、實體特征和時態(tài)特征;其中所述統(tǒng)計特征包括句子特征、單詞特征和標(biāo)點特征,其中:所述句子特征至少包括:句子總數(shù)、平均句長、最大句長、疑問句數(shù)量比例;所述單詞特征至少包括:平均詞長、最長詞單詞種類數(shù)量、單詞總數(shù)、單詞平均出現(xiàn)次數(shù)和單詞出現(xiàn)最大次數(shù);所述標(biāo)點特征至少包括:問號數(shù)量比例和感嘆號數(shù)量比例。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述抽象文本特征包括欺騙性、主觀性、情感、可讀性、個性特點和思維方式。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述基本語言特征作為參數(shù),包括:
根據(jù)所述基本語言特征與所述抽象文本特征之間的關(guān)系,將所述基本語言特征輸入到每一所述抽象文本特征對應(yīng)的分類器。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述建立所述信用風(fēng)險評估模型,還包括:根據(jù)斷句的標(biāo)點符號對所述訓(xùn)練數(shù)據(jù)進(jìn)行分割,對分割后的訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計得到統(tǒng)計特征。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述斷句的標(biāo)點符號至少包括句號、問號、嘆號。
8.根據(jù)權(quán)利要求2至7任一項所述的方法,其特征在于,所述建立所述信用風(fēng)險評估模型,還包括:
采用不同的機器學(xué)習(xí)方法建立同一所述抽象文本特征對應(yīng)的分類器;
將準(zhǔn)確率最高的分類器作為所述抽象文本特征所對應(yīng)的分類器。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述機器學(xué)習(xí)方法包括:人工神經(jīng)網(wǎng)絡(luò)方法、支持向量機方法、決策樹方法、貝葉斯方法、隨機森林方法、邏輯回歸方法。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述將所述分類器作為基礎(chǔ)分類器,包括:將邏輯回歸方法對應(yīng)的分類器作為基礎(chǔ)分類器。
11.一種基于文本分析的信用風(fēng)險評估裝置,其特征在于,所述裝置包括第一獲取單元、分析單元、處理單元和輸出單元,其中:
所述第一獲取單元,用于獲取借款人的文本;
所述分析單元,用于對所述文本進(jìn)行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否會違約;
所述處理單元,用于將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;
所述輸出單元,用于輸出所述借款人的信用風(fēng)險值。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:建立單元,用于建立所述信用風(fēng)險評估模型,所述建立單元進(jìn)一步包括獲取模塊、分析模塊、建立模塊和融合模塊,其中:
所述獲取模塊,用于獲取訓(xùn)練數(shù)據(jù);
所述分析模塊,用于對所述訓(xùn)練數(shù)據(jù)進(jìn)行分析,得到所述訓(xùn)練數(shù)據(jù)的基本語言特征;
所述第一建立模塊,用于將所述基本語言特征作為參數(shù),采用機器學(xué)習(xí)方法建立不同的抽象文本特征對應(yīng)的分類器;
所述融合模塊,用于將所述分類器作為基礎(chǔ)分類器,使用決策樹算法進(jìn)行決策融合形成信用風(fēng)險評估模型。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述建立模塊中的將所述基本語言特征作為參數(shù),包括:根據(jù)所述基本語言特征與所述抽象文本特征之間的關(guān)系,將所述基本語言特征輸入到每一所述抽象文本特征對應(yīng)的分類器。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述建立單元,還包括分割模塊和統(tǒng)計模塊,其中所述分割模塊,用于根據(jù)斷句的標(biāo)點符號對所述訓(xùn)練數(shù)據(jù)進(jìn)行分割,所述統(tǒng)計模塊,用于對分割后的訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計得到統(tǒng)計特征。
15.根據(jù)權(quán)利要求12至14任一項所述的裝置,其特征在于,所述建立單元,還包括第二建立模塊和確定模塊,其中:
所述第二建立模塊,用于采用不同的機器學(xué)習(xí)方法建立同一所述抽象文本特征對應(yīng)的分類器;
所述確定模塊,用于將準(zhǔn)確率最高的分類器確定為所述抽象文本特征所對應(yīng)的分類器。