本發(fā)明涉及互聯(lián)網(wǎng)金融領(lǐng)域,尤其涉及一種基于文本分析的信用風(fēng)險評估方法及裝置。
背景技術(shù):
:計算機和網(wǎng)絡(luò)跟隨著時代的發(fā)展而得到快速普及,互聯(lián)網(wǎng)在不知不覺中已經(jīng)和人們的生活中各個方面有著極其密切的關(guān)系。近年來,互聯(lián)網(wǎng)的影響也逐步擴散到金融領(lǐng)域,互聯(lián)網(wǎng)金融也就逐漸的進入了大眾視野。理論上任意和金融有關(guān)聯(lián)的使用網(wǎng)絡(luò)在線上辦理的業(yè)務(wù)都算是互聯(lián)網(wǎng)金融。一般有以下6種常見的分類,它們分別是是大數(shù)據(jù)金融、第三方支付、P2P網(wǎng)貸、眾籌、信息化金融機構(gòu)和互聯(lián)網(wǎng)金融門戶。作為互聯(lián)網(wǎng)金融行業(yè)的一個新興領(lǐng)域——P2P網(wǎng)貸,正在以驚人的速度增長并受到廣泛關(guān)注,機遇與挑戰(zhàn)也隨之同時出現(xiàn)。由于我國特殊的歷史背景,P2P網(wǎng)貸在我國的發(fā)展速度尤為迅速,規(guī)模也比較大。中國的金融領(lǐng)域在一定程度上存在著金融管制,大量中小企業(yè)和個人越來越多樣的金融需求已經(jīng)不滿足于現(xiàn)有金融服務(wù),便促成了P2P網(wǎng)貸的快速發(fā)展。正因為如此,P2P網(wǎng)貸創(chuàng)新太快,監(jiān)管缺失等問題很容易出現(xiàn)以金額和期限錯配,非法集資以及流動性陷阱等為代表的系統(tǒng)性風(fēng)險,在支付方面仍然還沒有完善的認證體系制度,資金缺少監(jiān)管等問題,面臨著交易欺詐,隱私泄露等風(fēng)險;在融資方面,信用風(fēng)險問題也隨著提高社會資金運用效率的提升而突顯出來。技術(shù)實現(xiàn)要素:有鑒于此,本發(fā)明實施例為解決現(xiàn)有技術(shù)中存在的至少一個問題而提供一種基于文本分析的信用風(fēng)險評估方法及裝置,能夠有效地對借款人的信用風(fēng)險 進行評估,從而為投資人在投資時提供重要的決策依據(jù)。本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:第一方面,本發(fā)明實施例提供一種基于文本分析的信用風(fēng)險評估方法,所述方法包括:獲取借款人的文本;對所述文本進行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否會違約;將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;輸出所述借款人的信用風(fēng)險值。第二方面,本發(fā)明實施例提供一種基于文本分析的信用風(fēng)險評估裝置,所述裝置包括第一獲取單元、分析單元、處理單元和輸出單元,其中:所述第一獲取單元,用于獲取借款人的文本;所述分析單元,用于對所述文本進行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否違約;所述處理單元,用于將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;所述輸出單元,用于輸出所述借款人的信用風(fēng)險值。本發(fā)明實施例提供一種基于文本分析的信用風(fēng)險評估方法及裝置,其中,獲取借款人的文本;對所述文本進行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否會違約;將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;輸出所述借款人的信用風(fēng)險值;如此,能夠有效地對借款人的信用風(fēng)險進行評估,從而為投資人在投資時提供重要的決策依據(jù)。附圖說明圖1為本發(fā)明實施例一基于文本分析的信用風(fēng)險評估方法的實現(xiàn)流程示意 圖;圖2為本發(fā)明實施例中抽象文本特征與基本語言特征之間的關(guān)系示意圖;圖3為本發(fā)明實施例描述特征選擇的一般流程示意圖;圖4-1為本發(fā)明實施例財務(wù)特征與文本特征的信用評估效果對比結(jié)果示意圖;圖4-2為本發(fā)明實施例財務(wù)特征與財務(wù)+文本特征的信用效果對比結(jié)果示意圖;圖4-3為本發(fā)明實施例中不同文本特征對信用評估的影響的示意圖;圖5-1為本發(fā)明實施例中基于多個分類器的信用風(fēng)險評估系統(tǒng)的架構(gòu)示意圖;圖5-2為本發(fā)明實施例中結(jié)合不同數(shù)量的分類器的性能對比圖;圖6為本發(fā)明實施例六基于文本分析的信用風(fēng)險評估裝置的組成結(jié)構(gòu)示意圖。具體實施方式下面先來簡單地介紹一下本發(fā)明實施例所涉及的各種專業(yè)詞匯:P2P網(wǎng)貸的一般流程通常是P2P網(wǎng)貸公司作為一個展現(xiàn)雙方借貸信息的中間展示平臺存在,投資人和借款人通過自由競價進行網(wǎng)上交易,從而公司在交易成功時賺取相應(yīng)的服務(wù)費用。P2P網(wǎng)貸的一般流程也可以簡單描述為,在網(wǎng)絡(luò)上通過個人對個人這樣的一種方式進行的貸款交易,借入人到期需要償還本金同時需要支付給借出人利息,而借出人在獲取收益的同時需要承擔(dān)本金償還不到位的風(fēng)險。信用是個體、團體以及商品之間在交易中產(chǎn)生的一種雙方互相信任的生產(chǎn)及社會關(guān)系,它是社會經(jīng)濟發(fā)展的必然產(chǎn)物,是市場經(jīng)濟中不可缺少的一環(huán)。在P2P網(wǎng)貸中,無論是中小企業(yè)還是個人,其信用水平都是投資人考慮是否對其投資的重要決策。信用評估也叫做資信評級,作為信用體系構(gòu)建中的重要角色,是按照一定 的指標和方法對企業(yè)或者個人進行全面了解,從收集的信息中科學(xué)、客觀地對其信用水平做出全面的評估,主要出發(fā)點即為了得到受考察借款人具有多大的違約概率,判斷其能否按時完成約定好的事情,在P2P借貸中即為按時還清借到的款項。信用評估從根本上將是數(shù)據(jù)挖掘中的分類問題,它是將屬于同種類別的總體按照不同的特征分成兩個或者若干個不同的子集。一般情況下,在借貸信用評估中,將貸款者分類為可信的“好”用戶和存在信用風(fēng)險的“壞”用戶,也即分類中的正例和負例。通過歷史的信用數(shù)據(jù)對這兩種類別進行分類,以幫助投資人了解此次投資的潛在風(fēng)險。征信數(shù)據(jù),進行信用評估的過程中會使用到各種各樣的數(shù)據(jù)來幫助進行定性定量分析或者訓(xùn)練模型,這類數(shù)據(jù)被稱為征信數(shù)據(jù)。根據(jù)數(shù)據(jù)的不同可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),比如社交網(wǎng)絡(luò)的評論,用戶上傳的音視頻//用戶填寫的申請,這些數(shù)據(jù)以文本、圖片、音頻、視頻等數(shù)據(jù)格式存在,都是非結(jié)構(gòu)化數(shù)據(jù)。以是否容易被感知和接受為依據(jù),將金融領(lǐng)域中的數(shù)據(jù)劃成軟信息和硬信息兩種。硬信息是指精準的,符合邏輯并具有可追溯性的信息,也即可以被直接證實的信息,它們可以量化并記錄在文檔中,能夠準確的進行傳遞,如財務(wù)報表、工資水平等。而相反軟信息則是指由信息供給者主觀給出且無法直接被其他人證實的信息。在本發(fā)明實施例中,使用20060101-20081231日期間Prosper平臺生成的28853條貸款記錄作為訓(xùn)練數(shù)據(jù)。當借款人通過P2P貸平臺進行借款申請時,借款人需要填寫貸款申請描述。申請描述作為一種由借款人主觀編寫的文本信息,與借款人的財務(wù)信息一起作為訓(xùn)練數(shù)據(jù),可以研究其影響信用的特征有哪些并且通過調(diào)整由這些特征訓(xùn)練的模型,進行形成一個有效的信用風(fēng)險評估系統(tǒng)。下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進一步詳細闡述。在本發(fā)明實施例中,將通過借款人的文本特征來評估貸款的信用風(fēng)險。具體地,從全球最大的P2P網(wǎng)貸平臺上獲取相關(guān)的數(shù)據(jù)(借款人的文本描述),然后利用機器學(xué)習(xí)方法和統(tǒng)計方法從借款人的文本描述中提取借款人的六大抽 象文本特征,接著利用這六大抽象文本特征來評估借款人的還款意愿和還款能力,其中這六大特征包括主觀性、欺騙性、文本的可讀性、情感、用戶的個性特點和思維方式。P2P網(wǎng)貸的信用風(fēng)險評估由還款意愿和還款能力兩個因素決定,其中還款能力作為一個主要因素,是指借款人是否能夠按時還款,其中按時還款取決于借款人的經(jīng)濟狀態(tài)。而作為從屬因素的還款意愿,取決于借款人的想法和觀念。實施例一本發(fā)明實施例提供一種基于文本分析的信用風(fēng)險評估方法,該方法應(yīng)用于計算設(shè)備,在具體實施例的過程中,所述計算設(shè)備可以為個人計算機、服務(wù)器、工控機、筆記本電腦等具有信息處理能力的電子設(shè)備。該方法所實現(xiàn)的功能可以通過計算設(shè)備中的處理器調(diào)用程序代碼來實現(xiàn),當然程序代碼可以保存在計算機存儲介質(zhì)中,可見,該計算設(shè)備至少包括處理器和存儲介質(zhì)。圖1為本發(fā)明實施例一基于文本分析的信用風(fēng)險評估方法的實現(xiàn)流程示意圖,如圖1所示,該方法包括:步驟S101,獲取借款人的文本;這里,所述文本可以為借款人寫的有關(guān)借款事項的任何文字,例如借款人對貸款人寫的申請書等都可以作為本發(fā)明實施例中借款人的文本。步驟S102,對所述文本進行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否違約;這里,在具體實施的過程中,可以采用自然語言處理的相關(guān)方法從所述文本中抽取基本語言特征,所述自然語言處理的相關(guān)方法,例如話題模型方法,其中自然語言處理的相關(guān)方法即是以自動化機器作為工具,通過可計算的方法從詞語、句子、段落、文檔等不同的粒度進行識別、傳輸、儲存、理解等加工的方法和理論。它可以對文本進行詞語切分,詞性標注,結(jié)構(gòu)分析甚至意義理解等處理,從而從不同方面獲取更多的可以表示文本的特征。這里,所述基本語言特征至少包括文本的統(tǒng)計特征、詞性特征、情感特征、實體特征和時態(tài)特征;其中所述統(tǒng)計特征包括句子特征、單詞特征和標點特征, 其中:所述句子特征至少包括:句子總數(shù)、平均句長、最大句長、疑問句數(shù)量比例;所述單詞特征至少包括:平均詞長、最長詞單詞種類數(shù)量、單詞總數(shù)、單詞平均出現(xiàn)次數(shù)和單詞出現(xiàn)最大次數(shù);所述標點特征至少包括:問號數(shù)量比例和感嘆號數(shù)量比例。步驟S103,將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;這里,所述信用風(fēng)險評估模型是預(yù)先建立好的,下面對信用風(fēng)險評估模塊的具體建立過程進行描述。在本發(fā)明實施例中,所述信用風(fēng)險評估模型可以為一個簡單的分類器,也可以為多個分類器組成的信用風(fēng)險評估系統(tǒng),其中,一個分類器可以看作是某一個領(lǐng)域或方面的專家系統(tǒng),而由多個分類器組成的信用風(fēng)險評估系統(tǒng)又可以看作是混合專家系統(tǒng)。步驟S104,輸出所述借款人的信用風(fēng)險值。本發(fā)明實施例中,所述方法還包括:步驟S100,建立所述信用風(fēng)險評估模型,包括:步驟S111,獲取訓(xùn)練數(shù)據(jù);這里,所述訓(xùn)練數(shù)據(jù)是關(guān)于借款人進行借款的文本。步驟S112,對所述訓(xùn)練數(shù)據(jù)進行分析,得到所述訓(xùn)練數(shù)據(jù)的基本語言特征;這里,所述步驟S112與上述的步驟S102相似,本發(fā)明將在以下的實施例中進行具體說明。步驟S113,將所述基本語言特征作為參數(shù),采用機器學(xué)習(xí)方法建立不同的抽象文本特征對應(yīng)的分類器;這里,所述抽象文本特征包括欺騙性、主觀性、情感、文本的可讀性、個性特點和思維方式。所述機器學(xué)習(xí)方法包括:人工神經(jīng)網(wǎng)絡(luò)方法、支持向量機方法、決策樹方法、貝葉斯方法、隨機森林方法、邏輯回歸方法。在具體實施的過程中,還可以采用不同的機器學(xué)習(xí)方法建立同一所述抽象文本特征對應(yīng)的分類器;例如,以欺騙性為例,可以建立人工神經(jīng)網(wǎng)絡(luò)方法的分類器,建立貝葉斯方法的分類器,建立隨機森林方法的分類;然后將準確率最高的分類器作 為所述抽象文本特征所對應(yīng)的分類器。這里,所述將所述基本語言特征作為參數(shù),包括:根據(jù)所述基本語言特征與所述抽象文本特征之間的關(guān)系,將所述基本語言特征輸入到每一所述抽象文本特征對應(yīng)的分類器。這里,所述關(guān)系可以參見圖2所示,主觀性對應(yīng)于詞性特征和情感特征,欺騙性對應(yīng)于詞性特征、情感特征、實體特征和時態(tài)特征;可讀性對應(yīng)于統(tǒng)計特征、情感對應(yīng)于情感特征,個性特點對應(yīng)于統(tǒng)計特征、詞性特征、情感特征、實體特征和時態(tài)特征;思維方式對應(yīng)于詞性特征和實體特征。步驟S114,將所述分類器作為基礎(chǔ)分類器,使用決策樹算法進行決策融合形成信用風(fēng)險評估模型。這里,將所述抽象文本特征對應(yīng)的分類器作為基礎(chǔ)分類器,使用決策樹算法進行決策融合形成信用風(fēng)險評估模型。本發(fā)明實施例中,所述建立所述信用風(fēng)險評估模型,還包括:根據(jù)斷句的標點符號對所述訓(xùn)練數(shù)據(jù)進行分割,對分割后的訓(xùn)練數(shù)據(jù)進行統(tǒng)計得到統(tǒng)計特征。這里,所述斷句的標點符號至少包括句號、問號、嘆號。本發(fā)明實施例提供一種基于文本分析的信用風(fēng)險評估方法及裝置,其中,獲取借款人的文本;對所述文本進行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否違約;將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;輸出所述借款人的信用風(fēng)險值;如此,能夠有效地對借款人的信用風(fēng)險進行評估,從而為投資人在投資時提供重要的決策依據(jù)。實施例二本實施例介紹一下實施例一中的抽象文本特征與基本語言特征,圖2為本發(fā)明實施例中抽象文本特征與基本語言特征之間的關(guān)系示意圖,如圖2所示,為了從借款人的文本信息中挖掘有用信息,首先從文本信息中識別各種抽象文 本特征,其中所述抽象文本特征用于描述借款人的各個方面;然后根據(jù)所述抽象文本特征構(gòu)建和組合基本語言特征。2.1.抽象文本特征抽象文本特征是根據(jù)心理學(xué)和語言學(xué)等知識,從文本描述中識別出用于信用風(fēng)險評估的六大抽象文本特征,這六大抽象文本特征包括欺騙性、主觀性、情感、文本的可讀性、個性特點和思維方式。1)欺騙性欺騙性用于識別欺騙者與誠實者,本實施例中從四個維度來定義欺騙性,分別是認知負荷、內(nèi)部想象力、分解性以及消極情緒。欺騙者不僅僅偽造不存在的事實還需要避免被揭露,因此他們常常不得不花費更多的認知資源,產(chǎn)生較高的認知負荷來闡述簡單的故事。通常使用具體性和凝聚性來度量認知負荷的大小。其中具體性可以由Coh-Metrixprogram從MRCPsycholinguisticDatabase獲得,而凝聚性往往與連接詞的數(shù)量有著密切關(guān)系。研究證明,存在欺騙的描述文本具有高的具體性和很低的凝聚性。內(nèi)部想象力與實體詞和時態(tài)詞的使用有關(guān)。一般來說,從實踐經(jīng)驗的事件描述包含更多的信息,如時間(如“今天”、“昨天”和“本月”)和地點(如“這里”、“有”和“大街”),這些都不是內(nèi)部想象力。分解性與人稱代詞的使用有關(guān),為了使分解假故事,欺騙者總是使用更多的詞匯的第三人(像“她”和“他”)來描述故事。消極情緒和情緒詞的使用相關(guān),因為內(nèi)疚的增加引起的撒謊,欺騙者總是使用比誠實者更多的消極詞匯。2)主觀性主觀性是文本挖掘的一種,它用來評估文本的主客觀情況或者傾向,是關(guān)于客觀世界的信息多還是側(cè)重于個人的感覺。研究證明,包含客觀信息多的文本更容易違約拖欠。貸款者在提供一系列關(guān)于借貸情況的客觀信息后,信用高的借款者在文本描述中更加側(cè)重于解釋借款的用途,從而涉及到更多的主觀信息,而存在違約風(fēng)險的借款者不愿意更多的涉及不愉快的事實,在描述時則使 用大量客觀信息。因此,主觀性與詞匯的主觀性等情感特征以及反映人思想見解的實體特征,情態(tài)動詞的使用,數(shù)詞、形容詞以及副詞的使用情況等都有很密切的聯(lián)系。3)情感情感也即對借款者文本描述的情感方向進行一個方向性的把握,通過對文本進行處理,判斷借款者是積極還是消極,友好與否等,從深層次了解借款者的觀點、情緒以及態(tài)度。通過對情感基本特征的組合分析,從而形成一個對于文本更加全面立體的情感方面的認知。借款者對待生活越積極樂觀越擁有更高的信用度,反之亦然。4)個性特點人與人之間最基本的不同就是他們各自的性格特點,性格特點包括行為、氣質(zhì)、情緒以及內(nèi)在的精神。性格特征的培養(yǎng)是一個長期、穩(wěn)定的過程,影響著個體行為的很多不同方面,比如樂于分享、積極向上的性格的人比吝嗇、悲觀的人違約風(fēng)險更低。而在性格上越重要的差別越容易體現(xiàn)在單個詞中,在文本中語言學(xué)特征也會如實反映出個體性格的特點。性格特點可以從五個維度來定義,也就是被人們熟知的BigFive。第一個就是外向性,外向的人更愿意與人溝通,傾向于使用短句子詞匯種類少,文本中多用動詞、代詞、副詞以及感嘆詞等,文本的情感也多是積極樂觀,包含更多的社會詞匯等等。在眾多內(nèi)外向性格特點的影響因素中,可以采用formality的度量方式挑選最重要的維度進行計算:F=(nounfreq+adjectivefreq+prepositionfreq+articlefre-pronounfreq-verbfreq-adverbfreq-interjectionfreq+100)/2研究發(fā)現(xiàn)每個維度與語言學(xué)特征都存在著微小但是重要的聯(lián)系。神經(jīng)質(zhì)的群體喜歡使用更多的第一人稱單數(shù)來表達,他們的文本中有更多的消極詞匯和少量的積極詞匯。而相反,情緒穩(wěn)定的人積極詞匯使用更多,也更常用冠詞。具有嚴謹性的人盡量避免使用否定詞、消極詞匯和情態(tài)動詞。從開放性的人的文本中可以找到更多的長詞和不確定詞,他們更不習(xí)慣于使用第一人稱單數(shù)和 過去時態(tài)來表述。最后,宜人性描述了人們是否易于相處的方面,發(fā)誓咒罵詞匯、消極詞匯和憤怒詞匯更多的人往往更難以相處。可見,性格特點與語言學(xué)特征有著密切的聯(lián)系,它不僅與詞的本身特征有關(guān)(如詞長、詞的種類),還可以體現(xiàn)在詞的情感傾向(積極、消極)、詞性(形容詞、動詞)、時態(tài)(第三人稱、過去式)以及詞的具體含義(社會詞匯)等方面。5)思維方式在文本信息中,除了包含了內(nèi)容詞匯,也即有著明確含義的用來表述文本思想的詞匯外,還存在大量的功能詞匯。功能詞匯反映了作者溝通的方式而非描述的實際內(nèi)容,它與作者的所處的社會環(huán)境與心理真實世界更加吻合,隨著事情的發(fā)展與作者認知的變化,使用的功能詞匯也會發(fā)生相應(yīng)的變化。首先感知復(fù)雜性描述了在論證時的豐富度,也即相互矛盾的方案間的差異度以及不同解決方法間的整合性,通常用排除詞匯和連詞表示。喜歡講真實故事的人更傾向于使用排除詞。描述復(fù)雜具體信息的時候,多數(shù)人會增加介詞、感知詞以及長詞的使用。原因詞匯和見解詞匯這兩種感知機制經(jīng)常出現(xiàn)在描述過去的事件當中,能夠反映出對已經(jīng)發(fā)生過的事情的思考。如果一個人對所描述的事情不確定,那么更喜歡使用不確定詞匯和補充詞來進行緩沖,過多使用不確定性詞匯表明故事的真實性存在著質(zhì)疑。因此,思維方式與詞性和描述原因、見解等感知實體詞有著一定的聯(lián)系,可以從這兩種基本特征中組合抽象出作者的思維方式,來更加形象的反映出作者在寫描述文本時的真實意圖。6)文本的可讀性文本的可讀性是一項衡量文本的比較傳統(tǒng)的指標,反映著作者的教育程度、社會地位等,已經(jīng)用在了商品反饋、購買意圖、社會媒體信息評論等領(lǐng)域中,它的寫作方式影響著讀者理解文本的難易程度。從三個維度上來衡量文本的的可讀性,分別是詞匯種類、詞匯易讀性和詞匯復(fù)雜性。首先介紹詞匯種類,如果一個文本使用了更少的詞匯種類,那么它應(yīng)該更容易閱讀。通常使用公式(1),一個不依賴于文本長度的對于詞匯豐富度的測 量公式。公式(1)中,N是文本的長度,V(i,N)表示某類詞出現(xiàn)了i次,詞匯易讀性和詞匯復(fù)雜性也與文本句子的長度,詞匯長度以及詞匯種類等有著密切關(guān)系。研究證明,文本的可讀性較高的文本所對應(yīng)的貸款不會違約的概率更大。如果一個人接受過良好的教育并且有著穩(wěn)定的高收入,他所寫的借款描述會更加清晰可讀,對應(yīng)的信用度也就越好。2.2.基本語言特征抽象文本特征可以從實際抽象意義角度反映作者違約意圖以及信用習(xí)慣,但是卻沒有辦法從文本特征中直接抽取。因此,根據(jù)抽象文本特征的意義以及影響抽象文本特征的文本特征因素,統(tǒng)計概括為5種基本語言特征,這些特征可以通過機器學(xué)習(xí)方法和統(tǒng)計方法直接從文本中得到,從而使用這些特征表示抽象文本特征,最終得到與還款意愿的內(nèi)在關(guān)系,作為預(yù)測是否違約的特征。1)統(tǒng)計特征文本特征從直觀上來講,最容易從中抽取到的部分是可以經(jīng)過統(tǒng)計直接得到的,比如文本中出現(xiàn)的句子數(shù)量、單詞數(shù)量、單詞長度等等,這些特征容易統(tǒng)計計算,并且可以從不同程度上反映出寫作者的寫作態(tài)度,甚至生活態(tài)度。比如句子的長度可以從一定程度上反映出文本的可讀性,在文本中存在的句子越長,越不容易被閱讀,表達的意思也越晦澀。此外,對于同一個統(tǒng)計對象,比如單詞、數(shù)量和種類也代表著不同的含義,單詞數(shù)量表示文本的長度,而單詞種類表示的是文本中使用的詞匯量,反映了單詞使用的多樣化。抽取這些特征的方法有很多,本發(fā)明實施例采用統(tǒng)計方法,該方法具有簡單、易行的特點。首先,如果要統(tǒng)計文本中有關(guān)句子的特征,那么一定要對文本進行分句。根據(jù)英文中常見的用于斷句的標點符號來進行分割識別,比如句號、問號、嘆號等,其中重點處理引號和括號的問題。其次,每個句子進行分 詞,統(tǒng)計有關(guān)單詞的特征。目前,抽取了17個簡單統(tǒng)計特征,這兩個特征粒度分別表示句子特征和單詞特征;在表2-1中具體列出了每個特征的意思。表2-1文本簡單統(tǒng)計特征2)詞性特征在本發(fā)明實施例中,采用最大熵模型對單詞進行詞性標注,也即給每個詞分配一個詞性類別,例如副詞、連詞等等。最大熵模型的關(guān)鍵問題在于特征選擇,選取的特征直接影響著標注的準確性。在文本中相鄰位置單詞間的詞性都相互影響,詞性也與單詞本身的后綴、相鄰詞有關(guān)。因此,綜合選擇文本中單詞的上下文特征和單詞本身的特征,形成最大熵特征模板,如表2-2所示:表2-2最大熵模型訓(xùn)練特征模板特征編號特征類型特征模板1Generalwi=X&ti=T2Generalti-1=T1&ti=T3Generalti-1=T1&ti-2=T2&ti=T4Generalwi+1=X1&ti=T5Rarewi的后綴S,|S|<5&ti=T6Rarewi的前綴P,1<|P|<5&ti=T7Rarewi包含數(shù)字&ti=T8Rarewi包含大寫字母&ti=T9Rarewi包含連字符&ti=T其中,wi、wi+1、ti、ti-1、ti-2分別表示為當前詞、前一個詞、當前詞性、前詞詞性、前前詞詞性。一般(General)特征適用于每個詞,只有當單詞與稀 有(rare)特征類型描述的模板相吻合時,才加入rare特征。最大熵模型訓(xùn)練語料來自于PennTreebank,并且參照其提供的詞性標注結(jié)果標簽。在本實施例中使用到的詞性特征主要對象為單詞級別,因此得到單詞級別的詞性特征一共有36種。由于得到的詞性分類太過詳細,比如名詞單數(shù)與名詞復(fù)數(shù)屬于不同類,形容詞的比較級和形容詞也屬于兩個不同類等等,將這些詞性類別整理合并成了12個詞性大類,并且計算了每一類的數(shù)量與具體包含種類,如表2-3、表2-4所示。表2-3經(jīng)過組合形成的文本詞性特征表2-4無組合的文本詞性特征3)情感特征除了文本本身直觀統(tǒng)計的特征和詞性特征外,由于最終目的是考察文本對 于信用評估的作用,也即寫作者是否存在違約風(fēng)險,因此還需要抽取有關(guān)于寫作者情感傾向的特征,這些特征會直接反映出寫作者的人生態(tài)度和價值觀念,也在很大程度上能夠反映出違約的風(fēng)險。考慮到機器學(xué)習(xí)的方法進行訓(xùn)練積極/消極等情感需要大量標注和訓(xùn)練成本,并且標注時需要對語言詞性分類知識的專業(yè)了解和掌握,因此本發(fā)明實施例中采用情感詞典的方法抽取情感特征,選用GeneralInquirer分類詞典,根據(jù)分類詞典中不同類別下對應(yīng)的單詞與實驗文本單詞的對應(yīng)來統(tǒng)計情感極性詞語的個數(shù)及種類。GeneralInquirer詞典中的分類信息來源于theHarvardIV-4dictionary、theLasswellvaluedictionary等四個方面,一共156個。根據(jù)是否與寫作者的態(tài)度觀念有關(guān),最終選擇了15個特征,如表2-5所示:表2-5文本情感特征4)實體特征實體特征一般具有著某些實際意義,比如時間、空間以及因果目標等。研究表明,對于真實事件的描述文本比憑借想象力隨意捏造的事件描述包含著更多的空間和時間信息。在判斷是否違約的時候,可以通過判斷包含實體信息的情況來辨別真實與偽造的文本描述的區(qū)別。同樣使用的是GeneralInquirer分類詞典,根據(jù)分類詞典中不同類別下對應(yīng)的單詞與實驗文本單詞的對應(yīng)來統(tǒng)計實體詞語的個數(shù)及種類。最終,得到9個實體特征,如表2-6所示:表2-6文本實體特征5)時態(tài)特征時態(tài)特征從兩方面進行提取。由于PennTreebank標注語料同樣標注了動詞的過去式、現(xiàn)在式以及將來時等時態(tài)屬性,因此可以使用最大熵模型對文本進行訓(xùn)練,得到時態(tài)特征。另一方面,使用常用的英語中表示過去、現(xiàn)在以及未來等時間的短語詞典,查找句子中與之對應(yīng)的詞,判斷句子當前描述的事件發(fā)生的時間。最終,結(jié)合句子的動詞以及時間狀語得到句子的時態(tài)特征。實施例三本發(fā)明實施例介紹實施例一中的自然語言處理方法和機器學(xué)習(xí)方法。3.1、自然語言處理方法在P2P平臺借貸過程中,借款人提交的借款理由描述等文本信息對信用評估的影響。這些用戶文本信息通常是由自然語言組成,也即人們?nèi)粘J褂玫目陬^語或者書面語。自然語言與計算機語言和數(shù)字有著明顯的不同,它不能被計算機直接表示和理解,也不能直接用于計算,但是自然語言由語法,詞語,句子等多種元素組成因而又包含著大量信息,能夠反映出一個人的性格,感情以及其他復(fù)雜情緒。因此,需要采用簡單統(tǒng)計方法或者自然語言處理方法對文本進行處理分析,從文本中抽取可以代表其某個維度的信息并且可以量化表示的特征,從而使得計算機可以使用這些特征進行計算,再進行下一步的處理。在對文本的處理中,除了簡單的對單詞句子等進行統(tǒng)計外,自然語言處理方法被使用的越來越廣泛。自然語言處理方法即是以自動化機器作為工具,通過可計算的方法從詞語、句子、段落、文檔等不同的粒度進行識別、傳輸、儲存、理解等加工的方法和理論。它可以對文本進行詞語切分,詞性標注,結(jié)構(gòu)分析甚至意義理解等處理,從而從不同方面獲取更多的可以表示文本的特征。1)詞性標注詞性也叫做詞類,指詞匯基本的語法屬性,通常根據(jù)詞的形態(tài)、功能以及包含的語法意義進行劃分。詞性標注是給某種語言的詞標注上其所屬的詞類,是一項在自然語言處理方法中基礎(chǔ)并且重要的工作之一,方法通常分為基于規(guī) 則的方法和基于統(tǒng)計的方法,基于規(guī)則的詞性標注需要先通過查字典給句中各詞標記所有可能的詞類標記,再應(yīng)用規(guī)則逐步刪除錯誤的標記,最終得到正確的結(jié)果。詞性標注的例子如下:例句:Theleadpaintisunsafe.標注結(jié)果:The/Detlead/Npaint/Nis/Vunsafe/Adj.熵描述了變量取值的不確定性,熵值與這種不確定性呈正相關(guān),取值越大,該隨機變量也就越接近均勻分布。在沒有獲得分布的全部信息時,根據(jù)最大熵原則,應(yīng)該選取在滿足現(xiàn)有分布的前提下取值越大的分布,也就是平均分布。根據(jù)最大熵原則進行統(tǒng)計建模,是在對分布不了解的情況下能夠做出的最佳的選擇,因為任意非最大熵原則進行的選擇都代表主觀加入了非分布信息。最大熵原則由E.T.Jaynes在1957年提出,在許多領(lǐng)域有著廣泛的應(yīng)用。最大熵方法通過特征表示樣本數(shù)據(jù)中的已知知識,通過增加其他條件使特征的模型期望與觀察期望保持一致,從而就變成了最值問題。在構(gòu)造最大熵模型時,關(guān)注于選擇哪些有用的特征即可,無需考慮怎樣使用。最大熵方法的一般陳述如下:存在樣本數(shù)據(jù)O,O={(m1,n1),(m2,n2),…,(ml,ml)},其中mi∈M,ni∈N,求解模型分布p(m,n),使得該分布滿足一下兩個條件:(1)p(m,n)能使熵H(p)最大化,即p*=argmaxH(p);(2)p(m,n)服從樣本數(shù)據(jù)中已知的統(tǒng)計數(shù)據(jù);求解最大熵模型也就等價于求解下列約束最優(yōu)化問題:p*=argmaxH(p)其中,1≤j≤kΣx,yp(x,y)=1,等式兩邊分別為模型期望和觀察期望最大熵模型對特征的相關(guān)性沒有要求并且不存在過擬合的問題。從實現(xiàn)的簡單性和分類的效果綜合考慮,本實施例采用最大熵模型對文本進行詞性標注。2)情感人們在評論、寫文章、提交申請時所寫的文本內(nèi)容包含著大量關(guān)于作者的感情色彩和傾向性,能夠從一定程度上反映出作者的性格特點和生活態(tài)度。比如積極、消極,又比如認可或者否定等等。情感簡單來講,就是從人們文字性的非結(jié)構(gòu)化數(shù)據(jù)中判斷出隱含在其中的感情傾向。文本作為一種非結(jié)構(gòu)化數(shù)據(jù),是很難被自動理解和處理的。因此在進行情感時,通常會把詞句、段落、文檔等單獨抽取出來從不同層面進行分析,將文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。根據(jù)其挖掘內(nèi)容又可以分為意見抽取、意見挖掘、情感挖掘和主觀分析。本實施例主要關(guān)注于挖掘文本中的情感傾向,抽取其中的情感詞匯,判斷文本作者的情感態(tài)度。在進行情感時,一方面可以利用較為流行并且成熟的開放的情感詞典資源,它們通常會根據(jù)詞性或者感情色彩等不同依據(jù)將詞語劃分為不同情感類別,從而給每個詞從不同角度標上標簽,進行全面的描述,同時也能夠反映出不同類別的情感詞規(guī)律。另一面,作為一種分類問題,能夠使用機器學(xué)習(xí)中的分類算法進行處理,從而得到文本的態(tài)度傾向。3.2.機器學(xué)習(xí)機器學(xué)習(xí)從字面上理解即為讓機器向人一樣理解學(xué)習(xí),它能夠從數(shù)據(jù)集中受到啟發(fā),彰顯數(shù)據(jù)背后的真實意義。本實施例研究的內(nèi)容是文本對于信用評估的作用,需要從文本中挖掘的特征集合中判斷借款人的信用水平,很難從這些原始文本數(shù)據(jù),甚至特征集合中直觀的獲取所需信息,因此需要借助機器學(xué)習(xí)算法處理這些無序的數(shù)據(jù),將其變成能夠被計算機識別處理的量化特征,通過構(gòu)造某種模型,將使用這些特征表示的文本作為輸入數(shù)據(jù),從而得到借款人的信用水平最可能所屬的類別。機器學(xué)習(xí)的主要任務(wù)就是分類和回歸,與本實施例的任務(wù)正好一致。分類就是根據(jù)特征信息對某一實例進行判斷其歸屬的類別。回歸則是通過給定的數(shù)據(jù)點形成一個最優(yōu)擬合曲線。它們都屬于有監(jiān)督的學(xué)習(xí),必須知道預(yù)測什么,即目標變量的分類信息,數(shù)據(jù)常常分為訓(xùn)練集和測試集。實施例四在P2P平臺借款人提交的文本信息中的語言特征能否提高信用評估的準確性,能否利用這些語言特征預(yù)測出可用值是研究的重要內(nèi)容。文本包含大量豐富的關(guān)于寫作者自身的信息,除了語義內(nèi)容,寫作方式、寫作習(xí)慣等也可以反映出寫作者的性格特征,甚至信用水平。但是通常來講,文本中包含的語法、語義以及情感傾向是不能直接被計算機表示和處理的,因此需要識別出這些特征,并且將這些特征進行量化,從而在文本分析中使用。為了對借貸文本中的語言特征有一個全面綜合的理解,提出了解釋和預(yù)測互相補充的兩個步驟,一方面,通過對相關(guān)語言學(xué)和心理學(xué)文獻的總結(jié)以及計量經(jīng)濟學(xué)模型的應(yīng)用,研究不同語言信息在預(yù)示潛在風(fēng)險中的作用,選擇合適的特征以進行預(yù)測;另一方面,采用了常見的幾種機器學(xué)習(xí)的方法使用這些語言特征對信用進行評估,并且分析結(jié)果,發(fā)掘揭露這些語言信息的預(yù)測能力。基于前述對抽象文本特征以及基本語言特征的介紹,本發(fā)明實施例介紹一下實驗過程及實驗結(jié)果4.1實驗過程財務(wù)相關(guān)特征分為兩種,一種是基本財務(wù)特征,用戶在注冊和貸款申請時需要填寫的財務(wù)相關(guān)信息,另一種是信用特征,需要根據(jù)用戶的歷史信貸記錄或者向?qū)iT的機構(gòu)進行購買的信用特征。將實驗數(shù)據(jù)進行處理得到財務(wù)特征數(shù)據(jù)和上述提到的文本特征數(shù)據(jù),財務(wù)特征作為對照標準,文本特征數(shù)據(jù)加上基本財務(wù)特征以及文本特征與財務(wù)特征合并后的數(shù)據(jù)進行實驗,觀察信用評估模型的效果,研究文本特征對信用評估的作用。本實施例采用了機器學(xué)習(xí)常見的五種基本分類學(xué)習(xí)算法,分別是決策樹、樸素貝葉斯、邏輯回歸、神經(jīng)網(wǎng)絡(luò)以及隨機森林,通過使用不同機器學(xué)習(xí)模型探索在信用評估中使用文本特征的分類效果。1)實驗數(shù)據(jù),本實施例中的實驗數(shù)據(jù)可以參見數(shù)據(jù)描述。2)數(shù)據(jù)預(yù)處理和歸一化由于抽取的文本不能直接利用,因此需要首先對文本進行預(yù)處理。從數(shù)據(jù)庫中下載的Listing數(shù)據(jù)不能直接使用,它不是純文本格式,而需要從xml格式中抽出。其他兩個文本中同樣包含了xml標簽,因此在抽取特征之前,將標簽等與文本無關(guān)內(nèi)容過濾掉。借貸記錄中的每一個條目的取值范圍大不相同,比如貸款收入比在0到1之間,貸款數(shù)目又在幾千之上,統(tǒng)計的詞性、詞匯特征等數(shù)目也是在幾個到幾百個之間浮動,這些特征值得差異太大容易造成權(quán)重失衡,因此在抽取特征后,將每種特征數(shù)據(jù)變換到同一個范圍中,也即歸一化。本實驗使用簡單的最大最小處理方法,也即離差標準化,對原始數(shù)據(jù)進行線性變換,使結(jié)果值都映射到0和1之間。轉(zhuǎn)換函數(shù)如下:其中,max表示最大,min表示最小,x為需要計算的實際數(shù)據(jù)。3)特征選擇當訓(xùn)練機器學(xué)習(xí)模型時輸入的特征過于多,不僅會延長訓(xùn)練模型的事件,還常常會出現(xiàn)分類效果反而下降的情況。這是由于在輸入的大量特征中,可能存在不相關(guān)的特征或者特征間存在依賴關(guān)系,也就是所謂的引入噪聲。當引入的噪聲大于增加特征帶來的提升效果時,分類結(jié)果的正確率反而出現(xiàn)下降。特征選擇的提出就是解決這類問題,是指從當前抽取的M個特征集合中剔除不相關(guān)特征或者冗余特征,只保留對分類具有幫助的特征子集,以降低數(shù)據(jù)集維度。圖3為本發(fā)明實施例描述特征選擇的一般流程示意圖,如圖3所示,首先需要設(shè)定初始的子集。其次,使用具體的搜索算法確定特征子集。本實驗主要采用完全搜索類的最優(yōu)優(yōu)先搜索方法。特征子集的個數(shù)從1開始,使用窮舉法,計算每次新加入一個特征后的子集分類效果,然后使用評價函數(shù)來對該子集的分類效果進行判斷。本實驗采用封裝器的評價方法,它會根據(jù)分類器的不同而選出不同的特征子集,也即對樣本進行試分類,用分類器的錯誤率作為 衡量指標,因此分類效果較好。4)模型訓(xùn)練使用機器學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)并且使用模型預(yù)測,通常遵循以下的步驟。1)準備輸入數(shù)據(jù)。也即本實施例前面提到的抽取文本特征和loan特征,當然訓(xùn)練數(shù)據(jù)也需要包含已經(jīng)分好類的目標變量。2)訓(xùn)練算法。機器學(xué)習(xí)算法從這一步才開始真正學(xué)習(xí),將處理后得到的格式化數(shù)據(jù)輸入到算法中,從中抽取知識或者信息,形成可以用來預(yù)測的模型,也即得到相應(yīng)的模型參數(shù)。3)測試算法。在使用模型之前,必須測試算法工作的效果。本實施例使用的機器學(xué)習(xí)算法均屬于監(jiān)督學(xué)習(xí),使用已知的用于評估的目標變量值與預(yù)測值的關(guān)系來進行評測,如果輸出結(jié)果不滿意,再對模型進行改正加以測試。本實施例采用了五種常見的機器學(xué)習(xí)分類器。1)決策樹分類器,采用信息增益比的度量方式,每次選擇信息增益比最高的特征進行劃分數(shù)據(jù)。置信因數(shù)設(shè)置為0.005對決策樹進行裁剪。2)邏輯回歸分類器,使用Sigmoid函數(shù),并且使用隨機梯度上升法來確定最佳回歸系數(shù)。3)神經(jīng)網(wǎng)絡(luò)分類器,實驗采用反向傳播神經(jīng)網(wǎng)絡(luò),激活函數(shù)為Sigmoid函數(shù)。4)隨機森林分類器,選擇100棵樹作為分類器構(gòu)成。5)樸素貝葉斯分類器。5)交叉驗證訓(xùn)練好機器學(xué)習(xí)模型后還要對模型的正確率進行驗證,本實施例實驗中采用的是五折交叉驗證。交叉驗證是一種在數(shù)據(jù)量不夠大的情況下隨機將數(shù)據(jù)樣本切割成較小子集的實用方法。首先在把其中一個子集作為訓(xùn)練樣本來訓(xùn)練分類器,其他子集作為測試集來驗證此分類器的正確率等指標。五折交叉驗證即將數(shù)據(jù)集劃分為五份,每次選取一份作為測試集,剩下的四份作為訓(xùn)練集,從而進行五次實驗,將這些實驗所得的正確率進行平均作為對算法準確性的估計。6)評價指標本實施例對于文本對信用評估的影響主要采用正確率的評價方式,正確率即表示為在已經(jīng)有還款違約記錄的測試數(shù)據(jù)上,本實施例使用算法進行分類的結(jié)果與原違約記錄結(jié)果相同的個數(shù)占整個實驗數(shù)據(jù)數(shù)量的百分比。4.2實驗結(jié)果在前面介紹了實驗抽取的文本特征和實驗過程后,下面將介紹從不同方面做過的多次實驗及相應(yīng)的實驗結(jié)果,并對最終的實驗結(jié)果做了比較和分析。1)文本特征對信用評估分類效果的影響為了研究文本特征對信用評估分類效果的影響,本實施例使用財務(wù)特征數(shù)據(jù)、文本特征數(shù)據(jù)以及財務(wù)和文本特征結(jié)合的數(shù)據(jù)分別作為輸入數(shù)據(jù)訓(xùn)練模型并測試,以財務(wù)特征數(shù)據(jù)作為控制變量進行對照。采用了上述提到的五種分類器,計算分類器模型對信用風(fēng)險評估的準確率。由于增加特征會帶來噪聲問題,因此考慮到特征數(shù)量過多會引起特征過載,從而導(dǎo)致分類效果降低的問題,在進行模型訓(xùn)練之前對特征數(shù)據(jù)進行了特征選擇。再與財務(wù)特征分類的結(jié)果進行對比。三種特征數(shù)據(jù)在五種分類器模型上的最終預(yù)測結(jié)果表6-2所示。首先將單獨使用文本特征進行預(yù)測的分類結(jié)果與單獨使用財務(wù)特征預(yù)測的分類結(jié)果進行比較,從數(shù)據(jù)中發(fā)現(xiàn),對于大多數(shù)的分類器模型而言,使用文本特征預(yù)測的正確率雖然比使用財務(wù)特征預(yù)測的正確率有所降低,但是數(shù)值比較接近,相差不大。特別地,經(jīng)過特征選擇后使用隨機森林預(yù)測的正確率為67.42%,比財務(wù)特征的預(yù)測正確率還要高0.1%左右;使用神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果為67.83%,與財務(wù)特征預(yù)測的結(jié)果68.37%的差值相差在0.5%以內(nèi)。另一方面,財務(wù)和文本特征的預(yù)測結(jié)果均比單獨使用財務(wù)特征的預(yù)測結(jié)果有了不同程度的提升。在當前時期的P2P網(wǎng)貸中,一些與借款人相關(guān)的信用評級和歷史數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等與借款相關(guān)的客觀性可量化數(shù)據(jù)都沒有完全公開,甚至有些數(shù)據(jù)需要進行購買才可以獲得。另一方面,現(xiàn)有的個人信用評估體系還尚未完善,很多借款人不存在足夠的財務(wù)特征數(shù)據(jù)來進行信用評估。因此,財務(wù)特征獲取存在成本高,來源少的問題。相比于財務(wù)特征,文本特征的獲取就容易的多。在借款人申請貸款的時候,使用對借款的申請描述作為研究對象抽取文本特征,從而對借款人進行信用評估,在成本較低和獲取容易的情況下,文本特征可以代替財務(wù)特征進行信用風(fēng)險評估,并且能夠得到差別不大的在可接受范圍內(nèi)的評 估效果。分類結(jié)果數(shù)據(jù)的對比情況可以直觀的表示為圖4-1。此外,將在財務(wù)特征中加入文本特征的分類結(jié)果與只使用財務(wù)特征進行分類的結(jié)果進行對比如圖4-2所示:不難發(fā)現(xiàn),在五種分類器模型中對于所有分類器模型而言,加入文本特征后的分類正確率都有不同程度的提升。也即說明,本實施例提取的文本特征不但可以用來代替財務(wù)特征作為一種準確率稍差但是成本低的信用評估方式,而且在財務(wù)特征中加入文本特征后,信用風(fēng)險的預(yù)測準確率也有一定的提升。其中,加入文本特征后,分類正確率最高能夠到70.6%,并且使用隨機森林分類器能夠提升3%。除了使用單分類器進行分類預(yù)測之外,本實施例又引入了多分類器集成的概念,探索通過集成進一步提升分類的正確率。2)文本特征的數(shù)量以及種類對信用評估分類效果的影響根據(jù)前面的實驗結(jié)果,文本特征在信用評估中可以在某種程度上替代財務(wù)特征,并且加入文本特征后能夠提升信用評估的效果。因此進一步探索文本特征的數(shù)量以及不同種類的文本特征對信用評估分類效果是否有影響。使用logistic分類器和隨機森林分類器分別對listing借款描述文本的不同特征進行訓(xùn)練,并且與單純使用控制變量財務(wù)貸款本身特征的分類結(jié)果進行對比。如圖4-3所示,實驗結(jié)果數(shù)據(jù)分析顯示,對于邏輯回歸分類器來講,雖然加入統(tǒng)計特征簡單統(tǒng)計文本特征后邏輯回歸分類器的正確率會有稍微降低,但是加入情感特征和詞性特征后,正確率都會有所增加,其中加入情感特征后效果提升最好,而加入所有文本特征后,分類的正確率有著明顯提升,提高了0.5個百分點。而對于隨機森林分類器,加入文本特征后準確率有了顯著提升,最高提升了約為3%,同樣證明了文本特征可以提高信用評估分類的準確率,但是加入全部特征后的結(jié)果比單獨加入文本統(tǒng)計特征、情感特征和詞性特征后的結(jié)果稍微降低了一些。特征數(shù)量增加后準確率沒有如預(yù)期的提高,有可能是在增加數(shù)量的同時,噪聲也隨之增多,使得分類效果有所降低。因此,從數(shù)據(jù)中可以看出文本特征能夠提高信用評估的準確率,并且文本特征越多對信用評估越有幫助。實施例五基于多個分類器集成設(shè)計一個信用風(fēng)險評估系統(tǒng),如圖5-1所示。首先,建立七個基本分類器,這七個基本分類器包括六個文本分析的分類器,這六個文本分析的分類器對應(yīng)于六個抽象文本特征,而這個六個抽象文本特征用于表征借款人的各個不同方面,例如,主觀性、欺騙性、文本的可讀性、情感、用戶的個性特點和思維方式。每一個分類器將輸入作為基本語言特征,而且能夠預(yù)測借款人是否會不履行還款,然后采用融合系統(tǒng)集成七個分類器的輸出。邏輯回歸用于欺騙性分類器、主觀性分類器和個性特點分類器;隨機森林用于可讀性分類器、情感分類器和基本的貸款分類器;多層感知器是用于思維方式分類器;決策樹用于融合的結(jié)果不同的分類器。5.1實驗數(shù)據(jù)本實施例中的實驗數(shù)據(jù)來源于Prosper網(wǎng)站,Prosper網(wǎng)站擁有大量的用戶,是非常著名的P2P在線服務(wù)平臺。在Prosper網(wǎng)站提供的數(shù)據(jù)中,提取了2006年到2008年的借貸記錄,因為在這一時期的借貸行為到目前為止都已經(jīng)有了最終還款結(jié)果,無論是違約或者按時還款。經(jīng)過統(tǒng)計,這三年內(nèi)一共有可用的結(jié)果明確的借貸記錄28853條。Prosper對于還款記錄狀態(tài)分為current、late、paid、charge-off、defaulted、repurchased以及cancelled七個狀態(tài),由于實驗數(shù)據(jù)均為已經(jīng)完成的記錄,所以不存在current和late兩個狀態(tài)。然后將數(shù)據(jù)劃分為違約和未違約兩類,其中違約包括charge-off和defaulted兩類,一共是9937條,則未違約的包含余下幾類,一共18916條,違約與未違約記錄之比大約為1:1.92。首先,從Prosper的數(shù)據(jù)庫的借款記錄中抽取了描述貸款的8個基本loan特征,這些特征是可以量化的結(jié)構(gòu)化特征,比如貸款收入比、網(wǎng)站評級、借款數(shù)目等。由于loan本身的特征都是由數(shù)值直接進行描述的,大多與借款人的還款能力、財富水平相關(guān),因此將這些特征作為實驗的控制變量,描述了還款的能力。這些特征分別如表5-1所示:表5-1財務(wù)貸款特征其次,在借款人申請時,有三種文本申請描述可以被使用。一個是借款人提交的描述自身情況和借款原因的listing表中的description項,它是借款人親自填寫的對于此次貸款的一個詳細描述。剩下兩個是在注冊用戶表Member中的description和endorsement,它們分別描述了借款人自身情況和關(guān)于借款人的推薦書。本實施例中使用listing表中的description文本,主要關(guān)注于借款人自身對于借款的描述,從而挖掘出借款人的信用狀況。從文本中根據(jù)上述的特征選擇和抽取方法,抽取了70個底層特征和組合形成了6個抽象文本特征,則最終輸入到模型的特征構(gòu)成一個特征網(wǎng)絡(luò),上層特征由底層特征表示,并代表著底層特征的抽象含義,逐步表達借款者的信用水平。5.2分類器下面介紹一下本發(fā)明實施例所涉及的機器學(xué)習(xí)分類器。1)決策樹分類器,采用信息增益比的度量方式,每次選擇信息增益比最高的特征進行劃分數(shù)據(jù),置信因數(shù)設(shè)置為0.005對決策樹進行裁剪;2)邏輯回歸分類器,使用Sigmoid函數(shù),并且使用隨機梯度上升法來確定最佳回歸系數(shù);3)神經(jīng)網(wǎng)絡(luò)分類器,實驗采用反向傳播神經(jīng)網(wǎng)絡(luò),激活函數(shù)為sigmoid函數(shù);4)隨機森林分類器,選擇100棵樹作為分類器構(gòu)成;5)樸素貝葉斯分類器。5.3、實驗1文本特征對信用評估分類效果的影響為了研究文本特征對信用評估分類效果的影響,本實施例中使用財務(wù)特征數(shù)據(jù)、文本特征數(shù)據(jù)以及財務(wù)和文本特征結(jié)合的數(shù)據(jù)分別作為輸入數(shù)據(jù)訓(xùn)練模 型并測試,以財務(wù)特征數(shù)據(jù)作為控制變量進行對照。采用了上述提到的五種分類器,計算分類器模型對信用風(fēng)險評估的準確率。由于增加特征會帶來噪聲問題,因此考慮到特征數(shù)量過多會引起特征過載,從而導(dǎo)致分類效果降低的問題,在進行模型訓(xùn)練之前對特征數(shù)據(jù)進行了特征選擇。再與loan特征分類的結(jié)果進行對比。三種特征數(shù)據(jù)在五種分類器模型上的最終預(yù)測結(jié)果表5-2所示。首先,將單獨使用文本特征進行預(yù)測的分類結(jié)果與單獨使用財務(wù)特征預(yù)測的分類結(jié)果進行比較,從數(shù)據(jù)中可以發(fā)現(xiàn),對于大多數(shù)的分類器模型而言,使用文本特征預(yù)測的正確率雖然比使用財務(wù)特征預(yù)測的正確率有所降低,但是數(shù)值比較接近,相差不大。特別地,經(jīng)過特征選擇后使用隨機森林預(yù)測的正確率為67.42%,比財務(wù)特征的預(yù)測正確率還要高0.1%左右;使用神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果為67.83%,與財務(wù)特征預(yù)測的結(jié)果68.37%的差值相差在0.5%以內(nèi)。另一方面,財務(wù)和文本特征的預(yù)測結(jié)果均比單獨使用財務(wù)特征的預(yù)測結(jié)果有了不同程度的提升。表5-2使用單分類器在不同特征數(shù)據(jù)上的結(jié)果BayesLogistic決策樹神經(jīng)網(wǎng)絡(luò)隨機森林財務(wù)特征69.26%70.19%69.85%68.37%67.3%文本特征67.3%67.60%68.7%67.83%67.42%財務(wù)+文本69.69%70.6%70.54%69.2%70.22%5.4、實驗2在本實驗中,評估通過結(jié)合多個分類器的性能,在每個分類器只考慮一個方面的知識。除了基于基本貸款功能的分類器,有六種文本分類器,使用的文本特性來描述借款人的不同方面,包括文本的可讀性、欺騙性、主體性、情緒、個性特點和思維方式。圖5-2為本發(fā)明實施例中結(jié)合不同數(shù)量的分類器的性能對比圖,如圖5-2所示,將六種單獨使用文本特征的分類器和使用財務(wù)特征的分類器分別使用邏輯回歸、隨機森林和神經(jīng)網(wǎng)絡(luò)三種分類器對數(shù)據(jù)獨立進行訓(xùn)練得到分類結(jié)果, 選擇每種分類器的某一個分類結(jié)果當作第二層分類器的輸入,最終通過上層分類器的訓(xùn)練得到最終分類效果。最終得到當上層分類器使用決策樹,并且七個分類器底層分別采用相應(yīng)分類器(欺騙性:邏輯回歸;文本的可讀性:隨機森林;情感:隨機森林;思維方式:神經(jīng)網(wǎng)絡(luò);主觀性:邏輯回歸;個性特點:邏輯回歸;財務(wù)分析:隨機森林)時,分類效果,正確率為71.35%,相比于財務(wù)分析最高的正確率70.19提升了高于1%,相比于單分類器最高正確率70.6%提升了0.75%。同時還可以看到,隨著加入文本分類器數(shù)目的增多,正確率也在上升,并且都比財務(wù)分析和單分類器在listing上的效果好。通過以上對每種多分類器集成方法效果的具體分析得出:經(jīng)過多分類器集成后預(yù)測效果相比于單個分類器的預(yù)測效果能夠有一定的提升。最后,選擇每個多分類器集成算法中可以得到的最高的準確率作為算法的結(jié)果,與原始的財務(wù)特征數(shù)據(jù)的效果進行對比,可以得到不同多分類器集成算法的對比結(jié)果數(shù)據(jù)。在上述的多分類器集成算法中,可以看到,使用不同的多分類器集成算法會帶來不同幅度的分類正確率的提升。Boosting和bagging是基于相同分類器的決策融合,它們的分類效果比使用不同分類器的決策融合效果稍微差一些,但是從方差可以看出來,分類效果更加穩(wěn)定。使用不同的分類器作為基分類器,也就是決策融合的決策提供者各不相同,可以使最終的結(jié)果考慮到不同的方面,在不同的情形下都適用,得到的最終結(jié)果也越正確。也即正確的結(jié)果可以經(jīng)過不同算法的檢驗,使用的算法類型越多,錯誤的結(jié)果被識別出得幾率越大。數(shù)據(jù)顯示,基于加權(quán)和簡單投票的多分類器集成算法的分類準確率相比于其他幾種決策融合的提升是比較高的。這種使用不同基分類器的并行集成算法考慮到不同基分類器的分類能力,賦予它們不同的權(quán)重,從而得到更加準確的預(yù)測的結(jié)果?;旌戏诸惼鲝牟煌鉀Q問題的角度出發(fā),經(jīng)過最后決策融合后多樣性的體現(xiàn)更加明顯,效果也是在本實施例中實現(xiàn)的多分類器集成方法中最好。綜合以上所有實驗結(jié)果可以分析得到,使用財務(wù)+文本特征單個分類器能達到的最高準確率為使用邏輯回歸預(yù)測,為70.6%,使用財務(wù)特征單獨預(yù)測能達 到的最高正確率為使用神經(jīng)網(wǎng)絡(luò)分類器,預(yù)測結(jié)果為70.19%。而經(jīng)過多分類器集成后,不管采用哪一種算法,相比較使用財務(wù)特征的預(yù)測效果都有顯著提升,混合分類器的提升幅度超過1個百分點,相比較于單分類器使用文本+財務(wù)特征的預(yù)測效果也有一定的提升,并且由于多分類器集成是綜合了多個分類器的結(jié)果而做出的決策融合,因此多分類器集成的結(jié)果也具有更高的可靠性和穩(wěn)定性。因此,多分類器集成方法在信用評估的信用分類中,有著重要的作用。5.5、討論實驗1的結(jié)果表明,不同分類器在文本特性的性能接近傳統(tǒng)貸款特征,傳統(tǒng)貸款特征包括FICO分數(shù)和DTI(債務(wù)收入比率)。收集和驗證成本FICO分數(shù)和DTI是相對高。此外,包括在線P2P貸款的一個目標是提供服務(wù)的人沒有商業(yè)信用記錄,即沒有FICO分數(shù)。在這些情況下,它是一個很好的選擇使用文本分析來評估信用風(fēng)險。實驗1和實驗2的結(jié)果表明,添加文本特性可以提高整個信用風(fēng)險評估系統(tǒng)的性能。直接基于隨機森林的文本特性添加到現(xiàn)有的系統(tǒng)可能會增加其精度,從67%至70%。通過結(jié)合多個文本分類器和基本貸款分類器可以進一步提高精度為71%。所有這些表明,文本信息是對傳統(tǒng)財務(wù)信息來源一個很好的互補信息來源。金融特征如DTI關(guān)注評估借款人的還款能力,文本特征關(guān)注評估借款人的還款意愿。5.6、結(jié)論在本實施例中采用文本分析和整體學(xué)習(xí)評估網(wǎng)絡(luò)P2P貸款的信用風(fēng)險。首先,設(shè)計一個包括六個抽象文本特性的概念模型,其中六個抽象文本特性用于從不同方面的探索借款人的思想。然后,設(shè)計一個基于七個分類器的整體信用風(fēng)險評價體系,這七個分類器中包括對應(yīng)于6個抽象文本功能的6個文本分析的分類器和一個傳統(tǒng)的信用分析的分類器。實驗結(jié)果表明,不同分類器的表現(xiàn)在文本功能接近那些傳統(tǒng)的金融特征包括FICO分數(shù)和DTI。因此,當傳統(tǒng)的金融信息在逐漸消失的時候文本信息是一個很好的選擇。 此外,添加文本特性可以提高整個信用風(fēng)險評估系統(tǒng)的性能,這意味著文本信息是對傳統(tǒng)財務(wù)信息來源的一個很好的互補信息來源,當文本信息與傳統(tǒng)信息相結(jié)合時,能夠提升信用風(fēng)險評估的性能。實施例六基于前述的實施例,本發(fā)明實施例再提供一種基于文本分析的信用風(fēng)險評估裝置,該裝置包括的第一獲取單元、分析單元、處理單元、輸出單元和建立單元,以及各單元所包括的各模塊,都可以通過計算設(shè)備中的處理器來實現(xiàn);當然也可通過具體的邏輯電路實現(xiàn);在具體實施例的過程中,處理器可以為中央處理器(CPU)、微處理器(MPU)、數(shù)字信號處理器(DSP)或現(xiàn)場可編程門陣列(FPGA)等。圖6為本發(fā)明實施例六基于文本分析的信用風(fēng)險評估裝置的組成結(jié)構(gòu)示意圖,如圖6所示,該裝置600包括第一獲取單元601、分析單元602、處理單元603和輸出單元604,其中:所述第一獲取單元601,用于獲取借款人的文本;所述分析單元602,用于對所述文本進行分析,得到基本語言特征,所述基本語言特征用于預(yù)測借款人是否違約;所述處理單元603,用于將所述基本語言特征輸入到預(yù)設(shè)的信用風(fēng)險評估模型,得到從所述信用風(fēng)險評估模型輸出的所述借款人的信用風(fēng)險值;所述輸出單元604,用于輸出所述借款人的信用風(fēng)險值。本發(fā)明實施例中,所述裝置還包括:建立單元,用于建立所述信用風(fēng)險評估模型,所述建立單元進一步包括獲取模塊、分析模塊、建立模塊和融合模塊,其中:所述獲取模塊,用于獲取訓(xùn)練數(shù)據(jù);所述分析模塊,用于對所述訓(xùn)練數(shù)據(jù)進行分析,得到所述訓(xùn)練數(shù)據(jù)的基本語言特征;所述第一建立模塊,用于將所述基本語言特征作為參數(shù),采用機器學(xué)習(xí)方 法建立不同的抽象文本特征對應(yīng)的分類器;所述融合模塊,用于將所述分類器作為基礎(chǔ)分類器,使用決策樹算法進行決策融合形成信用風(fēng)險評估模型。本發(fā)明實施例中,所述建立模塊中的將所述基本語言特征作為參數(shù),包括:根據(jù)所述基本語言特征與所述抽象文本特征之間的關(guān)系,將所述基本語言特征輸入到每一所述抽象文本特征對應(yīng)的分類器。本發(fā)明實施例中,所述建立單元,還包括分割模塊和統(tǒng)計模塊,其中所述分割模塊,用于根據(jù)斷句的標點符號對所述訓(xùn)練數(shù)據(jù)進行分割,所述統(tǒng)計模塊,用于對分割后的訓(xùn)練數(shù)據(jù)進行統(tǒng)計得到統(tǒng)計特征。本發(fā)明實施例中,所述建立單元,還包括第二建立模塊和確定模塊,其中:所述第二建立模塊,用于采用不同的機器學(xué)習(xí)方法建立同一所述抽象文本特征對應(yīng)的分類器;所述確定模塊,用于將準確率最高的分類器確定為所述抽象文本特征所對應(yīng)的分類器。這里需要指出的是:以上裝置實施例的描述,與上述方法實施例的描述是類似的,具有同方法實施例相似的有益效果,因此不做贅述。對于本發(fā)明裝置實施例中未披露的技術(shù)細節(jié),請參照本發(fā)明方法實施例的描述而理解,為節(jié)約篇幅,因此不再贅述。應(yīng)理解,說明書通篇中提到的“一個實施例”或“一實施例”意味著與實施例有關(guān)的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,在整個說明書各處出現(xiàn)的“在一個實施例中”或“在一實施例中”未必一定指相同的實施例。此外,這些特定的特征、結(jié)構(gòu)或特性可以任意適合的方式結(jié)合在一個或多個實施例中。應(yīng)理解,在本發(fā)明的各種實施例中,上述各過程的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本發(fā)明實施例的實施過程構(gòu)成任何限定。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。需要說明的是,在本實施例中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設(shè)備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,如:多個單元或組件可以結(jié)合,或可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設(shè)備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元;既可以位于一個地方,也可以分布到多個網(wǎng)絡(luò)單元上;可以根據(jù)實際的需要選擇其中的部分或全部單元來實現(xiàn)本實施例方案的目的。另外,在本發(fā)明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:移動存儲設(shè)備、只讀存儲器(ReadOnlyMemory,ROM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。或者,本發(fā)明上述集成的單元如果以軟件功能模塊的形式實現(xiàn)并作為獨立 的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明實施例的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分。而前述的存儲介質(zhì)包括:移動存儲設(shè)備、ROM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。當前第1頁1 2 3