一種基于語義情感分析的貸后風險預(yù)警系統(tǒng)的制作方法
【專利摘要】一種基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于,包括:網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊,用于從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息,所述相關(guān)信息包括以下的一種或者幾種:與客戶企業(yè)相關(guān)的新聞、評論、微博、舉報、投訴;語義情感分析模塊,用于接收所述相關(guān)信息并進行情感成分分析,生成情感極性K和情感強度M;分析總模塊,用于獲取所述情感極性K和所述情感強度M,并且根據(jù)所述相關(guān)信息的來源生成情感極性K值和情感強度M值,之后根據(jù)預(yù)定公式依次計算得出可靠系數(shù)P和總體可靠系數(shù)W;用戶交互模塊,用于在所述總體可靠系數(shù)W低于警戒值時發(fā)出警告。本發(fā)明能夠及時的對客戶企業(yè)的重大變動做出預(yù)警,幫助銀行更好的管理客戶企業(yè),有效的降低貸后風險。
【專利說明】一種基于語義情感分析的貸后風險預(yù)警系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于語義情感分析的貸后風險預(yù)警系統(tǒng),屬于計算機領(lǐng)域。
【背景技術(shù)】
[0002]隨著社會經(jīng)濟的高速發(fā)展,企業(yè)和個人都有可能向銀行或金融機構(gòu)申請貸款。例如,企業(yè)為了擴大生產(chǎn)經(jīng)營規(guī)模,需要引進先進技術(shù)及設(shè)備,然而這些技術(shù)及設(shè)備通常需要花費大量款項,動輒數(shù)百萬、上千萬元。個人用戶為了創(chuàng)辦公司或購買住房,也需要花費幾十萬甚至上百萬。對于這些企業(yè)及個人,一次性支付如此巨大的款項是非常困難的,解決的辦法就包括向銀行貸款。企業(yè)或個人用戶通過向銀行申請貸款,在銀行對企業(yè)或個人的身份進行驗證后,簽訂貸款合同,然后發(fā)放貸款。
[0003]然而,現(xiàn)有技術(shù)中,用戶在獲得貸款后的使用期間,銀行僅能依靠其工作人員人工的去收集跟用戶相關(guān)的各種各樣的信息,然后對信息進行處理分析,最后根據(jù)分析結(jié)果評判用戶的還款能力,以確保發(fā)放的貸款和利息能夠及時有效的收回。但是,長期實踐中發(fā)現(xiàn),在龐大的信息源中完全依靠人工去收集、處理分析跟用戶相關(guān)的信息會存在:工作量巨大、信息處理效率較低的缺陷與問題;以至于無法及時通知相關(guān)人員和機構(gòu)觸發(fā)風險處理流程,導(dǎo)致銀行不能及時作出判斷并規(guī)避風險。
【發(fā)明內(nèi)容】
[0004]本發(fā)明就是鑒于上述問題而提出,其目的在于,提供一種基于語義情感分析的貸后風險預(yù)警系統(tǒng),以解決工作量巨大、信息處理效率較低、而無法及時觸發(fā)風險處理流程的問題。
[0005]本發(fā)明提供一種基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于,該系統(tǒng)包括:
網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊,用于從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息,所述相關(guān)信息包括以下的一種或者幾種:與客戶企業(yè)相關(guān)的新聞、評論、微博、舉報、投訴;
語義情感分析模塊,用于接收所述相關(guān)信息并進行情感成分分析,生成情感極性K和情感強度M ;
分析總模塊,用于獲取所述情感極性K和所述情感強度M,并且根據(jù)所述相關(guān)信息的來源生成情感極性K值和情感強度M值,之后根據(jù)預(yù)定公式依次計算得出可靠系數(shù)P和總體可靠系數(shù)W ;
用戶交互模塊,用于在所述總體可靠系數(shù)W低于警戒值時發(fā)出警告。
[0006]計算所述可靠系數(shù)P的預(yù)定公式為:P=K*M。
[0007]計算所述總體可靠系數(shù)W的預(yù)定公式為:W=P1+ P2+ P3+ P4+ P5+。。。。。。+ Pn,其中PpP2、P3、P4> P5、。。。。。。Pn分別對應(yīng)不同所述相關(guān)信息的可靠系數(shù)。
[0008]所述網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊采用網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息。
[0009]所述網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊采用聚焦爬蟲從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息。[0010]所述語義情感分析模塊采用句級情感分析對所述相關(guān)信息進行情感成分分析。
[0011]所述用戶交互模塊包括:管理單元,用于客戶企業(yè)信息錄入、信息搜集范圍設(shè)置、預(yù)警范圍設(shè)置和查看客戶企業(yè)狀態(tài)。
[0012]所述管理單元為B/S架構(gòu)的管理系統(tǒng)。
[0013]所述用戶交互模塊包括:預(yù)警單元,用于在所述總體可靠系數(shù)W低于警戒值時發(fā)
出警告。
[0014]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:由于本發(fā)明的基于語義情感分析的貸后風險預(yù)警系統(tǒng),能夠自動的依次通過網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊、語義情感分析模塊、分析總模塊完成客戶企業(yè)相關(guān)信息的搜集、情感分析、并得出客戶企業(yè)的總體可靠系數(shù),并在總體可靠系數(shù)低于警戒值時由用戶交互模塊自動的發(fā)出警告,因此減少人工操作成本,提高工作效率,所以能夠及時的對客戶企業(yè)的重大變動做出預(yù)警,幫助銀行更好的管理客戶企業(yè),有效的降低貸后風險。
【專利附圖】
【附圖說明】
[0015]圖1為本發(fā)明的基于語義情感分析的貸后風險預(yù)警系統(tǒng)的結(jié)構(gòu)框圖。
[0016]圖2為圖1所示語義情感分析模塊情感分析的的流程圖。
[0017]圖3為圖1所示語義情感分析模塊句級情感分析的流程圖。
[0018]圖4為圖1所示總分析模塊工作的流程圖。
【具體實施方式】
[0019]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合實施方式和附圖,對本發(fā)明做進一步詳細說明。在此,本發(fā)明的示意性實施方式及說明用于解釋本發(fā)明,但并不作為對本發(fā)明的限定。
[0020]圖1所示是本發(fā)明的基于語義情感分析的貸后風險預(yù)警系統(tǒng)的結(jié)構(gòu)框圖,如圖1所示,本發(fā)明的基于語義情感分析的貸后風險預(yù)警系統(tǒng)包括:網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101、語義情感分析模塊102、分析總模塊103和用戶交互模塊104。網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101和語義情感分析模塊102之間相互連接;語義情感分析模塊102和分析總模塊103之間相互連接;分析總模塊103和用戶交互模塊104之間相互連接。
[0021]其中:
網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101,該網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101與互聯(lián)網(wǎng)相連接,用于從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息,該相關(guān)信息包括以下的一種或者幾種:與客戶企業(yè)相關(guān)的新聞、評論、微博、舉報、投訴;
在搜集客戶企業(yè)的相關(guān)信息時網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101主要依靠現(xiàn)有的網(wǎng)絡(luò)爬蟲程序搜集網(wǎng)絡(luò)上能夠查到的所有與客戶企業(yè)相關(guān)的新聞、評論、微博、舉報、投訴等相關(guān)信息,然后將上述相關(guān)信息整理后發(fā)送給語義情感分析模塊102 ;
網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101所使用的網(wǎng)絡(luò)爬蟲又被成為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人或網(wǎng)頁追逐,是一種能夠按照設(shè)定規(guī)則自動抓取網(wǎng)絡(luò)信息或者程序腳本的計算機程序,另外,根據(jù)使用的搜索策略和網(wǎng)頁分析算法的不同,網(wǎng)絡(luò)爬蟲可分為通用網(wǎng)絡(luò)爬蟲、聚焦爬蟲等多種不同的類型,實際應(yīng)用中,由于本發(fā)明的基于語義情感分析的貸后風險預(yù)警系統(tǒng)需要的數(shù)據(jù)只是和客戶企業(yè)相關(guān)的文本信息,所以數(shù)據(jù)挖掘的范圍可以進行大幅度的縮小以提高搜索的效率和信息實時性。一般來說,新聞,評論等通常都出現(xiàn)在主流的門戶網(wǎng)站、行業(yè)論壇等網(wǎng)站,舉報、投訴信息可以通過政府部門的網(wǎng)站簡單高效的獲取,新浪微博、人人、騰訊等主流的社交網(wǎng)站也有極高的可能出現(xiàn)與客戶企業(yè)相關(guān)的信息,如果客戶在淘寶等電子商務(wù)網(wǎng)站上有交易,那么電子商務(wù)網(wǎng)站也是關(guān)注的焦點。所以,網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101的搜索范圍有著很強的針對性,所以聚焦爬蟲是本發(fā)明首選的爬蟲程序。
[0022]語義情感分析模塊102,用于接收網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101搜集的相關(guān)信息并進行情感成分分析,生成情感極性K和情感強度M ;
語義情感分析是新興的計算機語言學(computational linguistics)分支,不管在科學研究還是在商業(yè)應(yīng)用都具有重要價值,其涉及計算語言學、數(shù)據(jù)挖掘以及機器學習等方面的基礎(chǔ)研究,并處在不同學科的交叉點,因而情感分析可以促進不同學科的發(fā)展,具有重要的價值,其主要用于自然語言中情感成分的分析,也就是情感分析指判定文本所持有情感、觀點、態(tài)度的極性和強度。通常根據(jù)文本粒度的不同,情感性分析主要分為三個方面的內(nèi)容:詞級情感分析(Word-level Sentiment Analysis, WSA)、句級情感分析(Sentence-level Sentiment Analysis, SSA)和篇章級情感分析(Document-levelSentiment Analysis, DSA)。
[0023]情感分析涉及兩個重要元素:情感極性和情感強度。情感極性是指文本對應(yīng)的情感類別,情感極性通常劃分為褒義、貶義和客觀;而情感強度是對文本表達情感強弱的定量描述。在對某一相關(guān)信息進行情感分析后我們會得到一個情感極性和一個情感強度的值,例如,參見圖2所示,語義情感分析模塊102在接收到待分析文本后開始對待分析文本進行性感的分析,并得出褒義、貶義或客觀的情感極性,之后再得出褒義級別或者貶義級別;
由于網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊101從網(wǎng)絡(luò)上搜集的客戶企業(yè)相關(guān)信息大部分都是幾句片段或者簡單的句子。所以本發(fā)明的基于語義情感分析的貸后風險預(yù)警系統(tǒng)主要采用句級情感分析對信息的情感要素進行分析和分級。參見圖3所示,使用句級的情感分析首先需要構(gòu)建情感句分類器,對訓練語料進行預(yù)處理(分詞、詞性標注、命名體識別以及分句等),進而提取情感特征,訓練情感分類器,然后預(yù)測句子情感極性。
[0024]分析總模塊103,用于獲取情感極性K和情感強度M,并且根據(jù)相關(guān)信息的來源生成情感極性K值和情感強度M值,之后根據(jù)預(yù)定公式依次計算得出可靠系數(shù)P和總體可靠系數(shù)W ;參見圖4所示,具體的在分析總模塊103中使用者可以預(yù)先定義當情感極性為貶義時K為負值,褒義時K為正值。當K為負值時,K的具體值由相關(guān)信息的來源確定,例如:當相關(guān)信息源于政府部門等比較權(quán)威網(wǎng)站上時k的值為-3;當相關(guān)信息源于電子商務(wù)網(wǎng)站時k的值為-2 ;當相關(guān)信息源于社交平臺時k為-1。當K為正值時,K的具體值由客戶企業(yè)的廣告投放情況以及客戶企業(yè)的性質(zhì)來決定,例如:當客戶企業(yè)為電商網(wǎng)站,互聯(lián)網(wǎng)服務(wù)等類型的企業(yè)時,K的取值為0.5 ;當客戶企業(yè)為餐飲,零售等會進行一定程度的互聯(lián)網(wǎng)宣傳的傳統(tǒng)行業(yè)時K的取值為I ;當客戶企業(yè)為傳統(tǒng)制造業(yè)等與互聯(lián)網(wǎng)關(guān)聯(lián)不大的傳統(tǒng)產(chǎn)業(yè)時K的取值為2。其中,情感強度M由語義情感分析模塊102通過分析詞語的情感強度級別、語句的綜合情感強度來獲得,即不同的情感強度級別、語句的綜合情感強度對應(yīng)一個數(shù)字值,這個數(shù)字值可以事先進行定義,這樣當數(shù)據(jù)進入分析總模塊103時情感強度M已經(jīng)被確定了。[0025]通過上述方式確定情感極性K值和情感強度M值后就可以根據(jù)預(yù)定公式計算可靠系數(shù)P,預(yù)定公式可以是:P=K*M,使用者也可以根據(jù)實際情況設(shè)定其它公式,通過可靠系數(shù)P就可以定量的衡量當前的相關(guān)信息所體現(xiàn)的客戶企業(yè)的可靠性。之后對所有相關(guān)信息計算得出的可靠系數(shù)P進行累加,就得到了客戶企業(yè)的總體可靠系數(shù)W,即W=P1+ P2+ P3+ P4+P5+……+ Pn,這里的P1' P2 > p3、……Pn分別是不同相關(guān)信息對應(yīng)的可靠系數(shù),當客戶企業(yè)的總體可靠系數(shù)W低于警戒值時,用戶交互模塊104便會發(fā)出警告、并重點監(jiān)控總體可靠系數(shù)w低于警戒值的客戶企業(yè),并把企業(yè)信息、搜集到的負面信息等信息一并發(fā)給相關(guān)人員或機構(gòu)。
[0026]用戶交互模塊104,用于在總體可靠系數(shù)W低于警戒值時發(fā)出警告,其內(nèi)包含一個B/S架構(gòu)的管理模塊和一個預(yù)警模塊。管理模塊主要用于客戶企業(yè)信息錄入、信息搜集范圍設(shè)置、預(yù)警范圍設(shè)置、查看客戶企業(yè)狀態(tài)等工作。預(yù)警模塊可以安裝在銀行工作人員的電腦中作為一個后臺服務(wù),當有客戶企業(yè)存在異常時,預(yù)警模塊會發(fā)出警告,并提供與該客戶企業(yè)相關(guān)的一些信息供參考,警告在銀行工作人員對客戶單位做出調(diào)查并做出回應(yīng)之前不會消失,確保問題客戶企業(yè)得到有效的排查。
【權(quán)利要求】
1.一種基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于,該系統(tǒng)包括: 網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊,用于從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息,所述相關(guān)信息包括以下的一種或者幾種:與客戶企業(yè)相關(guān)的新聞、評論、微博、舉報、投訴; 語義情感分析模塊,用于接收所述相關(guān)信息并進行情感成分分析,生成情感極性K和情感強度M ; 分析總模塊,用于獲取所述情感極性K和所述情感強度M,并且根據(jù)所述相關(guān)信息的來源生成情感極性K值和情感強度M值,之后根據(jù)預(yù)定公式依次計算得出可靠系數(shù)P和總體可靠系數(shù)W ; 用戶交互模塊,用于在所述總體可靠系數(shù)W低于警戒值時發(fā)出警告。
2.根據(jù)權(quán)利要求1所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于,計算所述可靠系數(shù)P的預(yù)定公式為:P=K*M。
3.根據(jù)權(quán)利要求1或2所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于,計算所述總體可靠系數(shù)W的預(yù)定公式為:W-Pm P;:, P3.P, P5,...…,Pft,其中 P,、P2.P3, P4, P5,..Pr....分別對應(yīng)不同所述相關(guān)信息的可靠系數(shù)。
4.根據(jù)權(quán)利要求3所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于:所述網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊采用網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息。
5.根據(jù)權(quán)利要求3所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于:所述網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊采用聚焦爬蟲從網(wǎng)絡(luò)上搜集客戶企業(yè)的相關(guān)信息。
6.根據(jù)權(quán)利要求3所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于:所述語義情感分析模塊采用句級情感分析對所述相關(guān)信息進行情感成分分析。
7.根據(jù)權(quán)利要求3所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于:所述用戶交互模塊包括: 管理單元,用于客戶企業(yè)信息錄入、信息搜集范圍設(shè)置、預(yù)警范圍設(shè)置和查看客戶企業(yè)狀態(tài)。
8.根據(jù)權(quán)利要求7所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于:所述管理單元為B/S架構(gòu)的管理系統(tǒng)。
9.根據(jù)權(quán)利要求3所述的基于語義情感分析的貸后風險預(yù)警系統(tǒng),其特征在于:所述用戶交互模塊包括: 預(yù)警單元,用于在所述總體可靠系數(shù)W低于警戒值時發(fā)出警告。
【文檔編號】G06Q40/02GK103886501SQ201410138443
【公開日】2014年6月25日 申請日期:2014年4月8日 優(yōu)先權(quán)日:2014年4月8日
【發(fā)明者】嚴建峰, 劉志強, 李云飛, 楊璐 申請人:蘇州大學