本發(fā)明涉及一種數(shù)據(jù)挖掘系統(tǒng)和方法。
背景技術(shù):
當(dāng)今世界是一個信息化和數(shù)量化的時代,每天都有不計其數(shù)的數(shù)據(jù)在產(chǎn)生。目前,金融機(jī)構(gòu)為實現(xiàn)科學(xué)化管理決策,其許多業(yè)務(wù)活動(如客戶分析、投資決策、風(fēng)險管理、價格預(yù)測等)都越來越依賴于對大量歷史數(shù)據(jù)的分析。
數(shù)據(jù)挖掘則是一門能自動從大量數(shù)據(jù)中發(fā)現(xiàn)其隱藏的、有用的、令客戶感興趣的模式和規(guī)律并以簡潔、易于理解的形式為人們的決策提供信息的技術(shù)。其概念在1989國際人工智能聯(lián)合會議(IJCAI)上首次提出,立即引起國際上很多學(xué)者、機(jī)構(gòu)的重視。在90年代掀起了數(shù)據(jù)挖掘的研究熱潮,到目前,經(jīng)過十來年的努力,已取得很大進(jìn)展,并已成功應(yīng)用于許多行業(yè)。
金融風(fēng)險是金融活動的內(nèi)在屬性,其廣泛存在是現(xiàn)代金融市場的重要特征。20世紀(jì)70年代以來,由于放松管制與金融自由化、信息技術(shù)與金融創(chuàng)新活動等因素的影響,金融市場的波動性增強(qiáng),金融體系的穩(wěn)定性下降。這對風(fēng)險管理的技術(shù)、方法的創(chuàng)新提出了越來越緊迫的要求?,F(xiàn)代信息技術(shù)在風(fēng)險管理中扮演的角色越來越重要。國際上的大型金融機(jī)構(gòu)都非常重視采用最新的信息技術(shù),建立先進(jìn)的風(fēng)險管理系統(tǒng)和開發(fā)新的風(fēng)險管理方法。事實上,金融風(fēng)險的本質(zhì)在于金融活動中未來收益(損失)的不確定性,因而風(fēng)險管理的目的就是要如何度量,降低甚至消除各種不確定性。這又關(guān)鍵依賴于信息和知識的獲取。而從大量紛繁復(fù)雜的數(shù)據(jù)當(dāng)中獲取有意義的信息正是數(shù)據(jù)挖掘的本質(zhì)所在。
技術(shù)實現(xiàn)要素:
本發(fā)明目的是提供一種數(shù)據(jù)挖掘系統(tǒng)和方法,其能夠通過RFM模型和權(quán)重系數(shù)得到客戶價值得分和客戶響應(yīng)得分,從而從大量的數(shù)據(jù)中得到有用的信息。
本發(fā)明解決技術(shù)問題采用如下技術(shù)方案:一種數(shù)據(jù)挖掘系統(tǒng),其包括:
數(shù)據(jù)管理服務(wù)器,其采用網(wǎng)頁爬蟲采集客戶金融數(shù)據(jù),并存儲客戶金融數(shù)據(jù),以及對所述客戶金融數(shù)據(jù)進(jìn)行預(yù)處理;
數(shù)據(jù)采集終端,用于向客戶提供操作平臺,實現(xiàn)客戶金融數(shù)據(jù)管理;
挖掘處理服務(wù)器,與所述數(shù)據(jù)采集終端和數(shù)據(jù)管理服務(wù)器連接,用于接受管理控制器的挖掘任務(wù),調(diào)用挖掘工具,在指定的挖掘數(shù)據(jù)集上進(jìn)行挖掘并得到客戶價值得分和客戶響應(yīng)得分。
可選的,所述挖掘處理服務(wù)器包括:
RFM模型建立單元,用于建立金融領(lǐng)域適用的RFM模型;
權(quán)重系數(shù)確定單元,用于確定RFM模型中的各變量的權(quán)重系數(shù);
客戶價值評分計算單元,用于計算客戶價值評分,其中所述客戶價值評分包括客戶價值得分和客戶響應(yīng)得分;
顯示單元,用于顯示上述客戶價值評分。
可選的,所述權(quán)重系數(shù)確定單元包括:
判斷矩陣構(gòu)造模塊,用于構(gòu)造判斷矩陣P;
特征向量W計算模塊,用于計算特征向量W;
特征根計算單元,用于計算上述判斷矩陣的特征根;
以及一致性檢驗單元,用于檢驗特征根和向量是否具備一致性。
本發(fā)明解決技術(shù)問題還采用如下技術(shù)方案:一種數(shù)據(jù)挖掘方法,其包括:
S10、建立金融領(lǐng)域適用的RFM模型;
S20、確定RFM模型中的各變量的權(quán)重系數(shù);
S30、計算得到客戶價值評分,所述客戶價值評分包括客戶價值得分和客戶響應(yīng)得分。
可選的,步驟S10中,所述RFM模型中的變量包括:最近一次的投資時間,以R1表示;項目到期日期與當(dāng)前分析日期的時間間隔,以R2表示;累計得到的客戶最大可投資金額,以M1表示;客戶可追加投資額,以M2表示;頻次,以F表示。
可選的,所述步驟S20具體為:
S201、構(gòu)造判斷矩陣P;所述判斷矩陣P為3×3的矩陣,其元素aij表示第i行的變量相對于第j列的變量的重要程度,其中i為1,2,3;j為1,2,3;
S202、計算特征向量W;在上述判斷矩陣P的基礎(chǔ)上,計算每一行元素的乘積Mi;計算Mi的三次方根,得到Wi;對W1、W2和W3通過公式做歸一化處理,得到向量W=(W1',W2',W3');
S203、通過公式計算上述判斷矩陣P的特征根;式中,(PW)i表示PW的第i個元素,且u=3;
S204、一致性檢驗;計算當(dāng)CR值若小于0.1,則表明判斷矩陣P具有滿意的一致性,此時該特征向量W即是權(quán)重系數(shù)(a,b,c)。
可選的,客戶價值得分Sj=a×M1+b×R1+c×F1;客戶響應(yīng)得分Sx=a×M2+b×R2+c×F2。
本發(fā)明具有如下有益效果:本發(fā)明通過對客戶金融數(shù)據(jù)的采集和整理,然后對所述客戶金融數(shù)據(jù)進(jìn)行分析,通過RFM模型和權(quán)重系數(shù)得到客戶價值得分和客戶響應(yīng)得分,從而從大量的數(shù)據(jù)中得到有用的信息。
附圖說明
圖1為本發(fā)明的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本發(fā)明的數(shù)據(jù)挖掘方法的流程圖;
具體實施方式
下面結(jié)合實施例及附圖對本發(fā)明的技術(shù)方案作進(jìn)一步闡述。
實施例1
本實施例提供了一種數(shù)據(jù)挖掘系統(tǒng),基于計算機(jī)局域網(wǎng),采用分布式結(jié)構(gòu),并包括:
數(shù)據(jù)管理服務(wù)器,其采用網(wǎng)頁爬蟲采集客戶金融數(shù)據(jù),并存儲客戶金融數(shù)據(jù),以及對所述客戶金融數(shù)據(jù)進(jìn)行預(yù)處理;所述預(yù)處理包括:根據(jù)客戶金融數(shù)據(jù)計算每位客戶在生命周期內(nèi)累計的最大可投資金額(即下文M1,客戶最大可投資金額)、當(dāng)前在庫金額、最近一次項目到期日期(贖回日期)與當(dāng)前分析日期的時間間隔(即下文R2)以及填補(bǔ)最大可投資金額的缺失值(采用貝葉斯或線性回歸填補(bǔ)客戶累計最大投資額度)。其中,累計客戶最大可投資金額并非單純累加每次投資的金額,因為每次投資的金額中可能有上次到期的客戶投資回款。從而為整個系統(tǒng)提供挖掘基礎(chǔ)數(shù)據(jù)和應(yīng)用原始數(shù)據(jù),根據(jù)具體情況需要,它與Internet和其它業(yè)務(wù)數(shù)據(jù)庫服務(wù)器相連。
數(shù)據(jù)采集終端,用于向客戶提供操作平臺,實現(xiàn)客戶金融數(shù)據(jù)管理、規(guī)則知識維護(hù)、應(yīng)用模型建立和模型應(yīng)用的維護(hù)控制命令的發(fā)布。本實施例中,所述數(shù)據(jù)采集終端通過P2P或者類似的投資網(wǎng)站以及金融產(chǎn)品展示網(wǎng)站,客戶通過注冊賬號并向網(wǎng)站中的賬戶進(jìn)行充值從而進(jìn)行投資行為,即向客戶提供操作平臺,并能夠通過客戶的投資行為獲得客戶金融數(shù)據(jù);同時,所述數(shù)據(jù)采集終端也可以爬取其他相關(guān)網(wǎng)站數(shù)據(jù),從而獲得客戶金融數(shù)據(jù)并進(jìn)行管理。所述規(guī)則知識維護(hù)為通過點擊量PV、獨立訪客UV、訪問率、注冊率、初投率、復(fù)投率、平均單客投資額的指標(biāo)維護(hù)平臺運營情況;所述應(yīng)用模型建立為按以上維度建立平臺運營模型,如平臺投標(biāo)業(yè)績=PV×UV×(注冊人數(shù)/UV)×(投資人數(shù)/注冊人數(shù))×(投資總額/投資人數(shù));所述模型應(yīng)用的維護(hù)控制命令的發(fā)布為通過對不同指標(biāo)正常范圍的控制來監(jiān)督平臺的運營情況,如某一指標(biāo)值得范圍超過其年度平均值3倍標(biāo)準(zhǔn)差時,需要認(rèn)定此指標(biāo)有異常。
挖掘處理服務(wù)器,與所述數(shù)據(jù)采集終端和數(shù)據(jù)管理服務(wù)器連接,用于接受管理控制器的挖掘任務(wù),調(diào)用挖掘工具,在指定的挖掘數(shù)據(jù)集上進(jìn)行挖掘;并包括:
金融領(lǐng)域適用的RFM模型建立單元,用于建立金融領(lǐng)域適用的RFM模型;所述RFM模型中的變量包括:最近一次的投資時間,以R1表示;項目到期日期(贖回日期)與當(dāng)前分析日期的時間間隔,即按照業(yè)務(wù)數(shù)據(jù)庫信息,客戶投資響應(yīng)最強(qiáng)的時候是其已投資項目將要到期的時候,以R2表示;累計得到的客戶最大可投資金額,以M1表示;客戶可追加投資額,即客戶最大可投金額與當(dāng)前在庫金額的差,以M2表示;頻次,以F表示。
權(quán)重系數(shù)確定單元,用于確定RFM模型中的各變量的權(quán)重系數(shù),采用AHP原理計算得到各變量的權(quán)重系數(shù),例如a表示變量M1和M2的權(quán)重系數(shù);b表示變量R1和R2的權(quán)重系數(shù);c表示變量F的權(quán)重系數(shù),其中,a+b+c=1。
客戶價值評分計算單元,用于計算客戶價值評分,其中所述客戶價值評分包括客戶價值得分和客戶響應(yīng)得分,其中客戶價值得分Sj=a×M1+b×R1+c×F1;客戶響應(yīng)得分Sx=a×M2+b×R2+c×F2。
顯示單元,用于顯示上述客戶價值評分。
其中,所述權(quán)重系數(shù)確定單元包括:
判斷矩陣構(gòu)造模塊,用于構(gòu)造判斷矩陣P,其中所述判斷矩陣P為3×3的矩陣,其元素aij表示第i行的變量相對于第j列的變量的重要程度,其中i為1,2,3;j為1,2,3;例如所述判斷矩陣的第1行所表示的變量為R,其包括R1和R2;第2行所表示的變量為F;第3行所表示的變量為M,包括M1和M2;同時,第1列所表示的變量為R,包括R1和R2;第2列所表示的變量為F;第3列所表示的變量為M,包括M1和M2;當(dāng)i取1,j取2時,即a12其所表示的含義為變量R相對于變量F的重要程度;同樣地,a13表示變量R相對于變量M的重要程度;a23表示變量F相對于變量M的重要程度;a21為a12的倒數(shù),a31為a13的倒數(shù),a32為a23的倒數(shù);a11、a22和a33均為1。
特征向量W計算模塊,用于計算特征向量W。本實施例中,在上述判斷矩陣P的基礎(chǔ)上,計算每一行元素的乘積Mi,i為1,2,3。計算Mi的三次方根,得到Wi;對W1、W2和W3做歸一化處理,即得到向量W=(W1',W2',W3')。
特征根計算單元,用于計算上述判斷矩陣的特征根,本實施例中,所述特征根式中,(PW)i表示PW的第i個元素,且u=3,其中:
以及一致性檢驗單元,用于檢驗特征根和向量是否具備一致性。
實施例2
本實施例提供了一種數(shù)據(jù)挖掘方法,其可以使用實施例1所述的數(shù)據(jù)挖掘系統(tǒng),也就是說,利用網(wǎng)頁爬蟲采集客戶金融數(shù)據(jù),并利用金融領(lǐng)域適用的RFM模型對采集到的客戶數(shù)據(jù)字段進(jìn)行優(yōu)化,再對優(yōu)化后的數(shù)據(jù)字段進(jìn)行權(quán)重處理,并得到客戶價值得分和客戶響應(yīng)得分。具體而言,其包括以下步驟:
S10、建立金融領(lǐng)域適用的RFM模型。
本實施例中,為獲得客戶的金融數(shù)據(jù),可以采用網(wǎng)頁爬蟲采集客戶金融數(shù)據(jù),并將其存儲于數(shù)據(jù)管理服務(wù)器。本實施例中,所述數(shù)據(jù)管理服務(wù)器可以用于實現(xiàn)客戶金融數(shù)據(jù)的采集、存儲、預(yù)處理和檢索,為整個系統(tǒng)提供挖掘基礎(chǔ)數(shù)據(jù)和應(yīng)用原始數(shù)據(jù),根據(jù)具體情況需要,它與Internet和其它業(yè)務(wù)數(shù)據(jù)庫服務(wù)器相連。
有別于現(xiàn)有技術(shù),重新定義所述RFM模型中的各變量,例如,所述RFM模型中的變量包括:最近一次的投資時間,以R1表示;項目到期日期(贖回日期)與當(dāng)前分析日期的時間間隔,即按照業(yè)務(wù)數(shù)據(jù)庫信息,客戶投資響應(yīng)最強(qiáng)的時候是其已投資項目將要到期的時候,以R2表示;累計得到的客戶最大可投資金額,以M1表示;客戶可追加投資額,即客戶最大可投金額與當(dāng)前在庫金額的差,以M2表示;頻次,以F表示。
S20、確定RFM模型中的各變量的權(quán)重系數(shù)。
本實施例中,可以采用AHP原理計算得到各變量的權(quán)重系數(shù),例如a表示變量M1和M2的權(quán)重系數(shù);b表示變量R1和R2的權(quán)重系數(shù);c表示變量F的權(quán)重系數(shù),其中,a+b+c=1。
S30、計算得到客戶價值評分。
所述客戶價值評分包括客戶價值得分和客戶響應(yīng)得分,其中客戶價值得分Sj=a×M1+b×R1+c×F1;客戶響應(yīng)得分Sx=a×M2+b×R2+c×F2。
S40、將上述客戶價值評分在顯示單元上顯示。
通過將上述客戶價值評分顯示在顯示單元上,能使得操作者對客戶進(jìn)行直觀的了解,從而可以針對不同的客戶指定不同的銷售策略,例如:同一客戶的客戶價值得分為77.5,但投資響應(yīng)得分很高,說明這個客戶雖然客戶價值不太高但是投資意向比較強(qiáng)烈,需要針對這種類型客戶有策略營銷。
在上述步驟中,所述步驟S20具體可以為:
S201、構(gòu)造判斷矩陣P;
本實施例中,所述判斷矩陣P為3×3的矩陣,其元素aij表示第i行的變量相對于第j列的變量的重要程度,其中i為1,2,3;j為1,2,3;例如所述判斷矩陣的第1行所表示的變量為R,其包括R1和R2;第2行所表示的變量為F;第3行所表示的變量為M,包括M1和M2;同時,第1列所表示的變量為R,包括R1和R2;第2列所表示的變量為F;第3列所表示的變量為M,包括M1和M2;當(dāng)i取1,j取2時,即a12其所表示的含義為變量R相對于變量F的重要程度;同樣地,a13表示變量R相對于變量M的重要程度;a23表示變量F相對于變量M的重要程度;a21為a12的倒數(shù),a31為a13的倒數(shù),a32為a23的倒數(shù);a11、a22和a33均為1。所構(gòu)造的判斷矩陣P如表一所示:
表一:判斷矩陣P
S202、計算特征向量W。
在上述判斷矩陣P的基礎(chǔ)上,計算每一行元素的乘積Mi,i為1,2,3。
計算Mi的三次方根,得到Wi;
對W1、W2和W3做歸一化處理,即得到向量W=(W1',W2',W3')。
S203、計算上述判斷矩陣的特征根;
所述特征根式中,(PW)i表示PW的第i個元素,且u=3,其中:
S204、一致性檢驗。
因為在專家打分的時候,尤其是因子比較多時,容易思維邏輯上發(fā)生錯誤,會將重要性等級弄混。為了防止這種情況發(fā)生,用因子兩兩相比的方法進(jìn)行評分,然后再對這種評分進(jìn)行等級一致性檢驗,以保證邏輯上的正確性。也就是是說為判斷專家打分是否有邏輯性錯誤,需要對上述特征根和向量進(jìn)行一致性檢驗,本實施例中,所述一致性檢驗的具體步驟為:
計算其中R.I.為平均隨機(jī)一致性指標(biāo),通過矩陣階數(shù)對照表查值得到,對照表如下:
當(dāng)CR值若小于0.1,則表明判斷矩陣P具有滿意的一致性,此時該特征向量W即是權(quán)重系數(shù)(a,b,c)。
本實施例中,構(gòu)建判斷矩陣P中的參數(shù)時,兩個變量相比之間的重要程度可以被定義為:當(dāng)兩個變量同樣重要時,取值為1;當(dāng)前者比后者稍重要時,取值為3;當(dāng)前者比后者明顯重要時,取值為5;當(dāng)前者比后者極其重要時,取值為7;當(dāng)前者比后者強(qiáng)烈重要時,取值為9;其中在上述各取值之間可以設(shè)置2/4/6/8表示相鄰判斷的中間值。
以上實施例的先后順序僅為便于描述,不代表實施例的優(yōu)劣。
最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。