本申請(qǐng)涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)挖掘方法及裝置。
背景技術(shù):
隨著科學(xué)技術(shù)的發(fā)展,商業(yè)智能的快速發(fā)展以及大數(shù)據(jù)技術(shù)日新月異,大數(shù)據(jù)的價(jià)值越來(lái)越受到重視,特別是銀行系統(tǒng)在其日常業(yè)務(wù)辦理過(guò)程中能夠積累海量的業(yè)務(wù)數(shù)據(jù),利用這些大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,能夠?qū)⑼诰蚪Y(jié)果廣泛的應(yīng)用在客戶營(yíng)銷(xiāo)、產(chǎn)品優(yōu)化、風(fēng)險(xiǎn)管控等諸多領(lǐng)域,對(duì)于提升核心競(jìng)爭(zhēng)力具有重要的意義。
由此,亟需一種能夠?qū)崟r(shí)有效的對(duì)數(shù)據(jù)進(jìn)行挖掘的實(shí)現(xiàn)方案。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請(qǐng)的目的是提供一種數(shù)據(jù)挖掘方法及裝置,用以解決現(xiàn)有技術(shù)中無(wú)法實(shí)時(shí)有效的對(duì)數(shù)據(jù)進(jìn)行挖掘的技術(shù)問(wèn)題。
本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)挖掘方法,適用于數(shù)據(jù)挖掘系統(tǒng),所述數(shù)據(jù)挖掘系統(tǒng)包括第一集群及第二集群,所述第一集群中包括多個(gè)第一服務(wù)器,所述第二集群中包括多個(gè)第二服務(wù)器,所述第一服務(wù)器基于ILog規(guī)則引擎配置有第一挖掘模型,所述第二服務(wù)器基于SAS配置有第二挖掘模型,所述方法包括:
接收至少一個(gè)數(shù)據(jù)挖掘請(qǐng)求,所述數(shù)據(jù)挖掘請(qǐng)求中至少包括請(qǐng)求類(lèi)型;
對(duì)所述數(shù)據(jù)挖掘請(qǐng)求基于其請(qǐng)求類(lèi)型進(jìn)行分類(lèi);
將請(qǐng)求類(lèi)型為快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給所述第一集群,由所述第一集群中的第一服務(wù)器基于所述數(shù)據(jù)挖掘請(qǐng)求利用所述第一挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,得到第一挖掘結(jié)果;
將數(shù)據(jù)類(lèi)型不是快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給所述第二集群,由所述第二集群中的第二服務(wù)器基于所述數(shù)據(jù)挖掘請(qǐng)求利用所述第二挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,得到第二挖掘結(jié)果。
上述方法,優(yōu)選的,在得到所述第一挖掘結(jié)果和所述第二挖掘結(jié)果之后,所述方法還包括:
將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行返回。
上述方法,優(yōu)選的,在得到所述第一挖掘結(jié)果和所述第二挖掘結(jié)果之后,所述方法還包括:
將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行存儲(chǔ)。
上述方法,優(yōu)選的,在得到所述第一挖掘結(jié)果和所述第二挖掘結(jié)果之后,所述方法還包括:
將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果傳輸給所述第二集群,由所述第二集群中的第二服務(wù)器利用所述第二挖掘模型對(duì)所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行交叉驗(yàn)證。
上述方法,優(yōu)選的,還包括:
將所述第一挖掘模型傳輸?shù)剿龅诙海伤龅诙褐械牡诙?wù)器利用所述第二挖掘模型進(jìn)行模型訓(xùn)練和驗(yàn)證。
本申請(qǐng)還提供了一種數(shù)據(jù)挖掘裝置,與數(shù)據(jù)挖掘系統(tǒng)相連接,所述數(shù)據(jù)挖掘系統(tǒng)包括第一集群及第二集群,所述第一集群中包括多個(gè)第一服務(wù)器,所述第二集群中包括多個(gè)第二服務(wù)器,所述第一服務(wù)器基于ILog規(guī)則引擎配置有第一挖掘模型,所述第二服務(wù)器基于SAS(STATISTICAL ANALYSIS SYSTEM,統(tǒng)計(jì)分析系統(tǒng))配置有第二挖掘模型,所述裝置包括:
請(qǐng)求接收單元,用于接收至少一個(gè)數(shù)據(jù)挖掘請(qǐng)求,所述數(shù)據(jù)挖掘請(qǐng)求中至少包括請(qǐng)求類(lèi)型;
請(qǐng)求分類(lèi)單元,用于對(duì)所述數(shù)據(jù)挖掘請(qǐng)求基于其請(qǐng)求類(lèi)型進(jìn)行分類(lèi);
第一傳輸單元,用于將請(qǐng)求類(lèi)型為快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給所述第一集群,由所述第一集群中的第一服務(wù)器基于所述數(shù)據(jù)挖掘請(qǐng)求利用所述第一挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,得到第一挖掘結(jié)果;
第二傳輸單元,用于將數(shù)據(jù)類(lèi)型不是快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給所述第二集群,由所述第二集群中的第二服務(wù)器基于所述數(shù)據(jù)挖掘請(qǐng)求利用所述第二挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,得到第二挖掘結(jié)果。
上述裝置,優(yōu)選的,還包括:
結(jié)果返回單元,用于在得到所述第一挖掘結(jié)果和所述第二挖掘結(jié)果之后,將所述第一挖掘結(jié)果和所述第二挖掘結(jié)果進(jìn)行返回。
上述裝置,優(yōu)選的,還包括:
結(jié)果存儲(chǔ)單元,用于將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行存儲(chǔ)。
上述裝置,優(yōu)選的,還包括:
第三傳輸單元,用于在得到所述第一挖掘結(jié)果和所述第二挖掘結(jié)果之后,將所述第一挖掘結(jié)果和所述第二挖掘結(jié)果傳輸給所述第二集群,由所述第二集群中的第二服務(wù)器利用所述第二挖掘模型對(duì)所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行交叉驗(yàn)證。
上述裝置,優(yōu)選的,還包括:
第四傳輸單元,用于將所述第一挖掘模型傳輸?shù)剿龅诙?,由所述第二集群中的第二服?wù)器利用所述第二挖掘模型進(jìn)行模型訓(xùn)練和驗(yàn)證。
由上述方案可知,本申請(qǐng)?zhí)峁┑囊环N數(shù)據(jù)挖掘方法及裝置,通過(guò)將ILog集群與SAS集群配置到同一個(gè)系統(tǒng)中,從而在接收到數(shù)據(jù)挖掘請(qǐng)求時(shí),可以根據(jù)數(shù)據(jù)挖掘請(qǐng)求的請(qǐng)求類(lèi)型來(lái)決定采用Ilog的挖掘方式還是SAS的挖掘方式,使得本申請(qǐng)能夠同時(shí)具備Ilog的能夠?qū)?shù)據(jù)挖掘進(jìn)行快速響應(yīng)的基于專(zhuān)家模型的數(shù)據(jù)挖掘特性以及SAS的對(duì)數(shù)據(jù)模型的挖掘及驗(yàn)證等挖掘功能的特性,從而在相同數(shù)據(jù)來(lái)源的基礎(chǔ)上匯集Ilog及SAS兩種數(shù)據(jù)挖掘特性,在不影響原有數(shù)據(jù)挖掘任務(wù)處理能力的情況下,大幅度提升對(duì)不同響應(yīng)時(shí)間、不同挖掘復(fù)雜度任務(wù)的響應(yīng)效率。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本申請(qǐng)實(shí)施例一提供的一種數(shù)據(jù)挖掘方法的流程圖;
圖2為本申請(qǐng)實(shí)施例的應(yīng)用示例圖;
圖3為本申請(qǐng)實(shí)施例二提供的一種數(shù)據(jù)挖掘方法的流程圖;
圖4為本申請(qǐng)實(shí)施例三提供的一種數(shù)據(jù)挖掘方法的流程圖;
圖5為本申請(qǐng)實(shí)施例四提供的一種數(shù)據(jù)挖掘方法的流程圖;
圖6為本申請(qǐng)實(shí)施例五提供的一種數(shù)據(jù)挖掘方法的部分流程圖;
圖7為本申請(qǐng)實(shí)施例六提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖;
圖8為本申請(qǐng)實(shí)施例七提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖;
圖9為本申請(qǐng)實(shí)施例八提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖;
圖10為本申請(qǐng)實(shí)施例九提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖;
圖11為本申請(qǐng)實(shí)施例十提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
參考圖1,為本申請(qǐng)實(shí)施例一提供的一種數(shù)據(jù)挖掘方法的實(shí)現(xiàn)流程圖,適用于圖2所示的數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)與訪問(wèn)終端及數(shù)據(jù)源相連接,如圖2中所示。
其中,數(shù)據(jù)挖掘系統(tǒng)中可以包括有:第一集群及第二集群,第一集群中可以包括多個(gè)第一服務(wù)器,第二集群中可以包括多個(gè)第二服務(wù)器,第一服務(wù)器基于ILog規(guī)則引擎配置有第一挖掘模型,第一挖掘模型即為能夠快速對(duì)數(shù)據(jù)進(jìn)行挖掘響應(yīng)的專(zhuān)家模型,由此,第一服務(wù)器中基于ILog規(guī)則引擎能夠快速響應(yīng)和部署用戶的基于專(zhuān)家模型的數(shù)據(jù)挖掘需求,第二服務(wù)器基于SAS(STATISTICAL ANALYSIS SYSTEM,統(tǒng)計(jì)分析系統(tǒng))配置有第二挖掘模型,第二挖掘模型即為數(shù)據(jù)模型,第二服務(wù)器基于SAS能夠?qū)?fù)雜度較高的數(shù)據(jù)挖掘任務(wù)進(jìn)行響應(yīng)。
在本實(shí)施例中,可以包括有如下步驟,實(shí)現(xiàn)數(shù)據(jù)挖掘:
步驟101:接收至少一個(gè)數(shù)據(jù)挖掘請(qǐng)求。
其中,數(shù)據(jù)挖掘請(qǐng)求由訪問(wèn)終端中生成并發(fā)送,表征用戶所需要進(jìn)行挖掘的需求,在每個(gè)數(shù)據(jù)挖掘請(qǐng)求中至少包括有表征用戶需求的請(qǐng)求類(lèi)型,如需要快速響應(yīng)的類(lèi)型或者大數(shù)據(jù)統(tǒng)計(jì)或復(fù)雜度較高的請(qǐng)求類(lèi)型等。
步驟102:對(duì)數(shù)據(jù)挖掘請(qǐng)求基于其請(qǐng)求類(lèi)型進(jìn)行分類(lèi)。
在本實(shí)施例中,對(duì)數(shù)據(jù)挖掘請(qǐng)求的分類(lèi)是指,對(duì)解析數(shù)據(jù)挖掘請(qǐng)求中用戶的需求進(jìn)行切分,也就是說(shuō),用戶通過(guò)訪問(wèn)終端生成數(shù)據(jù)挖掘請(qǐng)求,此時(shí)生成的數(shù)據(jù)挖掘請(qǐng)求中能夠表征用戶需要采用哪種方式對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行挖掘。
步驟103:將請(qǐng)求類(lèi)型為快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給第一集群,由第一集群中的第一服務(wù)器基于數(shù)據(jù)挖掘請(qǐng)求利用第一挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,得到第一挖掘結(jié)果。
其中,在數(shù)據(jù)挖掘請(qǐng)求傳輸給第一集群之后,第一集群可以根據(jù)各個(gè)第一服務(wù)器的當(dāng)前負(fù)載,確定一個(gè)或多個(gè)第一服務(wù)器進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)數(shù)據(jù)挖掘的負(fù)載均衡調(diào)度。
步驟104:將數(shù)據(jù)類(lèi)型不是快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給第二集群,由第二集群中的第二服務(wù)器基于數(shù)據(jù)挖掘請(qǐng)求利用第二挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,得到第二挖掘結(jié)果。
其中,在數(shù)據(jù)挖掘請(qǐng)求傳輸給第二集群之后,第二集群可以根據(jù)各個(gè)第二服務(wù)器的當(dāng)前負(fù)載,確定一個(gè)或多個(gè)第二服務(wù)器進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)數(shù)據(jù)挖掘的負(fù)載均衡調(diào)度。
也就是說(shuō),本實(shí)施例中在對(duì)數(shù)據(jù)挖掘請(qǐng)求根據(jù)其請(qǐng)求類(lèi)型進(jìn)行切分之后,將不同類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求采用不同的處理方式,例如:將需要快速響應(yīng)的數(shù)據(jù)挖掘請(qǐng)求傳輸給第一集群,進(jìn)行時(shí)效性較高的數(shù)據(jù)挖掘,將需要數(shù)據(jù)量大或復(fù)雜度需求較高的數(shù)據(jù)挖掘請(qǐng)求傳輸給第二集群進(jìn)行更加完善或深度更高的數(shù)據(jù)挖掘。
需要說(shuō)明的是,這里的數(shù)據(jù)源可以為各種類(lèi)型的數(shù)據(jù)源,如關(guān)系型數(shù)據(jù)庫(kù)、Hadoop數(shù)據(jù)庫(kù)或數(shù)據(jù)文件的數(shù)據(jù)集合等。
由上述方案可知,本申請(qǐng)實(shí)施例一提供的一種數(shù)據(jù)挖掘方法,通過(guò)將ILog集群與SAS集群配置到同一個(gè)系統(tǒng)中,從而在接收到數(shù)據(jù)挖掘請(qǐng)求時(shí),可以根據(jù)數(shù)據(jù)挖掘請(qǐng)求的請(qǐng)求類(lèi)型來(lái)決定采用Ilog的挖掘方式還是SAS的挖掘方式,使得本申請(qǐng)能夠同時(shí)具備Ilog的能夠?qū)?shù)據(jù)挖掘進(jìn)行快速響應(yīng)的基于專(zhuān)家模型的數(shù)據(jù)挖掘特性以及SAS的對(duì)數(shù)據(jù)模型的挖掘及驗(yàn)證等挖掘功能的特性,從而在相同數(shù)據(jù)來(lái)源的基礎(chǔ)上匯集Ilog及SAS兩種數(shù)據(jù)挖掘特性,在不影響原有數(shù)據(jù)挖掘任務(wù)處理能力的情況下,大幅度提升對(duì)不同響應(yīng)時(shí)間、不同挖掘復(fù)雜度任務(wù)的響應(yīng)效率。
需要說(shuō)明的是,在實(shí)際應(yīng)用中,具有本實(shí)施例中的方法功能的程序代碼可運(yùn)行在應(yīng)用服務(wù)器集群中,應(yīng)用服務(wù)器集群中可以含有多個(gè)應(yīng)用服務(wù)器,能夠?qū)?shù)據(jù)挖掘請(qǐng)求進(jìn)行響應(yīng),將數(shù)據(jù)挖掘請(qǐng)求進(jìn)行處理轉(zhuǎn)發(fā)到相應(yīng)的第一集群或第二集群中。
而為了實(shí)現(xiàn)負(fù)載均衡,用戶的訪問(wèn)終端所產(chǎn)生的數(shù)據(jù)挖掘請(qǐng)求可以首先發(fā)送到與應(yīng)用服務(wù)器集群相連接的負(fù)載均衡服務(wù)器中,由負(fù)載均衡服務(wù)器進(jìn)行均衡調(diào)度指揮再轉(zhuǎn)發(fā)到合適的應(yīng)用服務(wù)器集群的應(yīng)用服務(wù)器中,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。
在一種實(shí)現(xiàn)方案中,參考圖3,為本申請(qǐng)實(shí)施例二提供的一種數(shù)據(jù)挖掘方法的實(shí)現(xiàn)流程圖,在所述步驟103及所述步驟104之后,所述方法還可以包括以下步驟:
步驟105:將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行返回。
具體的,本實(shí)施例中,可以將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果返回給用戶的訪問(wèn)終端。
在一種實(shí)現(xiàn)方案中,參考圖4,為本申請(qǐng)實(shí)施例三提供的一種數(shù)據(jù)挖掘方法的實(shí)現(xiàn)流程圖,在所述步驟103及所述步驟104之后,所述方法還可以包括以下步驟:
步驟106:將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行存儲(chǔ)。
具體的,本實(shí)施例中,可以將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果存儲(chǔ)到與第一集群及第二集群連接的數(shù)據(jù)庫(kù)等存儲(chǔ)系統(tǒng)中。
在一種實(shí)現(xiàn)中,參考圖5,為本申請(qǐng)實(shí)施例四提供的一種數(shù)據(jù)挖掘方法的實(shí)現(xiàn)流程圖,其中,在所述步驟103及所述步驟104之后,所述方法還可以包括以下步驟:
步驟107:將所述第一挖掘結(jié)果及所述第二挖掘結(jié)果傳輸給第二集群,由第二集群中的第二服務(wù)器利用所述第二挖掘模型對(duì)所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行交叉驗(yàn)證。
也就是說(shuō),第二集群中的第二服務(wù)器基于SAS構(gòu)建有第二挖掘模型,使得第二服務(wù)器能夠進(jìn)行數(shù)據(jù)模型的挖掘和訓(xùn)練驗(yàn)證,由此,在本實(shí)施例中,可以在得到第一挖掘結(jié)果及第二挖掘結(jié)果之后對(duì)第一挖掘結(jié)果如專(zhuān)家模型結(jié)果及第二挖掘結(jié)果如數(shù)據(jù)模型的結(jié)果進(jìn)行交叉驗(yàn)證。
在一種實(shí)現(xiàn)中,參考圖6,為本申請(qǐng)實(shí)施例五提供的一種數(shù)據(jù)挖掘方法的部分流程圖,所述方法還可以包括以下步驟:
步驟108:將第一挖掘模型傳輸?shù)降诙褐校傻诙褐械牡诙?wù)器利用第二挖掘模型進(jìn)行模型訓(xùn)練和驗(yàn)證。
也就是說(shuō),第二集群中的第二服務(wù)器基于SAS構(gòu)建有第二挖掘模型,使得第二服務(wù)器能夠進(jìn)行數(shù)據(jù)模型的挖掘和訓(xùn)練驗(yàn)證,由此,在本實(shí)施例中,可以將第一集群中第一服務(wù)器的第一挖掘模型如專(zhuān)家模型放到第二集群中進(jìn)行模型的訓(xùn)練和驗(yàn)證,之后,第二集群可以將模型訓(xùn)練結(jié)果反饋給第一集群,進(jìn)行模型完善等處理。
參考圖7,為本申請(qǐng)實(shí)施例六提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖,所述裝置與圖2所示的數(shù)據(jù)挖掘系統(tǒng)相連接,數(shù)據(jù)挖掘裝置與訪問(wèn)終端相連接,數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)源相連接。
其中,數(shù)據(jù)挖掘系統(tǒng)中可以包括有:第一集群及第二集群,第一集群中可以包括多個(gè)第一服務(wù)器,第二集群中可以包括多個(gè)第二服務(wù)器,第一服務(wù)器基于ILog規(guī)則引擎配置有第一挖掘模型,第一挖掘模型即為能夠快速對(duì)數(shù)據(jù)進(jìn)行挖掘響應(yīng)的專(zhuān)家模型,由此,第一服務(wù)器中基于ILog規(guī)則引擎能夠快速響應(yīng)和部署用戶的基于專(zhuān)家模型的數(shù)據(jù)挖掘需求,第二服務(wù)器基于SAS(STATISTICAL ANALYSIS SYSTEM,統(tǒng)計(jì)分析系統(tǒng))配置有第二挖掘模型,第二挖掘模型即為數(shù)據(jù)模型,第二服務(wù)器基于SAS能夠?qū)?fù)雜度較高的數(shù)據(jù)挖掘任務(wù)進(jìn)行響應(yīng)。
在本實(shí)施例中,所述裝置可以包括以下結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)挖掘:
請(qǐng)求接收單元701,用于接收至少一個(gè)數(shù)據(jù)挖掘請(qǐng)求,所述數(shù)據(jù)挖掘請(qǐng)求中至少包括請(qǐng)求類(lèi)型。
其中,數(shù)據(jù)挖掘請(qǐng)求由訪問(wèn)終端中生成并發(fā)送,表征用戶所需要進(jìn)行挖掘的需求,在每個(gè)數(shù)據(jù)挖掘請(qǐng)求中至少包括有表征用戶需求的請(qǐng)求類(lèi)型,如需要快速響應(yīng)的類(lèi)型或者大數(shù)據(jù)統(tǒng)計(jì)或復(fù)雜度較高的請(qǐng)求類(lèi)型等。
需要說(shuō)明的是,請(qǐng)求接收單元701可以采用能夠進(jìn)行數(shù)據(jù)傳輸?shù)慕涌趯?shí)現(xiàn),用以接收訪問(wèn)終端發(fā)送的數(shù)據(jù)挖掘請(qǐng)求。
請(qǐng)求分類(lèi)單元702,用于對(duì)所述數(shù)據(jù)挖掘請(qǐng)求基于其請(qǐng)求類(lèi)型進(jìn)行分類(lèi)。
在本實(shí)施例中,對(duì)數(shù)據(jù)挖掘請(qǐng)求的分類(lèi)是指,對(duì)解析數(shù)據(jù)挖掘請(qǐng)求中用戶的需求進(jìn)行切分,也就是說(shuō),用戶通過(guò)訪問(wèn)終端生成數(shù)據(jù)挖掘請(qǐng)求,此時(shí)生成的數(shù)據(jù)挖掘請(qǐng)求中能夠表征用戶需要采用哪種方式對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行挖掘。
需要說(shuō)明的是,請(qǐng)求分類(lèi)單元702可以采用分類(lèi)器實(shí)現(xiàn),基于請(qǐng)求類(lèi)型將數(shù)據(jù)挖掘請(qǐng)求進(jìn)行分類(lèi)。
第一傳輸單元703,用于將請(qǐng)求類(lèi)型為快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給所述第一集群,由所述第一集群中的第一服務(wù)器基于所述數(shù)據(jù)挖掘請(qǐng)求利用所述第一挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,得到第一挖掘結(jié)果。
其中,在數(shù)據(jù)挖掘請(qǐng)求傳輸給第一集群之后,第一集群可以根據(jù)各個(gè)第一服務(wù)器的當(dāng)前負(fù)載,確定一個(gè)或多個(gè)第一服務(wù)器進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)數(shù)據(jù)挖掘的負(fù)載均衡調(diào)度。
需要說(shuō)明的是,第一傳輸單元703可以采用能夠進(jìn)行數(shù)據(jù)傳輸?shù)慕涌趯?shí)現(xiàn),用以將數(shù)據(jù)挖掘請(qǐng)求傳輸給第一集群。
第二傳輸單元704,用于將數(shù)據(jù)類(lèi)型不是快速響應(yīng)類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求傳輸給所述第二集群,由所述第二集群中的第二服務(wù)器基于所述數(shù)據(jù)挖掘請(qǐng)求利用所述第二挖掘模型對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理,得到第二挖掘結(jié)果。
其中,在數(shù)據(jù)挖掘請(qǐng)求傳輸給第二集群之后,第二集群可以根據(jù)各個(gè)第二服務(wù)器的當(dāng)前負(fù)載,確定一個(gè)或多個(gè)第二服務(wù)器進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)數(shù)據(jù)挖掘的負(fù)載均衡調(diào)度。
需要說(shuō)明的是,第二傳輸單元704可以采用能夠進(jìn)行數(shù)據(jù)傳輸?shù)慕涌趯?shí)現(xiàn),用以將數(shù)據(jù)挖掘請(qǐng)求傳輸給第二集群。
也就是說(shuō),本實(shí)施例中在對(duì)數(shù)據(jù)挖掘請(qǐng)求根據(jù)其請(qǐng)求類(lèi)型進(jìn)行切分之后,將不同類(lèi)型的數(shù)據(jù)挖掘請(qǐng)求采用不同的處理方式,例如:將需要快速響應(yīng)的數(shù)據(jù)挖掘請(qǐng)求傳輸給第一集群,進(jìn)行時(shí)效性較高的數(shù)據(jù)挖掘,將需要數(shù)據(jù)量大或復(fù)雜度需求較高的數(shù)據(jù)挖掘請(qǐng)求傳輸給第二集群進(jìn)行更加完善或深度更高的數(shù)據(jù)挖掘。
需要說(shuō)明的是,這里的數(shù)據(jù)源可以為各種類(lèi)型的數(shù)據(jù)源,如關(guān)系型數(shù)據(jù)庫(kù)、Hadoop數(shù)據(jù)庫(kù)或數(shù)據(jù)文件的數(shù)據(jù)集合等。
由上述方案可知,本申請(qǐng)實(shí)施例六提供的一種數(shù)據(jù)挖掘裝置,通過(guò)將ILog集群與SAS集群配置到同一個(gè)系統(tǒng)中,從而在接收到數(shù)據(jù)挖掘請(qǐng)求時(shí),可以根據(jù)數(shù)據(jù)挖掘請(qǐng)求的請(qǐng)求類(lèi)型來(lái)決定采用Ilog的挖掘方式還是SAS的挖掘方式,使得本申請(qǐng)能夠同時(shí)具備Ilog的能夠?qū)?shù)據(jù)挖掘進(jìn)行快速響應(yīng)的基于專(zhuān)家模型的數(shù)據(jù)挖掘特性以及SAS的對(duì)數(shù)據(jù)模型的挖掘及驗(yàn)證等挖掘功能的特性,從而在相同數(shù)據(jù)來(lái)源的基礎(chǔ)上匯集Ilog及SAS兩種數(shù)據(jù)挖掘特性,在不影響原有數(shù)據(jù)挖掘任務(wù)處理能力的情況下,大幅度提升對(duì)不同響應(yīng)時(shí)間、不同挖掘復(fù)雜度任務(wù)的響應(yīng)效率。
需要說(shuō)明的是,在實(shí)際應(yīng)用中,具有本實(shí)施例中的方法功能的程序代碼可運(yùn)行在應(yīng)用服務(wù)器集群中,應(yīng)用服務(wù)器集群中可以含有多個(gè)應(yīng)用服務(wù)器,能夠?qū)?shù)據(jù)挖掘請(qǐng)求進(jìn)行響應(yīng),將數(shù)據(jù)挖掘請(qǐng)求進(jìn)行處理轉(zhuǎn)發(fā)到相應(yīng)的第一集群或第二集群中。
而為了實(shí)現(xiàn)負(fù)載均衡,用戶的訪問(wèn)終端所產(chǎn)生的數(shù)據(jù)挖掘請(qǐng)求可以首先發(fā)送到與應(yīng)用服務(wù)器集群相連接的負(fù)載均衡服務(wù)器中,由負(fù)載均衡服務(wù)器進(jìn)行均衡調(diào)度指揮再轉(zhuǎn)發(fā)到合適的應(yīng)用服務(wù)器集群的應(yīng)用服務(wù)器中,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。
參考圖8,為本申請(qǐng)實(shí)施例七提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖,所述裝置還可以包括以下結(jié)構(gòu):
結(jié)果返回單元705,與第一集群以及第二集群相連接,用于在第一集群得到所述第一挖掘結(jié)果和第二集群得到所述第二挖掘結(jié)果之后,將所述第一挖掘結(jié)果和所述第二挖掘結(jié)果進(jìn)行返回。
具體的,所述結(jié)果返回單元705可以采用與所述第一傳輸單元703與所述第二傳輸單元704相同的傳輸接口,用以將第一挖掘結(jié)果及第二挖掘結(jié)果返回給訪問(wèn)終端。
參考圖9,為本申請(qǐng)實(shí)施例八提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖,其中,所述裝置還可以包括以下結(jié)構(gòu):
結(jié)果存儲(chǔ)單元706,與第一集群及第二集群相連接,第一集群與第二集群與數(shù)據(jù)存儲(chǔ)系統(tǒng)相連接,所述結(jié)果存儲(chǔ)單元706用于將第一集群得到的所述第一挖掘結(jié)果及第二集群得到的所述第二挖掘結(jié)果進(jìn)行存儲(chǔ)。
其中,所述結(jié)果存儲(chǔ)單元706可以為向數(shù)據(jù)存儲(chǔ)系統(tǒng)如各種類(lèi)型的數(shù)據(jù)庫(kù)傳輸?shù)谝煌诰蚪Y(jié)果和第二挖掘結(jié)果的數(shù)據(jù)接口。
參考圖10,為本申請(qǐng)實(shí)施例九提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖,其中,所述裝置還可以包括以下結(jié)構(gòu):
第三傳輸單元707,與第二集群相連接,用于在得到所述第一挖掘結(jié)果和所述第二挖掘結(jié)果之后,將所述第一挖掘結(jié)果和所述第二挖掘結(jié)果傳輸給所述第二集群,由所述第二集群中的第二服務(wù)器利用所述第二挖掘模型對(duì)所述第一挖掘結(jié)果及所述第二挖掘結(jié)果進(jìn)行交叉驗(yàn)證。
需要說(shuō)明的是,第三傳輸單元707可以采用能夠進(jìn)行數(shù)據(jù)傳輸?shù)慕涌趯?shí)現(xiàn),用以將第一挖掘結(jié)果與第二挖掘結(jié)果傳輸給第二集群,由第二集群中的第二服務(wù)器進(jìn)行交叉驗(yàn)證。例如,第一挖掘結(jié)果代表專(zhuān)家模型的建模結(jié)果,第二挖掘結(jié)果代表數(shù)據(jù)魔心的建模結(jié)果,第二服務(wù)器對(duì)兩個(gè)模型的結(jié)果使用實(shí)際數(shù)據(jù)進(jìn)行互相交叉驗(yàn)證,用以相互驗(yàn)證發(fā)現(xiàn)兩類(lèi)模型存在的問(wèn)題和缺陷,以此作為兩類(lèi)模型的優(yōu)化依據(jù),提升模型的準(zhǔn)確性。
參考圖11,為本申請(qǐng)實(shí)施例十提供的一種數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖,其中,所述裝置還可以包括以下結(jié)構(gòu):
第四傳輸單元708,連接于第一集群與第二集群之間,用于將所述第一挖掘模型傳輸?shù)剿龅诙?,由所述第二集群中的第二服?wù)器利用所述第二挖掘模型進(jìn)行模型訓(xùn)練和驗(yàn)證。
需要說(shuō)明的是,第四傳輸單元708可以采用能夠進(jìn)行數(shù)據(jù)傳輸?shù)慕涌趯?shí)現(xiàn),將第一集群中的第一挖掘模型如專(zhuān)家模型傳輸給第二集群,由第二集群中的第二服務(wù)器進(jìn)行模型訓(xùn)練和驗(yàn)證。例如,第一挖掘模型(Ilog)只能快速開(kāi)發(fā)專(zhuān)家模型,本身不帶有模型的訓(xùn)練和驗(yàn)證功能,而第二挖掘模型(SAS)是具有這樣的功能的,因此,可以將第一挖掘模型放到第二挖掘模型進(jìn)行模型訓(xùn)練和驗(yàn)證。
需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上對(duì)本發(fā)明所提供的一種數(shù)據(jù)挖掘方法及裝置進(jìn)行了詳細(xì)介紹,對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專(zhuān)業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。