本發(fā)明涉及計算機技術領域,具體而言,涉及一種分布式數(shù)據(jù)挖掘方法及系統(tǒng)。
背景技術:
在現(xiàn)有的數(shù)據(jù)挖掘技術中,通常只配置一臺服務器對數(shù)據(jù)進行處理,數(shù)據(jù)處理量小,服務器負擔重。并且需要在高度專業(yè)化的客戶端界面上進行模型定義,需要通過專業(yè)的編程語言來實現(xiàn)。由此,進行數(shù)據(jù)挖掘的技術人員需要具備較高水平的專業(yè)技術,增加了相應的技術學習成本。
技術實現(xiàn)要素:
為了克服現(xiàn)有技術中的上述不足,本發(fā)明提供一種分布式數(shù)據(jù)挖掘方法及系統(tǒng),其采用分布式架構,可橫向擴展數(shù)據(jù)的處理規(guī)模,優(yōu)化了對數(shù)據(jù)模型的定義,減輕對技術人員的專業(yè)要求,降低了學習成本。
本發(fā)明的第一目的在于提供一種分布式數(shù)據(jù)挖掘方法,所述方法應用于分布式數(shù)據(jù)挖掘系統(tǒng),所述分布式數(shù)據(jù)挖掘系統(tǒng)包括:第一服務器及分布式集群組,所述分布式集群組包括多個用于進行模型運算及挖掘分析的第二服務器,所述方法包括:
第一服務器獲取用戶在瀏覽器界面選擇的挖掘數(shù)據(jù)信息;
第一服務器基于所述挖掘數(shù)據(jù)信息進行變量定義,以便進行模型運算;
第一服務器獲取用戶在瀏覽器界面選擇的模型信息,并將挖掘數(shù)據(jù)信息及選擇的所述模型信息發(fā)送給分布式集群組;
分布式集群組接收所述第一服務器發(fā)送的所述挖掘數(shù)據(jù)信息及選擇的模型信息,根據(jù)用戶選擇的模型進行模型運算及挖掘分析。
本發(fā)明的第二目的在于提供一種分布式數(shù)據(jù)挖掘系統(tǒng),所述分布式數(shù)據(jù)挖掘系統(tǒng)包括:第一服務器及分布式集群組,所述分布式集群組包括多個用于進行模型運算及挖掘分析的第二服務器,其中:
所述第一服務器,用于獲取用戶在瀏覽器界面選擇的挖掘數(shù)據(jù)信息;
所述第一服務器,還用于基于所述挖掘數(shù)據(jù)信息進行變量定義,以便進行模型運算;
所述第一服務器,還用于獲取用戶在瀏覽器界面選擇的模型信息,并將挖掘數(shù)據(jù)信息及選擇的所述模型信息發(fā)送給分布式集群組;
所述分布式集群組,用于接收所述第一服務器發(fā)送的所述挖掘數(shù)據(jù)信息及選擇的模型信息,根據(jù)用戶選擇的模型進行模型運算及挖掘分析。
相對于現(xiàn)有技術而言,本發(fā)明具有以下有益效果:
本發(fā)明提供一種分布式數(shù)據(jù)挖掘方法及系統(tǒng)。所述分布式數(shù)據(jù)挖掘系統(tǒng)包括:第一服務器及分布式集群組,所述分布式集群組包括多個用于進行模型運算及挖掘分析的第二服務器。第一服務器獲取用戶在瀏覽器界面選擇的挖掘數(shù)據(jù)信息。第一服務器基于所述挖掘數(shù)據(jù)信息進行變量定義,以便進行模型運算。第一服務器獲取用戶在瀏覽器界面選擇的模型信息,并將挖掘數(shù)據(jù)信息及選擇的所述模型信息發(fā)送給分布式集群組。分布式集群組接收所述第一服務器發(fā)送的所述挖掘數(shù)據(jù)信息及選擇的模型信息,根據(jù)用戶選擇的模型進行模型運算及挖掘分析。由此,通過采用分布式架構橫向擴展了數(shù)據(jù)的處理規(guī)模,優(yōu)化了對數(shù)據(jù)模型的定義,不需要高度專業(yè)化的客戶端,減輕對技術人員的專業(yè)要求,降低了學習成本。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應被看作是對范圍的限定,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關的附圖。
圖1是本發(fā)明較佳實施例提供的分布式數(shù)據(jù)挖掘系統(tǒng)的方框示意圖。
圖2是本發(fā)明較佳實施例提供的圖1所示的第一服務器的方框示意圖。
圖3是本發(fā)明較佳實施例提供的圖1所示的第二服務器的方框示意圖。
圖4是本發(fā)明較佳實施例提供的分布式數(shù)據(jù)挖掘方法的步驟流程圖之一。
圖5是本發(fā)明較佳實施例提供的圖4所示的步驟s110的子步驟流程圖。
圖6是本發(fā)明較佳實施例提供的圖4所示的步驟s130的子步驟流程圖。
圖7是本發(fā)明較佳實施例提供的分布式數(shù)據(jù)挖掘方法的步驟流程圖之二。
圖標:10-分布式數(shù)據(jù)挖掘系統(tǒng);100-第一服務器;110-第一存儲器;120-第一處理器;130-第一網(wǎng)絡模塊;200-分布式集群組;210-第二服務器;212-第二存儲器;214-第二處理器;216-第二網(wǎng)絡模塊。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。同時,在本發(fā)明的描述中,術語“第一”、“第二”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
本發(fā)明提供一種分布式數(shù)據(jù)挖掘系統(tǒng)。請參照圖1,圖1是本發(fā)明較佳實施例提供的分布式數(shù)據(jù)挖掘系統(tǒng)10的方框示意圖。所述分布式數(shù)據(jù)挖掘系統(tǒng)10包括相互通信連接的第一服務器100及分布式集群組200。所述分布式集群組200包括多個第二服務器210。
在本實施例中,所述第一服務器100負責響應用戶在瀏覽器界面進行的相關操作,以及執(zhí)行數(shù)據(jù)挖掘的相關業(yè)務并對數(shù)據(jù)挖掘業(yè)務進行管理。所述分布式集群組200專門負責對數(shù)據(jù)進行運算。所述分布式集群組200通過多個第二服務器210實現(xiàn)數(shù)據(jù)的分布式運算,以對數(shù)據(jù)的處理規(guī)模進行擴展。
在本實施例中,所述分布式數(shù)據(jù)挖掘系統(tǒng)10采用b/s架構(browser/server,瀏覽器/服務器模式),b/s是web興起后的一種網(wǎng)絡結構模式,web瀏覽器是客戶端最主要的應用軟件。這種模式統(tǒng)一了客戶端,將系統(tǒng)功能實現(xiàn)的核心部分集中到服務器上,簡化了系統(tǒng)的開發(fā)、維護和使用??蛻舳松现灰惭b一個瀏覽器,如netscapenavigator或internetexplorer,服務器安裝sqlserver、oracle、mysql等數(shù)據(jù)庫,瀏覽器通過webserver同數(shù)據(jù)庫進行數(shù)據(jù)交互。由此,不需要依靠高度專業(yè)化的客戶端來進行模型的定義操作,易于對系統(tǒng)進行擴展,也降低了成本。
在本實施例中,所述分布式數(shù)據(jù)挖掘系統(tǒng)10采用分布式架構進行數(shù)據(jù)處理,通過將需要進行大量計算的數(shù)據(jù)分區(qū)成小塊,由多臺服務器分別進行計算,計算后再將結果統(tǒng)一合并得出數(shù)據(jù)結論。采用分布式架構的系統(tǒng)更易于對數(shù)據(jù)處理規(guī)模進行擴展,以對大量數(shù)據(jù)進行運算。
請參照圖2,圖2是本發(fā)明較佳實施例提供的圖1所示的第一服務器100的方框示意圖。所述第一服務器100包括第一存儲器110、第一處理器120及第一網(wǎng)絡模塊130。
所述第一存儲器110、第一處理器120及第一網(wǎng)絡模塊130相互之間直接或間接地電性連接,以實現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通信總線或信號線實現(xiàn)電性連接。第一存儲器110中存儲有多個軟件功能模塊,所述第一處理器120通過運行存儲在第一存儲器110內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理。
其中,所述第一存儲器110可以是,但不限于,隨機存取存儲器(randomaccessmemory,ram),只讀存儲器(readonlymemory,rom),可編程只讀存儲器(programmableread-onlymemory,prom),可擦除只讀存儲器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,第一存儲器110用于存儲程序,所述第一處理器120在接收到執(zhí)行指令后,執(zhí)行所述程序。進一步地,上述第一存儲器110內(nèi)的軟件程序以及模塊還可包括操作系統(tǒng),其可包括各種用于管理系統(tǒng)任務(例如內(nèi)存管理、存儲設備控制、電源管理等)的軟件組件和/或驅動,并可與各種硬件或軟件組件相互通信,從而提供其他軟件組件的運行環(huán)境。
所述第一處理器120可以是一種集成電路芯片,具有信號的處理能力。上述的第一處理器120可以是通用處理器,包括中央處理器(centralprocessingunit,cpu)、網(wǎng)絡處理器(networkprocessor,np)等。還可以是數(shù)字信號處理器(dsp)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。
第一網(wǎng)絡模塊130用于通過網(wǎng)絡建立第一服務器100與分布式集群組200的多個第二服務器210之間的通信連接,實現(xiàn)網(wǎng)絡信號及數(shù)據(jù)的傳輸操作。
可以理解,圖2所述的結構僅為示意,第一服務器100還可包括比圖2中所示更多或者更少的組件,或者具有與圖2所示不同的配置。圖2中所示的各組件可以采用硬件、軟件或其組合實現(xiàn)。
請參照圖3,圖3是本發(fā)明較佳實施例提供的圖1所示的第二服務器210的方框示意圖。所述第二服務器210包括第二存儲器212、第二處理器214及第二網(wǎng)絡模塊216。
所述第二存儲器212中存儲有數(shù)據(jù)庫,所述數(shù)據(jù)庫用于存儲需要運算的數(shù)據(jù)信息及經(jīng)過運算后的數(shù)據(jù)結果。
其中,所述第二存儲器212、第二處理器214及第二網(wǎng)絡模塊216與圖2中的第一存儲器110、第一處理器120及第一網(wǎng)絡模塊130的硬件配置相同,在此就不再一一介紹。
本發(fā)明還提供一種分布式數(shù)據(jù)挖掘方法。請參照圖4,圖4是本發(fā)明提供的分布式數(shù)據(jù)挖掘方法的步驟流程圖之一。所述分布式數(shù)據(jù)挖掘方法應用于分布式數(shù)據(jù)挖掘系統(tǒng)10。下面對分布式數(shù)據(jù)挖掘方法具體流程進行詳細闡述。
步驟s110,第一服務器100獲取用戶在瀏覽器界面選擇的挖掘數(shù)據(jù)信息。
請參閱圖5,圖5是本發(fā)明第一實施例提供的圖4所示的步驟s110的子步驟流程圖。所述步驟s110包括:子步驟s111、子步驟s112及子步驟s113。
子步驟s111,第一服務器100獲取用戶在瀏覽器界面選擇的需要進行挖掘分析的交換服務信息及數(shù)據(jù)字段信息。
在本實施例中,所述交換服務信息指的是數(shù)據(jù)庫中存儲的數(shù)據(jù)表(或稱表)。數(shù)據(jù)表是數(shù)據(jù)庫中一個非常重要的對象,是其他對象的基礎,數(shù)據(jù)庫只是一個框架,數(shù)據(jù)表才是真正的實質內(nèi)容。例如,以教學管理系統(tǒng)為例,教學管理系統(tǒng)的數(shù)據(jù)庫可以包括:教師表、學生表、成績表、課程表及班級表等多個數(shù)據(jù)表。通過這些數(shù)據(jù)表來對教學過程中學生、教師、課程等信息進行管理。所述數(shù)據(jù)字段信息與數(shù)據(jù)表中的列相對應,數(shù)據(jù)字段名稱對應列的名稱,數(shù)據(jù)字段類型對應列的類型。
子步驟s112,第一服務器100分別響應用戶對所述交換服務信息及數(shù)據(jù)字段信息進行關聯(lián)設置的操作,并獲取經(jīng)過關聯(lián)設置的交換服務信息及數(shù)據(jù)字段信息。
在本實施例中,所述第一服務器100響應用戶對所述交換服務信息及數(shù)據(jù)字段信息進行關聯(lián)設置的操作指的是:用戶通過數(shù)據(jù)庫語言將數(shù)據(jù)庫中各自獨立的數(shù)據(jù)表通過建立關系進行關聯(lián),第一服務器100響應用戶對數(shù)據(jù)表進行關聯(lián)的操作。其中,所述數(shù)據(jù)庫語言包括:sql(結構化查詢語言)、oracle、db2、sqlserver、sybase、mysql等。在本實施例中,優(yōu)選采用sql(結構化查詢語言)。
子步驟s113,當用戶需要對交換服務中的數(shù)據(jù)進行過濾時,第一服務器100響應用戶對數(shù)據(jù)進行過濾條件設置的操作,以對所述數(shù)據(jù)進行過濾。
在本實施例中,當用戶需要對交換服務中的數(shù)據(jù)進行過濾時,第一服務器100通過讀取用戶用sql數(shù)據(jù)庫語言填寫的where條件,以此對需要過濾的數(shù)據(jù)進行過濾。
步驟s130,第一服務器100基于所述挖掘數(shù)據(jù)信息進行變量定義,以便進行模型運算。
請參閱圖6,圖6是本發(fā)明提供的圖4所示的步驟s130的子步驟流程圖。所述步驟s130包括:子步驟s131及子步驟s132。
子步驟s131,第一服務器100響應用戶對需要進入模型運算的數(shù)據(jù)字段進行參數(shù)配置的操作。
在本實施例中,數(shù)據(jù)字段配置的參數(shù)包括:數(shù)據(jù)字段名稱、數(shù)據(jù)字段類型、變量數(shù)據(jù)類型、插補取值、空值率、輸入/輸出變量等。
在本實施例中,第一服務器100基于獲取的數(shù)據(jù)字段信息進行字段類型定義,并根據(jù)數(shù)據(jù)字段類型配置默認的變量數(shù)據(jù)類型。其中,所述數(shù)據(jù)字段類型包括:double(雙精度浮點型)、string(字符型)及bigint(超過int整型數(shù)據(jù)范圍的整型)等類型,所述變量數(shù)據(jù)類型包括:分段型、連續(xù)型、離散型及歸類型。離散型:取值為有限個可列舉的類別或數(shù)值;連續(xù)型:取值為數(shù)值型的連續(xù)型變量;分段型:對連續(xù)型變量離散化,如將1-10的連續(xù)數(shù)值分為三段:[1,3),[3,7),[7,10];歸類型:將離散變量劃分為更少的大類,如將dba工程師、前端工程師歸類為it工程師。
在本實施例中,所述第一服務器100會根據(jù)所述數(shù)據(jù)字段類型配置相應的變量數(shù)據(jù)類型。例如,double型及bigint型與連續(xù)型對應,string型與離散型對應。
在本實施例中,第一服務器100響應用戶對不同類型的數(shù)據(jù)字段進行離散化設置的操作,以便對所述數(shù)據(jù)字段進行分類,其中,所述離散化設置包括:分段設置、歸類設置及標簽設置。分段設置:針對連續(xù)型的數(shù)值字段/變量,將數(shù)值類型的字段/變量離散成多個分段區(qū)間進行分析,分段設置就是填寫每個分段區(qū)間的過程。歸類設置:可將離散型的字段/變量歸類分析,將離散型的字段/變量拖動到預先定義的分類下。標簽設置:是對輸出變量進行分類標記,只有輸出變量會進行標簽設置。在一個挖掘過程中,只允許有一個輸出變量,可以從原來的字段/變量中選擇,也可以自定義。
在本實施例中,第一服務器100響應用戶對插補數(shù)據(jù)進行類型選擇的操作,當數(shù)據(jù)字段中存在缺失數(shù)據(jù)時,第一服務器100基于用戶選擇的插補數(shù)據(jù)類型對缺失數(shù)據(jù)進行插補取值。所述插補數(shù)據(jù)類型包括:均值、眾數(shù)、最大值、最小值等。例如,若用戶選擇的插補數(shù)據(jù)類型是均值,則第一服務器100將缺失數(shù)據(jù)在數(shù)據(jù)表中所在列的數(shù)值的均值數(shù)作為插補取值數(shù)填補該缺失數(shù)據(jù)。
子步驟s132,第一服務器100將需要進行模型運算的數(shù)據(jù)字段進行轉換定義,轉換為可帶入模型中進行運算的變量。
在本實施例中,由于數(shù)據(jù)字段類型眾多,第一服務器100需要將數(shù)據(jù)字段進行轉換定義,轉換為可被計算程序識別的的數(shù)值變量,以帶入到模型中進行運算。例如,將老師字段定義為0,學生字段定義為1,以此帶入到計算程序中進行計算。
步驟s140,第一服務器100獲取用戶在瀏覽器界面選擇的模型信息,并將挖掘數(shù)據(jù)信息及選擇的所述模型信息發(fā)送給分布式集群組200。
在本實施例中,第一服務器100獲取用戶在瀏覽器界面選擇的模型信息。第一服務器100基于用戶選擇的模型信息配置相應的挖掘算法,并通過瀏覽器顯示給用戶。第一服務器100為每種模型配置默認的分析參數(shù),并通過瀏覽器顯示給用戶。第一服務器100響應用戶對所述挖掘算法及分析參數(shù)進行更改的操作。第一服務器100將挖掘數(shù)據(jù)信息及選擇的所述模型信息發(fā)送給所述分布式集群組200的多個第二服務器210。
在本實施例中,常用的數(shù)據(jù)挖掘與機器學習的模型包括:分類模型、回歸模型、聚類模型、預測模型、關聯(lián)挖掘模型等。不同的模型執(zhí)行不同的任務,對應不同的數(shù)據(jù)處理方式,并且每種模型也有相對應的一種或多種運算算法。
在本實施例中,所述挖掘數(shù)據(jù)信息包括:挖掘算法、分析參數(shù)及經(jīng)過轉換定義的變量。其中,所述分析參數(shù)包括:訓練比例、測試比例等通用參數(shù)及每種模型特有的專用參數(shù)。所述訓練比例與測試比例之和為1,通常將訓練比例設定為0.7,測試比例設定為0.3。即70%的樣本數(shù)據(jù)作為訓練數(shù)據(jù)用于建立模型,30%的樣本數(shù)據(jù)作為測試數(shù)據(jù)用于對建立的模型效果進行檢測。第一服務器100也可響應用戶根據(jù)需求對訓練比例及測試比例進行調(diào)整的操作,只需保證訓練比例與測試比例之和為1。
步驟s150,所述分布式集群組200接收所述第一服務器100發(fā)送的所述挖掘數(shù)據(jù)信息及選擇的模型信息,根據(jù)用戶選擇的模型進行模型運算及挖掘分析。
在本實施例中,多個第二服務器210接收所述第一服務器100發(fā)送的所述挖掘數(shù)據(jù)信息及選擇的模型信息。多個第二服務器210基于所述挖掘數(shù)據(jù)信息包括的挖掘算法、分析參數(shù)及經(jīng)過轉換定義的變量對用戶選擇的模型進行運算,對運算結果進行挖掘分析。在運算、分析結束后,多個第二服務器210會將經(jīng)過運算及分析的數(shù)據(jù)結果及模型結果存儲于數(shù)據(jù)庫中,并將所述數(shù)據(jù)結果及模型結果發(fā)送給第一服務器100,使數(shù)據(jù)結果及模型結果可通過瀏覽器顯示給用戶。
請參照圖7,圖7是本發(fā)明提供的分布式數(shù)據(jù)挖掘方法的步驟流程圖之二。所述方法還包括步驟s120及步驟s160。
步驟s120,第一服務器100響應用戶點擊的預分析操作,對所述挖掘數(shù)據(jù)信息進行預分析,并將預分析結果通過瀏覽器顯示給用戶,以便響應用戶根據(jù)所述預分析結果對所述數(shù)據(jù)字段進行離散化設置的操作。
在本實施例中,所述預分析結果包括:總行數(shù)、平均值、和值、最大值、最小值、極差、方差、中位數(shù)、空值率等。第一服務器100對挖掘數(shù)據(jù)信息進行預分析以得到預分析結果,用戶可根據(jù)變量數(shù)據(jù)類型查看預分析結果的不同數(shù)據(jù)信息以進行離散化設置。例如,連續(xù)型的可以查看:總行數(shù)、平均值、最大值、最小值等數(shù)據(jù)信息,離散型的可以查看每種字段類型的數(shù)量等。
步驟s160,第一服務器100對創(chuàng)建的挖掘分析模型進行管理。
在本實施例中,第一服務器100將分析結果通過瀏覽器顯示給用戶,并響應用戶對分析結果進行的后續(xù)操作。所述后續(xù)操作包括:生成數(shù)據(jù)圖形、發(fā)布分析結果、模型及算法重置、模型刷新及刪除等。例如,用戶可對需要添加的圖形及圖形參數(shù)(尺寸、顏色等)進行選擇,第一服務器100響應用戶對添加圖形選擇的操作,生成相應的圖形并展現(xiàn)給用戶。
綜上所述,本發(fā)明提供一種分布式數(shù)據(jù)挖掘方法及系統(tǒng)。所述分布式數(shù)據(jù)挖掘系統(tǒng)包括:第一服務器及分布式集群組,所述分布式集群組包括多個用于進行模型運算及挖掘分析的第二服務器。第一服務器獲取用戶在瀏覽器界面選擇的挖掘數(shù)據(jù)信息。第一服務器基于所述挖掘數(shù)據(jù)信息進行變量定義,以便進行模型運算。第一服務器獲取用戶在瀏覽器界面選擇的模型信息,并將挖掘數(shù)據(jù)信息及選擇的所述模型信息發(fā)送給分布式集群組。分布式集群組接收所述第一服務器發(fā)送的所述挖掘數(shù)據(jù)信息及選擇的模型信息,根據(jù)用戶選擇的模型進行模型運算及挖掘分析。
由此,通過采用分布式架構橫向擴展了數(shù)據(jù)的處理規(guī)模,優(yōu)化了對數(shù)據(jù)模型的定義,不需要高度專業(yè)化的客戶端,減輕對技術人員的專業(yè)要求,降低了學習成本。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。