本發(fā)明涉及大數(shù)據(jù)挖掘,具體為一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)。
背景技術(shù):
1、數(shù)據(jù)挖掘是指從大量的、有噪聲的、隨機(jī)的數(shù)據(jù)中提取潛在的、有效的、新穎的、有用的模式或信息,用于決策者進(jìn)行相應(yīng)的決策,在實(shí)用中,數(shù)據(jù)挖掘可幫助人們作出判斷,以便采取適當(dāng)行動(dòng);
2、現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)僅能實(shí)現(xiàn)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)處理,而無(wú)法根據(jù)現(xiàn)有數(shù)據(jù)進(jìn)行更深度數(shù)據(jù)挖掘分析,難以對(duì)數(shù)據(jù)進(jìn)行充分利用。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),解決了上述背景技術(shù)中提出的問(wèn)題。
2、為解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的一個(gè)方面,更具體的說(shuō)是一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),包括大數(shù)據(jù)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘系統(tǒng)以及挖掘數(shù)據(jù)處理系統(tǒng),其特征在于:大數(shù)據(jù)數(shù)據(jù)庫(kù):將來(lái)自各種來(lái)源的大量非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù);
3、數(shù)據(jù)挖掘系統(tǒng):將存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘出特定圖像數(shù)據(jù)的系統(tǒng),且數(shù)據(jù)挖掘系統(tǒng)對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理、執(zhí)行挖掘以及數(shù)據(jù)評(píng)估;
4、挖掘數(shù)據(jù)處理系統(tǒng):對(duì)挖掘的圖像數(shù)據(jù)進(jìn)行防護(hù),對(duì)挖掘數(shù)據(jù)的安全性進(jìn)行評(píng)估,并對(duì)挖掘圖像數(shù)據(jù)進(jìn)行防護(hù),其中包括數(shù)據(jù)表示與存儲(chǔ)、數(shù)據(jù)安全把控與數(shù)據(jù)隱私保護(hù)。
5、更進(jìn)一步的,所述數(shù)據(jù)預(yù)處理系統(tǒng)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)約簡(jiǎn);
6、數(shù)據(jù)清理:用于去除糾正數(shù)據(jù)中的錯(cuò)誤、重復(fù)、不一致和噪聲;
7、數(shù)據(jù)集成:將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并成一個(gè)一致的數(shù)據(jù)集;
8、數(shù)據(jù)轉(zhuǎn)換:對(duì)數(shù)據(jù)進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化、離散化或編碼等處理,以適應(yīng)挖掘算法的需求;
9、數(shù)據(jù)約簡(jiǎn):通過(guò)聚類(lèi)、抽樣等技術(shù)減少數(shù)據(jù)量,同時(shí)盡量保留原始數(shù)據(jù)的完整性。
10、更進(jìn)一步的,所述數(shù)據(jù)挖掘算法執(zhí)行系統(tǒng)包括數(shù)據(jù)分類(lèi)、數(shù)據(jù)聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘、異常檢測(cè)以及演化分析;
11、數(shù)據(jù)分類(lèi):將數(shù)據(jù)集分成預(yù)定義的類(lèi)別,并預(yù)測(cè)新數(shù)據(jù)點(diǎn)的類(lèi)別;
12、數(shù)據(jù)聚類(lèi):將數(shù)據(jù)集分成多個(gè)群組或簇,使得同一簇內(nèi)的數(shù)據(jù)點(diǎn)相似度較高,而不同簇間的數(shù)據(jù)點(diǎn)相似度較低;
13、關(guān)聯(lián)規(guī)則挖掘:發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的頻繁模式、相關(guān)性或因果關(guān)系;
14、異常檢測(cè):識(shí)別出與大多數(shù)數(shù)據(jù)顯著不同的數(shù)據(jù)點(diǎn),即離群點(diǎn)或異常值;
15、演化分析:分析數(shù)據(jù)隨時(shí)間的變化趨勢(shì)和模式。
16、更進(jìn)一步的,所述數(shù)據(jù)評(píng)估系統(tǒng)包括數(shù)據(jù)評(píng)估以及生成交互接口;
17、數(shù)據(jù)評(píng)估:對(duì)挖掘出的圖像數(shù)據(jù)進(jìn)行評(píng)估,判斷其是否有意義、是否可靠,并使用可視化技術(shù)將挖掘結(jié)果以圖表、圖形等形式展示給用戶(hù),便于用戶(hù)理解和解釋?zhuān)?/p>
18、生成交互接口:提供用戶(hù)交互接口,允許用戶(hù)根據(jù)自己的需求調(diào)整挖掘參數(shù)、選擇挖掘算法或查看挖掘過(guò)程的詳細(xì)信息。
19、更進(jìn)一步的,所述挖掘數(shù)據(jù)處理系統(tǒng)包括數(shù)據(jù)表示與存儲(chǔ)模塊以及數(shù)據(jù)安全與隱私保護(hù)模塊;
20、數(shù)據(jù)表示與存儲(chǔ)模塊:將挖掘出的圖像數(shù)據(jù)以適當(dāng)?shù)男问奖硎境鰜?lái),并將圖像數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,以便后續(xù)的查詢(xún)、分析和應(yīng)用;
21、數(shù)據(jù)安全與隱私保護(hù)模塊:用于確保數(shù)據(jù)挖掘過(guò)程中圖像數(shù)據(jù)的安全性和隱私性,防止圖像數(shù)據(jù)泄露或被非法使用,并提供數(shù)據(jù)加密、訪問(wèn)控制等安全措施,保護(hù)用戶(hù)的數(shù)據(jù)安全。
22、更進(jìn)一步的,所述數(shù)據(jù)挖掘算法執(zhí)行系統(tǒng)中數(shù)據(jù)分類(lèi)運(yùn)作時(shí),
23、
24、式中,ga(d)為數(shù)據(jù)分類(lèi)集中任意兩組子集的相似度;d為數(shù)據(jù)分類(lèi)集總集;d1與d2均為數(shù)據(jù)分類(lèi)集的子集;p(d)為類(lèi)別d數(shù)據(jù)分類(lèi)集的先驗(yàn)概率;p(xi/d)為在類(lèi)別d的條件下,特征i的條件概率;p(xi)為所有特征d中i的聯(lián)合概率;
25、公式的得出數(shù)據(jù)取值0~1:
26、0代表完全相同;
27、1則代表完全不相同,公式結(jié)構(gòu)趨向0時(shí),兩組子集的相似度增高,公式結(jié)構(gòu)趨向1時(shí),兩組子集的相識(shí)度降低。
28、一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)的使用方法,包括以下步驟:
29、s1、連接大數(shù)據(jù)數(shù)據(jù)庫(kù):將數(shù)據(jù)挖掘系統(tǒng)與大數(shù)據(jù)數(shù)據(jù)庫(kù)相連接,以便系統(tǒng)挖掘大數(shù)據(jù);
30、s2、數(shù)據(jù)處理:通過(guò)數(shù)據(jù)預(yù)處理系統(tǒng)對(duì)大數(shù)據(jù)數(shù)據(jù)庫(kù)進(jìn)行挖掘,并對(duì)挖掘的圖像數(shù)據(jù)進(jìn)行清理、集成、轉(zhuǎn)換以及約簡(jiǎn);
31、s3、挖掘執(zhí)行:對(duì)預(yù)處理后的圖像數(shù)據(jù)進(jìn)行分類(lèi),發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的頻繁模式、相關(guān)性或因果關(guān)系,并分析數(shù)據(jù)隨時(shí)間的變化趨勢(shì)和模式;
32、s4、數(shù)據(jù)評(píng)估:對(duì)挖掘出的圖像數(shù)據(jù)進(jìn)行評(píng)估,判斷其是否有意義、是否可靠,并使用可視化技術(shù)將挖掘結(jié)果以圖表、圖形等形式展示給用戶(hù),便于用戶(hù)理解和解釋?zhuān)⑸山换ソ涌?,以便查?xún);
33、s5、挖掘數(shù)據(jù)處理:對(duì)挖掘的圖像數(shù)據(jù)進(jìn)行防護(hù),對(duì)挖掘數(shù)量的安全性進(jìn)行評(píng)估,并對(duì)挖掘數(shù)據(jù)進(jìn)行防護(hù);
34、s6、連接企業(yè)數(shù)據(jù)庫(kù):將挖掘數(shù)據(jù)處理系統(tǒng)的圖像數(shù)據(jù)傳輸至企業(yè)數(shù)據(jù)庫(kù)內(nèi)部,并與企業(yè)數(shù)據(jù)庫(kù)內(nèi)部的圖像數(shù)據(jù)庫(kù)進(jìn)行對(duì)撞訓(xùn)練,并取出相識(shí)圖像數(shù)據(jù),以免出現(xiàn)較多相識(shí)圖像數(shù)據(jù),導(dǎo)致圖像數(shù)據(jù)庫(kù)臃腫。
35、本發(fā)明一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)的有益效果為:
36、本發(fā)明通過(guò)數(shù)據(jù)挖掘系統(tǒng)對(duì)大數(shù)據(jù)數(shù)據(jù)庫(kù)進(jìn)行挖掘,并通過(guò)數(shù)據(jù)預(yù)處理系統(tǒng)對(duì)挖掘的圖像數(shù)據(jù)進(jìn)行清理,并利用數(shù)據(jù)挖掘算法執(zhí)行系統(tǒng)對(duì)圖像數(shù)據(jù)進(jìn)行分類(lèi),再利用數(shù)據(jù)評(píng)估系統(tǒng)對(duì)分類(lèi)的圖像數(shù)據(jù)進(jìn)行評(píng)估,通過(guò)后生成交互接口,以便對(duì)該類(lèi)數(shù)據(jù)進(jìn)行快速查詢(xún),本發(fā)明在數(shù)據(jù)分類(lèi)并評(píng)估完成后,將挖掘出的數(shù)據(jù)以適當(dāng)?shù)男问奖硎境鰜?lái),將數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)中,并輸送至企業(yè)數(shù)據(jù)庫(kù)內(nèi)部,與企業(yè)數(shù)據(jù)庫(kù)內(nèi)部的圖像數(shù)據(jù)庫(kù)進(jìn)行對(duì)撞訓(xùn)練,并取出相識(shí)圖像數(shù)據(jù),以免出現(xiàn)較多相識(shí)圖像數(shù)據(jù),導(dǎo)致圖像數(shù)據(jù)庫(kù)臃腫。
1.一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),包括大數(shù)據(jù)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘系統(tǒng)以及挖掘數(shù)據(jù)處理系統(tǒng),其特征在于:大數(shù)據(jù)數(shù)據(jù)庫(kù):將來(lái)自各種來(lái)源的大量非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù);
2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述數(shù)據(jù)預(yù)處理系統(tǒng)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)約簡(jiǎn);
3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述數(shù)據(jù)挖掘算法執(zhí)行系統(tǒng)包括數(shù)據(jù)分類(lèi)、數(shù)據(jù)聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘、異常檢測(cè)以及演化分析;
4.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述數(shù)據(jù)評(píng)估系統(tǒng)包括數(shù)據(jù)評(píng)估以及生成交互接口;
5.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述挖掘數(shù)據(jù)處理系統(tǒng)包括數(shù)據(jù)表示與存儲(chǔ)模塊以及數(shù)據(jù)安全與隱私保護(hù)模塊;
6.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述數(shù)據(jù)挖掘算法執(zhí)行系統(tǒng)中數(shù)據(jù)分類(lèi)運(yùn)作時(shí),評(píng)判數(shù)據(jù)分類(lèi)準(zhǔn)確性的計(jì)算公式為:
7.一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)的使用方法,包括權(quán)利要求1-6中任一項(xiàng)所述的一種基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng),其特征在于,包括以下步驟: