本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)挖掘分析方法及系統(tǒng)。
背景技術(shù):
隨著信息化時代的到來和發(fā)展,人們已經(jīng)在商業(yè)、政府和科學(xué)等領(lǐng)域積累了大量的歷史數(shù)據(jù),激增的數(shù)據(jù)背后隱藏著許多重要的信息,對行業(yè)數(shù)據(jù)進行數(shù)據(jù)搜集以及更高層次的分析,為決策提供理論依據(jù),是目前人們追求的目標。而如何對對行業(yè)數(shù)據(jù)進行數(shù)據(jù)搜集以及更高層次的分析,為決策提供理論依據(jù),是亟需解決的問題。
技術(shù)實現(xiàn)要素:
鑒于目前互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域存在的上述不足,本發(fā)明提供一種數(shù)據(jù)挖掘分析方法及系統(tǒng),能對行業(yè)數(shù)據(jù)進行數(shù)據(jù)搜集以及更高層次的分析。
為達到上述目的,本發(fā)明的實施例采用如下技術(shù)方案:
一種數(shù)據(jù)挖掘分析方法,所述數(shù)據(jù)挖掘分析方法包括以下步驟:
定義采集數(shù)據(jù)源和采集規(guī)則;
根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);
利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析;
通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析;
對挖掘分析的結(jié)果進行可視化展示。
依照本發(fā)明的一個方面,所述定義采集數(shù)據(jù)源和采集規(guī)則具體可為:定義數(shù)據(jù)采集來源,輸入要采集的URI以及權(quán)重。
依照本發(fā)明的一個方面,所述根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù)的具體實施方式可為:根據(jù)采集規(guī)則,利用爬蟲抓取網(wǎng)頁信息,使用正則表達式抽取具體內(nèi)容。
依照本發(fā)明的一個方面,所述利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析具體可為:利用分類、回歸以及K-最近鄰分類算法對數(shù)據(jù)進行標注清洗,利用全局正負面詞庫和聚類進行語義方面分析。
依照本發(fā)明的一個方面,所述數(shù)據(jù)挖掘分析方法包括以下步驟:進行云資源的配置,動態(tài)調(diào)整采集所需CPU、內(nèi)存和帶寬。
依照本發(fā)明的一個方面,所述數(shù)據(jù)挖掘分析方法可包括:建立基于lucene的搜索引擎進行數(shù)據(jù)挖掘和分析。
依照本發(fā)明的一個方面,所述數(shù)據(jù)挖掘分析方法可包括:對采集到的可視化的數(shù)據(jù)快照進行存儲。
一種數(shù)據(jù)挖掘分析系統(tǒng),所述數(shù)據(jù)挖掘分析系統(tǒng)包括:
定義模塊,用于定義采集數(shù)據(jù)源和采集規(guī)則;
采集模塊,用于根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);
過濾模塊,用于利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析;
挖掘模塊,用于通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析;
展示模塊,用于對挖掘分析的結(jié)果進行可視化展示。
依照本發(fā)明的一個方面,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:配置模塊,用于進行云資源的配置,動態(tài)調(diào)整采集所需CPU、內(nèi)存和帶寬。
依照本發(fā)明的一個方面,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:引擎模塊,用于建立基于lucene的搜索引擎進行數(shù)據(jù)挖掘和分析。
本發(fā)明實施的優(yōu)點:本發(fā)明所述的數(shù)據(jù)挖掘分析方法通過定義采集數(shù)據(jù)源和采集規(guī)則;根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析,具體應(yīng)用算法可自行定義,滿足了復(fù)雜的個性需求;通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析,各行業(yè)用戶可自定義數(shù)據(jù)模型,以滿足復(fù)雜的個性需求;對挖掘分析的結(jié)果進行可視化展示,系統(tǒng)處理速度更快,并提供豐富的、友好的可視化數(shù)據(jù)展示方式,實現(xiàn)了對行業(yè)數(shù)據(jù)進行數(shù)據(jù)搜集以及更高層次的分析,為決策提供理論依據(jù)。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明所述的一種數(shù)據(jù)挖掘分析方法示意圖;
圖2為本發(fā)明所述的一種數(shù)據(jù)挖掘分析系統(tǒng)結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,一種數(shù)據(jù)挖掘分析方法,所述數(shù)據(jù)挖掘分析方法包括以下步驟:
步驟S1:定義采集數(shù)據(jù)源和采集規(guī)則;
所述步驟S1定義采集數(shù)據(jù)源和采集規(guī)則的具體實施方式可為:定義數(shù)據(jù)采集來源,輸入要采集的URI以及權(quán)重。
在實際應(yīng)用中,所述定義數(shù)據(jù)采集來源具體可為:定制需要采集的數(shù)據(jù)源,比如(搜索引擎、門戶網(wǎng)站、論壇、博客等)。
在實際應(yīng)用中,定義的采集規(guī)則具體可為:如采集頻率、關(guān)鍵詞、采集深度、廣度等。
在實際應(yīng)用中,還可有如下實施方式:可通過互聯(lián)網(wǎng)自動采集所需要的數(shù)據(jù),也可以通過API與企業(yè)內(nèi)部數(shù)據(jù)對接,實現(xiàn)數(shù)據(jù)源多樣化。
步驟S2:根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);
所述步驟S2根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù)的具體實施方式可為:根據(jù)采集規(guī)則,利用爬蟲抓取網(wǎng)頁信息,使用正則表達式抽取具體內(nèi)容,從而得出具體的文本數(shù)據(jù)。
步驟S3:利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析;
所述步驟S3利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析的具體實施方式可為:利用分類、回歸以及K-最近鄰分類算法對數(shù)據(jù)進行標注清洗,利用全局正負面詞庫和聚類進行語義方面分析。
在實際應(yīng)用中,可通過數(shù)據(jù)分段、整合、過濾、轉(zhuǎn)換、編碼,利用權(quán)值及算法進行數(shù)據(jù)清洗,所述算法可為分類、回歸以及K-最近鄰分類算法,算法在實際應(yīng)用中可自行定義??芍С职ň垲惙治觥⒎? 類分析、統(tǒng)計分析、值預(yù)測等算法,并可不斷動態(tài)擴展模型庫。
步驟S4:通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析;
所述步驟S4通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析的具體實施方式可為:通過定義的數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析,所述數(shù)據(jù)模型在實際應(yīng)用中,可根據(jù)需求進行自定義。
步驟S5:對挖掘分析的結(jié)果進行可視化展示。
所述步驟S5對挖掘分析的結(jié)果進行可視化展示的具體實施方式可為:利用D3、WebGL等技術(shù)對挖掘分析的結(jié)果進行可視化數(shù)據(jù)展示。
在實際應(yīng)用中,所述數(shù)據(jù)挖掘分析時,需通過云計算和大數(shù)據(jù)進行,因而,實際實行時,可進行云資源的配置,動態(tài)調(diào)整采集所需CPU、內(nèi)存和帶寬。從而可通過云計算技術(shù)來處理海量的數(shù)據(jù),系統(tǒng)處理速度更快。
在實際應(yīng)用中,所述數(shù)據(jù)挖掘分析方法在實際實行時,可采用如下優(yōu)選方案:建立基于lucene的搜索引擎進行數(shù)據(jù)挖掘和分析,可提高檢索分析效率。
在實際應(yīng)用中,所述數(shù)據(jù)挖掘分析方法在實際實行時,還可對采集到的可視化的數(shù)據(jù)快照進行存儲。
本實施例所述的數(shù)據(jù)挖掘分析方法通過定義采集數(shù)據(jù)源和采集規(guī)則;根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析,具體應(yīng)用算法可自行定義,滿足了復(fù)雜的個性需求;通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析,各行業(yè)用戶可自定義數(shù)據(jù)模型,以滿足復(fù)雜的個性需求;對挖掘分析的結(jié)果進行可視化展示,系統(tǒng)處理速度更快,并提供豐富的、友好的可視化數(shù)據(jù)展示方式,實現(xiàn)了對行業(yè)數(shù)據(jù)進行數(shù)據(jù)搜集以及更高層次的分析,為決策提供理論依據(jù)。
一種數(shù)據(jù)挖掘分析系統(tǒng)實施例
如圖2所示,一種數(shù)據(jù)挖掘分析系統(tǒng),所述數(shù)據(jù)挖掘分析系統(tǒng)包括:
定義模塊1,用于定義采集數(shù)據(jù)源和采集規(guī)則;
采集模塊2,用于根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);
過濾模塊3,用于利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語 義分析;
挖掘模塊4,用于通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析;
展示模塊5,用于對挖掘分析的結(jié)果進行可視化展示。
在實際應(yīng)用中,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:配置模塊6,用于進行云資源的配置,動態(tài)調(diào)整采集所需CPU、內(nèi)存和帶寬。
在實際應(yīng)用中,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:引擎模塊7,用于建立基于lucene的搜索引擎進行數(shù)據(jù)挖掘和分析。
本發(fā)明實施的優(yōu)點:本發(fā)明所述的數(shù)據(jù)挖掘分析方法通過定義采集數(shù)據(jù)源和采集規(guī)則;根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);利用算法對采集到的數(shù)據(jù)進行標注清洗并進行語義分析,具體應(yīng)用算法可自行定義,滿足了復(fù)雜的個性需求;通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進行數(shù)據(jù)挖掘分析,各行業(yè)用戶可自定義數(shù)據(jù)模型,以滿足復(fù)雜的個性需求;對挖掘分析的結(jié)果進行可視化展示,系統(tǒng)處理速度更快,并提供豐富的、友好的可視化數(shù)據(jù)展示方式,實現(xiàn)了對行業(yè)數(shù)據(jù)進行數(shù)據(jù)搜集以及更高層次的分析,為決策提供理論依據(jù)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本領(lǐng)域技術(shù)的技術(shù)人員在本發(fā)明公開的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。