1.一種數(shù)據(jù)挖掘分析方法,其特征在于,所述數(shù)據(jù)挖掘分析方法包括以下步驟:
定義采集數(shù)據(jù)源和采集規(guī)則;
根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);
利用算法對采集到的數(shù)據(jù)進(jìn)行標(biāo)注清洗并進(jìn)行語義分析;
通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;
對挖掘分析的結(jié)果進(jìn)行可視化展示。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析方法,其特征在于,所述定義采集數(shù)據(jù)源和采集規(guī)則具體可為:定義數(shù)據(jù)采集來源,輸入要采集的URI以及權(quán)重。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析方法,其特征在于,所述根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù)的具體實(shí)施方式可為:根據(jù)采集規(guī)則,利用爬蟲抓取網(wǎng)頁信息,使用正則表達(dá)式抽取具體內(nèi)容。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析方法,其特征在于,所述利用算法對采集到的數(shù)據(jù)進(jìn)行標(biāo)注清洗并進(jìn)行語義分析具體可為:利用分類、回歸以及K-最近鄰分類算法對數(shù)據(jù)進(jìn)行標(biāo)注清洗,利用全局正負(fù)面詞庫和聚類進(jìn)行語義方面分析。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析方法,其特征在于,所述數(shù)據(jù)挖掘分析方法包括以下步驟:進(jìn)行云資源的配置,動態(tài)調(diào)整采集所需CPU、內(nèi)存和帶寬。
6.根據(jù)權(quán)利要求1至5之一所述的數(shù)據(jù)挖掘分析方法,其特征在于,所述數(shù)據(jù)挖掘分析方法可包括:建立基于lucene的搜索引擎進(jìn)行數(shù)據(jù)挖掘和分析。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)挖掘分析方法,其特征在于,所述數(shù)據(jù)挖掘分析方法可包括:對采集到的可視化的數(shù)據(jù)快照進(jìn)行存儲。
8.一種數(shù)據(jù)挖掘分析系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:
定義模塊,用于定義采集數(shù)據(jù)源和采集規(guī)則;
采集模塊,用于根據(jù)采集規(guī)則從數(shù)據(jù)源采集數(shù)據(jù);
過濾模塊,用于利用算法對采集到的數(shù)據(jù)進(jìn)行標(biāo)注清洗并進(jìn)行語義分析;
挖掘模塊,用于通過數(shù)據(jù)模型對清洗分析后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;
展示模塊,用于對挖掘分析的結(jié)果進(jìn)行可視化展示。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:配置模塊,用于進(jìn)行云資源的配置,動態(tài)調(diào)整采集所需CPU、內(nèi)存和帶寬。
10.根據(jù)權(quán)利要求7至9之一所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘分析系統(tǒng)包括:引擎模塊,用于建立基于lucene的搜索引擎進(jìn)行數(shù)據(jù)挖掘和分析。