一種基于加速迭代的大數(shù)據(jù)集譜聚類的方法
【技術(shù)領(lǐng)域】
:
[0001]本發(fā)明涉及大數(shù)據(jù)集處理技術(shù)領(lǐng)域,具體涉及一種基于加速迭代的大數(shù)據(jù)集譜聚類的方法。
【背景技術(shù)】
:
[0002]大數(shù)據(jù)指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。對于“大數(shù)據(jù)”(Big data)研宄機構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
[0003]大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
[0004]從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
[0005]隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce —樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
[0006]傳統(tǒng)譜聚類算法的諸多優(yōu)點只適合小數(shù)據(jù)集,在運行大數(shù)據(jù)集時存在速度慢,反應(yīng)遲鈍。
【發(fā)明內(nèi)容】
:
[0007]本發(fā)明的目的是提供一種基于加速迭代的大數(shù)據(jù)集譜聚類的方法,它根據(jù)矩陣的特點重新構(gòu)造新的矩陣,利用加速迭代法解決大數(shù)據(jù)集的譜聚類特征提取問題,使得在大數(shù)據(jù)集條件下,譜聚類算法只需要很小的空間復雜度就可達到非??斓挠嬎闼俣?。
[0008]為了解決【背景技術(shù)】所存在的問題,本發(fā)明是采用如下技術(shù)方案:它的方法為:
[0009]步驟一:將目標大數(shù)據(jù)表示成特征向量的形式,形成可供進行分析的數(shù)據(jù)庫;
[0010]步驟二:將分析模型的空間從特征方面進行分解,形成若干子空間;
[0011]步驟三:利用分解得到的子空間進行并行求解;
[0012]步驟四:利用迭代算法進行分析:利用統(tǒng)計學上的效能估計概念提出了一種增量的協(xié)方差無關(guān)的方法CCIPCA ;
[0013]步驟五:算法特征向量分析。
[0014]本發(fā)明具有如下有益效果:根據(jù)矩陣的特點重新構(gòu)造新的矩陣,利用加速迭代法解決大數(shù)據(jù)集的譜聚類特征提取問題,使得在大數(shù)據(jù)集條件下,譜聚類算法只需要很小的空間復雜度就可達到非??斓挠嬎闼俣取?br>【具體實施方式】
:
[0015]本【具體實施方式】采用如下技術(shù)方案:它的方法為:
[0016]步驟一:將目標大數(shù)據(jù)表示成特征向量的形式,形成可供進行分析的數(shù)據(jù)庫;
[0017]步驟二:將分析模型的空間從特征方面進行分解,形成若干子空間;
[0018]步驟三:利用分解得到的子空間進行并行求解;
[0019]步驟四:利用迭代算法進行分析:利用統(tǒng)計學上的效能估計概念提出了一種增量的協(xié)方差無關(guān)的方法CCIPCA ;
[0020]步驟五:算法特征向量分析。
[0021]本【具體實施方式】根據(jù)矩陣的特點重新構(gòu)造新的矩陣,利用加速迭代法解決大數(shù)據(jù)集的譜聚類特征提取問題,使得在大數(shù)據(jù)集條件下,譜聚類算法只需要很小的空間復雜度就可達到非??斓挠嬎闼俣取?br>[0022]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于加速迭代的大數(shù)據(jù)集譜聚類的方法,其特征在于它的方法為: 步驟一:將目標大數(shù)據(jù)表示成特征向量的形式,形成可供進行分析的數(shù)據(jù)庫; 步驟二:將分析模型的空間從特征方面進行分解,形成若干子空間; 步驟三:利用分解得到的子空間進行并行求解; 步驟四:利用迭代算法進行分析:利用統(tǒng)計學上的效能估計概念提出了一種增量的協(xié)方差無關(guān)的方法CCIPCA ; 步驟五:算法特征向量分析。
【專利摘要】一種基于加速迭代的大數(shù)據(jù)集譜聚類的方法,它涉及大數(shù)據(jù)集處理技術(shù)領(lǐng)域,它的方法為:步驟一:將目標大數(shù)據(jù)表示成特征向量的形式,形成可供進行分析的數(shù)據(jù)庫;步驟二:將分析模型的空間從特征方面進行分解,形成若干子空間;步驟三:利用分解得到的子空間進行并行求解;步驟四:利用迭代算法進行分析;步驟五:算法特征向量分析;它根據(jù)矩陣的特點重新構(gòu)造新的矩陣,利用加速迭代法解決大數(shù)據(jù)集的譜聚類特征提取問題,使得在大數(shù)據(jù)集條件下,譜聚類算法只需要很小的空間復雜度就可達到非??斓挠嬎闼俣?。
【IPC分類】G06F17/30
【公開號】CN104933089
【申請?zhí)枴緾N201510249161
【發(fā)明人】傅濤, 朱平, 蔣霞
【申請人】江蘇博智軟件科技有限公司
【公開日】2015年9月23日
【申請日】2015年5月15日