欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多元大數(shù)據(jù)優(yōu)化存儲(chǔ)方法與流程

文檔序號(hào):40601688發(fā)布日期:2025-01-07 20:42閱讀:6來(lái)源:國(guó)知局
一種多元大數(shù)據(jù)優(yōu)化存儲(chǔ)方法與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體地,本發(fā)明涉及一種多元大數(shù)據(jù)優(yōu)化存儲(chǔ)方法。


背景技術(shù):

1、隨著科技的發(fā)展,每天都會(huì)產(chǎn)生大量數(shù)據(jù),例如生產(chǎn)線數(shù)據(jù)。為了便于進(jìn)行生產(chǎn)線管理,一般需要實(shí)時(shí)采集多元的生產(chǎn)線數(shù)據(jù),長(zhǎng)期以往就會(huì)采集到大量的多元生產(chǎn)線數(shù)據(jù),而這些采集到的多元生產(chǎn)線數(shù)據(jù)需要保存一段時(shí)間,從而在后續(xù)產(chǎn)品出現(xiàn)問題時(shí),能夠快速的分析出成因。而要將這些數(shù)據(jù)存儲(chǔ)下來(lái)需要大量的存儲(chǔ)成本。為了節(jié)約存儲(chǔ)成本,需對(duì)采集的數(shù)據(jù)進(jìn)行壓縮處理。

2、霍夫曼編碼算法作為一種無(wú)損壓縮算法,其常用于數(shù)據(jù)的壓縮處理?;舴蚵幋a算法是根據(jù)數(shù)據(jù)的出現(xiàn)頻率進(jìn)行編碼,其中出現(xiàn)頻率越高,給其設(shè)置的編碼長(zhǎng)度越短,出現(xiàn)頻率越低,給其設(shè)置的編碼長(zhǎng)度越長(zhǎng)。而現(xiàn)實(shí)中不同時(shí)刻的多元生產(chǎn)線數(shù)據(jù)不盡相同,因而每種多元生產(chǎn)線數(shù)據(jù)的出現(xiàn)頻率較低,而數(shù)據(jù)出現(xiàn)頻率較低就會(huì)導(dǎo)致編碼長(zhǎng)度較長(zhǎng),而編碼長(zhǎng)度較長(zhǎng)就會(huì)導(dǎo)致數(shù)據(jù)壓縮效果較差。因而如何在數(shù)據(jù)出現(xiàn)頻率較低時(shí)也能達(dá)到較好的壓縮效果成為本發(fā)明的研究重點(diǎn)。

3、授權(quán)公告號(hào)為cn104283568b的專利文件中展示了一種基于部分霍夫曼樹的數(shù)據(jù)壓縮編碼方法,該專利文件主要是通過分層構(gòu)建編碼表的方式來(lái)提高壓縮效率。該專利文件中編碼方法不能解決出現(xiàn)頻率低造成的數(shù)據(jù)壓縮效果差的問題,因而該專利文件不能較好解決本發(fā)明中問題。


技術(shù)實(shí)現(xiàn)思路

1、為解決如何在數(shù)據(jù)出現(xiàn)頻率較低時(shí)也能達(dá)到較好的壓縮效果的問題,本發(fā)明提出一種多元大數(shù)據(jù)優(yōu)化存儲(chǔ)方法,該方法包括以下步驟:

2、獲取若干多元數(shù)據(jù)點(diǎn);

3、將與所有多元數(shù)據(jù)點(diǎn)的幾何中心最近的多元數(shù)據(jù)點(diǎn)作為比對(duì)點(diǎn),計(jì)算比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性,將比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他所有維度的相關(guān)性均值作為比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度的相關(guān)性描述值;根據(jù)相關(guān)性描述值對(duì)所有多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理;

4、利用pca算法對(duì)各類別的多元數(shù)據(jù)點(diǎn)進(jìn)行處理,獲取特征值最大的主成分方向記為第一主成分方向,在各類別的所有多元數(shù)據(jù)點(diǎn)的幾何中心和第一主成分方向定位出的直線上獲取最外側(cè)多元數(shù)據(jù)點(diǎn)記為基準(zhǔn)數(shù)據(jù)點(diǎn);獲取類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)構(gòu)成的向量作為各多元數(shù)據(jù)點(diǎn)的描述向量,獲取各多元數(shù)據(jù)點(diǎn)的描述向量的單位向量以及模長(zhǎng);

5、將單位向量作為編碼對(duì)象,對(duì)類別中所有多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行霍夫曼編碼,將多元數(shù)據(jù)點(diǎn)的單位向量對(duì)應(yīng)的編碼以及模長(zhǎng)進(jìn)行存儲(chǔ)。

6、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)具有一定的分布方向,因而具有同一分布方向的多元數(shù)據(jù)點(diǎn)的數(shù)量較多,從而以多元數(shù)據(jù)點(diǎn)的分布方向作為編碼對(duì)象可以有效提高壓縮量;進(jìn)一步地,以多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)的單位向量來(lái)反映多元數(shù)據(jù)點(diǎn)的分布方向,其不僅具有較高的描述準(zhǔn)確性,同時(shí)引入較少的無(wú)關(guān)數(shù)據(jù),有效提高壓縮量;進(jìn)一步地,為了使多元數(shù)據(jù)點(diǎn)具有較強(qiáng)分布方向特征,根據(jù)多元數(shù)據(jù)點(diǎn)的分布關(guān)系對(duì)多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,使具有同一分布方向的多元數(shù)據(jù)點(diǎn)分割在一個(gè)類別中,為提高壓縮量提供數(shù)據(jù)基礎(chǔ);進(jìn)一步地,通過相關(guān)性描述值能夠較為準(zhǔn)確的反映多元數(shù)據(jù)點(diǎn)的分布關(guān)系,為準(zhǔn)確聚類提供基礎(chǔ)。進(jìn)一步地,在構(gòu)建相關(guān)性描述值時(shí),考慮到不同維度的數(shù)據(jù)之間的關(guān)聯(lián)性能夠有效反映多元數(shù)據(jù)的分布關(guān)系,因而利用不同維度的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來(lái)構(gòu)建相關(guān)性描述值。

7、優(yōu)選的,所述計(jì)算比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性,包括:

8、將任意一個(gè)維度作為目標(biāo)維度,將比對(duì)數(shù)據(jù)點(diǎn)在目標(biāo)維度的數(shù)據(jù)與其他各多元數(shù)據(jù)點(diǎn)在目標(biāo)維度的數(shù)據(jù)構(gòu)成向量記為目標(biāo)維度的分析向量,將目標(biāo)維度的分析向量與其他維度的分析向量的皮爾遜相關(guān)系數(shù)的絕對(duì)值作為比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的目標(biāo)維度與其他維度的相關(guān)性;

9、獲取比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性。

10、本發(fā)明通過皮爾遜相關(guān)系數(shù)的絕對(duì)值來(lái)反映不同維度數(shù)據(jù)的相關(guān)性,其實(shí)現(xiàn)效率更高。

11、優(yōu)選的,所述根據(jù)相關(guān)性描述值對(duì)所有多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,包括:

12、將比對(duì)點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的所有維度的相關(guān)性描述值構(gòu)成的向量作為其他各多元數(shù)據(jù)點(diǎn)的分類基準(zhǔn),對(duì)各其他多元數(shù)據(jù)點(diǎn)進(jìn)行聚類得到若干類別,將與比對(duì)數(shù)據(jù)點(diǎn)最近的類別作為比對(duì)數(shù)據(jù)點(diǎn)的所屬類別。

13、本發(fā)明以相關(guān)性描述值作為分類基準(zhǔn),其能夠有效將同一分類特征的數(shù)據(jù)分割在一起,為后續(xù)有效數(shù)據(jù)壓縮提供數(shù)據(jù)基礎(chǔ)。

14、優(yōu)選的,所述在各類別的所有多元數(shù)據(jù)點(diǎn)的幾何中心和第一主成分方向定位出的直線上獲取最外側(cè)多元數(shù)據(jù)點(diǎn)記為基準(zhǔn)數(shù)據(jù)點(diǎn),包括:

15、獲取各類別中所有多元數(shù)據(jù)點(diǎn)的幾何中心,利用幾何中心以及第一主成分方向擬合出直線,在擬合出的直線上獲取任意一個(gè)最外側(cè)多元數(shù)據(jù)點(diǎn),記為基準(zhǔn)數(shù)據(jù)點(diǎn)。

16、優(yōu)選的,所述獲取類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)構(gòu)成的向量作為各多元數(shù)據(jù)點(diǎn)的描述向量,包括:

17、將類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)作差得到的向量作為各多元數(shù)據(jù)的描述向量。

18、優(yōu)選的,所述獲取各多元數(shù)據(jù)點(diǎn)的描述向量的單位向量以及模長(zhǎng),包括:

19、獲取多元數(shù)據(jù)點(diǎn)的描述向量的模長(zhǎng),將多元數(shù)據(jù)點(diǎn)的描述向量除以模長(zhǎng)得到單位向量。

20、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)沿一個(gè)方向分布時(shí),描述向量偏離分布方向的程度較小,因而多元數(shù)據(jù)點(diǎn)的描述向量的單位向量的多樣性更少,多樣性少會(huì)導(dǎo)致霍夫曼樹的編碼長(zhǎng)度更短;進(jìn)一步地,考慮到多元數(shù)據(jù)點(diǎn)沿一個(gè)方向分布時(shí),描述向量的單位向量與分布方向的偏離程度較小,在描述向量的單位向量上分布的多元數(shù)據(jù)點(diǎn)更多,因而以描述向量的單位向量作為編碼對(duì)象時(shí),其壓縮量更大。

21、優(yōu)選的,所述將單位向量作為編碼對(duì)象,對(duì)類別中所有多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行霍夫曼編碼,包括:

22、對(duì)類別中多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行統(tǒng)計(jì)得到單位向量的出現(xiàn)頻率,根據(jù)單位向量的出現(xiàn)頻率,利用霍夫曼編碼算法構(gòu)建霍夫曼樹,根據(jù)霍夫曼樹得到單位向量的編碼。

23、優(yōu)選的,所述將多元數(shù)據(jù)點(diǎn)的單位向量對(duì)應(yīng)的編碼以及模長(zhǎng)進(jìn)行存儲(chǔ),包括:

24、將霍夫曼樹、基準(zhǔn)數(shù)據(jù)點(diǎn)、多元數(shù)據(jù)點(diǎn)的單位向量對(duì)應(yīng)的編碼和模長(zhǎng)進(jìn)行存儲(chǔ)。

25、本發(fā)明將霍夫曼樹、基準(zhǔn)數(shù)據(jù)點(diǎn)、多元數(shù)據(jù)點(diǎn)的單位向量對(duì)應(yīng)的編碼和模長(zhǎng)進(jìn)行存儲(chǔ),能夠節(jié)約存儲(chǔ)空間的同時(shí),還能為數(shù)據(jù)解壓縮提供數(shù)據(jù)基礎(chǔ)。

26、本發(fā)明具有以下有益效果:

27、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)具有一定的分布方向,因而具有同一分布方向的多元數(shù)據(jù)點(diǎn)的數(shù)量較多,從而以多元數(shù)據(jù)點(diǎn)的分布方向作為編碼對(duì)象可以有效提高壓縮量;

28、進(jìn)一步地,以多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)的單位向量來(lái)反映多元數(shù)據(jù)點(diǎn)的分布方向,其不僅具有較高的描述準(zhǔn)確性,同時(shí)引入較少的無(wú)關(guān)數(shù)據(jù),有效提高壓縮量;

29、進(jìn)一步地,為了使多元數(shù)據(jù)點(diǎn)具有較強(qiáng)分布方向特征,根據(jù)多元數(shù)據(jù)點(diǎn)的分布關(guān)系對(duì)多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,使具有同一分布方向的多元數(shù)據(jù)點(diǎn)分割在一個(gè)類別中,為提高壓縮量提供數(shù)據(jù)基礎(chǔ);

30、進(jìn)一步地,通過相關(guān)性描述值能夠較為準(zhǔn)確的反映多元數(shù)據(jù)點(diǎn)的分布關(guān)系,為準(zhǔn)確聚類提供基礎(chǔ)。

31、進(jìn)一步地,在構(gòu)建相關(guān)性描述值時(shí),考慮到不同維度的數(shù)據(jù)之間的關(guān)聯(lián)性能夠有效反映多元數(shù)據(jù)的分布關(guān)系,因而利用不同維度的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來(lái)構(gòu)建相關(guān)性描述值。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
晋州市| 建瓯市| 营山县| 镇江市| 育儿| 万山特区| 图们市| 连江县| 渝中区| 胶南市| 罗定市| 内江市| 白沙| 昌吉市| 循化| 新乡市| 炎陵县| 海伦市| 同德县| 原平市| 台东县| 遂川县| 中西区| 林口县| 宜都市| 施秉县| 盐山县| 舒兰市| 乌拉特中旗| 定西市| 炉霍县| 全州县| 卓资县| 泾源县| 兴义市| 淅川县| 科技| 汉寿县| 武胜县| 镇宁| 黄梅县|