本發(fā)明涉及數(shù)據(jù)存儲(chǔ),具體涉及一種數(shù)據(jù)分布式存儲(chǔ)方法、計(jì)算機(jī)設(shè)備和程序產(chǎn)品。
背景技術(shù):
1、在具有中心元服務(wù)器的分布式存儲(chǔ)系統(tǒng)中,元服務(wù)器的作用包括數(shù)據(jù)定位、訪問(wèn)控制、統(tǒng)一命名空間管理、高可用性保障、負(fù)載均衡調(diào)度等。其中節(jié)點(diǎn)服務(wù)器與中心元服務(wù)器的通信帶寬大小影響著整個(gè)存儲(chǔ)系統(tǒng)的運(yùn)行效率。
2、工作人員可根據(jù)系統(tǒng)實(shí)際運(yùn)行情況按照經(jīng)驗(yàn)設(shè)置帶寬,以滿(mǎn)足系統(tǒng)的調(diào)度運(yùn)行,但是這種方法難以保證帶寬調(diào)整的合理性和及時(shí)性。因此現(xiàn)有技術(shù)可利用機(jī)器學(xué)習(xí)方法結(jié)合歷史信息去預(yù)測(cè)未來(lái)時(shí)刻的訪問(wèn)數(shù)據(jù),進(jìn)而及時(shí)確定節(jié)點(diǎn)服務(wù)器的帶寬,保證帶寬調(diào)整的實(shí)時(shí)性。但是該方法未考慮到數(shù)據(jù)訪問(wèn)過(guò)程中熱點(diǎn)信息的影響,因?yàn)榉植际较到y(tǒng)中數(shù)據(jù)信息被分散存儲(chǔ)至多個(gè)節(jié)點(diǎn)服務(wù)器中,因此存儲(chǔ)有熱點(diǎn)信息數(shù)據(jù)的節(jié)點(diǎn)服務(wù)器會(huì)獲得較高的訪問(wèn)量,若在實(shí)際數(shù)據(jù)訪問(wèn)存儲(chǔ)過(guò)程中熱點(diǎn)信息發(fā)生變化,導(dǎo)致歷史數(shù)據(jù)中包含大量無(wú)用信息,影響該節(jié)點(diǎn)服務(wù)器的預(yù)測(cè)結(jié)果,進(jìn)而導(dǎo)致帶寬設(shè)置不準(zhǔn)確,影響數(shù)據(jù)的訪問(wèn)與存儲(chǔ)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中因?yàn)槲纯紤]到熱點(diǎn)信息數(shù)據(jù)的影響,導(dǎo)致歷史數(shù)據(jù)中包含大量無(wú)用信息,節(jié)點(diǎn)服務(wù)器的預(yù)測(cè)結(jié)果不準(zhǔn)確,進(jìn)而導(dǎo)致帶寬設(shè)置不準(zhǔn)確的技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種數(shù)據(jù)分布式存儲(chǔ)方法、計(jì)算機(jī)設(shè)備和程序產(chǎn)品,所采用的技術(shù)方案具體如下:
2、本發(fā)明提出了一種數(shù)據(jù)分布式存儲(chǔ)方法,所述方法包括:
3、獲取實(shí)時(shí)時(shí)間段的若干歷史時(shí)間段;獲取分布式存儲(chǔ)集群中每個(gè)節(jié)點(diǎn)服務(wù)器的存儲(chǔ)信息;所述存儲(chǔ)信息包括各個(gè)時(shí)間段的訪問(wèn)量以及每個(gè)用戶(hù)的訪問(wèn)特征集合;
4、在每個(gè)節(jié)點(diǎn)服務(wù)器下,獲取節(jié)點(diǎn)服務(wù)器在每個(gè)時(shí)間段下的訪問(wèn)量占比;獲取每個(gè)歷史時(shí)間段與所述實(shí)時(shí)時(shí)間段之間的用戶(hù)分布相似性;所述用戶(hù)分布相似性是基于用戶(hù)之間的訪問(wèn)特征集合的相似情況進(jìn)行獲得;根據(jù)每個(gè)歷史時(shí)間段下所述用戶(hù)分布相似性以及訪問(wèn)量占比,獲得實(shí)時(shí)時(shí)間段下的預(yù)測(cè)訪問(wèn)量占比;根據(jù)實(shí)時(shí)時(shí)間段下實(shí)際訪問(wèn)量占比與預(yù)測(cè)訪問(wèn)量占比的差異獲得熱點(diǎn)信息變化程度;
5、根據(jù)所述熱點(diǎn)信息變化程度獲得截取數(shù)據(jù)長(zhǎng)度,根據(jù)截取數(shù)據(jù)長(zhǎng)度截取歷史時(shí)間段內(nèi)的數(shù)據(jù)作為參考數(shù)據(jù),根據(jù)所述參考數(shù)據(jù)預(yù)測(cè)未來(lái)時(shí)間段下的預(yù)測(cè)訪問(wèn)數(shù)據(jù);
6、根據(jù)所述預(yù)測(cè)訪問(wèn)數(shù)據(jù)與實(shí)時(shí)時(shí)間段下訪問(wèn)數(shù)據(jù)之間的訪問(wèn)量差異調(diào)整節(jié)點(diǎn)服務(wù)器的帶寬。
7、進(jìn)一步地,所述訪問(wèn)量占比為一個(gè)時(shí)間段下,一個(gè)節(jié)點(diǎn)服務(wù)器的訪問(wèn)量在所有節(jié)點(diǎn)服務(wù)器的訪問(wèn)量中的占比。
8、進(jìn)一步地,所述用戶(hù)分布相似性的獲取方法包括:
9、對(duì)于任意兩個(gè)用戶(hù),獲取兩個(gè)用戶(hù)之間所述訪問(wèn)特征集合之間的交并比作為相似度,若所述相似度大于預(yù)設(shè)閾值,則判斷兩個(gè)用戶(hù)相似;
10、根據(jù)歷史時(shí)間段中與實(shí)時(shí)時(shí)間段之間相似用戶(hù)的占比,獲得所述用戶(hù)分布相似性。
11、進(jìn)一步地,所述預(yù)測(cè)訪問(wèn)量占比的獲取方法包括:
12、將每個(gè)歷史時(shí)間段下的用戶(hù)分布相似性作為訪問(wèn)量占比的權(quán)重,對(duì)所有歷史時(shí)間段下的訪問(wèn)量占比進(jìn)行加權(quán)求平均,獲得所述預(yù)測(cè)訪問(wèn)量占比。
13、進(jìn)一步地,所述熱點(diǎn)信息變化程度的獲取方法包括:
14、實(shí)時(shí)時(shí)間段下實(shí)際訪問(wèn)量占比與預(yù)測(cè)訪問(wèn)量占比的差值絕對(duì)值進(jìn)行歸一化處理,獲得所述熱點(diǎn)信息變化程度。
15、進(jìn)一步地,所述未來(lái)時(shí)間段下的截取數(shù)據(jù)長(zhǎng)度的獲取方法包括:
16、將所述熱點(diǎn)信息變化程度進(jìn)行負(fù)相關(guān)映射并歸一化后獲得長(zhǎng)度調(diào)整系數(shù),將所述長(zhǎng)度調(diào)整系數(shù)與所有歷史時(shí)間段下合并得到的訪問(wèn)數(shù)據(jù)的長(zhǎng)度相乘,獲得所述截取數(shù)據(jù)長(zhǎng)度。
17、進(jìn)一步地,所述服務(wù)器的帶寬的調(diào)整方法包括:
18、將所述訪問(wèn)量差異在實(shí)時(shí)時(shí)間段下訪問(wèn)量的占比作為帶寬調(diào)整系數(shù),將所述帶寬調(diào)整系數(shù)與實(shí)時(shí)時(shí)間段下的帶寬相乘,獲得帶寬調(diào)整量,將所述帶寬調(diào)整量與實(shí)時(shí)時(shí)間段下的帶寬相加,獲得所述節(jié)點(diǎn)服務(wù)器調(diào)整后的帶寬。
19、進(jìn)一步地,所述訪問(wèn)特征集合至少包括:訪問(wèn)的時(shí)間、設(shè)備類(lèi)型、用戶(hù)的身份和權(quán)限、網(wǎng)絡(luò)信息。
20、本發(fā)明還提出了一種數(shù)據(jù)分布式存儲(chǔ)計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括:
21、分布式存儲(chǔ)信息獲取模塊,用于獲取實(shí)時(shí)時(shí)間段的若干歷史時(shí)間段;獲取分布式存儲(chǔ)集群中每個(gè)節(jié)點(diǎn)服務(wù)器的存儲(chǔ)信息;所述存儲(chǔ)信息包括各個(gè)時(shí)間段的訪問(wèn)量以及每個(gè)用戶(hù)的訪問(wèn)特征集合;
22、第一節(jié)點(diǎn)服務(wù)器分析模塊,用于在每個(gè)節(jié)點(diǎn)服務(wù)器下,獲取節(jié)點(diǎn)服務(wù)器在每個(gè)時(shí)間段下的訪問(wèn)量占比;獲取每個(gè)歷史時(shí)間段與所述實(shí)時(shí)時(shí)間段之間的用戶(hù)分布相似性;所述用戶(hù)分布相似性是基于用戶(hù)之間的訪問(wèn)特征集合的相似情況進(jìn)行獲得;
23、第二節(jié)點(diǎn)服務(wù)器分析模塊,用于在每個(gè)節(jié)點(diǎn)服務(wù)器下,根據(jù)每個(gè)歷史時(shí)間段下所述用戶(hù)分布相似性以及訪問(wèn)量占比,獲得實(shí)時(shí)時(shí)間段下的預(yù)測(cè)訪問(wèn)量占比;根據(jù)實(shí)時(shí)時(shí)間段下實(shí)際訪問(wèn)量占比與預(yù)測(cè)訪問(wèn)量占比的差異獲得熱點(diǎn)信息變化程度;根據(jù)所述熱點(diǎn)信息變化程度獲得未來(lái)時(shí)間段的訪問(wèn)數(shù)據(jù)長(zhǎng)度,并獲得未來(lái)時(shí)間段下的預(yù)測(cè)訪問(wèn)數(shù)據(jù);
24、節(jié)點(diǎn)服務(wù)器帶寬調(diào)整模塊,用于根據(jù)所述預(yù)測(cè)訪問(wèn)數(shù)據(jù)與實(shí)時(shí)時(shí)間段下訪問(wèn)數(shù)據(jù)之間的差異調(diào)整節(jié)點(diǎn)服務(wù)器的帶寬。
25、本發(fā)明還提出了一種數(shù)據(jù)分布式存儲(chǔ)程序產(chǎn)品,所述程序產(chǎn)品用于實(shí)現(xiàn)任意一項(xiàng)所述的一種數(shù)據(jù)分布式存儲(chǔ)方法的步驟。
26、本發(fā)明具有如下有益效果:
27、本發(fā)明在對(duì)未來(lái)時(shí)刻進(jìn)行屬于預(yù)測(cè)之前,首先利用實(shí)時(shí)時(shí)間段之前的歷史時(shí)間段對(duì)實(shí)時(shí)時(shí)間段進(jìn)行數(shù)據(jù)預(yù)測(cè),獲得預(yù)測(cè)訪問(wèn)量占比,進(jìn)而通過(guò)預(yù)測(cè)訪問(wèn)量占比與實(shí)際訪問(wèn)量占比的差異評(píng)估實(shí)時(shí)時(shí)間段內(nèi)的熱點(diǎn)信息變化程度,即差異越大說(shuō)明熱點(diǎn)信息變化程度越大,則歷史信息包含的有用信息越少,越需要較為接近的歷史時(shí)刻的數(shù)據(jù)作為參考數(shù)據(jù)。通過(guò)對(duì)參考數(shù)據(jù)的有效截取,能夠增加未來(lái)時(shí)間段下預(yù)測(cè)訪問(wèn)數(shù)據(jù)的準(zhǔn)確度,進(jìn)而可根據(jù)預(yù)測(cè)訪問(wèn)數(shù)據(jù)與實(shí)時(shí)時(shí)間段下訪問(wèn)數(shù)據(jù)的訪問(wèn)量差異對(duì)節(jié)點(diǎn)服務(wù)器的帶寬進(jìn)行自適應(yīng)有效調(diào)節(jié)。
1.一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述訪問(wèn)量占比為一個(gè)時(shí)間段下,一個(gè)節(jié)點(diǎn)服務(wù)器的訪問(wèn)量在所有節(jié)點(diǎn)服務(wù)器的訪問(wèn)量中的占比。
3.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述用戶(hù)分布相似性的獲取方法包括:
4.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述預(yù)測(cè)訪問(wèn)量占比的獲取方法包括:
5.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述熱點(diǎn)信息變化程度的獲取方法包括:
6.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述未來(lái)時(shí)間段下的截取數(shù)據(jù)長(zhǎng)度的獲取方法包括:
7.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述服務(wù)器的帶寬的調(diào)整方法包括:
8.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于,所述訪問(wèn)特征集合至少包括:訪問(wèn)的時(shí)間、設(shè)備類(lèi)型、用戶(hù)的身份和權(quán)限、網(wǎng)絡(luò)信息。
9.一種數(shù)據(jù)分布式存儲(chǔ)計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括:
10.一種數(shù)據(jù)分布式存儲(chǔ)程序產(chǎn)品,其特征在于,所述程序產(chǎn)品用于實(shí)現(xiàn)如權(quán)利要求1~8任意一項(xiàng)所述的一種數(shù)據(jù)分布式存儲(chǔ)方法的步驟。