本發(fā)明提出了一種基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理方法及系統(tǒng),涉及數(shù)據(jù)處理,具體涉及基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理。
背景技術(shù):
1、電子文件的處理涉及數(shù)據(jù)的收集、存儲(chǔ)、管理、分析和利用等多個(gè)環(huán)節(jié),對(duì)于海量電子文件數(shù)據(jù)的處理需求日益增加。然而,傳統(tǒng)的電子文件處理方法在處理效率、資源利用率和可擴(kuò)展性等方面存在諸多挑戰(zhàn)。傳統(tǒng)的電子文件處理方法通常采用集中式存儲(chǔ)和處理模式,即將電子文件數(shù)據(jù)集中存儲(chǔ)在單一服務(wù)器或數(shù)據(jù)中心,并通過該服務(wù)器或數(shù)據(jù)中心進(jìn)行處理。然而,隨著電子文件數(shù)據(jù)的爆炸式增長(zhǎng),集中式存儲(chǔ)和處理模式逐漸暴露出存儲(chǔ)容量受限、處理速度緩慢、資源利用率低、可擴(kuò)展性差等問題,現(xiàn)有技術(shù)技術(shù)難以對(duì)服務(wù)集群和數(shù)據(jù)包進(jìn)行單獨(dú)處理能力分析和結(jié)合分析,使得電子文件處理效率低,浪費(fèi)處理資源。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理方法及系統(tǒng),用以解決上述問題:
2、本發(fā)明提出的一種基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理方法及系統(tǒng),所述處理方法包括:
3、s1、獲取電子文件數(shù)據(jù),對(duì)所述電子文件數(shù)據(jù)進(jìn)行預(yù)處理和類別拆分,獲得文件拆分?jǐn)?shù)據(jù)包,進(jìn)而獲取分布式存儲(chǔ)數(shù)據(jù)包;
4、s2、對(duì)獲取的預(yù)設(shè)服務(wù)集群進(jìn)行數(shù)據(jù)處理能力分析,根據(jù)評(píng)估結(jié)果分配分布式存儲(chǔ)數(shù)據(jù)包,對(duì)預(yù)設(shè)分配數(shù)據(jù)包進(jìn)行模擬處理服務(wù)分析,進(jìn)而對(duì)預(yù)設(shè)服務(wù)集群進(jìn)行模擬處理判定;
5、s3、對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行被處理能力分析,對(duì)分布式存儲(chǔ)數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群,進(jìn)行模擬處理服務(wù)分析,進(jìn)而對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行模擬處理判定;
6、s4、獲取集群處理排序和數(shù)據(jù)包排序,通過同等排名的預(yù)設(shè)服務(wù)集群對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行實(shí)際處理和更新處理,獲得處理結(jié)果。
7、進(jìn)一步地,所述s1包括:
8、獲取電子文件處理請(qǐng)求信息,根據(jù)所述電子文件處理請(qǐng)求信息獲取需要進(jìn)行數(shù)據(jù)處理的電子文件數(shù)據(jù);
9、對(duì)所述電子文件數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后的電子文件數(shù)據(jù);
10、獲取預(yù)設(shè)電子文件拆分類別信息,根據(jù)所述預(yù)設(shè)電子文件拆分類別信息對(duì)所述預(yù)處理后的電子文件數(shù)據(jù)進(jìn)行文件數(shù)據(jù)拆分,獲得文件拆分?jǐn)?shù)據(jù)包;
11、對(duì)每個(gè)文件拆分?jǐn)?shù)據(jù)包進(jìn)行分布式存儲(chǔ),獲得多個(gè)分布式存儲(chǔ)數(shù)據(jù)包。
12、進(jìn)一步地,所述s2包括:
13、獲取多個(gè)預(yù)設(shè)服務(wù)集群信息,根據(jù)所述預(yù)設(shè)服務(wù)集群信息計(jì)算每個(gè)預(yù)設(shè)服務(wù)集群的數(shù)據(jù)處理能力系數(shù);
14、根據(jù)所述數(shù)據(jù)處理能力系數(shù)對(duì)所述預(yù)設(shè)服務(wù)集群分配分布式存儲(chǔ)數(shù)據(jù)包;
15、獲得預(yù)設(shè)服務(wù)集群的預(yù)設(shè)分配數(shù)據(jù)包;
16、通過預(yù)設(shè)服務(wù)集群對(duì)所述預(yù)設(shè)分配數(shù)據(jù)包進(jìn)行模擬處理服務(wù),獲得集群模擬處理數(shù)據(jù);
17、根據(jù)所述集群模擬處理數(shù)據(jù)計(jì)算集群模擬處理系數(shù);
18、根據(jù)所述集群模擬處理系數(shù)對(duì)所述預(yù)設(shè)服務(wù)集群進(jìn)行模擬處理判定,獲得預(yù)設(shè)服務(wù)集群的模擬處理判定信息。
19、進(jìn)一步地,所述s3包括:
20、分布式存儲(chǔ)數(shù)據(jù)包信息,根據(jù)所述分布式存儲(chǔ)數(shù)據(jù)包信息計(jì)算每個(gè)分布式存儲(chǔ)數(shù)據(jù)包的數(shù)據(jù)包被處理能力系數(shù);
21、根據(jù)所述數(shù)據(jù)包被處理能力系數(shù)對(duì)所述分布式存儲(chǔ)數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群;
22、獲取分布式存儲(chǔ)數(shù)據(jù)包的數(shù)據(jù)包集群;
23、通過所述數(shù)據(jù)包集群對(duì)所述分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行模擬處理服務(wù),獲得數(shù)據(jù)包模擬處理數(shù)據(jù);
24、根據(jù)所述數(shù)據(jù)包模擬處理數(shù)據(jù)計(jì)算數(shù)據(jù)包模擬處理系數(shù);
25、根據(jù)所述數(shù)據(jù)包模擬處理系數(shù)對(duì)所述分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行模擬處理判定,獲得分布式存儲(chǔ)數(shù)據(jù)包的模擬處理判定信息。
26、進(jìn)一步地,所述s4包括:
27、通過集群模擬處理系數(shù)對(duì)預(yù)設(shè)服務(wù)集群進(jìn)行從大到小的排序,獲得集群處理排序;
28、通過數(shù)據(jù)包模擬處理系數(shù)對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行從大到小的排序,獲得數(shù)據(jù)包排序;
29、通過同等排名的預(yù)設(shè)服務(wù)集群對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行實(shí)際處理,獲得實(shí)際處理數(shù)據(jù);
30、將實(shí)際處理數(shù)據(jù)與預(yù)設(shè)處理閾值進(jìn)行比較,獲得處理比較結(jié)果;
31、根據(jù)所述處理比較結(jié)果對(duì)集群處理排序和數(shù)據(jù)包排序進(jìn)行更新,進(jìn)而進(jìn)行實(shí)際重新處理,獲得重新處理結(jié)果。
32、進(jìn)一步地,所述處理系統(tǒng)包括:
33、文件數(shù)據(jù)拆分模塊,用于獲取電子文件數(shù)據(jù),對(duì)所述電子文件數(shù)據(jù)進(jìn)行預(yù)處理和類別拆分,獲得文件拆分?jǐn)?shù)據(jù)包,進(jìn)而獲取分布式存儲(chǔ)數(shù)據(jù)包;
34、集群能力分析模塊,用于對(duì)獲取的預(yù)設(shè)服務(wù)集群進(jìn)行數(shù)據(jù)處理能力分析,根據(jù)評(píng)估結(jié)果分配分布式存儲(chǔ)數(shù)據(jù)包,對(duì)預(yù)設(shè)分配數(shù)據(jù)包進(jìn)行模擬處理服務(wù)分析,進(jìn)而對(duì)預(yù)設(shè)服務(wù)集群進(jìn)行模擬處理判定;
35、數(shù)據(jù)包能力分析模塊,用于對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行被處理能力分析,對(duì)分布式存儲(chǔ)數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群,進(jìn)行模擬處理服務(wù)分析,進(jìn)而對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行模擬處理判定;
36、實(shí)際處理模塊,用于獲取集群處理排序和數(shù)據(jù)包排序,通過同等排名的預(yù)設(shè)服務(wù)集群對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行實(shí)際處理和更新處理,獲得處理結(jié)果。
37、進(jìn)一步地,所述文件數(shù)據(jù)拆分模塊包括:
38、獲取電子文件處理請(qǐng)求信息,根據(jù)所述電子文件處理請(qǐng)求信息獲取需要進(jìn)行數(shù)據(jù)處理的電子文件數(shù)據(jù);
39、對(duì)所述電子文件數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后的電子文件數(shù)據(jù);
40、獲取預(yù)設(shè)電子文件拆分類別信息,根據(jù)所述預(yù)設(shè)電子文件拆分類別信息對(duì)所述預(yù)處理后的電子文件數(shù)據(jù)進(jìn)行文件數(shù)據(jù)拆分,獲得文件拆分?jǐn)?shù)據(jù)包;
41、對(duì)每個(gè)文件拆分?jǐn)?shù)據(jù)包進(jìn)行分布式存儲(chǔ),獲得多個(gè)分布式存儲(chǔ)數(shù)據(jù)包。
42、進(jìn)一步地,所述集群能力分析模塊包括:
43、獲取多個(gè)預(yù)設(shè)服務(wù)集群信息,根據(jù)所述預(yù)設(shè)服務(wù)集群信息計(jì)算每個(gè)預(yù)設(shè)服務(wù)集群的數(shù)據(jù)處理能力系數(shù);
44、根據(jù)所述數(shù)據(jù)處理能力系數(shù)對(duì)所述預(yù)設(shè)服務(wù)集群分配分布式存儲(chǔ)數(shù)據(jù)包;
45、獲得預(yù)設(shè)服務(wù)集群的預(yù)設(shè)分配數(shù)據(jù)包;
46、通過預(yù)設(shè)服務(wù)集群對(duì)所述預(yù)設(shè)分配數(shù)據(jù)包進(jìn)行模擬處理服務(wù),獲得集群模擬處理數(shù)據(jù);
47、根據(jù)所述集群模擬處理數(shù)據(jù)計(jì)算集群模擬處理系數(shù);
48、根據(jù)所述集群模擬處理系數(shù)對(duì)所述預(yù)設(shè)服務(wù)集群進(jìn)行模擬處理判定,獲得預(yù)設(shè)服務(wù)集群的模擬處理判定信息。
49、進(jìn)一步地,所述數(shù)據(jù)包能力分析模塊包括:
50、分布式存儲(chǔ)數(shù)據(jù)包信息,根據(jù)所述分布式存儲(chǔ)數(shù)據(jù)包信息計(jì)算每個(gè)分布式存儲(chǔ)數(shù)據(jù)包的數(shù)據(jù)包被處理能力系數(shù);
51、根據(jù)所述數(shù)據(jù)包被處理能力系數(shù)對(duì)所述分布式存儲(chǔ)數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群;
52、獲取分布式存儲(chǔ)數(shù)據(jù)包的數(shù)據(jù)包集群;
53、通過所述數(shù)據(jù)包集群對(duì)所述分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行模擬處理服務(wù),獲得數(shù)據(jù)包模擬處理數(shù)據(jù);
54、根據(jù)所述數(shù)據(jù)包模擬處理數(shù)據(jù)計(jì)算數(shù)據(jù)包模擬處理系數(shù);
55、根據(jù)所述數(shù)據(jù)包模擬處理系數(shù)對(duì)所述分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行模擬處理判定,獲得分布式存儲(chǔ)數(shù)據(jù)包的模擬處理判定信息。
56、進(jìn)一步地,所述實(shí)際處理模塊包括:
57、通過集群模擬處理系數(shù)對(duì)預(yù)設(shè)服務(wù)集群進(jìn)行從大到小的排序,獲得集群處理排序;
58、通過數(shù)據(jù)包模擬處理系數(shù)對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行從大到小的排序,獲得數(shù)據(jù)包排序;
59、通過同等排名的預(yù)設(shè)服務(wù)集群對(duì)分布式存儲(chǔ)數(shù)據(jù)包進(jìn)行實(shí)際處理,獲得實(shí)際處理數(shù)據(jù);
60、將實(shí)際處理數(shù)據(jù)與預(yù)設(shè)處理閾值進(jìn)行比較,獲得處理比較結(jié)果;
61、根據(jù)所述處理比較結(jié)果對(duì)集群處理排序和數(shù)據(jù)包排序進(jìn)行更新,進(jìn)而進(jìn)行實(shí)際重新處理,獲得重新處理結(jié)果。
62、本發(fā)明有益效果:通過預(yù)處理和類別拆分,減少了處理過程中的冗余數(shù)據(jù),提高了處理效率。分布式存儲(chǔ)和并行處理使得多個(gè)服務(wù)集群節(jié)點(diǎn)可以同時(shí)處理不同的數(shù)據(jù)包,進(jìn)一步提高了處理速度。根據(jù)服務(wù)集群和數(shù)據(jù)包的性能評(píng)估結(jié)果,合理分配資源,避免了資源浪費(fèi)和瓶頸問題。模擬處理服務(wù)分析有助于在實(shí)際處理前發(fā)現(xiàn)潛在的問題,從而提前進(jìn)行優(yōu)化和調(diào)整。預(yù)處理步驟中的數(shù)據(jù)清洗和格式轉(zhuǎn)換確保了輸入數(shù)據(jù)的準(zhǔn)確性和一致性,可以提高處理結(jié)果的準(zhǔn)確性。多次迭代處理和更新處理可以不斷修正和完善處理結(jié)果,使其更加符合實(shí)際需求。分布式存儲(chǔ)和并行處理架構(gòu)使得系統(tǒng)可以方便地?cái)U(kuò)展新的服務(wù)集群節(jié)點(diǎn)和數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),以滿足不斷增長(zhǎng)的處理需求。系統(tǒng)可以靈活地適應(yīng)不同的處理任務(wù)和數(shù)據(jù)類型,提高了系統(tǒng)的通用性和適應(yīng)性。