欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)與流程

文檔序號(hào):40653233發(fā)布日期:2025-01-10 19:01閱讀:4來源:國知局
一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)與流程

本發(fā)明屬于大數(shù)據(jù)處理,特別涉及一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)。


背景技術(shù):

1、在芯片國產(chǎn)化的浪潮中,基于sw64指令集架構(gòu)的申威cpu芯片飛速發(fā)展,當(dāng)前已經(jīng)在服務(wù)器、pc端大量使用。越來越多的行業(yè)、公司選擇國產(chǎn)自研的申威服務(wù)器、pc機(jī)作為生產(chǎn)設(shè)備,搭建信息化平臺(tái)。在保證業(yè)務(wù)系統(tǒng)、架構(gòu)在申威設(shè)備上穩(wěn)定運(yùn)行的同時(shí),也給業(yè)務(wù)it部門的研發(fā)、維護(hù)迭代帶來了新的挑戰(zhàn)。

2、而在大數(shù)據(jù)時(shí)代,大批量小文件的處理是眾多業(yè)務(wù)形態(tài)中一個(gè)常見的業(yè)務(wù)需要。目前對(duì)于海量小文件的處理一味的堆砌服務(wù)器配置、依賴單一中間件很難達(dá)到高效存取的目標(biāo)。在申威國產(chǎn)cpu生態(tài)不斷發(fā)展的當(dāng)前階段,海量小文件的存儲(chǔ)更是一個(gè)待攻克的空白區(qū)域。

3、申威平臺(tái)由于其架構(gòu)特性,以hdfs為首的分布式文件系統(tǒng)均需要進(jìn)行定制化適配后方可在申威服務(wù)器上部署使用。此外,業(yè)界的分布式文件系統(tǒng)均是面向大文件存儲(chǔ)涉及,若直接上傳大量的小文件,將會(huì)生成大量元數(shù)據(jù)急劇消耗服務(wù)器內(nèi)存,嚴(yán)重影響文件的讀取速度,甚至可能直接拖垮整個(gè)文件系統(tǒng)。

4、當(dāng)前,處理小文件的主要方式為合并小文件后進(jìn)行存儲(chǔ),但只是簡單的記錄小文件存儲(chǔ)的偏移信息在處理方式上過于簡單粗暴,并不能高效的管理好小文件。上述的合并方式會(huì)造成查詢方式單一、查詢類別不夠豐富缺少可擴(kuò)展性、查詢效率低下的問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng),通過將小文件合并成較大文件,并在這一過程中構(gòu)建小文件的倒排索引。這樣的索引機(jī)制,使得讀取操作時(shí)能夠通過倒排索引快速定位到相應(yīng)到大文件,再根據(jù)索引中偏移量及文件大小信息精確截取到所需小文件,加上緩存的加入可以顯著提升小文件查詢速度。

2、為解決上述技術(shù)問題,本發(fā)明提供了一種基于倒排索引申威平臺(tái)的海量小文件存取方法,包括如下步驟:

3、步驟一:在申威平臺(tái)服務(wù)器部署分布式文件系統(tǒng),開啟腳本確認(rèn)文件系統(tǒng)正常工作,并檢測小文件處理請(qǐng)求;

4、步驟二:判斷是否收到小文件上傳請(qǐng)求;若是,則跳轉(zhuǎn)至步驟三;若否,則結(jié)束本次上傳流程;

5、步驟三:將小文件放入文件合并隊(duì)列,判斷文件合并隊(duì)列中文件大小是否達(dá)到閾值;若是,則對(duì)隊(duì)列中小文件逐個(gè)建立倒排索引,并將所有小文件合并為大文件后上傳到分布式文件系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn);若否,則繼續(xù)將小文件放入文件合并隊(duì)列;

6、步驟四:判斷隊(duì)列中是否存在阻塞等待上傳的文件;若是,則跳轉(zhuǎn)至步驟三;若否,則結(jié)束本次上傳流程;

7、步驟五:判斷是否收到小文件查詢請(qǐng)求;若是,則獲取查詢類型及查詢條件后跳轉(zhuǎn)至步驟六;若否,則結(jié)束本次查詢流程;

8、步驟六:根據(jù)查詢條件在倒排索引中搜索指定字段,得到滿足查詢條件的索引記錄,并獲取完整小文件信息;

9、步驟七:判斷緩存中是否有該小文件;若是,則直接從緩存中獲取,結(jié)束本次查詢流程;若否,則跳轉(zhuǎn)至步驟八;

10、步驟八:從倒排索引的索引記錄中獲取小文件在分布式文件系統(tǒng)中的存儲(chǔ)信息,根據(jù)在文件中的存儲(chǔ)偏移量及小文件大小信息解析出指定查詢小文件;

11、步驟九:判斷在設(shè)定周期時(shí)間內(nèi)小文件被訪問次數(shù)是否達(dá)到閾值;若是,則將查詢到的小文件加入緩存,結(jié)束本次查詢流程;若否,則直接結(jié)束本次查詢流程。

12、優(yōu)選的,所述步驟一中,通過申威平臺(tái)服務(wù)器運(yùn)行分布式文件系統(tǒng),且所述分布式文件系統(tǒng)采用申威平臺(tái)的版本,所用腳本通過申威平臺(tái)進(jìn)行兼容性修改為定制版本。

13、優(yōu)選的,所述步驟三中,所述合并隊(duì)列設(shè)置閾值應(yīng)小于分布式文件系統(tǒng)上所設(shè)置存儲(chǔ)單位的大小。

14、優(yōu)選的,所述步驟三中,所述倒排索引的索引數(shù)據(jù)至少包括小文件的名稱、文件大小、對(duì)應(yīng)合并文件存儲(chǔ)在文件系統(tǒng)上的文件名、在文件系統(tǒng)上存儲(chǔ)的合并文件中的偏移量以及文件上傳時(shí)間五個(gè)字段;其余文件相關(guān)信息支持用戶自定義擴(kuò)展;每個(gè)字段記錄文件對(duì)應(yīng)該字段具體內(nèi)容信息、倒排索引以及屬性信息結(jié)構(gòu)。

15、優(yōu)選的,每個(gè)字段的完整索引結(jié)構(gòu)包括倒排表和詞典;其中所述倒排表是一個(gè)有序數(shù)組,存儲(chǔ)匹配某個(gè)詞的所有文檔id以及該個(gè)詞在文檔中出現(xiàn)的位置信息;所述詞典是由文檔集合中出現(xiàn)過的所有單詞構(gòu)成的字符串集合,所述詞典中每條索引項(xiàng)記錄單詞本身信息及指向倒排表的指針。

16、優(yōu)選的,所述步驟五中,所述查詢類型包括:

17、精確查詢,用于對(duì)查詢內(nèi)容進(jìn)行等值判斷,查詢的內(nèi)容等于文件屬性中對(duì)應(yīng)字段的值;

18、模糊查詢,用于支持在不完全確定搜索條件的情況下查詢數(shù)據(jù),需要使用通配符來表示不確定的字符或字符序列;

19、范圍查詢,用于制定一個(gè)區(qū)間,查詢滿足該區(qū)間范圍內(nèi)的數(shù)據(jù);支持?jǐn)?shù)字、以及日期便于比較的字段類型。

20、優(yōu)選的,所述步驟六中,所述搜索指定字段的具體方法包括:根據(jù)查詢內(nèi)容和倒排索引查找到匹配項(xiàng)在倒排索引中的索引記錄,獲取到索引記錄中對(duì)應(yīng)的文檔id,根據(jù)文檔id去其它字段獲取小文件的具體信息,該具體信息包括在文件系統(tǒng)中的存儲(chǔ)位置信息。

21、優(yōu)選的,所述步驟七中直接從緩存中獲取后,還包括:判斷緩存中對(duì)應(yīng)小文件距離上次被訪問時(shí)間是否達(dá)到清除時(shí)間閾值;若是,則從緩存中刪除對(duì)應(yīng)小文件;其中所述清除時(shí)間閾值能夠自行配置,為小文件的訪問時(shí)間間隔周期。

22、優(yōu)選的,通過定時(shí)腳本掃描緩存對(duì)過期緩存文件進(jìn)行清除,該清除的具體方法包括:按設(shè)定時(shí)間間隔,用刪除緩存腳本逐個(gè)掃描以及判斷緩存中對(duì)應(yīng)小文件距離上次被訪問時(shí)間是否達(dá)到清除時(shí)間閾值。

23、本發(fā)明還提供了一種基于倒排索引申威平臺(tái)的海量小文件存取系統(tǒng),采用如上述所述的一種基于倒排索引申威平臺(tái)的海量小文件存取方法,包括文件上傳功能模塊和文件查詢功能模塊;其中所述文件上傳功能模塊包括文件請(qǐng)求處理模塊、文件合并模塊、索引模塊和文件上傳模塊;所述文件查詢功能模塊包括文件請(qǐng)求處理模塊、索引模塊、緩存模塊和文件獲取模塊;

24、所述文件請(qǐng)求處理模塊,負(fù)責(zé)處理用戶傳來的請(qǐng)求,該請(qǐng)求包括文件上傳和文件查詢請(qǐng)求;

25、所述文件合并模塊,負(fù)責(zé)將傳入小文件進(jìn)行合并;

26、所述索引模塊,負(fù)責(zé)對(duì)各小文件創(chuàng)建倒排索引,記錄文件屬性信息及存儲(chǔ)信息;

27、所述文件上傳模塊,負(fù)責(zé)上傳合并后文件;

28、所述緩存模塊,負(fù)責(zé)根據(jù)用戶查詢情況判斷是否緩存對(duì)應(yīng)小文件或清除緩存;

29、所述文件獲取模塊,負(fù)責(zé)基于倒排索引結(jié)果從文件系統(tǒng)上獲取到查詢的小文件。

30、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下有益效果:

31、本發(fā)明通過如下步驟來優(yōu)化數(shù)據(jù)存儲(chǔ)和查詢過程:將小文件合并成較大文件,并在這一過程中構(gòu)建小文件的倒排索引。這樣的索引機(jī)制,使得讀取操作時(shí)能夠通過倒排索引快速定位到相應(yīng)到大文件,再根據(jù)索引中偏移量及文件大小信息精確截取到所需小文件,加上緩存的加入可以顯著提升小文件查詢速度。倒排索引的存在也豐富了查詢文件的方式,支持模糊查詢、精確查詢、范圍查詢甚至復(fù)雜的組合條件查詢等等,大大增強(qiáng)了申威平臺(tái)上對(duì)于小文件的搜索能力,有助于小文件管理。此外,這一方法也完成了申威平臺(tái)在海量小文件存取方面零的突破。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌海市| 白山市| 龙里县| 绥化市| 呈贡县| 乌兰察布市| 子洲县| 宽城| 阿拉尔市| 岗巴县| 岐山县| 德清县| 黑龙江省| 虹口区| 黔东| 保亭| 顺义区| 简阳市| 南开区| 许昌市| 荔波县| 荃湾区| 玛纳斯县| 万源市| 岳西县| 晋州市| 佛山市| 奉新县| 建湖县| 苏尼特右旗| 廉江市| 辽宁省| 甘肃省| 石台县| 余庆县| 肃宁县| 康乐县| 化州市| 历史| 长顺县| 曲阜市|