一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)與流程

文檔序號(hào)：40653233發(fā)布日期：2025-01-10 19:01閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于大數(shù)據(jù)處理，特別涉及一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)。

背景技術(shù)：

1、在芯片國產(chǎn)化的浪潮中，基于sw64指令集架構(gòu)的申威cpu芯片飛速發(fā)展，當(dāng)前已經(jīng)在服務(wù)器、pc端大量使用。越來越多的行業(yè)、公司選擇國產(chǎn)自研的申威服務(wù)器、pc機(jī)作為生產(chǎn)設(shè)備，搭建信息化平臺(tái)。在保證業(yè)務(wù)系統(tǒng)、架構(gòu)在申威設(shè)備上穩(wěn)定運(yùn)行的同時(shí)，也給業(yè)務(wù)it部門的研發(fā)、維護(hù)迭代帶來了新的挑戰(zhàn)。

2、而在大數(shù)據(jù)時(shí)代，大批量小文件的處理是眾多業(yè)務(wù)形態(tài)中一個(gè)常見的業(yè)務(wù)需要。目前對(duì)于海量小文件的處理一味的堆砌服務(wù)器配置、依賴單一中間件很難達(dá)到高效存取的目標(biāo)。在申威國產(chǎn)cpu生態(tài)不斷發(fā)展的當(dāng)前階段，海量小文件的存儲(chǔ)更是一個(gè)待攻克的空白區(qū)域。

3、申威平臺(tái)由于其架構(gòu)特性，以hdfs為首的分布式文件系統(tǒng)均需要進(jìn)行定制化適配后方可在申威服務(wù)器上部署使用。此外，業(yè)界的分布式文件系統(tǒng)均是面向大文件存儲(chǔ)涉及，若直接上傳大量的小文件，將會(huì)生成大量元數(shù)據(jù)急劇消耗服務(wù)器內(nèi)存，嚴(yán)重影響文件的讀取速度，甚至可能直接拖垮整個(gè)文件系統(tǒng)。

4、當(dāng)前，處理小文件的主要方式為合并小文件后進(jìn)行存儲(chǔ)，但只是簡單的記錄小文件存儲(chǔ)的偏移信息在處理方式上過于簡單粗暴，并不能高效的管理好小文件。上述的合并方式會(huì)造成查詢方式單一、查詢類別不夠豐富缺少可擴(kuò)展性、查詢效率低下的問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)，通過將小文件合并成較大文件，并在這一過程中構(gòu)建小文件的倒排索引。這樣的索引機(jī)制，使得讀取操作時(shí)能夠通過倒排索引快速定位到相應(yīng)到大文件，再根據(jù)索引中偏移量及文件大小信息精確截取到所需小文件，加上緩存的加入可以顯著提升小文件查詢速度。

2、為解決上述技術(shù)問題，本發(fā)明提供了一種基于倒排索引申威平臺(tái)的海量小文件存取方法，包括如下步驟：

3、步驟一：在申威平臺(tái)服務(wù)器部署分布式文件系統(tǒng)，開啟腳本確認(rèn)文件系統(tǒng)正常工作，并檢測小文件處理請(qǐng)求；

4、步驟二：判斷是否收到小文件上傳請(qǐng)求；若是，則跳轉(zhuǎn)至步驟三；若否，則結(jié)束本次上傳流程；

5、步驟三：將小文件放入文件合并隊(duì)列，判斷文件合并隊(duì)列中文件大小是否達(dá)到閾值；若是，則對(duì)隊(duì)列中小文件逐個(gè)建立倒排索引，并將所有小文件合并為大文件后上傳到分布式文件系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)；若否，則繼續(xù)將小文件放入文件合并隊(duì)列；

6、步驟四：判斷隊(duì)列中是否存在阻塞等待上傳的文件；若是，則跳轉(zhuǎn)至步驟三；若否，則結(jié)束本次上傳流程；

7、步驟五：判斷是否收到小文件查詢請(qǐng)求；若是，則獲取查詢類型及查詢條件后跳轉(zhuǎn)至步驟六；若否，則結(jié)束本次查詢流程；

8、步驟六：根據(jù)查詢條件在倒排索引中搜索指定字段，得到滿足查詢條件的索引記錄，并獲取完整小文件信息；

9、步驟七：判斷緩存中是否有該小文件；若是，則直接從緩存中獲取，結(jié)束本次查詢流程；若否，則跳轉(zhuǎn)至步驟八；

10、步驟八：從倒排索引的索引記錄中獲取小文件在分布式文件系統(tǒng)中的存儲(chǔ)信息，根據(jù)在文件中的存儲(chǔ)偏移量及小文件大小信息解析出指定查詢小文件；

11、步驟九：判斷在設(shè)定周期時(shí)間內(nèi)小文件被訪問次數(shù)是否達(dá)到閾值；若是，則將查詢到的小文件加入緩存，結(jié)束本次查詢流程；若否，則直接結(jié)束本次查詢流程。

12、優(yōu)選的，所述步驟一中，通過申威平臺(tái)服務(wù)器運(yùn)行分布式文件系統(tǒng)，且所述分布式文件系統(tǒng)采用申威平臺(tái)的版本，所用腳本通過申威平臺(tái)進(jìn)行兼容性修改為定制版本。

13、優(yōu)選的，所述步驟三中，所述合并隊(duì)列設(shè)置閾值應(yīng)小于分布式文件系統(tǒng)上所設(shè)置存儲(chǔ)單位的大小。

14、優(yōu)選的，所述步驟三中，所述倒排索引的索引數(shù)據(jù)至少包括小文件的名稱、文件大小、對(duì)應(yīng)合并文件存儲(chǔ)在文件系統(tǒng)上的文件名、在文件系統(tǒng)上存儲(chǔ)的合并文件中的偏移量以及文件上傳時(shí)間五個(gè)字段；其余文件相關(guān)信息支持用戶自定義擴(kuò)展；每個(gè)字段記錄文件對(duì)應(yīng)該字段具體內(nèi)容信息、倒排索引以及屬性信息結(jié)構(gòu)。

15、優(yōu)選的，每個(gè)字段的完整索引結(jié)構(gòu)包括倒排表和詞典；其中所述倒排表是一個(gè)有序數(shù)組，存儲(chǔ)匹配某個(gè)詞的所有文檔id以及該個(gè)詞在文檔中出現(xiàn)的位置信息；所述詞典是由文檔集合中出現(xiàn)過的所有單詞構(gòu)成的字符串集合，所述詞典中每條索引項(xiàng)記錄單詞本身信息及指向倒排表的指針。

16、優(yōu)選的，所述步驟五中，所述查詢類型包括：

17、精確查詢，用于對(duì)查詢內(nèi)容進(jìn)行等值判斷，查詢的內(nèi)容等于文件屬性中對(duì)應(yīng)字段的值；

18、模糊查詢，用于支持在不完全確定搜索條件的情況下查詢數(shù)據(jù)，需要使用通配符來表示不確定的字符或字符序列；

19、范圍查詢，用于制定一個(gè)區(qū)間，查詢滿足該區(qū)間范圍內(nèi)的數(shù)據(jù)；支持?jǐn)?shù)字、以及日期便于比較的字段類型。

20、優(yōu)選的，所述步驟六中，所述搜索指定字段的具體方法包括：根據(jù)查詢內(nèi)容和倒排索引查找到匹配項(xiàng)在倒排索引中的索引記錄，獲取到索引記錄中對(duì)應(yīng)的文檔id，根據(jù)文檔id去其它字段獲取小文件的具體信息，該具體信息包括在文件系統(tǒng)中的存儲(chǔ)位置信息。

21、優(yōu)選的，所述步驟七中直接從緩存中獲取后，還包括：判斷緩存中對(duì)應(yīng)小文件距離上次被訪問時(shí)間是否達(dá)到清除時(shí)間閾值；若是，則從緩存中刪除對(duì)應(yīng)小文件；其中所述清除時(shí)間閾值能夠自行配置，為小文件的訪問時(shí)間間隔周期。

22、優(yōu)選的，通過定時(shí)腳本掃描緩存對(duì)過期緩存文件進(jìn)行清除，該清除的具體方法包括：按設(shè)定時(shí)間間隔，用刪除緩存腳本逐個(gè)掃描以及判斷緩存中對(duì)應(yīng)小文件距離上次被訪問時(shí)間是否達(dá)到清除時(shí)間閾值。

23、本發(fā)明還提供了一種基于倒排索引申威平臺(tái)的海量小文件存取系統(tǒng)，采用如上述所述的一種基于倒排索引申威平臺(tái)的海量小文件存取方法，包括文件上傳功能模塊和文件查詢功能模塊；其中所述文件上傳功能模塊包括文件請(qǐng)求處理模塊、文件合并模塊、索引模塊和文件上傳模塊；所述文件查詢功能模塊包括文件請(qǐng)求處理模塊、索引模塊、緩存模塊和文件獲取模塊；

24、所述文件請(qǐng)求處理模塊，負(fù)責(zé)處理用戶傳來的請(qǐng)求，該請(qǐng)求包括文件上傳和文件查詢請(qǐng)求；

25、所述文件合并模塊，負(fù)責(zé)將傳入小文件進(jìn)行合并；

26、所述索引模塊，負(fù)責(zé)對(duì)各小文件創(chuàng)建倒排索引，記錄文件屬性信息及存儲(chǔ)信息；

27、所述文件上傳模塊，負(fù)責(zé)上傳合并后文件；

28、所述緩存模塊，負(fù)責(zé)根據(jù)用戶查詢情況判斷是否緩存對(duì)應(yīng)小文件或清除緩存；

29、所述文件獲取模塊，負(fù)責(zé)基于倒排索引結(jié)果從文件系統(tǒng)上獲取到查詢的小文件。

30、本發(fā)明與現(xiàn)有技術(shù)相比，具有如下有益效果：

31、本發(fā)明通過如下步驟來優(yōu)化數(shù)據(jù)存儲(chǔ)和查詢過程：將小文件合并成較大文件，并在這一過程中構(gòu)建小文件的倒排索引。這樣的索引機(jī)制，使得讀取操作時(shí)能夠通過倒排索引快速定位到相應(yīng)到大文件，再根據(jù)索引中偏移量及文件大小信息精確截取到所需小文件，加上緩存的加入可以顯著提升小文件查詢速度。倒排索引的存在也豐富了查詢文件的方式，支持模糊查詢、精確查詢、范圍查詢甚至復(fù)雜的組合條件查詢等等，大大增強(qiáng)了申威平臺(tái)上對(duì)于小文件的搜索能力，有助于小文件管理。此外，這一方法也完成了申威平臺(tái)在海量小文件存取方面零的突破。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙鑫,蔣敏,吳波,鄭菲
技術(shù)所有人：中電科申泰信息科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于倒排索引申威平臺(tái)的海量小文件存取方法及系統(tǒng)與流程