專利名稱:一種面向ftp服務(wù)的數(shù)據(jù)訪問方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,特別是涉及一種面向ftp服務(wù)的數(shù)據(jù)訪問方法。
背景技術(shù):
FTP (File Transfer Protocol,文件傳輸協(xié)議)是用于在網(wǎng)絡(luò)上進(jìn)行文件傳輸?shù)囊惶讟?biāo)準(zhǔn)協(xié)議,屬于網(wǎng)絡(luò)傳輸協(xié)議中的應(yīng)用層。通過FTP協(xié)議,文件可以從一個主機(jī)被復(fù)制到另一個主機(jī)。FTP通常使用C/S(客戶端/服務(wù)器)架構(gòu),客戶端可以給服務(wù)器發(fā)命令要求上傳或下載文件,達(dá)到文件的共享。FTP可以操作任何類型的文件而不需要進(jìn)一步處理,能向用戶屏蔽不同主機(jī)中存儲系統(tǒng)的區(qū)別,但是其有很高的訪問延遲,即從用戶發(fā)送請求到第一次接受到需要的數(shù)據(jù)需要較長時間。同時,ftp提供匿名服務(wù),即客戶端不需要特定的用戶名與密碼登陸,獲取相應(yīng)權(quán)限,而是使用通用的用戶名(anonymous)與任意字符串形成的密碼(通常為郵箱地址)進(jìn)行登錄。這就使得互聯(lián)網(wǎng)上可能有數(shù)不清的主機(jī)來訪問提供匿名ftp服務(wù)的服務(wù)器上的共享文件,同一時刻可能有很多用戶發(fā)送請求,大大增加了服務(wù)器的負(fù)擔(dān),并發(fā)訪問的情形就會時有發(fā)生,典型的情況是:一個免費(fèi)的軟件發(fā)布的時候。這種多用戶訪問造成的延遲,會大大增加ftp服務(wù)器對客戶端請求的響應(yīng)時間,使得服務(wù)質(zhì)量下降,因此盡可能的降低訪問延遲,提高服務(wù)質(zhì)量就成了 ftp服務(wù)提供者重點(diǎn)考慮的問題之一。為降低訪問延遲,服務(wù)器端存儲數(shù)據(jù)的方式應(yīng)該慎重選擇。目前的存儲架構(gòu)主要分三類:直連式存儲(DAS, Direct-Attached Storage),網(wǎng)絡(luò)附加存儲(NAS, NetworkAttached Storage),存儲區(qū)域網(wǎng)絡(luò)(SAN, Storage Area Network)。直連式存儲(DAS)使用總線將存儲設(shè)備和服務(wù)器相連,所有的存儲服務(wù)均由服務(wù)器解決。網(wǎng)絡(luò)附加存儲(NAS)將存儲設(shè)備直接附加在網(wǎng)絡(luò)上,并用IP地址標(biāo)識,客戶端可直接對存儲設(shè)備進(jìn)行訪問。存儲區(qū)域網(wǎng)絡(luò)(SAN)的存儲設(shè)備相互連接并通過高速的光纖傳輸介質(zhì),共同為一臺或多臺服務(wù)器提供存儲服務(wù),只有服務(wù)器才能對存儲設(shè)備進(jìn)行訪問,客戶端的數(shù)據(jù)傳輸必須通過服務(wù)器驗(yàn)證,然后從服務(wù)器上獲取數(shù)據(jù)。這三種存儲架構(gòu)各自的適用范圍及其缺陷如下:(I)直連式存儲(DAS):由于總線上能夠掛載的存儲設(shè)備數(shù)目有限,存儲容量擴(kuò)展能力有限;同時由于其帶寬消耗過于集中,僅能同時處理少量用戶的訪問請求;一旦服務(wù)器出現(xiàn)故障,服務(wù)就會停止。而如果采用多個這樣的服務(wù)器,則數(shù)據(jù)的備份與恢復(fù)過程又要耗費(fèi)服務(wù)器的資源,更加不利于服務(wù)器處理客戶端請求的高效性,且服務(wù)器的維護(hù)成本也會很高。因此,這種存儲架構(gòu)僅適合于存儲少量數(shù)據(jù),滿足少量用戶需求的小規(guī)模ftp服務(wù)。(2)網(wǎng)絡(luò)附加存儲(NAS):因用戶可直接訪問存儲設(shè)備,多部署于中小企業(yè)或家庭內(nèi)部的局域網(wǎng),用于文件的共享,但是數(shù)據(jù)訪問速度受限于局域網(wǎng)的網(wǎng)速。這種存儲架構(gòu)適合于內(nèi)網(wǎng)中的文件共享。(3)存儲區(qū)域網(wǎng)絡(luò)(SAN):禁止客戶直接訪問存儲設(shè)備,有效避免了客戶的惡意行為。對于多用戶并發(fā)訪問的情形,增加相應(yīng)服務(wù)器的數(shù)目就可以均衡負(fù)載。SAN內(nèi)部使用各種不同的存儲設(shè)備(磁盤陣列、磁帶庫等)完成數(shù)據(jù)的存儲和備份,外加其使用光纖網(wǎng)絡(luò)與服務(wù)器連接,擁有很強(qiáng)的網(wǎng)絡(luò)傳輸能力。但是光纖通道的交換機(jī)和網(wǎng)卡價格昂貴,需要安裝專用的存儲管理軟件等,部署相當(dāng)復(fù)雜。ftp服務(wù)主要是在互聯(lián)網(wǎng)上共享信息,不可能所有的ftp服務(wù)都在局域網(wǎng)中進(jìn)行,這樣也不符合互聯(lián)網(wǎng)的開放性原則,亦即ftp需對外提供服務(wù),而其服務(wù)的用戶數(shù)可能成千上萬。因此,存儲擴(kuò)展能力差、管理成本高的直連式存儲(DAS)和僅適用于局域網(wǎng)內(nèi)部的網(wǎng)絡(luò)附加存儲(NAS),均不滿足其要求,存儲區(qū)域網(wǎng)絡(luò)(SAN)可以滿足其性能需求,但是成本太高。綜上所述,當(dāng)前用于存儲ftp數(shù)據(jù)的存儲方式,要么存儲能力和數(shù)據(jù)傳輸能力不足,要么不滿足安全需求,要么性能要求都能滿足但價格昂貴。因此,如何提供一種滿足存儲能力、數(shù)據(jù)傳輸能力、安全需求,并且價格低、部署簡單的面向ftp服務(wù)的存儲方式,是目前亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的上述缺陷,提供一種面向ftp服務(wù)的數(shù)據(jù)訪問方法,存儲能力強(qiáng),訪問性能好,且部署簡單,成本低。本發(fā)明采用如下技術(shù)方案:本發(fā)明提供了一種面向ftp服務(wù)的數(shù)據(jù)訪問方法,所述方法為:使用實(shí)現(xiàn)分級存儲功能的集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺。優(yōu)選地,所述集群通過如下步驟實(shí)現(xiàn)分級存儲功能:存儲自動分級:集群啟動,根據(jù)主機(jī)名將各個節(jié)點(diǎn)劃分為不同的存儲層次;定向存取:選擇距離近、存儲層次高的空閑節(jié)點(diǎn)存儲和讀取文件;監(jiān)控數(shù)據(jù)訪問操作:記錄文件訪問信息,并判斷遷移時機(jī)是否到來,若遷移時機(jī)到來,則執(zhí)行下述操作;數(shù)據(jù)估值:根據(jù)訪問記錄,使用信息估值模型對數(shù)據(jù)進(jìn)行估值;數(shù)據(jù)遷移:根據(jù)所述數(shù)據(jù)的估值結(jié)果,判斷數(shù)據(jù)的位置是否滿足數(shù)據(jù)越熱存儲層次越高的特點(diǎn),若不滿足,則進(jìn)行數(shù)據(jù)遷移,使得數(shù)據(jù)的位置滿足數(shù)據(jù)越熱存儲層次越高的特點(diǎn);自適應(yīng)調(diào)整:數(shù)據(jù)遷移完成后,根據(jù)遷移結(jié)果更新相關(guān)信息,重新啟動監(jiān)控。優(yōu)選地,在存儲自動分級時,所述存儲層次至少包括2級,存儲層次的劃分標(biāo)準(zhǔn)為:存儲層次越高,訪問性能越好,處理用戶請求的響應(yīng)時間越短。優(yōu)選地,所述信息估值模型中所用到的模型的建立方法為:利用搜集到的文件訪問記錄進(jìn)行建模,計(jì)算出一個反映數(shù)據(jù)熱度的數(shù)值,所述數(shù)值越大,說明所述數(shù)值對應(yīng)的數(shù)據(jù)以后的訪問概率就越大。優(yōu)選地,在數(shù)據(jù)遷移時,通過隊(duì)列過濾模型和路徑匹配模型,在信息估值模型處理后得到的數(shù)值隊(duì)列的基礎(chǔ)上,形成具體的數(shù)據(jù)遷移任務(wù),利用遷移控制模型完成數(shù)據(jù)遷移。優(yōu)選地,所述隊(duì)列過濾模型為:根據(jù)閾值過濾掉不需要遷移的數(shù)據(jù)分段,所述閾值反映了本存儲層次上前一次的遷移結(jié)果,過濾后形成的隊(duì)列中所有數(shù)據(jù)分段都已經(jīng)確定遷移方向,所述遷移方向?yàn)槿噙B模式。優(yōu)選地,所述路徑匹配模型為:在隊(duì)列中所有數(shù)據(jù)分段都確定了遷移方向后,如果系統(tǒng)中該數(shù)據(jù)分段有多個副本,確定距離較近的遷移源和遷移目標(biāo),遷移源優(yōu)先選擇剩余空間較少、負(fù)載輕的節(jié)點(diǎn),遷移目標(biāo)優(yōu)先選擇負(fù)載輕的節(jié)點(diǎn)。優(yōu)選地,所述遷移控制模型為:進(jìn)行遷移速率控制,使用多線程分批次執(zhí)行所述數(shù)據(jù)遷移任務(wù),降低遷移過程對集群中節(jié)點(diǎn)訪問性能的影響。優(yōu)選地,所述根據(jù)遷移結(jié)果更新相關(guān)信息,重新啟動監(jiān)控的步驟具體為:存儲數(shù)據(jù)的估值結(jié)果,以備下一次估值時使用;對于已經(jīng)被刪除的數(shù)據(jù),在系統(tǒng)所保留的訪問記錄中刪除;根據(jù)遷移的實(shí)際情況進(jìn)行各存儲層次的閾值更新;喚醒監(jiān)視進(jìn)程,等待下一次數(shù)據(jù)遷移的到來。本發(fā)明具有以下有益效果:1.容易部署:關(guān)于集群的部署,在教程的指導(dǎo)下,非專業(yè)人士也能很快學(xué)會。2.硬件成本低:本發(fā)明無需非常專業(yè)的高性能服務(wù)器,普通的PC機(jī)也可勝任,只需保證其能夠安裝多個不同類型的硬盤即可,如SSD硬盤、SAS硬盤、SATA硬盤等。3.性價比高:利用分級存儲技術(shù),使得集群的訪問性能接近于全部部署SSD硬盤的情形,而存儲能力與成本接近于全部部署SATA硬盤的情形,使系統(tǒng)存儲能力強(qiáng),相比采用沒有實(shí)現(xiàn)分級存儲功能的集群,其訪問延遲時間短,因此訪問性能好,且成本低,安全性聞。
圖1為本發(fā)明實(shí)施例一種面向ftp服務(wù)的數(shù)據(jù)訪問方法流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明使用實(shí)現(xiàn)分級存儲功能的集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺,建立多層次存儲架構(gòu),使得ftp服務(wù)中能夠使用層次存儲介質(zhì)進(jìn)行合理的數(shù)據(jù)調(diào)度,實(shí)現(xiàn)數(shù)據(jù)在各層存儲介質(zhì)間透明遷移,且不影響系統(tǒng)的服務(wù)質(zhì)量,使系統(tǒng)的存儲能力強(qiáng),訪問性能較高而成本較低。本發(fā)明實(shí)施例提供了一種面向ftp服務(wù)的數(shù)據(jù)訪問方法。請參閱圖1所示,為本發(fā)明實(shí)施例一種面向ftp服務(wù)的數(shù)據(jù)訪問方法流程圖。該方法為:步驟S1:使用實(shí)現(xiàn)分級存儲功能的集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺。本實(shí)施例中,使用實(shí)現(xiàn)分級存儲功能的hadoop集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺,hadoop集群通過后續(xù)步驟實(shí)現(xiàn)分級存儲功能。hadoop集群擴(kuò)展能力強(qiáng),可以實(shí)現(xiàn)在線擴(kuò)容,存儲能力強(qiáng)大;視頻服務(wù)器訪問數(shù)據(jù)時,可以直接與集群中存儲數(shù)據(jù)的節(jié)點(diǎn)進(jìn)行通信,帶寬消耗相對分散,數(shù)據(jù)傳輸能力相對較強(qiáng);通過訪問控制,可以隔絕視頻用戶對集群的直接訪問,采用了一種類似SAN的架構(gòu),能夠滿足安全的需求。但因?yàn)閔adoop集群與視頻服務(wù)器的連接沒有使用光纖網(wǎng)絡(luò),集群與視頻服務(wù)器之間的數(shù)據(jù)傳輸速度相對較低,為此,本實(shí)施例在hadoop集群中實(shí)現(xiàn)了分級存儲技術(shù),使得最快的網(wǎng)絡(luò)與最好的硬盤都用于存儲訪問頻繁的“熱”數(shù)據(jù),而一般的網(wǎng)絡(luò)和一般的硬盤用于存儲訪問較少的“冷”數(shù)據(jù)。通過本實(shí)施例提供的方法,能夠用較低的成本獲取最佳的網(wǎng)絡(luò)傳輸性能。當(dāng)然,本發(fā)明提供的面向ftp服務(wù)的數(shù)據(jù)訪問方法不限于使用實(shí)現(xiàn)分級存儲功能的hadoop集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺,其他實(shí)現(xiàn)分級存儲功能的集群也可以應(yīng)用于本發(fā)明中,作為ftp服務(wù)器數(shù)據(jù)的存儲平臺,改善其存儲能力,提高其訪問性能。步驟S2:存儲自動分級。本步驟中,集群啟動,根據(jù)主機(jī)名將各個節(jié)點(diǎn)劃分為不同的存儲層次。存儲層次至少包括2級,其劃分標(biāo)準(zhǔn)為:存儲層次越高,訪問性能越好,處理用戶請求的響應(yīng)時間越短。本實(shí)施例在hadoop集群啟動時,通過“主機(jī)名標(biāo)識法”(也即分級依據(jù)),系統(tǒng)可自動識別每個節(jié)點(diǎn)的訪問性能。如主機(jī)名中含有“high”,則訪問性能最好,列為一級存儲;含有“middle”,則訪問性能適中,列為二級存儲;含有“l(fā)ow”,列為三級存儲。系統(tǒng)將所有的節(jié)點(diǎn)分成這3個存儲層次,存儲層次越高,訪問性能越好。必要時,存儲層次高的節(jié)點(diǎn)還可以配以更快的網(wǎng)絡(luò)、CPU等。本實(shí)施例最多可實(shí)現(xiàn)三層存儲,同時可以兼容二層存儲,分級存儲系統(tǒng)與HDFS (Hadoop Distributed File System, hadoop分布式文件系統(tǒng))完全融合,實(shí)現(xiàn)無縫連接,無需專門的分級存儲管理軟件,且分級存儲系統(tǒng)僅運(yùn)行于名稱節(jié)點(diǎn)之上,無需從數(shù)據(jù)節(jié)點(diǎn)獲取數(shù)據(jù)訪問信息。步驟S3:定向存取。本步驟中,選擇距離近、存儲層次高的空閑節(jié)點(diǎn)存儲和讀取文件。在hadoop集群中存儲文件時,將文件劃分為固定大小的塊,存放于集群中的各個節(jié)點(diǎn)上,同時文件會有多個備份,保證容錯,例如拷貝3個副本,存放在3個不同的數(shù)據(jù)節(jié)點(diǎn)上。在hadoop集群中讀取文件時,按塊讀取,客戶端首先從名稱節(jié)點(diǎn)獲取數(shù)據(jù)塊的位置,然后直接與相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)傳輸。數(shù)據(jù)塊通常有多個存儲位置,優(yōu)先考慮距離近、存儲層次高的空閑節(jié)點(diǎn),以縮短數(shù)據(jù)傳輸時間。步驟S4:監(jiān)控數(shù)據(jù)訪問操作。本步驟中,記錄文件訪問信息,并判斷遷移時機(jī)是否到來,若遷移時機(jī)到來,則執(zhí)行下述操作。具體地,hadoop集群中客戶端對文件的讀取是以塊為單位的,系統(tǒng)把塊的每次讀取操作都記錄下來,記錄的內(nèi)容包括:訪問用戶、訪問時間、塊信息等,每讀取一次系統(tǒng)就會生成一條記錄。根據(jù)遷移的周期判斷遷移時機(jī)是否到來,當(dāng)遷移周期到來時,說明遷移時機(jī)到來,此時需執(zhí)行下述操作,進(jìn)行數(shù)據(jù)估值。其中,遷移周期可以是系統(tǒng)設(shè)置的一固定的遷移周期。步驟S5:數(shù)據(jù)估值。本步驟中,根據(jù)訪問記錄,使用信息估值模型對數(shù)據(jù)進(jìn)行估值,從而找到用戶頻繁訪問的數(shù)據(jù)集。信息估值模型中所用到的模型的建立方法是:利用搜集到的文件訪問記錄進(jìn)行建模,計(jì)算出一個反映數(shù)據(jù)熱度的數(shù)值,該數(shù)值越大,說明該數(shù)值對應(yīng)的數(shù)據(jù)以后的訪問概率就越大,表明該數(shù)據(jù)為“熱”數(shù)據(jù)。
本實(shí)施例中,hadoop集群中的節(jié)點(diǎn)被分為3個不同的存儲層次,存儲層次越高,配置的硬盤訪問性能越好,容量越小,價格也越貴。因此只能有少量的數(shù)據(jù)存放在存儲層次最高的節(jié)點(diǎn)上。通常情況下,一個集群中的所有數(shù)據(jù)中只有少量數(shù)據(jù)被頻繁訪問。我們通過記錄文件的訪問信息,通過信息估值模型處理這些信息,得出一個數(shù)值,該數(shù)值越大,代表該數(shù)據(jù)訪問越頻繁,存儲層次就該越高。在特定時刻,使用信息估值模型處理搜集到的文件訪問記錄,進(jìn)行建模,,模型的處理對象是塊,用到的參數(shù)有:訪問時間、訪問次數(shù)、用戶數(shù)量、塊的大小、塊與其他塊的關(guān)聯(lián)度、塊的歷史值(塊的歷史值指的是該數(shù)據(jù)塊上一次估值的結(jié)果)等,利用公式計(jì)算出特定的值,來衡量塊的“熱”度,并按照數(shù)值從高到低形成隊(duì)列。本實(shí)施例的信息估值模型專門針對HDFS的數(shù)據(jù)塊特點(diǎn),充分考慮到HDFS“一寫多讀”的情形。塊關(guān)聯(lián)度的計(jì)算時,對于不同文件下的數(shù)據(jù)塊區(qū)別對待;充分利用了塊的歷史價值,有效減緩?fù)话l(fā)訪問帶來的抖動。步驟S6:數(shù)據(jù)遷移。本步驟中,根據(jù)步驟S5中數(shù)據(jù)的估值結(jié)果,判斷數(shù)據(jù)的位置是否滿足“數(shù)據(jù)越熱存儲層次越高”的特點(diǎn),若不滿足,則進(jìn)行數(shù)據(jù)遷移,使得數(shù)據(jù)的位置滿足“數(shù)據(jù)越熱存儲層次越高”的特點(diǎn)。本實(shí)施例中,通過隊(duì)列過濾模型和路徑匹配模型,在信息估值模型處理后得到的數(shù)值隊(duì)列的基礎(chǔ)上,形成具體的數(shù)據(jù)遷移任務(wù),利用遷移控制模型完成數(shù)據(jù)遷移,按照“熱”高“冷”低的原則,使得訪問越頻繁的數(shù)據(jù),其所在的存儲層次越高,從而確保大多數(shù)的讀取數(shù)據(jù)操作都在存儲層次高的節(jié)點(diǎn)上進(jìn)行。其中,隊(duì)列過濾模型為:根據(jù)閾值過濾掉不需要遷移的數(shù)據(jù)分段(也即hadoop集群中的數(shù)據(jù)塊),閾值反映了本存儲層次上前一次的遷移結(jié)果,過濾后形成的隊(duì)列中所有數(shù)據(jù)分段都已經(jīng)確定遷移方向,遷移方向?yàn)槿噙B模式,即任何兩個存儲層次間都可以進(jìn)行數(shù)據(jù)遷移,在三級存儲模型中,有6種不同的遷移方向。通過此次過濾,使遷移的塊盡可能少。本實(shí)施例利用閾值來過濾數(shù)據(jù)塊,有效減少了遷移數(shù)據(jù)量,滿足了三個存儲級之間數(shù)據(jù)的雙向遷移。路徑匹配模型為:在隊(duì)列中所有數(shù)據(jù)分段都確定了遷移方向后,如果系統(tǒng)中該數(shù)據(jù)分段有多個副本,確定距離較近的遷移源和遷移目標(biāo),遷移源優(yōu)先選擇剩余空間較少、負(fù)載輕的節(jié)點(diǎn),遷移目標(biāo)優(yōu)先選擇負(fù)載輕的節(jié)點(diǎn)。本實(shí)施例充分考慮到數(shù)據(jù)塊存儲位置有多個的情況,選擇遷移源與遷移目標(biāo)時考慮到了兩者的剩余空間和距離,盡量縮短遷移時間。遷移控制模型為:進(jìn)行遷移速率控制,使用多線程分批次執(zhí)行所述數(shù)據(jù)遷移任務(wù),降低遷移過程對集群中節(jié)點(diǎn)訪問性能的影響。多線程是指使用線程池的方法并發(fā)執(zhí)行遷移任務(wù),每個具體的遷移任務(wù)是指兩個節(jié)點(diǎn)間的某數(shù)據(jù)分段置換的過程;分批次執(zhí)行數(shù)據(jù)遷移任務(wù)按如下步驟進(jìn)行:A、限定集群中同一時刻用于遷移的線程數(shù),使得遷移只在集群的局部范圍內(nèi)發(fā)生,減少對集群整體服務(wù)質(zhì)量的影響;B、限定節(jié)點(diǎn)上同一時刻用于遷移的線程數(shù),使得節(jié)點(diǎn)僅有少量的資源用于遷移,減少對該節(jié)點(diǎn)所能提供服務(wù)質(zhì)量的影響。本實(shí)施例中,數(shù)據(jù)遷移的方向有多個,不存在數(shù)據(jù)回遷問題,能適應(yīng)多種情況下的數(shù)據(jù)訪問。遷移時,通過“模擬遷移”,適當(dāng)調(diào)整遷移順序,防止真實(shí)遷移過程中的異常;實(shí)行分批次遷移,每次遷移的總線程數(shù)不超過50個;進(jìn)行節(jié)點(diǎn)遷移限制,每個節(jié)點(diǎn)同一時刻用于遷移的線程數(shù)不超過5個。通過這種小規(guī)模、連續(xù)的遷移方式,使得遷移的速率適應(yīng)了集群負(fù)載的變化,盡可能的減少遷移帶來的性能損失。步驟S7:自適應(yīng)調(diào)整。本步驟中,數(shù)據(jù)遷移完成后,根據(jù)遷移結(jié)果更新相關(guān)信息,重新啟動監(jiān)控。本實(shí)施例中,在數(shù)據(jù)遷移完成后,存儲數(shù)據(jù)的估值結(jié)果,以備下一次估值時使用;對于已經(jīng)被刪除的數(shù)據(jù),在系統(tǒng)所保留的訪問記錄中刪除;根據(jù)遷移的實(shí)際情況進(jìn)行各存儲層次的閾值更新;上述步驟完成后,喚醒監(jiān)視進(jìn)程,等待下一次數(shù)據(jù)遷移的到來。在步驟S7之后,返回執(zhí)行步驟S3,數(shù)據(jù)調(diào)度的過程循環(huán)進(jìn)行。本實(shí)施例在ftp服務(wù)中進(jìn)行數(shù)據(jù)訪問時,使用實(shí)現(xiàn)分級存儲功能的集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺,其存儲能力強(qiáng),訪問性能好,且部署簡單,成本低。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述方法為: 使用實(shí)現(xiàn)分級存儲功能的集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺。
2.根據(jù)權(quán)利要求1所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述集群通過如下步驟實(shí)現(xiàn)分級存儲功能: 存儲自動分級:集群啟動,根據(jù)主機(jī)名將各個節(jié)點(diǎn)劃分為不同的存儲層次; 定向存取:選擇距離近、存儲層次高的空閑節(jié)點(diǎn)存儲和讀取文件; 監(jiān)控數(shù)據(jù)訪問操作:記錄文件訪問信息,并判斷遷移時機(jī)是否到來,若遷移時機(jī)到來,則執(zhí)行下述操作; 數(shù)據(jù)估值:根據(jù)訪問記錄,使用信息估值模型對數(shù)據(jù)進(jìn)行估值; 數(shù)據(jù)遷移:根據(jù)所述數(shù)據(jù)的估值結(jié)果,判斷數(shù)據(jù)的位置是否滿足數(shù)據(jù)越熱存儲層次越高的特點(diǎn),若不滿足,則進(jìn)行數(shù)據(jù)遷移,使得數(shù)據(jù)的位置滿足數(shù)據(jù)越熱存儲層次越高的特占.自適應(yīng)調(diào)整:數(shù)據(jù)遷移完成后,根據(jù)遷移結(jié)果更新相關(guān)信息,重新啟動監(jiān)控。
3.根據(jù)權(quán)利要求1所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,在存儲自動分級時,所述存儲層次至少包括2級,存儲層次的劃分標(biāo)準(zhǔn)為:存儲層次越高,訪問性能越好,處理用戶請求的響應(yīng)時間越短。
4.根據(jù)權(quán)利要求1所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述信息估值模型中所用到的模型的建立方法為: 利用搜集到的文件訪問記錄進(jìn)行建模,計(jì)算出一個反映數(shù)據(jù)熱度的數(shù)值,所述數(shù)值越大,說明所述數(shù)值對應(yīng)的數(shù)據(jù)以后的訪問概率就越大。
5.根據(jù)權(quán)利要求1所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,在數(shù)據(jù)遷移時,通過隊(duì)列過濾模型和路徑匹配模型,在信息估值模型處理后得到的數(shù)值隊(duì)列的基礎(chǔ)上,形成具體的數(shù)據(jù)遷移任務(wù),利用遷移控制模型完成數(shù)據(jù)遷移。
6.根據(jù)權(quán)利要求5所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述隊(duì)列過濾模型為:根據(jù)閾值過濾掉不需要遷移的數(shù)據(jù)分段,所述閾值反映了本存儲層次上前一次的遷移結(jié)果,過濾后形成的隊(duì)列中所有數(shù)據(jù)分段都已經(jīng)確定遷移方向,所述遷移方向?yàn)槿噙B模式。
7.根據(jù)權(quán)利要求5所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述路徑匹配模型為:在隊(duì)列中所有數(shù)據(jù)分段都確定了遷移方向后,如果系統(tǒng)中該數(shù)據(jù)分段有多個副本,確定距離較近的遷移源和遷移目標(biāo),遷移源優(yōu)先選擇剩余空間較少、負(fù)載輕的節(jié)點(diǎn),遷移目標(biāo)優(yōu)先選擇負(fù)載輕的節(jié)點(diǎn)。
8.根據(jù)權(quán)利要求5所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述遷移控制模型為:進(jìn)行遷移速率控制,使用多線程分批次執(zhí)行所述數(shù)據(jù)遷移任務(wù),降低遷移過程對集群中節(jié)點(diǎn)訪問性能的影響。
9.根據(jù)權(quán)利要求2所述的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其特征在于,所述根據(jù)遷移結(jié)果更新相關(guān)信息,重新啟動監(jiān)控的步驟具體為: 存儲數(shù)據(jù)的估值結(jié)果,以備下一次估值時使用; 對于已經(jīng)被刪除的數(shù)據(jù),在系統(tǒng)所保留的訪問記錄中刪除; 根據(jù)遷移的實(shí)際情況進(jìn)行各存儲層次的閾值更新;喚醒監(jiān)視進(jìn)程,等待下 一次數(shù)據(jù)遷移的到來。
全文摘要
本發(fā)明涉及通信技術(shù)領(lǐng)域,提供了一種面向ftp服務(wù)的數(shù)據(jù)訪問方法,所述方法為使用實(shí)現(xiàn)分級存儲功能的集群作為ftp服務(wù)器數(shù)據(jù)的存儲平臺。本發(fā)明提供的面向ftp服務(wù)的數(shù)據(jù)訪問方法,其存儲能力強(qiáng),訪問性能好,且部署簡單,成本低。
文檔編號H04L29/08GK103152377SQ20121053935
公開日2013年6月12日 申請日期2012年12月13日 優(yōu)先權(quán)日2012年12月13日
發(fā)明者張森林, 馮圣中 申請人:中國科學(xué)院深圳先進(jìn)技術(shù)研究院