一種降低數(shù)據(jù)中心網(wǎng)絡(luò)中流傳輸完成時(shí)間的流調(diào)度方法
【專利摘要】本發(fā)明公開(kāi)了一種降低數(shù)據(jù)中心網(wǎng)絡(luò)中流傳輸完成時(shí)間的流調(diào)度方法,實(shí)現(xiàn)在流長(zhǎng)未知的條件下,降低平均流傳輸完成時(shí)間。該方法的基本思想是:通過(guò)收集網(wǎng)絡(luò)中歷史數(shù)據(jù)流的長(zhǎng)度信息,不斷更新流長(zhǎng)的概率密度分布;基于這些歷史信息,計(jì)算各條數(shù)據(jù)流在特定時(shí)間內(nèi)完成傳輸?shù)母怕剩蝗缓蟾鶕?jù)計(jì)算所得的各個(gè)概率,優(yōu)先調(diào)度完成傳輸概率最高的流,從而改善數(shù)據(jù)中心網(wǎng)絡(luò)的資源利用效率。本發(fā)明具有不依賴先驗(yàn)知識(shí)、平均流傳輸完成時(shí)間短的優(yōu)點(diǎn)。
【專利說(shuō)明】
-種降低數(shù)據(jù)中心網(wǎng)絡(luò)中流傳輸完成時(shí)間的流調(diào)度方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于網(wǎng)絡(luò)數(shù)據(jù)通信技術(shù)領(lǐng)域,是一種對(duì)數(shù)據(jù)中屯、網(wǎng)絡(luò)中數(shù)據(jù)流進(jìn)行動(dòng)態(tài)調(diào) 度的方法,具體地說(shuō)是一種面向資源高效利用的數(shù)據(jù)流調(diào)度方法。
【背景技術(shù)】
[0002] 各種在線服務(wù),如捜索引擎、社交網(wǎng)絡(luò)、網(wǎng)商(retail)等,已經(jīng)成為當(dāng)前人類社會(huì) 不可或缺的一部分,他們?yōu)閺V大用戶提供了非常便捷的服務(wù),有力改善了人們的工作和生 活。而作為在線服務(wù)的基礎(chǔ)設(shè)施,數(shù)據(jù)中屯、網(wǎng)絡(luò)承擔(dān)著為各類在線服務(wù)提供及時(shí)、高效數(shù)據(jù) 傳輸?shù)娜蝿?wù),其重要性不言而喻。由于固有的實(shí)時(shí)交互性特點(diǎn),許多在線服務(wù)對(duì)請(qǐng)求的響應(yīng) 時(shí)延有著非常嚴(yán)格的要求,時(shí)間期限往往在幾百毫秒W內(nèi),例如在線網(wǎng)站就要求99.9%的 響應(yīng)在200-300毫秒W內(nèi)完成而從數(shù)據(jù)中屯、網(wǎng)絡(luò)流量模式的角度來(lái)考慮,絕大部分的流 都屬于短流,但是非常高比例的字節(jié)數(shù)卻是由數(shù)據(jù)備份、虛擬機(jī)遷移等產(chǎn)生的長(zhǎng)流所占 據(jù)W。相對(duì)于長(zhǎng)流來(lái)說(shuō),短流往往是由交互式服務(wù)產(chǎn)生,它們對(duì)時(shí)延更為敏感,應(yīng)當(dāng)在盡可 能短的時(shí)間內(nèi)完成傳輸,而長(zhǎng)流則沒(méi)有時(shí)間期限方面的要求。因此,數(shù)據(jù)中屯、網(wǎng)絡(luò)首要目標(biāo) 是盡量縮短短流完成時(shí)間,再提高長(zhǎng)流的吞吐量。
[0003] 基于流模型(fluid traffic model),可W很容易得到如下結(jié)論:最優(yōu)的流調(diào)度策 略是剩余傳輸時(shí)間最短的流應(yīng)當(dāng)首先被傳輸,也即SRPT(Siortest Remaining Processing Time)策略W。因此,為了達(dá)到最優(yōu)的調(diào)度,路由器在轉(zhuǎn)發(fā)各條流的過(guò)程中,每有一條新的流 到達(dá)時(shí),應(yīng)當(dāng)對(duì)比所有流剩余的字節(jié)數(shù),并選擇最短的那條流進(jìn)行傳輸,文獻(xiàn)[4]所提出的 搶占式調(diào)度算法(preemptive scheduling)也是基于運(yùn)個(gè)思想來(lái)實(shí)現(xiàn)。然而,最優(yōu)調(diào)度需要 特定的先驗(yàn)知識(shí),即每條流的長(zhǎng)度都是已知的,否則路由器無(wú)法判斷出哪條流應(yīng)當(dāng)優(yōu)先得 到調(diào)度。盡管數(shù)據(jù)中屯、網(wǎng)絡(luò)中的部分流可W根據(jù)端口號(hào)推斷出其應(yīng)用的類型,從而估計(jì)流 的長(zhǎng)度,但是大部分流的長(zhǎng)度仍然難W精確判斷,運(yùn)就影響了短流的傳輸完成時(shí)間,特別是 當(dāng)一條長(zhǎng)流被誤判為短流時(shí),其他許多流的時(shí)延性能將會(huì)嚴(yán)重降低
[0004] 為了防止運(yùn)種情況的發(fā)生,在不確定流長(zhǎng)度的前提下,應(yīng)當(dāng)盡量避免將所有帶寬 都分配給某條流,而為了優(yōu)化流的傳輸完成時(shí)間,路由器在調(diào)度各個(gè)分組時(shí),優(yōu)先為那些在 短時(shí)間內(nèi)結(jié)束傳輸概率更高的流提供服務(wù),而運(yùn)里的難點(diǎn)是如何判斷哪條流剩余長(zhǎng)度最短 的概率。雖然各條流的流長(zhǎng)度是未知的,但是可W根據(jù)數(shù)據(jù)中屯、網(wǎng)絡(luò)中W往傳輸?shù)牧餍畔?評(píng)估出流的長(zhǎng)度分布,然后再基于該密度分布函數(shù)推斷出當(dāng)前各條流在特定時(shí)間期限內(nèi)完 成傳輸?shù)母怕?,并?yōu)先轉(zhuǎn)發(fā)結(jié)束概率最大的流的分組。
[0005] 參考文獻(xiàn)
[0006] [1]C.Wilson,H.Ballani,T.Karagiannis,and A.Rowstron.Better Never than LateiMeeting Deadlines in Datacenter Networks.In Proc.ACM SIGCOMM,2011.
[0007] [2]D.Abts,B.Felderman.A guided tour of data-center networking.Commun.ACM,vol.55,no.6,pp.44-51,June 2012.
[000引 [3]N.Bansal and M.Harchol-Balter. Analysis of srpt scheduling : investigating unfairness.ACM SIGMET民ICS,2001.
[0009] [4]C.-Y.Hong,M.Caesar,and P.B.Godfrey.Finishing Flows Quickly with Preemptive Scheduling.ACM SIGCOMM,2012.
【發(fā)明內(nèi)容】
[0010] 發(fā)明目的:針對(duì)目前數(shù)據(jù)中屯、網(wǎng)絡(luò)流調(diào)度嚴(yán)重依賴流長(zhǎng)、傳輸完成期限等先驗(yàn)知 識(shí)問(wèn)題,提出一種W降低流傳輸完成時(shí)間為目標(biāo)的數(shù)據(jù)中屯、網(wǎng)絡(luò)流調(diào)度的設(shè)計(jì)方法。
[0011] 技術(shù)方案:一種降低數(shù)據(jù)中屯、網(wǎng)絡(luò)中流傳輸完成時(shí)間的流調(diào)度方法,即面向高效 資源利用的數(shù)據(jù)中屯、網(wǎng)絡(luò)流調(diào)度方法化fficient utilization oriented Flow Scheduling Mechanism,EUFSM),該方法著重描述了歷史流長(zhǎng)信息收集W及對(duì)數(shù)據(jù)中屯、網(wǎng) 絡(luò)中的流進(jìn)行調(diào)度的方法,包括W下步驟:
[0012] A.歷史流長(zhǎng)信息的收集步驟:數(shù)據(jù)中屯、網(wǎng)絡(luò)中的機(jī)架交換機(jī)W五元組(源IP地址, 目的IP地址,源端口號(hào),目的端口號(hào),運(yùn)輸層協(xié)議)對(duì)所有流經(jīng)的分組進(jìn)行聚合,形成流信 息,如果一條流超過(guò)64秒沒(méi)有下一個(gè)分組到達(dá),則認(rèn)為該流傳輸結(jié)束,然后計(jì)算整條流的字 節(jié)長(zhǎng)度;持續(xù)收集流長(zhǎng)信息并進(jìn)行累加,然后Wl個(gè)字節(jié)為單位,統(tǒng)計(jì)流長(zhǎng)分布的概率密度 函數(shù);在一條新的流完成傳輸時(shí),對(duì)流長(zhǎng)分布函數(shù)進(jìn)行更新。
[0013] B.計(jì)算分組優(yōu)先級(jí)的步驟:已知數(shù)據(jù)中屯、網(wǎng)絡(luò)流長(zhǎng)的概率密度分布函數(shù)為P(X) (其中X為字節(jié)數(shù)),數(shù)據(jù)中屯、網(wǎng)絡(luò)交換機(jī)鏈路帶寬為C,針對(duì)已傳輸字節(jié)數(shù)為B的流,計(jì)算其 在t時(shí)間內(nèi)完成傳輸?shù)母怕剩?jì)算方法3
根據(jù)所有流計(jì)算得到的傳輸結(jié)束 概率,采用K均值方法對(duì)其進(jìn)行聚類,類別數(shù)目為8,然后得到7個(gè)劃分不同流類別的闊值,傳 輸結(jié)束概率最高的類別具有最高的優(yōu)先級(jí),次高的類別具有第二等級(jí)的優(yōu)先級(jí),并W此類 推。
[0014] C.在端系統(tǒng)接入端對(duì)流進(jìn)行標(biāo)記的步驟:根據(jù)步驟的十算得到的闊值,利用控制器 對(duì)端系統(tǒng)接入處的流量控制設(shè)備的配置進(jìn)行更新;然后對(duì)各個(gè)分組的DSCP字段進(jìn)行標(biāo)記, 優(yōu)先級(jí)最高的分組DSCP字段設(shè)置為1,次高的設(shè)置為2,并W此類推。
[0015] D.對(duì)分組進(jìn)行調(diào)度的步驟:利用OF-CONFIG配置管理協(xié)議對(duì)交換機(jī)進(jìn)行配置,將每 個(gè)交換機(jī)入端口劃分出8個(gè)優(yōu)先級(jí)不同的隊(duì)列;當(dāng)分組到達(dá)時(shí),根據(jù)分組DSCP字段的內(nèi)容將 其送入對(duì)應(yīng)的隊(duì)列;當(dāng)隊(duì)列不為空,交換機(jī)按照各個(gè)隊(duì)列的優(yōu)先級(jí)順序進(jìn)行調(diào)度,只有當(dāng)所 有更高優(yōu)先級(jí)隊(duì)列都為空時(shí),該隊(duì)列中的分組才能得到服務(wù)。
[0016] 有益效果:本發(fā)明相對(duì)現(xiàn)有技術(shù)具有W下優(yōu)點(diǎn):
[0017] 1、不依賴先驗(yàn)知識(shí):較之現(xiàn)有的設(shè)計(jì)方法,本發(fā)明不需要掌握每條流的長(zhǎng)度和傳 輸完成期限等信息,因此能夠更有效地在實(shí)際數(shù)據(jù)中屯、網(wǎng)絡(luò)環(huán)境中加 W部署。
[0018] 2、平均流傳輸完成時(shí)間短:本發(fā)明W流的傳輸結(jié)束概率作為設(shè)定優(yōu)先級(jí)的標(biāo)準(zhǔn), 因此在理論上能夠更快結(jié)束流的傳輸,從而縮短流的平均傳輸完成時(shí)間。
【附圖說(shuō)明】
[0019]圖巧本發(fā)明實(shí)施例運(yùn)行的網(wǎng)絡(luò)環(huán)境;
[0020] 圖2為本發(fā)明實(shí)施例對(duì)應(yīng)EUFSM方法流程圖。
【具體實(shí)施方式】
[0021] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解運(yùn)些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0022] 首先給出本發(fā)明所需要的運(yùn)行環(huán)境和應(yīng)用場(chǎng)景,如圖1所示:在網(wǎng)絡(luò)中提前部署交 換機(jī)和流量控制設(shè)備,所有PC機(jī)分為發(fā)送方和接收方兩類,發(fā)送方產(chǎn)生數(shù)據(jù)流并向某個(gè)接 收方發(fā)送分組。
[0023] 運(yùn)行本發(fā)明提供的面向高效資源利用的數(shù)據(jù)中屯、網(wǎng)絡(luò)流調(diào)度方法的系統(tǒng)配置如 下:在Intel-Linux架構(gòu)的PC機(jī)和流量控制設(shè)備上安裝并運(yùn)行本發(fā)明的抓FSM軟件,PC機(jī)W 至少IOOMbps的接入帶寬連接到因特網(wǎng)中。運(yùn)些PC機(jī)硬件的主頻為4.66G化的Core雙核CPU, 內(nèi)存2GB,硬盤250GB,運(yùn)行Red化t 6.化nte巧rise操作系統(tǒng)。
[0024] -種降低數(shù)據(jù)中屯、網(wǎng)絡(luò)中流傳輸完成時(shí)間的流調(diào)度方法,包括W下步驟:
[0025] A.歷史流長(zhǎng)信息的收集步驟:數(shù)據(jù)中屯、網(wǎng)絡(luò)中的機(jī)架交換機(jī)W五元組(源IP地址, 目的IP地址,源端口號(hào),目的端口號(hào),運(yùn)輸層協(xié)議)對(duì)所有流經(jīng)的分組進(jìn)行聚合,形成流信 息,如果一條流超過(guò)64秒沒(méi)有下一個(gè)分組到達(dá),則認(rèn)為該流傳輸結(jié)束,然后計(jì)算整條流的字 節(jié)長(zhǎng)度;持續(xù)收集流長(zhǎng)信息并進(jìn)行累加,然后Wl個(gè)字節(jié)為單位,統(tǒng)計(jì)流長(zhǎng)分布的概率密度 函數(shù);在一條新的流完成傳輸時(shí),對(duì)流長(zhǎng)分布函數(shù)進(jìn)行更新。
[0026] B.計(jì)算分組優(yōu)先級(jí)的步驟:已知數(shù)據(jù)中屯、網(wǎng)絡(luò)流長(zhǎng)的概率密度分布函數(shù)為P(X) (其中義為字節(jié)數(shù)),數(shù)據(jù)中屯、網(wǎng)絡(luò)交換機(jī)*連|路鹽^^*^[.^對(duì)已傳輸字節(jié)數(shù)為郵勺流,計(jì)算其 在t時(shí)間內(nèi)完成傳輸?shù)母怕?,?jì)算方法;
根據(jù)所有流計(jì)算得到的傳輸結(jié)束 概率,采用K均值方法對(duì)其進(jìn)行聚類,類別數(shù)目為8,然后得到7個(gè)劃分不同流類別的闊值,傳 輸結(jié)束概率最高的類別具有最高的優(yōu)先級(jí),次高的類別具有第二等級(jí)的優(yōu)先級(jí),并W此類 推。
[0027] C.在端系統(tǒng)接入端對(duì)流進(jìn)行標(biāo)記的步驟:根據(jù)步驟的十算得到的闊值,利用控制器 對(duì)端系統(tǒng)接入處的流量控制設(shè)備的配置進(jìn)行更新;然后對(duì)各個(gè)分組的DSCP字段進(jìn)行標(biāo)記, 優(yōu)先級(jí)最高的分組DSCP字段設(shè)置為1,次高的設(shè)置為2,并W此類推。
[00%] D.對(duì)分組進(jìn)行調(diào)度的步驟:利用OF-CONFIG配置管理協(xié)議對(duì)交換機(jī)進(jìn)行配置,將每 個(gè)交換機(jī)入端口劃分出8個(gè)優(yōu)先級(jí)不同的隊(duì)列;當(dāng)分組到達(dá)時(shí),根據(jù)分組DSCP字段的內(nèi)容將 其送入對(duì)應(yīng)的隊(duì)列;當(dāng)隊(duì)列不為空,交換機(jī)按照各個(gè)隊(duì)列的優(yōu)先級(jí)順序進(jìn)行調(diào)度,只有當(dāng)所 有更高優(yōu)先級(jí)隊(duì)列都為空時(shí),該隊(duì)列中的分組才能得到服務(wù)。
[0029] 圖2給出了本發(fā)明抓FSM方法的工作流程圖,該流程開(kāi)始于步驟SlOl,運(yùn)時(shí)發(fā)送方 開(kāi)始產(chǎn)生流量,然后轉(zhuǎn)S102。
[0030] 在步驟S102中,流開(kāi)始發(fā)送分組,并同時(shí)轉(zhuǎn)入S103和S107。
[0031] 在步驟S103中,判斷流是否傳輸完畢,否返回S102,是轉(zhuǎn)S104。
[0032] 在步驟S104中,對(duì)流長(zhǎng)的分布進(jìn)行更新,然后轉(zhuǎn)S105。
[0033] 在步驟S105中,根據(jù)更新后的流長(zhǎng)分布,重新計(jì)算劃分分組優(yōu)先級(jí)的闊值,然后轉(zhuǎn) S106。
[0034] 在步驟S106中,流量控制設(shè)備根據(jù)修改后的闊值更新對(duì)分組標(biāo)記時(shí)的DSCP值,然 后轉(zhuǎn)S108。
[0035] 在步驟S107中,流量控制設(shè)備收到流產(chǎn)生的分組,然后轉(zhuǎn)步驟S108。
[0036] 在步驟S108中,流量控制設(shè)備根據(jù)計(jì)算得到的結(jié)果對(duì)分組標(biāo)記相應(yīng)的DSCP值,然 后轉(zhuǎn)S109。
[0037] 在步驟S109中,接收端交換機(jī)按照DSCP值將分組插入到相應(yīng)的隊(duì)列中,然后轉(zhuǎn) SllOo
[0038] 在步驟SllO中,接收端交換機(jī)按照隊(duì)列的優(yōu)先級(jí)對(duì)分組進(jìn)行調(diào)度,然后轉(zhuǎn)Slll并 結(jié)束整個(gè)流程。
[0039] 實(shí)施例
[0040] 本實(shí)施例給出了某試驗(yàn)床中的多臺(tái)交換機(jī)和PC機(jī)上運(yùn)行基于本發(fā)明的面向高效 資源利用的數(shù)據(jù)中屯、網(wǎng)絡(luò)流調(diào)度方法的軟件對(duì)所有測(cè)試PC機(jī)和交換機(jī)進(jìn)行組織,W為調(diào)度 網(wǎng)絡(luò)中的流分組提供科學(xué)依據(jù)。
[0041] 假定該測(cè)試床中的一半PC機(jī)W至少IOOMbps的帶寬接入到交換機(jī)中,并通過(guò)一個(gè) 流量控制設(shè)備連接到另一個(gè)交換機(jī),另一半PC機(jī)與運(yùn)個(gè)交換機(jī)相連,所有設(shè)備都運(yùn)行基于 本發(fā)明的面向高效資源利用的數(shù)據(jù)中屯、網(wǎng)絡(luò)流調(diào)度方法的軟件。當(dāng)PC機(jī)上的軟件啟動(dòng)后, 自動(dòng)記錄各條流的傳輸完成時(shí)間。
[0042] 通過(guò)抓FSM方法對(duì)數(shù)據(jù)中屯、網(wǎng)絡(luò)中的流進(jìn)行調(diào)度之后,內(nèi)容提供商就能夠在數(shù)據(jù) 中屯、網(wǎng)絡(luò)中實(shí)現(xiàn)不依賴先驗(yàn)知識(shí)的流調(diào)度和較低的流傳輸完成時(shí)間,從而改善用戶使用數(shù) 據(jù)中屯、網(wǎng)絡(luò)所提供服務(wù)的體驗(yàn)質(zhì)量。
[0043] 本發(fā)明未設(shè)及部分均與現(xiàn)有技術(shù)相同或可采用現(xiàn)有技術(shù)加 W實(shí)現(xiàn)。
【主權(quán)項(xiàng)】
1. 一種降低數(shù)據(jù)中心網(wǎng)絡(luò)中流傳輸完成時(shí)間的流調(diào)度方法,該方法著重描述了歷史流 長(zhǎng)信息收集以及對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)中的流進(jìn)行調(diào)度的方法,其特征在于:包括以下步驟: A. 歷史流長(zhǎng)信息的收集步驟:數(shù)據(jù)中心網(wǎng)絡(luò)中的機(jī)架交換機(jī)以五元組(源IP地址,目的 IP地址,源端口號(hào),目的端口號(hào),運(yùn)輸層協(xié)議)對(duì)所有流經(jīng)的分組進(jìn)行聚合,形成流信息,如 果一條流超過(guò)預(yù)設(shè)時(shí)間沒(méi)有下一個(gè)分組到達(dá),則認(rèn)為該流傳輸結(jié)束,然后計(jì)算整條流的字 節(jié)長(zhǎng)度;持續(xù)收集流長(zhǎng)信息并進(jìn)行累加,然后以1個(gè)字節(jié)為單位,統(tǒng)計(jì)流長(zhǎng)分布的概率密度 函數(shù);在一條新的流完成傳輸時(shí),對(duì)流長(zhǎng)分布函數(shù)進(jìn)行更新; B. 計(jì)算分組優(yōu)先級(jí)的步驟:已知數(shù)據(jù)中心網(wǎng)絡(luò)流長(zhǎng)的概率密度分布函數(shù)為p(x)(其中X 為字節(jié)數(shù)),數(shù)據(jù)中心網(wǎng)絡(luò)交換機(jī)鏈路帶寬為C,針對(duì)已傳輸字節(jié)數(shù)為B的流,計(jì)算其在t時(shí)間 內(nèi)完成傳輸?shù)母怕?,;根?jù)所有流計(jì)算得到的傳輸結(jié)束概率,采 用K均值方法對(duì)其進(jìn)行聚類,類別數(shù)目為8,然后得到7個(gè)劃分不同流類別的閾值,傳輸結(jié)束 概率最高的類別具有最高的優(yōu)先級(jí),次高的類別具有第二等級(jí)的優(yōu)先級(jí),并以此類推; C. 在端系統(tǒng)接入端對(duì)流進(jìn)行標(biāo)記的步驟:根據(jù)步驟B計(jì)算得到的閾值,利用控制器對(duì)端 系統(tǒng)接入處的流量控制設(shè)備的配置進(jìn)行更新;然后對(duì)各個(gè)分組的DSCP字段進(jìn)行標(biāo)記; D. 對(duì)分組進(jìn)行調(diào)度的步驟:利用OF-CONFIG配置管理協(xié)議對(duì)交換機(jī)進(jìn)行配置,將每個(gè)交 換機(jī)入端口劃分出8個(gè)優(yōu)先級(jí)不同的隊(duì)列;當(dāng)分組到達(dá)時(shí),根據(jù)分組DSCP字段的內(nèi)容將其送 入對(duì)應(yīng)的隊(duì)列;當(dāng)隊(duì)列不為空,交換機(jī)按照各個(gè)隊(duì)列的優(yōu)先級(jí)順序進(jìn)行調(diào)度,只有當(dāng)所有更 高優(yōu)先級(jí)隊(duì)列都為空時(shí),該隊(duì)列中的分組才能得到服務(wù)。
【文檔編號(hào)】H04L12/865GK105827547SQ201610137805
【公開(kāi)日】2016年8月3日
【申請(qǐng)日】2016年3月10日
【發(fā)明人】胡超, 劉波, 邢長(zhǎng)友, 陳鳴, 李兵
【申請(qǐng)人】中國(guó)人民解放軍理工大學(xué)