本發(fā)明屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,涉及基站緩存方法,更為具體的說,是涉及無線通信系統(tǒng)中一種基于機(jī)器學(xué)習(xí)的超密集網(wǎng)絡(luò)小站緩存方法。
背景技術(shù):
5g(thefifthgeneration)網(wǎng)絡(luò)中移動通信量猛增,給移動網(wǎng)絡(luò)運(yùn)營商帶來極大的挑戰(zhàn)。在宏站覆蓋范圍內(nèi)同頻密集部署小站的超密集網(wǎng)絡(luò)技術(shù)作為5g的候選技術(shù)之一,可有效提升頻譜效率和系統(tǒng)吞吐量。超密集網(wǎng)絡(luò)中小站常部署在一些難以抵達(dá)的位置,這給連接小站與核心網(wǎng)的光纖回程鏈路的安裝帶來了困難,為解決這個問題,無線回程技術(shù)應(yīng)運(yùn)而生。然而無線頻譜資源是有限的,從大站卸載到超密集小站的海量移動通信量會給無線回程鏈路帶來巨大壓力。一種有效的回程鏈路通信量卸載技術(shù)是通過在小站預(yù)存文件來降低無線回程鏈路負(fù)載,進(jìn)而提升用戶體驗。然而小站的緩存空間是有限的,為了更有效地緩存,要按照精心設(shè)計的緩存策略來選取更準(zhǔn)確的文件緩存。
現(xiàn)有的緩存技術(shù)多是基于傳統(tǒng)的優(yōu)化算法來制定緩存策略的,而這些工作往往基于很強(qiáng)的假設(shè),導(dǎo)致緩存策略難以適用于實(shí)際系統(tǒng)。而且,這些緩存策略一般根據(jù)歷史訪問數(shù)據(jù)制定,考慮到網(wǎng)絡(luò)中在高峰訪問期不斷有新的文件會被大量訪問,只根據(jù)從歷史訪問數(shù)據(jù)中得到的模式制定緩存策略,不能有效利用有限的緩存空間。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問題,本發(fā)明公開了一種基于機(jī)器學(xué)習(xí)的超密集網(wǎng)絡(luò)小站緩存方法,以最小化系統(tǒng)回程鏈路負(fù)載為目標(biāo),在小站緩存文件總大小不超過小站緩存空間的前提下,基于k均值聚類和k近鄰分類,通過機(jī)器學(xué)習(xí)識別文件請求中的模式,并根據(jù)挖掘到的模式制定小站緩存策略。
本發(fā)明對核心網(wǎng)端口的海量數(shù)據(jù)加以利用,充分挖掘隱藏在數(shù)據(jù)中的模式并用于制定緩存策略,可獲得潛在的增益,顯著降低無線回程鏈路負(fù)載,提升用戶滿意度,且這種完全基于數(shù)據(jù)的分析不需要任何不切實(shí)際的假設(shè)。機(jī)器學(xué)習(xí)是對數(shù)據(jù)進(jìn)行分析和挖掘的主要工具,可用于提取核心網(wǎng)端口文件請求模式。由于不同地理位置的小站服務(wù)的人群有相似性也有差異性,導(dǎo)致文件訪問在空間上存在著潛在的模式。同時,文件訪問在相鄰的請求時間段之間也存在著關(guān)聯(lián),即文件請求也存在著時間模式。此外,在網(wǎng)絡(luò)的高峰訪問期不斷有新的文件會被大量訪問。
基于此,本方法首先在非高峰訪問期引入k均值聚類方法分析歷史訪問數(shù)據(jù),挖掘文件請求的空時模式,根據(jù)小站所服務(wù)用戶的文件偏好對小站進(jìn)行聚類,找出各類小站內(nèi)流行的文件,實(shí)現(xiàn)類間的個性化緩存與類內(nèi)的預(yù)測性緩存,同時利用歷史訪問數(shù)據(jù)與聚類結(jié)果構(gòu)建用于新文件分類的訓(xùn)練集;然后,在高峰訪問期引入k近鄰分類方法周期性地對不斷出現(xiàn)的新文件進(jìn)行分類,并緩存在偏好這類文件的小站類內(nèi);最后結(jié)合各類小站內(nèi)歷史流行文件與不斷出現(xiàn)的新文件制定實(shí)時更新的緩存策略,顯著降低系統(tǒng)回程鏈路負(fù)載,極大提升用戶滿意度。
為了達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
基于機(jī)器學(xué)習(xí)的超密集網(wǎng)絡(luò)小站緩存方法,包括如下步驟:
步驟1:采集網(wǎng)絡(luò)信息及歷史文件請求記錄,設(shè)置參數(shù):
采集網(wǎng)絡(luò)中宏站集合
步驟2:利用k均值聚類分析文件請求次數(shù)矩陣al-2(t,τ),對小站進(jìn)行聚類,挖掘文件請求中的空間模式:
步驟3:把文件請求次數(shù)矩陣al-2(t,τ)轉(zhuǎn)換為由元素0和1組成的文件請求指示矩陣
其中[·]pc代表矩陣的第p行第c列的元素,
步驟4:通過選取集合ωj,
步驟5:根據(jù)文件請求指示矩陣
步驟6:在不超過小站緩存空間s的前提下,結(jié)合歷史文件緩存順序向量
步驟7:根據(jù)公式(5)計算第(l-1)天的系統(tǒng)回程鏈路負(fù)載:
其中
步驟8:利用從第(l-2)天文件請求次數(shù)矩陣al-2(t,τ)中得到的緩存決策矩陣xk(t)及第(l-1)天文件請求次數(shù)矩陣al-1(t,τ)挖掘文件請求中的時間模式,設(shè)置k=k+1,比較k和小站聚類數(shù)目最大值kmax,若k<kmax,則回到步驟2;否則,進(jìn)行第步驟9;
步驟9:選取使公式(5)系統(tǒng)回程鏈路負(fù)載最小的聚類個數(shù)k,記錄此聚類情況下的歷史文件緩存順序向量
步驟10:基于步驟3得到的文件請求指示矩陣
其中列向量
步驟11:設(shè)置第l天的采集新文件起始時刻t為高峰訪問期起始時刻加上τ′,τ′為采集文件時間間隔;
步驟12:采集第l天的(t-τ′,t]時間間隔內(nèi)的新文件請求記錄,新文件集合為
步驟13:把新文件請求次數(shù)矩陣al(t,τ′)轉(zhuǎn)換為由元素0和1組成的新文件請求指示矩陣
步驟14:矩陣
步驟15:根據(jù)新文件類別yi,
步驟16:聯(lián)合考慮歷史受歡迎文件與新請求文件產(chǎn)生新的文件緩存順序向量
步驟17:在不超過小站緩存空間s的前提下,結(jié)合
步驟18:如還在高峰訪問期,每隔一段時間間隔τ′,在t=t+τ′時刻執(zhí)行步驟12到步驟17更新緩存的文件;如高峰訪問期結(jié)束,進(jìn)行第步驟19;
步驟19:停止執(zhí)行。
進(jìn)一步的,所述步驟2具體包括:
步驟2-1,初始化k個類的初始質(zhì)心
步驟2-2,矩陣al-2(t,τ)的第p行是第p個小站對c個文件的請求次數(shù)行向量,記為
其中ξp是行向量
步驟2-3,重新計算各類的質(zhì)心
其中|·|代表集合的大?。?/p>
步驟2-4,計算代價函數(shù)ek:
步驟2-5,比較ek和e0,如果-10-5≤ek-e0≤10-5,則設(shè)置e0=ek,回到2;否則,記錄小站聚類結(jié)果ωj,
進(jìn)一步的,所述步驟1到步驟10在非高峰訪問期執(zhí)行。
進(jìn)一步的,所述步驟11中采集文件時間間隔設(shè)置為0.5小時。
進(jìn)一步的,所述步驟14中利用k近鄰分類新請求的文件過程包括:
步驟14-1,根據(jù)公式(8)給定的歐氏距離度量,在公式(6)所示的訓(xùn)練集
步驟14-2,在
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和有益效果:
通過采集核心網(wǎng)的真實(shí)文件請求記錄,從數(shù)據(jù)本身挖掘文件請求模式,用于制定緩存策略,不需要任何不切實(shí)際的假設(shè),能很好地適用于實(shí)際系統(tǒng),且能帶來傳統(tǒng)方法無可比擬的性能增益,顯著降低系統(tǒng)回程鏈路負(fù)載,大幅度提升用戶滿意度。該方法在非高峰訪問期,基于k均值聚類方法深入挖掘歷史文件請求記錄中的空時模式,把文件請求作為特征,對小站進(jìn)行聚類,找出并存儲每類小站偏好的文件,構(gòu)建用于新文件分類的訓(xùn)練集;在高峰訪問期,基于k近鄰分類方法周期性地采集并分類網(wǎng)絡(luò)中新請求的文件,根據(jù)分類結(jié)果不斷地將新文件存儲在相應(yīng)的小站中。本發(fā)明提出的方法基于機(jī)器學(xué)習(xí)制定緩存策略,各類小站聯(lián)合存儲類內(nèi)的歷史流行文件與本類小站偏好的新文件,能充分利用小站有限的緩存空間存儲小站所服務(wù)人群最需要的文件,可顯著降低系統(tǒng)回程鏈路負(fù)載,極大提升用戶滿意度。
附圖說明
圖1為本發(fā)明提供的基于機(jī)器學(xué)習(xí)的超密集網(wǎng)絡(luò)小站緩存方法流程圖。
具體實(shí)施方式
以下將結(jié)合具體實(shí)施例對本發(fā)明提供的技術(shù)方案進(jìn)行詳細(xì)說明,應(yīng)理解下述具體實(shí)施方式僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。
本發(fā)明提供的基于機(jī)器學(xué)習(xí)的超密集網(wǎng)絡(luò)小站緩存方法,如圖1所示,包括如下步驟:
步驟1:采集網(wǎng)絡(luò)信息及歷史文件請求記錄,設(shè)置參數(shù):
采集網(wǎng)絡(luò)中宏站集合
步驟2:利用k均值聚類分析文件請求次數(shù)矩陣al-2(t,τ),對小站進(jìn)行聚類,挖掘文件請求中的空間模式:
1.初始化k個類的初始質(zhì)心
2.矩陣al-2(t,τ)的第p行是第p個小站對c個文件的請求次數(shù)行向量,記為
其中ξp是行向量
3.重新計算各類的質(zhì)心
其中|·|代表集合的大??;
4.計算代價函數(shù)ek:
5.比較ek和e0,如果-10-5≤ek-e0≤10-5,則設(shè)置e0=ek,回到2;否則,記錄小站聚類結(jié)果ωj,
步驟3:把文件請求次數(shù)矩陣al-2(t,τ)轉(zhuǎn)換為由元素0和1組成的文件請求指示矩陣
其中[·]pc代表矩陣的第p行第c列的元素,
步驟4:通過選取集合ωj,
步驟5:根據(jù)文件請求指示矩陣
步驟6:在不超過小站緩存空間s的前提下,結(jié)合歷史文件緩存順序向量
步驟7:根據(jù)公式(5)計算第(l-1)天的系統(tǒng)回程鏈路負(fù)載:
其中
步驟8:利用從第(l-2)天文件請求次數(shù)矩陣al-2(t,τ)中得到的緩存決策矩陣xk(t)及第(l-1)天文件請求次數(shù)矩陣al-1(t,τ)挖掘文件請求中的時間模式,設(shè)置k=k+1,比較k和小站聚類數(shù)目最大值kmax,若k<kmax,則回到步驟2;否則,進(jìn)行第步驟9;
步驟9:選取使公式(5)系統(tǒng)回程鏈路負(fù)載最小的聚類個數(shù)k,記錄此聚類情況下的歷史文件緩存順序向量
步驟10:基于步驟3得到的文件請求指示矩陣
其中列向量
注:步驟1到步驟10在非高峰訪問期執(zhí)行;旨在從歷史文件請求記錄中挖掘小站中文件請求的空時模式,作出關(guān)于歷史受歡迎文件(即偏好文件)的緩存決策;同時用歷史數(shù)據(jù)構(gòu)建訓(xùn)練集,用來對將會在高峰訪問期新請求的文件進(jìn)行分類緩存;
步驟11:設(shè)置第l天的采集新文件起始時刻t為高峰訪問期起始時刻加上τ′,τ′為采集文件時間間隔,設(shè)置為0.5小時;
步驟12:采集第l天的(t-τ′,t]時間間隔內(nèi)的新文件請求記錄,新文件集合為
步驟13:把新文件請求次數(shù)矩陣al(t,τ′)轉(zhuǎn)換為由元素0和1組成的新文件請求指示矩陣
步驟14:矩陣
1.根據(jù)公式(8)給定的歐氏距離度量,在公式(6)所示的訓(xùn)練集
2.在
步驟15:根據(jù)新文件類別yi,
步驟16:聯(lián)合考慮歷史受歡迎文件與新請求文件產(chǎn)生新的文件緩存順序向量
步驟17:在不超過小站緩存空間s的前提下,結(jié)合
步驟18:如還在高峰訪問期,每隔一段時間間隔τ′,在t=t+τ′時刻執(zhí)行步驟12到步驟17更新緩存的文件;如高峰訪問期結(jié)束,進(jìn)行第步驟19;
步驟19:停止執(zhí)行。
本發(fā)明方案所公開的技術(shù)手段不僅限于上述實(shí)施方式所公開的技術(shù)手段,還包括由以上技術(shù)特征任意組合所組成的技術(shù)方案。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍。