一種基于無(wú)線網(wǎng)絡(luò)話務(wù)特征的小區(qū)聚類(lèi)方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及移動(dòng)通信領(lǐng)域尤其涉及一種基于無(wú)線網(wǎng)絡(luò)話務(wù)特征的小區(qū)聚類(lèi)方法。
【背景技術(shù)】
[0002] 移動(dòng)通信技術(shù)是一個(gè)不斷演進(jìn)的過(guò)程,隨著4G網(wǎng)絡(luò)大規(guī)模的建設(shè),目前在2/3/4G 混合組網(wǎng)的情況下,網(wǎng)絡(luò)復(fù)雜性也在進(jìn)一步提高,因此,為了適應(yīng)這樣的變革,移動(dòng)運(yùn)營(yíng)商 在考慮潛在的4G需求時(shí),應(yīng)該分析當(dāng)前不同小區(qū)的無(wú)線網(wǎng)絡(luò)話務(wù)特征,借以高效低能耗的 對(duì)網(wǎng)絡(luò)話務(wù)特征的聚類(lèi)算法,整理出無(wú)線網(wǎng)絡(luò)話務(wù)特征相似的小區(qū),從而為運(yùn)營(yíng)商提供一 種新的網(wǎng)絡(luò)優(yōu)化方式基于批處理方式的實(shí)現(xiàn)成為可能。
[0003] 在數(shù)據(jù)處理過(guò)程中,將物理或抽象對(duì)象的集合分成由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的 過(guò)程被稱(chēng)為聚類(lèi)。由聚類(lèi)所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì) 象彼此相似,與其他簇中的對(duì)象相異。在對(duì)大數(shù)據(jù)量的小區(qū)話務(wù)信息進(jìn)行識(shí)別時(shí),對(duì)其進(jìn)行 聚類(lèi)計(jì)算,即是根據(jù)不同的閾值將不同的小區(qū)分成不同的類(lèi),以便獲取哪些小區(qū)屬于同一 個(gè)類(lèi)別,并最終實(shí)現(xiàn)相似小區(qū)的聚類(lèi)。
[0004] 現(xiàn)有的聚類(lèi)算法不論在適用范圍上還是聚類(lèi)效果上均會(huì)存在一些限制和缺陷。如 經(jīng)典的k-means聚類(lèi)算法,其結(jié)果好壞依賴(lài)于對(duì)初始聚類(lèi)中心的選擇,并且存在對(duì)異常數(shù) 據(jù)較為敏感、只能處理數(shù)值屬性的數(shù)據(jù)、聚類(lèi)結(jié)構(gòu)可能不平衡等問(wèn)題。而層次聚類(lèi)也會(huì)出現(xiàn) 計(jì)算復(fù)雜度太高、奇異值也能產(chǎn)生很大影響以及算法很可能聚類(lèi)成鏈狀等問(wèn)題。因此如何 規(guī)避現(xiàn)有算法的缺點(diǎn),減少聚類(lèi)誤差,提高聚類(lèi)準(zhǔn)確性是目前亟需解決的問(wèn)題。
[0005] 基于以上原因,為了精確地規(guī)劃、設(shè)計(jì)不同小區(qū)的2G/3G/4GLTE網(wǎng)絡(luò),直觀的發(fā)現(xiàn) 話務(wù)數(shù)據(jù)類(lèi)似的小區(qū),為不同類(lèi)型的小區(qū)提供有針對(duì)性?xún)?yōu)化方案,本文將提供涉及移動(dòng)通 信領(lǐng)域尤其涉及一種話務(wù)量小區(qū)級(jí)的聚類(lèi)方法和系統(tǒng)。此方法中的數(shù)據(jù)來(lái)源是基于小區(qū)級(jí) 的話務(wù)量。本專(zhuān)利通過(guò)聚類(lèi)得到話務(wù)數(shù)據(jù)類(lèi)似的小區(qū),為移動(dòng)運(yùn)營(yíng)商提供了一個(gè)評(píng)估和規(guī) 劃網(wǎng)絡(luò)容量的輔助方案,此方案不依賴(lài)于任何廠商。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所解決的技術(shù)問(wèn)題是:采用數(shù)據(jù)挖掘技術(shù)從源數(shù)據(jù)中挖掘出有用的信息對(duì) 數(shù)據(jù)進(jìn)行聚類(lèi),特別是針對(duì)移動(dòng)通訊領(lǐng)域中的小區(qū)實(shí)現(xiàn)準(zhǔn)確的聚類(lèi),利用選取的最優(yōu)K值 運(yùn)用五種聚類(lèi)算法對(duì)待處理數(shù)據(jù)進(jìn)行聚類(lèi)整合,規(guī)避現(xiàn)有算法聚類(lèi)誤差大的缺陷;也為移 動(dòng)運(yùn)營(yíng)商提供一個(gè)評(píng)估、規(guī)劃和設(shè)計(jì)網(wǎng)絡(luò)時(shí)的參考依據(jù)。
[0007] 為解決以上技術(shù)問(wèn)題,本發(fā)明提供了一種基于無(wú)線網(wǎng)絡(luò)話務(wù)特征的小區(qū)聚類(lèi)方 法,包括如下步驟:Sl選擇待處理數(shù)據(jù);S2提取每個(gè)待處理數(shù)據(jù)的"特征參數(shù)";S3對(duì)待處理 數(shù)據(jù)進(jìn)行聚類(lèi)最優(yōu)K值選?。籗4利用選取的最優(yōu)K值運(yùn)用五種聚類(lèi)算法對(duì)待處理數(shù)據(jù)進(jìn)行 聚類(lèi)整合;S5將聚類(lèi)結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類(lèi)結(jié) 果。
[0008] 步驟Sl中所述待處理數(shù)據(jù)為有關(guān)小區(qū)話務(wù)在一段時(shí)間范圍內(nèi)建立的RSCP和Ec/ Io兩個(gè)關(guān)鍵指標(biāo)的小區(qū)級(jí)秒粒度話務(wù)統(tǒng)計(jì)信息表和對(duì)該段時(shí)間范圍采用時(shí)間序列擬合算 法建立的小區(qū)級(jí)秒粒度話務(wù)信息時(shí)間序列。
[0009] 步驟S2中所述的特征參數(shù)是指對(duì)小區(qū)話務(wù)的兩個(gè)關(guān)鍵指標(biāo)RSCP和Ec/Io的話務(wù) 特征分別提取的最大值、95%分位數(shù)、5%分位數(shù)、均值、中位數(shù)、方差、偏度和峰度、序列關(guān) 聯(lián)性、非線性、頻率、穩(wěn)定性和持續(xù)性;以及關(guān)于小區(qū)級(jí)秒粒度話務(wù)信息時(shí)間序列的趨勢(shì)、季 節(jié)性、序列關(guān)聯(lián)性、非線性、偏度和峰度。
[0010] 步驟S3中所述的最優(yōu)K值選取的方法是通過(guò)計(jì)算BWP指標(biāo)、Calinski-Harabasz 指標(biāo)和Silhouette指標(biāo),選擇聚類(lèi)效果最好的指標(biāo)所對(duì)應(yīng)的K值為聚類(lèi)最優(yōu)K值。
[0011] 步驟S4中所述運(yùn)用五種聚類(lèi)算法對(duì)待處理數(shù)據(jù)進(jìn)行聚類(lèi)整合是指運(yùn)用五類(lèi)聚類(lèi) 算法對(duì)所有小區(qū)進(jìn)行聚類(lèi),并將結(jié)果向量轉(zhuǎn)化成聚類(lèi)結(jié)果相似矩陣,把五個(gè)聚類(lèi)結(jié)果相似 矩陣取均值再根據(jù)閾值取值后轉(zhuǎn)回成聚類(lèi)結(jié)果向量,得到此聚類(lèi)方法的最終結(jié)果。
[0012] -種基于無(wú)線網(wǎng)絡(luò)話務(wù)特征的小區(qū)聚類(lèi)系統(tǒng),其特征在于,該系統(tǒng)包括:1)數(shù)據(jù) 庫(kù)模塊,用于導(dǎo)入待處理數(shù)據(jù);2)特征參數(shù)提取模塊,用于提取每個(gè)待處理數(shù)據(jù)的"特征參 數(shù)";3)K值選取模塊,通過(guò)計(jì)算BWP指標(biāo)、Calinski-Harabasz指標(biāo)和Silhouette指標(biāo)三大 指標(biāo)對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),選擇聚類(lèi)效果最好的指標(biāo)所對(duì)應(yīng)的K值為聚類(lèi)最優(yōu)K值;4)聚類(lèi)分 析模塊,利用選取的最優(yōu)K值,運(yùn)用五種聚類(lèi)算法對(duì)待處理數(shù)據(jù)進(jìn)行聚類(lèi)整合;5)可視化模 塊,將聚類(lèi)結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類(lèi)結(jié)果。
[0013] 本發(fā)明的上述技術(shù)方案具有如下優(yōu)點(diǎn):在無(wú)線網(wǎng)絡(luò)測(cè)量報(bào)告中選取關(guān)鍵性指標(biāo), 從大量真實(shí)數(shù)據(jù)樣本中剖析出的若干特征值,同時(shí)將真實(shí)數(shù)據(jù)進(jìn)行降粒度分解,從而有利 于提高特征值提取的效率和聚類(lèi)算法實(shí)施過(guò)程中的速度。取代了傳統(tǒng)的仿真模型,利用大 數(shù)據(jù)技術(shù),將海量歷史數(shù)據(jù)利用合適的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,挖掘出無(wú)線網(wǎng)絡(luò)質(zhì)量的 各項(xiàng)特征,從而為小區(qū)特征的聚類(lèi)提供了一套系統(tǒng)化,準(zhǔn)確率高的方案系統(tǒng)。傳統(tǒng)的電信運(yùn) 營(yíng)商,設(shè)備商利用簡(jiǎn)單的時(shí)間序列算法等進(jìn)行網(wǎng)絡(luò)話務(wù)的評(píng)估,使用單純的數(shù)學(xué)方法往往 脫離實(shí)際。本方法有效的將無(wú)線網(wǎng)絡(luò)質(zhì)量的各項(xiàng)特征融入了數(shù)學(xué)聚類(lèi)計(jì)算之中,顯著的提 高了整套解決方案的可信度、準(zhǔn)確率和效度。利用真實(shí)的網(wǎng)絡(luò)大數(shù)據(jù),進(jìn)行大數(shù)據(jù)的分析處 理,是一種基于真實(shí)網(wǎng)絡(luò)范式的類(lèi)型聚集過(guò)程。在這個(gè)過(guò)程中我們的方法把每一個(gè)小區(qū)用 戶(hù)的多個(gè)無(wú)線網(wǎng)絡(luò)質(zhì)量特征剝離出來(lái),這樣有效的將無(wú)線網(wǎng)絡(luò)質(zhì)量特征在數(shù)據(jù)模型里真實(shí) 的展現(xiàn)出來(lái),使得理論結(jié)果產(chǎn)生了實(shí)際意義。
【附圖說(shuō)明】
[0014]圖1為本發(fā)明實(shí)施例提供的一種基于無(wú)線網(wǎng)絡(luò)話務(wù)特征的小區(qū)聚類(lèi)方法;
[0015] 圖2為采用本發(fā)明的發(fā)法將聚類(lèi)結(jié)果結(jié)合地圖顯示。
【具體實(shí)施方式】
[0016] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
[0017] 本發(fā)明所介紹的方法可以通過(guò)對(duì)數(shù)據(jù)特征的提取,對(duì)特征值相似的數(shù)據(jù)進(jìn)行聚 類(lèi),本發(fā)明不僅僅可以針對(duì)小區(qū)話務(wù)量的數(shù)據(jù)處理,還可以處理對(duì)其他事物特征數(shù)據(jù)的聚 類(lèi),如人群特征、收入特征、消費(fèi)特征等,這里僅以小區(qū)的話務(wù)量為例進(jìn)行【具體實(shí)施方式】的 介紹。
[0018] SI選擇待處理數(shù)據(jù);
[0019] 獲取1600個(gè)小區(qū)網(wǎng)絡(luò)話務(wù)量的歷史數(shù)據(jù),將各小區(qū)在時(shí)間粒度上兩周8個(gè)忙時(shí)的 兩個(gè)關(guān)鍵指標(biāo)(KPI:KeyPerformanceIndicator)抽取進(jìn)行時(shí)間粒度降級(jí),以建立小區(qū)級(jí) 秒粒度話務(wù)統(tǒng)計(jì)信息表;其關(guān)鍵指標(biāo)(KPI)是RSCP和Ec/Io。RSCP(ReceivedSignalCode Power)為接收信號(hào)碼功率(簡(jiǎn)稱(chēng)電平值),指的是在DPCH、PRACH或PUSCH等物理信道上收 到的某一個(gè)信號(hào)碼功率。Ec/Io,E是Energy(能量)簡(jiǎn)稱(chēng),c是Chip(碼片)指平均能量, I是Interfere(干擾)的簡(jiǎn)稱(chēng),〇是OtherCell的簡(jiǎn)稱(chēng),體現(xiàn)了所接收信號(hào)的強(qiáng)度和鄰小 區(qū)干擾水平的比值。采用時(shí)間序列擬合算法選取兩周8個(gè)忙時(shí)的時(shí)間范圍,建立小區(qū)級(jí)秒 粒度話務(wù)信息時(shí)間序列。
[0020] S2提取每個(gè)待處理數(shù)據(jù)的"特征參數(shù)";
[0021] 根據(jù)小區(qū)級(jí)秒粒度話務(wù)統(tǒng)計(jì)信息表和小區(qū)級(jí)秒粒度話務(wù)信息時(shí)間序列,計(jì)算該 時(shí)間段內(nèi)各個(gè)小區(qū)19個(gè)無(wú)線網(wǎng)絡(luò)話務(wù)特征。分別對(duì)小區(qū)兩個(gè)KPI進(jìn)行話務(wù)特征抽取,得 到每個(gè)小區(qū)對(duì)應(yīng)的38個(gè)話務(wù)特征。特征數(shù)據(jù)分別是關(guān)于小區(qū)級(jí)秒粒度話務(wù)統(tǒng)計(jì)信息表的 最大值、95 %分位數(shù)(95%percentile)、5 %分位數(shù)(5%percentile)、均值(mean)、中位 數(shù)(median)、方差(variance)、偏度(skewness)和峰度(kurtosis)、序列關(guān)聯(lián)性(Serial correlation)、非線性(non-linearity)、頻率(Frequency)、穩(wěn)定性(chaotic)和持續(xù)性 (selfsimilarity)。以及關(guān)于時(shí)間序列的趨勢(shì)(trend)、季節(jié)性(seasonality)、序列關(guān)聯(lián) 性(Serialcorrelation)、非線性(non-linearity)、偏度(skewness)和峰度(kurtosis) 從而得到各個(gè)小區(qū)的38維數(shù)據(jù)特征值。
[0022] 分別提取小區(qū)兩個(gè)指標(biāo)KPI的19個(gè)話務(wù)特征,得到38個(gè)話務(wù)特征值,具體包括如 下內(nèi)容: 1) 最大值(max):指在給定情形下可以達(dá)到的最大數(shù)值。 2) 95%分位數(shù)(95%percentile):指連續(xù)分布函數(shù)中位于95%位置的點(diǎn)。 3) 5%分位數(shù)(5%percentile):指連續(xù)分布函數(shù)中位于5%位置的點(diǎn)。 4) 均值(mean):指一組數(shù)據(jù)集中趨勢(shì)的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以 這組數(shù)據(jù)的個(gè)數(shù)。 5) 中位數(shù)(median):指一個(gè)樣本、種群或概率分布中的一個(gè)數(shù)值,其可將數(shù)值集合劃 分為相等的上下兩部分。對(duì)于有限的數(shù)集,可以通過(guò)把所有觀察值高低排序后找出正中間 的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。 6) 方差(var