本發(fā)明涉及通信技術(shù)領(lǐng)域,特別是指一種信息通信運(yùn)行主動(dòng)輔助決策的方法。
背景技術(shù):
目前,通信技術(shù)在各行各業(yè)都廣泛的應(yīng)用。隨著通信技術(shù)的不斷發(fā)展,越來(lái)越注重信息通信的在運(yùn)行過(guò)程中的決策。但是,在現(xiàn)有技術(shù)中還不能夠系統(tǒng)、完整的對(duì)信息通信的運(yùn)行進(jìn)行輔助決策。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提出一種信息通信運(yùn)行主動(dòng)輔助決策的方法,能夠?qū)π畔⑼ㄐ诺倪\(yùn)行起到主動(dòng)輔助決策的作用。
基于上述目的本發(fā)明提供的信息通信運(yùn)行主動(dòng)輔助決策的方法,包括:
基于數(shù)據(jù)挖掘,對(duì)信息通信運(yùn)行的實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理;
根據(jù)處理后的數(shù)據(jù),對(duì)信息通信運(yùn)行進(jìn)行故障根源定位;
通過(guò)所述故障根源定位,對(duì)信息通信運(yùn)行進(jìn)行決策。
在本發(fā)明的一些實(shí)施例中,所述基于數(shù)據(jù)挖掘?qū)π畔⑼ㄐ胚\(yùn)行的實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理,包括:
從前端業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù);
對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理并傳入數(shù)據(jù)落地層;
對(duì)數(shù)據(jù)進(jìn)行挖掘處理。
在本發(fā)明的一些實(shí)施例中,所述從前端業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù)的方式使用消息隊(duì)列,直接通過(guò)網(wǎng)絡(luò)socket傳輸數(shù)據(jù),前端業(yè)務(wù)系統(tǒng)專(zhuān)有數(shù)據(jù)采集api,對(duì)log問(wèn)價(jià)定時(shí)監(jiān)控。
在本發(fā)明的一些實(shí)施例中,所述對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理并傳入數(shù)據(jù)落地層時(shí),采用的數(shù)據(jù)實(shí)時(shí)處理方法為apachestorm、apachesparkstreaming或者apachesamza。
在本發(fā)明的一些實(shí)施例中,所述數(shù)據(jù)落地層對(duì)接收到的數(shù)據(jù)進(jìn)行挖掘時(shí),采用weka、rapidminer、nltk、orange、knime或r-programming。
在本發(fā)明的一些實(shí)施例中,所述對(duì)信息通信運(yùn)行進(jìn)行故障根源定位之前,還包括:
對(duì)信息通信運(yùn)行的數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清洗,其中所述數(shù)據(jù)清洗包括根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)的一致性檢查;包括對(duì)無(wú)效值和缺失值記性估算,整例刪除,變量刪除和成對(duì)刪除。
在本發(fā)明的一些實(shí)施例中,所述數(shù)據(jù)清洗之后,還包括:
進(jìn)行數(shù)據(jù)壓縮和數(shù)據(jù)歸并,其中當(dāng)業(yè)務(wù)數(shù)據(jù)急劇上漲,海量的冷數(shù)據(jù)、老數(shù)據(jù)需要被壓縮,則采用hdfs集群的數(shù)據(jù)壓縮;數(shù)據(jù)歸并是指在對(duì)挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上、獲得依賴(lài)于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征。
在本發(fā)明的一些實(shí)施例中,所述數(shù)據(jù)歸并的類(lèi)型是特征歸并、樣本歸并和特征值歸并。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例信息通信運(yùn)行主動(dòng)輔助決策的方法的流程示意。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
需要說(shuō)明的是,本發(fā)明實(shí)施例中所有使用“第一”和“第二”的表述均是為了區(qū)分兩個(gè)相同名稱(chēng)非相同的實(shí)體或者非相同的參量,可見(jiàn)“第一”“第二”僅為了表述的方便,不應(yīng)理解為對(duì)本發(fā)明實(shí)施例的限定,后續(xù)實(shí)施例對(duì)此不再一一說(shuō)明。
參閱圖1所示,為本發(fā)明實(shí)施例信息通信運(yùn)行主動(dòng)輔助決策的方法的流程示意圖,所述信息通信運(yùn)行主動(dòng)輔助決策的方法包括:
步驟101,基于數(shù)據(jù)挖掘,對(duì)信息通信運(yùn)行的實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理。
在實(shí)施例中,運(yùn)維數(shù)據(jù)是指在業(yè)務(wù)運(yùn)行期間,通過(guò)各種途徑產(chǎn)生的用于運(yùn)維分析的實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)。這些數(shù)據(jù)的特點(diǎn)使得其需要以流處理的方式提高實(shí)時(shí)處理效率,而且以海量的存儲(chǔ)達(dá)到歷史數(shù)據(jù)分析挖掘的目的。
其中,整個(gè)數(shù)據(jù)流處理過(guò)程可以包括:
第一步:從前端業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù)。
較佳地,有多種數(shù)據(jù)收集方式,包括使用消息隊(duì)列(metaq),直接通過(guò)網(wǎng)絡(luò)socket傳輸數(shù)據(jù),前端業(yè)務(wù)系統(tǒng)專(zhuān)有數(shù)據(jù)采集api,對(duì)log問(wèn)價(jià)定時(shí)監(jiān)控。(注:有時(shí)候我們的數(shù)據(jù)源是已經(jīng)保存下來(lái)的log文件,那agent就必須監(jiān)控log文件的變化,及時(shí)將變化部分的數(shù)據(jù)提取寫(xiě)入流處理中,這很難做到完全實(shí)時(shí)性。)。根據(jù)前面的調(diào)研結(jié)果,也可以用實(shí)時(shí)抓包分析的方式收集數(shù)據(jù),并且這種方式能獲取完整的并且實(shí)時(shí)性高的業(yè)務(wù)數(shù)據(jù)。
第二步:對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理并傳入數(shù)據(jù)落地層。
較佳地,可以采用的數(shù)據(jù)實(shí)時(shí)處理方法為:apachestorm是一個(gè)免費(fèi)開(kāi)源、分布式、高容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)。它與其他大數(shù)據(jù)解決方案的不同之處在于它的處理方式。hadoop在本質(zhì)上是一個(gè)批處理系統(tǒng),數(shù)據(jù)被引入hadoop文件系統(tǒng)(hdfs)并分發(fā)到各個(gè)節(jié)點(diǎn)進(jìn)行處理。當(dāng)處理完成時(shí),結(jié)果數(shù)據(jù)返回到hdfs供始發(fā)者使用。hadoop的高吞吐,海量數(shù)據(jù)處理的能力使得人們可以方便地處理海量數(shù)據(jù)。但是,hadoop的缺點(diǎn)也和它的優(yōu)點(diǎn)同樣鮮明——延遲大,響應(yīng)緩慢,運(yùn)維復(fù)雜。storm就是為了彌補(bǔ)hadoop的實(shí)時(shí)性為目標(biāo)而被創(chuàng)造出來(lái)。storm支持創(chuàng)建拓?fù)浣Y(jié)構(gòu)來(lái)轉(zhuǎn)換沒(méi)有終點(diǎn)的數(shù)據(jù)流。不同于hadoop作業(yè),這些轉(zhuǎn)換從不停止,它們會(huì)持續(xù)處理到達(dá)的數(shù)據(jù)。storm經(jīng)常用于在實(shí)時(shí)分析、在線(xiàn)機(jī)器學(xué)習(xí)、持續(xù)計(jì)算、分布式遠(yuǎn)程調(diào)用和etl等領(lǐng)域。storm的部署管理非常簡(jiǎn)單,而且,在同類(lèi)的流式計(jì)算工具,storm的性能也是非常出眾的。
apachestorm類(lèi)似于mapreduce降低了并行批處理復(fù)雜性,storm降低了進(jìn)行實(shí)時(shí)處理的復(fù)雜性。另外,apachestorm可以使用各種編程語(yǔ)言,在storm之上使用各種編程語(yǔ)言。默認(rèn)支持clojure、java、ruby和python。要增加對(duì)其他語(yǔ)言的支持,只需實(shí)現(xiàn)一個(gè)簡(jiǎn)單的storm通信協(xié)議即可。同時(shí),apachestorm會(huì)管理工作進(jìn)程和節(jié)點(diǎn)的故障。模塊都是無(wú)狀態(tài)的,隨時(shí)宕機(jī)重啟。由于是分布式,一個(gè)節(jié)點(diǎn)掛了不能影響系統(tǒng)的正常運(yùn)行。并且,apachestorm計(jì)算是在多個(gè)線(xiàn)程、進(jìn)程和服務(wù)器之間并行進(jìn)行的。保證每個(gè)消息至少能得到一次完整處理,任務(wù)失敗時(shí)它會(huì)負(fù)責(zé)從消息源重試消息。消息能得到快速的處理,使用zeromq(新的消息機(jī)制使用netty代替zeromq)作為其底層消息隊(duì)列。還有,apachestorm有一個(gè)“本地模式”,可以在處理過(guò)程中完全模擬storm集群,可以快速進(jìn)行開(kāi)發(fā)和單元測(cè)試。可以用來(lái)處理源源不斷流進(jìn)來(lái)的消息,處理之后將結(jié)果寫(xiě)入到某個(gè)存儲(chǔ)中去。由于apachestorm的處理組件是分布式的,而且處理延遲極低,所以可以作為一個(gè)通用的分布式rpc框架來(lái)使用。
較佳地,可以采用的數(shù)據(jù)實(shí)時(shí)處理方法為:apachesparkstreaming類(lèi)似于apachestorm,用于流式數(shù)據(jù)的處理。根據(jù)其官方文檔介紹,sparkstreaming有高吞吐量和容錯(cuò)能力強(qiáng)這兩個(gè)特點(diǎn)。sparkstreaming支持的數(shù)據(jù)輸入源很多,例如:kafka、flume、twitter、zeromq和簡(jiǎn)單的tcp套接字等等。數(shù)據(jù)輸入后可以用spark的高度抽象原語(yǔ)如:map、reduce、join、window等進(jìn)行運(yùn)算。而結(jié)果也能保存在很多地方,如hdfs,數(shù)據(jù)庫(kù)等。另外sparkstreaming也能和mllib(機(jī)器學(xué)習(xí))以及graphx完美融合。在apachesparkstreaming中,處理數(shù)據(jù)的單位是一批而不是單條,而數(shù)據(jù)采集卻是逐條進(jìn)行的,因此sparkstreaming系統(tǒng)需要設(shè)置間隔使得數(shù)據(jù)匯總到一定的量后再一并操作,這個(gè)間隔就是批處理間隔。批處理間隔是sparkstreaming的核心概念和關(guān)鍵參數(shù),它決定了sparkstreaming提交作業(yè)的頻率和數(shù)據(jù)處理的延遲,同時(shí)也影響著數(shù)據(jù)處理的吞吐量和性能。
較佳地,可以采用的數(shù)據(jù)實(shí)時(shí)處理方法為:apachesamza,apachesamza處理數(shù)據(jù)流時(shí),會(huì)分別按次處理每條收到的消息。samza的流單位既不是元組,也不是dstream,而是一條條消息。在samza中,數(shù)據(jù)流被切分開(kāi)來(lái),每個(gè)部分都由一組只讀消息的有序數(shù)列構(gòu)成,而這些消息每條都有一個(gè)特定的id(offset)。該系統(tǒng)還支持批處理,即逐次處理同一個(gè)數(shù)據(jù)流分區(qū)的多條消息。samza的執(zhí)行與數(shù)據(jù)流模塊都是可插拔式的,盡管samza的特色是依賴(lài)hadoop的yarn(另一種資源調(diào)度器)和apachekafka。
第三步:對(duì)數(shù)據(jù)進(jìn)行挖掘處理。
較佳地,數(shù)據(jù)落地層對(duì)接收到的數(shù)據(jù)進(jìn)行落地,可以采用mysql、mongodb或hdfs的方法。其中,數(shù)據(jù)量不是非常大的情況下可以使用mysql作為數(shù)據(jù)落地的存儲(chǔ)對(duì)象。mysql對(duì)數(shù)據(jù)后續(xù)處理也是比較方便的,且網(wǎng)絡(luò)上對(duì)mysql的操作也是比較多的,在開(kāi)發(fā)上代價(jià)比較小,適合中小量數(shù)據(jù)存儲(chǔ)。mongodb是一個(gè)介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫(kù)當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫(kù)的。他支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類(lèi)似json的bjson格式,因此可以存儲(chǔ)比較復(fù)雜的數(shù)據(jù)類(lèi)型。mongo最大的特點(diǎn)是他支持的查詢(xún)語(yǔ)言非常強(qiáng)大,其語(yǔ)法有點(diǎn)類(lèi)似于面向?qū)ο蟮牟樵?xún)語(yǔ)言,幾乎可以實(shí)現(xiàn)類(lèi)似關(guān)系數(shù)據(jù)庫(kù)單表查詢(xún)的絕大部分功能,而且還支持對(duì)數(shù)據(jù)建立索引。hdfs及基于hadoop的分布式文件系統(tǒng),許多日志分析系統(tǒng)都是基于hdfs搭建出來(lái)的。
在另一個(gè)實(shí)施例中,數(shù)據(jù)落地層對(duì)接收到的數(shù)據(jù)進(jìn)行挖掘時(shí),可以采用weka、rapidminer、nltk、orange、knime或r-programming。其中,weka原生的非java版本主要是為了分析農(nóng)業(yè)領(lǐng)域數(shù)據(jù)而開(kāi)發(fā)的。該工具基于java版本,是非常復(fù)雜的,并且應(yīng)用在許多不同的應(yīng)用中,包括數(shù)據(jù)分析以及預(yù)測(cè)建模的可視化和算法。與rapidminer相比優(yōu)勢(shì)在于,它在gnu通用公共許可證下是免費(fèi)的,因?yàn)橛脩?hù)可以按照自己的喜好選擇自定義。weka支持多種標(biāo)準(zhǔn)數(shù)據(jù)挖掘任務(wù),包括數(shù)據(jù)預(yù)處理、收集、分類(lèi)、回歸分析、可視化和特征選取。rapidminer是用java語(yǔ)言編寫(xiě)的,通過(guò)基于模板的框架提供先進(jìn)的分析技術(shù)。該款工具最大的好處就是,用戶(hù)無(wú)需寫(xiě)任何代碼。除了數(shù)據(jù)挖掘,rapidminer還提供如數(shù)據(jù)預(yù)處理和可視化、預(yù)測(cè)分析和統(tǒng)計(jì)建模、評(píng)估和部署等功能。更具優(yōu)勢(shì)的是它還提供來(lái)自weka(一種智能分析環(huán)境)和r腳本的學(xué)習(xí)方案、模型和算法。當(dāng)涉及到語(yǔ)言處理任務(wù),nltk能力較強(qiáng)。nltk提供了一個(gè)語(yǔ)言處理工具,包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)抓取、情感分析等各種語(yǔ)言處理任務(wù)。
orange是一個(gè)基于python語(yǔ)言,功能強(qiáng)大的開(kāi)源工具,并且對(duì)初學(xué)者和專(zhuān)家級(jí)的均適用。此外,這個(gè)工具可同時(shí)支持可視化編程和python腳本。它不僅有機(jī)器學(xué)習(xí)的組件,還附加有生物信息和文本挖掘,具備了數(shù)據(jù)分析的各種功能。另外,數(shù)據(jù)處理主要有三個(gè)部分:提取、轉(zhuǎn)換和加載。而這三者knime都可以做到。knime提供了一個(gè)圖形化的用戶(hù)界面,以便對(duì)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行處理。knime是基于eclipse,用java編寫(xiě)的,并且易于擴(kuò)展和補(bǔ)充插件。r-programming語(yǔ)言應(yīng)用于數(shù)據(jù)挖掘,以及開(kāi)發(fā)統(tǒng)計(jì)軟件和數(shù)據(jù)分析中。
步驟102,根據(jù)處理后的數(shù)據(jù),對(duì)信息通信運(yùn)行進(jìn)行故障根源定位。
在實(shí)施例中,對(duì)信息通信運(yùn)行的數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。首先,一致性檢查(consistencycheck)是根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。例如,用1-7級(jí)量表測(cè)量的變量出現(xiàn)了0值,體重出現(xiàn)了負(fù)數(shù),都應(yīng)視為超出正常值域范圍。spss、sas、和excel等計(jì)算機(jī)軟件都能夠根據(jù)定義的取值范圍,自動(dòng)識(shí)別每個(gè)超出范圍的變量值。具有邏輯上不一致性的答案可能以多種形式出現(xiàn):例如,許多調(diào)查對(duì)象說(shuō)自己開(kāi)車(chē)上班,又報(bào)告沒(méi)有汽車(chē);或者調(diào)查對(duì)象報(bào)告自己是某品牌的重度購(gòu)買(mǎi)者和使用者,但同時(shí)又在熟悉程度量表上給了很低的分值。發(fā)現(xiàn)不一致時(shí),要列出問(wèn)卷序號(hào)、記錄序號(hào)、變量名稱(chēng)、錯(cuò)誤類(lèi)別等,便于進(jìn)一步核對(duì)和糾正。
由于調(diào)查、編碼和錄入誤差,數(shù)據(jù)中可能存在一些無(wú)效值和缺失值,需要給予適當(dāng)?shù)奶幚?。常用的處理方法有:估算,整例刪除,變量刪除和成對(duì)刪除。估算(estimation)。最簡(jiǎn)單的辦法就是用某個(gè)變量的樣本均值、中位數(shù)或眾數(shù)代替無(wú)效值和缺失值。這種辦法簡(jiǎn)單,但沒(méi)有充分考慮數(shù)據(jù)中已有的信息,誤差可能較大。另一種辦法就是根據(jù)調(diào)查對(duì)象對(duì)其他問(wèn)題的答案,通過(guò)變量之間的相關(guān)分析或邏輯推論進(jìn)行估計(jì)。例如,某一產(chǎn)品的擁有情況可能與家庭收入有關(guān),可以根據(jù)調(diào)查對(duì)象的家庭收入推算擁有這一產(chǎn)品的可能性。整例刪除(casewisedeletion)是剔除含有缺失值的樣本。由于很多問(wèn)卷都可能存在缺失值,這種做法的結(jié)果可能導(dǎo)致有效樣本量大大減少,無(wú)法充分利用已經(jīng)收集到的數(shù)據(jù)。因此,只適合關(guān)鍵變量缺失,或者含有無(wú)效值或缺失值的樣本比重很小的情況。變量刪除(variabledeletion)。如果某一變量的無(wú)效值和缺失值很多,而且該變量對(duì)于所研究的問(wèn)題不是特別重要,則可以考慮將該變量刪除。這種做法減少了供分析用的變量數(shù)目,但沒(méi)有改變樣本量。成對(duì)刪除(pairwisedeletion)是用一個(gè)特殊碼(通常是9、99、999等)代表無(wú)效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本。但是,在具體計(jì)算時(shí)只采用有完整答案的樣本,因而不同的分析因涉及的變量不同,其有效樣本量也會(huì)有所不同。這是一種保守的處理方法,最大限度地保留了數(shù)據(jù)集中的可用信息。
還需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮和數(shù)據(jù)歸并,其中當(dāng)業(yè)務(wù)數(shù)據(jù)急劇上漲,海量的冷數(shù)據(jù)、老數(shù)據(jù)需要被壓縮。這個(gè)階段可以采用hdfs集群的數(shù)據(jù)壓縮。數(shù)據(jù)歸并是指在對(duì)挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上、尋找依賴(lài)于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。數(shù)據(jù)歸并主要有兩個(gè)途徑:屬性選擇和數(shù)據(jù)采樣,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄。
較佳地,數(shù)據(jù)歸并的類(lèi)型可以是特征歸并、樣本歸并和特征值歸并。其中,特征歸并是從原有的特征中刪除不重要或不相關(guān)的特征,或者通過(guò)對(duì)特征進(jìn)行重組來(lái)減少特征的個(gè)數(shù)。其原則是在保留、甚至提高原有判別能力的。同時(shí)減少特征向量的維度。特征歸并算法的輸入是一組特征,輸出是它的一個(gè)子集。在領(lǐng)域知識(shí)缺乏的情況下進(jìn)行特征歸并時(shí)一般包括3個(gè)步驟:搜索過(guò)程:在特征空間中搜索特征子集,每個(gè)子集稱(chēng)為一個(gè)狀態(tài)由選中的特征構(gòu)成。評(píng)估過(guò)程:輸入一個(gè)狀態(tài),通過(guò)評(píng)估函數(shù)或預(yù)先設(shè)定的閾值輸出一個(gè)評(píng)估值搜索算法的目的是使評(píng)估值達(dá)到最優(yōu)。分類(lèi)過(guò)程:使用最終的特征集完成最后的算法。
樣本都是已知的,通常數(shù)目很大,質(zhì)量或高或低,或者有或者沒(méi)有關(guān)于實(shí)際問(wèn)題的先驗(yàn)知識(shí)。樣本歸并就是從數(shù)據(jù)集中選出一個(gè)有代表性的樣本的子集。子集大小的確定要考慮計(jì)算成本、存儲(chǔ)要求、估計(jì)量的精度以及其它一些與算法和數(shù)據(jù)特性有關(guān)的因素。初始數(shù)據(jù)集中最大和最關(guān)鍵的維度數(shù)就是樣本的數(shù)目,也就是數(shù)據(jù)表中的記錄數(shù)。數(shù)據(jù)挖掘處理的初始數(shù)據(jù)集描述了一個(gè)極大的總體,對(duì)數(shù)據(jù)的分析只基于樣本的一個(gè)子集。獲得數(shù)據(jù)的子集后,用它來(lái)提供整個(gè)數(shù)據(jù)集的一些信息,這個(gè)子集通常叫做估計(jì)量,它的質(zhì)量依賴(lài)于所選子集中的元素。取樣過(guò)程總會(huì)造成取樣誤差,取樣誤差對(duì)所有的方法和策略來(lái)講都是固有的、不可避免的,當(dāng)子集的規(guī)模變大時(shí),取樣誤差一般會(huì)降低。一個(gè)完整的數(shù)據(jù)集在理論上是不存在取樣誤差的。與針對(duì)整個(gè)數(shù)據(jù)集的數(shù)據(jù)挖掘比較起來(lái),樣本歸并具有以下一個(gè)或多個(gè)優(yōu)點(diǎn):減少成本、速度更快、范圍更廣,有時(shí)甚至能獲得更高的精度。
特征值歸并是特征值離散化技術(shù),它將連續(xù)型特征的值離散化,使之成為少量的區(qū)間,每個(gè)區(qū)間映射到一個(gè)離散符號(hào)。這種技術(shù)的好處在于簡(jiǎn)化了數(shù)據(jù)描述,并易于理解數(shù)據(jù)和最終的挖掘結(jié)果。特征值歸并可以是有參的,也可以是無(wú)參的。有參方法使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù);有參的特征值歸并有以下兩種:回歸:線(xiàn)性回歸和多元回歸;對(duì)數(shù)線(xiàn)性模型:近似離散多維概率分布。無(wú)參的特征值歸并有3種:直方圖:采用分箱近似數(shù)據(jù)分布,其中v-最優(yōu)和maxdiff直方圖是最精確和最實(shí)用的;聚類(lèi):將數(shù)據(jù)元組視為對(duì)象,將對(duì)象劃分為群或聚類(lèi),使得在一個(gè)聚類(lèi)中的對(duì)象“類(lèi)似”而與其他聚類(lèi)中的對(duì)象“不類(lèi)似”在數(shù)據(jù)歸并時(shí)用數(shù)據(jù)的聚類(lèi)代替實(shí)際數(shù)據(jù);選樣:用數(shù)據(jù)的較小隨機(jī)樣本表示大的數(shù)據(jù)集,如簡(jiǎn)單選擇n個(gè)樣本(類(lèi)似樣本歸并)、聚類(lèi)選樣和分層選樣等。
步驟103,通過(guò)所述故障根源定位,對(duì)信息通信運(yùn)行進(jìn)行決策。
所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:以上任何實(shí)施例的討論僅為示例性的,并非旨在暗示本公開(kāi)的范圍(包括權(quán)利要求)被限于這些例子;在本發(fā)明的思路下,以上實(shí)施例或者不同實(shí)施例中的技術(shù)特征之間也可以進(jìn)行組合,步驟可以以任意順序?qū)崿F(xiàn),并存在如上所述的本發(fā)明的不同方面的許多其它變化,為了簡(jiǎn)明它們沒(méi)有在細(xì)節(jié)中提供。
另外,為簡(jiǎn)化說(shuō)明和討論,并且為了不會(huì)使本發(fā)明難以理解,在所提供的附圖中可以示出或可以不示出與集成電路(ic)芯片和其它部件的公知的電源/接地連接。此外,可以以框圖的形式示出裝置,以便避免使本發(fā)明難以理解,并且這也考慮了以下事實(shí),即關(guān)于這些框圖裝置的實(shí)施方式的細(xì)節(jié)是高度取決于將要實(shí)施本發(fā)明的平臺(tái)的(即,這些細(xì)節(jié)應(yīng)當(dāng)完全處于本領(lǐng)域技術(shù)人員的理解范圍內(nèi))。在闡述了具體細(xì)節(jié)(例如,電路)以描述本發(fā)明的示例性實(shí)施例的情況下,對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)顯而易見(jiàn)的是,可以在沒(méi)有這些具體細(xì)節(jié)的情況下或者這些具體細(xì)節(jié)有變化的情況下實(shí)施本發(fā)明。因此,這些描述應(yīng)被認(rèn)為是說(shuō)明性的而不是限制性的。
盡管已經(jīng)結(jié)合了本發(fā)明的具體實(shí)施例對(duì)本發(fā)明進(jìn)行了描述,但是根據(jù)前面的描述,這些實(shí)施例的很多替換、修改和變型對(duì)本領(lǐng)域普通技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的。例如,其它存儲(chǔ)器架構(gòu)(例如,動(dòng)態(tài)ram(dram))可以使用所討論的實(shí)施例。
本發(fā)明的實(shí)施例旨在涵蓋落入所附權(quán)利要求的寬泛范圍之內(nèi)的所有這樣的替換、修改和變型。因此,凡在本發(fā)明的精神和原則之內(nèi),所做的任何省略、修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。