欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)及方法與流程

文檔序號(hào):11177306閱讀:917來(lái)源:國(guó)知局
多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)及方法與流程
本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,具體涉及一種航空飛行數(shù)據(jù)系統(tǒng),尤其涉及一種多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng);此外,本發(fā)明還涉及該多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的實(shí)現(xiàn)方法。
背景技術(shù)
:航空飛行運(yùn)行是一項(xiàng)龐大的綜合系統(tǒng)。在飛行的全過(guò)程中,在各部門(mén)各崗位間,都有大量的、種類(lèi)繁多的數(shù)據(jù)需要傳遞,比如機(jī)組信息、氣象狀況、航行信息、航線風(fēng)險(xiǎn)系數(shù)評(píng)估、艙單信息、起飛數(shù)據(jù)、特情預(yù)案等數(shù)據(jù)。由于受到技術(shù)和管理模式的限制,傳統(tǒng)的數(shù)據(jù)傳遞方式是通過(guò)電話(huà)、發(fā)放紙質(zhì)文檔、手冊(cè)等。這些傳統(tǒng)的保障方式存在諸多缺點(diǎn),甚至成為限制民航業(yè)繼續(xù)發(fā)展的瓶頸。航空數(shù)據(jù)對(duì)每一次航班的安全起飛和經(jīng)濟(jì)效益有著極其重要的影響。而航空數(shù)據(jù)的特點(diǎn)是多源、復(fù)雜、大規(guī)模,現(xiàn)有的單一平臺(tái)的數(shù)據(jù)系統(tǒng)的應(yīng)用有限,因此針對(duì)這些多源的大規(guī)模飛行數(shù)據(jù),亟需研發(fā)一種多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)。本發(fā)明是在現(xiàn)有的分布式框架和數(shù)據(jù)庫(kù)平臺(tái)的基礎(chǔ)上搭建而來(lái),以下是現(xiàn)在常用的分布式框架和數(shù)據(jù)庫(kù)平臺(tái)。1.hadoophadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由apache基金會(huì)開(kāi)發(fā)。用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,利用它開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。簡(jiǎn)單地說(shuō)來(lái),hadoop是一個(gè)可以更容易開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。該平臺(tái)使用的是面向?qū)ο缶幊陶Z(yǔ)言java實(shí)現(xiàn)的,具有良好的可移植性。hadoop的核心是hdfs和mapreduce。hdfs(hadoopdistributedfilesystem)是一種分布式文件系統(tǒng),隱藏下層負(fù)載均衡,冗余復(fù)制等細(xì)節(jié),對(duì)上層程序提供一個(gè)統(tǒng)一的文件系統(tǒng)api接口。hdfs針對(duì)海量數(shù)據(jù)特點(diǎn)做了特別優(yōu)化,包括:超大文件的訪問(wèn),讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作,pc機(jī)極易發(fā)生故障造成節(jié)點(diǎn)失效等。hdfs把文件分成64mb的塊,分布在集群的機(jī)器上,使用linux的文件系統(tǒng)存放。同時(shí)每塊文件至少有3份以上的冗余。中心是一個(gè)namenode節(jié)點(diǎn),根據(jù)文件索引,找尋文件塊。mapreduce是一套從海量數(shù)據(jù)提取分析元素最后返回結(jié)果集的編程模型,大多數(shù)分布式運(yùn)算可以抽象為mapreduce操作。map是把輸入分解成中間的鍵值對(duì),reduce根據(jù)鍵值,把map輸出的鍵值對(duì)進(jìn)行合成整理,最終輸出結(jié)果。這兩個(gè)函數(shù)由程序員提供給系統(tǒng),下層設(shè)施把map和reduce操作分布在集群上運(yùn)行,并把結(jié)果存儲(chǔ)在hdfs上。hadoop具有以下幾個(gè)優(yōu)點(diǎn),使得用戶(hù)可以輕松地利用它來(lái)開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。高可靠性:hadoop能自動(dòng)地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動(dòng)地重新部署計(jì)算任務(wù)。高擴(kuò)展性:hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。因此,在不保證低延時(shí)的前提下,hadoop具有相當(dāng)大的吞吐量,非常適合海量數(shù)據(jù)的運(yùn)算。高效性:hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。高容錯(cuò)性:hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。低成本:hadoop可以通過(guò)普通機(jī)器組成的服務(wù)器群來(lái)分發(fā)以及處理數(shù)據(jù),這些服務(wù)器群總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn),而且每個(gè)節(jié)點(diǎn)都是運(yùn)行在開(kāi)源操作系統(tǒng)linux上面的,因此硬件成本會(huì)大大降低。此外,與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)等相比,hadoop是開(kāi)源的,軟件成本也會(huì)大大降低。2.hbasehbase是hadoopdatabase的簡(jiǎn)稱(chēng),是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),其主要功能是在hadoop的hdfs的基礎(chǔ)上用列存儲(chǔ)的方式存儲(chǔ)海量的結(jié)構(gòu)化數(shù)據(jù)。hbase中存儲(chǔ)的表主要有以下這些特點(diǎn)。大表:一個(gè)表可以有數(shù)十億行,上百萬(wàn)列。無(wú)模式:每行都有一個(gè)可排序的主鍵和任意多的列,列可以根據(jù)需要?jiǎng)討B(tài)的增加,同一張表中不同的行可以有截然不同的列。面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索。稀疏:對(duì)于空(null)的列,并不占用存儲(chǔ)空間,表可以設(shè)計(jì)的非常稀疏。數(shù)據(jù)多版本:每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本,默認(rèn)情況下版本號(hào)自動(dòng)分配,是單元格插入時(shí)的時(shí)間戳。數(shù)據(jù)類(lèi)型單一:hbase中的數(shù)據(jù)都是字符串,沒(méi)有類(lèi)型。hbase適用場(chǎng)景主要有:●存在高并發(fā)讀寫(xiě)●表結(jié)構(gòu)的列族經(jīng)常需要調(diào)整●存儲(chǔ)結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)●高并發(fā)的key-value存儲(chǔ)●key隨機(jī)寫(xiě)入,有序存儲(chǔ)●針對(duì)每個(gè)key保存一個(gè)固定大小的集合hbase也有一些缺點(diǎn)和不適用的場(chǎng)景:●由于只能提供行鎖,hbase對(duì)分布式事務(wù)支持不好●對(duì)于查詢(xún)中的join、groupby等操作,hbase的性能很差●查詢(xún)?nèi)绻皇褂胷ow-key查詢(xún),性能會(huì)很差,因?yàn)榇藭r(shí)會(huì)進(jìn)行全表掃描,建立二級(jí)索引或多級(jí)索引需要同時(shí)維護(hù)一張索引表●對(duì)高并發(fā)的隨機(jī)讀支持有限。體系化對(duì)抗環(huán)境中,實(shí)時(shí)感知數(shù)據(jù)源的數(shù)據(jù)是一個(gè)關(guān)鍵性的問(wèn)題,這些數(shù)據(jù)源通常來(lái)自多種傳感器,高效的管理數(shù)據(jù)源產(chǎn)生的異構(gòu)的數(shù)據(jù)成為這個(gè)問(wèn)題的一個(gè)難點(diǎn)。本發(fā)明針對(duì)這些問(wèn)題,對(duì)現(xiàn)有的分布式框架和相關(guān)的數(shù)據(jù)分析方法進(jìn)行了一定的研究,嘗試找出處理和分析多源的大規(guī)模飛行數(shù)據(jù)的有效方法。目前,尚未見(jiàn)應(yīng)用分布式框架和數(shù)據(jù)庫(kù)平臺(tái)的多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的相關(guān)報(bào)道。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問(wèn)題在于提供一種多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng),該系統(tǒng)處理和分析大規(guī)模飛行數(shù)據(jù),集成數(shù)據(jù)采集,數(shù)據(jù)分類(lèi)管理,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析等功能,采集并分類(lèi)管理多源異構(gòu)數(shù)據(jù),并將這些數(shù)據(jù)實(shí)時(shí)存儲(chǔ)到“資源云”平臺(tái)上,“資源云”平臺(tái)客戶(hù)端節(jié)點(diǎn)從云上實(shí)時(shí)獲取數(shù)據(jù),借助云平臺(tái)來(lái)保證數(shù)據(jù)的實(shí)時(shí)性。在數(shù)據(jù)實(shí)時(shí)性的基礎(chǔ)上,系統(tǒng)支持歷史數(shù)據(jù)的關(guān)聯(lián)模型建立,利用實(shí)時(shí)的數(shù)據(jù)和關(guān)聯(lián)模型完成實(shí)時(shí)預(yù)測(cè),對(duì)飛行員的決策提供一定的指導(dǎo)。具體來(lái)說(shuō),該系統(tǒng)需要實(shí)現(xiàn)以下功能:飛行數(shù)據(jù)采集、飛行數(shù)據(jù)實(shí)時(shí)共享、飛行數(shù)據(jù)關(guān)聯(lián)分析和實(shí)時(shí)輔助決策。為此,本發(fā)明還提供一種該多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的實(shí)現(xiàn)方法。為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng),包括數(shù)據(jù)采集模塊、數(shù)據(jù)存儲(chǔ)模塊、數(shù)據(jù)關(guān)聯(lián)分析模塊和數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊;數(shù)據(jù)采集模塊從數(shù)據(jù)源1中獲取pcap數(shù)據(jù)包文件,經(jīng)采集分類(lèi)之后到數(shù)據(jù)存儲(chǔ)模塊中,完成數(shù)據(jù)存儲(chǔ)的過(guò)程;數(shù)據(jù)關(guān)聯(lián)分析模塊從數(shù)據(jù)源2中獲取訓(xùn)練數(shù)據(jù),完成數(shù)據(jù)關(guān)聯(lián)模型建立,將模型提供給數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊使用,完成實(shí)時(shí)預(yù)測(cè),并將結(jié)果顯示在屏幕上,數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊利用數(shù)據(jù)存儲(chǔ)模塊實(shí)現(xiàn)的云存儲(chǔ)功能完成實(shí)時(shí)存儲(chǔ)的功能。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)采集模塊包括輸入文件夾路徑單元、輸出文件夾路徑單元和數(shù)據(jù)塊選擇單元;所述輸入文件夾路徑單元和所述輸出文件夾路徑單元用于讀取用戶(hù)選擇的輸入和輸出的文件夾路徑,所述數(shù)據(jù)塊選擇單元用于讀取用戶(hù)選擇的數(shù)據(jù)塊類(lèi)型,所述數(shù)據(jù)采集模塊根據(jù)以上單元讀取的內(nèi)容來(lái)進(jìn)行數(shù)據(jù)采集;所述數(shù)據(jù)采集模塊使用libpcap包從網(wǎng)絡(luò)抓取的pcap包中獲取關(guān)鍵的時(shí)間信息字段,包的源ip,目標(biāo)ip信息和存儲(chǔ)信息的數(shù)據(jù)字段,分別為time字段,sourceip字段,destip字段和data字段,使用destip和sourceip結(jié)合模擬場(chǎng)景中的數(shù)據(jù)發(fā)送信息,初步確定出包信息數(shù)據(jù)塊;區(qū)分不同的數(shù)據(jù)塊,按照不同的格式解析,得到獨(dú)立的數(shù)據(jù)塊數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)結(jié)構(gòu)以文本的形式寫(xiě)回硬盤(pán),供下一階段使用。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)存儲(chǔ)模塊包括讀取文件路徑單元和演示控制單元;所述讀取文件路徑單元用于讀取用戶(hù)選擇的數(shù)據(jù)源文件存放路徑;所述演示控制單元用于演示數(shù)據(jù)的存儲(chǔ)情況,它周期性地讀取存儲(chǔ)記錄并顯示到面板上;所述數(shù)據(jù)存儲(chǔ)模塊采用hadoop分布式存儲(chǔ)平臺(tái)及hbase分布式數(shù)據(jù)庫(kù),從多架飛機(jī)實(shí)時(shí)獲取數(shù)據(jù),然后通過(guò)云存儲(chǔ)方式再存儲(chǔ)到多架飛機(jī)上,并實(shí)時(shí)獲取并共享多架飛機(jī)的數(shù)據(jù)。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)關(guān)聯(lián)分析模塊包括訓(xùn)練數(shù)據(jù)路徑單元、訓(xùn)練參數(shù)選擇單元和數(shù)據(jù)分割方式選擇單元;所述訓(xùn)練數(shù)據(jù)路徑單元用于讀取用戶(hù)選擇的訓(xùn)練數(shù)據(jù)存放路徑,所述訓(xùn)練參數(shù)選擇單元用于讀取用戶(hù)選擇的各個(gè)訓(xùn)練參數(shù)值,所述數(shù)據(jù)分割方式選擇單元用于讀取用戶(hù)選擇的數(shù)據(jù)分割方式,所述數(shù)據(jù)關(guān)聯(lián)分析模塊根據(jù)上述單元讀取的內(nèi)容來(lái)進(jìn)行模型的建立和訓(xùn)練;所述數(shù)據(jù)關(guān)聯(lián)分析模塊采用svm分類(lèi)器,對(duì)應(yīng)代碼的svm包,通過(guò)svm的方法,對(duì)已有的數(shù)據(jù)和分析結(jié)果進(jìn)行分類(lèi),其核心模塊是數(shù)據(jù)拆分程序和調(diào)用的libsvm分類(lèi)器包,拆分程序?qū)?shù)據(jù)源結(jié)果為0的記錄拆分成n份,n由用戶(hù)輸入,分別和結(jié)果為1的記錄組成n個(gè)訓(xùn)練數(shù)據(jù)集,用libsvm訓(xùn)練后輸出n個(gè)模型,預(yù)測(cè)時(shí)使用n個(gè)模型結(jié)果進(jìn)行預(yù)測(cè)結(jié)果進(jìn)行與/或操作輸出預(yù)測(cè)結(jié)果;所述數(shù)據(jù)關(guān)聯(lián)分析模塊中數(shù)據(jù)關(guān)聯(lián)模型建立通過(guò)用戶(hù)指定輸入?yún)?shù)完成。所述svm分類(lèi)器優(yōu)選為使用rbf核的非線性svm分類(lèi)器;所述svm分類(lèi)器優(yōu)選為二分割分類(lèi)器。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊包括模型路徑選擇單元、讀取文件路徑單元和演示控制單元;所述模型路徑選擇單元用于讀取用戶(hù)選擇的訓(xùn)練模型存放路徑,所述讀取文件路徑單元用于讀取用戶(hù)選擇的數(shù)據(jù)源文件存放路徑,所述演示控制單元利用讀取的模型對(duì)數(shù)據(jù)進(jìn)行分析,將預(yù)測(cè)結(jié)果顯示到面板上。此外,本發(fā)明還提供一種上述系統(tǒng)的實(shí)現(xiàn)方法,包括數(shù)據(jù)采集模塊的數(shù)據(jù)采集實(shí)現(xiàn)、數(shù)據(jù)存儲(chǔ)模塊的數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)、數(shù)據(jù)關(guān)聯(lián)分析模塊的建立數(shù)據(jù)關(guān)聯(lián)模型實(shí)現(xiàn)和數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊的實(shí)時(shí)預(yù)測(cè)結(jié)果顯示實(shí)現(xiàn)。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)采集模塊的數(shù)據(jù)采集實(shí)現(xiàn)包括如下步驟:1)界面程序初始化;2)等待用戶(hù)操作;3)獲取參數(shù)、調(diào)用處理程序;4)判斷文件夾是否還有未讀文件,是則進(jìn)入步驟5),否則結(jié)束程序;5)判斷文件中是否仍有數(shù)據(jù),是則進(jìn)入步驟5),否則回到步驟4);6)判斷該數(shù)據(jù)塊是否為用戶(hù)需要,是則進(jìn)入步驟7),否則回到步驟5);7)解析并輸出數(shù)據(jù),回到步驟5)。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)存儲(chǔ)模塊的數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)包括如下步驟:1)初始化hbase連接;2)創(chuàng)建表、列簇;3)本機(jī)數(shù)據(jù)導(dǎo)入內(nèi)存;4)開(kāi)始演示;5)實(shí)時(shí)數(shù)據(jù)上傳hbase,同時(shí)實(shí)時(shí)從hbase獲取所有節(jié)點(diǎn)數(shù)據(jù);6)判斷是否終止演示,是則結(jié)束,否則回到步驟4)。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)關(guān)聯(lián)分析模塊的建立數(shù)據(jù)關(guān)聯(lián)模型實(shí)現(xiàn)包括如下步驟:1)讀取數(shù)據(jù)、取出各屬性值的上下界;2)再次掃描數(shù)據(jù),用上下界縮放數(shù)據(jù)后調(diào)用read_prob函數(shù)產(chǎn)生svm_problem;3)svm_problem進(jìn)行交叉驗(yàn)證,得到訓(xùn)練準(zhǔn)確率;4)基于svm_problem調(diào)用svm_train函數(shù),生成模型并存儲(chǔ);5)結(jié)束。作為本發(fā)明優(yōu)選的技術(shù)方案,所述數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊的實(shí)時(shí)預(yù)測(cè)結(jié)果顯示實(shí)現(xiàn)包括如下步驟:1)初始化hbase連接;2)創(chuàng)建表、列簇;3)本機(jī)數(shù)據(jù)導(dǎo)入內(nèi)存;4)開(kāi)始演示;5)實(shí)時(shí)數(shù)據(jù)上傳hbase,同時(shí)實(shí)時(shí)從hbase獲取所有節(jié)點(diǎn)數(shù)據(jù)再使用svm算法實(shí)時(shí)預(yù)測(cè)結(jié)果;6)判斷是否終止演示,是則結(jié)束,否則回到步驟4)。根據(jù)以上提供的技術(shù)方案,與現(xiàn)有技術(shù)相比,本發(fā)明提供的多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng),具有以下有益效果:1、該系統(tǒng)集成數(shù)據(jù)采集,數(shù)據(jù)分類(lèi)管理,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析等功能,采集并分類(lèi)管理多源異構(gòu)數(shù)據(jù),并將這些數(shù)據(jù)實(shí)時(shí)存儲(chǔ)到“資源云”平臺(tái)上,“資源云”平臺(tái)客戶(hù)端節(jié)點(diǎn)從云上實(shí)時(shí)獲取數(shù)據(jù),借助云平臺(tái)來(lái)保證數(shù)據(jù)的實(shí)時(shí)性。在數(shù)據(jù)實(shí)時(shí)性的基礎(chǔ)上,系統(tǒng)支持歷史數(shù)據(jù)的關(guān)聯(lián)模型建立,利用實(shí)時(shí)的數(shù)據(jù)和關(guān)聯(lián)模型完成實(shí)時(shí)預(yù)測(cè),對(duì)飛行員的決策提供一定的指導(dǎo)。具體來(lái)說(shuō),該系統(tǒng)需要實(shí)現(xiàn)以下功能:飛行數(shù)據(jù)采集、飛行數(shù)據(jù)實(shí)時(shí)共享、飛行數(shù)據(jù)關(guān)聯(lián)分析、實(shí)時(shí)輔助決策。2、本發(fā)明將hadoop分布式存儲(chǔ)平臺(tái)及hbase分布式數(shù)據(jù)庫(kù)優(yōu)化后應(yīng)用到航空電子大數(shù)據(jù)系統(tǒng),是本領(lǐng)域的首創(chuàng),本發(fā)明對(duì)大規(guī)模的航電數(shù)據(jù)進(jìn)行集成和分布式存儲(chǔ),能夠?qū)崟r(shí)地采集、存儲(chǔ)和共享數(shù)據(jù),并利用歷史數(shù)據(jù)的分析,對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行火力打擊的預(yù)測(cè),從而成功地為飛行員提供有效的決策指導(dǎo),預(yù)測(cè)成功率高達(dá)94%。3、本發(fā)明用機(jī)器學(xué)習(xí)中的分類(lèi)算法來(lái)解決飛行中火力打擊的結(jié)果預(yù)測(cè)問(wèn)題,相比于以前直接用軟件模擬飛行過(guò)程來(lái)得到結(jié)果,該方法在保證一定準(zhǔn)確率的前提下速度要快好多倍,因此提高了體系化對(duì)抗系統(tǒng)的決策效率。由于打擊中擊中的情況要遠(yuǎn)遠(yuǎn)低于擊不中,造成訓(xùn)練數(shù)據(jù)不平衡,影響決策準(zhǔn)確度。因此,我們?cè)趕vm的基礎(chǔ)上,創(chuàng)新地使用數(shù)據(jù)分割的方法,來(lái)提高準(zhǔn)確度。將決策輔助功能集成到航電系統(tǒng)中,即可以利用存儲(chǔ)的數(shù)據(jù)進(jìn)行訓(xùn)練分類(lèi)器,又能用訓(xùn)練好的分類(lèi)器進(jìn)行實(shí)時(shí)的火力打擊預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果為飛行器實(shí)時(shí)地提供決策建議。3、經(jīng)試驗(yàn)驗(yàn)證,本發(fā)明系統(tǒng)優(yōu)選使用rbf核的非線性svm分類(lèi)器準(zhǔn)確率最高,而優(yōu)選使用二分割分類(lèi)器的f1值最高。4、經(jīng)試驗(yàn)驗(yàn)證,本發(fā)明系統(tǒng)支持靜態(tài)減少節(jié)點(diǎn)以及動(dòng)態(tài)增加節(jié)點(diǎn)。附圖說(shuō)明下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說(shuō)明。圖1是本發(fā)明系統(tǒng)中數(shù)據(jù)存儲(chǔ)模塊的框架結(jié)構(gòu)圖。圖2是本發(fā)明系統(tǒng)中數(shù)據(jù)關(guān)聯(lián)分析模塊中非線性svm的示例圖。圖3和圖4是本發(fā)明系統(tǒng)中數(shù)據(jù)關(guān)聯(lián)分析模塊中數(shù)據(jù)分割的示例圖。圖5是本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的總體框架圖。圖6是本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的功能結(jié)構(gòu)圖。圖7是本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的主程序流程圖。圖8是本發(fā)明系統(tǒng)中數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊的示例圖。圖9是本發(fā)明系統(tǒng)中數(shù)據(jù)采集模塊邏輯流程圖。圖10是本發(fā)明系統(tǒng)中數(shù)據(jù)存儲(chǔ)模塊邏輯流程圖。圖11是本發(fā)明系統(tǒng)中數(shù)據(jù)關(guān)聯(lián)分析模塊邏輯流程圖。圖12是本發(fā)明系統(tǒng)中數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊邏輯流程圖。具體實(shí)施方式現(xiàn)在結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。這些附圖均為簡(jiǎn)化的示意圖,僅以示意方式說(shuō)明本發(fā)明的基本結(jié)構(gòu),因此其僅顯示與本發(fā)明有關(guān)的構(gòu)成。體系化對(duì)抗中決策者使用的參考數(shù)據(jù)來(lái)自不同飛機(jī)系統(tǒng)、不同平臺(tái)上的多傳感器、多數(shù)據(jù)源,實(shí)時(shí)獲取并可靠存儲(chǔ)這些數(shù)據(jù),將數(shù)據(jù)及時(shí)應(yīng)用到?jīng)Q策體系中成為作戰(zhàn)成功的基礎(chǔ)。為模擬這一體系化環(huán)境,本發(fā)明用多臺(tái)專(zhuān)用測(cè)試設(shè)備模擬一個(gè)飛行節(jié)點(diǎn)群,抓取實(shí)際飛行環(huán)境中傳感器產(chǎn)生的數(shù)據(jù)作為數(shù)據(jù)源,用一臺(tái)交換機(jī)連接各專(zhuān)用測(cè)試設(shè)備構(gòu)建局域網(wǎng),模擬體系化對(duì)抗環(huán)境中的數(shù)據(jù)通信。決策者可以通過(guò)任一專(zhuān)用測(cè)試設(shè)備實(shí)時(shí)查看節(jié)點(diǎn)群中各設(shè)備節(jié)點(diǎn)的實(shí)時(shí)信息,依據(jù)這些數(shù)據(jù)信息完成決策。在這個(gè)模擬的假想作戰(zhàn)場(chǎng)景中,為保證決策者獲取數(shù)據(jù)的實(shí)時(shí)性和可靠性,本發(fā)明提出基于“資源云”的多平臺(tái)航電大數(shù)據(jù)系統(tǒng)。本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)的核心是搭建在假想作戰(zhàn)環(huán)境中的“資源云”平臺(tái),在多臺(tái)專(zhuān)用測(cè)試設(shè)備上搭建一個(gè)數(shù)據(jù)共享平臺(tái),該數(shù)據(jù)平臺(tái)基于已有的開(kāi)源云軟件(hadoop,hbase)搭建,主要完成飛行節(jié)點(diǎn)之間信息實(shí)時(shí)共享,可靠存儲(chǔ),信息處理的功能。平臺(tái)的數(shù)據(jù)源是經(jīng)過(guò)數(shù)據(jù)采集分類(lèi)之后的數(shù)據(jù)信息,原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)采集模塊完成采集分類(lèi),之后傳輸?shù)健百Y源云”平臺(tái)。最后,各節(jié)點(diǎn)上的數(shù)據(jù)分析模塊從“資源云”平臺(tái)實(shí)時(shí)獲取所有節(jié)點(diǎn)的信息,結(jié)合歷史數(shù)據(jù)建立的數(shù)據(jù)關(guān)聯(lián)模型進(jìn)行數(shù)據(jù)分析,將對(duì)各節(jié)點(diǎn)的數(shù)據(jù)分析結(jié)果呈現(xiàn)給決策者,提供決策指導(dǎo)。本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)中各個(gè)模塊的技術(shù)解決方案如下:1、數(shù)據(jù)采集與分類(lèi)方案假想作戰(zhàn)環(huán)境的數(shù)據(jù)來(lái)自不同的傳感器,數(shù)據(jù)之間具有異構(gòu)性,直接導(dǎo)致體系作戰(zhàn)下航電大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)復(fù)雜性。經(jīng)過(guò)采集的數(shù)據(jù)需要通過(guò)基于空中云平臺(tái)的大數(shù)據(jù)分類(lèi)技術(shù)來(lái)從多個(gè)角度對(duì)平臺(tái)及數(shù)據(jù)進(jìn)行分析,增強(qiáng)數(shù)據(jù)關(guān)聯(lián),從而降低面向體系作戰(zhàn)的航電大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)復(fù)雜性。具體實(shí)現(xiàn)中,需要針對(duì)多模態(tài)勢(shì)空間構(gòu)建不同的數(shù)據(jù)采集與預(yù)處理模式。針對(duì)假想作戰(zhàn)環(huán)境,本發(fā)明采取抓包后逐個(gè)按照數(shù)據(jù)協(xié)議解析數(shù)據(jù)包的方法來(lái)采集分類(lèi)環(huán)境中的數(shù)據(jù),作為“資源云”平臺(tái)數(shù)據(jù)源。實(shí)際應(yīng)用中,常用的系統(tǒng)數(shù)據(jù)采集方案有兩種:(1)抓包抓包程序wireshark獲取數(shù)據(jù)包。wireshark將從網(wǎng)絡(luò)中捕獲到的二進(jìn)制數(shù)據(jù)按照不同的協(xié)議包結(jié)構(gòu)規(guī)范,顯示在packetdetails面板中。主要包含物理層的數(shù)據(jù)幀概況、數(shù)據(jù)鏈路層以太網(wǎng)幀頭部信息、互聯(lián)網(wǎng)層ip包頭部信息、傳輸層的數(shù)據(jù)段頭部信息、應(yīng)用層的信息等。過(guò)程采用libpcap庫(kù),libpcap是一個(gè)網(wǎng)絡(luò)數(shù)據(jù)包捕獲函數(shù)庫(kù),功能非常強(qiáng)大,針對(duì)網(wǎng)絡(luò)接口、端口和協(xié)議進(jìn)行數(shù)據(jù)包截取。(2)爬蟲(chóng)網(wǎng)絡(luò)數(shù)據(jù)采集通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)api等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。除了網(wǎng)絡(luò)中包含的內(nèi)容之外,對(duì)于網(wǎng)絡(luò)流量的采集可以使用dpi或dfi等帶寬管理技術(shù)進(jìn)行處理。針對(duì)假想作戰(zhàn)環(huán)境中作戰(zhàn)節(jié)點(diǎn)之間的通信代價(jià)較高,所以本發(fā)明舍棄爬蟲(chóng)主動(dòng)獲取數(shù)據(jù)的方式,優(yōu)選從實(shí)際作戰(zhàn)環(huán)境中網(wǎng)絡(luò)交換機(jī)處利用wireshark軟件抓取體系化對(duì)抗平臺(tái)上的數(shù)據(jù)包作為源數(shù)據(jù)。數(shù)據(jù)采集模塊解析從交換機(jī)中獲取到的數(shù)據(jù)包,根據(jù)包的源ip和目的ip,以及數(shù)據(jù)包的協(xié)議來(lái)將數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。我們根據(jù)假想作戰(zhàn)環(huán)境中的通信協(xié)議,來(lái)將數(shù)據(jù)逐個(gè)從二進(jìn)制文件中解析出內(nèi)容。得到的數(shù)據(jù)基本分類(lèi)如下:(1)結(jié)構(gòu)數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),可存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)里,通過(guò)二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。數(shù)據(jù)將針對(duì)不同目標(biāo)接收目標(biāo)進(jìn)行分發(fā),比如無(wú)人機(jī)、雷達(dá)仿真、光電、電子站、三維語(yǔ)音告警、座艙等。采集數(shù)據(jù)結(jié)果將數(shù)據(jù)分為多個(gè)數(shù)據(jù)塊。數(shù)據(jù)塊中包括基本信息,如數(shù)據(jù)類(lèi)型、發(fā)送源、目標(biāo)號(hào)、塊長(zhǎng)、更新周期、虛擬鏈路、最大延遲時(shí)間、接收端口等。除基本信息外,不同數(shù)據(jù)塊中的主要內(nèi)容可進(jìn)行結(jié)構(gòu)化歸納。(2)非結(jié)構(gòu)化數(shù)據(jù)在本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)大數(shù)據(jù)管理平臺(tái)中,非結(jié)構(gòu)數(shù)據(jù)主要包括圖片、音頻、視頻、超媒體等形式,比如雷達(dá)氣象圖像、地理分布圖像、探測(cè)敵機(jī)聲波圖和視頻流等等。這些數(shù)據(jù)沒(méi)有固定結(jié)構(gòu),相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,非結(jié)構(gòu)化數(shù)據(jù)不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn),但基于分布式云存儲(chǔ)平臺(tái)上的非關(guān)系型數(shù)據(jù)庫(kù),可以實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)高效、穩(wěn)定的存儲(chǔ)。針對(duì)非結(jié)構(gòu)化的數(shù)據(jù),我們留出接口來(lái)完成這些功能。2、數(shù)據(jù)存儲(chǔ)方案體系化對(duì)抗環(huán)境中,實(shí)時(shí)、準(zhǔn)確的獲取對(duì)抗系統(tǒng)中相關(guān)信息的實(shí)時(shí)變化情況是完成對(duì)抗的體系化的一個(gè)重要因素。每個(gè)作戰(zhàn)節(jié)點(diǎn)會(huì)實(shí)時(shí)生成一些關(guān)鍵的航電信息,包括節(jié)點(diǎn)載機(jī)數(shù)據(jù),目標(biāo)的信息等,這些信息實(shí)時(shí)被其他節(jié)點(diǎn)獲取,并實(shí)時(shí)加入體系化對(duì)抗的決策體系中。為實(shí)現(xiàn)這個(gè)目標(biāo),我們?cè)诩傧胱鲬?zhàn)環(huán)境的節(jié)點(diǎn)中搭建“資源云”,采集到每個(gè)節(jié)點(diǎn)生成的航電信息之后,實(shí)時(shí)將信息上傳到“資源云”上,其他節(jié)點(diǎn)實(shí)時(shí)查詢(xún)數(shù)據(jù)變化,利用云平臺(tái)的高容錯(cuò),實(shí)時(shí)性和可靠性來(lái)保證所有航電信息的實(shí)時(shí)獲取性和難丟失性。(1)“資源云”平臺(tái)傳統(tǒng)的“資源云”框架分為幾種不同類(lèi)型:第一種將原始數(shù)據(jù)采集在客戶(hù)端(client),再由客戶(hù)端將數(shù)據(jù)傳輸至各存儲(chǔ)節(jié)點(diǎn)進(jìn)行分布式存儲(chǔ);第二種則將數(shù)據(jù)采集在節(jié)點(diǎn)本地,繼而分發(fā)至所有存儲(chǔ)節(jié)點(diǎn)??紤]到相對(duì)于現(xiàn)有的大數(shù)據(jù)管理架構(gòu),本發(fā)明的特色在于數(shù)據(jù)源與數(shù)據(jù)存儲(chǔ)目的地相同,即從多架飛機(jī)實(shí)時(shí)獲取數(shù)據(jù),然后通過(guò)云存儲(chǔ)方式再存儲(chǔ)到多架飛機(jī)上,并實(shí)時(shí)獲取并共享多架飛機(jī)的數(shù)據(jù),故本發(fā)明采用第二種框架類(lèi)型。假想平臺(tái)總體采用主從(master/slave)結(jié)構(gòu)模型(如圖1所示),由一個(gè)主節(jié)點(diǎn)和若干個(gè)從節(jié)點(diǎn)組成。主節(jié)點(diǎn)作為主服務(wù)器,管理文件系統(tǒng)命名空間和客戶(hù)端對(duì)文件的訪問(wèn)操作。從節(jié)點(diǎn)作為從服務(wù)器,負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)。系統(tǒng)采用“一次寫(xiě)入、多次讀取(write-once-read-many)”模型,該模型降低了并發(fā)性控制要求,簡(jiǎn)化了數(shù)據(jù)聚合性,支持高吞吐量訪問(wèn)。(1)可靠性“資源云”平臺(tái)通過(guò)文件分割的方式來(lái)將大文件切分為固定大小的小文件,并存儲(chǔ)分割表,將小文件制作多個(gè)副本,分別存儲(chǔ)在不同節(jié)點(diǎn)上面,在讀取文件時(shí)通過(guò)分割表來(lái)逐份讀取拼接文件后返回給用戶(hù)。數(shù)據(jù)源經(jīng)過(guò)采集和分類(lèi)之后,寫(xiě)入硬盤(pán)臨時(shí)緩存在本地節(jié)點(diǎn)上,由于節(jié)點(diǎn)的復(fù)雜性,部分節(jié)點(diǎn)存儲(chǔ)的信息文件較大,超過(guò)云平臺(tái)默認(rèn)的文件大小,則會(huì)產(chǎn)生文件分割過(guò)程,一方面通過(guò)文件分割節(jié)省線路帶寬,另一方面可以增加系統(tǒng)容錯(cuò)性。本發(fā)明系統(tǒng)的“資源云”通過(guò)將一個(gè)文件在物理存儲(chǔ)上分割成多個(gè)塊,并通過(guò)哈希等算法分別將它們拆分到集群的多個(gè)節(jié)點(diǎn)上,這種特性可以讓分布式存儲(chǔ)系統(tǒng)保存足夠大文件。相比不分割將文件備份到指定機(jī)器上來(lái)說(shuō),文件分割的過(guò)程節(jié)省了單點(diǎn)到單點(diǎn)之間通信的帶寬,一定程度上使系統(tǒng)的負(fù)載更加均衡,另一方面,如果單節(jié)點(diǎn)產(chǎn)生故障,無(wú)法讀取該節(jié)點(diǎn)信息,通過(guò)文件分割的方式可以通過(guò)備份到其他節(jié)點(diǎn)的分割來(lái)拼接完成恢復(fù)工作。(2)容錯(cuò)性“資源云”平臺(tái)對(duì)每個(gè)文件進(jìn)行分割之后,通過(guò)一定的哈希算法將數(shù)據(jù)塊冗余備份到其他節(jié)點(diǎn)上面,云平臺(tái)的冗余容錯(cuò)基于hdfs的容錯(cuò)機(jī)制,主要有以下幾點(diǎn):master節(jié)點(diǎn)將文件分割,記錄分割表作為復(fù)制的決策,將文件各部分進(jìn)行標(biāo)記,記錄當(dāng)前塊的分割表,按照分割表內(nèi)容通過(guò)哈希算法冗余備份到對(duì)應(yīng)的其他節(jié)點(diǎn)上。訪問(wèn)文件時(shí),當(dāng)前節(jié)點(diǎn)上面沒(méi)有對(duì)應(yīng)的文件分割,則到最近的一個(gè)冗余備份上請(qǐng)求。master節(jié)點(diǎn)的備份,通過(guò)zookeeper完成,所有節(jié)點(diǎn)選舉出一個(gè)master節(jié)點(diǎn)和一個(gè)backup-master節(jié)點(diǎn),backup-master節(jié)點(diǎn)定時(shí)對(duì)master節(jié)點(diǎn)完成快照,保證backup-master信息不落后master太多。當(dāng)心跳機(jī)制檢測(cè)到master節(jié)點(diǎn)崩潰之后,backup-master取代master節(jié)點(diǎn),并通過(guò)zookeeper的選舉機(jī)制選出另外一個(gè)backup-master節(jié)點(diǎn),備份當(dāng)前master節(jié)點(diǎn)內(nèi)容。(3)“資源云”其他特點(diǎn)定時(shí)快照:快照支持在一個(gè)特定時(shí)間存儲(chǔ)一個(gè)數(shù)據(jù)拷貝,快照可以將失效的集群回滾到之前一個(gè)正常的時(shí)間點(diǎn)上。流程狀態(tài):創(chuàng)建數(shù)據(jù)時(shí),一開(kāi)始客戶(hù)端將文件數(shù)據(jù)緩存在本地的臨時(shí)文件中。應(yīng)用程序的寫(xiě)操作被透明地重定向到這個(gè)臨時(shí)本地文件。當(dāng)本地文件堆積到一個(gè)分塊大小的時(shí)候,客戶(hù)端才會(huì)通知主節(jié)點(diǎn)。主節(jié)點(diǎn)將文件名插入到文件系統(tǒng)層次中,然后為它分配一個(gè)數(shù)據(jù)塊。主節(jié)點(diǎn)構(gòu)造包括數(shù)據(jù)節(jié)點(diǎn)id(可能是多個(gè),副本數(shù)據(jù)塊存放的節(jié)點(diǎn)也有)和目標(biāo)數(shù)據(jù)塊標(biāo)識(shí)的報(bào)文,用它回復(fù)客戶(hù)端的請(qǐng)求??蛻?hù)端收到后將本地的臨時(shí)文件刷新到指定的數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)塊中。因?yàn)槿绻蛻?hù)端對(duì)遠(yuǎn)程文件系統(tǒng)進(jìn)行直接寫(xiě)入而沒(méi)有任何本地的緩存,這就會(huì)對(duì)網(wǎng)速和網(wǎng)絡(luò)吞吐量產(chǎn)生很大的影響。當(dāng)文件關(guān)閉時(shí),本地臨時(shí)文件中未上傳的殘留數(shù)據(jù)就會(huì)被轉(zhuǎn)送到數(shù)據(jù)節(jié)點(diǎn)。然后客戶(hù)端就可以通知主節(jié)點(diǎn)文件已經(jīng)關(guān)閉。此時(shí),主節(jié)點(diǎn)將文件的創(chuàng)建操作添加到到持久化存儲(chǔ)中。假如主節(jié)點(diǎn)在文件關(guān)閉之前死掉,文件就丟掉了。流水式復(fù)制:當(dāng)客戶(hù)端寫(xiě)數(shù)據(jù)到文件中時(shí),如上所述,數(shù)據(jù)首先被寫(xiě)入本地文件中,假設(shè)文件的復(fù)制因子是3,當(dāng)本地文件堆積到一塊大小的數(shù)據(jù),客戶(hù)端從主節(jié)點(diǎn)獲得一個(gè)數(shù)據(jù)節(jié)點(diǎn)的列表。這個(gè)列表也包含存放數(shù)據(jù)塊副本的數(shù)據(jù)節(jié)點(diǎn)。當(dāng)客戶(hù)端刷新數(shù)據(jù)塊到第一個(gè)數(shù)據(jù)節(jié)點(diǎn)。第一個(gè)數(shù)據(jù)節(jié)點(diǎn)開(kāi)始以4kb為單元接收數(shù)據(jù),將每一小塊都寫(xiě)到本地庫(kù)中,同時(shí)將每一小塊都傳送到列表中的第二個(gè)數(shù)據(jù)節(jié)點(diǎn)。同理,第二個(gè)數(shù)據(jù)節(jié)點(diǎn)將小塊數(shù)據(jù)寫(xiě)入本地庫(kù)中同時(shí)傳給第三個(gè)數(shù)據(jù)節(jié)點(diǎn),第三個(gè)數(shù)據(jù)節(jié)點(diǎn)直接寫(xiě)到本地庫(kù)中。一個(gè)數(shù)據(jù)節(jié)點(diǎn)在接前一個(gè)節(jié)點(diǎn)數(shù)據(jù)的同時(shí),還可以將數(shù)據(jù)流水式傳遞給下一個(gè)節(jié)點(diǎn),所以,數(shù)據(jù)是流水式地從一個(gè)數(shù)據(jù)節(jié)點(diǎn)傳遞到下一個(gè)。擴(kuò)展性:大量的應(yīng)用實(shí)踐已經(jīng)證明該分布式平臺(tái)具有著極大的擴(kuò)展性,可以輕松擴(kuò)展到數(shù)以百計(jì)的節(jié)點(diǎn)構(gòu)成的集群上。3、數(shù)據(jù)分析方案在體系化對(duì)抗決策體系中,歷史數(shù)據(jù)信息是十分寶貴的資源,對(duì)歷史信息的分析和提煉可以完成許多功能,比如說(shuō)歷史火力打擊信息可以用來(lái)輔助決策。通過(guò)對(duì)一組歷史飛行過(guò)程及火力打擊的結(jié)果分析,我們可以獲取一個(gè)飛行狀態(tài)的分類(lèi)器模型,利用這個(gè)模型可以預(yù)測(cè)節(jié)點(diǎn)火力打擊結(jié)果。把預(yù)測(cè)模型引入“資源云”平臺(tái)上之后,我們可以根據(jù)每個(gè)節(jié)點(diǎn)的火力打擊預(yù)測(cè)結(jié)果,完成一些輔助決策功能,提高體系化對(duì)抗系統(tǒng)的決策效率。針對(duì)已有的飛行狀態(tài)信息數(shù)據(jù)集和打擊結(jié)果,可以近似的把問(wèn)題看做一個(gè)輸入是飛機(jī)發(fā)射導(dǎo)彈時(shí)的航電信息和目標(biāo)的絕對(duì)位置信息,輸出是擊中和沒(méi)擊中目標(biāo)的二分類(lèi)分類(lèi)器模型,分析比較常用的二分類(lèi)分類(lèi)器,得出一個(gè)結(jié)果最優(yōu)的分類(lèi)器模型應(yīng)用到?jīng)Q策系統(tǒng)中。(1)分類(lèi)器算法由于要解決的是一個(gè)二分類(lèi)問(wèn)題,標(biāo)號(hào)為0和1。那么分類(lèi)器就是要找到一個(gè)面,將所有樣本點(diǎn)分到面的兩側(cè)。即,對(duì)于任一樣本x=(b1,b2,…bm),分類(lèi)器決策函數(shù)f:f(x)=g(f(x))a.線性可分svm線性可分svm分類(lèi)器決策函數(shù)中的f(x)=wtx+b,它本質(zhì)上是尋找一個(gè)能將樣本點(diǎn)按標(biāo)號(hào)分到兩側(cè)的具有最大化margin的超平面,margin是所有數(shù)據(jù)點(diǎn)到超平面的幾何間隔的最小值。從統(tǒng)計(jì)的角度講,由于正負(fù)樣本可以看作從兩個(gè)不同的分布隨機(jī)抽樣得到,若分類(lèi)邊界與兩個(gè)分布的距離越大,抽樣出的樣本落在分類(lèi)邊界另一邊的概率越小。所以,最大化margin可以保證最壞情況下的泛化誤差最小,分類(lèi)器確信度更高。分類(lèi)器決策函數(shù)中的f(x)=wtx+b,那么它的超平面為wtx+b=0.給定訓(xùn)練集合t,超平面wtx+b=0,定義樣本點(diǎn)(xi,yi)到超平面的函數(shù)間隔為:幾何間隔為:設(shè)n為樣本點(diǎn)數(shù)目,定義t中所有樣本點(diǎn)的函數(shù)間隔的最小值為:超平面的margin為t中所有樣本點(diǎn)的幾何間隔的最小值:最大化margin可表示為:變化得:可以看出,w、b等比例縮放對(duì)超平面和幾何間隔都沒(méi)有影響,而函數(shù)間隔會(huì)同比例縮放。所以,令代入上式,而最大化等價(jià)于最小化這樣就得到了線性可分svm的最優(yōu)化問(wèn)題:這是一個(gè)凸二次規(guī)劃問(wèn)題,應(yīng)用拉格朗日對(duì)偶性,通過(guò)求解對(duì)偶問(wèn)題可得到最優(yōu)解,求解的過(guò)程就不贅述了。b.非線性svm對(duì)于非線性的分類(lèi)問(wèn)題,決策面是一個(gè)曲面,曲面通過(guò)一定映射,會(huì)變成高維空間中的一個(gè)超平面,這樣就可以用線性可分svm中的方法來(lái)解決。例如,兩類(lèi)數(shù)據(jù)分布為兩個(gè)圓圈的形狀(如圖2所示),這樣的數(shù)據(jù)本身是線性不可分的,理想的分界面應(yīng)該是一個(gè)圓而不是一條線(超平面)。若用x1和x1表示這個(gè)二維平面的坐標(biāo),那么它的決策面可寫(xiě)成這樣的形式:a0+a1x1+a2x2+a3x12+a4x22+a5x1x2=0如果我們構(gòu)造一個(gè)五維空間,坐標(biāo)值分別為z1=x1、z2=x2、z3=x12、z4=x22、z5=x1x2,那么上面的決策面方程在新的空間中可以寫(xiě)作:可以看出,這正是一個(gè)超平面的方程。如果我們按這樣的方式將數(shù)據(jù)映射到五維空間,那么在新空間中原來(lái)的非線性數(shù)據(jù)就變成線性可分的了,從而可以使用線性svm算法處理。由于在線性可分svm的求解過(guò)程中,需要計(jì)算的地方數(shù)據(jù)向量總是以?xún)?nèi)積的形式出現(xiàn),所以,我們定義計(jì)算兩個(gè)向量在映射過(guò)后的空間中的內(nèi)積的函數(shù)為核函數(shù),用核函數(shù)來(lái)簡(jiǎn)化映射空間中的內(nèi)積運(yùn)算。所以,對(duì)于非線性情況,處理方法是選擇一個(gè)核函數(shù),通過(guò)它將數(shù)據(jù)映射到高維空間,變成高維空間中的一個(gè)線性可分問(wèn)題,以此來(lái)解決在原始空間中線性不可分的問(wèn)題,然后再用線性可分svm算法進(jìn)行處理。svm常用的核函數(shù)有四種:線性核(等同于線性可分svm)、多項(xiàng)式核、rbf核、sigmoid核,具體形式如下表1。表1類(lèi)型函數(shù)表達(dá)式線性核ut*v多項(xiàng)式核(g*ut*v+coef0)degreerbf核exp(-g*||u-v||2)sigmoid核tanh(g*ut*v+coef0)數(shù)據(jù)分割由于樣本數(shù)據(jù)集中兩類(lèi)數(shù)據(jù)比例懸殊,造成不平衡問(wèn)題。嘗試將訓(xùn)練集中比例較高的那一類(lèi)樣本分割成幾塊,每塊與另一類(lèi)樣本分別組成一個(gè)子訓(xùn)練集,對(duì)每個(gè)子訓(xùn)練集進(jìn)行訓(xùn)練,得到子分類(lèi)模型。將子分類(lèi)模型通過(guò)一些運(yùn)算可以組成新的分類(lèi)器,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。這樣處理,可以一定程度上改善數(shù)據(jù)不平衡問(wèn)題。例如,將label=0的樣本分割成四塊,分別與label=1的樣本組成四個(gè)子訓(xùn)練集,對(duì)它們進(jìn)行訓(xùn)練得到四個(gè)子分類(lèi)模型。每個(gè)子分類(lèi)模型對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)測(cè),得到四個(gè)output,可以對(duì)這四個(gè)output進(jìn)行與運(yùn)算,得到最終的output,這就相當(dāng)于一個(gè)新的分類(lèi)器。示意圖如圖3和圖4所示。下面結(jié)合附圖進(jìn)一步具體說(shuō)明本發(fā)明的系統(tǒng)架構(gòu)及流程:(一)程序架構(gòu)和流程設(shè)計(jì)如圖5所示,本發(fā)明多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)整體分為4個(gè)模塊,數(shù)據(jù)采集模塊,數(shù)據(jù)存儲(chǔ)模塊,數(shù)據(jù)關(guān)聯(lián)分析模塊和數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊。數(shù)據(jù)采集模塊從數(shù)據(jù)源1中獲取pcap數(shù)據(jù)包文件,經(jīng)采集分類(lèi)之后到數(shù)據(jù)存儲(chǔ)模塊中,完成數(shù)據(jù)存儲(chǔ)的過(guò)程。數(shù)據(jù)關(guān)聯(lián)分析模塊從數(shù)據(jù)源2中獲取訓(xùn)練數(shù)據(jù),可以通過(guò)用戶(hù)指定輸入?yún)?shù),完成數(shù)據(jù)關(guān)聯(lián)模型建立,將模型提供給數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊使用,完成實(shí)時(shí)預(yù)測(cè),并將結(jié)果顯示在屏幕上,數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊利用數(shù)據(jù)存儲(chǔ)模塊實(shí)現(xiàn)的云存儲(chǔ)功能完成實(shí)時(shí)存儲(chǔ)的功能。由于系統(tǒng)是在分布式平臺(tái)基礎(chǔ)上開(kāi)發(fā)的,搭建系統(tǒng)時(shí)首先需要在多臺(tái)設(shè)備(開(kāi)發(fā)系統(tǒng)時(shí)使用6臺(tái))上搭建hadoop和hbase完全分布式環(huán)境。每臺(tái)設(shè)備相當(dāng)于一個(gè)飛行節(jié)點(diǎn),其中有一臺(tái)作為主節(jié)點(diǎn),來(lái)進(jìn)行調(diào)度和顯示等操作。1.數(shù)據(jù)采集模塊使用libpcap包從網(wǎng)絡(luò)抓取的pcap包中獲取關(guān)鍵的時(shí)間信息字段,包的源ip,目標(biāo)ip信息和存儲(chǔ)信息的數(shù)據(jù)字段,分別為time字段,sourceip字段,destip字段和data字段,使用destip和sourceip結(jié)合模擬場(chǎng)景中的數(shù)據(jù)發(fā)送信息,可以初步確定出包信息數(shù)據(jù)塊。區(qū)分不同的數(shù)據(jù)塊,按照不同的格式解析,得到獨(dú)立的數(shù)據(jù)塊數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)結(jié)構(gòu)以文本的形式寫(xiě)回硬盤(pán),供下一階段使用。如圖6和圖7所示,數(shù)據(jù)采集模塊包括輸入文件夾路徑單元、輸出文件夾路徑單元、數(shù)據(jù)塊選擇單元。輸入文件夾路徑單元和輸出文件夾路徑單元用于讀取用戶(hù)選擇的輸入和輸出的文件夾路徑,數(shù)據(jù)塊選擇單元用于讀取用戶(hù)選擇的數(shù)據(jù)塊類(lèi)型,數(shù)據(jù)采集模塊根據(jù)這些單元讀取的內(nèi)容來(lái)進(jìn)行數(shù)據(jù)采集。如圖9所示,數(shù)據(jù)采集模塊邏輯流程包括如下步驟:1)界面程序初始化;2)等待用戶(hù)操作;3)獲取參數(shù)、調(diào)用處理程序;4)判斷文件夾是否還有未讀文件,是則進(jìn)入步驟5),否則結(jié)束程序;5)判斷文件中是否仍有數(shù)據(jù),是則進(jìn)入步驟5),否則回到步驟4);6)判斷該數(shù)據(jù)塊是否為用戶(hù)需要,是則進(jìn)入步驟7),否則回到步驟5);7)解析并輸出數(shù)據(jù),回到步驟5)。2.數(shù)據(jù)存儲(chǔ)模塊(1)分布式存儲(chǔ)平臺(tái)為完成數(shù)據(jù)可靠性存儲(chǔ)過(guò)程,參考技術(shù)方案中的設(shè)計(jì),借助已有的分布式云平臺(tái),基于hdfs實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)功能。在六臺(tái)專(zhuān)用測(cè)試設(shè)備上部署hdfs的服務(wù)端,待所有節(jié)點(diǎn)模擬飛行員就位(設(shè)備開(kāi)機(jī))后,在任一節(jié)點(diǎn)啟動(dòng)hdfs的start-all.sh命令,六臺(tái)測(cè)試設(shè)備組建成統(tǒng)一的數(shù)據(jù)共享平臺(tái),分別監(jiān)聽(tīng)相應(yīng)功能的端口。數(shù)據(jù)存儲(chǔ)或查詢(xún)請(qǐng)求達(dá)到時(shí),使用對(duì)應(yīng)端口傳輸數(shù)據(jù)。平臺(tái)的數(shù)據(jù)可靠性和容錯(cuò)性借助hdfs的冗余備份功能完成。(2)分布式數(shù)據(jù)庫(kù)在已有的hdfs穩(wěn)定存儲(chǔ)的基礎(chǔ)上,項(xiàng)目為規(guī)范化管理所有數(shù)據(jù),基于hbase實(shí)現(xiàn)了一個(gè)分布式數(shù)據(jù)庫(kù),使用hadoop的hdfs來(lái)完成可靠存儲(chǔ),使用hadoop的mapreduce框架來(lái)加速系統(tǒng)數(shù)據(jù)查詢(xún)操作。hbase的表格設(shè)計(jì)如下:實(shí)際存儲(chǔ)時(shí),每個(gè)數(shù)據(jù)包對(duì)應(yīng)一個(gè)rowkey,每個(gè)rowkey只包含一個(gè)數(shù)據(jù)塊的信息,hbase利用列存的方式保證系統(tǒng)數(shù)據(jù)的可靠性。(3)運(yùn)行流程該模塊運(yùn)行過(guò)程包括數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)顯示兩個(gè)步驟。數(shù)據(jù)存儲(chǔ):隔40ms吐出一次數(shù)據(jù),將數(shù)據(jù)存儲(chǔ)到hbase中,因樣本數(shù)據(jù)量較小,讀取完成之后從第一個(gè)數(shù)據(jù)開(kāi)始再次吐出。數(shù)據(jù)顯示:另開(kāi)線程完成文件的讀取過(guò)程,每隔10ms從hbase環(huán)境中實(shí)時(shí)查詢(xún)從上次時(shí)間戳查詢(xún)到現(xiàn)在時(shí)間戳?xí)r間內(nèi)所有的記錄,從記錄中讀取最后一條記錄,實(shí)時(shí)顯示在屏幕上。如圖6和圖7所示,數(shù)據(jù)存儲(chǔ)模塊包括讀取文件路徑單元和演示控制單元,用于數(shù)據(jù)存儲(chǔ)演示。讀取文件路徑單元用于讀取用戶(hù)選擇的數(shù)據(jù)源文件存放路徑,演示控制單元用于演示數(shù)據(jù)的存儲(chǔ)情況,它周期性地讀取存儲(chǔ)記錄并顯示到面板上。如圖10所示,數(shù)據(jù)存儲(chǔ)模塊邏輯流程包括如下步驟:1)初始化hbase連接;2)創(chuàng)建表、列簇;3)本機(jī)數(shù)據(jù)導(dǎo)入內(nèi)存;4)開(kāi)始演示;5)實(shí)時(shí)數(shù)據(jù)上傳hbase,同時(shí)實(shí)時(shí)從hbase獲取所有節(jié)點(diǎn)數(shù)據(jù);6)判斷是否終止演示,是則結(jié)束,否則回到步驟4)。3.數(shù)據(jù)關(guān)聯(lián)分析模塊這一部分主要使用的svm分類(lèi)器,對(duì)應(yīng)代碼的svm包,通過(guò)svm的方法,對(duì)已有的數(shù)據(jù)和分析結(jié)果進(jìn)行分類(lèi),其核心模塊是數(shù)據(jù)拆分程序和調(diào)用的libsvm分類(lèi)器包,拆分程序?qū)?shù)據(jù)源結(jié)果為0的記錄拆分成n份(n由用戶(hù)輸入),分別和結(jié)果為1的記錄組成n個(gè)訓(xùn)練數(shù)據(jù)集,用libsvm訓(xùn)練后輸出n個(gè)模型,預(yù)測(cè)時(shí)使用n個(gè)模型結(jié)果進(jìn)行預(yù)測(cè)結(jié)果進(jìn)行與/或操作輸出預(yù)測(cè)結(jié)果。運(yùn)行過(guò)程主要包括以下三個(gè)步驟。數(shù)據(jù)歸一化:掃描數(shù)據(jù)集,取出上下界,完成數(shù)據(jù)的歸一化操作,保證每個(gè)變量對(duì)結(jié)果的作用平衡。數(shù)據(jù)分割:因?yàn)閿?shù)據(jù)的特殊性,結(jié)果為0的記錄數(shù)量遠(yuǎn)多于結(jié)果為1,所以本發(fā)明采取技術(shù)方案中的劃分策略,將結(jié)果為1的數(shù)據(jù)劃分成n份,分別與0組合之后形成n個(gè)數(shù)據(jù)源,這一部分在read_prob函數(shù)中實(shí)現(xiàn)。數(shù)據(jù)訓(xùn)練:調(diào)用libsvm軟件包中的各個(gè)函數(shù)(包括svm_scale、svm_train等),對(duì)各svm_problem訓(xùn)練,生成svm_model并dump(轉(zhuǎn)存)到硬盤(pán)上。如圖6和圖7所示,數(shù)據(jù)關(guān)聯(lián)分析模塊包括訓(xùn)練數(shù)據(jù)路徑單元、訓(xùn)練參數(shù)選擇單元、數(shù)據(jù)分割方式選擇單元,用于建立模型、進(jìn)行模型訓(xùn)練。訓(xùn)練數(shù)據(jù)路徑單元用于讀取用戶(hù)選擇的訓(xùn)練數(shù)據(jù)存放路徑,訓(xùn)練參數(shù)選擇單元用于讀取用戶(hù)選擇的各個(gè)訓(xùn)練參數(shù)值,數(shù)據(jù)分割方式選擇單元用于讀取用戶(hù)選擇的數(shù)據(jù)分割方式,數(shù)據(jù)關(guān)聯(lián)分析模塊根據(jù)這些單元讀取的內(nèi)容來(lái)進(jìn)行模型的建立和訓(xùn)練。如圖11所示,數(shù)據(jù)關(guān)聯(lián)分析模塊邏輯流程包括如下步驟:1)讀取數(shù)據(jù)、取出各屬性值的上下界,包括經(jīng)度、緯度、高度、橫滾角、直航角、俯仰角和速度7個(gè)屬性;2)再次掃描數(shù)據(jù),用上下界scale數(shù)據(jù)(縮放數(shù)據(jù),以提高訓(xùn)練和預(yù)測(cè)時(shí)數(shù)據(jù)的處理速度)后調(diào)用read_prob函數(shù)產(chǎn)生svm_problem;3)svm_problem進(jìn)行crossvalidation(交叉驗(yàn)證),得到訓(xùn)練準(zhǔn)確率;4)基于svm_problem調(diào)用svm_train函數(shù),生成模型并存儲(chǔ);5)結(jié)束。4.數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊應(yīng)用模塊的整體設(shè)計(jì)原則是利用數(shù)據(jù)存儲(chǔ)模塊完成存儲(chǔ),利用數(shù)據(jù)關(guān)聯(lián)分析模塊輸出的最優(yōu)模型作為輸入模型,對(duì)任一數(shù)據(jù)實(shí)時(shí)預(yù)測(cè),如圖8所示。其中,多分模型的數(shù)據(jù)預(yù)測(cè)遵循如下規(guī)則:2分:或模型:n1|n2與模型:n1&n24分:先與后或:(n1&n2)|(n3&n4)先或后與:(n1|n2)&(n3|n4)8分:先與后或:(n1&n2&n3&n4)|(n5&n6&n7&n8)先或后與:(n1|n2|n3|n4)&(n5|n6|n7|n8)運(yùn)行過(guò)程主要包括以下三個(gè)步驟。初始化:初始化hbase的連接,完成表的創(chuàng)建,列簇的創(chuàng)建等操作,從硬盤(pán)讀取需要存儲(chǔ)的文件內(nèi)容。數(shù)據(jù)產(chǎn)生:每隔40ms吐出一次數(shù)據(jù),將數(shù)據(jù)存儲(chǔ)到hbase中,因樣本數(shù)據(jù)量較小,讀取完成之后從第一個(gè)數(shù)據(jù)開(kāi)始再次吐出。數(shù)據(jù)顯示:另開(kāi)線程完成文件的讀取過(guò)程,每隔10ms從hbase環(huán)境中實(shí)時(shí)查詢(xún)從上次時(shí)間戳查詢(xún)到現(xiàn)在時(shí)間戳?xí)r間內(nèi)所有的記錄,從記錄中讀取最后一條記錄,用這個(gè)數(shù)據(jù)調(diào)用svm完成實(shí)時(shí)預(yù)測(cè),并將結(jié)果顯示在屏幕上。如圖6和圖7所示,數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊包括模型路徑選擇單元、讀取文件路徑單元、演示控制單元,用于數(shù)據(jù)分析演示。模型路徑選擇單元用于讀取用戶(hù)選擇的訓(xùn)練模型存放路徑,讀取文件路徑單元用于讀取用戶(hù)選擇的數(shù)據(jù)源文件存放路徑,演示控制單元利用讀取的模型對(duì)數(shù)據(jù)進(jìn)行分析,將預(yù)測(cè)結(jié)果顯示到面板上。如圖12所示,數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊邏輯流程包括如下步驟:1)初始化hbase連接;2)創(chuàng)建表、列簇;3)本機(jī)數(shù)據(jù)導(dǎo)入內(nèi)存;4)開(kāi)始演示;5)實(shí)時(shí)數(shù)據(jù)上傳hbase,同時(shí)實(shí)時(shí)從hbase獲取所有節(jié)點(diǎn)數(shù)據(jù)再使用svm算法實(shí)時(shí)預(yù)測(cè)結(jié)果;6)判斷是否終止演示,是則結(jié)束,否則回到步驟4)。(二)接口設(shè)計(jì)1.數(shù)據(jù)采集模塊數(shù)據(jù)采集是多平臺(tái)航電大數(shù)據(jù)系統(tǒng)的“資源云”平臺(tái)的數(shù)據(jù)基礎(chǔ),為軟件提供一定的數(shù)據(jù)分析數(shù)據(jù)源。數(shù)據(jù)源要求是從實(shí)際運(yùn)行環(huán)境中交換機(jī)處用wireshark軟件抓包獲取的數(shù)據(jù),數(shù)據(jù)格式要求是pcap數(shù)據(jù),包的目標(biāo)ip和源ip滿(mǎn)足如下要求:表2數(shù)據(jù)塊名稱(chēng)目的ip/源ip組網(wǎng)指令224.224.0.110演示場(chǎng)景信息224.224.0.107/224.224.0.108綜合目標(biāo)數(shù)據(jù)塊224.224.0.89直升機(jī)載機(jī)數(shù)據(jù)塊224.224.0.140演示控制信息各數(shù)據(jù)包中data字段數(shù)據(jù)塊滿(mǎn)足協(xié)議《xx型演示系統(tǒng)數(shù)據(jù)接口協(xié)議》。2.數(shù)據(jù)存儲(chǔ)模塊數(shù)據(jù)存儲(chǔ)模塊是多平臺(tái)航電大數(shù)據(jù)系統(tǒng)的核心,由此模塊完成系統(tǒng)數(shù)據(jù)存儲(chǔ)功能。此模塊接受來(lái)自“數(shù)據(jù)采集”模塊的數(shù)據(jù)輸出,輸入數(shù)據(jù)格式為完整的txt文本文件,每一行為一個(gè)解析后的數(shù)據(jù)包內(nèi)容,字段之間用逗號(hào)分隔,每個(gè)數(shù)據(jù)包字段信息如下:直升機(jī)載機(jī)數(shù)據(jù)塊:包時(shí)間戳,數(shù)據(jù)塊id,數(shù)據(jù)塊時(shí)間,經(jīng)度,緯度,高度,俯仰角,橫滾角,真航角,攻角,地速,北向速度,東向速度,天速綜合目標(biāo)數(shù)據(jù)塊:包數(shù)據(jù)戳,數(shù)據(jù)塊id,數(shù)據(jù)塊時(shí)間,目標(biāo)個(gè)數(shù),目標(biāo)1屬性,目標(biāo)1經(jīng)度,目標(biāo)1緯度,目標(biāo)1高度,目標(biāo)1方位,目標(biāo)1俯仰角,目標(biāo)1北向速度,目標(biāo)1東向速度,目標(biāo)1天向速度,目標(biāo)2屬性,……,目標(biāo)20天向速度3.數(shù)據(jù)關(guān)聯(lián)分析模塊數(shù)據(jù)關(guān)聯(lián)分析模塊的主要功能是對(duì)歷史數(shù)據(jù)的分析建立數(shù)據(jù)模型,此模塊輸入一組訓(xùn)練數(shù)據(jù),通過(guò)svm分類(lèi)器和劃分分類(lèi)策略完成數(shù)據(jù)建模過(guò)程。訓(xùn)練數(shù)據(jù)要求為stk模擬軟件收集到的數(shù)據(jù),其格式為7個(gè)輸入變量格式和一個(gè)0/1的結(jié)果數(shù)據(jù),所有字段之間用tab制表符(“\t”)分隔,字段信息如下:經(jīng)度緯度高度參數(shù)4參數(shù)5參數(shù)6參數(shù)704.數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊此模塊以stk模擬軟件的輸出文件作為預(yù)測(cè)數(shù)據(jù)源,以“數(shù)據(jù)關(guān)聯(lián)分析部分”輸出模型作為輸入模型,基于數(shù)據(jù)存儲(chǔ)模塊進(jìn)行實(shí)時(shí)的結(jié)果預(yù)測(cè),實(shí)時(shí)顯示在界面上。該部分輸入數(shù)據(jù)格式(即stk模擬軟件輸出文件)字段信息如下:經(jīng)度緯度高度參數(shù)4參數(shù)5參數(shù)6參數(shù)7(三)全局?jǐn)?shù)據(jù)結(jié)構(gòu)設(shè)計(jì)1.物理結(jié)構(gòu)軟件實(shí)現(xiàn)中主要使用的數(shù)據(jù)結(jié)構(gòu)是對(duì)應(yīng)于數(shù)據(jù)協(xié)議中的一些數(shù)據(jù)結(jié)構(gòu),定義數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)從二進(jìn)制文件中解析出來(lái)的數(shù)據(jù),實(shí)現(xiàn)的數(shù)據(jù)結(jié)構(gòu)有下面幾個(gè):frameheader//存儲(chǔ)每個(gè)包的數(shù)據(jù)頭信息helicopt_carrier_parm//存儲(chǔ)載機(jī)數(shù)據(jù)塊字段信息singletargetparameter//存儲(chǔ)單個(gè)目標(biāo)所有信息interrgrated_target_parm//存儲(chǔ)集成目標(biāo)數(shù)據(jù)塊字段信息,內(nèi)部可能包含多個(gè)singletargetparameterdemo_scene_info//演示場(chǎng)景信息數(shù)據(jù)塊demo_ctrl_info//演示控制信息數(shù)據(jù)塊build_net_cmd//組網(wǎng)指令數(shù)據(jù)塊record//每個(gè)數(shù)據(jù)塊到系統(tǒng)內(nèi)之后均被識(shí)別成為行數(shù)據(jù),記錄成一個(gè)record,用長(zhǎng)度和type字段來(lái)區(qū)別類(lèi)別。2.表結(jié)構(gòu)根據(jù)已有的數(shù)據(jù)分類(lèi),結(jié)合hbase的按列存儲(chǔ)的特點(diǎn),我們?cè)O(shè)計(jì)出如下的表結(jié)構(gòu)由多個(gè)列簇(columnfamily)構(gòu)成,每個(gè)列簇由多個(gè)屬性組成,每個(gè)屬性對(duì)應(yīng)于數(shù)據(jù)塊中的一個(gè)字段。表中的列簇有如下幾個(gè):cf_helicoptcarrierparm//直升機(jī)載機(jī)數(shù)據(jù)塊列簇cf_integeratedtargetparm//基礎(chǔ)目標(biāo)數(shù)據(jù)塊列簇cf_stk//stk數(shù)據(jù)對(duì)應(yīng)的列簇cf_emptystring//存儲(chǔ)非結(jié)構(gòu)化的包列簇cf_unrecognised//存儲(chǔ)未識(shí)別的數(shù)據(jù)塊對(duì)應(yīng)的列簇各列簇中包含的列為各塊字段信息,cf_emptystring中包含文本形式存儲(chǔ)的包信息,如”87a34b2345f86544e”等,cf_unrecognised只包含類(lèi)型信息。表格中的行鍵信息使用自定義的格式,格式為“row”+系統(tǒng)時(shí)間+helicopterid,例如行鍵為“row147926317632301”,表示系統(tǒng)時(shí)間(從1970年1月1日0時(shí)起的毫秒數(shù))為1479263176323時(shí),編號(hào)為01的節(jié)點(diǎn)存儲(chǔ)到云平臺(tái)中的數(shù)據(jù)。3.類(lèi)結(jié)構(gòu)實(shí)現(xiàn)中涉及到的類(lèi)結(jié)構(gòu)主要有記錄行信息的record類(lèi),調(diào)用底層hbase的hbaseengine類(lèi)和調(diào)用svm分類(lèi)器的svmengine類(lèi),各自在類(lèi)的成員變量中完成各自調(diào)用過(guò)程。4.常量實(shí)現(xiàn)設(shè)計(jì)中涉及到的常量主要是字段名稱(chēng)信息,數(shù)量較大,在此不詳細(xì)列出。以下通過(guò)具體實(shí)驗(yàn)來(lái)驗(yàn)證本發(fā)明的效果:1.分類(lèi)器算法評(píng)測(cè)實(shí)驗(yàn)(1)數(shù)據(jù)集用作實(shí)驗(yàn)的原始飛行數(shù)據(jù)樣本共4497432個(gè),其中擊中(label=1)的有316768個(gè),未擊中(label=0)的有4180664個(gè)。將原始數(shù)據(jù)按照50%、25%、25%的比例均勻劃分為trainset、validationset、testset三個(gè)集合。其中,trainset用來(lái)訓(xùn)練分類(lèi)器;validationset用來(lái)測(cè)試不同分類(lèi)器的性能,確定分類(lèi)模型的網(wǎng)絡(luò)結(jié)構(gòu)或者控制模型復(fù)雜程度的參數(shù);testset用來(lái)檢驗(yàn)最終選擇的最優(yōu)分類(lèi)模型的性能。(2)實(shí)驗(yàn)結(jié)果對(duì)不同分類(lèi)器算法進(jìn)行測(cè)試實(shí)驗(yàn),評(píng)估實(shí)驗(yàn)結(jié)果,選取最佳的分類(lèi)器模型,用testset進(jìn)行驗(yàn)證。a.線性可分svm用liblinear實(shí)現(xiàn)線性可分svm,進(jìn)行測(cè)試,結(jié)果如下表3:表3accuracyprecisionrecallf192.9669%000由于數(shù)據(jù)集中l(wèi)abel=1的數(shù)目遠(yuǎn)遠(yuǎn)低于label=0的實(shí)例數(shù)目(比例約為1:13),因此線性svm會(huì)全部預(yù)測(cè)0,但是顯然這樣是毫無(wú)意義的。b.非線性svm用libsvm實(shí)現(xiàn)不同類(lèi)型的非線性svm,進(jìn)行測(cè)試,結(jié)果如下表4:表4核函數(shù)accuracyprecisionrecallf1線性核92.9669%000多項(xiàng)式核92.9669%000rbf核94.3549%0.5990.5960.597sigmod核85.9684%000可以看出選用rbf核函數(shù)的結(jié)果最好,準(zhǔn)確率達(dá)到了94.4%,1的預(yù)測(cè)率也超過(guò)了50%。c.數(shù)據(jù)分割子訓(xùn)練集用前面提到的libsvm的rbf核類(lèi)型進(jìn)行訓(xùn)練,因?yàn)樗男Ч詈?。i.二分割將label=0的訓(xùn)練數(shù)據(jù)隨機(jī)分割成兩塊,與label為1的數(shù)據(jù)組成兩個(gè)子訓(xùn)練集,訓(xùn)練得到兩個(gè)model,分別對(duì)validationset進(jìn)行預(yù)測(cè),得到兩個(gè)output,按與和或兩種關(guān)系處理output得到最終分類(lèi)結(jié)果。測(cè)試結(jié)果如下表5:表5accuracyprecisionrecallf1與94.1015%0.5560.8060.658或94.0866%0.5540.8110.659ii.四分割將label=0的訓(xùn)練數(shù)據(jù)隨機(jī)分割成四塊,與label為1的數(shù)據(jù)組成四個(gè)子訓(xùn)練集,訓(xùn)練得到四個(gè)model,分別對(duì)validationset進(jìn)行預(yù)測(cè),得到四個(gè)output,按全與、全或、先與后或、先或后與四種關(guān)系處理output得到最終分類(lèi)結(jié)果。測(cè)試結(jié)果如下表6:表6iii.八分割將label=0的訓(xùn)練數(shù)據(jù)隨機(jī)分割成八塊,與label為1的數(shù)據(jù)組成八個(gè)子訓(xùn)練集,訓(xùn)練得到八個(gè)model,分別對(duì)validationset進(jìn)行預(yù)測(cè),得到八個(gè)output,按全與、全或、先與后或、先或后與四種關(guān)系處理output得到最終分類(lèi)結(jié)果。測(cè)試結(jié)果如下表7:表7accuracyprecisionrecallf1全與91.5268%0.4530.9840.620全或91.2967%0.4460.9870.615先與后或91.4762%0.4510.9850.619先或后與91.3750%0.4490.9860.617iv.三分之二分割將label=0的訓(xùn)練數(shù)據(jù)隨機(jī)分割成三塊,每?jī)蓧K與label為1的數(shù)據(jù)組成三個(gè)子訓(xùn)練集,訓(xùn)練得到三個(gè)model,分別對(duì)validationset進(jìn)行預(yù)測(cè),得到三個(gè)output,按與和或兩種關(guān)系處理output得到最終分類(lèi)結(jié)果。測(cè)試結(jié)果如下表8:表8accuracyprecisionrecallf1與94.3033%0.5750.7290.643或94.2959%0.5740.7340.644d.驗(yàn)證實(shí)驗(yàn)根據(jù)以上測(cè)試,可以看出,單純使用rbf核的非線性svm分類(lèi)器準(zhǔn)確率最高,而二分割分類(lèi)器的f1值最高。用testset對(duì)這兩種最優(yōu)分類(lèi)模型進(jìn)行驗(yàn)證實(shí)驗(yàn),結(jié)果如下表9:表9驗(yàn)證得到,這兩種分類(lèi)器性能與前面的測(cè)試結(jié)果基本一致,確實(shí)最優(yōu)。2.多平臺(tái)航空電子大數(shù)據(jù)系統(tǒng)測(cè)試a.數(shù)據(jù)采集模塊測(cè)試運(yùn)行軟件系統(tǒng),進(jìn)入數(shù)據(jù)采集模塊,設(shè)置好參數(shù)后開(kāi)始采集。檢查輸出的數(shù)據(jù)塊文件,均正確,證明采集功能正常。設(shè)置不同的blockselection參數(shù),檢查輸出的數(shù)據(jù)大小,均不同,證明采集模塊能對(duì)各種不同的單數(shù)據(jù)塊進(jìn)行采集。b.數(shù)據(jù)存儲(chǔ)模塊測(cè)試運(yùn)行軟件系統(tǒng),進(jìn)入數(shù)據(jù)采集模塊,然后開(kāi)始演示。觀察dashboard面板上的數(shù)據(jù),隨著程序運(yùn)行,面板能實(shí)時(shí)顯示集群中各節(jié)點(diǎn)的狀態(tài)信息,且可以看出飛行數(shù)據(jù)正被存儲(chǔ),證明該模塊能夠?qū)崟r(shí)存儲(chǔ)各個(gè)節(jié)點(diǎn)的數(shù)據(jù)。c.數(shù)據(jù)關(guān)聯(lián)分析模塊測(cè)試運(yùn)行軟件系統(tǒng),進(jìn)入數(shù)據(jù)關(guān)聯(lián)分析模塊,分別采用不同的核函數(shù)選擇參數(shù)和分割參數(shù),對(duì)輸入數(shù)據(jù)集進(jìn)行訓(xùn)練,均能成功地得到分類(lèi)模型,證明該模塊能夠用不同方法進(jìn)行數(shù)據(jù)分析。d.數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊測(cè)試運(yùn)行軟件系統(tǒng),進(jìn)入數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用模塊,選取參數(shù),然后開(kāi)始演示。界面能實(shí)時(shí)顯示所有節(jié)點(diǎn)的飛行數(shù)據(jù)和預(yù)測(cè)火力打擊結(jié)果,證明該模塊能夠?qū)︼w行數(shù)據(jù)進(jìn)行實(shí)時(shí)存儲(chǔ)和預(yù)測(cè)。e.系統(tǒng)節(jié)點(diǎn)靜態(tài)減少測(cè)試按照相應(yīng)的方法,將系統(tǒng)節(jié)點(diǎn)由6個(gè)靜態(tài)減少到4個(gè),檢查集群中hadoop和hbase的節(jié)點(diǎn)數(shù),均變成了4,說(shuō)明系統(tǒng)支持靜態(tài)減少節(jié)點(diǎn)。f.系統(tǒng)節(jié)點(diǎn)動(dòng)態(tài)增加測(cè)試按照相應(yīng)的方法,將系統(tǒng)節(jié)點(diǎn)由前一測(cè)試中的4個(gè)動(dòng)態(tài)增加到6個(gè),并在新增加的節(jié)點(diǎn)上運(yùn)行系統(tǒng)軟件。檢查系統(tǒng)數(shù)據(jù)存儲(chǔ)功能界面上節(jié)點(diǎn)信息的變化,由原來(lái)的4成功變成了6,說(shuō)明系統(tǒng)支持動(dòng)態(tài)增加節(jié)點(diǎn)。以上述依據(jù)本發(fā)明的理想實(shí)施例為啟示,通過(guò)上述的說(shuō)明內(nèi)容,相關(guān)工作人員完全可以在不偏離本項(xiàng)發(fā)明技術(shù)思想的范圍內(nèi),進(jìn)行多樣的變更以及修改。本項(xiàng)發(fā)明的技術(shù)性范圍并不局限于說(shuō)明書(shū)上的內(nèi)容,必須要根據(jù)權(quán)利要求范圍來(lái)確定其技術(shù)性范圍。當(dāng)前第1頁(yè)12
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
崇仁县| 咸宁市| 焦作市| 康保县| 抚顺市| 吉安县| 当阳市| 长兴县| 星座| 南充市| 临朐县| 中超| 讷河市| 丹东市| 滦南县| 林州市| 贵定县| 邻水| 资兴市| 邹城市| 石棉县| 山丹县| 志丹县| 五莲县| 古浪县| 河南省| 玉溪市| 嘉善县| 大渡口区| 郓城县| 尼木县| 临江市| 凤阳县| 璧山县| 饶平县| 凤山县| 保康县| 颍上县| 乌拉特中旗| 闽侯县| 离岛区|