本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,特別涉及一種基于大數(shù)據(jù)的農(nóng)業(yè)病蟲害智能診斷系統(tǒng)。
背景技術(shù):
在農(nóng)作物病蟲害的防治體系中,病蟲害的診斷至今仍為薄弱環(huán)節(jié),各種類型的病害與各種各樣的害蟲,是否能夠正確的診斷,直接影響到作物病蟲防治工作的成敗。
然而,正確的診斷病蟲,對病蟲害防治人員提出了較高的要求,而近年來變化異常的生態(tài)環(huán)境和多變的病蟲災(zāi)害,為病蟲害的防治帶來較大的困難,因為作為專業(yè)技術(shù)人員對病蟲的診斷需要一定的學(xué)習(xí)和實踐的過程。人們在長期與病蟲害作斗爭的過程中,積累了寶貴的經(jīng)驗,這個經(jīng)驗不是一般的實踐經(jīng)驗,而是包涵有較高知識含量,為了使這些知識財富能被廣大的作物病蟲防治工作者盡快的掌握應(yīng)用,作物病蟲害防治診斷專家系統(tǒng)應(yīng)運(yùn)而生,且任重道遠(yuǎn)。
構(gòu)建實用的、智能化農(nóng)業(yè)病蟲害專家系統(tǒng)的難點在于如何以接近自然語言的方式來表達(dá)病蟲草害的診斷特征:病蟲害的分類鑒定和診斷是復(fù)雜的專業(yè)工作,按照傳統(tǒng)的分類檢索十分煩瑣,因此對于蟲害診斷主要是根據(jù)害蟲的為害形狀、形態(tài)和行為特征;病害診斷主要是根據(jù)植株受害癥狀、病原微生物部分特征和分子特性。
另一方面,病蟲害診斷的難點在于模糊推理機(jī)的實現(xiàn)和沖突消解的策略。如何構(gòu)建模糊推理機(jī)從綜合數(shù)據(jù)庫中取出符合要求的規(guī)則,對己有事實進(jìn)行匹配,并選出匹配成功的規(guī)則,計算可信度,并根據(jù)沖突消解策略選擇綜合數(shù)據(jù)庫中沒有的規(guī)則結(jié)論及可信度值,作為新的事實加入到綜合數(shù)據(jù)庫中,完成提示檢驗、規(guī)則解釋、新事實輸入等也是目前的診斷系統(tǒng)中所面臨的一個難點。
隨著云時代的來臨,在以云計算為代表的技術(shù)推動下,大數(shù)據(jù)技術(shù)受到國內(nèi)外學(xué)者的廣發(fā)的關(guān)注。大數(shù)據(jù)的特點可以概括為數(shù)據(jù)量巨大、數(shù)據(jù)類型繁多、處理速度快,大數(shù)據(jù)技術(shù)指在各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,使得原本很難收集和利用的數(shù)據(jù)開始容易被利用起來,在較短的時間內(nèi)能快速處理大量數(shù)據(jù)并整理成為農(nóng)業(yè)病蟲害智能診斷需要的依據(jù)。
如何充分利用大數(shù)據(jù)技術(shù),提供一種基于大數(shù)據(jù)的農(nóng)業(yè)病蟲害智能診斷系統(tǒng),是目前亟待解決的問題。
現(xiàn)有的農(nóng)作物病蟲害監(jiān)測及預(yù)警系統(tǒng)如圖1所示,包括監(jiān)測系統(tǒng),移動終端及監(jiān)控中心;監(jiān)測系統(tǒng)包括傳感器節(jié)點、網(wǎng)關(guān)、視頻采集系統(tǒng)及無線視頻傳輸系統(tǒng);移動終端包括智能手機(jī),筆記本電腦及平板電腦;監(jiān)控中心包括WEB服務(wù)器,視頻播放系統(tǒng)及管理終端,WEB服務(wù)器連接管理信息系統(tǒng),WEB服務(wù)器連接管理終端;管理終端包括電腦,智能手機(jī)或筆記本電腦;傳感器節(jié)點通過網(wǎng)關(guān)通信,網(wǎng)關(guān)通過GSM/GPRS與移動終端通信,網(wǎng)關(guān)通過GSM/GPRS及網(wǎng)絡(luò)與監(jiān)控中心的WEB服務(wù)器通信,視頻采集系統(tǒng)采集的圖像信息通過無線視頻傳輸系統(tǒng)傳輸?shù)揭曨l播放系統(tǒng)。
另一種植物智能保護(hù)系統(tǒng)及實現(xiàn)方法如圖2所示,通過設(shè)置識別系統(tǒng)、防治系統(tǒng)、氣象模塊、地理模塊、植物保護(hù)信息模塊、病蟲害基礎(chǔ)知識模塊等全面的植物保護(hù)模塊對植物的保護(hù)進(jìn)行全面合理的保護(hù)和預(yù)防;通過Web輸入界面結(jié)合數(shù)據(jù)處理模塊和數(shù)據(jù)庫模塊對用戶信息進(jìn)行記錄,并對用戶上傳的信息進(jìn)行智能化應(yīng)對,最快速度解決用戶的問題,方便、快捷,增加客戶的粘性。
以上兩種目前主流方案有如下不足:
一、存在數(shù)據(jù)庫相對較簡單,對于癥狀相似病害或者罕見病害存在誤判甚至錯判的風(fēng)險,數(shù)據(jù)庫豐富度需要極大程度提升;
二、更重要的是其實現(xiàn)方式都是以單節(jié)點方式運(yùn)行,在數(shù)據(jù)讀寫并發(fā)、數(shù)據(jù)處理效率、數(shù)據(jù)存儲量方面有著先天性不足。數(shù)據(jù)量并發(fā)量大時,采用傳統(tǒng)單節(jié)點方式,可能會由于服務(wù)器長時間不能響應(yīng),導(dǎo)致傳輸失敗,丟失數(shù)據(jù)資源,尤其是視頻文件的傳輸、存儲、分析存在極大的宕機(jī)風(fēng)險;
三、對于系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)無法實現(xiàn)自動化處理,海量數(shù)據(jù)分析仍需依靠大量技術(shù)人員人工操作。
技術(shù)實現(xiàn)要素:
本發(fā)明提出一種基于大數(shù)據(jù)的農(nóng)業(yè)病蟲害智能診斷系統(tǒng),應(yīng)用大數(shù)據(jù)技術(shù)快速處理大量數(shù)據(jù)并整理成為農(nóng)業(yè)病蟲害智能診斷需要的依據(jù)。
本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
一種基于大數(shù)據(jù)的農(nóng)業(yè)病蟲害智能診斷系統(tǒng),包括:數(shù)據(jù)存儲系統(tǒng)、數(shù)據(jù)分析系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)識別系統(tǒng);
數(shù)據(jù)存儲系統(tǒng)采用基于Hadoop的分布式存儲,架構(gòu)采用N+M方式,一個文件的多個分片存儲于不同的存儲節(jié)點上,數(shù)據(jù)存儲節(jié)點根據(jù)硬盤類型自動分層,根據(jù)策略實現(xiàn)自動數(shù)據(jù)遷移和刪除,每個存儲節(jié)點通過多套網(wǎng)絡(luò)直接與其它節(jié)點互聯(lián),從終端回傳的數(shù)據(jù)首先在消息隊列集群中進(jìn)行緩沖,然后由流式計算引擎進(jìn)行實時計算,并將計算結(jié)果存到結(jié)構(gòu)化數(shù)據(jù)庫當(dāng)中,另外再將原始數(shù)據(jù)進(jìn)行序列化,將計算結(jié)果與序列化后的結(jié)果存到NoSQL數(shù)據(jù)庫當(dāng)中,用于數(shù)據(jù)的實時讀取;
數(shù)據(jù)分析系統(tǒng)由ETL工具完成異構(gòu)數(shù)據(jù)的整合、集成和輔助數(shù)據(jù)倉庫的建設(shè),形成各行業(yè)的主題數(shù)據(jù)庫;
數(shù)據(jù)挖掘系統(tǒng)將臨時存儲區(qū)數(shù)據(jù)經(jīng)過三級ETL抽取整理后形成各行業(yè)的主題數(shù)據(jù)庫;主題數(shù)據(jù)庫根據(jù)不同應(yīng)用需求提供三級數(shù)據(jù)服務(wù)層,分別是細(xì)節(jié)數(shù)據(jù)層、匯總數(shù)據(jù)層和應(yīng)用集市層;一級ETL抽取將臨時存儲區(qū)的數(shù)據(jù)按照預(yù)設(shè)的ETL抽取規(guī)則,抽取整理入細(xì)節(jié)數(shù)據(jù)層;二級ETL抽取將細(xì)節(jié)數(shù)據(jù)抽取、整理、分析成面向業(yè)務(wù)主題的統(tǒng)計數(shù)據(jù)集,即匯總數(shù)據(jù)層;第三級ETL抽取將細(xì)節(jié)數(shù)據(jù)層和匯總數(shù)據(jù)層數(shù)據(jù)抽取整理成應(yīng)用集市層,形成各主題多維數(shù)據(jù)立方體;
數(shù)據(jù)識別系統(tǒng)通過模式識別方式實現(xiàn),模式識別是對各種事物或現(xiàn)象的分析、描述、判斷和識別,流程如下:通過圖像歸一化、去噪、增強(qiáng)和銳化,進(jìn)行圖像數(shù)據(jù)預(yù)處理,逐一實現(xiàn)圖像特征提取,針對提取出的圖像特征在數(shù)據(jù)庫中查詢匹配,獲取所需結(jié)果。
可選地,所述數(shù)據(jù)存儲系統(tǒng)中,從各數(shù)據(jù)源采集到的數(shù)據(jù),先經(jīng)過格式檢查校驗和轉(zhuǎn)換處理后存儲于臨時存儲區(qū)。
可選地,所述數(shù)據(jù)識別系統(tǒng)通過圖像處理方法獲取圖像的外形參數(shù)值之后,設(shè)計分類器將農(nóng)業(yè)病害按其特征參數(shù)分類。
可選地,所述分類器采用模板匹配法:針對每個待識別的類別,給出一個標(biāo)準(zhǔn)模板作為識別標(biāo)準(zhǔn),所述標(biāo)準(zhǔn)模板是一個模式或者一個模式集。
可選地,所述分類器采用邏輯特征分析法:該方法對特征的選擇是使一類問題中只有一個模式具有某一種或者某一組合邏輯特征,匹配結(jié)果只有“是”和“非”兩種結(jié)果。
可選地,所述分類器采用模糊模式識別:是一種集合運(yùn)算,用隸屬度將模糊集合劃分為若干子集,m個類就有m個子集,然后根據(jù)模糊判別決策進(jìn)行分類,在識別過程中引入了模糊集概念。
可選地,所述分類器采用神經(jīng)網(wǎng)絡(luò)法:利用神經(jīng)網(wǎng)絡(luò),一個非線性的動態(tài)系統(tǒng),通過對樣本的學(xué)習(xí)建立起記憶,然后將未知模式判別為最接近的記憶。
可選地,所述分類器采用句法模式識別法:用己知結(jié)構(gòu)信息的模式作為訓(xùn)練樣本,先識別出基元和它們之間的連接關(guān)系,并用字母符號表示它們,然后用構(gòu)造句子的方法來描述這些場景的過程,并由此推斷出生成該場景的一種文法規(guī)則。
可選地,所述分類器采用統(tǒng)計特征法:對已知類別的模式樣本進(jìn)行各種特征的提取和分析,選取對分類有利的特征,并對其統(tǒng)計均值等按已知類別分別進(jìn)行學(xué)習(xí),按照Bayes最小誤差原則,根據(jù)統(tǒng)計特征設(shè)計出一個分類誤差最小的決策平面,識別過程就是對未知模式進(jìn)行相同的特征提取和分析,通過決策平面方程決定該模式所屬的類別。
本發(fā)明的有益效果是:
(1)采用Portal技術(shù)實現(xiàn),通過系統(tǒng)提供的多維數(shù)據(jù)服務(wù),定制不同的預(yù)警和分析模型,以簡單、易懂的圖形方式展現(xiàn)出來;
(2)配合多維分析工具,用戶可從數(shù)據(jù)立方體中對分析指標(biāo)進(jìn)行多維度、多角度的分析,科學(xué)準(zhǔn)確的了解各指標(biāo)的現(xiàn)狀和發(fā)展趨勢,可自動生成包含文字、數(shù)字、圖表、報表的PDF或DOC形式的決策分析報告。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為現(xiàn)有的農(nóng)作物病蟲害監(jiān)測及預(yù)警系統(tǒng)原理示意圖;
圖2為現(xiàn)有的植物智能保護(hù)系統(tǒng)原理示意圖;
圖3為本發(fā)明的基于大數(shù)據(jù)的農(nóng)業(yè)病蟲害智能診斷系統(tǒng)原理示意圖;
圖4為本發(fā)明的基于大數(shù)據(jù)的農(nóng)業(yè)病害智能診斷系統(tǒng)總體構(gòu)架示意圖;
圖5為本發(fā)明的基于大數(shù)據(jù)的農(nóng)業(yè)病害智能診斷系統(tǒng)技術(shù)架構(gòu)示意圖;
圖6為本發(fā)明的基于大數(shù)據(jù)的農(nóng)業(yè)病害智能診斷系統(tǒng)模式識別系統(tǒng)處理流程圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
如圖3所示,本發(fā)明的基于大數(shù)據(jù)的農(nóng)業(yè)病蟲害智能診斷系統(tǒng)包括:數(shù)據(jù)存儲系統(tǒng)、數(shù)據(jù)分析系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)識別系統(tǒng)。
基于Hadoop的分布式存儲系統(tǒng),數(shù)據(jù)存儲采用N+M方式提高數(shù)據(jù)可用性,一個文件的多個分片存儲于不同的存儲節(jié)點上,防止由于存儲節(jié)點失效引起的數(shù)據(jù)不可訪問。數(shù)據(jù)存儲節(jié)點根據(jù)硬盤類型自動分層,根據(jù)策略實現(xiàn)自動數(shù)據(jù)遷移和刪除。每個存儲節(jié)點通過多套網(wǎng)絡(luò)直接與其它節(jié)點互聯(lián),既提高系統(tǒng)帶寬,也提高網(wǎng)絡(luò)系統(tǒng)的可用性。從終端回傳的數(shù)據(jù)首先在消息隊列集群中進(jìn)行緩沖,然后由流式計算引擎進(jìn)行實時計算,并將計算結(jié)果存到結(jié)構(gòu)化數(shù)據(jù)庫當(dāng)中,另外再將原始數(shù)據(jù)進(jìn)行序列化,將計算結(jié)果與序列化后的結(jié)果存到NoSQL數(shù)據(jù)庫當(dāng)中,用于數(shù)據(jù)的實時讀取。農(nóng)業(yè)病害數(shù)據(jù)采集過程如圖5所示,從各數(shù)據(jù)源采集到的數(shù)據(jù),先經(jīng)過格式檢查校驗和轉(zhuǎn)換處理后存儲于臨時存儲區(qū)。
如圖4所示,數(shù)據(jù)分析系統(tǒng)由ETL工具完成異構(gòu)數(shù)據(jù)的整合、集成和輔助數(shù)據(jù)倉庫的建設(shè),形成各行業(yè)的主題數(shù)據(jù)庫。本發(fā)明農(nóng)業(yè)病蟲害智能診斷系統(tǒng)的基礎(chǔ)核心是從農(nóng)業(yè)各類數(shù)據(jù)源中采集數(shù)據(jù),并整理形成各行業(yè)主題數(shù)據(jù)庫。核心數(shù)據(jù)采集整理的ETL工具,采用基于開源項目kettle再進(jìn)行二次開發(fā)完成。
數(shù)據(jù)挖掘系統(tǒng)將臨時存儲區(qū)數(shù)據(jù)經(jīng)過三級ETL抽取整理后形成各行業(yè)的主題數(shù)據(jù)庫。主題數(shù)據(jù)庫設(shè)計上,根據(jù)不同應(yīng)用需求提供三級數(shù)據(jù)服務(wù)層,分別是細(xì)節(jié)數(shù)據(jù)層、匯總數(shù)據(jù)層和應(yīng)用集市層。一級ETL抽取將臨時存儲區(qū)的數(shù)據(jù)按照預(yù)設(shè)的ETL抽取規(guī)則,抽取整理入細(xì)節(jié)數(shù)據(jù)層。二級ETL抽取將細(xì)節(jié)數(shù)據(jù)抽取、整理、分析成面向業(yè)務(wù)主題的統(tǒng)計數(shù)據(jù)集,即匯總數(shù)據(jù)層。第三級ETL抽取將細(xì)節(jié)數(shù)據(jù)層和匯總數(shù)據(jù)層數(shù)據(jù)抽取整理成應(yīng)用集市層,形成各主題多維數(shù)據(jù)立方體。本發(fā)明采用流式計算加離線計算架構(gòu),實時計算主要是為了滿足及時反饋需要實時性要求較高的指標(biāo)或者數(shù)據(jù),比如對于病蟲害的實時檢測并發(fā)出警告,而離線計算則主要用來統(tǒng)計分析歷史數(shù)據(jù),通過各個指標(biāo)反映歷史及當(dāng)前情況,進(jìn)行評估或者預(yù)測等。
數(shù)據(jù)識別系統(tǒng)通過模式識別方式實現(xiàn),模式識別是對各種事物或現(xiàn)象的分析、描述、判斷和識別,如圖6所示,流程如下:通過圖像歸一化、去噪、增強(qiáng)和銳化等方式,進(jìn)行圖像數(shù)據(jù)預(yù)處理,逐一實現(xiàn)圖像特征提取,針對提取出的圖像特征在數(shù)據(jù)庫中查詢匹配,獲取所需結(jié)果。通過圖像處理方法獲取圖像的外形參數(shù)值之后,設(shè)計合理的分類器將農(nóng)業(yè)病害按其特征參數(shù)正確分類,按照模式特征的選擇和決策方法的不同,綜合用到以下六種類型:1、模板匹配法:針對每個待識別的類別,給出一個標(biāo)準(zhǔn)模板作為識別標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)模板可以是一個模式或者一個模式集;2、邏輯特征分析法:該方法對特征的選擇是使一類問題中只有一個模式具有某一種(或者某一組合)邏輯特征,匹配結(jié)果只有“是”和“非”兩種結(jié)果;3、模糊模式識別:是一種集合運(yùn)算,用隸屬度將模糊集合劃分為若干子集,m個類就有m個子集,然后根據(jù)模糊判別決策進(jìn)行分類,其特點是在識別過程中引入了模糊集概念,能夠反映它們整體的與主要的特性,允許樣品有相當(dāng)程度的干擾和畸變;4神經(jīng)網(wǎng)絡(luò)法:利用神經(jīng)網(wǎng)絡(luò),一個非線性的動態(tài)系統(tǒng),通過對樣本的學(xué)習(xí)建立起記憶,然后將未知模式判別為最接近的記憶。具體有BP網(wǎng)絡(luò),Hopfield網(wǎng)絡(luò)、高階網(wǎng)絡(luò)等,能夠處理一些環(huán)境十分復(fù)雜,背景知識不清楚,推理規(guī)則不明確的問題,允許樣品有較大的干擾和畸變;5、句法模式識別法:即用己知結(jié)構(gòu)信息的模式作為訓(xùn)練樣本,先識別出基元和它們之間的連接關(guān)系,并用字母符號表示它們,然后用構(gòu)造句子的方法來描述這些場景的過程,并由此推斷出生成該場景的一種文法規(guī)則,這就是訓(xùn)練過程;6、統(tǒng)計特征法:是對已知類別的模式樣本進(jìn)行各種特征的提取和分析,選取對分類有利的特征,并對其統(tǒng)計均值等按已知類別分別進(jìn)行學(xué)習(xí),按照Bayes最小誤差原則,根據(jù)統(tǒng)計特征設(shè)計出一個分類誤差最小的決策平面,識別過程就是對未知模式進(jìn)行相同的特征提取和分析,通過決策平面方程決定該模式所屬的類別。
農(nóng)業(yè)病害大數(shù)據(jù)診斷平臺和門戶采用Portal技術(shù)實現(xiàn),通過系統(tǒng)提供的多維數(shù)據(jù)服務(wù),定制不同的預(yù)警和分析模型,以簡單、易懂的圖形方式展現(xiàn)出來,配合多維分析工具,用戶可從數(shù)據(jù)立方體中對分析指標(biāo)進(jìn)行多維度、多角度的分析,科學(xué)準(zhǔn)確的了解各指標(biāo)的現(xiàn)狀和發(fā)展趨勢,可自動生成包含文字、數(shù)字、圖表、報表的PDF或DOC形式的決策分析報告。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。