本技術(shù)涉及水質(zhì)預(yù)警,尤其涉及基于機器學(xué)習(xí)和問答模型的水質(zhì)預(yù)警與決策方法及裝置。
背景技術(shù):
1、現(xiàn)有的水質(zhì)預(yù)警和預(yù)測模型主要依賴于傳統(tǒng)監(jiān)測數(shù)據(jù)和數(shù)學(xué)統(tǒng)計方法,以時間序列分析、回歸分析等方式為核心,對水質(zhì)參數(shù)進行趨勢預(yù)測和異常檢測。這些模型通常根據(jù)歷史監(jiān)測數(shù)據(jù),建立數(shù)學(xué)模型來預(yù)測水體的未來狀態(tài),通過設(shè)置閾值來判斷是否觸發(fā)預(yù)警信號。
2、在操作上,模型首先需要收集和處理水質(zhì)監(jiān)測數(shù)據(jù),包括ph值、溶解氧、濁度、有機物含量等關(guān)鍵指標(biāo)。然后,利用統(tǒng)計或機器學(xué)習(xí)方法對這些數(shù)據(jù)進行趨勢分析和模式識別,以期在污染事件發(fā)生前發(fā)出預(yù)警。
3、盡管傳統(tǒng)模型能夠有效預(yù)測和警報水質(zhì)問題,但通過簡單固定的閾值設(shè)置通常缺乏足夠的靈活性和適應(yīng)性,難以應(yīng)對非線性、非平穩(wěn)的水質(zhì)變化過程對水質(zhì)預(yù)警的挑戰(zhàn),也往往忽略了水體系統(tǒng)內(nèi)部的復(fù)雜相互作用和外部環(huán)境因素的影響。此外,這些模型在預(yù)測精度和預(yù)警時效性方面仍存在較大的提升空間,特別是在面對突發(fā)水污染事件時,往往難以提供及時有效的決策支持。
4、當(dāng)前水質(zhì)智能監(jiān)測主要采用以下方法:(1)利用物聯(lián)網(wǎng)技術(shù)實現(xiàn)對水質(zhì)監(jiān)測點的實時數(shù)據(jù)采集,包括ph值、溶解氧、濁度等關(guān)鍵指標(biāo),再通過規(guī)范標(biāo)準(zhǔn)設(shè)定閾值,超過閾值自動報警;(2)應(yīng)用機器學(xué)習(xí)算法對收集到的數(shù)據(jù)進行深度分析,通過模型預(yù)測水質(zhì)變化趨勢,及時發(fā)現(xiàn)異常波動并觸發(fā)預(yù)警機制。
5、此外,現(xiàn)有的決策輔助方法通常是基于關(guān)鍵詞進行檢索,存在諸多局限,比如無法理解知識信息、缺乏動態(tài)交互、缺少對文本整體的理解等。
6、當(dāng)前水質(zhì)污染決策輔助系統(tǒng)通常依賴于規(guī)則驅(qū)動和關(guān)鍵詞檢索的方法。這類系統(tǒng)通常建立在一個固定的知識庫上,其中包含了預(yù)定義的規(guī)則和邏輯,用于解析輸入的查詢并檢索相關(guān)信息。例如,一個環(huán)境監(jiān)測系統(tǒng)可能會在特定污染物濃度超過閾值時觸發(fā)預(yù)警,并通過關(guān)鍵詞匹配方法在知識庫中查找相關(guān)的處理措施和政策指南。
技術(shù)實現(xiàn)思路
1、本技術(shù)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
2、為此,本技術(shù)的第一個目的在于提出一種基于機器學(xué)習(xí)和問答模型的水質(zhì)預(yù)警與決策方法,實現(xiàn)了水質(zhì)預(yù)警與決策。
3、本技術(shù)的第二個目的在于提出一種基于機器學(xué)習(xí)和問答模型的水質(zhì)預(yù)警與決策裝置。
4、為達(dá)上述目的,本技術(shù)第一方面實施例提出了一種基于機器學(xué)習(xí)和問答模型的水質(zhì)預(yù)警與決策方法,包括:
5、獲取水質(zhì)監(jiān)測數(shù)據(jù)和水質(zhì)知識文本數(shù)據(jù),并對獲取的數(shù)據(jù)進行預(yù)處理,得到監(jiān)測數(shù)據(jù)集和文本數(shù)據(jù)集;
6、使用監(jiān)測數(shù)據(jù)集構(gòu)建水質(zhì)預(yù)測模型,并通過水質(zhì)預(yù)測模型預(yù)測下一時段的監(jiān)測數(shù)據(jù);
7、使用監(jiān)測數(shù)據(jù)集,采用隔離森林算法,構(gòu)建異常值檢測模型,將下一時段的監(jiān)測數(shù)據(jù)輸入異常值檢測模型中,輸出異常得分;
8、基于異常得分進行水質(zhì)預(yù)警;
9、使用文本數(shù)據(jù)集構(gòu)建問答模型,將用戶問題輸入問答模型,輸出問答結(jié)果。
10、本技術(shù)實施例的基于機器學(xué)習(xí)和問答模型的水質(zhì)預(yù)警與決策方法,通過對包含水質(zhì)時序數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)在內(nèi)的多模態(tài)數(shù)據(jù)預(yù)處理,利用arx回歸模型和隔離森林算法,構(gòu)建綜合預(yù)測預(yù)警體系,實現(xiàn)全面準(zhǔn)確的報警,再通過自然語言處理技術(shù)搭建問答模型,為預(yù)警模型添加了額外的決策層,一旦預(yù)警模型給出警報,智能問答模型自動為決策者以問答形式提供相關(guān)水質(zhì)污染問題知識,對提高決策的科學(xué)性、智能性和用戶友好性有重要意義。
11、可選地,在本技術(shù)的一個實施例中,對水質(zhì)監(jiān)測數(shù)據(jù)進行預(yù)處理,包括:
12、對水質(zhì)監(jiān)測數(shù)據(jù)進行清洗,將不重要且缺失值大于閾值的數(shù)據(jù)刪除,并對缺失值小于閾值或重要的數(shù)據(jù)使用填補方法補全;
13、對清洗后的數(shù)據(jù)中的異常數(shù)據(jù)進行人工標(biāo)注,并對標(biāo)注的數(shù)據(jù)進行檢查或刪除,確定數(shù)據(jù)真實;
14、對數(shù)據(jù)進行標(biāo)準(zhǔn)化;
15、對水質(zhì)知識文本數(shù)據(jù)進行預(yù)處理,得到文本數(shù)據(jù)集,包括:
16、對文本知識數(shù)據(jù)進行分詞,將其中的句子分解成單獨的詞匯或短語;
17、對文本知識數(shù)據(jù)進行清洗,去除無用數(shù)據(jù),得到水質(zhì)文本數(shù)據(jù)庫;
18、通過人工標(biāo)注從水質(zhì)文本知識庫中構(gòu)建問答對,其中,問答對包括問題和答案;
19、將水質(zhì)文本知識庫和問答對組合成文本數(shù)據(jù)集,使每個問答與對應(yīng)的知識庫條目一一對應(yīng)。
20、可選地,在本技術(shù)的一個實施例中,水質(zhì)預(yù)測模型為arx回歸模型,使用監(jiān)測數(shù)據(jù)集構(gòu)建水質(zhì)預(yù)測模型,包括:
21、將監(jiān)測數(shù)據(jù)集根據(jù)時段進行劃分,確定水質(zhì)預(yù)測模型的輸入時段和預(yù)測時段;
22、基于劃分后的輸入時段的數(shù)據(jù)和預(yù)測時段的數(shù)據(jù)對arx回歸模型進行訓(xùn)練,在訓(xùn)練時將輸入時段的數(shù)據(jù)輸入arx回歸模型中,對預(yù)測時段的監(jiān)測數(shù)據(jù)進行預(yù)測,在訓(xùn)練時利用利用貝葉斯信息準(zhǔn)則確定arx回歸模型的階數(shù),通過訓(xùn)練不斷對arx回歸模型的階數(shù)進行調(diào)整,使其達(dá)到最佳階數(shù),得到水質(zhì)預(yù)測模型的最佳參數(shù)。
23、可選地,在本技術(shù)的一個實施例中,通過arx回歸模型對下一時段的監(jiān)測數(shù)據(jù)進行預(yù)測,表示為:
24、yt=a1yt-1+a2yt-2+apyt-p+bxt+∈t
25、其中,yt為t時刻的監(jiān)測數(shù)據(jù),yt-1為t-1時刻的監(jiān)測數(shù)據(jù),ap是自回歸系數(shù),xt是外生變量,a1、a2、b是系數(shù);
26、利用貝葉斯信息準(zhǔn)則確定arx回歸模型的階數(shù),表示為:
27、
28、其中,是估計模型m的似然函數(shù)最大值,是使似然函數(shù)最大化的參數(shù)值,x是監(jiān)測數(shù)據(jù),n是監(jiān)測數(shù)據(jù)中數(shù)據(jù)點的個數(shù),k是回歸系數(shù)的個數(shù),bic最小時,p是arx回歸模型的最佳階數(shù)。
29、可選地,在本技術(shù)的一個實施例中,使用監(jiān)測數(shù)據(jù)集,采用隔離森林算法,構(gòu)建異常值檢測模型,包括:
30、隨機從監(jiān)測數(shù)據(jù)集中選擇子樣本,構(gòu)建隔離樹,每棵樹通過隨機選擇遞歸地劃分?jǐn)?shù)據(jù),直到達(dá)到設(shè)定的樹高度限制;
31、調(diào)整隔離樹的參數(shù),使模型異常檢測性能最佳,得到異常檢測隔離森林模型;
32、將監(jiān)測數(shù)據(jù)輸入異常檢測隔離森林模型,輸出異常得分,包括:
33、使用異常檢測隔離森林模型對監(jiān)測數(shù)據(jù)集中任一時段的樣本進行評估,計算每個樣本在每棵隔離樹中的平均路徑長度;
34、通過每個樣本在每棵隔離樹中的平均路徑長度計算每個樣本的異常得分。
35、可選地,在本技術(shù)的一個實施例中,構(gòu)建t棵隔離樹,表示為:
36、iforest={t1,2,…,t}
37、
38、其中,l為樹高度限制,j為子樣本大?。?/p>
39、每個樣本在每棵隔離樹中的平均路徑長度為:
40、
41、其中,t是樹的棵數(shù),ht(x)是路徑長度;
42、樣本x的異常得分表示為:
43、
44、其中,c(j)為基于子樣本的二叉搜索樹的平均路徑長度,c(j)表示為:
45、
46、其中,j為子樣本大小,h(i)為采樣大小為i的諧波數(shù)。
47、可選地,在本技術(shù)的一個實施例中,基于異常得分進行水質(zhì)預(yù)警,包括:
48、在平均路徑長度接近0,且異常得分接近-0.5時,判定樣本異常;
49、在平均路徑長度接近樣本大小n-1,且異常得分距離接近0.5時,判斷樣本正常;
50、在平均路徑長度近似于c(j)且異常得分接近0時,判斷樣本疑似異常。
51、可選地,在本技術(shù)的一個實施例中,使用文本數(shù)據(jù)集構(gòu)建問答模型,包括:
52、將水質(zhì)知識問答對轉(zhuǎn)換成向量;
53、將用戶問題輸入問答模型,輸出問答結(jié)果,包括:
54、將用戶問題轉(zhuǎn)換成向量;
55、使用相似度函數(shù)計算問題向量與水質(zhì)知識問答對向量之間的相似度;
56、對于用戶問題,基于相似度分?jǐn)?shù)和負(fù)采樣對比損失篩選相關(guān)的水質(zhì)信息條目;
57、使用生成器基于相關(guān)的水質(zhì)信息條目生成回答。
58、可選地,在本技術(shù)的一個實施例中,問題向量表示為:
59、hq=ool(e(q;θ1))
60、水質(zhì)知識問答對向量表示為:
61、hp=pool(e(p;θ2))
62、其中,e(;θ1)是用于將輸入文本轉(zhuǎn)換成向量表示的模型,pool是從模型的輸出中提取一個固定長度的向量的池化函數(shù);
63、向量之間的相似度s(q,p)表示為:
64、s(q,p)=sin(hq,hp)
65、基于相似度分?jǐn)?shù)和負(fù)采樣對比損失篩選相關(guān)的水質(zhì)信息條目,表示為:
66、
67、其中,是與問題不相關(guān)的水質(zhì)信息條目集合,τ是一個溫度參數(shù),用于調(diào)整softmax函數(shù)的平滑度;
68、生成器的任務(wù)是最大化給定問題和相關(guān)信息條目集合的條件概率p(a|q,p+),從水質(zhì)信息條目p+中選擇最優(yōu)結(jié)果,生成器采用最小化負(fù)對數(shù)似然方式,表示為:
69、
70、其中,a為答案序列,at為序列中第t個詞,q為問題,θ是模型參數(shù)。
71、為達(dá)上述目的,本發(fā)明第二方面實施例提出了一種基于機器學(xué)習(xí)和問答模型的水質(zhì)預(yù)警與決策裝置,包括:
72、數(shù)據(jù)獲取模塊,用于獲取水質(zhì)監(jiān)測數(shù)據(jù)和水質(zhì)知識文本數(shù)據(jù),并對獲取的數(shù)據(jù)進行預(yù)處理,得到監(jiān)測數(shù)據(jù)集和文本數(shù)據(jù)集;
73、第一模型構(gòu)建模塊,用于使用監(jiān)測數(shù)據(jù)集構(gòu)建水質(zhì)預(yù)測模型,并通過水質(zhì)預(yù)測模型預(yù)測下一時段的監(jiān)測數(shù)據(jù);
74、第二模型構(gòu)建模塊,用于使用監(jiān)測數(shù)據(jù)集,采用隔離森林算法,構(gòu)建異常值檢測模型,將下一時段的監(jiān)測數(shù)據(jù)輸入異常值檢測模型中,輸出異常得分;
75、預(yù)警模塊,用于基于異常得分進行水質(zhì)預(yù)警;
76、問答模塊,用于使用文本數(shù)據(jù)集構(gòu)建問答模型,將用戶問題輸入問答模型,輸出問答結(jié)果。
77、本技術(shù)附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實踐了解到。