本發(fā)明屬于環(huán)境科學領(lǐng)域,涉及一種基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法。
背景技術(shù):
1、微生物生態(tài)學的一個核心目標是對地球微生物群與環(huán)境要素之間的相互作用進行理解。目前,關(guān)于河流浮游細菌群落組成的研究主要聚焦于探索其與環(huán)境要素的相互關(guān)系、時空特征以及主要驅(qū)動因素。為了彌補實地監(jiān)測的局限性,研究者們開發(fā)了各種模型來預測河流浮游細菌群落的組成和動態(tài)變化,這些研究對于制定生態(tài)管理計劃、應(yīng)對環(huán)境變化具有重要意義。
2、傳統(tǒng)的預測模型,如基于機理的動力學模型(如monod方程、lotka-volterra模型)和多元線性回歸模型,在預測微生物群落結(jié)構(gòu)方面存在局限性,主要體現(xiàn)在對復雜自然群落的適用性不足,以及忽略了環(huán)境因素的交互作用和非線性關(guān)系。此外,自然河流系統(tǒng)受地理、水文、理化等多重復雜因素的影響,傳統(tǒng)的多元回歸分析難以充分捕捉這些復雜關(guān)系。
3、在此背景下,深度學習(dl)作為一種先進的機器學習方法,在處理大規(guī)模數(shù)據(jù)和復雜模型方面展現(xiàn)出顯著優(yōu)勢。盡管dl在生物信息學領(lǐng)域已取得顯著成果,如醫(yī)學圖像診斷和基因組序列分析,但在微生物組研究中的應(yīng)用還相對有限。目前,雖然已有研究利用dl方法(如lstm和cnn)預測微生物群落變化,但這些方法在處理復雜的非線性關(guān)系和變量間的交互作用時仍缺乏可解釋性。因此,開發(fā)一種可解釋性更強的基于數(shù)據(jù)驅(qū)動的深度學習模型,對于提高河流浮游細菌群落組成預測的準確性和可靠性至關(guān)重要。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,為河流浮游細菌群落組成研究提供更簡便高效的方法,為更好的了解環(huán)境變化對浮游細菌的潛在影響提供技術(shù)支撐。
2、為達到上述目的,本發(fā)明提供如下技術(shù)方案:
3、基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,包括以下步驟:
4、數(shù)據(jù)采集與準備:采集/收集河流浮游細菌樣本及相關(guān)環(huán)境數(shù)據(jù),包括水體理化指標、氣象要素、地理格局和人類活動等。形成原始數(shù)據(jù)集,涵蓋浮游細菌相對豐度、總氮(tn)、總磷(tp)、溶解性有機碳(doc)、葉綠素(chla)、電導率(cond)、ph、溶解氧(do)、水溫(wt)、氣溫(at)、降水(pre)、高程(elev)和地理距離等指標。在大型流域中,為保證數(shù)據(jù)充分,采集不同空間點位的數(shù)據(jù),如干流、支流等,確保總樣本數(shù)大于所需預測群落組成數(shù)的兩倍以上。
5、數(shù)據(jù)預處理:檢查數(shù)據(jù)有效性,去除錯誤數(shù)據(jù)和空數(shù)據(jù)。統(tǒng)一量綱,使用標準化、最小-最大歸一化、均值歸一化或?qū)?shù)歸一化方法。對離散數(shù)據(jù)如時間、地貌類型等重新編碼,內(nèi)置獨熱編碼或其他方法。
6、模型構(gòu)建:劃分模型訓練集和測試集。設(shè)計兩個編碼器模型和一個解碼器模型。第一編碼器:將浮游細菌otu豐度轉(zhuǎn)換為潛在空間(lsotu)。第二編碼器:將環(huán)境要素轉(zhuǎn)換為潛在空間(lsef)。解碼器:將潛在空間轉(zhuǎn)換回浮游細菌豐度。兩個編碼器的潛在空間被訓練為相似,最小化差異,創(chuàng)建一個綜合潛在空間(lscomb)。
7、模型訓練與評估:集成預測器和解碼器,預測器從環(huán)境要素返回lscomb,解碼器從lscomb返回浮游細菌otu相對豐度。使用多種損失函數(shù)和評估指標,如bray-curtis距離、均方誤差(mse)等,優(yōu)化和評估模型。通過測試集數(shù)據(jù)評估模型,計算各項評估指標的得分。采用shap(shapleyadditive?explanations)方法對模型進行解釋,分析每個環(huán)境要素對模型預測結(jié)果的影響;shap值的計算基于以下公式:
8、
9、其中,n是特征i的集合,特征i包含總氮tn、總磷tp、溶解性有機碳doc、葉綠素chla、電導率cond、ph、溶解氧do、水溫wt、氣溫at、降水pre、高程elev和地理距離指標,s是不包含特征i的特征子集,φi(f)是特征i的shap值,f(s)是模型在給定特征子集s時的預測輸出。
10、模型解釋與保存:采用shap方法解釋模型,分析每個環(huán)境要素對預測結(jié)果的影響。計算shap值,提供模型的可解釋性。保存訓練好的編碼器和解碼器模型,便于后續(xù)使用。通過輸入新的環(huán)境要素,模型可以預測新樣本的浮游細菌分布情況。
11、本發(fā)明的有益效果在于:
12、(1)本發(fā)明通過深度學習模型,特別是自編碼器,能夠更準確地預測河流浮游細菌群落的組成,相較于傳統(tǒng)的基于機理的動力學模型和多元線性回歸模型,提高了預測的準確性。
13、(2)利用shap值解釋模型,本發(fā)明能夠清晰地展示每個環(huán)境要素如何影響模型預測,從而增強了模型的可解釋性,使其在環(huán)境科學領(lǐng)域具有更高的應(yīng)用價值。
14、(3)通過數(shù)據(jù)驅(qū)動的方法,本發(fā)明不僅限于特定環(huán)境要素的預測,而是能夠探索各類環(huán)境要素與河流浮游細菌相對豐度之間的復雜關(guān)系,為生態(tài)環(huán)境監(jiān)測和保護提供更廣泛的技術(shù)支持。
15、(4)本發(fā)明有助于制定更加精準和及時的生態(tài)管理計劃,通過準確預測河流浮游細菌群落的變化,為應(yīng)對環(huán)境變化的短期和長期影響提供科學依據(jù)。
16、(5)本發(fā)明在微生物組研究領(lǐng)域的應(yīng)用,特別是在河流浮游細菌群落組成預測方面,推動了數(shù)據(jù)驅(qū)動深度學習技術(shù)在環(huán)境科學領(lǐng)域的應(yīng)用和發(fā)展。
17、本發(fā)明的其他優(yōu)點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實踐中得到教導。本發(fā)明的目標和其他優(yōu)點可以通過下面的說明書來實現(xiàn)和獲得。
1.基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:所述數(shù)據(jù)預處理包括檢查數(shù)據(jù)有效性、去除錯誤數(shù)據(jù)和空數(shù)據(jù),統(tǒng)一量綱,并采用標準化、最小-最大歸一化、均值歸一化或?qū)?shù)歸一化方法。
3.根據(jù)權(quán)利要求1所述的基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:所述優(yōu)化模型并評估其性能的指標包括平均絕對誤差、均方誤差、平均絕對百分比誤差、皮爾遜相關(guān)系數(shù)、布雷-柯蒂斯不相似度和根相對平方誤差。
4.根據(jù)權(quán)利要求1所述的基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:所述劃分訓練集與測試集中,設(shè)計第一編碼器、第二編碼器和解碼器,第一編碼器將浮游細菌otu豐度作為輸入特征,將其轉(zhuǎn)換為潛在空間lsotu;第二編碼器將環(huán)境要素作為輸入特征,將其轉(zhuǎn)換為潛在空間lsef;解碼器將潛在空間轉(zhuǎn)換為浮游細菌豐度;
5.根據(jù)權(quán)利要求4所述的基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:所述模型在測試集上的性能評估,包括計算各項評估指標的得分;采用shap(shapleyadditive?explanations)方法對模型進行解釋,分析每個環(huán)境要素對模型預測結(jié)果的影響;shap值的計算基于以下公式:
6.根據(jù)權(quán)利要求1所述的基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:所述環(huán)境要素還包括地理因素、水文參數(shù)和理化指標。
7.根據(jù)權(quán)利要求5所述的基于人工神經(jīng)網(wǎng)絡(luò)自編碼器的河流浮游細菌群落組成預測方法,其特征在于:所述評估指標還包括不依賴尺度的指標,具體為皮爾遜相關(guān)系數(shù)(pearsoncorrelation)、布雷-柯蒂斯不相似度(bray-curtis?dissimilarity)和根相對平方誤差(rrse,root?relative?squarederror)。