本發(fā)明涉及一種抗抑郁藥物在廢水中穩(wěn)定性的智能篩查方法。
背景技術:
1、預計到2030年抑郁癥將成為全球疾病負擔的第一大原因,抗抑郁藥物(ads)對抑郁癥的臨床癥狀具有顯著治療作用。全球范圍內已報道了水生環(huán)境(例如地表水、地下水、飲用水、廢水或下水道系統(tǒng))中檢測到ads的情況,即在歐洲、美洲、非洲與大洋洲。大量研究也強調了環(huán)境濃度的ads及其轉化產物(tps)可能對水生生物生命周期的關鍵事件產生顯著影響,包括繁殖、生長發(fā)育、氧化應激、新陳代謝、神經功能、內分泌與生理行為等。
2、基于廢水的流行病學(wbe)是一種基于下水道廢水中特定生物標志物分析的方法,已成功應用于回溯估計常見藥品的區(qū)域消費與暴露模式。研究與抑郁癥狀相關ads的廢水穩(wěn)定性有助于反映公共精神衛(wèi)生狀況,通過評估母體及其tps的水生生物毒性,可進一步指導環(huán)境監(jiān)管策略。wbe要求被選擇的生物標志物在下水道系統(tǒng)中保持穩(wěn)定。然而,藥品作為一種有機活性成分,可受到下水道系統(tǒng)中生物膜與沉積物的生物活性的顯著影響,其在廢水中的損失可歸因于生物降解、水溶與吸附等共同作用。目前,廢水中ads濃度的測量常采用固相萃取(spe)與反相液相色譜法和串聯質譜法(rplc-ms/ms)等生物分析方法。然而,這些方法僅側重有限種類的藥品,尚未對與抑郁癥狀相關的多種類ads進行下水道的生物標志物穩(wěn)定性綜合評估。此外,在篩查過程中,一些潛在的生物標志物可能呈現假陽性偏差。
3、研究指出,應用dl方法進行藥品下水道系統(tǒng)的生物標志物穩(wěn)定性預測可能有效提升篩查效率并改進假陽性偏差。最近,深度學習(dl)已成為環(huán)境化學篩選與公共衛(wèi)生應用中最強大、最具有發(fā)展前景的工具之一。例如,通過多層感知機(mlp)與單向門控循環(huán)單元方法,可調查社區(qū)級人口統(tǒng)計數據與廢水特征組合對covid-19與腎臟疾病的預測性,最佳平均spearman相關系數為0.546;通過隨機森林(rf)方法,可基于wbe廢水監(jiān)測數據預測美國45個州由covid-19引起的每周新住院人數,模型的歸一化平均絕對誤差在0.3以內。隨著注意力機制的快速發(fā)展,realformer方法相較于原始transformer方法具有更加穩(wěn)定與正則化的訓練效果,可用于人工智能輔助的藥物發(fā)現領域。然而,本研究涉及的少樣本分類學習存在有限數據的過擬合問題與大量未標記樣本直接添加導致的欠擬合問題,在數據有限的情況下構建高性能模型已成為研究熱點。因此,如何整合wbe思想與優(yōu)化的dl方法,實現ads在下水道系統(tǒng)廢水環(huán)境中的穩(wěn)定性的快速篩查、探究具有生物標志物潛力且適合wbe評估的ads,以及優(yōu)化藥品穩(wěn)定性篩查過程是待本領域研究人員急需解決的一個技術問題。
技術實現思路
1、本發(fā)明要解決的技術問題在于提供一種基于mssl-realformer深度學習架構的抗抑郁藥物在廢水中穩(wěn)定性的智能篩查方法,采用rdkit工具計算目前臨床使用較廣泛的66種ads的210種分子指紋數據,采用spearman相關系數對其進行相關性檢驗作為輸入自變量,基于經濟合作與發(fā)展組織(oecd)相關指南與相關文獻構建一個包含生物降解性、水溶解性與吸附分配性三方面理化性質的生物標志物穩(wěn)定性“三步篩查”框架,采用獨立加性方法對上述理化性質的指標數據進行客觀記分與歸類作為輸入因變量,實現數據矩陣的建立,基于半監(jiān)督學習(ssl)分類流程,通過耦合基于mixup方法的數據增強(de)策略與基于多頭注意力機制的realformer結構,提出一種mssl-realformer深度學習架構,有效的規(guī)避了少樣本數據問題,并在維持良好魯棒性的同時節(jié)約了計算成本,實現了抗抑郁藥物在廢水中穩(wěn)定性的快速智能篩查。本發(fā)明是這樣實現的,基于mssl-realformer深度學習架構的抗抑郁藥物在廢水中穩(wěn)定性的智能篩查方法:
2、包括如下步驟:
3、1)、確定目前臨床使用較廣泛的與抑郁癥狀相關的ads藥品種類與分子結構信息,采用美國環(huán)境保護署(epa)開發(fā)的epi?suitetm軟件、eawag-pps通路預測系統(tǒng)與vega?qsar軟件預測生物降解性,采用epi?suitetm軟件預測水溶性,以及采用epa?comptox?chemicalsdashboard系統(tǒng)預測吸附與分配性;
4、2)、基于經濟合作與發(fā)展組織(oecd)相關指南與文獻建立可評估穩(wěn)定性的篩選標準,對ads生物降解性、水溶解性與吸附分配性的理化指標進行客觀記分,采用獨立加性方法計算各理化性質的總分,并將總分分別歸類為高穩(wěn)定、中穩(wěn)定與低穩(wěn)定,作為輸入因變量;
5、3)、采用rdkit工具計算66種ads的210種分子指紋,并采用spearman相關系數進行相關性檢驗,評估不同分子指紋之間的相關程度(<0.65),篩選40種非線性的分子指紋輸入自變量;
6、4)、構建深度學習架構的數據矩陣,基于mixup方法的de策略與基于多頭注意力機制的realformer結構,將原始樣本ads的指紋數據輸入到realformer_1結構中進行訓練,同時采用mixup對初始指紋進行擴張,并將擴張后的指紋數據輸入到訓練完成的realformer_1中進行標簽預測,并組合成新的訓練集,完成一次mssl過程;
7、5)、進一步地,更新形成realformer_2結構,并重復步驟4),其中將二次擴張后的指紋數據重新輸入到realformer_2中進行標簽預測,并重新組合訓練集,完成二次mssl過程;
8、6)、重復進行n次mssl過程,輸出模型參數與標簽預測值,完成訓練,值得注意的是,每次完成realformer模型的更新后,均要對生成的訓練集的標簽進行重新預測,以確保預測標簽的準確性;
9、其中步驟4)中,mixup的具體過程為:
10、
11、式中,xi與xj分別為第i個與j個ads的原始輸入指紋數據,混合比例λ∈[0,1];
12、realformer結構中encoder的第一個子層包含了多頭注意力機制轉移模塊,通過對一組答案(k)的嵌入層(v)進行聚合進而計算輸出問題的嵌入層(q),并在transformer的基礎上,添加了殘差模塊(a),公式如下:
13、residualmultihead(q,k,v,a)=concat(head1,…,headh)wo?(2)
14、headi=residualattention(qwiq,kwik,vwiv,ai)?(3)
15、式中,wiq,wik與wiv是將查詢、鍵與值線性映射到第i個頭的“注意力空間”的矩陣;ai是對應于headi的a的切片;wo是一個對所有頭的輸出進行線性變換的矩陣;殘差注意力模塊計算這些值的加權和如下:
16、
17、式中,q’、k’、v’與a’是當前層的查詢、鍵、值與殘差分數;最后,新的注意力分數被傳遞到下一子層;
18、通過注意力分數的傳遞,可加快梯度下降過程,但增加了梯度消失的風險,因此,應在不同的mssl過程中選取不同的學習率,以保證模型的魯棒性,上述提出的mssl-realformer深度學習架構有效緩解了少樣本量造成的數據過擬合與欠擬合問題,提高了深度學習模型的可應用性。
19、本發(fā)明與現有技術相比,有益效果在于:可以克服當前傳統(tǒng)方法在少樣本分類學習過程中有限數據過擬合與大量未標記樣本直接添加導致的欠擬合問題,通過該mssl-realformer深度學習架構可構建高性能分類模型,實現了ads等與精神疾病相關藥品在下水道系統(tǒng)廢水環(huán)境中的穩(wěn)定性的快速篩查與綜合評估,并優(yōu)化了藥品穩(wěn)定性篩查過程。