使用開(kāi)源數(shù)據(jù)的疾病預(yù)測(cè)系統(tǒng)的制作方法
【專(zhuān)利摘要】描述了一種使用開(kāi)源數(shù)據(jù)的疾病預(yù)測(cè)系統(tǒng)。該系統(tǒng)包括預(yù)處理模塊、學(xué)習(xí)模塊和預(yù)測(cè)模塊。所述預(yù)處理模塊接收與疾病事件相關(guān)的N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集并且生成與所述疾病事件相關(guān)的增強(qiáng)濾波信號(hào)EFS曲線。所述學(xué)習(xí)模塊接收所述EFS曲線并且生成所述疾病事件的病例的預(yù)測(cè)數(shù)量,并且使用多種機(jī)器學(xué)習(xí)方法,生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù)測(cè)。所述預(yù)測(cè)模塊針對(duì)所述多個(gè)預(yù)測(cè)中的每一個(gè)確定查準(zhǔn)率和查全率,并且基于所述查準(zhǔn)率和查全率提供所述疾病事件將發(fā)生的可能性。
【專(zhuān)利說(shuō)明】
使用開(kāi)源數(shù)據(jù)的疾病預(yù)測(cè)系統(tǒng)
[0001 ] 政府權(quán)利
[0002] 本發(fā)明按照美國(guó)政府合同IARPA 0SI-D12PC00285在政府支持下進(jìn)行。政府具有本 發(fā)明中的某些權(quán)利。
[0003] 相關(guān)申請(qǐng)的交叉引用
[0004] 本發(fā)明是要求2014年2月19日提交的、發(fā)明名稱(chēng)為"Predict Rare Disease Using Open Source Data"的美國(guó)臨時(shí)申請(qǐng)No · 61 /941,920的優(yōu)先權(quán)的非臨時(shí)專(zhuān)利申請(qǐng)。
技術(shù)領(lǐng)域
[0005] 本發(fā)明涉及預(yù)測(cè)系統(tǒng),并且更具體地,涉及使用開(kāi)源數(shù)據(jù)預(yù)測(cè)疾病的系統(tǒng)。
【背景技術(shù)】
[0006] 預(yù)防傳染病和及時(shí)的健康威脅檢測(cè)是全球健康優(yōu)先任務(wù)。當(dāng)在疾病活動(dòng)的早期檢 測(cè)后進(jìn)行快速響應(yīng)時(shí),能夠減小疾病的社會(huì)影響和醫(yī)學(xué)影響,因此保衛(wèi)傳染病防線非常重 要。但是,傳統(tǒng)監(jiān)測(cè)系統(tǒng)(例如,疾病控制與預(yù)防中心(CDC))依賴(lài)臨床數(shù)據(jù)。CDC在流行病爆 發(fā)幾周后公布監(jiān)測(cè)結(jié)果,因此需要一種能夠在疾病的廣泛傳播之前告知疾病的爆發(fā)的早期 報(bào)警系統(tǒng)。
[0007] 存在對(duì)疾病傳播的動(dòng)態(tài)機(jī)構(gòu)提供深入了解的許多衍生方法。這些模型捕獲以不同 水平傳播的疾病的方面:從具有和不具有免疫響應(yīng)的宿主體內(nèi)(細(xì)胞內(nèi))流感動(dòng)態(tài)(參見(jiàn)合 并的參考文獻(xiàn)列表,參考文獻(xiàn)14)到人類(lèi)行為(宿主間動(dòng)態(tài))(參見(jiàn)參考文獻(xiàn)15)。這些模型基 于對(duì)具有不同動(dòng)力參數(shù)的常微分方程的求解。更復(fù)雜的模型包括人口規(guī)模并且考慮空間信 息。一些模型傾向于將不同規(guī)模的模型與歷史數(shù)據(jù)進(jìn)行聯(lián)合(參見(jiàn)參考文獻(xiàn)3)。在參考文獻(xiàn) 16中能夠找到對(duì)現(xiàn)有方法的良好回顧。統(tǒng)計(jì)模型例如與季節(jié)性天氣變化或其它環(huán)境因素與 疾病活動(dòng)的相關(guān)性最相關(guān)(參見(jiàn)參考文獻(xiàn)17-19)。
[0008] 對(duì)早期報(bào)警和疾病治療檢測(cè)的需要導(dǎo)致流行病情報(bào)工作的發(fā)展(參見(jiàn)參考文獻(xiàn) 20)(普美郵件(ProMED-mail)是這種系統(tǒng)的第一個(gè)示例)。流行病情報(bào)工作包括特別(ad hoc)檢測(cè)以及互聯(lián)網(wǎng)中可用的非結(jié)構(gòu)化信息的解釋。該信息由官方和非正式類(lèi)型的源生 成,并且可以包括來(lái)自媒體的謠言或來(lái)自官方源或傳統(tǒng)的流行病學(xué)監(jiān)測(cè)系統(tǒng)的更可靠的信 息。流行病情報(bào)是包括針對(duì)事件選擇的正式協(xié)議、報(bào)道事件的真實(shí)性的驗(yàn)證、補(bǔ)充可靠信息 的搜索、分析和通信的復(fù)雜過(guò)程。
[0009] 基于網(wǎng)絡(luò)搜索量的監(jiān)測(cè)成為提供關(guān)于疾病爆發(fā)的及時(shí)報(bào)警的另一有前景的工具。 基于網(wǎng)絡(luò)搜索查詢(xún)的成功的流感樣病例(ILI)預(yù)測(cè)的生動(dòng)例證是谷歌流感趨勢(shì);這種應(yīng)用 的途徑、方法和示例在參考文獻(xiàn)1中提出。大量論文描述了用于監(jiān)測(cè)ILI活動(dòng)的水平的谷歌 流感趨勢(shì)的成功應(yīng)用,這在官方報(bào)道的統(tǒng)計(jì)數(shù)字之前提供了疾病水平的趨勢(shì)估計(jì)(參見(jiàn)參 考文獻(xiàn)2、4、21-23)。
[0010] 在文獻(xiàn)中提出的預(yù)測(cè)方法將網(wǎng)絡(luò)搜索查詢(xún)與在疾病活動(dòng)水平的官方報(bào)告中可獲 得的統(tǒng)計(jì)數(shù)字相關(guān)聯(lián)。該模型的參數(shù)通?;谟?xùn)練數(shù)據(jù)來(lái)估計(jì),并且用于預(yù)測(cè)這些參數(shù)的 值中隨時(shí)間或在感興趣時(shí)段期間假設(shè)的緩慢變化。
[0011] 從網(wǎng)絡(luò)搜索趨勢(shì)提取的信號(hào)存在兩種類(lèi)型:一種通過(guò)搜索量的時(shí)間序列形成(參 見(jiàn)參考文獻(xiàn)6、8和12),另一種是每天或每周進(jìn)行的搜索的總數(shù)中的疾病相關(guān)搜索的一部分 (參見(jiàn)參考文獻(xiàn)1和5)。第一種數(shù)據(jù)與確認(rèn)的疾病情況的數(shù)量相關(guān),而第二種數(shù)據(jù)與看醫(yī)生 有關(guān)的疾病的一部分、由疾病引起的死亡率等相關(guān)。
[0012] 網(wǎng)絡(luò)搜索詞通常包括名稱(chēng)、病因、癥狀、診斷方法、治療和相關(guān)疾病(例如,參見(jiàn)參 考文獻(xiàn)12)。疾病相關(guān)詞的單獨(dú)網(wǎng)絡(luò)搜索查詢(xún)與發(fā)病趨勢(shì)的高線性相關(guān)性被觀察并且被許 多研究人員直接用于預(yù)測(cè)(例如,參見(jiàn)參考文獻(xiàn)6和24)。這種數(shù)據(jù)通常被流感樣疾病的研究 人員使用,這可以由傾向于得流感的大部分人口來(lái)解釋。在參考文獻(xiàn)1和11中作者使用了與 正在研究的疾病相關(guān)的查詢(xún)的部分和官方記錄的部分的效用函數(shù)(對(duì)數(shù)-奇數(shù))之間的線性 擬合。在參考文獻(xiàn)1中,例如,作者提出了在50,000個(gè)詞當(dāng)中選擇具有最高相關(guān)性的時(shí)間序 列并且加上熱搜詞以實(shí)現(xiàn)更好的預(yù)測(cè)結(jié)果的系統(tǒng)。另選地且如在參考文獻(xiàn)11中描述地那 樣,作者調(diào)查了在英國(guó)監(jiān)測(cè)猩紅熱的可能性并且示出了感興趣的時(shí)間序列的伽馬變換與羅 杰特變換相比表現(xiàn)出更好的預(yù)測(cè),特別是針對(duì)與疾病水平弱相關(guān)的查詢(xún)。
[0013] 具有較少感染和研究的大多數(shù)可更改傳染病在疾病趨勢(shì)和相關(guān)搜索量趨勢(shì)之間 不具有高相關(guān)性(例如,參見(jiàn)參考文獻(xiàn)12)。在這種情況下,采用諸如隱馬爾可夫模型(HMM) 的其它方法(例如,參見(jiàn)參考文獻(xiàn)7和12)以進(jìn)行肺結(jié)核和肝炎研究;采用決策樹(shù)(參見(jiàn)參考 文獻(xiàn)10)和支持向量機(jī)(參見(jiàn)參考文獻(xiàn)8)的其它方法以進(jìn)行登革熱監(jiān)測(cè)。
[0014] 因此,對(duì)高效且有效地預(yù)測(cè)疾病(其中,疾病趨勢(shì)與相關(guān)搜索量趨勢(shì)之間存在低相 關(guān)性)以提供在疾病傳播之前告知疾病爆發(fā)的早期報(bào)警系統(tǒng)的系統(tǒng)存在持續(xù)的需求。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明涉及一種使用開(kāi)源數(shù)據(jù)預(yù)測(cè)疾病的系統(tǒng)。該系統(tǒng)包括預(yù)處理模塊,所述預(yù) 處理模塊用于接收與疾病事件相關(guān)的N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集并且生成與所述疾病事件相關(guān) 的增強(qiáng)濾波信號(hào)(EFS)曲線。還包括學(xué)習(xí)模塊,所述學(xué)習(xí)模塊用于接收所述EFS曲線并且生 成所述疾病事件的病例的預(yù)測(cè)數(shù)量,并且使用多種機(jī)器學(xué)習(xí)方法,生成所述疾病事件將在 未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù)測(cè)。另外,該系統(tǒng)包括預(yù)測(cè)模塊,所述預(yù)測(cè)模塊用于針對(duì)所述多個(gè) 預(yù)測(cè)中的每一個(gè)確定查準(zhǔn)率(precision)和查全率(recall),并且基于所述查準(zhǔn)率和查全 率提供所述疾病事件將發(fā)生的可能性。
[0016] 在另一方面,在生成所述EFS曲線中,所述預(yù)處理模塊還對(duì)所述數(shù)據(jù)集執(zhí)行去趨勢(shì) (detrending)、標(biāo)準(zhǔn)化(scaling)以及濾波的操作以去除與被搜索疾病事件的發(fā)生無(wú)關(guān)的 信號(hào)。
[0017] 在又一方面,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,利用皮爾遜系數(shù)的閾值對(duì)所述數(shù)據(jù)集 進(jìn)行濾波。
[0018] 另外,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,所述預(yù)處理模塊通過(guò)執(zhí)行以下操作來(lái)確定所 述皮爾遜系數(shù)的閾值:生成與所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集中相同數(shù)量的隨機(jī)時(shí)間序列;如果 所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集包含Μ個(gè)點(diǎn),則在從0至100的范圍中隨機(jī)挑選數(shù)字Μ次,使得每個(gè) 時(shí)間序列的長(zhǎng)度相同;計(jì)算基本事實(shí)與每個(gè)隨機(jī)趨勢(shì)之間的最大皮爾遜相關(guān)系數(shù)R;重復(fù)生 成、隨機(jī)挑選以及計(jì)算的操作預(yù)定次數(shù);以及對(duì)所述Ν個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集進(jìn)行濾波,使得R 的分布的平均值是用于數(shù)據(jù)集濾波的閾值Tr,從而只將具有R>Tr的時(shí)間序列一起求和并且 形成所述EFS。
[0019] 在另一方面,在提供所述疾病事件將發(fā)生的可能性中,選擇所述多個(gè)預(yù)測(cè)中的提 供最佳查準(zhǔn)率/查全率對(duì)的預(yù)測(cè)作為所述疾病事件將發(fā)生的可能性。
[0020] 在又一方面,生成所述疾病事件的病例的預(yù)測(cè)數(shù)量還包括利用提前預(yù)定時(shí)段被調(diào) 節(jié)的滑動(dòng)窗對(duì)所述EFS曲線執(zhí)行線性回歸的操作。
[0021] 在另一方面,生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù)測(cè)還包括以下操 作:使用邏輯回歸、自適應(yīng)增強(qiáng)、決策樹(shù)和支持向量機(jī)來(lái)生成四種預(yù)測(cè),然后執(zhí)行貝葉斯模 型平均以組合所述四種預(yù)測(cè)。
[0022] 最后,本發(fā)明還包括方法和計(jì)算機(jī)程序產(chǎn)品。所述方法包括使一個(gè)或更多個(gè)處理 器執(zhí)行本文列出的操作的動(dòng)作,而所述計(jì)算機(jī)程序產(chǎn)品例如是非瞬態(tài)計(jì)算機(jī)可讀介質(zhì),該 非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)在其上編碼有指令以使一個(gè)或更多個(gè)處理器執(zhí)行本文描述的操作。
【附圖說(shuō)明】
[0023]本發(fā)明的目的、特征和優(yōu)點(diǎn)將從以下結(jié)合附圖的本發(fā)明的各方面的詳細(xì)說(shuō)明變得 更明顯,在附圖中:
[0024] 圖1是描繪根據(jù)本發(fā)明的原理的預(yù)測(cè)系統(tǒng)的部件的框圖;
[0025] 圖2是根據(jù)本發(fā)明的原理的計(jì)算機(jī)程序產(chǎn)品的圖;
[0026]圖3是提供根據(jù)本發(fā)明的原理用于預(yù)測(cè)漢坦病毒發(fā)生的處理流的圖;
[0027] 圖4是例示歷史漢坦病毒活動(dòng)水平的圖表,例如,每個(gè)月(5周)的事件率對(duì)比漢坦 病毒疾病計(jì)數(shù);
[0028] 圖5是描繪針對(duì)N個(gè)谷歌趨勢(shì)(GT)的數(shù)據(jù)集和時(shí)間序列(TS)的增強(qiáng)濾波信號(hào)(EFS) 計(jì)算的處理的流程圖;
[0029] 圖6是比較GT網(wǎng)絡(luò)搜索與隨機(jī)生成的時(shí)間序列之間的皮爾遜相關(guān)系數(shù)的表;
[0030] 圖7是例示EFS和疾病發(fā)生率的圖表;
[0031] 圖8是例示作為關(guān)于漢坦病毒發(fā)生率的具有52周滑動(dòng)窗的EFS的回歸結(jié)果而獲得 的預(yù)測(cè)率(提前一周)的圖表;
[0032] 圖9是提供與漢坦病毒相關(guān)的網(wǎng)絡(luò)搜索詞的相關(guān)系數(shù)的表;
[0033] 圖10是提供針對(duì)隨機(jī)森林重要性(RFI)、秩相關(guān)和信息增益的受試者操作特征 (R0C)曲線的圖;
[0034] 圖11是描繪與真實(shí)事件相比預(yù)測(cè)的疾病事件的可能性的圖;以及 [0035]圖12是例示根據(jù)本發(fā)明原理的實(shí)時(shí)預(yù)測(cè)結(jié)果的表。
【具體實(shí)施方式】
[0036]本發(fā)明涉及預(yù)測(cè)系統(tǒng),并且更具體地,涉及使用開(kāi)源數(shù)據(jù)預(yù)測(cè)疾病的系統(tǒng)。提出下 面的說(shuō)明以使本領(lǐng)域技術(shù)人員能夠制造和使用本發(fā)明并且在特定應(yīng)用的情況下將本發(fā)明 合并。不同應(yīng)用中的各種修改以及多種用途對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,并且 在本文種限定的一般原理可以應(yīng)用于大范圍的實(shí)施方式。因此,本發(fā)明不意在被限于提出 的實(shí)施方式,而是要符合與本文公開(kāi)的原理和新的特征一致的最大范圍。
[0037]在下面的詳細(xì)描述中,闡述了許多具體細(xì)節(jié)以便提供本發(fā)明的更透徹理解。然而, 對(duì)于本領(lǐng)域技術(shù)人員而言明顯的是,可以實(shí)施本發(fā)明而沒(méi)有必要限于這些具體細(xì)節(jié)。在其 它實(shí)例中,為了避免模糊本發(fā)明,公知的結(jié)構(gòu)和設(shè)備以框圖的形式被示出,而非詳細(xì)示出。 [0038]讀者的注意力致力于與本說(shuō)明書(shū)同時(shí)提交且和本說(shuō)明書(shū)開(kāi)放給公眾查閱的所有 論文和文獻(xiàn),所有這樣的論文和文獻(xiàn)的內(nèi)容合并于此以供參考。除非有明確說(shuō)明,否則本說(shuō) 明書(shū)公開(kāi)的所有特征(包括任何所附權(quán)利要求、摘要和附圖)可以由用于相同、等同或類(lèi)似 目的另選特征來(lái)代替。因此,除非有明確說(shuō)明,否則公開(kāi)的每個(gè)特征僅是通用系列的等同或 類(lèi)似特征的一個(gè)示例。
[0039]此外,如在35U. S. C.第112條第6款中規(guī)定的,沒(méi)有明確說(shuō)明用于執(zhí)行特定功能的 "裝置"或用于執(zhí)行特定功能的"步驟"的權(quán)利要求中的任何元素,不應(yīng)理解為"裝置"或"步 驟"條款。具體地,本文權(quán)利要求中使用"步驟"或"動(dòng)作"并不意味著調(diào)用(inv 〇ke)35U.S.C. 第112條第6款的規(guī)定。
[0040] 在詳細(xì)描述本發(fā)明之前,首先給出引用的參考文獻(xiàn)的列表。然后,提供在說(shuō)明書(shū)和 權(quán)利要求書(shū)中使用的詞表。然后,提供本發(fā)明的多個(gè)主要方面的描述。隨后,概述向讀者提 供對(duì)本發(fā)明的整體理解。最后,提供本發(fā)明的具體細(xì)節(jié)以便給出特定方面的理解。
[0041] (1)合并的參考文獻(xiàn)的列表
[0042] 下面的參考文獻(xiàn)在本申請(qǐng)中自始至終被引用。為了清楚和方便起見(jiàn),參考文獻(xiàn)在 此列出作為讀者的中心資源。以下參考文獻(xiàn)通過(guò)引用并入本文,如同在此完全闡述。本申請(qǐng) 中的參考文獻(xiàn)通過(guò)相應(yīng)的參考文獻(xiàn)編號(hào)來(lái)引用。
[0043] 1 .Ginsberg,J等人,Detecting influenza epidemics using search engine query data.Nature,2009.457(7232):p.1012-U4.
[0044] 2.Carneiro,H.A和E.Mylonakis,Google Trends:A Web-Based Tool for Real-Time Surveillance of Disease Outbreaks.Clinical Infectious Diseases,2009.49 (10):p.1557-1564.
[0045] 3 · Nsoesie,E · 0等人,A Simulation Optimization Approach to Epidemic Forecasting.Plos One,2013.8(6).
[0046] 4 · Pervaiz,F(xiàn)等人,F(xiàn)luBreaks : Early Epidemic Detection from Google Flu Trends.Journal of Medical Internet Research,2012.14(5).
[0047] 5.Polgreen,P.M 等人,Using Internet Searches for Influenza Surveillance.Clinical Infectious Diseases,2008.47(11):p.1443-1448.
[0048] 6.Wilson,K和J.S.Brownstein,Early detection of disease outbreaks using the Internet.Canadian Medical Association Journal,2009.180(8):p.829-831.
[0049] 7.Zhou,X.,J.Ye和Y.Feng,Tuberculosis Surveillance by Analyzing Google Trends.Ieee Transactions on Biomedical Engineering,2011.58(8).
[0050] 8.Althouse,B.M.,Y.Y.Ng和D.A.T.Cummings,Prediction of Dengue Incidence Using Search Query Surveillance.Plos Neglected Tropical Diseases,2011.5(8): p. el258.
[0051] 9.Chan,E.H 等人,Using Web Search Query Data to Monitor Dengue Epidemics: A New Model for Neglected Tropical Disease Surveillance.Plos Neglected Tropical Diseases,2011.5(5):p.el206.
[0052] 10 · Tanner,L等人,Decision Tree Algorithms Predict the Diagnosis and Outcome of Dengue Fever in the Early Phase of Illness.Plos Neglected Tropical Diseases,2008.2(3).
[0053] 11·Samaras,L·,E.Garcia-Barriocanal 和M.-A.Sicilia,Syndromic surveillance models using Web data: The case of scarlet fever in the UK.Informatics for Health&Social Care,2012.37(2):p.106-124.
[0054] 12.Zhou,X等人,Monitoring Epidemic Alert Levels by Analyzing Internet Search Volume.Ieee Transactions on Biomedical Engineering,2013.60(2):p.446-452.
[0055] 13·Markey,P·M和C·N·Markey,Annual variation in Internet keyword searches: Linking dieting interest to obesity and negative health outcomes.Journal of Health Psychology,2013.18(7):p.875-886.
[0056] 14·Beauchemin,C·A和A·Hande1,A review of mathematical models of influenza A infections within a host or cell culture: lessons learned and challenges ahead BMC Public Health,2011·ll(suppl 1):p.S7.
[0057] 15.Funk,S.,M.Salathe和V.A.A.Jansen,Modelling the influence of human behaviour on the spread of infectious diseases:a review.2010.7:p.1247-1256.
[0058] 16.Murillo,L.N.,M.S.Murillo和A.S.Perelson,Towards multiscale modeling of influenza infection.Journal of Theoretical Biology,2013.332:p.267-290.
[0059] 17 · Lipp,E · K ·,A · Huq和R · R · Colwe 11,Ef f ect s of global c 1 imate on infectious disease : the cholera model. Clinical Microbiology Reviews ,2002.15 (4):ρ·757.
[0060] 18.McMichael,A.J. ,R.E.Woodruff和S.Hales,Climate change and human health:present and future risks.Lancet,2006.367(9513):p.859-869.
[0061] 19 · Pat z,J · A等人,Impac t of regional climate change on human health.Nature,2005.438(7066):p.310-317.
[0062] 20 · Barboza,P 等人,Evaluation of Epidemic Intelligence Systems Integrated in the Early Alerting and Reporting Project for the Detection of A/H5NlInfluenza Events.Plos One,2013.8(3).
[0063] 21.Dugas,A.F., Influenza Forecasting with Google Flu Trends.
[0064] 22.Kang,M等人,Using Google Trends for Influenza Surveillance in South China.Plos One,2013.8(1).
[0065] 23.Malik,M.T等人,"Google Flu Trends',and Emergency Department Triage Data Predicted the 2009Pandemic HlNlffaves in Manitoba.Canadian Journal of Public Health,2011.102(4):p.294-297.
[0066] 24.Hulth,A和G.Rydevik,GET WELL:an automated surveillance system for gaining new epidemiological knowledge.Bmc Public Health,2011.11.
[0067] (2)主要方面
[0068] 本發(fā)明具有三個(gè)"主要方面"。第一個(gè)主要方面是疾病預(yù)測(cè)系統(tǒng)。該系統(tǒng)通常是計(jì) 算機(jī)系統(tǒng)操作軟件的形式或者是"硬編碼"指令集的形式。該系統(tǒng)可并入到提供不同功能的 多種設(shè)備中。第二個(gè)主要方面是通常是軟件形式并且使用數(shù)據(jù)處理系統(tǒng)(計(jì)算機(jī))來(lái)操作的 一種方法。第三個(gè)主要方面是一種計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品通常代表存儲(chǔ)在非 瞬時(shí)計(jì)算機(jī)可讀介質(zhì)(例如,諸如緊湊盤(pán)(CD)或數(shù)字多功能光盤(pán)(DVD)的光學(xué)存儲(chǔ)設(shè)備,或 諸如軟盤(pán)或磁帶的磁存儲(chǔ)裝置)上的計(jì)算機(jī)可讀指令。另外,計(jì)算機(jī)可讀介質(zhì)的其它的非限 制性示例包括硬盤(pán)、只讀存儲(chǔ)器(ROM)以及閃存類(lèi)型的存儲(chǔ)器。這些方面將在下面更詳細(xì)地 描述。
[0069] 圖1中提供描述本發(fā)明的系統(tǒng)(即,計(jì)算機(jī)系統(tǒng)100)的示例的框圖。計(jì)算機(jī)系統(tǒng)100 被配置為執(zhí)行與程序或算法相關(guān)聯(lián)的計(jì)算、處理、操作和/或功能。在一方面,本文討論的特 定處理和步驟被實(shí)現(xiàn)為駐留在計(jì)算機(jī)可讀存儲(chǔ)單元內(nèi)且由計(jì)算機(jī)系統(tǒng)100的一個(gè)或更多個(gè) 處理器執(zhí)行的一系列指令(例如,軟件程序)。當(dāng)所述指令被執(zhí)行時(shí),指令使計(jì)算機(jī)系統(tǒng)100 執(zhí)行特定動(dòng)作,并表現(xiàn)出如本文所述的特定行為。
[0070] 計(jì)算機(jī)系統(tǒng)100可包括配置為傳輸信息的地址/數(shù)據(jù)總線102。另外,一個(gè)或更多個(gè) 數(shù)據(jù)處理單元(例如,一個(gè)處理器1〇4(或多個(gè)處理器))與地址/數(shù)據(jù)總線102聯(lián)接。處理器 104被配置為處理信息和指令。在一方面,處理器104是微處理器。另選地,處理器104可以是 不同類(lèi)型的處理器,例如并行處理器或現(xiàn)場(chǎng)可編程門(mén)陣列。
[0071] 計(jì)算機(jī)系統(tǒng)100被配置為利用一個(gè)或更多個(gè)數(shù)據(jù)存儲(chǔ)單元。計(jì)算機(jī)系統(tǒng)100可以包 括與地址/數(shù)據(jù)總線102聯(lián)接的一個(gè)易失性存儲(chǔ)單元106(例如,隨機(jī)存取存儲(chǔ)器("RAM")、靜 態(tài)RAM、動(dòng)態(tài)RAM等),其中,易失性存儲(chǔ)單元106被配置成存儲(chǔ)用于處理器104的信息和指令。 計(jì)算機(jī)系統(tǒng)100還可以包括與地址/數(shù)據(jù)總線102聯(lián)接的非易失性存儲(chǔ)器單元108(例如,只 讀存儲(chǔ)器("ROM")、可編程R0M( "PR0M")、可擦除可編程ROM( "EPROM")、電可擦除可編程ROM ("EEPR0M")、閃存等),其中,非易失性存儲(chǔ)單元108被配置為存儲(chǔ)用于處理器104的靜態(tài)信 息和指令。另選地,計(jì)算機(jī)系統(tǒng)100可以例如在"云"計(jì)算中執(zhí)行從在線數(shù)據(jù)存儲(chǔ)單元檢索到 的指令。在一方面,計(jì)算機(jī)系統(tǒng)100還可以包括與地址/數(shù)據(jù)總線102聯(lián)接的一個(gè)或更多個(gè)接 口(例如,接口 110)。一個(gè)或更多個(gè)接口被配置為使計(jì)算機(jī)系統(tǒng)100與其它電子設(shè)備和計(jì)算 機(jī)系統(tǒng)交互。由所述一個(gè)或更多個(gè)接口實(shí)現(xiàn)的通信接口可以包括有線(例如,串行電纜,調(diào) 制解調(diào)器,網(wǎng)絡(luò)適配器等)和/或無(wú)線(例如,無(wú)線調(diào)制解調(diào)器,無(wú)線網(wǎng)絡(luò)適配器等)通信技 術(shù)。
[0072] 在一方面,計(jì)算機(jī)系統(tǒng)100可以包括與地址/數(shù)據(jù)總線102聯(lián)接的輸入設(shè)備112,其 中,輸入設(shè)備112被配置成向處理器100傳送信息和命令選擇。根據(jù)一方面,輸入設(shè)備112是 可包括字母數(shù)字和/或功能鍵的字母數(shù)字輸入設(shè)備(例如鍵盤(pán))。另選地,輸入設(shè)備112可以 是除了字母數(shù)字輸入設(shè)備之外的輸入設(shè)備。在一方面,計(jì)算機(jī)系統(tǒng)100可以包括與地址/數(shù) 據(jù)總線102聯(lián)接的光標(biāo)控制設(shè)備114,其中,所述光標(biāo)控制設(shè)備114被配置成向處理器100傳 送用戶輸入信息和/或命令選擇。在一方面,使用例如鼠標(biāo)、跟蹤球、跟蹤墊、光學(xué)跟蹤設(shè)備 或觸摸屏來(lái)實(shí)現(xiàn)所述光標(biāo)控制設(shè)備114。盡管前述如此,在一方面,例如響應(yīng)于與輸入設(shè)備 112相關(guān)的特定鍵和鍵序列命令的使用,經(jīng)由來(lái)自輸入設(shè)備112的輸入來(lái)指導(dǎo)和/或激活光 標(biāo)控制設(shè)備114。在另選方面,光標(biāo)控制設(shè)備114被配置成通過(guò)語(yǔ)音命令而被指導(dǎo)或引導(dǎo)。
[0073] 在一方面,計(jì)算機(jī)系統(tǒng)100還可以包括與地址/數(shù)據(jù)總線102聯(lián)接的一個(gè)或更多個(gè) 可選的計(jì)算機(jī)可用的數(shù)據(jù)存儲(chǔ)設(shè)備(例如,存儲(chǔ)設(shè)備116)。存儲(chǔ)設(shè)備116被配置成存儲(chǔ)信息 和/或計(jì)算機(jī)可執(zhí)行指令。在一方面,存儲(chǔ)設(shè)備116是諸如磁盤(pán)或光盤(pán)驅(qū)動(dòng)器(例如,硬盤(pán)驅(qū) 動(dòng)器("HDD")、軟盤(pán)、緊湊盤(pán)只讀存儲(chǔ)器("CD-ROM")、數(shù)字多功能盤(pán)("DVD"))的存儲(chǔ)設(shè)備。按 照一方面,顯示設(shè)備118與地址/數(shù)據(jù)總線102聯(lián)接,其中,顯示設(shè)備118被配置為顯示視頻 和/或圖形。在一方面,顯示設(shè)備118可以包括陰極射線管("CRT")、液晶顯示器("LCD")、場(chǎng) 發(fā)射顯示器("FED")、等離子顯示器、或適合于顯示用戶可識(shí)別的視頻和/或圖形圖像和字 母數(shù)字字符的任何其它顯示裝置。
[0074] 這里所呈現(xiàn)的計(jì)算機(jī)系統(tǒng)100是根據(jù)一方面的示例計(jì)算環(huán)境。但是,計(jì)算機(jī)系統(tǒng) 100的非限制性示例不是嚴(yán)格限定為計(jì)算機(jī)系統(tǒng)。例如,一方面提供了計(jì)算機(jī)系統(tǒng)100表示 用于根據(jù)本文描述的多方面的一種數(shù)據(jù)處理分析。并且,也可以實(shí)現(xiàn)其它計(jì)算系統(tǒng)。事實(shí) 上,本技術(shù)的精神和范圍不限于任何單一的數(shù)據(jù)處理環(huán)境。因此,在一方面,本技術(shù)的多個(gè) 方面的一個(gè)或更多個(gè)操作通過(guò)使用由計(jì)算機(jī)執(zhí)行的諸如程序模塊的計(jì)算機(jī)可執(zhí)行指令來(lái) 控制或?qū)崿F(xiàn)。在一個(gè)實(shí)現(xiàn)中,這樣的程序模塊包括被配置為執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象 數(shù)據(jù)類(lèi)型的例程、程序、對(duì)象、組件和/或數(shù)據(jù)結(jié)構(gòu)。此外,一方面提供了本技術(shù)的一個(gè)或更 多個(gè)方面通過(guò)利用一個(gè)或更多個(gè)分布式計(jì)算環(huán)境來(lái)實(shí)現(xiàn),例如特定任務(wù)由通過(guò)通信網(wǎng)絡(luò)鏈 接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行,或者例如各種程序模塊位于包括存儲(chǔ)器存儲(chǔ)設(shè)備的本地和遠(yuǎn)程 計(jì)算機(jī)存儲(chǔ)介質(zhì)二者。
[0075] 圖2中描述了實(shí)施本發(fā)明的一個(gè)方面的計(jì)算機(jī)程序產(chǎn)品(即,存儲(chǔ)設(shè)備)的示圖。所 述計(jì)算機(jī)程序產(chǎn)品被描述為軟盤(pán)200或諸如CD或DVD的光盤(pán)202。但是,如前所述,該計(jì)算機(jī) 程序產(chǎn)品通常表示存儲(chǔ)在任何兼容的非瞬時(shí)計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)可讀指令。針對(duì)本 發(fā)明使用的術(shù)語(yǔ)"指令"通常表示要在計(jì)算機(jī)上執(zhí)行的一組操作,并且可以表示整個(gè)程序的 多個(gè)片段或單獨(dú)的、可分離的、軟件模塊。"指令"的非限制示例包括計(jì)算機(jī)程序代碼(源代 碼或目標(biāo)代碼)和"硬編碼"電子(即編碼到計(jì)算機(jī)芯片中的計(jì)算機(jī)操作)。"指令"可以被存 儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中或諸如軟盤(pán)、CD-ROM以及閃存驅(qū)動(dòng)器的計(jì)算機(jī)可讀介質(zhì)上。在上述任 何一種情況下,指令被編碼在非瞬時(shí)計(jì)算機(jī)可讀介質(zhì)上。
[0076] (3)介紹
[0077] 描述了一種用于基于從搜索引擎(例如,谷歌)搜索量(例如,谷歌趨勢(shì)(GT))提取 的關(guān)鍵詞時(shí)間序列來(lái)預(yù)測(cè)諸如漢坦病毒的罕見(jiàn)疾病的發(fā)病的系統(tǒng)和方法。該方法的獨(dú)特方 面在于:1)來(lái)自社交媒體源(例如,GT)的增強(qiáng)濾波信號(hào)(EFS)的結(jié)構(gòu),2)將該信號(hào)包括在機(jī) 器學(xué)習(xí)(ML)中進(jìn)一步使用的數(shù)據(jù)集中,以及3)應(yīng)用整個(gè)流水線(pipeline)來(lái)預(yù)測(cè)疾病(例 如,漢坦病毒)發(fā)生。已經(jīng)證明,谷歌中的搜索活動(dòng)反應(yīng)了疾病活動(dòng)的水平并且能夠用來(lái)預(yù) 測(cè)罕見(jiàn)的疾病事件。例如對(duì)從衛(wèi)生部網(wǎng)站獲得的漢坦病毒發(fā)病的統(tǒng)計(jì)數(shù)字執(zhí)行系統(tǒng)的訓(xùn) 練。
[0078] 用于漢坦病毒預(yù)測(cè)的流水線被設(shè)計(jì)為與具有低信噪比(SNR)的數(shù)據(jù)集一起工作; 換句話說(shuō),與漢坦病毒發(fā)病率趨勢(shì)相關(guān)的信號(hào)基本上被噪聲污染。如上所述,流水線包括基 于線性相關(guān)(皮爾遜相關(guān))和機(jī)器學(xué)習(xí)技術(shù)的貝葉斯模型平均(BMA)的增強(qiáng)濾波的信號(hào)。這 些處理能夠捕獲發(fā)病率趨勢(shì)和疾病相關(guān)詞的網(wǎng)絡(luò)搜索查詢(xún)之間相關(guān)性的不同性質(zhì),在這種 意義上,這些處理是互補(bǔ)的。
[0079] 增強(qiáng)濾波信號(hào)(EFS)是基于通過(guò)所選搜索趨勢(shì)的求和的信號(hào)放大的想法。谷歌流 感趨勢(shì)(參見(jiàn)參考文獻(xiàn)1)的開(kāi)發(fā)人員利用了這個(gè)概念,但是在與本申請(qǐng)?zhí)岢龅沫h(huán)境不同的 環(huán)境下。他們(即,谷歌流感趨勢(shì)的開(kāi)發(fā)人員)選擇要包括多少個(gè)趨勢(shì)來(lái)進(jìn)行預(yù)測(cè)的標(biāo)準(zhǔn)依 賴(lài)于測(cè)試數(shù)據(jù)的去一樣本(one-sample-out)交叉驗(yàn)證的結(jié)果,并且他們具有與ILI疾病水 平高相關(guān)(最大R~0.95)的多個(gè)搜索時(shí)間序列。但是,他們不實(shí)施針對(duì)疾病預(yù)測(cè)的機(jī)器學(xué)習(xí) 方法。
[0080]本系統(tǒng)解決了監(jiān)控和監(jiān)測(cè)諸如漢坦的病毒的流行與傳播的需求。本系統(tǒng)通過(guò)用作 傳統(tǒng)監(jiān)測(cè)系統(tǒng)的補(bǔ)充,給衛(wèi)生部和其它衛(wèi)生決策者提供了在官方統(tǒng)計(jì)公布之前提供及時(shí)預(yù) 測(cè)并反映疾病傳播的當(dāng)前狀態(tài)的重要工具。本系統(tǒng)還可以用來(lái)預(yù)測(cè)登革熱,因?yàn)樵摬≡w 的發(fā)病在某些設(shè)置中可以改變一個(gè)數(shù)量級(jí)??傊?,本系統(tǒng)提供了描繪人類(lèi)行為特性的信號(hào) 間的相關(guān)性分析,這得到未來(lái)重要事件的預(yù)測(cè)(例如疾病預(yù)測(cè))。值得注意的是,本系統(tǒng)提供 了對(duì)現(xiàn)有技術(shù)的顯著技術(shù)改進(jìn)在于,即使在疾病趨勢(shì)與相關(guān)的搜索量趨勢(shì)之間存在低相關(guān) 性時(shí),本系統(tǒng)也能基于網(wǎng)絡(luò)搜索詞有效地預(yù)測(cè)疾病事件。下面提供具體細(xì)節(jié)。
[0081 ] (4)本發(fā)明的具體方面
[0082] 圖3提供了用于預(yù)測(cè)疾病(例如,漢坦病毒爆發(fā))的系統(tǒng)的系統(tǒng)圖。如圖所示,整個(gè) 流水線可以被劃分成三個(gè)主要模塊:預(yù)處理模塊300、學(xué)習(xí)模塊302和預(yù)測(cè)模塊304。預(yù)處理 模塊300提供了谷歌趨勢(shì)306的濾波和標(biāo)準(zhǔn)化。預(yù)處理模塊300還包括通過(guò)將時(shí)間序列307與 相關(guān)系數(shù)的最大絕對(duì)值相加而獲得的EFS信號(hào)308的計(jì)算。給具有高負(fù)相關(guān)性的時(shí)間序列 307添加負(fù)號(hào)。學(xué)習(xí)模塊302包括回歸310和機(jī)器學(xué)習(xí)(ML)312,其中,基于擬合來(lái)預(yù)測(cè)對(duì)疾病 發(fā)生的時(shí)間序列和活動(dòng)水平回歸的EFS時(shí)間序列。EFS信號(hào)308被添加至谷歌趨勢(shì)時(shí)間序列 306的數(shù)據(jù)集并且關(guān)于基本事實(shí)(ground truch)被訓(xùn)練;使用貝葉斯模型平均來(lái)聯(lián)合通過(guò) ML 312處理(例如,四種ML方法)的預(yù)測(cè)。根據(jù)回歸模塊310計(jì)算的活動(dòng)水平與來(lái)自ML 312的 預(yù)測(cè)相結(jié)合。簡(jiǎn)要地說(shuō),如果疾病發(fā)生量足夠大(例如,大于5或任何其它期望的預(yù)定閾值 數(shù)),則使用回歸310;另選地,如果發(fā)生量為?。ɡ纾∮?或任何其它期望的預(yù)定閾值 數(shù)),則使用機(jī)器學(xué)習(xí)(MLUWiFS信號(hào)308提供從回歸310切換到ML 312的閾值。下面將提 供關(guān)于這些模塊和處理中的每一個(gè)的具體細(xì)節(jié)。
[0083] 應(yīng)當(dāng)理解,雖然下文關(guān)于漢坦病毒描述了本系統(tǒng),但是本系統(tǒng)不限于此,因?yàn)楸鞠?統(tǒng)能出于預(yù)測(cè)目的應(yīng)用于任何疾病。話雖如此并且出于例示的目的,本系統(tǒng)針對(duì)在智利的 漢坦病毒預(yù)測(cè)進(jìn)行了試驗(yàn)。每周使用API下載疾病相關(guān)詞的谷歌趨勢(shì),并且該疾病相關(guān)詞的 谷歌趨勢(shì)是國(guó)家特定的。詞與漢坦病毒和其它疾病的名稱(chēng)、治療、癥狀相關(guān)。確認(rèn)病例的官 方統(tǒng)計(jì)數(shù)字從衛(wèi)生部網(wǎng)站獲得,針對(duì)智利在epi.minsal. cl/informe-situacion-epidemiologica-hantavirus-3/可以找到;該網(wǎng)站的公告每周更新且沒(méi)有延遲。由于官方 報(bào)道開(kāi)始于2008年,因此通報(bào)數(shù)據(jù)分析開(kāi)始于2008年。
[0084] (4.1)預(yù)處理模塊-增強(qiáng)濾波信號(hào)(EFS)
[0085]如上所述,本系統(tǒng)包括提供谷歌趨勢(shì)的濾波和標(biāo)準(zhǔn)化的預(yù)處理模塊,該預(yù)處理模 塊用于生成EFS信號(hào)。在谷歌趨勢(shì)中反應(yīng)了針對(duì)事件的社會(huì)興趣和社會(huì)反應(yīng)。該性質(zhì)用來(lái)構(gòu) 建用于監(jiān)測(cè)社會(huì)生活的不同方面(包括疾?。┑谋O(jiān)測(cè)系統(tǒng)。谷歌趨勢(shì)的信息是受許多方面和 因素影響的復(fù)雜處理。一般來(lái)說(shuō),感興趣的趨勢(shì)可以使用事件的時(shí)間序列和一些社會(huì)響應(yīng) 函數(shù)的卷積表示如下:
[0086] GT丨',-E'ts?(/)、,
[0087] 其中,GTe是感興趣的趨勢(shì),Ets是相關(guān)事件,并且奶是社會(huì)響應(yīng)函數(shù),該社會(huì)響應(yīng)函 數(shù)可以被表示為具有與事件的存在期成比例的標(biāo)準(zhǔn)偏差的高斯函數(shù)(非對(duì)稱(chēng)或?qū)ΨQ(chēng))。
[0088] 在病例確認(rèn)前可以在新的社交媒體源(例如,谷歌趨勢(shì))中討論事件中的一些(諸 如,漢坦病毒發(fā)?。⑶沂录械囊恍└鶕?jù)該事件對(duì)社會(huì)的影響還可以具有后歷史。因?yàn)?社會(huì)響應(yīng)函數(shù)(<|> s)是未知的且非常難估計(jì),因此利用表示事件率(被計(jì)算為具有五周時(shí)間 窗的移動(dòng)平均數(shù))的曲線來(lái)代替該社會(huì)響應(yīng)函數(shù),所述曲線向后偏移兩周以避免延遲(如圖 4所示)。圖4例如提供了例示漢坦活動(dòng)水平的曲線,該曲線示出了每個(gè)月的事件率對(duì)比漢坦 病毒疾病計(jì)數(shù)。事件率是每時(shí)段的疾病發(fā)生量(N/t);在這種情況下每個(gè)月的疾病計(jì)數(shù)量 (發(fā)生)。因此,根據(jù)本發(fā)明的原理的系統(tǒng)不使用谷歌趨勢(shì)與事件本身的相關(guān)性,而使用針對(duì) 相關(guān)性的事件率曲線來(lái)進(jìn)行分析。如在圖6中提供的表中所示,疾病相關(guān)趨勢(shì)示出了與事件 率而不是與事件發(fā)生(即,計(jì)數(shù))更高的相關(guān)性。
[0089] 在圖5中例示了由預(yù)處理模塊實(shí)現(xiàn)的(用于確定EFS308)處理。具體地,圖5是例示 針對(duì)N谷歌趨勢(shì)(GT)的數(shù)據(jù)集306和時(shí)間序列(TS)的數(shù)據(jù)集307的EFS308計(jì)算處理的流程 圖。系統(tǒng)以疾病相關(guān)詞的N谷歌趨勢(shì)的數(shù)據(jù)集306開(kāi)始。谷歌趨勢(shì)是Google Inc.的基于谷歌 搜索的公共網(wǎng)絡(luò)附加功能,其示出了在世界各個(gè)區(qū)域中,相對(duì)于總搜索量,多久輸入一次特 定搜索詞。應(yīng)注意,僅出于例示性目的使用谷歌趨勢(shì),因?yàn)楸景l(fā)明不意在被限于此,并且可 以使用登記搜索詞使用和搜索詞量(一般稱(chēng)為"趨勢(shì)結(jié)果")的任何服務(wù)來(lái)操作。因此,執(zhí)行 去趨勢(shì)和標(biāo)準(zhǔn)化500。換句話說(shuō),由于互聯(lián)網(wǎng)使用數(shù)量的增多而去除了趨勢(shì),且然后數(shù)據(jù)被 重新標(biāo)準(zhǔn)化為在〇至100的范圍中。當(dāng)谷歌趨勢(shì)用于疾病跟蹤和預(yù)測(cè)時(shí),由于更多的互聯(lián)網(wǎng) 使用而去趨勢(shì)例如通過(guò)研究人員被常規(guī)完成(參見(jiàn)參考文獻(xiàn)1、2、5、6、7和11)。在該非限制 性示例中,利用快速傅里葉變換(FFT)完成去趨勢(shì),因此從初始時(shí)間序列去除0頻率。之后, 執(zhí)行從0至1的數(shù)據(jù)標(biāo)準(zhǔn)化。
[0090] 系統(tǒng)然后執(zhí)行數(shù)據(jù)集濾波502以去除與被搜索事件(例如,漢坦病毒感染)的發(fā)生 無(wú)關(guān)的信號(hào)。為了去除這種無(wú)關(guān)信號(hào),系統(tǒng)首先通過(guò)執(zhí)行以下步驟來(lái)確定皮爾遜相關(guān)系數(shù) 的閾值504: (1)生成與GT數(shù)據(jù)集中相同數(shù)量的隨機(jī)時(shí)間序列;(2)如果GT數(shù)據(jù)集包含Μ個(gè)點(diǎn), 則在從0至100的范圍中隨機(jī)挑選數(shù)字Μ次,因此,每個(gè)時(shí)間序列的長(zhǎng)度與原始集中相同;(3) 計(jì)算基本事實(shí)與隨機(jī)趨勢(shì)中的每一個(gè)之間的最大皮爾遜相關(guān)系數(shù)R; (4)重復(fù)步驟(1)、(2) 和(3)足夠大數(shù)量的次數(shù)(例如,100次);(5)對(duì)數(shù)據(jù)集進(jìn)行濾波使得獲得的R的分布的平均 值是用于數(shù)據(jù)集濾波的閾值T r:其中,只有具有R>Tr的時(shí)間序列被加在一起并且形成EFS。在 本研究論文中,例如,T r = 0.14。
[0091] 出于例示性目的,圖7提供了針對(duì)智利的網(wǎng)絡(luò)搜索計(jì)算的EFS信號(hào)的圖(R=0.62)。 漢坦病毒的發(fā)病率的動(dòng)態(tài)具有季節(jié)周期,且具有兩個(gè)峰值:較弱的峰值在冬季,較強(qiáng)的峰值 在夏季,達(dá)到每周5至6個(gè)確認(rèn)病例。漢坦病毒相關(guān)搜索示出了與發(fā)病率趨勢(shì)的高相關(guān)性。 [0092] (4.2)學(xué)習(xí)模塊-對(duì)漢坦病毒發(fā)病的時(shí)間序列的EFS回歸和漢坦病毒發(fā)病的時(shí)間序 列上的谷歌趨勢(shì)時(shí)間序列的機(jī)器學(xué)習(xí)
[0093]如上所述,系統(tǒng)包括提供回歸和機(jī)器學(xué)習(xí)(ML)的學(xué)習(xí)模塊。采用多種分類(lèi)的學(xué)習(xí) 技術(shù)以預(yù)測(cè)是否要發(fā)生漢坦病毒發(fā)病(例如,是否將在下周內(nèi)發(fā)生發(fā)病)。如上所述,與其它 疾病相比,漢坦病毒計(jì)數(shù)相對(duì)低;因此,利用EFS曲線預(yù)測(cè)疾病活動(dòng)水平允許系統(tǒng)近似預(yù)測(cè) 病例的平均數(shù)量,而ML方法確定事件是否將(例如,在下周)發(fā)生。
[0094] EFS回歸允許系統(tǒng)準(zhǔn)確地預(yù)測(cè)下周將發(fā)生多少事件。例如,圖8是示出具有52周滑 動(dòng)窗的關(guān)于事件率的曲線的線性回歸的曲線圖。具體地,圖8描繪了作為對(duì)具有52周滑動(dòng)窗 的漢坦病毒發(fā)病率的EFS的回歸結(jié)果的提前一周(或任何其它預(yù)定時(shí)段)調(diào)節(jié)的事件率(粗 線)的預(yù)測(cè)。
[0095] 應(yīng)注意到什么查詢(xún)與漢坦病毒活動(dòng)最相關(guān)。例如,圖9是針對(duì)智利具有最尚相關(guān)系 數(shù)的值的網(wǎng)絡(luò)搜索詞的表。正如預(yù)料的那樣,漢坦病毒的名稱(chēng)及其癥狀在最高相關(guān)查詢(xún)當(dāng) 中,而針對(duì)其它疾病的查詢(xún)具有大的負(fù)相關(guān)性。一般來(lái)說(shuō),皮爾遜系數(shù)的值遠(yuǎn)小于由研究人 員針對(duì)諸如流感或登革熱的其它疾病而展示的那些,這可以通過(guò)已經(jīng)患有這種病的相對(duì)小 數(shù)量的人來(lái)解釋;因此,網(wǎng)絡(luò)搜索噪聲更多。
[0096] 如上所述,ML方法確定事件是否將(例如,在下周)發(fā)生。歷史數(shù)據(jù)集用于分析和訓(xùn) 練。作為非限制性示例并且針對(duì)本文描述的結(jié)果,分析了從2010年1月至2013年10月的數(shù) 據(jù),且訓(xùn)練周期是2010年1月至2012年10月。使用了四種ML技術(shù),這四種ML技術(shù)對(duì)于本領(lǐng)域 技術(shù)人員來(lái)說(shuō)全部是已知的,這四種ML技術(shù)包括邏輯回歸(LR)、自適應(yīng)增強(qiáng)(AB)、決策樹(shù) (DT)和支持向量機(jī)(SVM)。然后,使用貝葉斯模型平均(BMA)來(lái)結(jié)合這四種預(yù)測(cè)。使用R包 (package) ( "glm"、"ada"、"rpart"、"svm"和"bms")來(lái)進(jìn)行分析。如本領(lǐng)域技術(shù)人員理解的 那樣,上述包通常理解為包的名稱(chēng)R,而在本情況下,用作ML。
[0097] 以下特征構(gòu)成了分析的數(shù)據(jù)集:
[0098] a.收集并濾波與漢坦病毒相關(guān)的詞的網(wǎng)絡(luò)搜索查詢(xún)以解釋增大的互聯(lián)網(wǎng)用戶數(shù) 量;
[0099] b.EFS曲線被添加至數(shù)據(jù)集;
[0100] C.時(shí)間序列向前偏移一周以解釋之前的信息;以及
[0101] d.生成時(shí)間序列的動(dòng)量(原始的、偏移的和EFS)。動(dòng)量是時(shí)間序列中用來(lái)解釋關(guān)鍵 詞計(jì)數(shù)變化的兩個(gè)連續(xù)點(diǎn)之間的差。
[0102] 可應(yīng)用多個(gè)特征選擇標(biāo)準(zhǔn)以便去除噪聲和不相關(guān)特征。這些特征選擇標(biāo)準(zhǔn)的非限 制性示例包括如在"FSelector"包(R)中實(shí)施的線性相關(guān)、秩相關(guān)、基于信息的標(biāo)準(zhǔn)和隨機(jī) 森林重要性(RFI)標(biāo)準(zhǔn)。針對(duì)每個(gè)特征選擇標(biāo)準(zhǔn),利用不同數(shù)量的選擇特征(從~150至2)執(zhí) 行ML分析,然后執(zhí)行針對(duì)降維的主成分分析(PCA)。為了展示性能,圖10中示出了針對(duì)訓(xùn)練 數(shù)據(jù)集獲得的最佳R0C曲線,且每個(gè)模型的參數(shù)針對(duì)訓(xùn)練數(shù)據(jù)集被估計(jì)。所有技術(shù)在精確性 和其它性能評(píng)估指標(biāo)方面示出了類(lèi)似的表現(xiàn)。如果在應(yīng)用隨機(jī)森林重要性(RFI)濾波之后 只留下了四至五個(gè)特征,則觀察到最佳性能。
[0103] 應(yīng)注意,在該示例中,使用RFI標(biāo)準(zhǔn)計(jì)算在所有特征當(dāng)中具有最高分?jǐn)?shù)的EFS曲線。
[0104] (4.3)預(yù)測(cè)模塊-針對(duì)智利的漢坦病毒發(fā)病的實(shí)時(shí)預(yù)測(cè)
[0105] 如上面所注意到的,系統(tǒng)并入了預(yù)測(cè)模塊,該預(yù)測(cè)模塊生成在未來(lái)時(shí)段(例如,下 周)內(nèi)將發(fā)生疾病事件的可能性或概率。在圖11中,在真實(shí)事件旁例示了通過(guò)四種ML技術(shù)和 BMA估計(jì)的事件將發(fā)生的概率(即,預(yù)測(cè))。換句話說(shuō),如果發(fā)生真正的事件(即,真實(shí)事件), 則歷史概率為1,而如果沒(méi)有發(fā)生真正的事件,則歷史概率為0。如所示,BMA曲線與真實(shí)事件 的序列具有相當(dāng)高的相關(guān)性。能夠估計(jì)具有最佳性能的概率值的閾值;該閾值例如大約是 0.6,且查全率(recall)大約是0.72,并且查準(zhǔn)率大約是0.87。應(yīng)注意到,在許多實(shí)例中,BMA 曲線的預(yù)測(cè)峰值與真實(shí)事件曲線的峰值共現(xiàn)。人們可以針對(duì)不同概率值畫(huà)出一條線并且計(jì) 算兩條曲線的峰值共現(xiàn)幾次。之后,計(jì)算查準(zhǔn)率和查全率。針對(duì)不同的概率值自動(dòng)完成查準(zhǔn) 率和查全率的計(jì)算。然后,選擇具有最佳對(duì)查準(zhǔn)率/查全率的概率值以提供預(yù)測(cè)結(jié)果。
[0106] 本文描述的系統(tǒng)用于智利的漢坦病例的實(shí)時(shí)預(yù)測(cè)。該系統(tǒng)每周運(yùn)行以估計(jì)下周將 發(fā)生事件的概率;每次系統(tǒng)運(yùn)行,提供之前的50周作為測(cè)試時(shí)段以基于最佳性能標(biāo)準(zhǔn)來(lái)估 計(jì)概率閾值。結(jié)果呈現(xiàn)在圖12中所示的表中(針對(duì)從2013年6月直到2013年10月初的時(shí)段)。 病例確認(rèn)的日期被視為事件日期。最早報(bào)道的日期(ERD)是由智利衛(wèi)生部公布公告的日期 (智利衛(wèi)生部每周公布病例的公告)。時(shí)間窗是進(jìn)行預(yù)測(cè)的日期(即,表中的運(yùn)行日期)到事 件日期之間的天數(shù)。即使事件日期被視為病例確認(rèn)的日期,一個(gè)特定疾病歷史的發(fā)展也花 很長(zhǎng)時(shí)間:這些病例通常在農(nóng)村地區(qū)發(fā)生并且第一個(gè)癥狀能在官方確認(rèn)之前的兩至四周出 現(xiàn)。鑒于此,時(shí)間窗可以針對(duì)預(yù)測(cè)而增大(例如,多達(dá)14天)以被標(biāo)注為正確。只有在ERD前至 少一天被預(yù)測(cè)且在時(shí)間窗(例如,14天時(shí)間窗)內(nèi)發(fā)生的病例被視為有效預(yù)測(cè)。列"N天"示出 對(duì)要發(fā)生的事件數(shù)量的估計(jì)(即,基于EFS曲線的回歸根據(jù)活動(dòng)水平分析進(jìn)行的預(yù)測(cè))。例 如,如果在最近四周中只發(fā)生了兩個(gè)事件并且存在對(duì)一個(gè)事件的活動(dòng)水平的預(yù)測(cè),則這意 味著將發(fā)生三個(gè)事件(活動(dòng)水平被計(jì)算為5周中的事件數(shù)量)。如表所示,發(fā)生了 7個(gè)事件并 且系統(tǒng)正確地預(yù)測(cè)出了它們中的五個(gè)("丟了"2個(gè))。進(jìn)行了9個(gè)預(yù)測(cè);因此,在該示例中的查 全率是0.71并且查準(zhǔn)率是0.56。運(yùn)行日期到事件日期(提前時(shí)間)之間的天數(shù)構(gòu)成平均6.6 天,且時(shí)間窗平均是4.8天。
[0107] (4.4)結(jié)論
[0108] 總之,描述了獨(dú)特的疾病預(yù)測(cè)系統(tǒng),該系統(tǒng)對(duì)現(xiàn)有技術(shù)的顯著技術(shù)改進(jìn)在于,即使 在疾病趨勢(shì)與相關(guān)搜索量趨勢(shì)之間存在低相關(guān)性時(shí)(與要求高相關(guān)性的現(xiàn)有技術(shù)相反),該 系統(tǒng)也能基于網(wǎng)絡(luò)搜索詞有效地預(yù)測(cè)疾病事件。如上所述的系統(tǒng)需要用于EFS計(jì)算和ML分 析的方法和技術(shù)的詳細(xì)序列,這允許漢坦病毒發(fā)病率的預(yù)報(bào)和實(shí)時(shí)預(yù)測(cè)?;趯?duì)含有感興 趣的信號(hào)的時(shí)間序列的求和來(lái)生成EFS曲線以增加信噪比(SNR)。該曲線對(duì)事件率曲線的回 歸用于活動(dòng)水平的估計(jì)。使用BMA結(jié)合的機(jī)器學(xué)習(xí)技術(shù)的預(yù)報(bào)是下周將發(fā)生/不發(fā)生/事件 的概率。如果ML預(yù)測(cè)超過(guò)閾值,則基于使用EFS曲線獲得的活動(dòng)水平來(lái)估計(jì)將發(fā)生多少事件 并且發(fā)布預(yù)報(bào)。整個(gè)系統(tǒng)在智利進(jìn)行了預(yù)測(cè)漢坦病毒發(fā)病率的實(shí)時(shí)測(cè)試,該系統(tǒng)展示了可 接受的性能水平,查全率為〇. 71且查準(zhǔn)率為0.56。
【主權(quán)項(xiàng)】
1. 一種使用開(kāi)源數(shù)據(jù)的疾病預(yù)測(cè)系統(tǒng),該系統(tǒng)包括: 預(yù)處理模塊,所述預(yù)處理模塊用于接收與疾病事件相關(guān)的N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集并且 生成與所述疾病事件相關(guān)的增強(qiáng)濾波信號(hào)EFS曲線; 學(xué)習(xí)模塊,所述學(xué)習(xí)模塊接收所述EFS曲線,生成所述疾病事件的病例的預(yù)測(cè)數(shù)量,并 且使用多種機(jī)器學(xué)習(xí)方法生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù)測(cè);以及 預(yù)測(cè)模塊,所述預(yù)測(cè)模塊針對(duì)所述多個(gè)預(yù)測(cè)中的每一個(gè)確定查準(zhǔn)率和查全率,并且基 于所述查準(zhǔn)率和所述查全率提供所述疾病事件將發(fā)生的可能性。2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,在生成所述EFS曲線中,所述預(yù)處理模塊還對(duì)所述 數(shù)據(jù)集執(zhí)行去趨勢(shì)、標(biāo)準(zhǔn)化以及濾波的操作以去除與搜索的疾病事件的發(fā)生無(wú)關(guān)的信號(hào)。3. 根據(jù)權(quán)利要求2所述的系統(tǒng),其中,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,利用皮爾遜系數(shù)的 閾值對(duì)所述數(shù)據(jù)集進(jìn)行濾波。4. 根據(jù)權(quán)利要求3所述的系統(tǒng),其中,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,所述預(yù)處理模塊通 過(guò)執(zhí)行以下操作來(lái)確定皮爾遜系數(shù)的閾值: 生成與所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集中相同數(shù)量的隨機(jī)時(shí)間序列; 如果所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集包含Μ個(gè)點(diǎn),則在從0至100的范圍中隨機(jī)挑選數(shù)字Μ次, 使得每個(gè)時(shí)間序列的長(zhǎng)度相同; 計(jì)算基本事實(shí)與每個(gè)隨機(jī)趨勢(shì)之間的最大皮爾遜相關(guān)系數(shù)R; 重復(fù)生成、隨機(jī)挑選以及計(jì)算的操作預(yù)定次數(shù);以及 對(duì)所述Ν個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集進(jìn)行濾波,使得R的分布的均值是用于數(shù)據(jù)集濾波的閾值 Tr,從而只將具有R>Tr的時(shí)間序列一起求和并且形成所述EFS。5. 根據(jù)權(quán)利要求4所述的系統(tǒng),其中,在提供所述疾病事件將發(fā)生的可能性中,選擇所 述多個(gè)預(yù)測(cè)中的提供最佳查準(zhǔn)率/查全率對(duì)的預(yù)測(cè)作為所述疾病事件將發(fā)生的可能性。6. 根據(jù)權(quán)利要求5所述的系統(tǒng),其中,生成所述疾病事件的病例的預(yù)測(cè)數(shù)量還包括以下 操作:利用提前預(yù)定時(shí)段被調(diào)節(jié)的滑動(dòng)窗對(duì)所述EFS曲線執(zhí)行線性回歸。7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其中,生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù) 測(cè)還包括以下操作:使用邏輯回歸、自適應(yīng)增強(qiáng)、決策樹(shù)和支持向量機(jī)來(lái)生成四種預(yù)測(cè),然 后執(zhí)行貝葉斯模型平均以組合所述四種預(yù)測(cè)。8. -種使用開(kāi)源數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)的方法,所述方法包括以下動(dòng)作: 使一個(gè)或更多個(gè)處理器執(zhí)行存儲(chǔ)在非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)上的代碼,使得在執(zhí)行時(shí), 所述一個(gè)或更多個(gè)處理器執(zhí)行以下操作: 在預(yù)處理模塊中接收與疾病事件相關(guān)的N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集并且生成與所述疾病事 件相關(guān)的增強(qiáng)濾波信號(hào)EFS曲線; 在學(xué)習(xí)模塊中接收所述EFS曲線,生成所述疾病事件的病例的預(yù)測(cè)數(shù)量,并且使用多種 機(jī)器學(xué)習(xí)方法生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù)測(cè);以及 利用預(yù)測(cè)模塊針對(duì)所述多個(gè)預(yù)測(cè)中的每一個(gè)確定查準(zhǔn)率和查全率,并且基于所述查準(zhǔn) 率和所述查全率提供所述疾病事件將發(fā)生的可能性。9. 根據(jù)權(quán)利要求8所述的方法,其中,在生成所述EFS曲線中,所述預(yù)處理模塊還對(duì)所述 數(shù)據(jù)集執(zhí)行去趨勢(shì)、標(biāo)準(zhǔn)化以及濾波的操作,以去除與搜索的疾病事件的發(fā)生無(wú)關(guān)的信號(hào)。10. 根據(jù)權(quán)利要求9所述的方法,其中,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,利用皮爾遜系數(shù)的 閾值對(duì)所述數(shù)據(jù)集進(jìn)行濾波。11. 根據(jù)權(quán)利要求10所述的方法,其中,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,所述預(yù)處理模塊 通過(guò)執(zhí)行以下操作來(lái)確定皮爾遜系數(shù)的閾值: 生成與所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集中相同數(shù)量的隨機(jī)時(shí)間序列; 如果所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集包含Μ個(gè)點(diǎn),則在從0至100的范圍中隨機(jī)挑選數(shù)字Μ次, 使得每個(gè)時(shí)間序列的長(zhǎng)度相同; 計(jì)算基本事實(shí)與每個(gè)隨機(jī)趨勢(shì)之間的最大皮爾遜相關(guān)系數(shù)R; 重復(fù)生成、隨機(jī)挑選以及計(jì)算的操作預(yù)定次數(shù);以及 對(duì)所述Ν個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集進(jìn)行濾波,使得R的分布的平均值是用于數(shù)據(jù)集濾波的閾 值Tr,從而只將具有R>Tr的時(shí)間序列一起求和并且形成所述EFS。12. 根據(jù)權(quán)利要求11所述的方法,其中,在提供所述疾病事件將發(fā)生的可能性中,選擇 所述多個(gè)預(yù)測(cè)中的提供最佳查準(zhǔn)率/查全率對(duì)的預(yù)測(cè)作為所述疾病事件將發(fā)生的可能性。13. 根據(jù)權(quán)利要求12所述的方法,其中,生成所述疾病事件的病例的預(yù)測(cè)數(shù)量還包括以 下操作:利用提前預(yù)定時(shí)段被調(diào)節(jié)的滑動(dòng)窗對(duì)所述EFS曲線執(zhí)行線性回歸。14. 根據(jù)權(quán)利要求13所述的方法,其中,生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè) 預(yù)測(cè)還包括以下操作:使用邏輯回歸、自適應(yīng)增強(qiáng)、決策樹(shù)和支持向量機(jī)來(lái)生成四種預(yù)測(cè), 然后執(zhí)行貝葉斯模型平均以組合所述四種預(yù)測(cè)。15. -種使用開(kāi)源數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括: 非瞬態(tài)計(jì)算機(jī)可讀介質(zhì),所述非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)在其上編碼有可執(zhí)行指令,使得 當(dāng)由一個(gè)或更多個(gè)處理器執(zhí)行所述指令時(shí),所述一個(gè)或更多個(gè)處理器執(zhí)行以下操作: 在預(yù)處理模塊中接收與疾病事件相關(guān)的N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集并且生成與所述疾病事 件相關(guān)的增強(qiáng)濾波信號(hào)EFS曲線; 在學(xué)習(xí)模塊中接收所述EFS曲線,生成所述疾病事件的病例的預(yù)測(cè)數(shù)量,并且使用多種 機(jī)器學(xué)習(xí)方法生成所述疾病事件將在未來(lái)時(shí)段內(nèi)發(fā)生的多個(gè)預(yù)測(cè);以及 利用預(yù)測(cè)模塊針對(duì)所述多個(gè)預(yù)測(cè)中的每一個(gè)確定查準(zhǔn)率和查全率,并且基于所述查準(zhǔn) 率和所述查全率提供所述疾病事件將發(fā)生的可能性。16. 根據(jù)權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其中,在生成所述EFS曲線中,所述預(yù)處理 模塊還對(duì)所述數(shù)據(jù)集執(zhí)行去趨勢(shì)、標(biāo)準(zhǔn)化以及濾波的操作,以去除與搜索的疾病事件的發(fā) 生無(wú)關(guān)的信號(hào)。17. 根據(jù)權(quán)利要求16所述的計(jì)算機(jī)程序產(chǎn)品,其中,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,利用 皮爾遜系數(shù)的閾值對(duì)所述數(shù)據(jù)集進(jìn)行濾波。18. 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)程序產(chǎn)品,其中,在對(duì)所述數(shù)據(jù)集進(jìn)行濾波中,所述 預(yù)處理模塊通過(guò)執(zhí)行以下操作來(lái)確定皮爾遜系數(shù)的閾值: 生成與所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集中相同數(shù)量的隨機(jī)時(shí)間序列; 如果所述N個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集包含Μ個(gè)點(diǎn),則在從0至100的范圍中隨機(jī)挑選數(shù)字Μ次, 使得每個(gè)時(shí)間序列的長(zhǎng)度相同; 計(jì)算基本事實(shí)與每個(gè)隨機(jī)趨勢(shì)之間的最大皮爾遜相關(guān)系數(shù)R; 重復(fù)生成、隨機(jī)挑選以及計(jì)算的操作預(yù)定次數(shù);以及 對(duì)所述Ν個(gè)趨勢(shì)結(jié)果的數(shù)據(jù)集進(jìn)行濾波,使得R的分布的平均值是用于數(shù)據(jù)集濾波的閾 值Tr,從而只將具有R>Tr的時(shí)間序列一起求和并且形成所述EFS。19. 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)程序產(chǎn)品,其中,在提供所述疾病事件將發(fā)生的可能 性中,選擇所述多個(gè)預(yù)測(cè)中的提供最佳查準(zhǔn)率/查全率對(duì)的預(yù)測(cè)作為所述疾病事件將發(fā)生 的可能性。20. 根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中,生成所述疾病事件的病例的預(yù)測(cè)數(shù) 量還包括以下操作:利用提前預(yù)定時(shí)段被調(diào)節(jié)的滑動(dòng)窗對(duì)所述EFS曲線執(zhí)行線性回歸。21. 根據(jù)權(quán)利要求20所述的計(jì)算機(jī)程序產(chǎn)品,其中,生成所述疾病事件將在未來(lái)時(shí)段內(nèi) 發(fā)生的多個(gè)預(yù)測(cè)還包括以下操作:使用邏輯回歸、自適應(yīng)增強(qiáng)、決策樹(shù)和支持向量機(jī)來(lái)生成 四種預(yù)測(cè),然后執(zhí)行貝葉斯模型平均以組合所述四種預(yù)測(cè)。
【文檔編號(hào)】G06F19/00GK106030589SQ201580009030
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2015年2月19日
【發(fā)明人】S·阿普列勒瓦, T-C·盧
【申請(qǐng)人】赫爾實(shí)驗(yàn)室有限公司