本發(fā)明涉及醫(yī)學(xué)健康,尤其涉及一種共病軌跡聚類方法和系統(tǒng)。
背景技術(shù):
1、在醫(yī)學(xué)健康研究的廣闊領(lǐng)域中,共病軌跡聚類技術(shù)展現(xiàn)出巨大的潛力和應(yīng)用價值。該技術(shù)深耕于疾病演變的復(fù)雜數(shù)據(jù),運用先進的聚類算法,依據(jù)疾病發(fā)生發(fā)展間的相似性將它們分門別類,旨在揭示共病現(xiàn)象的內(nèi)在規(guī)律和演進模式。這不僅為臨床醫(yī)生提供了辨識與管理具有相似健康挑戰(zhàn)患者群體的有力工具,還促進了更加精準的治療策略與預(yù)防性干預(yù)措施的制定。此外,該技術(shù)對于疾病發(fā)病機制的探索及流行病學(xué)的深入分析同樣具有深遠意義,為公共衛(wèi)生策略的科學(xué)制定奠定了堅實的基礎(chǔ)。
2、然而,現(xiàn)有軌跡聚類方法對于疾病軌跡的聚類存在顯著的局限性。由于某些常見疾病(如高血壓)與其他多種疾病之間存在廣泛而緊密的關(guān)聯(lián),現(xiàn)有的聚類方法往往錯誤地將這些相關(guān)性不高的疾病軌跡歸并至同一群組。以高血壓為例,其在多種疾病的發(fā)展路徑中均有出現(xiàn),但當前聚類技術(shù)經(jīng)常將含有高血壓的疾病軌跡無差別地聚類,即使這些軌跡在臨床實踐中并不具有高度的相關(guān)性,因此,無法捕捉共病的特點、針對共病的聚類精確率低,進而影響治療方案和預(yù)防措施的精準性。
技術(shù)實現(xiàn)思路
1、鑒于上述的分析,本發(fā)明實施例旨在提供一種共病軌跡聚類方法和系統(tǒng),用以解決現(xiàn)有共病軌跡聚類精確率低的問題。
2、一方面,本發(fā)明實施例提供了一種共病軌跡聚類方法,包括以下步驟:
3、獲取共病軌跡數(shù)據(jù),計算共病軌跡間的相關(guān)性;
4、構(gòu)建初始軌跡集合,基于所述共病軌跡間的相關(guān)性對所述初始軌跡集合進行二分聚類得到兩個子類軌跡集合;
5、對于每個子類軌跡集合,基于該子類軌跡集合中疾病鏈的連通度得到該子類軌跡集合中每條共病軌跡的屬性,基于所述共病軌跡的屬性判斷該子類軌跡集合是否為待聚類軌跡子集;所述屬性包括樞紐和非樞紐;
6、若存在待聚類軌跡子集,則對每個待聚類軌跡子集進行二分巢式聚類;得到共病軌跡的聚類結(jié)果。
7、基于上述方法的進一步改進,基于該子類軌跡集合中疾病鏈的連通度得到該子類軌跡集合中每條共病軌跡的屬性,包括:
8、計算該子類軌跡集合中每條疾病鏈的連通度,基于每條疾病鏈的連通度得到每條疾病鏈的屬性;
9、對于該子類軌跡集合中的每條共病軌跡,若該共病軌跡覆蓋樞紐疾病鏈則該共病軌跡為樞紐共病軌跡,否則該共病軌跡為非樞紐共病軌跡。
10、基于上述方法的進一步改進,計算該子類軌跡集合中每條疾病鏈的連通度,基于每條疾病鏈的連通度得到每條疾病鏈的屬性,包括:
11、對于該子類軌跡集合中的每條疾病鏈,該疾病鏈的連通度為該子類軌跡集合中包含該疾病鏈中至少一個疾病的共病軌跡的數(shù)量;
12、若疾病鏈的連通度de≥q×(|aij|),則該疾病鏈為樞紐疾病鏈,否則該疾病鏈為非樞紐疾病鏈,q表示比例參數(shù),|aij|表示子類軌跡集合aij的共病軌跡數(shù)量。
13、基于上述方法的進一步改進,對每個待聚類軌跡子集進行二分巢式聚類,包括:
14、s41、對每個待聚類軌跡子集,剔除該待聚類軌跡子集中的樞紐共病軌跡;若該待聚類軌跡子集存在無連接的共病軌跡,則剔除無連接的共病軌跡;
15、s42、對每個剔除無連接的共病軌跡后的待聚類軌跡子集,進行二分類聚類得到每個待聚類軌跡子集對應(yīng)的兩個子類軌跡集合;
16、s43、基于該子類軌跡集合中疾病鏈的連通度得到該子類軌跡集合中每條共病軌跡的屬性,基于所述共病軌跡的屬性判斷該子類軌跡集合是否為待聚類軌跡子集;將非待聚類軌跡子集作為聚類結(jié)果中的一個類集;
17、s44、若存在待聚類軌跡子集,則返回步驟s41,否則,結(jié)束聚類,執(zhí)行步驟s45;
18、s45、若存在無連接的共病軌跡,對于每條無連接的共病軌跡,基于該無連接的共病軌跡與其他共病軌跡的連通度得到該無連接的共病軌跡所屬的類集。
19、基于上述方法的進一步改進,基于該無連接的共病軌跡與其他共病軌跡的連通度得到該無連接的共病軌跡所屬的類集,包括:
20、該無連接的共病軌跡與其他共病軌跡的相關(guān)性計算該無連接的共病軌跡與每個類集的相關(guān)性,將該無連接的共病軌跡歸于相關(guān)性最大的類集。
21、基于上述方法的進一步改進,采用以下方式計算共病軌跡間的相關(guān)性:
22、
23、其中,表示第i條共病軌跡vi和第j條共病軌跡vj間的相關(guān)性,表示第i條共病軌跡vi和第j條共病軌跡vj共同包含的疾病的數(shù)量,表示第i條共病軌跡vi和第j條共病軌跡vj總共包含的疾病的數(shù)量。
24、另一方面,本發(fā)明實施例提供了一種共病軌跡聚類系統(tǒng),包括以下模塊:
25、相關(guān)性計算模塊,用于獲取共病軌跡數(shù)據(jù),計算共病軌跡間的相關(guān)性;
26、初始聚類模塊,用于構(gòu)建初始軌跡集合,基于所述共病軌跡間的相關(guān)性對所述初始軌跡集合進行二分聚類得到兩個子類軌跡集合;對于每個子類軌跡集合,基于該子類軌跡集合中疾病鏈的連通度得到該子類軌跡集合中每條共病軌跡的屬性,基于所述共病軌跡的屬性判斷該子類軌跡集合是否為待聚類軌跡子集;所述屬性包括樞紐和非樞紐;
27、二分巢式聚類模塊,用于若存在待聚類軌跡子集,則對每個待聚類軌跡子集進行二分巢式聚類;得到共病軌跡的聚類結(jié)果。
28、基于上述系統(tǒng)的進一步改進,基于該子類軌跡集合中疾病鏈的連通度得到該子類軌跡集合中每條共病軌跡的屬性,包括:
29、計算該子類軌跡集合中每條疾病鏈的連通度,基于每條疾病鏈的連通度得到每條疾病鏈的屬性;
30、對于該子類軌跡集合中的每條共病軌跡,若該共病軌跡覆蓋樞紐疾病鏈則該共病軌跡為樞紐共病軌跡,否則該共病軌跡為非樞紐共病軌跡。
31、基于上述系統(tǒng)的進一步改進,計算該子類軌跡集合中每條疾病鏈的連通度,基于每條疾病鏈的連通度得到每條疾病鏈的屬性,包括:
32、對于該子類軌跡集合中的每條疾病鏈,該疾病鏈的連通度為該子類軌跡集合中包含該疾病鏈中至少一個疾病的共病軌跡的數(shù)量;
33、若疾病鏈的連通度de≥q×(|aij|),則該疾病鏈為樞紐疾病鏈,否則該疾病鏈為非樞紐疾病鏈,q表示比例參數(shù),|aij|表示子類軌跡集合aij的共病軌跡數(shù)量。
34、基于上述系統(tǒng)的進一步改進,對每個待聚類軌跡子集進行二分巢式聚類,包括:
35、s41、對每個待聚類軌跡子集,剔除該待聚類軌跡子集中的樞紐共病軌跡;若該待聚類軌跡子集存在無連接的共病軌跡,則剔除無連接的共病軌跡;
36、s42、對每個剔除無連接的共病軌跡后的待聚類軌跡子集,進行二分類聚類得到每個待聚類軌跡子集對應(yīng)的兩個子類軌跡集合;
37、s43、基于該子類軌跡集合中疾病鏈的連通度得到該子類軌跡集合中每條共病軌跡的屬性,基于所述共病軌跡的屬性判斷該子類軌跡集合是否為待聚類軌跡子集;將非待聚類軌跡子集作為聚類結(jié)果中的一個類集;
38、s44、若存在待聚類軌跡子集,則返回步驟s41,否則,結(jié)束聚類,執(zhí)行步驟s45;
39、s45、若存在無連接的共病軌跡,對于每條無連接的共病軌跡,基于該無連接的共病軌跡與其他共病軌跡的連通度得到該無連接的共病軌跡所屬的類集。
40、與現(xiàn)有技術(shù)相比,本發(fā)明通過計算共病軌跡間的相關(guān)性,構(gòu)建初始軌跡集合,基于軌跡間的相關(guān)性對初始軌跡集合進行二分類得到兩個子類軌跡集合,基于子類軌跡集合中共病軌跡的屬性判斷集合是否是待聚類軌跡子集,非待聚類軌跡子集直接作為聚類結(jié)果中的一個類集,而對待聚類軌跡子集繼續(xù)進行二分巢式聚類,直至不存在待聚類軌跡子集,得到共病軌跡的聚類結(jié)果,從而針對軌跡結(jié)構(gòu)特點,基于軌跡對軌跡直接進行聚類,準確識別跨不同群組的樞紐軌跡,克服了傳統(tǒng)不允許群組間存在重疊結(jié)構(gòu)、隸屬關(guān)系不明確等缺陷,能夠直接在軌跡層面上捕捉疾病演變的連續(xù)性與關(guān)聯(lián)性,從而實現(xiàn)更加精準、穩(wěn)定的共病軌跡聚類,并且由于是直接對軌跡進行聚類,因此不存在當軌跡內(nèi)的疾病節(jié)點分散于不同聚類時,軌跡的最終歸類需依賴于不甚穩(wěn)定的外部規(guī)則,如多數(shù)原則,這可能導(dǎo)致部分軌跡歸類模糊或不合理的問題,因此聚類結(jié)果更加穩(wěn)定準確。
41、本發(fā)明中,上述各技術(shù)方案之間還可以相互組合,以實現(xiàn)更多的優(yōu)選組合方案。本發(fā)明的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分優(yōu)點可從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過說明書以及附圖中所特別指出的內(nèi)容中來實現(xiàn)和獲得。