本發(fā)明涉及醫(yī)學(xué)健康,尤其涉及一種基于疾病聚類(lèi)的共病軌跡分類(lèi)方法和系統(tǒng)。
背景技術(shù):
1、在醫(yī)學(xué)健康領(lǐng)域,共病軌跡聚類(lèi)技術(shù)具有廣泛的應(yīng)用前景。該技術(shù)基于疾病發(fā)生發(fā)展的數(shù)據(jù),通過(guò)聚類(lèi)算法將疾病軌跡按照相似性進(jìn)行分組,以揭示共病發(fā)生發(fā)展模式的特征。這種技術(shù)能夠幫助醫(yī)生更好地識(shí)別和管理具有相似健康問(wèn)題的患者群體,制定更有效的治療方案和預(yù)防措施。此外,該技術(shù)還可用于研究疾病的發(fā)病機(jī)制和流行規(guī)律,為公共衛(wèi)生政策制定提供科學(xué)依據(jù)。
2、然而,現(xiàn)有軌跡聚類(lèi)方法對(duì)于疾病軌跡的聚類(lèi)存在顯著的局限性。由于某些常見(jiàn)疾病(如高血壓)與其他多種疾病之間存在廣泛而緊密的關(guān)聯(lián),現(xiàn)有的聚類(lèi)方法往往錯(cuò)誤地將這些相關(guān)性不高的疾病軌跡歸并至同一群組。以高血壓為例,其在多種疾病的發(fā)展路徑中均有出現(xiàn),但當(dāng)前聚類(lèi)技術(shù)經(jīng)常將含有高血壓的疾病軌跡無(wú)差別地聚類(lèi),即使這些軌跡在臨床實(shí)踐中并不具有高度的相關(guān)性,因此,無(wú)法捕捉共病的特點(diǎn)、針對(duì)共病的聚類(lèi)精確率低,進(jìn)而影響治療方案和預(yù)防措施的精準(zhǔn)性。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述的分析,本發(fā)明實(shí)施例旨在提供一種基于疾病聚類(lèi)的共病軌跡分類(lèi)方法和系統(tǒng),用以解決現(xiàn)有共病軌跡分類(lèi)精確率低的問(wèn)題。
2、一方面,本發(fā)明實(shí)施例提供了一種基于疾病聚類(lèi)的共病軌跡分類(lèi)方法,包括以下步驟:
3、獲取共病軌跡數(shù)據(jù),提取共病軌跡數(shù)據(jù)中的所有疾病,計(jì)算疾病間的相關(guān)性;
4、基于所述疾病間的相關(guān)性判斷疾病的屬性,基于疾病的屬性對(duì)共病軌跡數(shù)據(jù)中的所有疾病進(jìn)行二分巢式聚類(lèi),所述疾病的屬性包括樞紐疾病和非樞紐疾?。?/p>
5、根據(jù)疾病聚類(lèi)結(jié)果和每個(gè)疾病的屬性得到每條共病軌跡的類(lèi)型。
6、基于上述方法的進(jìn)一步改進(jìn),基于所述疾病間的相關(guān)性判斷疾病的屬性,基于疾病的屬性對(duì)共病軌跡數(shù)據(jù)中的所有疾病進(jìn)行二分巢式聚類(lèi),包括:
7、s20、對(duì)所有疾病集合進(jìn)行二分類(lèi)聚類(lèi)得到兩個(gè)子類(lèi)疾病集合;
8、s21、對(duì)于每個(gè)子類(lèi)疾病集合,基于該子類(lèi)疾病集合中疾病間的相關(guān)性判斷該子類(lèi)疾病集合中每個(gè)疾病的屬性;若該子類(lèi)疾病集合存在樞紐疾病并且非樞紐疾病的數(shù)量大于第一閾值,則將該子類(lèi)疾病集合作為一個(gè)待聚類(lèi)子集,否則,該子類(lèi)疾病集合為聚類(lèi)結(jié)果中的一個(gè)集;
9、s22、若存在待聚類(lèi)子集,則執(zhí)行s23-s25,否則,結(jié)束聚類(lèi);
10、s23、對(duì)每個(gè)待聚類(lèi)子集,剔除該待聚類(lèi)子集中疾病屬性為樞紐疾病的疾?。?/p>
11、s24、對(duì)每個(gè)剔除樞紐疾病的待聚類(lèi)子集,進(jìn)行二分類(lèi)聚類(lèi)得到每個(gè)待聚類(lèi)子集對(duì)應(yīng)的兩個(gè)子類(lèi)疾病集合;
12、s25、返回步驟s21。
13、基于上述方法的進(jìn)一步改進(jìn),采用以下方式基于該子類(lèi)疾病集合中疾病間的相關(guān)性判斷該子類(lèi)疾病集合中每個(gè)疾病的屬性:
14、計(jì)算該子類(lèi)疾病集合中疾病間的相關(guān)性的q-分位點(diǎn),基于所述q-分位點(diǎn)以及疾病間的相關(guān)性構(gòu)建該子類(lèi)疾病集合對(duì)應(yīng)的無(wú)向網(wǎng)絡(luò);
15、計(jì)算無(wú)向網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的度,基于每個(gè)節(jié)點(diǎn)的度確定該節(jié)點(diǎn)對(duì)應(yīng)疾病的屬性。
16、基于上述方法的進(jìn)一步改進(jìn),若節(jié)點(diǎn)的度dd>α×(|b|-1),則節(jié)點(diǎn)對(duì)應(yīng)的疾病為樞紐疾病,否則該節(jié)點(diǎn)對(duì)應(yīng)的疾病為非樞紐疾病,α表示比例參數(shù),|b|表示子類(lèi)疾病集合b的疾病數(shù)量。
17、基于上述方法的進(jìn)一步改進(jìn),根據(jù)疾病聚類(lèi)結(jié)果和每個(gè)疾病的屬性采用以下方式得到每條共病軌跡的類(lèi)型:
18、對(duì)于每條共病軌跡,若該共病軌跡不存在非樞紐疾病,則該共病軌跡屬于樞紐類(lèi)共病軌跡;否則:
19、若僅存在一個(gè)聚類(lèi)類(lèi)型,該共病軌跡中有超過(guò)第一數(shù)量的疾病屬于所述聚類(lèi)類(lèi)型,則該共病軌跡的類(lèi)型為所述聚類(lèi)類(lèi)型;
20、若存在兩個(gè)以上聚類(lèi)類(lèi)型,對(duì)于所述兩個(gè)以上聚類(lèi)類(lèi)型中的每個(gè)聚類(lèi)類(lèi)型,該共病軌跡中均有超過(guò)第一數(shù)量的疾病屬于所述聚類(lèi)類(lèi)型,則該共病軌跡中第一個(gè)非樞紐疾病所屬的聚類(lèi)類(lèi)型為該共病軌跡的類(lèi)型;
21、否則,該共病軌跡屬于混合類(lèi)共病軌跡。
22、基于上述方法的進(jìn)一步改進(jìn),采用以下方式計(jì)算疾病間的相關(guān)性:
23、
24、其中,表示第i個(gè)疾病di和第j個(gè)疾病dj間的相關(guān)性,表示同時(shí)包含di和dj的共病軌跡的數(shù)量,表示包含di或dj的共病軌跡的數(shù)量。
25、另一方面,本發(fā)明實(shí)施例提供了一種基于疾病聚類(lèi)的共病軌跡分類(lèi)系統(tǒng),包括以下模塊:
26、相關(guān)性計(jì)算模塊,用于獲取共病軌跡數(shù)據(jù),提取共病軌跡數(shù)據(jù)中的所有疾病,計(jì)算疾病間的相關(guān)性;
27、疾病聚類(lèi)模塊,用于基于所述疾病間的相關(guān)性判斷疾病的屬性,基于疾病的屬性對(duì)共病軌跡數(shù)據(jù)中的所有疾病進(jìn)行二分巢式聚類(lèi),所述疾病的屬性包括樞紐疾病和非樞紐疾??;
28、軌跡分配模塊,用于根據(jù)疾病聚類(lèi)結(jié)果和每個(gè)疾病的屬性得到每條共病軌跡的類(lèi)型。
29、基于上述系統(tǒng)的進(jìn)一步改進(jìn),基于所述疾病間的相關(guān)性判斷疾病的屬性,基于疾病的屬性對(duì)共病軌跡數(shù)據(jù)中的所有疾病進(jìn)行二分巢式聚類(lèi),所述疾病的屬性包括樞紐疾病和非樞紐疾病,包括:
30、s20、對(duì)所有疾病集合進(jìn)行二分類(lèi)聚類(lèi)得到兩個(gè)子類(lèi)疾病集合;
31、s21、對(duì)于每個(gè)子類(lèi)疾病集合,基于該子類(lèi)疾病集合中疾病間的相關(guān)性判斷該子類(lèi)疾病集合中每個(gè)疾病的屬性;若該子類(lèi)疾病集合存在樞紐疾病并且非樞紐疾病的數(shù)量大于第一閾值,則將該子類(lèi)疾病集合作為一個(gè)待聚類(lèi)子集,否則,該子類(lèi)疾病集合為聚類(lèi)結(jié)果中的一個(gè)集;
32、s22、若存在待聚類(lèi)子集,則執(zhí)行s23-s25,否則,結(jié)束聚類(lèi);
33、s23、對(duì)每個(gè)待聚類(lèi)子集,剔除該待聚類(lèi)子集中疾病屬性為樞紐疾病的疾??;
34、s24、對(duì)每個(gè)剔除樞紐疾病的待聚類(lèi)子集,進(jìn)行二分類(lèi)聚類(lèi)得到每個(gè)待聚類(lèi)子集對(duì)應(yīng)的兩個(gè)子類(lèi)疾病集合;
35、s25、返回步驟s21。
36、基于上述系統(tǒng)的進(jìn)一步改進(jìn),采用以下方式基于該子類(lèi)疾病集合中疾病間的相關(guān)性判斷該子類(lèi)疾病集合中每個(gè)疾病的屬性:
37、計(jì)算該子類(lèi)疾病集合中疾病間的相關(guān)性的q-分位點(diǎn),基于所述分位點(diǎn),以該子類(lèi)疾病集合中的疾病為節(jié)點(diǎn)、疾病間的相關(guān)性為邊構(gòu)建該子類(lèi)疾病集合對(duì)應(yīng)的無(wú)向網(wǎng)絡(luò);
38、計(jì)算無(wú)向網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的度,基于每個(gè)節(jié)點(diǎn)的度確定該節(jié)點(diǎn)對(duì)應(yīng)疾病的屬性。
39、基于上述系統(tǒng)的進(jìn)一步改進(jìn),若節(jié)點(diǎn)的度dd>α×(|b|-1),則節(jié)點(diǎn)對(duì)應(yīng)的疾病為樞紐疾病,否則該節(jié)點(diǎn)對(duì)應(yīng)的疾病為非樞紐疾病,α表示比例參數(shù),|b|表示子類(lèi)疾病集合b的疾病數(shù)量。
40、與現(xiàn)有技術(shù)相比,本發(fā)明通過(guò)獲取共病軌跡數(shù)據(jù)后,提取出軌跡所覆蓋的疾病并計(jì)算疾病間的相關(guān)性,然后基于相關(guān)性進(jìn)行疾病屬性判斷,基于疾病屬性對(duì)軌跡所覆蓋的所有疾病進(jìn)行二分巢式聚類(lèi),從而能夠識(shí)別出聚類(lèi)間的層次結(jié)構(gòu)關(guān)系,通過(guò)基于相關(guān)性識(shí)別出鏈接不同聚類(lèi)群組間的樞紐疾病,可以有效分離出這些常見(jiàn)的疾病,從而基于疾病聚類(lèi)結(jié)果和每個(gè)疾病的屬性準(zhǔn)確得到每條共病軌跡的類(lèi)型,提高了分類(lèi)的精確性;同時(shí),本實(shí)施例提供的共病軌跡分類(lèi)方法克服了傳統(tǒng)非模糊處理中不允許群組間存在重疊結(jié)構(gòu)、模糊聚類(lèi)無(wú)法形成樞紐疾病隸屬于多個(gè)子類(lèi)而非樞紐節(jié)點(diǎn)僅隸屬于單個(gè)子類(lèi)的缺陷,允許不同群組之間存在一定程度的重疊,這使得聚類(lèi)結(jié)果更加符合實(shí)際情況,因?yàn)榧膊≈g的關(guān)系往往不是絕對(duì)的,而是存在多種可能性和交叉,通過(guò)支持重疊結(jié)構(gòu),并且進(jìn)行巢式聚類(lèi),本發(fā)明得到的軌跡類(lèi)型能夠更全面地反映疾病的復(fù)雜性和多樣性,并且有助于醫(yī)生更好地理解疾病的發(fā)展路徑和相互關(guān)系,從而制定更加精準(zhǔn)的治療方案和預(yù)防措施。此外,還可用于研究疾病的發(fā)病機(jī)制和流行規(guī)律,為公共衛(wèi)生政策制定提供科學(xué)依據(jù)。
41、本發(fā)明中,上述各技術(shù)方案之間還可以相互組合,以實(shí)現(xiàn)更多的優(yōu)選組合方案。本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分優(yōu)點(diǎn)可從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)說(shuō)明書(shū)以及附圖中所特別指出的內(nèi)容中來(lái)實(shí)現(xiàn)和獲得。