1.一種將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,包括如下步驟:
(1)對(duì)體檢診斷數(shù)據(jù)進(jìn)行文本分詞和新詞發(fā)現(xiàn)處理,得到詞序列;
(2)在詞序列中,提取所需要的疾病詞匯,得到疾病名稱(chēng);
(3)對(duì)疾病名稱(chēng)中的同義詞進(jìn)行歸并,得到歸并的疾病名稱(chēng);
(4)對(duì)疾病名稱(chēng)進(jìn)行聚類(lèi),建立疾病類(lèi)目樹(shù);
(5)根據(jù)歸并的疾病名稱(chēng)和疾病類(lèi)目樹(shù)進(jìn)行疾病標(biāo)記,得到疾病標(biāo)簽。
2.根據(jù)權(quán)利要求1所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:步驟(1)的具體步驟為:
(1-1)對(duì)體檢診斷數(shù)據(jù)中原生的診斷結(jié)果進(jìn)行分詞,得到文本詞序列;
(1-2)根據(jù)文本詞序列中詞語(yǔ)之間的關(guān)系進(jìn)行詞語(yǔ)合并,得到新詞匯;
(1-3)對(duì)新詞匯再進(jìn)行分詞,得到詞序列。
3.根據(jù)權(quán)利要求2所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:在步驟(1-1)中,對(duì)于體檢診斷數(shù)據(jù)中原生的診斷結(jié)果,首先,使用Trie樹(shù)加字典進(jìn)行分詞匹配,然后,對(duì)其分詞匹配的結(jié)果做進(jìn)一步地索引和統(tǒng)計(jì),得到最大概率分詞結(jié)果,稱(chēng)為文本詞序列。
4.根據(jù)權(quán)利要求3所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:采用動(dòng)態(tài)規(guī)劃求解字符串的最大概率分詞結(jié)果。
5.根據(jù)權(quán)利要求2所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:在步驟(1-2)中,通過(guò)統(tǒng)計(jì)點(diǎn)互信息指標(biāo)來(lái)判斷詞語(yǔ)之間的關(guān)系。
6.根據(jù)權(quán)利要求1所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:在步驟(2)中,采用統(tǒng)計(jì)方法TF-IDF提取詞序列中的疾病名稱(chēng),并結(jié)合停用詞庫(kù),獲得體檢診斷結(jié)果文本的疾病名稱(chēng)。
7.根據(jù)權(quán)利要求1所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:在步驟(3)中,采用word2vec算法將各個(gè)疾病名稱(chēng)抽象成數(shù)學(xué)向量,再使用數(shù)學(xué)向量的距離計(jì)算同義詞。
8.根據(jù)權(quán)利要求1所述將體檢診斷數(shù)據(jù)轉(zhuǎn)化為疾病標(biāo)簽的方法,其特征在于:在步驟(4)中,采用隱含狄利克雷分布進(jìn)行疾病聚類(lèi)。